Casos de utilização 103 - Análise de requisitos 100

5 Análise de Repetições de Codões e de Aminoácidos 99

5.2 Análise de requisitos 100

5.2.2 Casos de utilização 103

Para modelar o sistema ao nível dos requisitos funcionais elaboraram-se os diagramas de casos de utilização em UML da primeira e da segunda fase, conforme podemos observar na Figura 5.1 e na Figura 5.2 respectivamente.

1ª Fase

A primeira fase consiste na concepção e desenvolvimento de um sistema que responda aos requisitos. Para mostrar a interacção entre o utilizador e o sistema, o diagrama de casos de utilização da Figura 5.1 apresenta as diversas funcionalidades que se pretendem implementar.

Figura 5.1: Diagrama de casos de utilização da 1ª Fase

1ª fase Procurar sequências repetidas utilizador Detecção automática de sequências de repetição Criar dendograma Agrupar sequências por similaridade Gerar_matriz de similaridade Converter codões para

Aminoácidos <<extend>>

Alterar parâmetros de visualização <<extend>>

Exportar ficheiro com repetições <<extend>> Exportar imagem do dendograma <<extend>> <<extend>> <<extend>>

104

O actor único do sistema é o “utilizador” que é simultaneamente um administrador. Não são necessários requisitos ao nível da segurança elaborados, uma vez que se trata de um sistema que poderá operar em ambiente privado, numa aplicação executável.

O caso de utilização “Procurar sequências repetidas” permite que a pesquisa de repetições de codões a partir de um ficheiro de dados no formato FASTA. Após a abertura do ficheiro de dados, se o utilizador assim pretender, pode invocar o caso de utilização “Converter codões para aminoácidos” que deverá efectuar a conversão directa usando a tabela 2.1, de tradução de codões para aminoácidos. Analogamente ao sistema concebido no capítulo anterior, também aqui deverá ser incluída a possibilidade de serem usadas tabelas de tradução alternativas para a associação entre codões e aminoácidos. Ao utilizador fica também disponível a funcionalidade de exportação do ficheiro contendo os resultados obtidos para um formato aberto (CSV, TAB ou outro).

O caso de utilização “Detecção automática de sequências de repetição” deverá implementar a funcionalidade de procurar uma determinada sequência contendo codões ou aminoácidos repetidos, num conjunto arbitrário de genes de outros organismos, devolvendo a sua localização no gene. Considerando que poderá não existir a sequência de entrada nalguns genes, o algoritmo a ser implementado terá que devolver as sequências que melhor se ajustarão à sequência inicial.

De forma a estabelecer a comparação entre diversas sequências de dados biológicos ou genes, o caso de utilização “Gerar matriz de similaridade” deverá implementar uma funcionalidade que crie a matriz de distâncias de Levenshtein [163] entre as várias sequências. A conveniência dessa funcionalidade surge da necessidade de se poder efectuar

clustering entre as sequências em análise.

Ao obter-se a matriz de similaridade no caso de utilização descrito anteriormente, ao utilizador cabe a decisão de efectuar agrupamentos de dados através do caso de utilização “Agrupar sequências por similaridade”. Este deverá realizar clustering, estabelecendo regras de semelhança entre as sequências, agrupando-as dessa forma entre si.

Da mesma forma, após a realização de clustering, o utilizador deverá ter acesso à construção do dendograma, ferramenta comummente utilizada neste contexto, através da

105

invocação do caso de utilização “Criar dendograma”. Este por sua vez deverá permitir a alteração dos parâmetros de visualização bem como possibilitar a exportação do dendograma para um formato gráfico. Essas funcionalidades serão invocadas pelos casos de utilização “Alterar parâmetros de visualização” e “Exportar imagem do dendograma” respectivamente.

2ª Fase

A segunda fase considera os casos de utilização que tentam responder aos requisitos definidos anteriormente, estando representados do diagrama da Figura 5.2.

Figura 5.2: Diagrama de casos de utilização da 2ª Fase

2ª fase Procurar sequências repetidas utilizador Pesquisa de dados por geneID Obter dados de codões Obter dados de aminoácidos Obter dados de doenças por gene

Obter genes ortólogos

Definir parâmetros de similaridade <<extend>> Gravar ficheiros de ortólogos Definir parâmetros de detecção de repetições <<extend>> Gravar_relatório_de_resultados <<include>> <<include>> <<include>> <<include>> <<extend>> <<extend>>

106

Preferencialmente, o sistema utilizará serviços Web disponibilizados pelo KEGG, uma vez que este disponibiliza um conjunto de funcionalidades bastante simples de utilizar. No entanto outras bases de dados poderão ser consideradas.

Os casos de utilização “Obter dados de codões”, “Obter dados de aminoácidos” e “Obter dados de doenças por gene” recorrem ao caso de utilização “Pesquisa de dados por geneID” que por sua vez deverá recorrer a serviços Web para obter essa informação, junto da base de dados on-line.

A obtenção de dados dos genes ortólogos, caso de utilização “Obter genes ortólogos” também recorre ao caso de utilização “Pesquisa de dados por geneID”. Esse caso de utilização deverá obter para um determinado gene, os genes ortólogos, presentes numa lista de organismos. Dessa forma poder-se-á posteriormente gravar os dados contendo os genes ortólogos para uma lista de organismos.

O caso de utilização “Procurar sequências repetidas” difere dos métodos incluídos na primeira fase, pelo facto de que deverá permitir a pesquisa on-line e com tolerância a erros parametrizável. Uma vez que esta componente deverá efectuar a pesquisa iterativamente com recurso a serviços Web, o sistema deverá permitir a gravação automática de ficheiros com os resultados do processamento.

No documento Análise de tripletos e de repetições em estruturas primárias de DNA (páginas 121-124)