• Nenhum resultado encontrado

GSCore – aplicação para processamento de tripletos em genomas 87

4   Análise de Tripletos de Codões e de Aminoácidos 65

4.4   Solução Informática Desenvolvida GeneSplit 87

4.4.1   GSCore – aplicação para processamento de tripletos em genomas 87

A aplicação GSCore que implementa entre outros, os algoritmos descritos anteriormente, foi desenvolvida em Visual Basic 2008. O estudo que serviu de validação da aplicação produziu resultados importantes tendo sido publicados em [142-144].

A interface da aplicação é simples e funcional, iniciando-se com o formulário principal representado na Figura 4.10, que permite a selecção do orfeoma a ser processado, bem como dos métodos e operações que se pretendem executar sobre os dados.

Atendendo aos requisitos definidos bem como á metodologia definida para a sua implementação, a aplicação foi sendo desenvolvida e testada junto dos potenciais interessados – no presente caso, os biólogos que definiram as necessidades para o estudo de tripletos de codões em orfeomas. Foram implementadas as funcionalidades definidas nos requisitos, nomeadamente:

 Contagens de tripletos de codões/aminoácidos.

 Determinação de cadeias máximas de codões/aminoácidos.  Agrupamento de sequências repetidas de codões/aminoácidos.  Visualização/gravação do relatório de processamento de dados.

88

 Opção de ignorar ou não grandes cadeias (superior a 3) repetidas do mesmo codão.

 Relatório contendo informação relativa aos genes que foram desprezados e a causa dessa exclusão.

 Inclusão no relatório, dos genes que possuem cadeias longas de codões iguais, com a indicação de quantos codões são desprezados.

 Possibilidade de trabalhar com bases CATG ou com as bases CAUG, sendo a detecção efectuada de forma automática.

 Utilização dos ficheiros no formato FASTA directamente.

 Opção de utilização de arquivo em lotes, permitindo processar ficheiros de diversas fontes (diferentes pastas), com a inclusão de comentários, precedidos de “;”.

Figura 4.10: GeneSplit - Interface para processamento de um orfeoma

Utilizando a estrutura definida pela ontologia, qualquer utilizador do sistema poderá efectuar a análise de tripletos de genomas e guardar os dados numa base de dados reconhecida pela aplicação (a presente aplicação suporta base de dados MDB Access), bastando para isso marcar a opção respectiva no separador Settings da aplicação GeneSplit-GSCore, conforme exemplificado na figura 4.11.

89

Figura 4.11: Parametrização da aplicação GSCore

Os dados das diversas contagens são guardados em ficheiros no formato CSV, podendo, no entanto, ser gravadas directamente na base de dados, conforme definido nos requisitos. A aplicação inclui outros algoritmos que não estão referidos explicitamente, mas que realizam todo o pré-processamento, nomeadamente cálculos estatísticos, (médias, frequências relativas, frequência esperada, etc.) pelo que o resultado final do processamento da aplicação inclui esses dados pré-processados, no formato e tipo especificado pela ontologia.

A título de parametrização da aplicação, de referir que é possível definir o número mínimo de codões que os genes deverão conter, sendo por defeito 12.

Por omissão todos os genes que contiverem um símbolo não reconhecido serão ignorados, sendo considerados inválidos. O símbolo mais frequentemente utilizado para referir um nucleótido desconhecido num gene é a letra “N”, contudo, poderá ser seleccionado ou digitado directamente, outro símbolo que permita a detecção de genes inválidos.

A aplicação efectua a contagem dos tripletos de codões e de aminoácidos de um em um, podendo, no entanto, ser alterado o parâmetro Step de forma a efectuar as contagens numa

90

modalidade diferente (por exemplo, de três em três será bastante mais rápido, mas omitirá bastantes ocorrências).

No caso da entrada de dados ser para processamento em batch, os ficheiros produzidos, serão criados automaticamente com base no nome do ficheiro original, seguido da data e hora da criação, na localização (pasta) do ficheiro original (Figura 4.12).

Figura 4.12: Exemplo do ficheiro de configuração de processamento em lotes

Os ficheiros de dados de um determinado genoma poderão estar separados em vários ficheiros, normalmente por cromossomas, pelo que é necessário previamente juntar esses ficheiros num ficheiro único. Para superar essa restrição, foi efectuada uma extensão aos requisitos sobre o processamento em lotes, tendo sido implementada a opção “Merge

files”. Essa opção permite que os resultados de análise de vários ficheiros indicados num

arquivo de processamento em lotes, possam ser acumulados para um só orfeoma, minimizando a carga de memória que seria necessária para manipular ficheiros de dados muito grandes. Por outro lado reduz consideravelmente o tempo de preparação do ficheiro de dados inicial, quando o orfeoma está separado por diversos genes, cada um no seu ficheiro. O resultado será guardado num ficheiro como se de um orfeoma isolado se tratasse.

A tabela de tradução dos codões para os respectivos aminoácidos (Tabela 2.1) não é igual para todos os organismos. Existem organismos, como por exemplo a Candida albicans que traduz o codão CTG/CUG como Serina e não como Leucina, que seria a tradução natural [135]. Para prever essas situações foi incorporada na aplicação, representada na Figura 4.13, uma funcionalidade que permite definir em tempo de execução a tabela de tradução dos codões nos respectivos aminoácidos.

91

Figura 4.13: Alteração da tabela de associação entre codão e aminoácido

Nesta opção, basta seleccionar o codão que se pretende alterar, escrever a abreviatura do aminoácido traduzido, como no exemplo, e pressionar o botão “Change”.

A aplicação implementa a produção de um relatório extenso sobre o processamento de cada gene (figura 4.10). Esse processamento inclui: a identificação do gene; a indicação se o gene é válido ou não, mostrando nesse caso o motivo da exclusão; se a opção para ignorar repetições estiver marcada, o módulo regista quais os codões repetidos que foram ignorados, em que posição e quantidade.

O relatório pela sua extensão torna-se difícil de analisar pelo que foi implementado um módulo para a análise dos genes ou codões excluídos durante o processamento, conforme apresentado na Figura 4.14.

A ferramenta de filtragem utiliza o relatório produzido e apresenta num formato de folha de dados, a lista dos genes em que ocorreram exclusão de codões da contagem, bem como os respectivos codões e quantidades ignoradas (Figura 4.14B).

Através desta ferramenta é possível exportar os dados para uma folha de cálculo para processamento posterior e análise das repetições excluídas. Dessa análise poderá por exemplo, obter-se informação respeitante ao volume de dados que são ignorados na leitura sem as repetições quando comparado com as contagens de tripletos sem exclusões.

92

Figura 4.14: Análise do relatório de genes e codões excluídos em sequências longas

(A) Fragmento do ficheiro de relatório com exclusão de sequências repetidas; (B) Análise de relatório, com filtragem dos codões excluídos por repetição do mesmo codão