• Nenhum resultado encontrado

10. Resultados

10.1. SeedServer

10.1.7. SeedServer em interface web

Para facilitar e incentivar a utilização do SeedServer foi criada uma interface

web [http://pinguim.fmrp.usp.br/cenabid/form_SS.html] de fácil manuseio onde é

necessário apenas o cadastramento do usuário sem a necessidade de senha e escolha de alguns parâmetros, sendo que assim que processados os resultados podem ser visualizados a qualquer momento.

Cada processo criado gera um identificador numérico único e uma página de consulta é disponibilizada para cada usuário informando a lista completa de Seeds respectivamente utilizadas, de forma a manter um histórico dos estudos já realizados. Para auxiliar novos usuários foi criado um guia passo a passo completo,

perfazendo todas as etapas do recrutamento SeedServer e ajuda na interpretação dos dados obtidos (Figura 14).

Figura 14: Página web principal desenvolvida para disponibilização do SeedServer. Atalhos

representados por números em vermelho na Figura - 1: Página principal para escolha dos parâmetros, como Seed(s), parâmetros Seed Linkage, grupo taxonômico e validação PSI-BLAST; 2: Página para obtenção e visualização dos resultados; 3: Cadastramento de novos usuários; 4: Obtenção do histórico de projetos por usuário; 5: Guia de ajuda.

De posse de um determinado identificador numérico que identifica o processo o usuário efetua a consulta dos resultados SeedServer visualizados em forma de tabela (Figura 15).

Nesse momento é possível consultar dados referentes ao recrutamento para as seqüências PSI-validadas como a categoria que a proteína pertence (Seed Linkage, KO e UEKO), número de resíduos de aminoácidos, identificador numérico taxonômico interligado à base Taxonomy do NCBI, informação de se a proteína é SwissProt ou TrEMBL, valores de E-value usados na validação PSI-BLAST, maior SOV obtido com a(s) Seed(s) e finalmente a descrição da seqüência FASTA disponível pelo UniProtKB.

Esta página também oferece serviços adicionais, como disponibilização para descarregamento dos dados referentes ao agrupamento, obtenção detalhada do LCA, seqüências em formato FASTA e, por fim, um relatório taxonômico completo. É importante antecipar que a determinação detalhada do LCA é realizada por uma requisição remota feita a outro servidor, que contém toda a tabela taxonômica em memória e, portanto pode retornar a informação precisa do clado mais recente que reúne todos os identificadores taxonômicos dos homólogos agrupados. No relatório taxonômico é utilizada uma tabela com somente os clados de Lineu, portanto algumas informações de LCA são referentes ao clado de Lineu mais próximo.

Figura 15: Página web para visualização dos resultados SeedServer. Atalhos representados por

números em vermelho na Figura - 1: Botão para obtenção de um arquivo tabulado contendo todos os dados do(s) agrupamento(s) formado(s); 2: Botão para obtenção detalhada do LCA; 3: Botão para obtenção das seqüências em formato FASTA; 4: Botão para geração de relatório detalhado de taxonomia e presença/ausência de proteínas em grupos taxonômicos relacionados ao LCA.

O relatório detalhado oferece dados taxonômicos do LCA obtido, mesmo que ele não tenha uma classificação estabelecida na taxonomia de Lineu, assim como dados do grupo taxonômico de Lineu mais próximo. Os dados taxonômicos são: identificador numérico, nome e nível do grupo. O texto do resultado é apropriado para ser utilizado por programas.

O relatório taxonômico foi dividido em três partes, a saber: 1- Relatório das linhagens taxonômicas: oferece para cada proteína uma lista completa com os nomes disponíveis para os principais níveis taxonômicos, desde super-reino até espécie; 2- Relatório de contagem dos táxons: oferece uma contagem dos táxons presentes em cada um dos níveis taxonômicos; 3- Relatório para presença/ausência das proteínas em estudo em genomas pertencentes aos grupos taxonômicos relacionados ao LCA, com suporte da presença ou não de genomas completos nos respectivos grupos, sendo subdivido em: 3A- Mesmo nível taxonômico do LCA (grupos irmãos do LCA) e 3B- Um nível mais folha ao LCA (grupos filhos do LCA). A Figura 16 retrata um exemplo.

O fato de uma proteína não ter sido encontrada em um determinado táxon pode se justificar simplesmente pelo fato da falta de amostragem, dessa forma, evidenciar a presença de genomas completos em grupos irmãos do LCA ou grupos filhos, ajuda na inferência correta da origem do gene, bem como na dedução de quais grupos filhos do LCA herdaram o mesmo.

Para exemplificar a usabilidade desse relatório, um estudo do nosso grupo ainda em desenvolvimento, já mencionado na seção 10.1.5, referente à via de proteínas envolvidas em resistência a seca de plantas, teve todos seus grupos de homólogos inspecionados. Um quadro completo retratando a ausência de proteínas a partir de determinados grupos taxonômicos, com suporte de genomas completos, está mostrado na Figura 17. Os genes representados por círculos estão presentes em A.

thaliana e ausentes no grupo irmão indicado, enquanto por retângulo, ausentes em

todos os irmãos da linhagem de A. thaliana. Por exemplo, ABA2 não ocorre somente em archaea, mesmo com 122 genomas completos.

Um estudo ainda mais abrangente abordando deleções deduzidas dos grupos de homólogos será mostrado ao longo da próxima seção.

Figura 16: Página web contendo relatório da presença/ausência das proteínas em grupos

taxonômicos no mesmo nível e um nível inferior ao LCA (filo Metazoa) que é mostrada com suporte da existência do total de genomas: completamente seqüenciados, em processo de montagem, incompletos ou sem projeto. Azul escuro: táxon onde proteína foi encontrada; Azul claro: táxon onde a proteína não foi encontrada. LCA: Lowest Common Ancestor.

Figura 17: Ausência de proteínas envolvidas na resistência a seca em plantas em diversos grupos

taxonômicos. Proteínas representadas por: Retângulos - estão ausentes em grupos taxonômicos de mesmo nível; Círculos – estão ausentes somente no respectivo grupo. Grupo taxonômico representados em: Cinza – possui genoma completo; Branco: possui genoma em montagem. Total de genomas completos ou em montagem mostrados entre parênteses. Grupos que possuem somente genomas incompletos não foram representados. Setas contínuas: taxonomia do organismo de referência Arabidopsis thaliana. Setas pontilhadas: taxonomia dos outros grupos representados. Níveis taxonômicos não intitulados não possuem classificação estabelecida (ex: Embryophyta).

Documentos relacionados