• Nenhum resultado encontrado

Análise de Possíveis Agentes como. Fontes para Obtenção de. Sistemas Moleculares Complexos

N/A
N/A
Protected

Academic year: 2021

Share "Análise de Possíveis Agentes como. Fontes para Obtenção de. Sistemas Moleculares Complexos"

Copied!
74
0
0

Texto

(1)

UNIVERSIDADE DE SÃO PAULO

FACULDADE DE FILOSOFIA CIÊNCIAS E LETRAS DE

RIBEIRÃO PRETO

FACULDADE DE MEDICINA DE RIBEIRÃO PRETO

INFORMÁTICA BIOMÉDICA

Análise de Possíveis Agentes como

Fontes para Obtenção de

Sistemas Moleculares Complexos

André Luis da Silva Breve

Ribeirão Preto - SP

2006

(2)

UNIVERSIDADE DE SÃO PAULO

FACULDADE DE FILOSOFIA CIÊNCIAS E LETRAS DE

RIBEIRÃO PRETO

FACULDADE DE MEDICINA DE RIBEIRÃO PRETO

INFORMÁTICA BIOMÉDICA

Análise de Possíveis Agentes como

Fontes para Obtenção de

Sistemas Moleculares Complexos

André Luis da Silva Breve

Orientadora: Profª. Drª. Silvana Giuliatti

Co-Orientador: Msc. Henrique C. S. Silveira

Monografia apresentada como parte dos requisitos para obtenção do título de bacharel em Informática Biomédica

Ribeirão Preto - SP

2006

(3)

RESUMO

Alguns genes presentes em bactérias e no homem não são encontrados em organismos situados no intervalo compreendido entre esses extremos evolutivos. Uma hipótese para explicar tal ocorrência é de que alguns vírus podem ter criado genes e colonizado duas linhagens diferentes, como bactérias e vertebrados. O trabalho em questão compreende o desenvolvimento de um sistema computacional que auxilie no processo de pesquisa relacionado à hipótese anteriormente mencionada, ou seja, a procura de genes de organismos simples, como os vírus, no genoma humano. Para testar a metodologia, bem como a ferramenta, foram escolhidos dois vírus que infectam algas: os vírus Chlorella e Feldmannia. As seqüências escolhidas foram relacionadas à DNA-Polimerase, à Helicase e à Ligase tendo em vista que são enzimas (proteínas) presentes no processo de replicação celular, atividade essa efetuada por todas as células, dando indícios da possibilidade de presença nas bactérias e no ser humano. A ferramenta desenvolvida é capaz de efetuar os alinhamentos de forma automática. Essa ferramenta denominada PAST (Protein Alignment Search Tool) não se restringe apenas a vírus, pode ser utilizada para outros organismos e é composta por um banco de dados, contendo os genes de interesse, e uma junção de ferramentas de processamento de seqüências.Um ambiente web também foi desenvolvido para tornar a ferramenta disponível para usuários que necessitem efetuar alinhamentos com as seqüências do banco de dados. Os resultados finais foram os esperados. A nova ferramenta obteve resultados bastante satisfatórios quanto ao seu funcionamento bem como à pesquisa em questão, tendo em vista que muitos organismos apresentaram seqüências semelhantes às seqüências dos vírus adotados, inclusive o homem.

(4)

SUMÁRIO

LISTA DE FIGURAS ...IV LISTA DE TABELAS...VI LISTA DE SIGLAS... VII

CAPÍTULO 1... 1 INTRODUÇÃO ... 1 1.1CONTEXTUALIZAÇÃO... 1 1.2.MOTIVAÇÃO... 4 1.3.OBJETIVOS... 4 1.4.ORGANIZAÇÃO DA MONOGRAFIA... 5 CAPÍTULO 2... 6 ESTADO DA ARTE... 6 2.1.CONSIDERAÇÕES INICIAIS... 6

2.2.UMA HIPÓTESE PARA DNA DE VÍRUS COMO ORIGEM DE PROTEÍNAS DE REPLICAÇÃO DE EUCARIOTOS... 6

2.3.CONSIDERAÇÕES FINAIS... 8

CAPÍTULO 3... 9

METODOLOGIA ... 9

3.1.CONSIDERAÇÕES INICIAIS... 9

3.2.ESCOLHA DOS GENES DE INTERESSE... 9

3.3.ANÁLISE DE DADOS... 10 3.3.1. GenBank ... 10 3.3.2. BLASTP ... 11 3.3.3. ClustalW ... 12 3.3.4. BioEdit... 12 3.3.5. PHYLIP ... 13 3.3.6. MEGA ... 14

3.4DESENVOLVIMENTO DA FERRAMENTA PAST ... 15

3.4.1. blast.pl ... 16 3.4.2. get_fasta.pl ... 17 3.4.3. filtragem.pl ... 18 3.4.4. blast_clustal.pl... 18 3.4.5. blast_total.pl... 18 3.4.6. clustalw.pl... 19 3.5.DESENVOLVIMENTO DO AMBIENTE WEB... 19 3.5.1. Drupal ... 19 3.6.CONSIDERAÇÕES FINAIS... 20 CAPÍTULO 4... 21 RESULTADOS... 21 4.1.CONSIDERAÇÕES INICIAIS... 21

4.2.RESULTADOS OBTIDOS NA FASE DE TESTE DA METODOLOGIA... 21

4.2.1. GenBank ... 21

4.2.2. BLASTP ... 22

4.2.3. ClustalW ... 23

(5)

4.3.1. GenBank ... 25 4.3.2. blast.pl ... 26 4.3.3. get_fasta.pl ... 28 4.3.4. filtragem.pl ... 29 4.3.5. blast_clustal.pl... 30 4.3.6. clustalw.pl... 30

4.4.ANÁLISE DOS DADOS... 31

4.4.1. BioEdit... 31 4.4.2. PHYLIP e MEGA... 33 4.5.AMBIENTE WEB... 38 4.6.CONSIDERAÇÕES FINAIS... 49 CAPÍTULO 5... 51 CONCLUSÕES E PERSPECTIVAS... 51 REFERÊNCIAS BIBLIOGRÁFICAS... 53 ANEXO A... 56

(6)

LISTA DE FIGURAS

Figura 1.1- O ciclo lítico de um bacteriófago generalizado (GRIFFITHS et al., 2002).

Figura 3.1- Organização do sistema desenvolvido. Os campos em amarelo representam os scripts, em branco são os arquivos de entrada/saída de cada rotina conforme indicação da seta. O campo em azul, por sua vez, corresponde ao script de junção das rotinas englobadas por ele. Figura 4.1 - Parte do resultado obtido pela execução na web da ferramenta BLASTP para a DNA-polimerase do vírus Chlorella. A figura mostra, por ordem de maior score (ou menor e-value) seqüências que tiveram alinhamento significante com a seqüência de entrada (seqüência query). O quadro, em vermelho, que delimita o primeiro organismo do alinhamento, mostra o Paramecium bursaria com melhor alinhamento. Os traços vermelhos, por sua vez, identificam seqüências que foram excluídas pela filtragem por se tratarem de um organismo já presente no resultado.

Figura 4.2 – Parte do resultado do alinhamento múltiplo efetuado pela ferramenta ClustalW para organismos que tiveram alinhamento significante com a DNA-polimerase do vírus

Chlorella.

Figura 4.3 – Parte da árvore guia gerada pela ferramenta ClustalW para alinhamento múltiplo das seqüências que tiveram alinhamento significante com a DNA-polimerase do vírus

Chlorella.

Figura 4.4 – Parte do resultado obtido pela execução do script blast.pl para a DNA-polimerase do vírus Chlorella. Em destaque, dentro do quadro vermelho, nota-se a presença de uma seqüência de Homo sapies, foco desta pesquisa.

Figura 4.5 – Parte do resultado obtido após execução do script get_fasta.pl. Nota-se a presença da seqüência FASTA de cada organismo logo abaixo do título da seqüência.

Figura 4.6 – Formatação obtida pelo arquivo de saída resultante da execução do script filtragem.pl.

Figura 4.7 – Tela gerada através do software BioEdit para o arquivo de alinhamento resultante do completa execução da ferramenta PAST para a seqüência de proteína da DNA-polimerase do vírus Chlorella. Os blocos na cor vermelha indicam as regiões conservadas. Estão destacados também na figura o vírus Chlorella e o Homo sapiens.

Figura 4.8 – Árvore filogenética completa, obtida pelo software MEGA e gerada pelo pacote de programas PHYLIP a partir do resultado da ferramenta PAST para a DNA-polimerase do vírus Chlorella. Os organismos em destaque na cor vermelha indicam, em cima, a presença do

Homo sapiens e em baixo o vírus Chlorella. A linha vermelha destaca os ramos da árvore que

ligam os organismos em questão.

Figura 4.9 – A figura mostra em detalhe a região da árvore filogenética que mostra a relação evolucionária entre o vírus Chlorella e o Homo sapiens em destaque.

Figura 4.10 – A figura ilustra uma árvore filogenética sem raiz gerada pelo conjunto de programas PHYLIP e desenhada pelo software MEGA na forma de radiação. Os organismos

(7)

do estudo fram identificados e ressaltados na cor vermelha, bem como o caminho que descreve a distância evolutiva entre eles.

Figura 4.11 – Página principal (Home) do ambiente web desenvolvido para disponibilização da ferramenta desenvolvida (PAST).

Figura 4.12 – A figura ilustra a página “A Ferramenta” pertencente ao ambiente web do sistema. Trata-se de uma breve explicação a respeito do sistema desenvolvido.

Figura 4.13 – Figura que ilustra a página responsável por iniciar o sistema, ou seja, executar a ferramenta PAST.

Figura 4.14 – Página que apresenta o resultado obtido após submissão das seqüências ao sistema.

Figura 4.15 – Página de apresentação do resultado obtido pela execução da ferramenta BLAST.

Figura 4.16 – Página de apresentação dos resultados gerados pela ferramenta ClustalW. São obtidos 3 arquivos que podem ser salvos ou, quando clicados, apresentarão seus respectivos conteúdos em uma nova página.

Figura 4.17 – Página “Contato” que possibilita ao usuário entrar em contato com o autor do

site. Ao preencher os campos e clicar em “Enviar mail”, a mensagem será entregue no

e-mail do autor do sistema.

Figura 4.18 – Figura que ilustra a página de comentários do site. Através dessa página o usuário pode disponibilizar sua opinião á respeito do amboente web e da ferramenta.

Figura 4.19 – Figura que ilustra a página “Links” do ambiente web desenvolvido.

Figura 4.20 – Página de créditos, na qual o autor agradece à equipe do laboratório onde ele desenvolveu o trabalho.

(8)

LISTA DE TABELAS

Tabela 4.2 - Análise dos resultados obtidos após execução do script blast.pl

Tabela 4.2 – Diferença entre o número de seqüências antes e depois da filtragem dos dados pelo script blast_clustal.pl

(9)

LISTA DE SIGLAS

BLAST: Basic Local Alignment Sequence Tool CMS: Content Management System

DNA: Deoxyribonucleic Acid (Ácido Desoxiribonucléico) HTML: Hypertext Markup Language

ID: código de identificação

MEGA: Molecular Evolutionary Genetics Analysis NCBI: National Center for Biotechology Information PAST: Protein Alignment Search Tool

Perl: Practical Extraction and Report Language PHYLIP: Phylogeny Inference Package RNA: Ribonucleic Acid (Ácido Ribonucléico)

(10)

Capítulo 1

INTRODUÇÃO

1.1 Contextualização

O avanço da biotecnologia vem proporcionando o desenvolvimento de técnicas poderosas na manipulação de ácidos nucléicos, o que torna o uso da informática imprescindível para o tratamento desse grande volume de dados. O seqüenciamento de genomas, como o humano (LANDER et al., 2001), resultou em um elevado número de seqüências nos bancos genômicos, tornando o estudo comparativo dos genes muito atraente para os pesquisadores da área de bioinformática.

Um exemplo desses estudos é a hipótese levantada por Luis P. Villarreal com base em pesquisas que mostram a ausência de alguns genes, cerca de 113 e 223, no intervalo evolutivo entre a bactéria e homem, respectivamente, enquanto que nesses dois extremos os mesmos genes encontraram-se presentes. A hipótese para explicar tal acontecimento proposta por Villarreal (VILLARREAL & DeFILIPPIS, 2000) consiste na idéia de que vírus possam ter inserido genes e colonizado tanto bactérias como vertebrados.

Os vírus possuem uma característica estrutural singular que os diferencia dos outros organismos conhecidos: não apresentam organização celular. Devido a essa característica, muito se discute sobre a classificação dos mesmos, inclusive muitos biólogos classificam os vírus como entidades distintas que de algum modo não estão totalmente vivos (GRIFFITHS et al., 2002).

A composição de um vírus consiste basicamente em uma pequena quantidade de ácido nucléico (DNA ou RNA) cercado por uma cápsula protetora consistente de proteína,

(11)

ou proteína e lipídio. Tal característica revela o fato de não possuírem a complexa maquinaria bioquímica necessária para efetuar os processos básicos de qualquer atividade vital, o que os torna incapazes de se auto-reproduzirem. Por este motivo são ditos parasitas obrigatórios, ou seja, somente se multiplicam pela invasão e possessão do controle da maquinaria de auto-reprodução de uma outra célula, denominada hospedeira.

A figura 1.1 mostra o ciclo lítico, processo de multiplicação celular, de um vírus bacteriófago (espécie que infecta bactérias e cianofíceas). No ciclo, o vírus invade a bactéria, onde, com o auxilio do maquinário de replicação da célula invadida, ele se multiplica e forma muitas partículas virais. Essas partículas vão sendo acumuladas até que a célula hospedeira se rompa (lise celular) e libere os novos bacteriófagos para o meio externo. (GRIFFITHS et al., 2002)

(12)

Lise da célula hospedeira Fagos livres Adsorção de fago à célula hospedeira Bactéria não infectada Ciclo Lítico Montagem de fagos dentro da célula hospedeira Ácido Nucléico do fago Entrada de ácido nucléico do fago Proteína do fago Proteínas do fago sintetizadas e material genético replicado; cromossomo hospedeiro é degradado Cromossomo hospedeiro degradado

Figura 1.1- O ciclo lítico de um bacteriófago generalizado (GRIFFITHS et al., 2002).

O genoma de um vírus pode colonizar seu hospedeiro de forma permanente, adicionando genes virais ao organismo invadido e esses genes podem, inclusive, tornar-se

(13)

parte fundamental do material genético do hospedeiro (VILLARREAL, 2000). Esta característica dos vírus é de extrema importância para a apoiar a hipótese inicial de que eles possam ter transferido genes para outros organismos.

1.2. Motivação

Com o auxílio de poderosas ferramentas de bioinformática juntamente com a utilização dos bancos de dados disponíveis, é possível investigar uma linha evolutiva, na qual têm-se de um lado as bactérias, tidas como os seres vivos mais simples do ponto de vista estrutural, e de outro os seres humanos, conhecidos como os organismos mais complexos da taxonomia biológica.

Três hipóteses são lançadas como possíveis explicações para a ausência de alguns genes no intervalo evolutivo compreendido entre as bactérias e o homem. A primeira é de que genes possam ter sido perdidos ao longo da evolução, uma segunda aponta para a idéia de que bactérias invasoras possam ter sido responsáveis por transferir os genes diretamente para a linhagem humana e, por fim, uma hipótese de que vírus compostos por esses genes possam ter infectado duas linhagens diferentes, como bactérias e vertebrados.

Este trabalho parte da terceira hipótese como base para confirmar a possibilidade de pequenos agentes, como os vírus, terem atuado no processo evolutivo do homem através da transferência de genes.

1.3. Objetivos

(14)

“pipeline”, capaz de efetuar a junção de ferramentas de bioinformática bem como a execução da filtragem dos dados obtidos por tais ferramentas. A finalidade do sistema é auxiliar no processo de pesquisa que compreende o estudo da possibilidade de organismos simples, como vírus, estarem relacionados ao progenitor dos eucariontes através da transferência de genes para o genoma humano. O sistema proposto será disponibilizado ao usuário em um website.

1.4. Organização da Monografia

Esta monografia está estruturada da seguinte forma: o capítulo 2 apresenta o estado da arte, o capítulo 3 descreve a metodologia utilizada no desenvolvimento deste projeto, citando as ferramentas utilizadas. O capítulo 4, por sua vez, é responsável por apresentar os resultados encontrados.

O quinto, e último capítulo, destina-se a explorar as conclusões do trabalho desenvolvido e as perspectivas futuras geradas por ele. As referências bibliográficas utilizadas no decorrer desta monografia são apresentadas após o último capítulo e, por fim, um anexo (anexo A) composto pelo resultado da ferramenta BLASTP é apresentado no final da monografia.

(15)

Capítulo 2

ESTADO DA ARTE

2.1. Considerações Iniciais

Este capítulo tem como objetivo principal apresentar o estado da arte. O projeto utiliza como referência base o artigo “A Hypothesis for DNA Viruses as the Origin of Eukaryotic Replication Proteins” publicado em 2000 e escrito por Luis P Villarreal e Victor R. DeFilippis. O levantamento bibliográfico realizado não encontrou mais publicações a respeito do assunto desenvolvido neste projeto.

2.2. Uma hipótese para DNA de vírus como origem de proteínas

de replicação de eucariotos

Publicado em 2000, o artigo intitulado como “A Hypothesis for DNA Viruses as the Origin of Eukaryotic Replication Proteins” de Luis P Villarreal e Victor R. DeFilippis discorre sobre a possibilidade de agentes infecciosos, como os vírus, terem servido de fonte para a obtenção de sistemas moleculares complexos.

Para o processo de pesquisa, os autores selecionaram uma proteína e dois vírus, DNA-polimerase do vírus Chlorella e a mesma proteína para o vírus Feldmannia. Os organismos, bem como a enzima, serviram de base para efetuar o teste da metodologia do presente projeto.

As seqüências foram retiradas do GenBank (http://www.ncbi.nlm.nih.gov) e lançadas na versão TBlastn da ferramenta de busca por alinhamentos locais de seqüências, BLAST (ALTSCHUL et al., 1990).

(16)

Foi observado que as células do processo de replicação do DNA de eucariontes mostraram similaridade com ambos os vírus. Além disso, foram identificadas seqüências de DNA-polimerase de um grande número de vírus de animais. Algo interessante também relatado foi que embora os vírus Chlorella e Feldmannia sejam patógenos de algas, cada uma dessas seqüências mostrou maiores similaridades com DNA-polimerase de alguns eucariotos, como os humanos.

Após a eliminação das redundâncias e de proteínas incompletas, as seqüências restantes foram alinhadas utilizando a ferramenta de alinhamento múltiplo ClustalW (CHENNA et al., 2003) como forma de identificar regiões homólogas. O alinhamento resultou em quatro regiões de grande conservação, localizadas na região C-terminal das proteínas, que foram facilmente identificadas.

Essas regiões altamente conservadas foram utilizadas para auxiliar no processo de alinhamento das regiões restantes. Primeiramente, utilizando o editor de seqüências “GeneDoc” (NICHOLAS et al.,1997), foi determinado qual dos quatro domínios estava presente na seqüência de proteína. Posteriormente, essas regiões foram utilizadas para otimizar o alinhamento de aminoácidos. Essas seqüências foram então extraídas e novamente inseridas na ferramenta ClustalW.

Uma vez obtido o alinhamento resultante da ferramenta mencionada, foi construída uma árvore filogenética. Por fim, foram feitas análises filogenéticas usando-se o algoritmo de “neighbor-joining” (SAITOU & NEI, 1987), implementado pela versão 4.0b2 da ferramenta PAUP (SWOFFORD, 2002).

Com os resultados obtidos, os autores sugeriram que agentes infecciosos, como os vírus, possam ter originado genes em sistemas moleculares complexos.

(17)

2.3. Considerações Finais

O artigo mencionado neste capítulo serviu como base para o trabalho de conclusão de curso em questão. A hipótese levantada pelos autores é de fundamental importância como base para o desenvolvimento do mesmo.

(18)

Capítulo 3

METODOLOGIA

3.1. Considerações Iniciais

Este capítulo apresenta a metodologia utilizada para o desenvolvimento do sistema. Foram utilizadas algumas ferramentas já existentes da área de bioinformática, tais como: Basic Local Alignment Search Tool (BLAST), ferramenta básica utilizada para busca de alinhamentos locais, ClustalW, responsável por efetuar alinhamentos múltiplos de seqüências e filogenia, BioEdit, versão 7.0.5 (HALL, 2005), software para edição e análises de alinhamentos múltiplos, PHYLIP - Phylogeny Inference Package (RETIEF, 2000), pacote de programas utilizado para análises filogenéticas, e o MEGA – Molecular Evolutionary Genetics Analysis, versão 3.1 (KUMAR et al., 2004) para visualização e edição de árvores filogenéticas.

Utilizou-se a linguagem de programação Perl (WALL et al., 2001) para o desenvolvimento do sistema e o sistema gerenciador de conteúdos Drupal (MERCER, 2006) para o desenvolvimento do ambiente web.

3.2. Escolha dos genes de interesse

O primeiro passo para dar início ao projeto foi selecionar os organismos que seriam confrontados. As proteínas escolhidas foram a DNA-polimerase, a helicase e a ligase, tendo em vista que se tratam de enzimas que atuam no processo de replicação celular, atividade efetuada por todas as células. Uma vez selecionada a proteína, partiu-se para a escolha dos vírus.

(19)

Como a finalidade foi testar tanto a metodologia como a ferramenta, decidiu-se adotar os mesmos vírus selecionados no artigo “A Hypothesis for DNA Viruses as the Origin of Eukaryotic Replication Proteins” (VILLARREAL & DeFILIPPIS, 2000): vírus

Chlorella e vírus Feldmannia, ambos parasitas de algas.

Portanto, os genes utilizados na pesquisa são: DNA-polimerases, helicases e ligases dos vírus Chlorella e Feldmannia.

3.3. Análise de dados

Para a análise de dados algumas ferramentas de bioinformática foram utilizadas. Antes da união das ferramentas em um “pipeline”, cada etapa do processo foi testada e avaliada assim como os dados a serem inseridos no banco de dados do programa desenvolvido.

As ferramentas utilizadas para os testes da metodologia, análise dos dados e construção do sistema serão apresentadas nos tópicos a seguir.

3.3.1. GenBank

A aquisição das seqüências de DNA-polimerase, helicase e ligase dos vírus

Chlorella e Feldmannia foi feita através do GenBank, o qual é considerado o maior banco

de dados de seqüências genômicas existente e é acessado pelo página web do NCBI (http://www.ncbi.nih.gov).

As buscas das DNA-polimerases dos vírus mencionados anteriormente tiveram como parâmetro os códigos de identificação (ID) de cada uma das seqüências adquiridos no artigo “A Hypothesis for DNA Viruses as the Origin of Eukaryotic Replication Proteins”: AAC00532.1 polimerase do vírus Chlorella) e AAB67116.1 (DNA-polimerase do vírus Feldmannia) (VILLARREAL & DeFILIPPIS, 2000).

(20)

Quanto às helicases e ligases dos mesmos vírus, a busca foi efetuada pelo nome das enzimas seguidos pelos nomes dos vírus no banco de dados de proteínas do GenBank.

3.3.2. BLASTP

Basic Local Alignment Search Tool (BLAST) é uma das ferramentas mais

amplamente utilizadas para análises de seqüências genéticas e é responsável por procurar regiões de alinhamentos locais entre as seqüências. O programa compara seqüências de nucleotídeo ou proteína com seqüências de uma base de dados e calcula a significância estatística destas semelhanças. BLAST pode ser usado para inferir relacionamentos funcionais e evolucionários assim como ajudar na identificação de membros de famílias gênicas.

Existe uma variedade de algoritmos BLAST que podem ser usados para buscas em diferentes bases de dados de seqüências. A ferramenta pode ser adquirida gratuitamente através da página web do BLAST (http://www.ncbi.nih.gov/BLAST/) onde também pode ser executada, como feito nos testes da metodologia. Na execução do sistema PAST, o BLAST é executado localmente em um servidor. Todas as combinações de algoritmos de bases de dados podem ser executadas com parâmetros pré-estabelecidos ou com definições customizadas (McGINNIS& MADDEN, 2004).

No trabalho em questão, utilizou-se o algoritmo BLASTP, responsável por confrontar a seqüência de entrada (seqüência query), no caso as proteínas DNA-polimerases, helicases e ligases dos vírus Chlorella e Feldmannia, contra um banco de dados também de proteínas.

Alguns parâmetros da ferramenta foram alterados em relação à definição padrão: foram selecionados os primeiros 500 alinhamentos com maior significância para serem

(21)

mostrados como resposta e a comparação teve como confronto todas as proteínas não redundantes de todos os organismos disponíveis na base de dados.

As respostas, bem como as análises das mesmas, serão apresentadas no capítulo seguinte.

3.3.3. ClustalW

A ferramenta ClustalW é o principal mecanismo utilizado para efetuar alinhamentos múltiplos de seqüências. Como entrada, ela recebe seqüências de diversos organismos e retorna o alinhamento entre estas seqüências.

Os arquivos gerados com os resultados obtidos pela ferramenta BLAST servirão como arquivos de entrada nesse novo processo. Uma vez inseridas as seqüências, a ferramenta ClustalW efetua a comparação e retorna 4 arquivos como resultados: o alinhamento propriamente dito (alignment_file), um arquivo de entrada (input_file), um arquivo de saída (output_file) e um arquivo com uma árvore filogenética (guide_tree).

A partir dos resultados obtidos por essa ferramenta pode se analisar as semelhanças genômicas encontradas entre os organismos.

3.3.4. BioEdit

BioEdit é uma ferramenta de edição de alinhamento de seqüências desenvolvida por Tom Hall (North Caroline State University, EUA) para plataformas Windows. O software possibilita a manipulação e a análise de seqüências moleculares tanto de DNA como de proteínas. O programa reúne diversos aplicativos (ClustalW, DNADist, ProtDist,

(22)

entre outros) tornando as análises mais consistentes. BioEdit é um programa de distribuição livre e está disponível na página web do autor (http://jwbrown.mbio.ncsu.edu/BioEdit/bioedit.html).

A partir dessa ferramenta é possível identificar com maior facilidade as regiões de domínios conservados nos alinhamentos múltiplos das seqüências obtidas pela ferramenta BLASTP.

3.3.5. PHYLIP

O Phylogeny Inference Package (PHYLIP) é um pacote de programas para inferências filogenéticas (árvores evolucionárias). Este pacote tem distribuição livre através da Internet, e é escrito para ser executado nos mais variados tipos de sistemas computacionais possíveis. O código é distribuído na linguagem C e executado de forma também distribuída. Particularmente, execuções já compiladas estão disponíveis para Windows (95/98/NT/2000/me/xp), MacOs 8 e 9, MacOs X e sistemas Linux.

Esta ferramenta efetua análises filogenéticas utilizando métodos de distância, máxima parcimônia e máxima verossimilhança. Os dados são lidos internamente pelo programa através de um arquivo texto, que o usuário pode preparar usando qualquer editor de texto (mas é importante saber que o arquivo texto não pode ter um formato especial do processador de textos, deve ser feito em ASCII ou formato “Text Only”). Alguns programas de análises de seqüências como o programa de alinhamento ClustalW, também utilizado neste projeto e citado no tópico anterior, pode emitir os arquivos de dados no formato PHYLIP.

(23)

PHYLIP é um dos pacotes de filogenia mais largamente utilizado e compete com o PAUP, ferramenta utilizada para o mesmo fim, para ser o responsável pelo maior número de árvores publicadas. PHYLIP está em distribuição desde 1980 e tem acima de 15000 usuários registrados.

O PHYLIP é um pacote flexível e os programas podem ser utilizados em conjunto de várias maneiras. No presente trabalho, para analisar os conjuntos de seqüências de proteínas, os programas do pacote PHYLIP executados foram: PROTDIST, matriz de distâncias criada a partir do alinhamento múltiplo gerado pela ferramenta ClustalW e o programa NEIGHBOR, que gera uma filogenia baseada na junção de vizinhos, que recebe como arquivo de entrada a matriz de distâncias gerada anteriormente e retorna uma árvore filogenética como saída.

3.3.6. MEGA

O programa MEGA (Molecular Evolutionary Genetics Analysis) disponibiliza diversos métodos de análises filogenéticas de dados moleculares baseados em distância e parcimônia. Apresenta versões para plataformas Windows e DOS. É um programa de livre distribuição e pode ser adquirido pelo seu website (http://www.megasoftware.net).

Este programa foi utilizado para desenhar a árvore filogenética gerada pelo pacote de softwares PHYLIP, em especial pelos programas PROTDIST e NEIGHBOR. Além disso, foi utilizado também para ajustar a árvore com a função de viabilizar uma melhor disposição e visualização dos organismos na árvore.

(24)

3.4 Desenvolvimento da Ferramenta PAST

A etapa de desenvolvimento da ferramenta que efetua as análises de forma automática foi desenvolvida em um computador Pentium 4, de 3.1GHz com 1024 Mb de memória e HD de 80 Gb.

O desenvolvimento do sistema abrange dois módulos: obtenção do banco de dados e análise de dados. A integração destes módulos será feita através das linguagens de programação Perl, PHP (http://www.php.net) e HTML.

O Perl (Practical Extraction and Report Language) (http://www.perl.com) é uma linguagem de programação especialmente desenvolvida para processamento de texto, sendo uma das linguagens mais populares para escrita de scripts CGI (WALL, 2001). O PHP é um módulo de pré-processamento de hipertexto para o servidor Web, que permite ler e interpretar códigos PHP incorporados em páginas da Web. É um código aberto que permite fácil conexão ao banco de dados. O HTML (Hypertext Markup Language) é uma linguagem de programação usada para criação de páginas Web.

A seguir serão apresentados os scripts desenvolvidos para compor o sistema, ilustrado na figura 3.1.

(25)

Figura 3.1- Organização do sistema desenvolvido. Os campos em amarelo representam os scripts, em branco são os arquivos de entrada/saída de cada rotina conforme indicação da seta. O campo em azul, por sua vez, corresponde ao script de junção das rotinas englobadas por ele.

3.4.1. blast.pl

O script blast.pl é responsável pela execução da ferramenta BLASTP, a qual efetua o alinhamento local a partir de uma seqüência de entrada (seqüência query) com o banco de dados completo e não redundante (nr) de proteínas obtido na página web do NCBI (http://www.ncbi.nih.gov). Os parâmetros utilizados na execução do BLASTP são os

blast.pl

get_fasta.pl

filtragem.pl

blast_clustal.pl

clustalw.pl

query

result_blast.txt

seqs_fasta.txt

seqs_fasta2.txt

blast_clustal.txt

blast_clustal.dnd

blast_clustal.aln

result_clustalw.txt

blast_total.pl

(26)

parâmetros default da ferramenta, sendo que a resposta gerada pelo alinhamento é composta pelas 500 seqüências que obtiveram alinhamentos com os valores de score e

E-value mais significantes.

Através do formulário presente na página web do sistema PAST, a seqüência protéica de interesse submetida pelo usuário é passada como parâmetro para o programa. O script recebe essa seqüência como entrada e executa a ferramenta, gerando um aquivo de saída denominado result_blast.txt, que poderá ser visualizado na página web.

3.4.2. get_fasta.pl

O script get_fasta.pl é responsável por efetuar a busca das seqüências, no formato FASTA, no banco de dados de proteínas, para cada um dos organismos que tiveram o alinhamento identificado no arquivo de saída do script anterior. O algoritmo adquire, linha por linha, o código do organismo que obteve alinhamento com a seqüência de entrada e busca pela seqüência FASTA do mesmo no banco de dados de proteínas.

O parâmetro de entrada para esse programa é o mesmo arquivo resultante do script blast.pl, result_blast.txt, e o arquivo de saída gerado pela ferramenta é denominado seqs_fasta.txt. Este último é composto pelos mesmos dados do arquivo result_blast.txt porém complementado com as seqüências FASTA dispostas abaixo da identificação de cada um dos organismos alinhados.

(27)

3.4.3. filtragem.pl

Este script tem como função editar o título das seqüências de forma a eliminar as palavras e códigos dos organismos que não mais serão necessários para o decorrer da execução da ferramenta.

O arquivo de entrada para esse script é o arquivo gerado pela rotina anterior, chamado seqs_fasta.txt e o arquivo de saída é denominado seqs_fasta2.txt.

3.4.4. blast_clustal.pl

Este script, por sua vez, foi desenvolvido para efetuar o processo de preparo dos dados para que adquiram a formatação padrão necessária para servir de entrada na ferramenta ClustalW. Além disso, uma filtragem é executada para buscar e eliminar as seqüências de organismos redundantes, ou seja, somente uma seqüência de cada organismo, a com melhor valor de alinhamento, é mantida.

O parâmetro de entrada para essa rotina é o arquivo seqs_fasta2.txt, gerado pelo script anterior, e o de saída é denominado blast_clustal.txt.

3.4.5. blast_total.pl

O script blast_total.pl tem a função de efetuar chamadas para os quatro programas referidos nos tópicos anteriores (blast.pl, get_fasta.pl, filtragem.pl e blast_clustal.pl) tornando a execução dessas etapas automática.

Uma vez executado, o blast_total.pl recebe como parâmetro de entrada a seqüência de interesse do usuário e obtém como saída o arquivo, devidamente filtrado e formatado com as seqüências FASTA dos organismos alinhados, cujo nome é blast_clustal.txt.

(28)

3.4.6. clustalw.pl

O script clustalw.pl é responsável por efetuar o alinhamento múltiplo das seqüências resultantes de todo o pipeline anteriormente executado através da execução da ferramenta já existente ClustalW.

O arquivo de entrada para essa rotina é o arquivo blast_clustal.txt, composto pelas seqüências filtradas e formatadas pelos scripts anteriores e tem como saída três arquivos distintos. São eles: result_clustalw.txt (arquivo texto composto pelo score obtido entre cada par de seqüências alinhadas), blast_clustal.aln (arquivo composto pelo alinhamento múltiplo das seqüências) e por fim blast_clustal.dnd (arquivo com a árvore filogenética gerada pela ferramenta ClustalW).

3.5. Desenvolvimento do Ambiente Web

Foi desenvolvido um ambiente web para disponibilizar o sistema implementado (PAST). Os usuários da rede podem inserir suas seqüências protéicas de interesse, no formato FASTA, num campo do site, para executar a ferramenta e dessa forma facilitar suas pesquisas na área.

Todo o ambiente web foi desenvolvido utilizando o CMS Drupal e pode ser acessado no endereço: http://143.107.219.10/past.

3.5.1. Drupal

Drupal é um CMS (Content Management System – Sistema Gerenciador de Conteúdo), ou seja, é um software que facilita a criação, organização e manipulação de

(29)

informação na forma de imagens, documentos, entre outros (MERCER, 2006). Essa ferramenta possui código livre, foi desenvolvida na linguagem PHP e é totalmente administrada através de uma interface web.

3.6. Considerações Finais

A metodologia, bem como as ferramentas utilizadas, foram relatadas neste capítulo. Os resultados obtidos serão apresentados no capítulo seguinte.

(30)

Capítulo 4

RESULTADOS

4.1. Considerações Iniciais

Conforme mencionado no capítulo anterior, um sistema foi desenvolvido para auxiliar o processo de pesquisa e a metodologia foi testada. Cada uma das ferramentas que compõe o sistema gerou seus resultados, que serão apresentados neste capítulo.

4.2. Resultados obtidos na fase de teste da metodologia

Nos tópicos a seguir serão apresentados os resultados gerados por cada uma das ferramentas utilizadas. Para os testes, somente a DNA-polimerase do vírus Chlorella foi utilizada.

4.2.1. GenBank

Como mencionado no tópico 3.3.1, do capítulo anterior, a seqüência genômica da DNA-polimerase do vírus Chlorella foi buscada tendo-se como parâmetro o código de identificação da mesma no GenBank. Esta busca resultou em apenas uma seqüência, no formato FASTA, que foi salva em um arquivo texto.

(31)

4.2.2. BLASTP

O resultado apresentado pela ferramenta BLASTP, executada no website do NCBI como teste da metodologia, mostrou a presença de alinhamentos de seqüências da DNA-polimerase do vírus Chlorella com muitos organismos, das mais diversas classificações, desde bactérias, fungos até Homo sapiens, objeto central do trabalho em questão.

A ferramenta disponibilizou 500 seqüências de diversos organismos que tiveram alinhamento significativo com os genomas de entrada, sendo que muitos organismos apareceram nos resultados mais de uma vez.

Foi selecionado manualmente apenas um organismo de cada espécie encontrada, tendo como critério de seleção menor e-value, ou seja, melhor alinhamento. O número de seqüências resultante para a DNA-polimerase do vírus Chlorella foi de 157 seqüências.

A figura 4.1 apresenta parte do resultado obtido pela ferramenta BLASTP. Nesta figura nota-se a presença das seqüências que obtiveram alinhamentos significantes com a seqüência de entrada, no caso, a DNA-polimerase do vírus Chlorella. As seqüências são dispostas por ordem de maior score, ou menor e-value (quanto mais próximo o e-value é de zero, mais significante é o alinhamento).

Também é possível observar na figura 4.1 que alguns organismos apareceram mais de uma vez na resposta da ferramenta. Portanto, somente uma seqüência de cada organismo foi posteriormente selecionada. Na figura em questão, o exemplar de DNA-polimerase de Paramecium bursaria selecionado foi o primeiro da lista, com e-value zero, os demais foram todos descartados, obtendo-se, assim, uma representatividade de todas as DNA-polimerases mais próximas da do vírus Chlorella.

(32)

Figura 4.1 - Parte do resultado obtido pela execução na web da ferramenta BLASTP para a DNA-polimerase do vírus Chlorella. A figura mostra, por ordem de maior score (ou menor e-value) seqüências que tiveram alinhamento significante com a seqüência de entrada (seqüência query). O quadro, em vermelho, que delimita o primeiro organismo do alinhamento, mostra o Paramecium bursaria com melhor alinhamento. Os traços vermelhos, por sua vez, identificam seqüências que foram excluídas pela filtragem por se tratarem de um organismo já presente no resultado.

Por fim, as seqüências FASTA resultantes da busca e da filtragem dos resultados foram armazenadas em um arquivo texto para servir de entrada para a ferramenta ClustalW.

4.2.3. ClustalW

Como entrada para a esta ferramenta foram inseridos os arquivos gerados com os resultados obtidos pela ferramenta BLASTP, mencionados no tópico anterior.

A ferramenta ClustalW teve como resultado 4 arquivos: o alinhamento propriamente dito (alignment_file), um arquivo de entrada (input_file), um arquivo de saída (output_file) e um arquivo com uma árvore filogenética (guide_tree). Analisando

(33)

esses resultados pode-se observar uma grande quantidade de regiões alinhadas entre todos os organismos pesquisados. O arquivo do alinhamento, como pode ser visto na figura 4.2, mostra domínios presentes em grande parte dos organismos.

Figura 4.2 – Parte do resultado do alinhamento múltiplo efetuado pela ferramenta ClustalW para organismos que tiveram alinhamento significante com a DNA-polimerase do vírus Chlorella.

Outro arquivo resultante da ferramenta ClustalW contém uma árvore guia, responsável por agrupar os organismos de acordo com as similaridades encontradas baseandas nos alinhamentos. A figura 4.3 mostra uma parte dessa árvore gerada apenas para ilustrar o formato de saída proporcionado pela ferramenta, tendo em vista que para se obter conclusões a partir de uma árvore, ela deve ser analisada por inteiro.

(34)

Figura 4.3 – Parte da árvore guia gerada pela ferramenta ClustalW para alinhamento múltiplo das seqüências que tiveram alinhamento significante com a DNA-polimerase do vírus Chlorella.

4.3. Resultados obtidos com a utilização da ferramenta PAST

Nos tópicos a seguir serão apresentados os resultados gerados por cada um dos scripts da ferramenta PAST desenvolvida como objetivo principal deste trabalho. Nesta etapa, todos as seqüências de interesse previamente mencionadas foram submetidas à ferramenta.

4.3.1. GenBank

As buscas efetuadas no GenBank, para as DNA-polimerases dos vírus Chlorella e

Feldmannia tiveram como parâmetros os códigos de identificação dessas seqüências como

dito anteriormente. Para cada um desses organismos foi encontrada uma única seqüência que foi adquirida e salva em dois arquivos textos, um para cada vírus.

Quanto às helicases dos mesmos vírus, a busca foi efetuada pelo nome da enzima seguido pelo nome do vírus no banco de dados de proteínas. Para as helicases dos dois

(35)

vírus, mais de uma seqüência foi retornada, sendo que apenas duas de cada se relacionavam, de fato, ao organismo de interesse. Essas seqüências foram então adquiridas e salvas em arquivos textos distintos. Os códigos de identificação dessas seqüências no banco de dados são AAC96521 (helicase do vírus Chlorella) e AAR26869 (helicase do vírus Feldmannia).

Por fim, foram efetuadas buscas pelas seqüências genômicas da enzima ligase para ambos os vírus. Infelizmente, o resultado obtido pela busca retornou somente a seqüência para o vírus Chlorella com código AAC96909. Para o vírus Feldmannia, não foi localizada no GenBank a seqüência protéica codificadora, impossibilitando, dessa forma, a submissão dessa enzima ao pipeline desenvolvido.

4.3.2. blast.pl

O script em questão foi executado para todas as enzimas de todos os organismos das quais tiveram suas seqüências protéicas obtidas no GenBank.

Para as DNA-polimerases, obtiveram-se resultados compostos por 500 seqüências alinhadas com cada um dos vírus submetidos. Essas seqüências fazem parte de um conjunto muito amplo de organismos, que variam desde vírus e bactérias até os cordados, incluindo o homem. Para o vírus Chlorella, a posição em que o Homo sapiens, foco da pesquisa em questão, apareceu no resultado gerado pela ferramenta foi na 85ª posição, com

score 329 e e-value de 3e-88, enquanto que, no resultado obtido tendo como entrada a

seqüência da enzima do vírus Feldmannia, o Homo sapiens ocupou a 80ª posição no alinhamento, onbtendo score de 274 e E-value de 1e-71.

A figura 4.4 mostra parte do resultado obtido pela execução do programa blast.pl para a DNA-polimerase do vírus Chlorella (o resultado completo pode ser visto no Anexo

(36)

A disponibilizado no final desta mnografia). Esta figura foi editada de modo a mostrar a presença do Homo sapiens no resultado obtido.

Figura 4.4 – Parte do resultado obtido pela execução do script blast.pl para a DNA-polimerase do vírus

Chlorella. Em destaque, dentro do quadro vermelho, nota-se a presença de uma seqüência de Homo

sapies, foco desta pesquisa.

Para as demais enzimas dos mesmos vírus, nos resultados obtidos, o Homo sapiens não obteve alinhamentos tão significantes quando comparados aos resultados das DNA-polimerases, sendo que para a helicase do vírus Feldmannia o Homo sapiens nem mesmo foi alinhado.

Na ligase do vírus Chlorella, a execução do script retornou 130 seqüências alinhadas, sendo que o Homo sapiens apareceu na 124ª posição, com score 34 e E-value 8.9. Esse E-value muito alto demonstra a pouca significância resultante do alinhamento da seqüência de entrada com o Homo sapiens. Para a enzima helicase, somente houve

(37)

alinhamento com o Homo sapiens o vírus Chlorella, com score 39 e e-value 0.68, novamente apresentando significância bastante pequena.

A tabela 4.1 mostra valores dos resultados obtidos no alinhamento local efetuado pelo script blast.pl para todas as enzimas dos vírus.

Tabela 4.1 - Análise dos resultados obtidos após execução do script blast.pl

A partir da tabela 4.1 podemos inferir que somente as DNA-polimerases dos vírus obtiveram alinhamento significante com o Homo sapiens, tendo em vista que os valores de E-value encontrado para o alinhamento das demais enzimas obteve valor muito alto. Por esse motivo, a ligase e as helicases dos vírus Chlorella e Feldmannia foram descartadas do estudo.

4.3.3. get_fasta.pl

Como mencionado no capítulo 3 (Metodologia), o script adquire as seqüências no formato FASTA de todos os organismos que obtiveram alinhamento com a seqüência de interesse. A figura 4.5 mostra parte do resultado gerado por esse script, onde o título da seqüência é seguido pela seqüência adquirida no banco de dados de proteínas.

(38)

Figura 4.5 – Parte do resultado obtido após execução do script get_fasta.pl. Nota-se a presença da seqüência FASTA de cada organismo logo abaixo do título da seqüência.

4.3.4. filtragem.pl

O script filtragem.pl, como mencionado no capítulo anterior, é responsável por editar o título de cada seqüência com a finalidade de facilitar o processo de filtragem, tarefa realizada pelo script blast_clustal.pl. A figura 4.6 mostra a formatação das seqüências resultante da execução do script em questão.

(39)

4.3.5. blast_clustal.pl

Esta rotina formata o arquivo de saída (padrão do formato FASTA) para servir de entrada para a ferramenta ClustalW, executada através do script clustalw.pl. Além disso, é responsável também por filtrar as seqüências, ou seja, manter no arquivo apenas uma seqüência de cada organismo, aquela com melhor alinhamento.

Uma vez executado o script em questão, houve grande diminuição na quantidade de seqüências do arquivo. A tabela 4.2 mostra o número de seqüências alinhadas confrontando com o número de seqüências predominantes após a execução do blast_clustal.pl.

Tabela 4.2 – Diferença entre o número de seqüências antes e depois da filtragem dos dados pelo script blast_clustal.pl

4.3.6. clustalw.pl

Este script, como dito no capítulo anterior, é responsável por efetuar o alinhamento múltiplo das seqüências através da ferramenta ClustalW. São gerados quatro arquivos com os resultados: um arquivo texto com o score do alinhamento entre cada par de seqüências, um arquivo do tipo aln (alinhamento) composto pelas seqüências alinhadas base a base, um

(40)

arquivo no formato dnd (árvore filogenética) e, por fim, um arquivo no formato phy (Phylip) para ser analisado pelos programas que compõem o pacote de filogenia Phylip.

4.4. Análise dos Dados

Para a análise dos dados obtidos com a utilização da ferramenta PAST, foram utilizados três softwares de domínio público disponíveis via web: BioEdit para edição e análises de alinhamentos, o pacote de programas PHYLIP para filogenia e, para visualização de árvores filogenéticas, o programa MEGA. Os resultados serão apresentados nos sub-tópicos a seguir.

4.4.1. BioEdit

Através desta ferramenta de edição e análise de alinhamentos foi possível detectar a presença de algumas regiões conservadas ao longo dos alinhamentos. A figura 4.7 mostra a presença de quatro regiões altamente conservadas após o alinhamento múltiplo das seqüências resultantes do sistema PAST para a DNA-polimerase do vírus Chlorella. Tendo em vista que o alinhamento é bastante extenso, as seqüências resultantes foram editadas de forma a mostrar na mesma tela os domínios mencionados.

(41)

Figura 4.7 – Tela gerada através do software BioEdit para o arquivo de alinhamento resultante do completa execução da ferramenta PAST para a seqüência de proteína da DNA-polimerase do vírus

Chlorella. Os blocos na cor vermelha indicam as regiões conservadas. Estão destacados também na

figura o vírus Chlorella e o Homo sapiens.

. Esta ferramenta também foi utilizada para efetuar um corte nas seqüências protéicas, a partir do primeiro domínio conservado identificado, com a finalidade de preparar o alinhamento para a próxima etapa, ou seja, a geração de uma árvore filogenética. Esse corte nas seqüências foi executado seguindo a metodologia do artigo de Luis P. Villarreal, mencionado anteriormente, como forma de confirmar a eficácia do sistema PAST através da análise dos resultados filogenéticos.

(42)

4.4.2. PHYLIP e MEGA

As figuras 4.8, 4.9 e 4.10 mostram, de duas formas, as árvores geradas pelo pacote de programas PHYLIP através da execução dos programas PROTDIST, que cria uma matriz de distâncias a partir do arquivo de alinhamento resultante da ferramenta ClustalW, e do NEIGHBOR, que, por sua vez, gera a árvore filogenética baseada na junção de vizinhos (neighbor-joining). Vale lembrar que as seqüências protéicas passaram por uma etapa de corte, na qual somente foram submetidas ao pacote PHYLIP as seqüências localizadas a partir da primeira região conservada identificada com o uso do software BioEdit.

Foi também utilizado o programa MEGA (Molecular Evolutionary Genetics Analysis) para efetuar o desenho da árvore, tendo em vista que ele possibilita o reajuste dos ramos da árvore sem causar alterações no seu conteúdo.

Uma vez desenhada a árvore, optou-se por ilustrá-la de duas diferentes formas: uma árvore em sua forma tradicional (Figuras 4.8 e 4.9) e uma árvore em forma radial (Figura 4.10). Ambas foram geradas para a DNA-polimerase do vírus Chlorella.

A figura 4.8 ilustra a árvore completa gerada, onde pode-se identificar, pela linha vermelha, a proximidade entre o vírus Chlorella e o Homo sapiens. Nota-se, através da mesma, que o ramo da árvore comum aos dois organismos em estudo encontra-se em um nível intermediário da árvore, ou seja, apesar da grande diferença existente entre um vírus e o homem, é possível sugerir que ao longo da evolução, os vírus podem ter influenciado na composição do genoma humano através da tranferência de genes.

A figura 4.9 foi inserida para viabilizar uma melhor visualização dos organismos que se encontram próximos aos alvos do estudo, o vírus Chlorella e o Homo sapiens, tendo em vista que a figura 4.8, devido às suas proporções, não possibilita a identificação dos organismos.

(43)

Por fim, foi gerada uma árvore na forma radial, ilustrada pela figura 4.10, para servir de comparação com a reproduzida no artigo “A Hypothesis for DNA Viruses as the Origin of Eukaryotic Replication Proteins” publicado em 2000 e escrito por Luis P Villarreal e Victor R. DeFilippis, já mencionado no decorrer desta monografia, como forma de validar o sistema PAST através da comparação entre elas.

Pode-se notar, na figura 4.10, que trata-se de uma outra forma de visualizar e interpretar uma filogenia. Nota-se que tanto o vírus Chlorella como o vírus Feldmannia apresentaram certa proximidade com o Homo sapiens se comparados com outros organismos presentes na árvore, como, por exemplo, os vírus de herpes. É interessante ressaltar que o vírus Human herpes, apesar de ser um patógeno humano que utiliza a maquinaria da célula do homem, aparece em uma clade distante da dos vírus Chlorella e

Feldmannia. Essa observação proporcionada pela árvore novamente possibilita sugerir que

(44)

Figura 4.8 – Árvore filogenética completa, obtida pelo software MEGA e gerada pelo pacote de programas PHYLIP a partir do resultado da ferramenta PAST para a DNA-polimerase do vírus

Chlorella. Os organismos em destaque na cor vermelha indicam, em cima, a presença do Homo sapiens

e em baixo o vírus Chlorella. A linha vermelha destaca os ramos da árvore que ligam os organismos em questão.

(45)

Figura 4.9 – A figura mostra em detalhe a região da árvore filogenética que mostra a relação evolucionária entre o vírus Chlorella e o Homo sapiens em destaque.

(46)

Figura 4.10 – A figura ilustra uma árvore filogenética sem raiz gerada pelo conjunto de programas PHYLIP e desenhada pelo software MEGA na forma de radiação. Os organismos do estudo fram identificados e ressaltados na cor vermelha, bem como o caminho que descreve a distância evolutiva entre eles.

(47)

4.5. Ambiente Web

A figura 4.11 apresenta a tela principal da página web desenvolvida para a divulgação e disponibilização do sistema PAST. Pode-se notar a presença de duas barras de menus, uma superior que contém os links “Home”, “Créditos” e “Contato” e uma lateral esquerda, composta pelos links “Home”, “A Ferramenta”, “Alinhamentos”, “Comentários” e “Links”. Uma mensagem de abertura também é apresentada na página inicial.

Figura 4.11 – Página principal (Home) do ambiente web desenvolvido para disponibilização da ferramenta desenvolvida (PAST).

(48)

A figura 4.12 ilustra a página referenciada pelo link “A Ferramenta”, presente na lateral do ambiente web. Nota-se, a princípio, que tanto o topo da página, composto pelo nome da ferramenta e o logotipo da mesma, como o menu lateral e o rodapé da página web se mantêm presente. Isso irá ocorrer para todas as interfaces. Somente o bloco central da página é diferenciado de acordo com o link referenciado.

A página em questão, ilustrada pela figura 4.12, é responsável por realizar uma breve apresentação da ferramenta, mencionando as operações que poderão ser realizadas pelo sistema PAST.

(49)

Figura 4.12 – A figura ilustra a página “A Ferramenta” pertencente ao ambiente web do sistema. Trata-se de uma breve explicação a respeito do sistema desenvolvido.

A próxima figura, figura 4.13, ilustra a principal página do ambiente web desenvolvida, pois é responsável por executar o sistema PAST. Nota-se a presença de um campo para a introdução de textos na posição central da página. É nesse campo que a seqüência de interesse do usuário deverá ser inserida por ele.

A própria página presta orientação ao usuário no sentido de evitar que a ferramenta não seja executada por motivo de erros quanto ao conteúdo que deve ser inserido no campo determinado. Salienta-se que o formato de entrada da seqüência, que deverá ser

(50)

direcionada ao alinhamento, é o formato FASTA, e somente a seqüência deve ser inserida no campo.

Além disso, a figura 4.12 ainda mostra ao usuário que, no caso de dúvidas a respeito do funcionamento da ferramenta, ele poderá encontrar auxilio na página “A Ferramenta”, já mencionada, ou mesmo enviar um e-mail ao autor do site através do preenchimento de alguns campos dispostos no link “Contato”, no menu superior da página. A página referenciada pelo link “Contato” pode ser visualizada na figura 4.17.

(51)

Figura 4.13 – Figura que ilustra a página responsável por iniciar o sistema, ou seja, executar a ferramenta PAST.

O resultado obtido pela execução da ferramenta PAST pode ser visualizado na figura 4.14. No bloco central da página, estão dispostos dois links: “Visualizar o Resultado do BLAST”, que, quando clicado, apresenta o resultado gerado pela ferramenta (figura 4.15) e o link “Filtragem e execução do Clustalw”, quando clicado, executa a filtragem dos

(52)

dados e o alinhamento mútliplo, disponibilizando a resposta em uma nova página, ilustrada pela figura 4.16.

(53)

Figura 4.15 – Página de apresentação do resultado obtido pela execução da ferramenta BLAST.

Na figura 4.16, que apresenta o resultado obtido pela execução da ferramenta ClustalW, três arquivos são gerados. Para acessar esses arquivos, basta clicar sobre o link referente a cada um deles que, numa nova página, serão apresentados. Para salvá-los, deve-se clicar com o botão direito do moudeve-se e escolher a opção “salvar”.

(54)

Figura 4.16 – Página de apresentação dos resultados gerados pela ferramenta ClustalW. São obtidos 3 arquivos que podem ser salvos ou, quando clicados, apresentarão seus respectivos conteúdos em uma nova página.

(55)

Figura 4.17 – Página “Contato” que possibilita ao usuário entrar em contato com o autor do site. Ao preencher os campos e clicar em “Enviar e-mail”, a mensagem será entregue no e-mail do autor do sistema.

A figura 4.18 ilustra a página de comentários. O acesso a essa página é feito pelo menu lateral através do click no link “Comentários”. Uma vez acessada, essa página irá proporcionar ao usuário efetuar seus comentários a respeito do ambiente web e do sistema PAST diretamente na página, possibilitando, inclusive, comentários que poderão resultar numa melhora tanto do ambiente como da ferramenta.

(56)

Figura 4.18 – Figura que ilustra a página de comentários do site. Através dessa página o usuário pode disponibilizar sua opinião á respeito do amboente web e da ferramenta.

Por sua vez, a figura 4.19 é responsável por apresentar a página “Links” que é acessada a partir do menu lateral esquerdo do ambiente web. Nessa página estão dispostos alguns endereços referentes às ferramentas de bioinformáticas utilizadas neste trabalho.

(57)

Quando o usuário clica sobre o link, uma nova página é aberta com o respectivo conteúdo do link.

(58)

Por fim, a figura 4.20 ilustra a página do sistema na qual o autor situa o usuário ao projeto desenvolvido, relatando os orientadores e a equipe do laboratório no qual o trabalho foi implementado, tecendo os agradecimentos a todos.

Figura 4.20 – Página de créditos, na qual o autor agradece à equipe do laboratório onde ele desenvolveu o trabalho.

4.6. Considerações Finais

De acordo com os resultados apresentados, o sistema PAST teve um desempenho satisfatório nas análises com a DNA-polimerase do vírus Chlorella, ou seja, na busca por similaridade de seqüências através dos alinhamentos executados. Quanto às outras

(59)

enzimas, a resposta obtida pelo alinhamento local das seqüências indicou que os resultados não foram significantes, tendo em vista que o alinhamento com o Homo sapiens, quando encontrado, para as enzimas helicase e ligase, não resultaram em alinhamentos com valores considerados significantes, ou seja, obtiveram valores de E-value para o alinhamento com o Homo sapiens muito alto, por esse motivo foram descartadas. Somente foi mantido no estudo as seqüências protéicas da DNA-polimerase do vírus Chlorella.

As análises filogenéticas apontam que a transmissão gênica ocorreu no sentido dos vírus para o hospedeiro. Somente nessas circunstâncias, genes do processo replicativo poderiam, agora, estar presentes em bactérias e eucariotos. Os dados obtidos utilizando-se a ferramenta PAST definem a suposição levantada por Villarreal e De Fillips no ano de 2000.

O pipeline PAST mostrou-se de grande utilidade como base para o desenvolvimento de estudos filogenéticos, podendo ser empregado para qualquer análise protéica que necessite de alinhamentos de seqüências.

(60)

CAPÍTULO 5

Conclusões e Perspectivas

Partindo-se do objetivo deste projeto, a metodologia foi testada e aprovada e os resultados considerados satisfatórios.

O sistema PAST desenvolvido cumpriu com o propósito de auxiliar no processo de pesquisa tendo em vista que tornou a execução das ferramentas um processo bastante simples, eliminando a necessidade de acessar diferentes ferramentas para efetuar alinhamentos e possibilitando uma filtragem dos dados para evitar redundância de organismos. A automatização de algumas etapas do processo tornou a pesquisa mais ágil e rápida.

Os resultados obtidos e apresentados nesse trabalho consolidam a eficácia e a confiabilidade do sistema.

Uma vez desenvolvido o sistema, novas pesquisas poderão ser feitas, inclusive com outros vírus, podendo-se também estender a outros organismos, como fungos, de forma a apoiar a hipótese em questão.

Trabalhos futuros poderão ser desenvolvidos com o intuito de aumentar a funcionalidade da ferramenta PAST, através da execução de alinhamentos, não só para seqüências de proteínas, como também para nucleotídeos. Além disso, pode-se também implementar o processo de análise filogenética no sistema através da automatização do processo de construção das árvores filogenéticas.

Um ponto importante a ser ressaltado é que o sistema não se restringe apenas à pesquisa realizada. Qualquer indivíduo que necessite efetuar uma pesquisa com proteínas e

(61)

necessite efetuar alinhamentos poderá se tornar um usuário do sistema PAST, o que denota uma grande abrangência do software no campo da pesquisa.

A hipótese de que vírus podem ter transferido parte de seu material genético para o homem, ao longo da evolução, pôde ser mais uma vez observada com os resultados apresentados pelo sistema PAST através da pesquisa realizada.

(62)

REFERÊNCIAS BIBLIOGRÁFICAS

ALTSCHUL, S. F.; GISH, W.; MILLER, W.; MYERS, E. W. AND LIPMAN, D. J. Basic

Local Alignment Search Tool. Journal of Molecular Biology, Vol. 215, 401-410,

1990.

Basic Local Alignment Search Tool BLAST: Disponível em:

<http://www.ncbi.nih.gov/blast>.

CHENNA, R.; SUGAWARA, H.; KOIKE, T.; LOPEZ, R.; GIBSON, T. J.; HIGGINS, D. G. AND THOMPSON, J. D. Multiple sequence alignment with the Clustal series of

programs. Nucleic Acids Research, vol 31, No. 13, 3497-3500, 2003. CLUSTALW: Disponível em: <http://www.ebi.ac.uk/clustalw/>.

GIBAS, C. &JAMBECK, P., Desenvolvendo Bioinformática: ferramentas de software

para aplicações em biologia. Ed. Campus, 2001.

GISH, W. & STATES, D.J.;"Identification of protein coding regions by database

similarity search." Nature Genet. 3:266-272, 1993.

GRIFFITHS, A. J. F.; MILLER J. H.; SUZUKI, D. T.; LEWONTIN, R. C. AND GELBART, W. M. An Introduction to Genetic Analysis. 7th Edition. 2000. W.H. Freeman Co., NY.

HALL, T.A.; BioEdit: a user-friendly biological sequence alignment editor and

analysis program for Windows 95/98/NT. Nucl. Acids. Symp. Ser. 41:95-98, 1999.

HALL, T. BioEdit – Biological sequence alignment editor for Windows

95/98/NT/2K/XP. Disponível em: <http://www.mbio.ncsu.edu/BioEdit/bioedit.html>.

HIGGINS D.; THOMPSON J.; GIBSON T.THOMPSON J.D.; HIGGINS D.G.; GIBSON T.J.; CLUSTAL W: improving the sensitivity of progressivemultiple sequence

alignment through sequence weighting,position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22:4673-4680, 1994.

KUMAR, S.; TAMURA, K.; AND NEI, M. MEGA3: Integrated software for

Molecular Evolutionary Genetics Analysis and sequence alignment. Briefings in

Bioinformatics 5:150-163, 2004.

LANDER E.S.; LINTON L. M.; BIRREN B.; NUSBAUM C.; ZODY M. C.; BALDWIN J.; DEVON K.; DEWAR K.; DOYLE M.; FITZHUGH W.; FUNKE R.; GAGE D.; HARRIS K.; HEAFORD A.; HOWLAND J.; KANN L.; LEHOCZKY J.; LeVINE R.; McEWAN P.; McKERNAM K.; MELDRIN J.; MESIROV J. P.; MIRANDA C.; MORRIS W.; NAYLOR J.; RAYMOND C.; ROSETTI M.; SANTOS R.; SHERIDAN

Referências

Outline

Documentos relacionados

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

ed è una delle cause della permanente ostilità contro il potere da parte dell’opinione pubblica. 2) Oggi non basta più il semplice decentramento amministrativo.

29 Table 3 – Ability of the Berg Balance Scale (BBS), Balance Evaluation Systems Test (BESTest), Mini-BESTest and Brief-BESTest 586. to identify fall

No ˆ ambito deste trabalho ´ e proposto o desenvolvimento de um conjunto de ferramentas de simula¸c˜ ao baseadas em PLECS capazes de simular o controlo de fontes de comuta¸ c˜ ao

After this matching phase, the displacements field between the two contours is simulated using the dynamic equilibrium equation that bal- ances the internal

Visando este trabalho analisar o impacto e a importância dos Projetos Educativos do TNSJ no âmbito de uma educação artística, interessa-nos refletir sobre a relação dos

da quem praticasse tais assaltos às igrejas e mosteiros ou outros bens da Igreja, 29 medida que foi igualmente ineficaz, como decorre das deliberações tomadas por D. João I, quan-

The study presented here aims to assess the quality of learning that occurred by the introduction of an educational application in the teaching/learning process