PROPOSTA PARA O TRABALHO DE CONCLUSÃO DE CURSO TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS (SEM NEGRITO)

(1)

TURNO: Norturno VERSÃO: No

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS DEPARTAMENTO DE SISTEMAS E COMPUTAÇÃO

CURSO DE CIÊNCIAS DA COMPUTAÇÃO — BACHARELADO COORDENAÇÃO DE TRABALHO DE CONCLUSÃO DE CURSO

PROPOSTA PARA O TRABALHO DE CONCLUSÃO DE CURSO

TÍTULO: TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS (SEM NEGRITO) ÁREA: Área de Concentração (cada substantivo escrito com a primeira letra maiúscula) Palavras-chave: Palavra-chave 1. Palavra-chave 2. Palavra-chave 3. (separadas por ponto,

com primeira letra maiúscula).

1 IDENTIFICAÇÃO

1.1 ALUNO

Nome: Felipe Fernandes Albrecht Código/matrícula: 61791 / 14451 Endereço residencial:

Rua: Manaus N°: 59 Complemento:

Bairro: Bela Vista CEP: 89110-000 Cidade: Gaspar UF: SC Telefone fixo: 3329-3232 Celular: 9655-6210

Endereço comercial:

Empresa: Senior Pesquisa e Tecnologia L

Rua: Joinville N°: 526 Bairro: Vila Nova

CEP: 89035-200 Cidade: Blumenau UF: SC Telefone: 3221-3365 E-Mail FURB: albrecht@inf.furb.br E-Mail alternativo: felipe.albrecht@gmail.com

1.2 ORIENTADOR

Nome: Jomi Fred Hübner

E-Mail FURB: jomi@inf.furb.br E-Mail alternativo:

(2)

2 DECLARAÇÕES

2.1 DECLARAÇÃO DO ALUNO

Declaro que estou ciente do Regulamento do Trabalho de Conclusão de Curso de Ciências da Computação e que a proposta em anexo, a qual concordo, foi por mim rubricada em todas as páginas. Ainda me comprometo pela obtenção de quaisquer recursos necessários para o desenvolvimento do trabalho, caso esses recursos não sejam disponibilizados pela Universidade Regional de Blumenau (FURB).

Assinatura: Local/data:

2.2 DECLARAÇÃO DO ORIENTADOR

Declaro que estou ciente do Regulamento do Trabalho de Conclusão do Curso de Ciências da Computação e que a proposta em anexo, a qual concordo, foi por mim rubricada em todas as páginas. Ainda me comprometo a orientar o aluno da melhor forma possível de acordo com o plano de trabalho explícito nessa proposta.

(3)

3 AVALIAÇÃO DA PROPOSTA

3.1 AVALIAÇÃO DO(A) ORIENTADOR(A) Acadêmico(a): Felipe Albrechr

Orientador(a): Jomi Fred Hübner

ASPECTOS AVALIADOS ate nde ate nde pa rc ia lme nte nã o a te nde AS P ECTOS TÉCNICOS 1. INTRODUÇÃO

1.1. O tema de pesquisa está devidamente contextualizado/delimitado? 1.2. O problema está claramente formulado?

2. OBJETIVOS

2.1. O objetivo geral está claramente definido e é passível de ser alcançado?

2.2. São apresentados objetivos específicos (opcionais)coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.

3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO

4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram claramente descritos?

5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC? 5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?

5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de maneira a permitir a execução do TCC no prazo disponível?

6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?

7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC? AS P ECTOS METODOLÓGICOS 8. REFERÊNCIAS BIBLIOGRÁFICAS

8.1. As referências bibliográficas obedecem às normas da ABNT?

8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na proposta (são usadas obras atualizadas e/ou as mais importantes da área)?

9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?

9.2. As informações retiradas de outros autores estão devidamente citadas? 10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)

10.1. O texto obedece ao formato estabelecido?

10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem utilizada é clara)?

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:

• qualquer um dos itens tiver resposta NÃO ATENDE;

• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou

• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.

PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO Assinatura do(a) avaliador(a): Local/data:

(4)

4 CONSIDERAÇÕES DO(A) ORIENTADOR(A):

11. Caso o(a) orientador(a) tenha assinalado em sua avaliação algum item como “atende parcialmente”, devem ser relatos os problemas/melhorias a serem efetuadas.

12.

(5)

AVALIAÇÃO DO(A) COORDENADOR DE TCC Acadêmico(a): Felipe Albrecht

Avaliador(a): José Roque Voltolini da Silva

2. OBJETIVOS

3. RELEVÂNCIA

5. METODOLOGIA

9. CITAÇÕES

PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO OBSERVAÇÕES:

Assinatura do(a) avaliador(a): Local/data:

(6)

AVALIAÇÃO DO(A) PROFESSOR(A) DA DISCIPLINA DE TCCI Acadêmico(a): Felipe Albrecht

Avaliador(a): Joyce Martins

2. OBJETIVOS

3. RELEVÂNCIA

5. METODOLOGIA

9. CITAÇÕES

PONTUALIDADE NA ENTREGA _{_____ dias}atraso de

(7)

Assinatura do(a) avaliador(a): Local/data:

(8)

AVALIAÇÃO DO(A) PROFESSOR(A) ESPECIALISTA NA ÁREA Acadêmico(a): Felipe Albrecht

Avaliador(a): ASPECTOS AVALIADOS ate nde ate nde pa rc ia lme nte nã o a te nde AS P ECTOS TÉCNICOS 1. INTRODUÇÃO

2. OBJETIVOS

2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?

3. RELEVÂNCIA

5. METODOLOGIA

9. CITAÇÕES

PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO OBSERVAÇÕES:

(9)

(10)

(11)

(12)

1

(13)

UNIVERSIDADE REGIONAL DE BLUMENAU

CENTRO DE CIˆENCIAS EXATAS E NATURAIS

CURSO DE CIÊNCIAS DA COMPUTAÇ ÃO – BACHARELADO

RECONSTRUC

¸ ˜

AO FILOGEN´

ETICA EM

AMBIENTE DISTRIBU´IDO

FELIPE FERNANDES ALBRECHT

BLUMENAU 2006

(14)

FELIPE FERNANDES ALBRECHT

RECONSTRUC

¸ ˜

AO FILOGEN´

ETICA EM

AMBIENTE DISTRIBU´IDO

Proposta de Trabalho de Conclusão de Curso submetida à Universidade Regional de Blu-menau para a obten¸cão dos créditos na disci-plina Trabalho de Conclussão de Curso I do curso de Ciências da Computa¸cão – Bacha-relado.

Prof. Jomi Fred H¨ubner – Orientador

(15)

SUM ´

ARIO

1 INTRODUC¸ ˜AO 4

1.1 OBJETIVOS DO TRABALHO . . . 7

1.2 RELEV ˆANCIA DO TRABALHO . . . 7

1.3 REQUISITOS DO SOFTWARE A SER DESENVOLVIDO . . . 8

1.4 METODOLOGIA . . . 8

2 REVIS ÃO BIBLIOGR ÁFICA 11 2.1 GENÉTICA MOLECULAR . . . 11

2.2 BIOINFORM ´ATICA . . . 12

2.3 FILOGEN´ETICA MOLECULAR . . . 13

2.4 SISTEMAS DISTRIBUIDOS . . . 14

2.5 TRABALHOS CORRELATOS . . . 15

3 CONSIDERAC¸ OES FINAIS 17

REFERˆENCIAS BIBLIOGR ´AFICAS 18

(16)

4

1 INTRODUC

¸ ˜

AO

Desde o in´ıcio da história, a humanidade preocupa-se em compreender a vida e suas origens. Diversos foram os filósofos e cientistas que propuseram teorias e métodos para explicar a origem da vida. Com a publica¸cão do livro “A Origem das Espécies” por Charles Darwin em 1859, o conceito da evolu¸cão foi apresentada pela primeira vez. A Teoria da Evolu¸cão diz que os organismos sofrem muta¸cões entre diferentes gera¸cões e as modifica¸cões vantajosas são perpetuadas, enquanto as desvantajosas são eliminadas pela sele¸cão natural. Com os conceitos propostos por Charles Darwin, é poss´ıvel analizar as mudan¸cas que ocorreram nas espécies de seres vivos e propor uma linhagem evolutiva delas. Como exemplo, através destes conceitos, é poss´ıvel afirmar que os seres humanos e demais espécies de primatas possuem uma espécie ancestral em comum.

(17)

5 onde é apresentada uma árvore filogenética constru´ıda através de análise de Ácido Ribo-nucléico (Ribonucleic Acid) (RNA) exibindo os três reinos e seus principais filos.

Fonte: (CARL. . ., 2003).

Figura 1.1 – Dendograma dos trˆes reinos e seus principais filos.

A filogenética molecular possui três métodos bastante utilizados para inferir a árvore ou as árvores evolucionárias que melhor refletem as varia¸cões observadas no grupo de seqüências moleculares. Os três métodos são: máxima verossimilhan¸ca, métodos de distância e máxima parsimônia.

Em algumas ocasiões é utilizado o termo reconstru¸cão filogenética, para denotar uma inferência filogenética. O porquê disto é que através de dados, taxinômos ou mo-leculares, e do estudo desdes dados, pretende-se reconstruir, ou inferir, uma árvore mais próxima poss´ıvel da verdadeira, formada pela evolu¸cão dos organismos.

Nas pesquisas de filogenias mais complexas, é comum a utiliza¸cão de workflows. Workflows são um conjunto de softwares, cada um com uma fun¸cão espec´ıfica, que execu-tam uma opera¸cão. Por exemplo, na filogenética utiliza-se workflows compostos por um software de pesquisa de seqüências em banco de dados; outro que recebe estas seqüências e faz um alinhamento delas, ressaltando suas semelhan¸cas; e por fim um software que lê o resultado do alinhamento das seqüências e reconstrói uma árvore filogenética baseada

(18)

6 nestes dados.

Um problema comum a todos os métodos de reconstru¸cão de árvore filogenética é a alta necessidade computacional caso o número de seqüências seja alto. Para resolver este problema, a principal solu¸cão seria distribuir o problema entre diversos processado-res. Desta forma, duas solucões são poss´ıveis: a utiliza¸cão de supercomputadores ou a utiliza¸cão de clusters. A utiliza¸cão de supercomputadores esbarra no alto custo destes equipamentos, tornando inacess´ıveis para diversas institui¸cões de pesquisa. Uma solu¸cão que está se destacando em ambientes distribu´ıdos são os clusters beowulf (STERLING, 2002).

Clusters é um termo largamente utilizado que significa uma interliga¸cão de com-putadores através de software e rede independentes num único sistema, ou seja, uma inteliga¸cão de computadores independentes para resolverem um problema em comum. Os clusters podem ser utilizado em sistemas High Availability (HA) para garantir alta disponibilidade ou em High Performance Computing (HPC) para proporcionarem poder computacional maior do que um único computador proporcionaria (STERLING, 2002).

Os clusters beowulf são clusters de desempenho escalável baseados em hardware fa-cilmente encontrado no mercado, em sistemas de redes comuns e tendo como infraestrutura softwares livres (BEOWULF. . ., 2004). Os clusters beowulf possuem alta adaptabilidade, podendo ser formados por dois nodos conectados via ethernet ou ser um complexo sistema de 1024 nodos conectados através de rede de alta velocidade.

A comunica¸cão entre os nodos de um cluster beowulf é feita através de bibliotecas de troca de mensagens. Atualmente o principal padrão é o Message Passing Interface (MPI) (MESSAGE. . ., 2006). Ele possui diversas implementa¸cões podem ser bibliotecas nos aplicativos, fazendo a abstra¸cão da comunica¸cão entre os nodos. É importante ressaltar que os softwares executados em clusters beowulf devem ser preparados para isto, utilizando algoritmos para processamento distribu´ıdo e utilizando na sua implementa¸cão alguma biblioteca para a comunica¸cão entre os nodos.

(19)

de-7 mora do processo de reconstru¸cão da árvore filogenética quando o número de seqüências for elevado (a partir de 40 seqüências). Neste trabalho pretende-se especificar um algo-ritmo para a inferência de árvores filogênicas em ambientes distribu´ıdos implementado utilizando padrões abertos. Com isto, pretende-se reduzir o tempo computacional ne-cessário para a inferência de árvores filogenéticas.

1.1 OBJETIVOS DO TRABALHO

O objetivo deste trabalho é disponibilizar uma ferramenta para a inferência de árvores filogenéticas em um ambiente distribu´ıdo.

Os objetivos espec´ıficos do trabalho s˜ao:

a) propor um algoritmo para inferência de árvores filogenéticas em ambiente dis-tribu´ıdo;

b) implementar o algoritmo num software de reconstru¸cão de árvores filogenéticas do pacote PHYLIP 1_;

c) substituir o software PAUP*2 ₍_SWOFFORD_{, 2004) no workflow proposto} por Theobald e Wuttke (2005) po software desenvolvido neste trabalho.

1.2 RELEV ˆANCIA DO TRABALHO

A filogenética é uma importante área de estudo, pois nela são feitos os estudos de inter-rela¸cões parentescas entre táxons3 _{são ordenados de acordo com sua rela¸cão} pa-rentesca e através dela pode-se conhecer as rela¸cões evolucionárias entre os seres vivos. Porém, para efetuar estes estudos, são necessários diversos processos com alto custo com-putacional, que podem ser significativamente lentos se forem executados em um único computador.

Com a inten¸cão de reduzir o tempo de reconstru¸cão de árvores filogênicas, surge 1_{O pacote PHYLIP (}_FELSENSTEIN_{, 2005) é um conjunto de softwares amplamente utilizados no estudo}

de filogen´etica. Ele ´e disponibilizado livremente em http://evolution.genetics.washington.edu/ phylip.html.

2_{O software PAUP* é largamente utilizado nas reconstru¸cões filogenéticas, possuindo como problema}

o custo da sua licen¸ca de utiliza¸c˜ao

3_{Táxon é uma unidade associada a um sistema de classifica¸cão. Táxons (ou taxa) podem estar em}

qualquer n´ıvel de um sistema de classifica¸cão podendo ser um reino, um gênero, uma espécie ou qualquer outra unidade de um sistema de classifica¸cão dos seres vivos.

(20)

8 a idéia de distribuir este processo. Com a utiliza¸cão de padrões de comunica¸cão abertos, softwares livres e com a reutiliza¸cão de softwares já existente, esta nova ferramenta poderá auxiliar, na redu¸cão do tempo computacional e do custo financeiro, diversos estudos de filogenética molecular.

1.3 REQUISITOS DO SOFTWARE A SER DESENVOLVIDO

O trabalho será composto por um software para reconstru¸cão de árvores filogenética em ambiente distribu´ıdo. Abaixo são detalhados os Requisitos Não Funcionais (RNF) e os Requisitos Funcionais (RF).

O software deve:

a) reconstruir árvores filogenéticas utilizando o método de distância (RF);

b) ser compat´ıvel com os formatos dos arquivos de entrada e sa´ıda do pacote PHYLIP (RNF);

c) ser implementado utilizando o padr˜ao MPI (RNF);

d) ser compilado e executado em qualquer ambiente Unix que tenha suporte ao padr˜ao MPI (RNF);

e) seguir o padr˜ao do pacote PHYLIP na sua interface com o us´ario (RNF). 1.4 METODOLOGIA

O trabalho ser´a desenvolvido observando as seguintes etapas:

a) estudo da genética molecular: nesta etapa serão estudados a genética molecular, seus componentes e os processos de evolu¸cão dos mesmos visto que a filogenética molecular é o estudo das rela¸cões evolutivas dos elementos da genética molecu-lar;

b) estudo da filogenética: nesta estapa serão estudados os métodos de reconstru¸cão de árvores filogenéticas;

(21)

algo-9 ritmo para a reconstru¸cão de árvores filogenéticas em ambiente distribu´ıdo; e) estudo do padrão MPI: nesta etapa será feito um estudo do padrão MPI e

quais das funcionalidades dele ser˜ao utilizadas na implementa¸c˜ao do algoritmo especificado na etapa anterior;

f) estudo do pacote PHYLIP: nesta etapa será estudado o funcionamento e im-plementa¸cão do pacote PHYLIP, pois nele que será implementado o algoritmo especificado na etapa anterior;

g) especifica¸cão do software: nesta etapa o software de reconstru¸cão de árvores filogenéticas em ambiente distribu´ıdo será especificado utilizando diagramas da Unified Modeling Language (UML);

h) implementa¸cão do software: nesta etapa o software de reconstru¸cão de árvores filogenéticas em ambiente distribu´ıdo será implementado utilizando como base o pacote PHYLIP.

i) testes: esta etapa ocorrerá em paralelo com a implementa¸cão. Serão feitos testes de unidade e testes de caixa preta para averiguar se os resultados das execu¸cões do software estão corretos;

j) integra¸cão com o workflow : nesta etapa o software será integrado com o work-flow de reconstru¸cão filogenética através de modelos estat´ısticos de fam´ılias de prote´ınas proposto por Theobald e Wuttke (2005);

k) testes de integra¸cão: esta etapa ocorrerá paralelamente à etapa anterior. Nela será averiguado se o workflow apresenta resultados corretos com a substitui¸cão do software PAUP* pela ferramenta desenvolvida neste trabalho;

l) compara¸cão de desempenho: compara¸cão com outras ferramentas para verificar se o desempenho atingido supera o desempenho oferecido pelas ferramentas já existente.

As atividades ser˜ao realizadas nos per´ıodos relacionados no quadro 1.1.

(22)

10

2006

maio jun. jul. ago. set. out. nov.

etapas / quinzenas 1 2 1 2 1 2 1 2 1 2 1 2 1 2

estudo de gen´etica molecular x x

estudo de filogen´etica x x

estudo de m´etodos de distribui¸c˜ao x

especifica¸c˜ao do algoritmo distribu´ıdo x x

estudo do padr˜ao MPI x x

estudo do pacote PHYLIP x x x x

especifica¸c˜ao do software x x x

implementa¸c˜ao do software x x x

testes x x x

integra¸c˜ao com o workflow x

testes de integra¸c˜ao x x

compara¸c˜ao de desempenho x

reda¸c˜ao do volume final x x x x x x x x x x x

(23)

11

2 REVIS ˜

AO BIBLIOGR ´

AFICA

Para melhor compreender o trabalho proposto, é importante apresentar algu-mas no¸cões de genética molecular, bioinformática, filogenética molecular e sistealgu-mas dis-tribu´ıdos. A se¸cão 2.1 apresenta os princ´ıpios da genética molecular. Na se¸cão 2.2 é apresentada a bioinformática, seus principais trabalhos e desafios. A se¸cão 2.3 apresenta a filogenética molecular, no que é baseada e seus principais métodos. Também é apre-sentada nesta se¸cão o workflow proposto por Theobald e Wuttke (2005). Na se¸cão 2.4 são apresentados os conceitos de sistemas distribu´ıdos e o padrão MPI. E por fim, na se¸cão 2.5 são apresentados os principais softwares de reconstru¸cão de árvores filogenéticas.

2.1 GEN´ETICA MOLECULAR

A genética é a área da biologia que estuda a hereditariedade entre os seres vivos. Ela se basea no fato de que as caracter´ısticas morfológicas e estruturais dos pais são herdadas pelos filhos e através de muta¸cões pontuais estas caracter´ısticas são modificadas ao longo de gera¸cões.

A Teoria da Evolu¸cão das espécies, proposta por Charles Darwin (DARWIN, 1859) é amplamente aceita pela comunidade cient´ıfica. Ela apresenta as rela¸cões parentescas entre as espécies e forneceu critérios para uma classifica¸cão hierárquica, consistente e única dos organismos. A Teoria da Evolu¸cão das espécies é baseada no princ´ıpio que os seres vivos sofrem muta¸cões. Quando as muta¸cões são benéficas para o ser vivo, elas são perpetuadas em futuras gera¸cões, enquanto as que não são benéficas, não são perpetuadas e acabam extintas.

O mecanismo que armazena as informa¸cões hereditárias dos seres vivos é o Ácido Desoxirribonucléico (Deoxyribonucleic Acid) (DNA) e ele é estudado pela genética molecu-lar. Segundo Strachan e Read (2002, pg. 1), a genética molecular trata das inter-rela¸cões entre as macromoléculas de informa¸cões - o DNA e o RNA - e de como elas são utilizadas

(24)

12 para sintetizar os polipt´ıdeos, os componentes básicos de todas as prote´ınas. Em todos os seres vivos, as informa¸cões hereditárias estão contidas no DNA e em alguns v´ırus estão no RNA.

Todos os seres vivos e v´ırus possuem genes, que são seqüências de nucleot´ıdeos que servem como moldes para a s´ıntese de prote´ınas. Os nucleot´ıdios podem ser Ade-nina (A), Timina (T), GuaAde-nina (G), Citosina (C) e Uracila (U), sendo que as seqüências de DNA são formadas pelas quatro primeiras e nas de RNA a Timina é substitu´ıda pela Uracila. O conjunto de todos os genes de um organismo é denominado genoma. As prote´ınas são seqüências de aminácios, que constituem a maior parte da massa celular seca. Segundo Alberts et al. (2004, pg. 129), prote´ınas não são meramente os blocos que constroem as células, elas também executam praticamente todas as fun¸cões celula-res. Prote´ınas especializadas fazem a s´ıntase do DNA, funcionam como hormônios, fibras elásticas, anticorpos, mensageiras extracelulares e diversas outras fun¸cões.

De uma forma resumida, os genes estão codificados no genoma em forma de seqüências de DNA, prote´ınas especializadas leêm os genes e os transcrevem na forma de RNA que são levados aos ribossomos para servirem de molde na s´ıntese de prote´ınas. Esta rela¸cão de DNA, RNA e prote´ınas é chamada de dogma central da genética molecular (STRACHAN; READ, 2002).

2.2 BIOINFORM ´ATICA

A bioinformática é uma área de estudo que inclui a genética molecular, a ciência da computa¸cão e a estat´ıstica. Nela são resolvidos problemas de carácter biológico, utilizando-se técnicas em sua maior parte estat´ısticas implementadas em computadores. Os principais problemas da bioinfomática são relacionados à compara¸cão de seqüências genéticas e protéicas. Estas compara¸cões têm como objetivo pesquisar similaridade entre as seqüências, para poder analisar a homologia entre as seqüências e também para inferir a estrutura destas moléculas (MOUNT, 2004).

(25)

13 mutante. Esta variante mutante e sua ancestral e outras variantes de ambas as seqüências são consideradas homólogas. O estudo da homologia entre as seqüências e o grau de parentesco entre seqüências genéticas é chamado de filogenética molecular (MOUNT, 2004). 2.3 FILOGENÉTICA MOLECULAR

A filogenética, também chamada de sistemática filogenética, é o estudo das rela¸cões evolucionárias entre táxons, desde o n´ıvel de indiv´ıduo até moleculares que armazenam informa¸cões hereditárias da espécie. O principal objetivo dela é a classifica¸cão dos táxons de acordo com o seu grau de parentesco evolutivo. Estes resultados são representados graficamente na forma de filogenias ou ávores filogenéticas, indicando a rela¸cão hereditária entre os organismos, onde cada táxon é ordenado de acordo com sua rela¸cão parentesca.

Com a evolu¸cão da genética molecular e com a maior quantidade de dados genéticos e protéicos, a filogenética molecular teve in´ıcio. A filogenética molecular estuda a evolu¸cão de genomas, genes e prote´ınas. Os métodos mais comuns para a reconstru¸cão de árvores filogenéticas são: máxima verossimilhan¸ca, métodos de distância e máxima parsimônia.

O método de máxima verossimilhan¸ca se baseia na cria¸cão de diferentes árvores filogenéticas e com a utiliza¸cão de modelos evolutivos, verifica qual ou quais delas têm a maior probabilidade de representar a verdadeira evolu¸cão ocorrida. A máxima par-simônia trabalha agrupando caracter´ısticas pontuais presentes nas moléculas de DNA, RNA ou protéicas e por fim, busca-se uma árvore que possua o menor número de muta¸cões poss´ıveis. O método de distância utiliza uma matriz de valores contendo as distâncias evolutivas previamente calculadas entre as moléculas genéticas ou protéicas. Através des-tas distâncias, é constru´ıda uma árvore, cujo objetivo é que se tenha o menor custo de distância entre os nodos.

Para a escolha do método mais apropriado é dito: programas baseados em métodos de distância são comumente utilizados em laboratórios de biologia molecular porque eles são mais diretos e simples no uso e também podem ser utilizados quando há grande número de seqüências. Métodos de máxima verossomilhan¸ca são mais trabalhosos no uso e requerem maior compreensão do modelo evolutivo nos quais eles são baseados. Como

(26)

14 eles envolvem alto esfor¸co computacional e este esfor¸co aumenta dramaticamente com o aumento da quantidade de seqüências, programas baseados neste método estão limitados a análise de uma pequena quantidade de seqüências. Caso as seqüências sejam altamente similares, recomenda-se utilizar o método de máxima parsimônia, que prediz a árvore filogenética minimizando o número de passos necessários para observar as varia¸cões nas seqüências dos ancestrais até a seqüência atual. Por este motivo, este método também é conhecido como método de evolu¸cão m´ınima (MOUNT, 2004).

Uma técnica de filogenética molecular, proposta por Theobald e Wuttke (2005), é a filogenética utilizando modelos estat´ısticos das fam´ılias de prote´ınas. Em seu trabalho, Theobald e Wuttke (2005) apresenta um workflow para a reconstru¸cão filogenética uti-lizando modelos estat´ısticos das fam´ılias de prote´ınas. O primeiro passo do workflow é a pesquisa de seqüências similares para cada prote´ına que deseja-se reconstruir a árvore filogenética. Com as prote´ınas similares, constroem-se modelos estat´ısticos da fam´ılia da prote´ına utilizando modelos ocultos de Markov. Os modelos estat´ısticos de cada fam´ılia das prote´ınas é comparado com todos os demais modelos e com os resultados destas com-para¸cões é constru´ıdo uma matriz de valores que será utilizada para que o software PAUP* reconstrua a árvore filogenética utilizando o método de distância.

2.4 SISTEMAS DISTRIBUIDOS

Sistemas distribu´ıdos são sistemas compostos por mais de um computador onde a computa¸cão do processo é distribu´ıdo entre eles. Um modelo de sistemas distribu´ıdos são os clusters. Neles, as tarefas de processamento de dados são dividas entre diversos nós, sendo cada nó um computador independente. Um modelo de cluster que está sendo intensamente utilizado é o beowulf.

(27)

pro-15 (STERLING, 2002).

Para a passagem de mensagens, um grupo de fornecedores de computadores pa-ralelos especificaram um padrão, o MPI. O MPI não é uma implementa¸cão espec´ıfica, mas um padrão para ser seguido na implementa¸cão de bibliotecas de troca de mensagens para computa¸cão paralela. Para o desenvolvedor é transparente qual implementa¸cão do MPI será utilizada, pois ele desenvolverá utilizando as interfaces especificadas por ele. Desta forma, pode-se abstrair completamente qual implementa¸cão do MPI será utilizada no momento de execu¸cão.

O padrão MPI define diversas opera¸cões, sendo as principais: conhecimento do número de processos que participam do cluster, conhecimento de qual o número do pro-cesso no cluster, envio de mensagem a algum propro-cesso espec´ıfico ou a todos os propro-cessos e recebimento de mensagem de um processos espec´ıfico ou de todos os processos. O padrão MPI também fornece opera¸cões de envio e recebimento de mensagens ass´ıncronos, especi-fica¸cão de tipos, entrada e sa´ıda paralela e acesso a memória remota. Conhecendo apenas as opera¸cões básicas citadas é poss´ıvel implementar softwares distribu´ıdos utilizando o padrão MPI (STERLING, 2002).

Um exemplo de utiliza¸cão do padrão MPI na bioinformática é o software

mpi-BLAST (DARLING; CAREY; FENG, 2003). Este software ´e utilizado para efetuar

pesqui-sas por similariedades em bancos de dados de seqüências genéticas e protéicas. Como o processo de pesquisa pode ser demorado caso o banco de dados seja muito grande (acima de um bilhão de pares de bases) ou deseja-se efetuar diversas pesquisas de forma rápida, o mpiBLAST utiliza a técnica de repartir o banco de dados em partes e delegar a cada processo do cluster a pesquisa em uma parte dele.

2.5 TRABALHOS CORRELATOS

Existem diversos softwares para reconstru¸cão de árvores filogenéticas, sendo os principais, PAUP* e PHYLIP. O PAUP* implementa os três metodos num único soft-ware tendo ele uma linguagem própria para definir qual métodos e parametros utilizar. O PAUP* permite definir qual método será utilizado na reconstru¸cão filogenética, sendo que

(28)

16 os algoritmos algoritmos dele não são publicados. O PHYLIP é um pacote de diversos softwares, para reconstru¸cão de árvores filogenéticas, exibi¸cão destas árvores e avalia¸cão da credibilidade das árvores reconstru´ıdas. O PHYLIP implementa algoritmos dos três métodos previamente descritos, sendo que os algoritmos são publicados em artigos e em livros e o código fonte que compoe pacote é aberto. Porém, o PAUP* é utilizado no work-flow de Theobald e Wuttke (2005) porque segundo os autores, os algoritmos deste são mais otimizados, favorecendo desta forma o tempo de execu¸cão do processo de reconstru¸cão da árvore filogenética.

(29)

17

3 CONSIDERAC

¸ OES FINAIS

Entre os pacotes existentes para reconstru¸cão filogenética, o PHYLIP ( FELSENS-TEIN, 2005) é o mais utilizado na área acadêmica, pois possui um vasto conjunto de aplicativos e é um pacote de software livre. Os algoritmos do PHYLIP não são otimi-zados o bastante para a execu¸cão de tarefas com muitas seqüências, tornando a tarefa de reconstru¸cão de árvores filogenéticas lentas nestes casos. Como alternativa, existe o o pacote PAUP* (SWOFFORD, 2004), que possui algoritmos otimizados e velozes, porém é um pacote de software fechado e pago. Outra questão referente a ambos pacotes, é que eles não são executados de forma distribu´ıda, mesmo com algoritmos otimizados. No caso do PAUP* pode-se demorar na execu¸cão das tarefas quando o volume de dados for alto. Como uma alternativa para ambientes distribu´ıdos, tem-se o DPRml (KEANE et al., 2005). Este software possui apenas o método de máxima verossimilhan¸ca e não foi desenvolvido para clusters beowulf, mas para ambientes distribu´ıdos utilizando o Java RMI. As vantagens dos clusters Beowulf é a sua escalabilidade, podendo crescer de forma transparente para quemo utiliza e desenvolve software distribu´ıdos.

Como os métodos de reconstru¸cão de árvores filogenéticas são paralelizáveis, pretende-se implementá-los para reconstru¸cão de árvores filogências num ambiente dis-tribu´ıdo. Pretende-se implementar o algoritmo distribu´ıdo utilizando a base do pacote PHYLIP e para comunica¸cão entre os processos, o padrão MPI. Então instalalo num cluster beowulf para executar a reconstru¸cão filogenética utilindo o método de distância m´ınima de forma distribu´ıda. Após, deseja-se utiliza-lo no workflow de reconstru¸cão filo-genética utilizando modelos estat´ısticos de fam´ılias de prote´ınas proposto por Theobald e Wuttke (2005). Com esta integra¸cão, pretende-se ganhar desempenho na execu¸cão de tarefas de reconstru¸cão de árvore filogenéticas que necessitam de alto poder computacio-nal.

(30)

18

REFERˆ

ENCIAS BIBLIOGR ´

AFICAS

ALBERTS, Bruce et al. Biologia molecular da c´elula. 2. ed. Porto Alegre: [s.n.], 2004.

BEOWULF.ORG: the Beowulf cluster site. San Francisco: [s.n.], 2004. Dispon´ıvel em: <www.beowulf.org>. Acesso em: 26 mar. 2006.

CARL Woese and New Perspectives on Evolution. 2003. Dispon´ıvel em: <http://nai-.arc.nasa.gov/news stories/news detail.cfm?ID=274>.

DARLING, A.; CAREY, L.; FENG, W. The desing, implementation, and evaluation of mpiblast. In: 4TH INTERNATIONAL CONFERENCE ON LINUX CLUSTERS: THE HPC REVOLUTION 2003 IN CONJUNCTION WITH THE CLUSTERWORLD CONFERENCE & EXPO, 2003, San Jose, Californa, USA. Proceddings... San Jose, CA: LA-UR, 2003.

DARWIN, Charles. The origin of species. [S.l.]: Martin Claret, 1859.

FELSENSTEIN, J. PHYLIP (Phylogeny inference package) version 3.6. Washington, 2005.

KEANE, T.M. et al. DPRml: distributed phylogeny reconstruction by maximum likelihood. Bioinformatics, v. 21(7), p. 969–974, 2005.

MESSAGE Passing Interface. Chicago: [s.n.], 2006. Dispon´ıvel em: <www-unix.mcs.anl-.gov/mpi/>. Acesso em: 26 mar. 2006.

MOUNT, David W. Bioinformatics: sequence and genome analysis. 2. ed. New York: [s.n.], 2004.

STERLING, Thomas (Ed.). Beowulf cluster computing with Linux. Cambridge, Massachusetts: The Mit Press, 2002.

STRACHAN, Tom; READ, Andrey P. Gen´etica molecular humana. 2. ed. Porto Alegre: [s.n.], 2002.

SWOFFORD, D. L. PAUP*: phylogenetic analysis using parsimony (*and other methods). version 4. Sunderlander, Massachusetts: Sinauer Associates, 2004.