• Nenhum resultado encontrado

PROPOSTA PARA O TRABALHO DE CONCLUSÃO DE CURSO TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS (SEM NEGRITO)

N/A
N/A
Protected

Academic year: 2021

Share "PROPOSTA PARA O TRABALHO DE CONCLUSÃO DE CURSO TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS (SEM NEGRITO)"

Copied!
30
0
0

Texto

(1)

TURNO: Norturno VERSÃO: No

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS DEPARTAMENTO DE SISTEMAS E COMPUTAÇÃO

CURSO DE CIÊNCIAS DA COMPUTAÇÃO — BACHARELADO COORDENAÇÃO DE TRABALHO DE CONCLUSÃO DE CURSO

PROPOSTA PARA O TRABALHO DE CONCLUSÃO DE CURSO

TÍTULO: TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS (SEM NEGRITO) ÁREA: Área de Concentração (cada substantivo escrito com a primeira letra maiúscula) Palavras-chave: Palavra-chave 1. Palavra-chave 2. Palavra-chave 3. (separadas por ponto,

com primeira letra maiúscula).

1 IDENTIFICAÇÃO

1.1 ALUNO

Nome: Felipe Fernandes Albrecht Código/matrícula: 61791 / 14451 Endereço residencial:

Rua: Manaus: 59 Complemento:

Bairro: Bela Vista CEP: 89110-000 Cidade: Gaspar UF: SC Telefone fixo: 3329-3232 Celular: 9655-6210

Endereço comercial:

Empresa: Senior Pesquisa e Tecnologia L

Rua: Joinville: 526 Bairro: Vila Nova

CEP: 89035-200 Cidade: Blumenau UF: SC Telefone: 3221-3365 E-Mail FURB: albrecht@inf.furb.br E-Mail alternativo: felipe.albrecht@gmail.com

1.2 ORIENTADOR

Nome: Jomi Fred Hübner

E-Mail FURB: jomi@inf.furb.br E-Mail alternativo:

(2)

2 DECLARAÇÕES

2.1 DECLARAÇÃO DO ALUNO

Declaro que estou ciente do Regulamento do Trabalho de Conclusão de Curso de Ciências da Computação e que a proposta em anexo, a qual concordo, foi por mim rubricada em todas as páginas. Ainda me comprometo pela obtenção de quaisquer recursos necessários para o desenvolvimento do trabalho, caso esses recursos não sejam disponibilizados pela Universidade Regional de Blumenau (FURB).

Assinatura: Local/data:

2.2 DECLARAÇÃO DO ORIENTADOR

Declaro que estou ciente do Regulamento do Trabalho de Conclusão do Curso de Ciências da Computação e que a proposta em anexo, a qual concordo, foi por mim rubricada em todas as páginas. Ainda me comprometo a orientar o aluno da melhor forma possível de acordo com o plano de trabalho explícito nessa proposta.

(3)

3 AVALIAÇÃO DA PROPOSTA

3.1 AVALIAÇÃO DO(A) ORIENTADOR(A) Acadêmico(a): Felipe Albrechr

Orientador(a): Jomi Fred Hübner

ASPECTOS AVALIADOS ate nde ate nde pa rc ia lme nte nã o a te nde AS P ECTOS TÉCNICOS 1. INTRODUÇÃO

1.1. O tema de pesquisa está devidamente contextualizado/delimitado? 1.2. O problema está claramente formulado?

2. OBJETIVOS

2.1. O objetivo geral está claramente definido e é passível de ser alcançado?

2.2. São apresentados objetivos específicos (opcionais)coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.

3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO

4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram claramente descritos?

5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC? 5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?

5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de maneira a permitir a execução do TCC no prazo disponível?

6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?

7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC? AS P ECTOS METODOLÓGICOS 8. REFERÊNCIAS BIBLIOGRÁFICAS

8.1. As referências bibliográficas obedecem às normas da ABNT?

8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na proposta (são usadas obras atualizadas e/ou as mais importantes da área)?

9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?

9.2. As informações retiradas de outros autores estão devidamente citadas? 10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)

10.1. O texto obedece ao formato estabelecido?

10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem utilizada é clara)?

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:

• qualquer um dos itens tiver resposta NÃO ATENDE;

pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou

pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.

PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO Assinatura do(a) avaliador(a): Local/data:

(4)

4 CONSIDERAÇÕES DO(A) ORIENTADOR(A):

11. Caso o(a) orientador(a) tenha assinalado em sua avaliação algum item como “atende parcialmente”, devem ser relatos os problemas/melhorias a serem efetuadas.

12.

(5)

AVALIAÇÃO DO(A) COORDENADOR DE TCC Acadêmico(a): Felipe Albrecht

Avaliador(a): José Roque Voltolini da Silva

ASPECTOS AVALIADOS ate nde ate nde pa rc ia lme nte nã o a te nde AS P ECTOS TÉCNICOS 1. INTRODUÇÃO

1.1. O tema de pesquisa está devidamente contextualizado/delimitado? 1.2. O problema está claramente formulado?

2. OBJETIVOS

2.1. O objetivo geral está claramente definido e é passível de ser alcançado?

2.2. São apresentados objetivos específicos (opcionais)coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.

3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO

4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram claramente descritos?

5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC? 5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?

5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de maneira a permitir a execução do TCC no prazo disponível?

6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?

7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC? AS P ECTOS METODOLÓGICOS 8. REFERÊNCIAS BIBLIOGRÁFICAS

8.1. As referências bibliográficas obedecem às normas da ABNT?

8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na proposta (são usadas obras atualizadas e/ou as mais importantes da área)?

9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?

9.2. As informações retiradas de outros autores estão devidamente citadas? 10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)

10.1. O texto obedece ao formato estabelecido?

10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem utilizada é clara)?

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:

• qualquer um dos itens tiver resposta NÃO ATENDE;

pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou

pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.

PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO OBSERVAÇÕES:

Assinatura do(a) avaliador(a): Local/data:

(6)

AVALIAÇÃO DO(A) PROFESSOR(A) DA DISCIPLINA DE TCCI Acadêmico(a): Felipe Albrecht

Avaliador(a): Joyce Martins

ASPECTOS AVALIADOS ate nde ate nde pa rc ia lme nte nã o a te nde AS P ECTOS TÉCNICOS 1. INTRODUÇÃO

1.1. O tema de pesquisa está devidamente contextualizado/delimitado? 1.2. O problema está claramente formulado?

2. OBJETIVOS

2.1. O objetivo geral está claramente definido e é passível de ser alcançado?

2.2. São apresentados objetivos específicos (opcionais)coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.

3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO

4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram claramente descritos?

5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC? 5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?

5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de maneira a permitir a execução do TCC no prazo disponível?

6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?

7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC? AS P ECTOS METODOLÓGICOS 8. REFERÊNCIAS BIBLIOGRÁFICAS

8.1. As referências bibliográficas obedecem às normas da ABNT?

8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na proposta (são usadas obras atualizadas e/ou as mais importantes da área)?

9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?

9.2. As informações retiradas de outros autores estão devidamente citadas? 10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)

10.1. O texto obedece ao formato estabelecido?

10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem utilizada é clara)?

PONTUALIDADE NA ENTREGA _____ diasatraso de

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:

• qualquer um dos itens tiver resposta NÃO ATENDE;

pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou

pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.

(7)

Assinatura do(a) avaliador(a): Local/data:

(8)

AVALIAÇÃO DO(A) PROFESSOR(A) ESPECIALISTA NA ÁREA Acadêmico(a): Felipe Albrecht

Avaliador(a): ASPECTOS AVALIADOS ate nde ate nde pa rc ia lme nte nã o a te nde AS P ECTOS TÉCNICOS 1. INTRODUÇÃO

1.1. O tema de pesquisa está devidamente contextualizado/delimitado? 1.2. O problema está claramente formulado?

2. OBJETIVOS

2.1. O objetivo geral está claramente definido e é passível de ser alcançado?

2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.

3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO

4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram claramente descritos?

5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC? 5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?

5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de maneira a permitir a execução do TCC no prazo disponível?

6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?

7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC? AS P ECTOS METODOLÓGICOS 8. REFERÊNCIAS BIBLIOGRÁFICAS

8.1. As referências bibliográficas obedecem às normas da ABNT?

8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na proposta (são usadas obras atualizadas e/ou as mais importantes da área)?

9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?

9.2. As informações retiradas de outros autores estão devidamente citadas? 10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)

10.1. O texto obedece ao formato estabelecido?

10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem utilizada é clara)?

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:

• qualquer um dos itens tiver resposta NÃO ATENDE;

pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou

pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.

PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO OBSERVAÇÕES:

(9)
(10)
(11)
(12)

1

(13)

UNIVERSIDADE REGIONAL DE BLUMENAU

CENTRO DE CIˆENCIAS EXATAS E NATURAIS

CURSO DE CIˆENCIAS DA COMPUTAC¸ ˜AO – BACHARELADO

RECONSTRUC

¸ ˜

AO FILOGEN´

ETICA EM

AMBIENTE DISTRIBU´IDO

FELIPE FERNANDES ALBRECHT

BLUMENAU 2006

(14)

FELIPE FERNANDES ALBRECHT

RECONSTRUC

¸ ˜

AO FILOGEN´

ETICA EM

AMBIENTE DISTRIBU´IDO

Proposta de Trabalho de Conclus˜ao de Curso submetida `a Universidade Regional de Blu-menau para a obten¸c˜ao dos cr´editos na disci-plina Trabalho de Concluss˜ao de Curso I do curso de Ciˆencias da Computa¸c˜ao – Bacha-relado.

Prof. Jomi Fred H¨ubner – Orientador

(15)

SUM ´

ARIO

1 INTRODUC¸ ˜AO 4

1.1 OBJETIVOS DO TRABALHO . . . 7

1.2 RELEV ˆANCIA DO TRABALHO . . . 7

1.3 REQUISITOS DO SOFTWARE A SER DESENVOLVIDO . . . 8

1.4 METODOLOGIA . . . 8

2 REVIS ˜AO BIBLIOGR ´AFICA 11 2.1 GEN´ETICA MOLECULAR . . . 11

2.2 BIOINFORM ´ATICA . . . 12

2.3 FILOGEN´ETICA MOLECULAR . . . 13

2.4 SISTEMAS DISTRIBUIDOS . . . 14

2.5 TRABALHOS CORRELATOS . . . 15

3 CONSIDERAC¸ OES FINAIS 17

REFERˆENCIAS BIBLIOGR ´AFICAS 18

(16)

4

1

INTRODUC

¸ ˜

AO

Desde o in´ıcio da hist´oria, a humanidade preocupa-se em compreender a vida e suas origens. Diversos foram os fil´osofos e cientistas que propuseram teorias e m´etodos para explicar a origem da vida. Com a publica¸c˜ao do livro “A Origem das Esp´ecies” por Charles Darwin em 1859, o conceito da evolu¸c˜ao foi apresentada pela primeira vez. A Teoria da Evolu¸c˜ao diz que os organismos sofrem muta¸c˜oes entre diferentes gera¸c˜oes e as modifica¸c˜oes vantajosas s˜ao perpetuadas, enquanto as desvantajosas s˜ao eliminadas pela sele¸c˜ao natural. Com os conceitos propostos por Charles Darwin, ´e poss´ıvel analizar as mudan¸cas que ocorreram nas esp´ecies de seres vivos e propor uma linhagem evolutiva delas. Como exemplo, atrav´es destes conceitos, ´e poss´ıvel afirmar que os seres humanos e demais esp´ecies de primatas possuem uma esp´ecie ancestral em comum.

(17)

5 onde ´e apresentada uma ´arvore filogen´etica constru´ıda atrav´es de an´alise de ´Acido Ribo-nucl´eico (Ribonucleic Acid) (RNA) exibindo os trˆes reinos e seus principais filos.

Fonte: (CARL. . ., 2003).

Figura 1.1 – Dendograma dos trˆes reinos e seus principais filos.

A filogen´etica molecular possui trˆes m´etodos bastante utilizados para inferir a ´arvore ou as ´arvores evolucion´arias que melhor refletem as varia¸c˜oes observadas no grupo de seq¨uˆencias moleculares. Os trˆes m´etodos s˜ao: m´axima verossimilhan¸ca, m´etodos de distˆancia e m´axima parsimˆonia.

Em algumas ocasi˜oes ´e utilizado o termo reconstru¸c˜ao filogen´etica, para denotar uma inferˆencia filogen´etica. O porquˆe disto ´e que atrav´es de dados, taxinˆomos ou mo-leculares, e do estudo desdes dados, pretende-se reconstruir, ou inferir, uma ´arvore mais pr´oxima poss´ıvel da verdadeira, formada pela evolu¸c˜ao dos organismos.

Nas pesquisas de filogenias mais complexas, ´e comum a utiliza¸c˜ao de workflows. Workflows s˜ao um conjunto de softwares, cada um com uma fun¸c˜ao espec´ıfica, que execu-tam uma opera¸c˜ao. Por exemplo, na filogen´etica utiliza-se workflows compostos por um software de pesquisa de seq¨uˆencias em banco de dados; outro que recebe estas seq¨uˆencias e faz um alinhamento delas, ressaltando suas semelhan¸cas; e por fim um software que lˆe o resultado do alinhamento das seq¨uˆencias e reconstr´oi uma ´arvore filogen´etica baseada

(18)

6 nestes dados.

Um problema comum a todos os m´etodos de reconstru¸c˜ao de ´arvore filogen´etica ´e a alta necessidade computacional caso o n´umero de seq¨uˆencias seja alto. Para resolver este problema, a principal solu¸c˜ao seria distribuir o problema entre diversos processado-res. Desta forma, duas soluc˜oes s˜ao poss´ıveis: a utiliza¸c˜ao de supercomputadores ou a utiliza¸c˜ao de clusters. A utiliza¸c˜ao de supercomputadores esbarra no alto custo destes equipamentos, tornando inacess´ıveis para diversas institui¸c˜oes de pesquisa. Uma solu¸c˜ao que est´a se destacando em ambientes distribu´ıdos s˜ao os clusters beowulf (STERLING, 2002).

Clusters ´e um termo largamente utilizado que significa uma interliga¸c˜ao de com-putadores atrav´es de software e rede independentes num ´unico sistema, ou seja, uma inteliga¸c˜ao de computadores independentes para resolverem um problema em comum. Os clusters podem ser utilizado em sistemas High Availability (HA) para garantir alta disponibilidade ou em High Performance Computing (HPC) para proporcionarem poder computacional maior do que um ´unico computador proporcionaria (STERLING, 2002).

Os clusters beowulf s˜ao clusters de desempenho escal´avel baseados em hardware fa-cilmente encontrado no mercado, em sistemas de redes comuns e tendo como infraestrutura softwares livres (BEOWULF. . ., 2004). Os clusters beowulf possuem alta adaptabilidade, podendo ser formados por dois nodos conectados via ethernet ou ser um complexo sistema de 1024 nodos conectados atrav´es de rede de alta velocidade.

A comunica¸c˜ao entre os nodos de um cluster beowulf ´e feita atrav´es de bibliotecas de troca de mensagens. Atualmente o principal padr˜ao ´e o Message Passing Interface (MPI) (MESSAGE. . ., 2006). Ele possui diversas implementa¸c˜oes podem ser bibliotecas nos aplicativos, fazendo a abstra¸c˜ao da comunica¸c˜ao entre os nodos. ´E importante ressaltar que os softwares executados em clusters beowulf devem ser preparados para isto, utilizando algoritmos para processamento distribu´ıdo e utilizando na sua implementa¸c˜ao alguma biblioteca para a comunica¸c˜ao entre os nodos.

(19)

de-7 mora do processo de reconstru¸c˜ao da ´arvore filogen´etica quando o n´umero de seq¨uˆencias for elevado (a partir de 40 seq¨uˆencias). Neste trabalho pretende-se especificar um algo-ritmo para a inferˆencia de ´arvores filogˆenicas em ambientes distribu´ıdos implementado utilizando padr˜oes abertos. Com isto, pretende-se reduzir o tempo computacional ne-cess´ario para a inferˆencia de ´arvores filogen´eticas.

1.1 OBJETIVOS DO TRABALHO

O objetivo deste trabalho ´e disponibilizar uma ferramenta para a inferˆencia de ´arvores filogen´eticas em um ambiente distribu´ıdo.

Os objetivos espec´ıficos do trabalho s˜ao:

a) propor um algoritmo para inferˆencia de ´arvores filogen´eticas em ambiente dis-tribu´ıdo;

b) implementar o algoritmo num software de reconstru¸c˜ao de ´arvores filogen´eticas do pacote PHYLIP 1;

c) substituir o software PAUP*2 (SWOFFORD, 2004) no workflow proposto por Theobald e Wuttke (2005) po software desenvolvido neste trabalho.

1.2 RELEV ˆANCIA DO TRABALHO

A filogen´etica ´e uma importante ´area de estudo, pois nela s˜ao feitos os estudos de inter-rela¸c˜oes parentescas entre t´axons3 s˜ao ordenados de acordo com sua rela¸c˜ao pa-rentesca e atrav´es dela pode-se conhecer as rela¸c˜oes evolucion´arias entre os seres vivos. Por´em, para efetuar estes estudos, s˜ao necess´arios diversos processos com alto custo com-putacional, que podem ser significativamente lentos se forem executados em um ´unico computador.

Com a inten¸c˜ao de reduzir o tempo de reconstru¸c˜ao de ´arvores filogˆenicas, surge 1O pacote PHYLIP (FELSENSTEIN, 2005) ´e um conjunto de softwares amplamente utilizados no estudo

de filogen´etica. Ele ´e disponibilizado livremente em http://evolution.genetics.washington.edu/ phylip.html.

2O software PAUP* ´e largamente utilizado nas reconstru¸c˜oes filogen´eticas, possuindo como problema

o custo da sua licen¸ca de utiliza¸c˜ao

3T´axon ´e uma unidade associada a um sistema de classifica¸c˜ao. T´axons (ou taxa) podem estar em

qualquer n´ıvel de um sistema de classifica¸c˜ao podendo ser um reino, um gˆenero, uma esp´ecie ou qualquer outra unidade de um sistema de classifica¸c˜ao dos seres vivos.

(20)

8 a id´eia de distribuir este processo. Com a utiliza¸c˜ao de padr˜oes de comunica¸c˜ao abertos, softwares livres e com a reutiliza¸c˜ao de softwares j´a existente, esta nova ferramenta poder´a auxiliar, na redu¸c˜ao do tempo computacional e do custo financeiro, diversos estudos de filogen´etica molecular.

1.3 REQUISITOS DO SOFTWARE A SER DESENVOLVIDO

O trabalho ser´a composto por um software para reconstru¸c˜ao de ´arvores filogen´etica em ambiente distribu´ıdo. Abaixo s˜ao detalhados os Requisitos N˜ao Funcionais (RNF) e os Requisitos Funcionais (RF).

O software deve:

a) reconstruir ´arvores filogen´eticas utilizando o m´etodo de distˆancia (RF);

b) ser compat´ıvel com os formatos dos arquivos de entrada e sa´ıda do pacote PHYLIP (RNF);

c) ser implementado utilizando o padr˜ao MPI (RNF);

d) ser compilado e executado em qualquer ambiente Unix que tenha suporte ao padr˜ao MPI (RNF);

e) seguir o padr˜ao do pacote PHYLIP na sua interface com o us´ario (RNF). 1.4 METODOLOGIA

O trabalho ser´a desenvolvido observando as seguintes etapas:

a) estudo da gen´etica molecular: nesta etapa ser˜ao estudados a gen´etica molecular, seus componentes e os processos de evolu¸c˜ao dos mesmos visto que a filogen´etica molecular ´e o estudo das rela¸c˜oes evolutivas dos elementos da gen´etica molecu-lar;

b) estudo da filogen´etica: nesta estapa ser˜ao estudados os m´etodos de reconstru¸c˜ao de ´arvores filogen´eticas;

(21)

algo-9 ritmo para a reconstru¸c˜ao de ´arvores filogen´eticas em ambiente distribu´ıdo; e) estudo do padr˜ao MPI: nesta etapa ser´a feito um estudo do padr˜ao MPI e

quais das funcionalidades dele ser˜ao utilizadas na implementa¸c˜ao do algoritmo especificado na etapa anterior;

f) estudo do pacote PHYLIP: nesta etapa ser´a estudado o funcionamento e im-plementa¸c˜ao do pacote PHYLIP, pois nele que ser´a implementado o algoritmo especificado na etapa anterior;

g) especifica¸c˜ao do software: nesta etapa o software de reconstru¸c˜ao de ´arvores filogen´eticas em ambiente distribu´ıdo ser´a especificado utilizando diagramas da Unified Modeling Language (UML);

h) implementa¸c˜ao do software: nesta etapa o software de reconstru¸c˜ao de ´arvores filogen´eticas em ambiente distribu´ıdo ser´a implementado utilizando como base o pacote PHYLIP.

i) testes: esta etapa ocorrer´a em paralelo com a implementa¸c˜ao. Ser˜ao feitos testes de unidade e testes de caixa preta para averiguar se os resultados das execu¸c˜oes do software est˜ao corretos;

j) integra¸c˜ao com o workflow : nesta etapa o software ser´a integrado com o work-flow de reconstru¸c˜ao filogen´etica atrav´es de modelos estat´ısticos de fam´ılias de prote´ınas proposto por Theobald e Wuttke (2005);

k) testes de integra¸c˜ao: esta etapa ocorrer´a paralelamente `a etapa anterior. Nela ser´a averiguado se o workflow apresenta resultados corretos com a substitui¸c˜ao do software PAUP* pela ferramenta desenvolvida neste trabalho;

l) compara¸c˜ao de desempenho: compara¸c˜ao com outras ferramentas para verificar se o desempenho atingido supera o desempenho oferecido pelas ferramentas j´a existente.

As atividades ser˜ao realizadas nos per´ıodos relacionados no quadro 1.1.

(22)

10

2006

maio jun. jul. ago. set. out. nov.

etapas / quinzenas 1 2 1 2 1 2 1 2 1 2 1 2 1 2

estudo de gen´etica molecular x x

estudo de filogen´etica x x

estudo de m´etodos de distribui¸c˜ao x

especifica¸c˜ao do algoritmo distribu´ıdo x x

estudo do padr˜ao MPI x x

estudo do pacote PHYLIP x x x x

especifica¸c˜ao do software x x x

implementa¸c˜ao do software x x x

testes x x x

integra¸c˜ao com o workflow x

testes de integra¸c˜ao x x

compara¸c˜ao de desempenho x

reda¸c˜ao do volume final x x x x x x x x x x x

(23)

11

2

REVIS ˜

AO BIBLIOGR ´

AFICA

Para melhor compreender o trabalho proposto, ´e importante apresentar algu-mas no¸c˜oes de gen´etica molecular, bioinform´atica, filogen´etica molecular e sistealgu-mas dis-tribu´ıdos. A se¸c˜ao 2.1 apresenta os princ´ıpios da gen´etica molecular. Na se¸c˜ao 2.2 ´e apresentada a bioinform´atica, seus principais trabalhos e desafios. A se¸c˜ao 2.3 apresenta a filogen´etica molecular, no que ´e baseada e seus principais m´etodos. Tamb´em ´e apre-sentada nesta se¸c˜ao o workflow proposto por Theobald e Wuttke (2005). Na se¸c˜ao 2.4 s˜ao apresentados os conceitos de sistemas distribu´ıdos e o padr˜ao MPI. E por fim, na se¸c˜ao 2.5 s˜ao apresentados os principais softwares de reconstru¸c˜ao de ´arvores filogen´eticas.

2.1 GEN´ETICA MOLECULAR

A gen´etica ´e a ´area da biologia que estuda a hereditariedade entre os seres vivos. Ela se basea no fato de que as caracter´ısticas morfol´ogicas e estruturais dos pais s˜ao herdadas pelos filhos e atrav´es de muta¸c˜oes pontuais estas caracter´ısticas s˜ao modificadas ao longo de gera¸c˜oes.

A Teoria da Evolu¸c˜ao das esp´ecies, proposta por Charles Darwin (DARWIN, 1859) ´e amplamente aceita pela comunidade cient´ıfica. Ela apresenta as rela¸c˜oes parentescas entre as esp´ecies e forneceu crit´erios para uma classifica¸c˜ao hier´arquica, consistente e ´unica dos organismos. A Teoria da Evolu¸c˜ao das esp´ecies ´e baseada no princ´ıpio que os seres vivos sofrem muta¸c˜oes. Quando as muta¸c˜oes s˜ao ben´eficas para o ser vivo, elas s˜ao perpetuadas em futuras gera¸c˜oes, enquanto as que n˜ao s˜ao ben´eficas, n˜ao s˜ao perpetuadas e acabam extintas.

O mecanismo que armazena as informa¸c˜oes heredit´arias dos seres vivos ´e o ´Acido Desoxirribonucl´eico (Deoxyribonucleic Acid) (DNA) e ele ´e estudado pela gen´etica molecu-lar. Segundo Strachan e Read (2002, pg. 1), a gen´etica molecular trata das inter-rela¸c˜oes entre as macromol´eculas de informa¸c˜oes - o DNA e o RNA - e de como elas s˜ao utilizadas

(24)

12 para sintetizar os polipt´ıdeos, os componentes b´asicos de todas as prote´ınas. Em todos os seres vivos, as informa¸c˜oes heredit´arias est˜ao contidas no DNA e em alguns v´ırus est˜ao no RNA.

Todos os seres vivos e v´ırus possuem genes, que s˜ao seq¨uˆencias de nucleot´ıdeos que servem como moldes para a s´ıntese de prote´ınas. Os nucleot´ıdios podem ser Ade-nina (A), Timina (T), GuaAde-nina (G), Citosina (C) e Uracila (U), sendo que as seq¨uˆencias de DNA s˜ao formadas pelas quatro primeiras e nas de RNA a Timina ´e substitu´ıda pela Uracila. O conjunto de todos os genes de um organismo ´e denominado genoma. As prote´ınas s˜ao seq¨uˆencias de amin´acios, que constituem a maior parte da massa celular seca. Segundo Alberts et al. (2004, pg. 129), prote´ınas n˜ao s˜ao meramente os blocos que constroem as c´elulas, elas tamb´em executam praticamente todas as fun¸c˜oes celula-res. Prote´ınas especializadas fazem a s´ıntase do DNA, funcionam como hormˆonios, fibras el´asticas, anticorpos, mensageiras extracelulares e diversas outras fun¸c˜oes.

De uma forma resumida, os genes est˜ao codificados no genoma em forma de seq¨uˆencias de DNA, prote´ınas especializadas leˆem os genes e os transcrevem na forma de RNA que s˜ao levados aos ribossomos para servirem de molde na s´ıntese de prote´ınas. Esta rela¸c˜ao de DNA, RNA e prote´ınas ´e chamada de dogma central da gen´etica molecular (STRACHAN; READ, 2002).

2.2 BIOINFORM ´ATICA

A bioinform´atica ´e uma ´area de estudo que inclui a gen´etica molecular, a ciˆencia da computa¸c˜ao e a estat´ıstica. Nela s˜ao resolvidos problemas de car´acter biol´ogico, utilizando-se t´ecnicas em sua maior parte estat´ısticas implementadas em computadores. Os principais problemas da bioinfom´atica s˜ao relacionados `a compara¸c˜ao de seq¨uˆencias gen´eticas e prot´eicas. Estas compara¸c˜oes tˆem como objetivo pesquisar similaridade entre as seq¨uˆencias, para poder analisar a homologia entre as seq¨uˆencias e tamb´em para inferir a estrutura destas mol´eculas (MOUNT, 2004).

(25)

13 mutante. Esta variante mutante e sua ancestral e outras variantes de ambas as seq¨uˆencias s˜ao consideradas hom´ologas. O estudo da homologia entre as seq¨uˆencias e o grau de parentesco entre seq¨uˆencias gen´eticas ´e chamado de filogen´etica molecular (MOUNT, 2004). 2.3 FILOGEN´ETICA MOLECULAR

A filogen´etica, tamb´em chamada de sistem´atica filogen´etica, ´e o estudo das rela¸c˜oes evolucion´arias entre t´axons, desde o n´ıvel de indiv´ıduo at´e moleculares que armazenam informa¸c˜oes heredit´arias da esp´ecie. O principal objetivo dela ´e a classifica¸c˜ao dos t´axons de acordo com o seu grau de parentesco evolutivo. Estes resultados s˜ao representados graficamente na forma de filogenias ou ´avores filogen´eticas, indicando a rela¸c˜ao heredit´aria entre os organismos, onde cada t´axon ´e ordenado de acordo com sua rela¸c˜ao parentesca.

Com a evolu¸c˜ao da gen´etica molecular e com a maior quantidade de dados gen´eticos e prot´eicos, a filogen´etica molecular teve in´ıcio. A filogen´etica molecular estuda a evolu¸c˜ao de genomas, genes e prote´ınas. Os m´etodos mais comuns para a reconstru¸c˜ao de ´arvores filogen´eticas s˜ao: m´axima verossimilhan¸ca, m´etodos de distˆancia e m´axima parsimˆonia.

O m´etodo de m´axima verossimilhan¸ca se baseia na cria¸c˜ao de diferentes ´arvores filogen´eticas e com a utiliza¸c˜ao de modelos evolutivos, verifica qual ou quais delas tˆem a maior probabilidade de representar a verdadeira evolu¸c˜ao ocorrida. A m´axima par-simˆonia trabalha agrupando caracter´ısticas pontuais presentes nas mol´eculas de DNA, RNA ou prot´eicas e por fim, busca-se uma ´arvore que possua o menor n´umero de muta¸c˜oes poss´ıveis. O m´etodo de distˆancia utiliza uma matriz de valores contendo as distˆancias evolutivas previamente calculadas entre as mol´eculas gen´eticas ou prot´eicas. Atrav´es des-tas distˆancias, ´e constru´ıda uma ´arvore, cujo objetivo ´e que se tenha o menor custo de distˆancia entre os nodos.

Para a escolha do m´etodo mais apropriado ´e dito: programas baseados em m´etodos de distˆancia s˜ao comumente utilizados em laborat´orios de biologia molecular porque eles s˜ao mais diretos e simples no uso e tamb´em podem ser utilizados quando h´a grande n´umero de seq¨uˆencias. M´etodos de m´axima verossomilhan¸ca s˜ao mais trabalhosos no uso e requerem maior compreens˜ao do modelo evolutivo nos quais eles s˜ao baseados. Como

(26)

14 eles envolvem alto esfor¸co computacional e este esfor¸co aumenta dramaticamente com o aumento da quantidade de seq¨uˆencias, programas baseados neste m´etodo est˜ao limitados a an´alise de uma pequena quantidade de seq¨uˆencias. Caso as seq¨uˆencias sejam altamente similares, recomenda-se utilizar o m´etodo de m´axima parsimˆonia, que prediz a ´arvore filogen´etica minimizando o n´umero de passos necess´arios para observar as varia¸c˜oes nas seq¨uˆencias dos ancestrais at´e a seq¨uˆencia atual. Por este motivo, este m´etodo tamb´em ´e conhecido como m´etodo de evolu¸c˜ao m´ınima (MOUNT, 2004).

Uma t´ecnica de filogen´etica molecular, proposta por Theobald e Wuttke (2005), ´e a filogen´etica utilizando modelos estat´ısticos das fam´ılias de prote´ınas. Em seu trabalho, Theobald e Wuttke (2005) apresenta um workflow para a reconstru¸c˜ao filogen´etica uti-lizando modelos estat´ısticos das fam´ılias de prote´ınas. O primeiro passo do workflow ´e a pesquisa de seq¨uˆencias similares para cada prote´ına que deseja-se reconstruir a ´arvore filogen´etica. Com as prote´ınas similares, constroem-se modelos estat´ısticos da fam´ılia da prote´ına utilizando modelos ocultos de Markov. Os modelos estat´ısticos de cada fam´ılia das prote´ınas ´e comparado com todos os demais modelos e com os resultados destas com-para¸c˜oes ´e constru´ıdo uma matriz de valores que ser´a utilizada para que o software PAUP* reconstrua a ´arvore filogen´etica utilizando o m´etodo de distˆancia.

2.4 SISTEMAS DISTRIBUIDOS

Sistemas distribu´ıdos s˜ao sistemas compostos por mais de um computador onde a computa¸c˜ao do processo ´e distribu´ıdo entre eles. Um modelo de sistemas distribu´ıdos s˜ao os clusters. Neles, as tarefas de processamento de dados s˜ao dividas entre diversos n´os, sendo cada n´o um computador independente. Um modelo de cluster que est´a sendo intensamente utilizado ´e o beowulf.

(27)

pro-15 (STERLING, 2002).

Para a passagem de mensagens, um grupo de fornecedores de computadores pa-ralelos especificaram um padr˜ao, o MPI. O MPI n˜ao ´e uma implementa¸c˜ao espec´ıfica, mas um padr˜ao para ser seguido na implementa¸c˜ao de bibliotecas de troca de mensagens para computa¸c˜ao paralela. Para o desenvolvedor ´e transparente qual implementa¸c˜ao do MPI ser´a utilizada, pois ele desenvolver´a utilizando as interfaces especificadas por ele. Desta forma, pode-se abstrair completamente qual implementa¸c˜ao do MPI ser´a utilizada no momento de execu¸c˜ao.

O padr˜ao MPI define diversas opera¸c˜oes, sendo as principais: conhecimento do n´umero de processos que participam do cluster, conhecimento de qual o n´umero do pro-cesso no cluster, envio de mensagem a algum propro-cesso espec´ıfico ou a todos os propro-cessos e recebimento de mensagem de um processos espec´ıfico ou de todos os processos. O padr˜ao MPI tamb´em fornece opera¸c˜oes de envio e recebimento de mensagens ass´ıncronos, especi-fica¸c˜ao de tipos, entrada e sa´ıda paralela e acesso a mem´oria remota. Conhecendo apenas as opera¸c˜oes b´asicas citadas ´e poss´ıvel implementar softwares distribu´ıdos utilizando o padr˜ao MPI (STERLING, 2002).

Um exemplo de utiliza¸c˜ao do padr˜ao MPI na bioinform´atica ´e o software

mpi-BLAST (DARLING; CAREY; FENG, 2003). Este software ´e utilizado para efetuar

pesqui-sas por similariedades em bancos de dados de seq¨uˆencias gen´eticas e prot´eicas. Como o processo de pesquisa pode ser demorado caso o banco de dados seja muito grande (acima de um bilh˜ao de pares de bases) ou deseja-se efetuar diversas pesquisas de forma r´apida, o mpiBLAST utiliza a t´ecnica de repartir o banco de dados em partes e delegar a cada processo do cluster a pesquisa em uma parte dele.

2.5 TRABALHOS CORRELATOS

Existem diversos softwares para reconstru¸c˜ao de ´arvores filogen´eticas, sendo os principais, PAUP* e PHYLIP. O PAUP* implementa os trˆes metodos num ´unico soft-ware tendo ele uma linguagem pr´opria para definir qual m´etodos e parametros utilizar. O PAUP* permite definir qual m´etodo ser´a utilizado na reconstru¸c˜ao filogen´etica, sendo que

(28)

16 os algoritmos algoritmos dele n˜ao s˜ao publicados. O PHYLIP ´e um pacote de diversos softwares, para reconstru¸c˜ao de ´arvores filogen´eticas, exibi¸c˜ao destas ´arvores e avalia¸c˜ao da credibilidade das ´arvores reconstru´ıdas. O PHYLIP implementa algoritmos dos trˆes m´etodos previamente descritos, sendo que os algoritmos s˜ao publicados em artigos e em livros e o c´odigo fonte que compoe pacote ´e aberto. Por´em, o PAUP* ´e utilizado no work-flow de Theobald e Wuttke (2005) porque segundo os autores, os algoritmos deste s˜ao mais otimizados, favorecendo desta forma o tempo de execu¸c˜ao do processo de reconstru¸c˜ao da ´arvore filogen´etica.

(29)

17

3

CONSIDERAC

¸ OES FINAIS

Entre os pacotes existentes para reconstru¸c˜ao filogen´etica, o PHYLIP ( FELSENS-TEIN, 2005) ´e o mais utilizado na ´area acadˆemica, pois possui um vasto conjunto de aplicativos e ´e um pacote de software livre. Os algoritmos do PHYLIP n˜ao s˜ao otimi-zados o bastante para a execu¸c˜ao de tarefas com muitas seq¨uˆencias, tornando a tarefa de reconstru¸c˜ao de ´arvores filogen´eticas lentas nestes casos. Como alternativa, existe o o pacote PAUP* (SWOFFORD, 2004), que possui algoritmos otimizados e velozes, por´em ´e um pacote de software fechado e pago. Outra quest˜ao referente a ambos pacotes, ´e que eles n˜ao s˜ao executados de forma distribu´ıda, mesmo com algoritmos otimizados. No caso do PAUP* pode-se demorar na execu¸c˜ao das tarefas quando o volume de dados for alto. Como uma alternativa para ambientes distribu´ıdos, tem-se o DPRml (KEANE et al., 2005). Este software possui apenas o m´etodo de m´axima verossimilhan¸ca e n˜ao foi desenvolvido para clusters beowulf, mas para ambientes distribu´ıdos utilizando o Java RMI. As vantagens dos clusters Beowulf ´e a sua escalabilidade, podendo crescer de forma transparente para quemo utiliza e desenvolve software distribu´ıdos.

Como os m´etodos de reconstru¸c˜ao de ´arvores filogen´eticas s˜ao paraleliz´aveis, pretende-se implement´a-los para reconstru¸c˜ao de ´arvores filogˆencias num ambiente dis-tribu´ıdo. Pretende-se implementar o algoritmo distribu´ıdo utilizando a base do pacote PHYLIP e para comunica¸c˜ao entre os processos, o padr˜ao MPI. Ent˜ao instalalo num cluster beowulf para executar a reconstru¸c˜ao filogen´etica utilindo o m´etodo de distˆancia m´ınima de forma distribu´ıda. Ap´os, deseja-se utiliza-lo no workflow de reconstru¸c˜ao filo-gen´etica utilizando modelos estat´ısticos de fam´ılias de prote´ınas proposto por Theobald e Wuttke (2005). Com esta integra¸c˜ao, pretende-se ganhar desempenho na execu¸c˜ao de tarefas de reconstru¸c˜ao de ´arvore filogen´eticas que necessitam de alto poder computacio-nal.

(30)

18

REFERˆ

ENCIAS BIBLIOGR ´

AFICAS

ALBERTS, Bruce et al. Biologia molecular da c´elula. 2. ed. Porto Alegre: [s.n.], 2004.

BEOWULF.ORG: the Beowulf cluster site. San Francisco: [s.n.], 2004. Dispon´ıvel em: <www.beowulf.org>. Acesso em: 26 mar. 2006.

CARL Woese and New Perspectives on Evolution. 2003. Dispon´ıvel em: <http://nai-.arc.nasa.gov/news stories/news detail.cfm?ID=274>.

DARLING, A.; CAREY, L.; FENG, W. The desing, implementation, and evaluation of mpiblast. In: 4TH INTERNATIONAL CONFERENCE ON LINUX CLUSTERS: THE HPC REVOLUTION 2003 IN CONJUNCTION WITH THE CLUSTERWORLD CONFERENCE & EXPO, 2003, San Jose, Californa, USA. Proceddings... San Jose, CA: LA-UR, 2003.

DARWIN, Charles. The origin of species. [S.l.]: Martin Claret, 1859.

FELSENSTEIN, J. PHYLIP (Phylogeny inference package) version 3.6. Washington, 2005.

KEANE, T.M. et al. DPRml: distributed phylogeny reconstruction by maximum likelihood. Bioinformatics, v. 21(7), p. 969–974, 2005.

MESSAGE Passing Interface. Chicago: [s.n.], 2006. Dispon´ıvel em: <www-unix.mcs.anl-.gov/mpi/>. Acesso em: 26 mar. 2006.

MOUNT, David W. Bioinformatics: sequence and genome analysis. 2. ed. New York: [s.n.], 2004.

STERLING, Thomas (Ed.). Beowulf cluster computing with Linux. Cambridge, Massachusetts: The Mit Press, 2002.

STRACHAN, Tom; READ, Andrey P. Gen´etica molecular humana. 2. ed. Porto Alegre: [s.n.], 2002.

SWOFFORD, D. L. PAUP*: phylogenetic analysis using parsimony (*and other methods). version 4. Sunderlander, Massachusetts: Sinauer Associates, 2004.

Referências

Documentos relacionados

c) Título (centralizado, letras maiúsculas, negrito e fonte normal.. Todos os segmentos de maior importância devem ser incluídos constituindo-se uma seqüência de frases

gLe uoç jceeq pA priwu cb1ç PJA62c1J6IJca' Lgcrj ot ceac jo .pJJG eXçeLJç VEJ, 2C0L62 hu62flL6 xeq TUgAqngJ.. -apgçraçrce ou ardiirtrcgiice Ot pJJE dngLç6L O pTLçp. TU TL2

Ante o exposto, apesar da grande quantidade de sentenças condenatórias a penas privativas de liberdade, ainda está presente na nossa sociedade uma forte sensação de

compras sobretudo nas grandes superfícies ou nos supermercados de proximidade • Os inquiridos do Alentejo recorrem mais às cooperativas de produtores e de consumidores para as

Contrariamente ao que se observa para as amostras do GrdAL, a relação entre SM e CaO mostra correlação positi- va para o GrdAA (Figura 6D), reforçando o que foi mostrado

b) 1 Caderno de Respostas, contendo espaço para desenvolvimento das respostas às questões discursivas de GEOGRAFIA E HISTÓRIA, além de um CARTÃO-RESPOSTA, com seu nome e número

61 apresentavam hipertrofia inferior a 6 mm e, assim sendo, consoante este critério, 3 gatos não seriam classificados como tendo CMH, sendo por isso incluídos no

De acordo com o Título I - Capítulo I das Condições Gerais para o Seguro Obrigatório de Responsabilidade Civil do Transportador Rodoviário – Carga, estão