Tool that Integrates Distance Based Programs for Reconstructing Phylogenetic Trees

(1)

Abstract—The main existing methods for reconstructing phylogenetic trees are based on maximum likelihood, bayesian inference, maximum parsimony or distance. There are many distance based programs for phylogenetic trees reconstruction. The five most important distance based programs were selected: NJ, BioNJ, UPGMA, Weighbor and FastME. Synthetic data sets were applied in order to evaluate the distance-based methods under consideration. Then, the tool DiGrafu was developed, so as to exploit the best characteristics of these programs. Besides, the validation of this proposed solution was presented using real data.

Keywords— bioinformatics, phylogenetic tree reconstruction,

distance methods.

I. INTRODUÇÂO

OBJETIVO da análise filogenética é inferir a relação

correta entre três ou mais espécies contemporâneas, representadas por dados de sequência (podem ser de aminoácidos, nucleotídeos, códons, etc) de membros representativos de cada espécie [1]. A representação da história evolutiva dessas espécies ou grupos de espécies é feita através das árvores filogenéticas, onde as sequências são agrupadas e são estabelecidos os relacionamentos entre estas.

Neste contexto, as aplicações de árvores filogenéticas têm crescido rapidamente. Hoje em dia elas são usadas não apenas no entendimento das relações históricas entre as espécies, mas também em estudos sobre: organização do genoma, epidemiologia, predição de funções de proteínas e decisão de quais genes analisar em estudos comparativos. Em outras palavras, a reconstrução de árvores filogenéticas é importante para compreender a história evolutiva das espécies, ajudar no desenvolvimento de vacinas, na predição de novos genes, no estudo da biodiversidade, no entendimento da biologia macrobiana, na produção de novas drogas para propósitos agrícolas e médicos, etc.

Árvores filogenéticas representam uma série de hipóteses a respeito de eventos evolucionários. São compostas de folhas, que são as seqüências genéticas que representam as espécies ou grupos destas, os galhos, que são as interligações entre os nós da árvore e representam o tempo de evolução entre eles, e

Este trabalho foi financiado pela FAPESB, termo de outorga No. APR0179/2008.

M. Torres, Universidade Estaudal de Santa Cruz, Ilhéus, Bahia, Brasil. [email protected]

G. Dias, Universidade Estadual de Santa Cruz, Ilhéus, Bahia, Brasil, [email protected]

G. Gonçalves, Universidade Federal de Minas Gerais, Belo Horizonte, Minas Gerais, Brasil, [email protected]

C. Vieira, Universidade Estadual de Campinas, Campinas, Sao Paulo, Brasil, [email protected]

os nós internos, que são os hipotéticos ancestrais das sequências analisadas.

Os principais métodos para reconstrução de árvores filogenéticas segundo [2] são: Máxima Parcimônia, Distância, Máxima Verossimilhança, e Inferência Bayesiana. No entanto, existem dificuldades no uso dos programas de reconstrução de árvores filogenéticas: o usuário deve escolher qual método de reconstrução utilizar, conhecendo as vantagens e desvantagens de cada um. De maneira geral é conhecido que os métodos de distância são os mais velozes e os métodos de máxima verossimilhança e inferência bayesiana são mais exatos, mas, independente desse fator, dentre todos os programas que existem para cada método, o usuário precisa escolher o que atenda às suas necessidades e expectativas.

Embora os métodos de distância sejam menos exatos, eles continuam sendo muito utilizados devido ao seu baixo tempo de execução. Há muitos programas baseados no método de distância e a escolha de um deles vem se tornando cada vez mais difícil para os usuários que desejam resultados rápidos e condizentes com a realidade da evolução das espécies. Este trabalho apresenta a ferramenta DiGrafu, que reúne os melhores programas de reconstrução de árvores filogenéticas baseados em distância [2][3][4] : NJ (Neighbor Joining) [5], BioNJ [6], UPGMA (Unweighted Pair Grouping Method with

Arithmetic Means) [7], Weighbor (Weighted Neighbor Joining) [8] e FastME (Fast Minimum Evolution) [4]. Esta

ferramenta explora as potencialidades de cada programa e é capaz de inferir qual deles melhor satisfaz a necessidade do usuário.

O artigo está dividido nas seguintes partes: a parte II explica os programas baseados no método de distância, na parte III apresenta-se em detalhe a proposta deste trabalho. A parte IV descreve a validação da ferramenta DiGrafu com dados reais e na parte V as conclusões são apresentadas.

II. MÉTODOSBASEADOSEMDISTÂNCIA De maneira geral, os programas de reconstrução de árvores filogenéticas recebem como entrada um arquivo com sequências genéticas (DNA, RNA, códons, proteínas) de um grupo de espécies, devidamente alinhadas. Os métodos de distância não trabalham diretamente com as sequências das espécies, mas com uma matriz de distâncias (daí a expressão “baseado em distância”). Essa matriz é construída com base em modelos evolutivos, os quais são modelos matemáticos que descrevem a evolução dos caracteres observados nas espécies analisadas. Os programas Dnadist e Protdist do

pacote Phylip (disponível em http://evolution.genetics.washington.edu/phylip.html) são

O

Tool that Integrates Distance Based Programs for

Reconstructing Phylogenetic Trees

(2)

geradores de matrizes para sequências de DNA e de proteína, respectivamente, são largamente usados pela qualidade da matriz gerada.

Assim, a maioria dos métodos de distância inicia sua heurística apenas depois de gerar a matriz de distância, ou seja os métodos de distância aplicam seus respectivos algoritmos sobre ela para obter a melhor hipótese de árvore filogenética. Os métodos UPGMA, NJ, BioNJ e Weighbor são baseados em métodos de agrupamento hierárquico usados em reconhecimento de padrões [9]. Estes algoritmos selecionam um par de espécies (nós) a ser fundido a cada passo utilizando um critério específico. Os dois nós selecionados são então substituídos por um novo nó simples e a matriz de distâncias é reduzida por substituir as distâncias relativas aos dois nós unidos por este novo nó. Sua heurística considera dois passos principais, que são repetidos até que a árvore esteja completa. O primeiro passo consiste na escolha de pares de nós a serem unidos, isto é, substituídos por um novo nó simples representando o imediato ancestral comum deles, e no segundo passo, as distâncias do novo nó para todos os outros nós são calculadas. O que diferencia cada um dos métodos é a maneira de escolher os nós a serem unidos e de calcular as distâncias.

A seguir serão mostradas as principais características destes métodos:

A. UPGMA

Foi pioneiro na reconstrução de árvores, principalmente quando os dados utilizados eram fenotípicos. Caiu em desuso quando sequências genéticas passaram a ser utilizadas pela filogenia e métodos mais exatos foram construídos.

O algoritmo UPGMA usa os mesmos critérios de um algoritmo de agrupamento hierárquico clássico: os dois nós a serem agrupados são aqueles que apresentam a menor distância e essas são calculadas através do valor médio da distância entre nós e grupos.

Sua principal vantagem é a boa representação das diferenças fenotípicas das espécies, porém deixa de analisar grande parte das topologias de árvore para ganhar tempo, considerando que todas as árvores seguem a idéia de relógio molecular [10]. Nessas árvores, os galhos são simétricos entre seus nós, de forma que cada nó, de um par de nós, possui a mesma distância até o nó ancestral comum que os une.

B. NJ

Faz construção de árvores de maneira rápida, considerando tanto árvores com relógio molecular, quanto sem relógio molecular (árvores nas quais os galhos que unem dois descendentes de um mesmo nó podem assumir comprimentos independentes um do outro, representando mais fielmente as diferenças entre as espécies e seus ancestrais). O critério de seleção dos nós a serem agrupados e o cálculo da distância utiliza o método matemático dos mínimos-quadrados [11], onde o valor da distância entre cada nó é diferente. No caso do UPGMA, a distância dos nós a serem agrupados é igual. Por outro lado, este

método pode perder precisão no cálculo dos comprimentos dos galhos quando há galhos muito longos, segundo [8].

C. BioNJ

Este é um aprimoramento do NJ. Sua contribuição ao NJ inclui a maior precisão no cálculo dos tamanhos dos galhos. Seu procedimento atribui pesos diferentes, no cálculo do tamanho dos galhos, às espécies sendo unidas na árvore por aquele galho. Com isso, pretende-se obter uma maior aproximação da realidade, uma vez que indivíduos envolvidos no caminho evolutivo dos seres, ainda existentes ou já extintos, provavelmente não contribuíram em taxas iguais para as mutações ocorridas.

D. Weighbor

Substitui o critério de evolução mínima, utilizado pelo NJ, por verossimilhança, método estatístico usado para estimar funções de densidade de probabilidade desconhecida [9]. O Weighbor escolhe os nós a serem unidos de uma maneira diferente do NJ, mantendo o cálculo dos tamanhos dos ramos não muito diferente do BioNJ, que já o havia reformulado.

Uma relativa melhora nos resultados foi observada ainda mantendo-se em um tempo aceitável de execução, apesar desse ter aumentado consideravelmente. Além disso, não perde precisão quando há galhos muito longos na árvore.

E. FastME

Este é baseado no princípio de otimização de árvores por

tree swapping. Esse método atua sobre uma árvore

filogenética inicial, trocando os galhos dessa árvore entre si para poder analisar outras topologias próximas da topologia inicial. Por padrão, há dois métodos de geração de árvore inicial (FASTNNI e BNNI) e dois métodos de otimização (GME e BME). Assim, a inclusão do FastME representa a inclusão de quatro combinações possíveis de métodos de otimização: GME+FASTNNI, GME+BNNI, BME+FASTNNI e BME+BNNI.

Segundo [3], métodos de distancia baseados em evolução mínima como NJ, BioNJ e FastME são mais rápidos para inferir filogenias e segundo [4] o método FastME na sua versão BME+FASTNNI é mais exato do que NJ, BioNJ e Weighbor.

III. DESCRIÇÃODAPROPOSTA

Para tornar possível a integração dos métodos de distância foi necessária a avaliação de desempenho dos mesmos e o estudo detalhado dos resultados da exatidão dos métodos com relação às sequências originais. Foram usados dados sintéticos para realizar a avaliação e em um ambiente simulado, a árvore verdadeira foi artificialmente gerada e formou a base para comparação entre os métodos.

A inovação de nossa proposta é usar a relação entre os resultados dos métodos e as sequências originais através da divergência máxima das sequências. Divergência máxima [12] (MD, maximum divergence em inglês) pode ser vista como a porcentagem do maior valor da diferença entre as sequências

(3)

(comparadas par a par). Assim, MD nada mais é que a porcentagem de diferenças que há entre as duas sequências mais divergentes. Para realizar a comparação entre os programas escolhidos seguimos a métrica de [12] que é padrão para realizar este tipo de estudos.

A seguir será descrita a metodologia aplicada para realizar a avaliação de desempenho dos principais métodos de distância.

A. Metodologia para Avaliação de desempenho

Com o objetivo de realizar o estudo do comportamento dos principais métodos de distância de acordo com o valor de MD das sequências, foi utilizado um computador Intel Xeon 3.2 Ghz, 2 GB de memória ram e 160 GB de disco rígido, rodando sobre a plataforma Linux, e foram escritos alguns scripts na linguagem Perl.

Baseando-se na metodologia utilizada em [12], foram utilizadas as 5000 árvores descritas nesse mesmo artigo, disponíveis em <http://atgc-montpellier.fr/phyml/>. Segundo esse trabalho, tais árvores, compostas por 40 espécies cada uma, apresentam uma grande variedade de desvios do relógio molecular e muitas taxas evolucionárias. O tamanho médio dos galhos é igual a 0,06 substituições/sítio. A média da taxa do tamanho da maior para o tamanho da menor linhagem, ao longo das 5000 filogenias, é igual a 3,4. Esses valores vêm de uma análise das taxas de substituição em vários organismos; eles representam, então, as características de quase todos os conjuntos de dados reais.

A partir dessas árvores, foram geradas sequências genéticas de DNA sintéticas de 500 sítios através do programa Seq-Gen, um programa apresentado em [13] que gera sequências através do método de Monte Carlo. Seq-Gen gera uma quantidade de sequências aleatórias baseado em uma árvore modelo e em um modelo evolucionário e tem sido muito utilizado para geração de sequências em testes sintéticos [11]-[12],[14].

Apenas um arquivo para cada combinação de árvore-modelo e árvore-modelo evolucionário foi gerado, sendo criados 5000 arquivos para cada modelo. Foram, então, utilizados dois modelos para a geração das sequências: JC69 (Jukes e Cantor (1969)) e K2P (Kimura (1980), com taxa de transição/transversão igual a 2,0) totalizando 10000 arquivos de seqüência.

Todas as sequências genéticas geradas foram então classificadas por MD para o propósito do estudo, variando de 10% até 80%, porque como será explicado mais adiante, os métodos existentes não podem reconstruir com exatidão árvores filogenéticas fora desta margem [12].

Os programas de distância foram integrados com o gerador de matrizes Dnadist. Com as sequências classificadas por MD, os métodos de distância foram executados e seus resultados comparados às respectivas árvores-modelo utilizadas na geração das sequências.

Para essa avaliação, foram considerados dois critérios importantes na comparação de métodos de distância: o tempo de execução e a diferenciação simétrica.

Para mensurar o tempo de execução, foi utilizada a função “times” da biblioteca padrão da linguagem Perl. Essa função

foi útil, uma vez que mede o tempo de processamento dos processos-filhos do programa em execução, e os métodos de distância poderiam ser executados como uma coleção de processos-filhos. Para cada conjunto de sequências com um dado valor de MD, foi calculada a média aritmética dos tempos de execução para aquele MD e esse valor foi computado como seu tempo de execução. Ou seja, o tempo de execução analisado trata-se do tempo médio gasto pelo método de distância naquele conjunto de dados. Outra observação a ser feita sobre os tempos de execução analisados é que o tempo do Dnadist (ou seja, o tempo gasto para a geração das matrizes de distância utilizadas pelos métodos) foi somado ao tempo de execução dos métodos, uma vez que eles necessitam da matriz para a execução.

Para medir a diferenciação simétrica foi usada a distância Robinson-Foulds [15], implementada no programa Treedist, também do pacote Phylip, que computa distâncias entre árvores filogenéticas a nível de diferenciação simétrica (compara a topologia das árvores). A diferenciação simétrica entre árvores filogenéticas é uma medida baseada na contagem de partições (no caso de árvores sem raiz, partições são divisões feitas na árvore a partir de cada galho) que pertencem a uma árvore, mas não pertencem à outra. Essa contagem constitui uma pontuação, sendo que, quanto menor é o valor da pontuação, mais parecida é a topologia das árvores (valor 0,0 significa árvores idênticas).

A seguir, a análise dos resultados obtidos através da simulação realizada.

B. Análise dos resultados

A Fig. 1 mostra os resultados das execuções dos métodos de distância selecionados, com suas respectivas pontuações dadas pelo Treedist para o modelo evolutivo JC69 e a Fig. 2 mostra esses resultados usando o modelo evolutivo K2P. Os resultados estão de acordo com o esperado e com simulações publicadas anteriormente [11]-[12], [16]; quando o valor de MD é baixo (<10%, sequências muito parecidas) a reconstrução da árvore filogenética é difícil porque não há informação suficiente nos dados para calcular os pequenos galhos internos. Quando o valor de MD é alto (>80%, sequências demasiado diferentes) a saturação corrompe o sinal filogenético e a reconstrução novamente é problemática. Isto explica porque todos os métodos são mais exatos com valores de MD médios.

Os valores de exatidão topológica do programa UPGMA não foram registrados nas Fig. 1 e 2 porque tiveram valores altos, entre 20 e 27. Ou seja, UPGMA sempre obteve os piores índices nas pontuações (os valores mais altos). Isso deixa claro a razão pela qual ele foi um método muito utilizado, mas, aos poucos, cedeu lugar a métodos mais exigentes computacionalmente. Também pode ser inferido desta figura que os métodos Weighbor, GME+BNNI e BME+BNNI foram os mais exatos.

A Fig. 3 apresenta os resultados dos tempos de execução utilizando o modelo JC69. A Fig. 4 mostra esses resultados para o modelo K2P. Os tempos de execução do programa

(4)

Weighbor não foram registrados porque tiveram valores altos, acima de 0,7 segundos, já que por utilizar cálculos de verossimilhança para aumentar a exatidão, aumenta a exigência computacional de maneira considerável. Os gráficos mostram que, os métodos se mantiveram próximos, o BioNJ, notavelmente, quase sempre se manteve como o método mais veloz, mais rápido inclusive que o NJ, no qual ele se baseia. Isso fica claro se é observado que o BioNJ é uma otimização do código do NJ, tanto em relação aos seus resultados, quanto em se tratando do tempo gasto na execução. Exceto para MD de 80% do modelo K2P, onde as versões FastME apresentaram melhor desempenho, como mostra a Fig. 4.

1 0 1 5 2 0 2 5 3 0 3 5 4 0 4 5 5 0 5 5 6 0 6 5 7 0 7 5 6 8 1 0 1 2 1 4 1 6 1 8 Neighbor BIONJ Weighbor GME+ FASTNNI GME+ BNNI BME+ FASTNNI BME+ BNNI

Divergência das Sequências

E x a ti d ão T o pol ógi ca

Figura 1. Exatidão topológica dos programas Neighbor, BIONJ, Weighbor, GME+FASTNNI, GME+BNNI, BME-FASTNNI e BME+BNNI, classificada por divergência das sequências (MD), utilizando o modelo JC69.

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 6 8 1 0 1 2 1 4 1 6 1 8 2 0 2 2 Neighbor BIONJ Weighbor GME+ FASTNNI GME+ BNNI BME+ FASTNNI BME+ BNNI

E x a ti d ã o T opol ógi c a

Figura 2. Exatidão topológica dos programas Neighbor, BIONJ, Weighbor, GME+FASTNNI, GME+BNNI, BME-FASTNNI e BME+BNNI, classificada por divergência das sequências (MD), utilizando o modelo K2P.

Metodologia similar foi adotada para analisar o comportamento de sequências de proteína, neste caso foi usado o gerador de matrizes Protdist. Com base nos resultados obtidos procede-se agora à construção da ferramenta DiGrafu. 1 0 15 2 0 2 5 30 3 5 40 4 5 5 0 55 6 0 65 70 7 5 0,0 2 0,0 3 0,0 4 0,0 5 0,0 6 0,0 7 Neighbor UPGMA BIONJ GME+ FASTNNI GME+ BNNI BME+ FASTNNI BME+ BNNI

T e m p o ( e m se gu ndo s )

Figura 3. Tempos de execução dos programas Neighbor, UPGMA, BIONJ, GME+FASTNNI, GME+BNNI, BME+FASTNNI e BME+BNNI, classificada por divergência de sequências (MD), utilizando o modelo JC69.

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 0,05 0,06 0,07 0,08 0,09 0,1 0,11 0,12 0,13 Neighb or UPGMA BIONJ GME+ FASTNNI GME+ BNNI BME+ FASTNNI BME+ BNNI

T e m po ( e m s e gun dos)

Figura 4. Tempos de execução dos programas Neighbor, UPGMA, BIONJ, GME+FASTNNI, GME+BNNI, BME+FASTNNI e BME+BNNI, classificada por divergência de sequências (MD), utilizando o modelo K2P.

C. A ferramenta DiGrafu

Assim, a ferramenta DiGrafu é implementada levando em consideração os resultados obtidos. Onde UPGMA é descartado pelo seu pobre desempenho. DiGrafu escolhe o melhor método em cada valor de MD e para cada modelo; o valor de MD é medido usando o arquivo de entrada de sequencias do usuário . Quando o usuário seleciona tempo de execução como prioridade, DiGrafu executa BioNJ, que é o mais eficiente em quase todos os casos. Quando o usuário escolhe tempo de execução e exatidão, DiGrafu executa o método que proporciona maior exatidão, exceto nos casos nos quais o método de maior exatidão seja o Weighbor (seu tempo de execução é muito alto comparado aos outros métodos), nesses casos será usado o método FastME (nas versões: BME+BNNI e GME+BNNI). Quando o usuário seleciona exatidão, DiGrafu escolhe o método com maior exatidão; Weighbor é o método mais usado e FastME, nas versões BME+BNNI e GME+BNNI foram escolhidos algumas vezes.

Como mostrado na Fig. 5, a ferramenta DiGrafu possui também um conversor de formatos com suporte aos formatos

(5)

Fasta [17], Nexus [18] e Phylip (sequencial e interleaved), os arquivos de sequência são analisados e o formato é automaticamente reconhecido e convertido para o formato Phylip seqüencial utilizado pelos programas Dnadist e Protdist.

Figura 5. Diagrama que mostra a implementação da ferramenta.

Esta ferramenta é de domínio público e está disponível em <http://github.com/said/digrafu>. Além disso, a ferramenta DiGrafu pode ser utilizada de maneira gráfica através de IGrafu (Interface Gráfica para solução de Reconstrução de Árvores Filogenéticas) disponível em <http://github.com/said/igrafu>. A tela gráfica inclui todos os parâmetros requeridos pelos programas Dnadist e Prodist além das opções próprias da DiGrafu. A figura 6 mostra a tela para um arquivo de entrada de sequencias de DNA.

Figura 6. Tela da ferramenta Digrafu usando sequencias de DNA.

IV. TESTEDAFERRAMENTADIGRAFUCOMDADOSREAIS

Para testar o funcionamento da ferramenta DiGrafu com dados reais aplica-se a mesma técnica usada anteriormente. Para isto foram selecionados do banco de dados Treebase

(http://www.treebase.org/treebase/index.html), sete arquivos de sequências alinhadas de DNA de fungos e bactérias (M520, 67 espécies com 1098 sítios; M535, 36 espécies com 1856 sítios; M536, 33 espécies com 2418 sítios; M795, 66 espécies com 510 sítios; M925, 41 espécies com 893 sítios; M926, 40 espécies com 806 sítios; M2898, 38 espécies com 1419 sítios), e oito arquivos de sequências alinhadas de proteínas de bactérias (M2302, 24 espécies com 365 sítios; M2304, 31 espécies com 429 sítios; M2636, 20 espécies com 1275 sítios; M2637, 20 espécies com 320 sítios; M2638, 18 espécies com 378 sítios; M2639, 19 espécies com 331 sítios; M2640, 18 espécies com 243 sítios; M2641, 20 espécies com 253 sítios) além de uma sequência de DNA de mamíferos e roedores (M62, 62 espécies com 3768 sítios) publicada em [19].

Para a avaliação das árvores, os dados reais foram submetidos ao programa PhyML 3.0 [12], este programa realiza reconstrução de árvores filogenéticas usando o método de máxima verossimilhança, considerado um dos métodos mais exatos porém com grande demanda computacional. Portanto, as árvores geradas pelo PhyML foram assumidas como as árvores verdadeiras para aquelas sequências.

Os métodos foram utilizados com os parâmetros default, e as matrizes de distância foram geradas através dos programas Dnadist e Protdist. DiGrafu foi executada com a preferência pela exatidão do resultado e o FastME foi executado com os algoritmos BME + BNNI para construir e otimizar a árvore. A exatidão dos resultados vista nos gráficos é traduzida pela da porcentagem de semelhança entre a árvore reconstruída pelo método e a árvore do PhyML, assumida como a árvore real daquela sequência.

Figura 7. Resultados obtidos através dos dados reais de sequências de DNA, usando o modelo JC69. Nos gráficos acima a linha indica a variação de MD nas sequências selecionadas.

A Fig. 7, mostra os resultados das sequências de DNA usando o modelo evolutivo JC69 . A Fig. 8 mostra os mesmos resultados usando o modelo evolutivo K2P. Como foi descrito anteriormente, quando o usuário seleciona exatidão, DiGrafu escolhe o método Weighbor na maioria dos casos e algumas vezes é escolhido FastME, nas versões BME+BNNI e

(6)

GME+BNNI. No caso do modelo JC69, DiGrafu escolheu sempre o Weighbor o qual foi a melhor resposta para quatro dos cinco exemplos avaliados. No caso do modelo K2P, em três dos cinco exemplos foi escolhido o método Weighbor e nos dois casos restantes foi escolhido o método FastMe: na sequência M520 o método escolhido foi o GME+BNNI e na sequência M926 foi o BME+BNNI. Pode-se observar que DiGrafu apresenta o comportamento esperado, realizando a seleção do método apropriado para a opção de exatidão.

Dos dez exemplos DiGrafu escolheu sete vezes o método mais exato: nos demais casos escolheu o segundo método mais exato. A justificativa para tal resultado é que DiGrafu foi desenvolvida com um conjunto finito de valores de MD e depois disso foi feita a generalização dividindo o comportamento em faixas, sendo assim, DiGrafu não pode acertar 100% das vezes porque é inviável fazer uma varredura completa de todos os valores possíveis de MD. De outra maneira pode-se sim aumentar a porcentagem de acertos produzindo árvores sintéticas com maior diversidade de valores de MD.

Figura 8. Resultados obtidos através dos dados reais de sequências de DNA, usando o modelo K2P. Nos gráficos acima a linha indica a variação de MD nas sequências selecionadas.

A Fig. 9, ilustra os resultados das sequências de proteína usando o modelo evolutivo JTT [20]. Neste caso em quatro dos oito exemplos foi escolhido o método Weighbor e nos outros quatro casos foi escolhido o método FastMe: na sequência M2638 o método escolhido foi o GME+BNNI e nas sequências M2637, M2639 e M2641 foi usado o BME+BNNI. Novamente pode-se observar que DiGrafu apresentou o comportamento esperado, escolhendo os métodos previstos para a opção de exatidão.

Figura 9. Resultados obtidos através dos dados reais de sequências de proteína usando o modelo JTT.

Dos oito exemplos DiGrafu escolheu seis vezes o método mais exato, nos demais casos escolheu o segundo método mais exato. Como foi descrito anteriormente, DiGrafu não pode acertar 100% das vezes porque é inviável fazer uma varredura completa de todos os valores possíveis de MD.

De maneira geral, dos 18 casos avaliados, em 13 casos, DiGrafu escolheu o método mais exato. Nos demais, escolheu o segundo método mais exato, ou seja teve uma porcentagem de acerto de 72%, para esta opção. Avaliando DiGrafu usando a opção de tempo de execução, a porcentagem de acerto foi de 100%, o mesmo para tempo de execução+ exatidão.

Os valores indicam que as árvores geradas pela DiGrafu foram semelhantes às geradas pelo PhyML, sabendo que os métodos de distância não são tão exatos quantos os métodos baseados em máxima verossimilhança ou bayesianos.

V. CONCLUSÕES

Neste artigo, apresentou-se uma solução integradora de programas para reconstrução de árvores filogenéticas baseados no método de distância. Esta solução permite realizar uma seleção automática do programa, baseando-se na relação entre os resultados dos programas e as sequências: a divergência máxima. Além disso, DiGrafu também integra os geradores de matrizes Dnadist e Protdist. Ademais, o usuário também pode escolher entre a exatidão do método ou o menor tempo de execução, ou ambas as alternativas (nesse caso, obtendo um resultado razoável e com um tempo de execução médio). Baseando-se na escolha do usuário e nos resultados obtidos na análise dos testes de desempenho, DiGrafu escolhe o melhor método para aquela execução.

Com essa nova solução, pretende-se facilitar o uso de métodos de distância e automatizar alguns dos processos que envolvem a escolha de tais métodos. Mesmo porque também foi desenvolvida uma versão com uso de interface gráfica amigável que, além disso, incrementa o número de formatos de entradas que podem ser utilizados para realizar reconstrução de árvores filogenéticas sob o método de distância.

(7)

AGRADECIMIENTOS

Os autores reconhecem a contribuição de C. Bravo pela ajuda na formatação do artigo e de G. Segundo pela correção do português.

REFERENCES

[1] E. Schardt, J. Sinsheimer, and K. Lange, “Computational advances in maximum likelihood methods for molecular phylogeny,” Genome Research, vol. 8, pp. 222-233, 1998.

[2] J. Felesenstein, Inferring phylogenies. Sunderland: Sinauer associates, Inc., 2004.

[3] M. Price, P. Dehal, and A. Arkin, “FastTree: Computing Large Minimum-Evolution Trees with Profiles instead of a Distance Matrix,” Molecular Biology and Evolution, vol. 26, pp. 1641-1650, 2009. [4] R. Desper, and O. Gascuel, “Fast and accurate phylogeny reconstruction

algorithms based on the Minimum-Evolution principle,” Comput. Evol., vol. 9, no. 5, pp. 687–705, 2002.

[5] N. Saito, and M. Nei, “The neighbor-joining method: a new method for reconstructing phylogenetic trees”. Mol. Biol. Evol., vol. 4, pp. 406–425, 1987.

[6] O. Gascuel, “BIONJ: An improved version of the NJ algorithm based on a simple model of sequence data”. Mol. Biol. Evol., vol. 14, pp. 685– 695, 1997.

[7] P.H. Sneath, R.R. Sokal, Numerical taxonomy: the principles and practice of numerical classification. San Francisco: W. H. Freeman, 1973.

[8] W. Bruno, N. Socci, and A. Halpern, “Weighted neighbor joining: A likelihood-based approach to distance-based phylogeny reconstruction,” Mol. Biol. Evol., vol. 17, pp. 189–197, 2000.

[9] S. Theodoridis, and K. Koutroumbas, Pattern recognition third edition. San Diego: Elseiver, 2006.

[10] D. Yoder, and Z. Yang, “Estimation of Primate Speciation Dates Using Local Molecular Clocks,” Mol. Biol. Evol., vol. 17, no. 7, pp. 1081-1090, 2000.

[11] V. Ranwez, and O. Gascuel, “Quarted-based phylogenetic inference: Improvements and limits,” Mol. Biol. Evol., vol. 18, pp. 1103–1116, 2001.

[12] S. Guindon, and O Gascuel, “A Simple, Fast, and Accurate algorithm to estimate large phylogenies by maximum likelihood, ” Syst. Biol., vol. 52, no. 5, pp. 696–704, 2003.

[13] A. Rambaut, and N. Grassly, “Seq-Gen: An application for the Monte Carlo simulation of DNA sequence evolution along phylogenetic trees,” Comput. Appl. Biosci., vol. 13, pp. 235–238, 1997.

[14] D. Barker, “LVB: Parsimony and simulated annealing in the search for phylogenetic trees,” Bioinformatics, vol. 20, pp. 274-275, 2004. [15] D. Robinson, and L. Foulds, “Comparison of phylogenetic trees,”

Mathematical Biosciences, vol. 53, pp. 131–147, 1981.

[16] V. Ranwez, and O. Gascuel, “Quarted-based phylogenetic inference: Improvements and limits,” Mol. Biol. Evol., vol. 18, pp. 1103–1116, 2001.

[17] W.R. Pearson, Improved tools for biological sequence comparison, Proceedings of the National Academy of Science of the United States of America, vol. 85, no. 8, pp. 2444-8, 1988.

[18] D.R. Maddison, D.L. Swofford and W. P. Maddison, “NEXUS: an extensible file format for systematic information,” Systematic Biology, vol. 46, no. 4, pp. 590-621, 1997.

[19] C. Poux, C. Pascale, D. Huchon, W. Jong, and E. Douzery, “Arrival and Diversification of Caviomorph Rodents and Platyrrhine Primates in South America,” Syst. Biol. vol. 55, no.2, pp. 228-244, 2006.

[20] D. Jones, W. Taylor, and J. Thornton, “The rapid generation of mutation data matrices from protein sequences,” Comput. Appl. Biosci. vol. 8, pp. 275-282, 1992.

M. Torres Nasceu em Cali, Colômbia, aos 18 de Abril de

1968. Graduou-se em Engenharia Elétrica na Universidad Del Valle em 1991, Mestre em Sistemas Eletrônicos na Universidade de São Paulo em 1994 e Doutor em Sistemas Eletrônicos na Universidade de São Paulo em 1999. Trabalha no Departamento de Ciências Exatas e Tecnológicas da Universidade Estadual de Santa Cruz, Ilhéus, Bahia, onde é professora desde 2004 e coordena o Programa de Pós-Graduação em Sistemas Embarcados. Seus interesses estão relacionados com sistemas embarcados, computação de alto desempenho e bioinformática.

G. Dias Nasceu em Guarulhos, São Paulo, Brasil, aos 8

de abril de 1988. Graduando em Ciência da Computação na Universidade Estadual de Santa Cruz ingresso em 2007. Seus interesses estão relacionados com desenvolvimento de software e sistemas distribuídos.

G. Gonçalves Nasceu em Salto de Divisa, Minas Gerais,

Brasil, aos 8 de Dezembro de 1981. Graduo-se em Ciência da Computação na Universidade Estadual de Santa Cruz em 2007, mestrando em Ciência da Computação na Universidade Federal de Minas Gerais ingresso em 2010. Seus interesses estão relacionados com análise de desempenho de sistemas, computação de alto desempenho e bioinformática.

C. Vieira Nasceu em Ilhéus, Bahia, Brasil, aos 28 de

Setembro de 1986. Graduo-se em Ciência da Computação na Universidade Estadual de Santa Cruz em 2007, mestrando em Ciência da Computação na Universidade Estadual de Campinas ingresso em 2008. Seus interesses estão relacionados com desenvolvimento de software, arquitetura de computadores, compiladores e processamento paralelo e distribuído.