I Parte
OTUs outgroup D C B A carácter 0 1 0 0 0 1 0 1 1 0 0 2 0 1 1 1 0 3 0 1 1 1 1 4 0 0 0 1 1 5 0 0 1 1 1 6 nenhum 123(4) 23(4)6 3(4)56 (4)56 apomorfismos
Um exemplo
Ingroup de 4 OTUs (A–D) e outgroup
A
456B
3456C
2346D
1234outgroup
5 6 1 2 3 4 6 6 5uma topologia
sinapomorfismoPressupostos
ascendência comum, com modificações divergência por bifurcação
independência dos caracteres
As homoplasias não representam a ascendência comum, e contrariam o postulado de raridade das alterações*.
Constituem “ruído” histórico. Uma topologia será tanto mais representativa quanto melhor tire partido do “sinal” histórico.
*se bem que, numa grande escala de tempo, a raridade seja um postulado muito relativo
OTUs gi outgroup D C B A carácter 1 0 1 0 0 0 1 2 0 1 1 0 0 2 2 0 1 1 1 0 3 1 0 1 1 1 1 4 2 0 0 0 1 1 5 2 0 0 1 1 1 6 nenhum 123(4) 23(4)6 3(4)56 (4)56 apomorfismos
Um exemplo
Índices de consistência e de retenção
M = 3mi = 4 é o número
mínimo de passos no ingroup. Os valores mi são o número de estados do caráter
informativo i menos 1 (neste exemplo, todos os mi = 2–1 = 1, e i = 2, 3, 5, 6)
não-informativo
não-informativo
G = 3gi = 8 é o número máximo de passos no ingroup. Cada gi (carácter informativo) é dado pelo número de OTUs (incluindo o outgroup) menos Fi, que é o respectivo número de OTUs com o estado de caráter mais frequente.
S (de steps, também se usa L, de length) é o número de passos informativos resultantes da topologia
S = 7
CI = M/S = 0,57
RI = (G–S)/(G–M) = 0,25
A
456B
3456C
2346D
1234outgroup
5 6 1 2 3 4 6 6 5D C B 5 3 1 A 4 2 B 2 C OTUs outgroup D C B A carácter 0 1 0 0 0 1 0 1 1 0 0 2 0 1 1 1 0 3 0 1 1 1 1 4 0 0 0 1 1 5 0 0 1 1 1 6 nenhum 123(4) 23(4)6 3(4)56 (4)56 apomorfismos
Um exemplo
Matriz de distâncias
A e B são o par mais próximo, e D é o mais distante de
ambos, que sugere por exemplo a nova topologia:
A
456B
3456C
2346D
1234outgroup
6 1 2 3 4 5 2 3 reversãoS = 6
CI = 0,67
RI = 0,5
A 456 B 3456 C 2346 D 1234 outgroup 5 6 1 2 3 4 6 6 5 S = 7 CI = 0,57 RI = 0,25matriz de distâncias
Este cladograma é mais curto (S = 6), sem homoplasias, e melhor nos valores de CI e
especialmente RI.
Mas 1/3 dos passos informativos são reversões, e, pior que isso, estão distribuídos desigualmente entre os OTUs
D C B 5 5 1 A 6 6 B 2 C OTUs outgroup D C B A carácter 0 1 0 0 0 1 0 1 1 0 0 2 0 1 1 1 0 3 0 1 1 1 1 4 0 0 0 1 1 5 0 0 1 1 1 6 nenhum 123(4) 23(4)6 3(4)56 (4)56 apomorfismos
Um exemplo
Ramificação mais profunda
A
456B
3456C
2346D
1234outgroup
6 1 3 4 5 2 3S = 6
CI = 0,67
RI = 0,5
Novo cladograma que, não melhorando S (e, por inerência, CI e RI), é o que obedece
melhor a um importante princípio da parcimónia: a ramificação hierarquicamente
mais profunda deve conter o maior número possível de passos informativos (neste caso
4). Em contrapartida, contém duas homoplasias.
6
matriz de distâncias
As distâncias menores mantêm--se, mas as que envolvem o ramo mais profundo são
aparentemente exageradas, por implicarem homoplasias
P Assume que a mutação é um
evento raro
< Determina a topologia que requer o
número mínimo de mutações
Parcimónia máxima (MP)
P Analisa cada nó possível entre 4
grupos, comparando-os em
posições informativas (com dois
estados de caráter
representados 2 vezes cada)
< Cada mutação é definida pelo tipo
de caráter analisado (por exemplo
caráter de Wagner, reversível,
versus caráter de Carmin-Sokal,
irreversível)
< Diferentes tipos de mutação podem
ter pesos diferentes na avaliação
das alternativas
Exercício
Achar a solução MP para sequências de 4 OTUs
1 CAGATCGCAGTTAGTTCCTAA
2 CGGACCGCCGGTAGTACGCAG
3 CAGATCGCCGGTAGTACGTAA
4 CGGACCGCAGGTAGTTCCCAG
Apenas 7 posições informativas (sublinhadas)
1
2
3
4
1
3
2
4
1
4
3
2
4 3 2 4 3 7 1 3 4 2 7 3
Exercício
Topologias possíveis para cada 4 OTUs
1 CAGATCGCAGTTAGTTCCTAA
2 CGGACCGCCGGTAGTACGCAG
3 CAGATCGCCGGTAGTACGTAA
4 CGGACCGCAGGTAGTTCCCAG
P Determinar a mais parcimoniosa:
< Mesma probabilidade de transições e transversões
< Transversões 2x menos prováveis que transições
Resumo da variação informativa
Apenas 7 posições informativas (sublinhadas)
1
2
3
4
1
3
2
4
1
4
3
2
A C B D A C B D
Limitações da MP
Situações de erro
Long branch attraction: OTUs mais divergentes tendem a
agrupar-se
Real
Obtida
Famoso caso da “tree of life” de Woese
Woese et al., 1990 cenancestral eukaryote bikonts unikonts ~950 Mya Archaebacteria Proteobacteria Planctobacteria Sphingobacteria Spirochaetae Cyanobacteria Chlorobacteria cenancestral prokaryote origin of life Endobacteria Actinobacteria Hadobacteria ~3500 Mya Cavalier-Smith 2006
P Usando a matriz de distâncias ou um derivado da mesma,
agrupa-se hierarquicamente a partir dos mais próximos
P UPGMA (Unweighted Pair Group Method with Arithmetic Mean)
< O método mais simples, assume igualdade de extensão dos ramos de
cada bifurcação
< Utilizado para produzir cladogramas preliminares para servirem de base
a métodos mais intensivos
P NJ (Neighbor-Joining): a partir dum cladograma sem hierarquia
(topologia “star”), determinar passo a passo o agrupamento que
minimiza S
< Considerado muito eficiente para grandes cladogramas (muitas OTUs)
< Utilizado para produzir um cladograma de base para o método ME
P ME (Minimum Evolution): aperfeiçoa o resultado duma NJ,
usando topologias de qualidade próxima para estimar a
extensão do ramos, com erros-padrão (mínimos quadrados).
Alternativas
P Afins à MP, mas integrando cálculos de
verosimilhança das topologias
< A verosimilhança dum cladograma é a probabilidade de
resultarem os estados de carácter observados, tendo em
conta a topologia dada. Estas abordagens exigem a
avaliação de todas as topologias possíveis
P ML (Maximum Likelihood): define a priori um
modelo de mutação.
P Inferência Bayesiana: parte dum modelo de
mutação arbitrário e vai-o ajustando à medida que
progride na construção do cladograma.
Alternativas
P Bootstrap (reamostragem)
< Simular uma repetição da experiência/amostragem com apenas parte da
informação; na prática, o procedimento de calcular um cladograma com apenas um subconjunto dos carateres, tomados aleatoriamente, é repetido muitas
vezes (500, 10000...) para obter muitas combinações diferentes de carateres. < A percentagem de vezes que um determinado clade aparece nos cladogramas
obtidos é usada como medida do “support” desse grupo no cladograma testado.
P Inner Branch (métodos NJ e ME)
< Semelhante ao bootstrap, mas os critérios de “support” são diferentes.
P Decaimento de Bremer
< Compara o cladograma em teste com a melhor alternativa caso uma
determinada ramificação fosse retirada (por exemplo, o efeito que teria retirar a ramificação entre cavalo e burro, ficando os dois com igual hierarquia de
parentesco com o rinoceronte); o valor de S deverá aumentar e a diferença dá uma medida do “decaimento”, associado à alternativa, que se considera
correlacionada com a significância do clade definido por essa ramificação.
P Neutralidade
P. monticola pathogenesis-related pro(4) P. monticola pathogenesis-related pro(5) P. monticola pathogenesis-related pro(3) P. pinaster pr-10
P. monticola pathogenesis-related pro... P. monticola pathogenesis-related pro(2) P. glauca m007g
P. glauca m007g(2) P. mariana m007g P. abies m007g O. sativa PR10c
O. sativa Indica Group PR10a
100 100 100 99 100 94 100 0.0 0.2 0.4 0.6 0.8 1.0 1.2
UPGMA
MP
P. abies m007g O. sativa PR10c P. mariana m007g P. glauca m007g(2) P. glauca m007g P. pinaster pr-10P. monticola pathogenesis-related pro(4) P. monticola pathogenesis-related pro(5) P. monticola pathogenesis-related pro(3)
P. monticola pathogenesis-related pro... P. monticola pathogenesis-related pro(2)
O. sativa Indica Group PR10a
52 99 61 61 61 99 71 53 71 0.2
NJ
P. glauca m007g P. abies m007g P. glauca m007g(2) P. mariana m007g O. sativa PR10c P. pinaster pr-10P. monticola pathogenesis-related pro(3) P. monticola pathogenesis-related pro(4) P. monticola pathogenesis-related pro(5)
O. sativa Indica Group PR10a P. monticola pathogenesis-related pro...
P. monticola pathogenesis-related pro(2)
99 99 95 96 73 50 73 0.1
ML
Software
O programa MEGA (http://megasoftware.net/) é fornecido para a aula prática.
Outras recomendações:
Uma listagem mais extensa é fornecida no Moodle.
Lista de softwares de Felsenstein
http://evolution.genetics.washington.edu/phylip/software.html (execução local) http://evolution.genetics.washington.edu/phylip/software.serv.html (servidores)
P Mesquite (mesmos autores do MacClade; Windows, Mac, Linux) http://mesquiteproject.org/mesquite/features.html
P TNT (Windows e Linux; MacOS versão antiga) http://www.zmuc.dk/public/phylogeny/tnt/
P Pebble (Windows, Mac, Linux)
http://www.cebl.auckland.ac.nz/software2.php
P PAUP* (MacOS 9-10.3, Windows) http://paup.csit.fsu.edu/
P TOPALi (Windows, MacOS, Linux, Solaris) http://www.topali.org/