Alberto Vicentini
alberto.vicentini@inpa.gov.br Mário Henrique Terra Araujo
araujo.mht@gmail.com
Programa de Pós-Graduação em Botânica do INPA Manaus, Junho 2015
Disciplina BOT-99 PPG-BOT-INPA 2015
Teoria e Prática de Sistemática Filogenética
Contribuição na apresentação: Camila Ribas et al.
Complementariedade
purinas:
Adenina/Guanina
pirimidinas:
Complementariedade
purinas:
Adenina/Guanina
pirimidinas:
Sequenciamento de DNA
2- extração de DNA
+
Mutações
fontes de informação
origem da variabilidade
Alinhamento: hipóteses de homologia
primária da posição das bases
Procedimento do Clustal
1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ Hbb_Human 1 - Hbb_Horse 2 .17 - Hba_Human 3 .59 .60 - Hba_Horse 4 .59 .59 .13 - Myg_Whale 5 .77 .77 .75 .75 - Hbb_Human Hbb_Horse Hba_Horse Hba_Human Myg_Whale 1 2 3 4 1 2 3 4Alinhamento par a par:
Calcula matriz de distância
Árvore por Neighbor-joining
(árvore guia)
Alinhamento progressivo
De acordo com a árvore
Transições são mais frequentes que transversões
To A C G T From A C G T Transições TransversõesCódigo Genético tem redundância
Número de códons para cada aminoácido varia de 1 a 6
Estrutura básica do gene
From: Futuyma. 2005.
Evolution. Sinauer.
Estimulam ou reprimem a transcrição de DNA em RNA
mensageiro de cadeia simples Promoter - RNA polymerase se liga para inicializar a transcrição
Introns são removidos do pre-mRNA e
descartados
Introns são removidos do pre-mRNA e
Mutações sinônimas (3a posição do códon) Mutações em regiões não funcionais do DNA
• Não têm efeito fenotípico
• São acumuladas ao longo da evolução
Mutações não sinônimas (em geral 1a e 2a posições)
• Tem efeito na proteína resultante • Maior pressão seletiva
• São eliminadas por seleção • Menos variação
Saturação em dados moleculares
mudanças escondidas
1. Existe um número limitado de bases (A,T, G, C)
C
A
C
G
T
A
1
2
3
1
Seq 1
Seq 2
Número de mudanças
Seq 1 AGCG
A
G
Seq 2 GCGG
A
C
Homoplasia
• Se não existisse, inferir filogenias seria fácil
• Distinguir homoplasia de homologia é um problema
fundamental em filogenia
Máxima Parcimônia
Frog Bird Crocodile Kangeroo Bat Human amn io n hair anto wings rb ita l fe ne st ra pl ace nt a la ct at io n Tree 1 Tree 2 T A X A FIT -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -CHARACTERS 1 2 3 4 5 6 + + + + 1 1 TREE LENGTH 1 1 1 1 2 7 2 2 2 2 1 10 F ro g C oco di le Ka ng ero o Ba t Bi rd H uma n 1 2 3 6 4 4 5 5 23 Tree 2 C oco di le Ka ng ero o F ro g Bi rd Bat Huma n 1 Tree 1 2 3 4 6 6 5Transições são mais frequentes que transversões
To A C G T From A C G T Transições TransversõesCódigo Genético tem redundância
Número de códons para cada aminoácido varia de 1 a 6
Alterações na 3a posição do códon geralmente não causam mudança no aminoácido
Estrutura básica do gene
From: Futuyma. 2005.
Evolution. Sinauer.
Estimulam ou reprimem a transcrição de DNA em RNA mensageiro de cadeia simples
Promoter - RNA polymerase se liga
para inicializar a transcrição
Introns são removidos do
pre-mRNA e descartados
Introns são removidos do pre-mRNA e descartados
Stepmatrices (matriz de passo)
•
Especificam o custo da mudança
A C G T
A 0
5
1
5
C 5 0 5 1
G 1 5 0 5
T 5 1 5 0
Para
De
A
G
C
T
PURINES (Pu)
PYRIMIDINES (Py)
transitions
Py Py
Pu Pu
tra
n
sve
rsi
o
n
s
Py
Pu
Matrizes diferentes podem ser usadas para cada posição de um codon (1a, 2a, 3a)
Porque dar peso diferente as mudanças?
• Não ponderar = pesos iguais
• Transições podem ser mais comuns do que transversões
• Diferentes tipos de transições e transversões podem ser mais ou menos comum
• Taxas de variação podem ser diferentes entre as posições no códon (sinonymous vs. non-synonymous substitutions)
• Diferentes caracteres tem diferentes índices de consistência (ajuste)
Ciliate SSUrDNA data
N umb er of C ha ra ct er s 0 50 100 150 200 250 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 0 Number of steps
Parcimônia
• é um método simples - de fácil
compreensão e operacionalização
• não tem um modelo explícito de
evolução (é implicito)
• os resultados são confiáveis se
homoplasia nos dados for rara ou aleatoriamente distribuída na árvore
Vantagens
• Podem dar resultados espúrios quando
homoplasia for comum ou concentrada em determinadas partes da árvore, por exemplo: long-branch attraction (atração de ramos longos)
• Subestima o comprimentos dos ramos (e.g.
saturações)
• Modelo de evolução é implícito - o
comportamento do método não pode ser bem compreendido
• Parcimônia muitas vezes justificada por
razões puramente filosóficas - devemos preferir hipóteses mais simples - em
particular por morfologistas
Busca Exaustiva
A
B
C
1
Árvore inicial 3 taxa qualquer
2a
A
B
D
C
A
B
D
C
A
B
C
D
2b
2c
E
E
E
E
E
Adiciona quarto taxon (D) em cada uma das posições possíveis
Adiciona o quinto em cada uma das posições passiveeis dentro de cada
uma das 3 árvores do passo anterior
Busca heurística
•
Branch Swapping (permutação de ramos):
•
Nearest neighbor interchange (NNI)
•Subtree pruning and regrafting (SPR)
•Tree bisection and reconnection (TBR)
Busca heurística
•
Tree bisection and reconnection (TBR)
A B C D E F G A B C D E F G A C F D E B G
O espaço de árvores percorrido pode ter mínimos locais,
que são árvores que tem comprimento menor que outras
árvores parecidas mas que inferir mais homoplasia que
a árvore mais parcimoniosa dos dados
GLOBAL MINIMUM Local Minimum Local Minima Tree Length SUCCESS FAILURE FAILURE Branch Swapping Branch Swapping Branch Swapping
Parsimony can be inconsistent
• Felsenstein (1978) developed a simple model phylogeny including four taxa and a
mixture of short and long branches
• Under this model parsimony will give the wrong tree
A B C D Model tree p p q q q Rates or Branch lengths p >> q A B C D Parsimony tree Wrong
• With more data the certainty that parsimony will give the wrong tree
increases - so that parsimony is statistically inconsistent
• Advocates of parsimony initially responded by claiming that Felsenstein’s
result showed only that his model was unrealistic
• It is now recognised that the long-branch attraction (in the Felsenstein Zone)
is one of the most serious problems in phylogenetic inference
Long branches are
attracted but the
similarity is
Consenso
Spirostomumum Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Tracheloraphis Euplotes Gruberia Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Spirostomumum Euplotes Tracheloraphis Gruberia Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Euplotes Spirostomumum Tracheloraphis Gruberia Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Tracheloraphis Spirostomum Euplotes Gruberia Árvores == parcimoniosas Majority-ruleramos que aparecem em mais de 50% das árvores Consenso Stricto Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Spirostomum Euplotes Tracheloraphis Gruberia 100 100 100 100 66 66
Máxima verossimilhança
ou
Máxima probabilidade
Máxima verossimilhança (ML)
• Qual a probabilidade de observar um conjunto de dados
particular, dada uma árvore filogenética e alguma noção de
como o processo evolutivo trabalhou ao longo do tempo
Probabilidade
)
€ a b c d b a e f c e a g d c f a " # $ $ % $ $ & ' $ $ ( $ $(
€
π
= a,c,g,t
[
]
10 vezes
50 vezes
10000 vezes
Qual a probabilidade de observar um
dado!
• Se jogarmos uma moeda e nós pensamos que a moeda é imparcial, então a
probabilidade de observar cara é de 0.5.
• Se nós pensamos que a moeda é tendenciosa, e esperamos obter uma
vantagem de 80% do tempo, então a probabilidade de observar esse dado
(a cara) é de 0.8.
• Portanto:
A probabilidade de fazer alguma observação é inteiramente
dependente do modelo que fundamenta nossa suposição
.
p
= ?
O dado não mudou,
mudou o modelo, então a
verossimilhança de
Qual a probabilidade de observar uma guanina 'G'
num determinado caractere?
• Do mesmo modo como o exemplo da moeda, a probabilidade de
observar este 'G' depende do modelo de evolução que se pensa
ser a base dos dados.
•
E.g.
– Model 1: frequency of G = 0.4 => likelihood(G) = 0.4 – Model 2: frequency of G = 0.1 => likelihood(G) =0.1 – Model 3: frequency of G = 0.25 => likelihood(G) = 0.25
Uma única regra
• A soma das probabilidades de todas as
possibilidades deve ser sempre 1
O modelo
O modelo é composto da composição/frequência das bases
(nucleotídeos) nos seus dados e de um processo de substituição
de bases, i.e. da taxa de mudança entre estados de caráter
€ a b c d b a e f c e a g d c f a " # $ $ % $ $ & ' $ $ ( $ $
€
π
= a,c,g,t
[
]
+
Model =
Simple “time-reversible” model
• Um modelo simples tem a mesma taxa de mutação de A para C ou vice-versa (0.4) e a mesma composição (frequencia) de bases (0.25 ou 25% cada A, G, T, C) [versão simplificada do modelo 1969 Jukes e Cantor]
€
.
0.4 . .
0.4
.
. .
.
.
. .
.
.
. .
"
#
$
$
%
$
$
&
'
$
$
(
$
$
P =
€
π
= 0.25 0.25 . .
[
]
Substitution matrix
Para sequências de nucleotídeos, existem 16 possíveis
maneiras de acontecer substituições - uma matriz 4x4.
€
P =
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
"
#
$
$
%
$
$
&
'
$
$
(
$
$
Convenção dita que a ordem dos nucleótidos é A, C, G, T
A
C
G
T
A
C
G
T
Substitution matrix
Nesta matriz, a probabilidade de
A
mudar para
C
é 0.01 e a
probabilidade de
C
ficar
C
é 0.979, etc…
€
P =
0.976
0.01
0.007 0.007
0.002 0.983 0.005
0.01
0.003
0.01
0.979 0.007
0.002 0.013 0.005 0.979
"
#
$
$
%
$
$
&
'
$
$
(
$
$
Substitution matrix
Nesta matriz, a probabilidade de
A
mudar para
C
é 0.01 e a
probabilidade de
C
ficar
C
é 0.979, etc…
€
P =
0.976
0.01
0.007 0.007
0.002 0.983 0.005
0.01
0.003
0.01
0.979 0.007
0.002 0.013 0.005 0.979
"
#
$
$
%
$
$
&
'
$
$
(
$
$
soma(linha)==1 soma(linha)==1 soma(linha)==1 soma(linha)==1 Todas as possibilidades do que pode com um caractereProbabilidade de um alinhamento de duas sequências.
• ccat
• ccgt
€
π
c
P
c−> c
π
c
P
c −>c
π
a
P
a−> g
π
t
P
t−> t
=0.4x0.983x0.4x0.983x0.1x0.007x0.3x0.979
=0.0000300
Probabilidade de mudança da primeira para a segunda
sequência é de 0.0000300
Caracteres invariáveis
(Invariable sites)
• Para um determinado conjunto de dados, podemos supor que uma certa
proporção de caracteres não estão livres para variar - e.g. seleção purificadora (relacionada com a função da sequência) impede que esses sítios de mudar).
• Há posições/caracteres/sitios invariáveis:
1. porque estão sob essa restrição selectiva 2. por não ter tido a oportunidade de variar
3. porque há homoplasia no conjunto de dados e uma reversão (digamos) fez com que o site apareça constante.
Caracteres variáveis
• Obviamente outros caracteres no conjunto de dados estão livres para variar.
• Intensidade de seleção nesses caracteres raramente é uniforme, por isso é desejável modelos de taxas de variação de site-by-site (caractere por
caractere).
• Isto é feito de duas maneiras:
1. site específico (e.g. posição de códon)
2. usando uma aproximação discreta para uma distribuição contínua (distribuição gama).
• Mais uma vez, estas variáveis são modeladas sobre todas as possibilidades de mudança na sequência sobre todas as possibilidades de comprimento ramo e mais de todas as possibilidades de topologia da árvore.
O parâmetro alpha descreve a distribuição gama
que é usada para descrever a taxa de variação
O modelo afeta o resultado?
Há vários modelos:
Jukes and Cantor (JC69):
A frequência de bases é a mesma (0.25), a taxa de mudança de uma base à outra é a mesma
Kimura 2-Parameter (K2P):
A frequência de bases é a mesma (0.25), transições e transgressões tem taxas diferentes
Hasegawa-Kishino-Yano (HKY):
Como K2P, mas a composição de bases muda General Time Reversible (GTR):
Muda a base e TODAS as possíveis substituições diferem
Todos estes modelos podem ser estendidos para acomodar caracteres invariáveis e variação na taxa entre caracteres (sites)