Teoria e Prática de Sistemática Filogenética

(1)

Alberto Vicentini

alberto.vicentini@inpa.gov.br Mário Henrique Terra Araujo

araujo.mht@gmail.com

Programa de Pós-Graduação em Botânica do INPA Manaus, Junho 2015

Disciplina BOT-99 PPG-BOT-INPA 2015

Teoria e Prática de Sistemática Filogenética

Contribuição na apresentação: Camila Ribas et al.

(2)

(3)

Complementariedade

purinas:

Adenina/Guanina

pirimidinas:

(4)

Complementariedade

purinas:

Adenina/Guanina

pirimidinas:

(5)

Sequenciamento de DNA

(6)

2- extração de DNA

+

(7)

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

Mutações

fontes de informação

origem da variabilidade

(16)

Alinhamento: hipóteses de homologia

primária da posição das bases

(17)

(18)

Procedimento do Clustal

1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ Hbb_Human 1 - Hbb_Horse 2 .17 - Hba_Human 3 .59 .60 - Hba_Horse 4 .59 .59 .13 - Myg_Whale 5 .77 .77 .75 .75 - Hbb_Human Hbb_Horse Hba_Horse Hba_Human Myg_Whale 1 2 3 4 1 2 3 4

Alinhamento par a par:

Calcula matriz de distância

Árvore por Neighbor-joining

(árvore guia)

Alinhamento progressivo

De acordo com a árvore

(19)

(20)

(21)

Transições são mais frequentes que transversões

To A C G T From A C G T Transições Transversões

(22)

Código Genético tem redundância

Número de códons para cada aminoácido varia de 1 a 6

(23)

(24)

Estrutura básica do gene

From: Futuyma. 2005.

Evolution. Sinauer.

Estimulam ou reprimem a transcrição de DNA em RNA

mensageiro de cadeia simples Promoter - RNA polymerase se liga para inicializar a transcrição

Introns são removidos do pre-mRNA e

descartados

Introns são removidos do pre-mRNA e

(25)

(26)

(27)

Mutações sinônimas (3a posição do códon) Mutações em regiões não funcionais do DNA

• Não têm efeito fenotípico

• São acumuladas ao longo da evolução

Mutações não sinônimas (em geral 1a e 2a posições)

• Tem efeito na proteína resultante • Maior pressão seletiva

• São eliminadas por seleção • Menos variação

(28)

Saturação em dados moleculares

mudanças escondidas

1. Existe um número limitado de bases (A,T, G, C)

(29)

C

A

C

G

T

A

1 ₂

3

1 Seq 1

Seq 2

Número de mudanças

Seq 1 AGCG

A

G

Seq 2 GCGG

A

C

(30)

Homoplasia

• Se não existisse, inferir filogenias seria fácil

• Distinguir homoplasia de homologia é um problema

fundamental em filogenia

(31)

Máxima Parcimônia

Frog Bird Crocodile Kangeroo Bat Human amn io n hair _anto _wings rb ita l fe ne st ra pl ace nt a la ct at io n Tree 1 Tree 2 T A X A FIT -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -CHARACTERS 1 2 3 4 5 6 + + + + 1 1 TREE LENGTH 1 1 1 1 2 7 2 2 2 2 1 10 F ro g C oco di le Ka ng ero o Ba t Bi rd H uma n 1 2 3 6 4 4 5 5 23 Tree 2 C oco di le Ka ng ero o F ro g Bi rd _Bat _Huma n 1 Tree 1 2 3 4 6 6 5

(32)

Transições são mais frequentes que transversões

To A C G T From A C G T Transições Transversões

(33)

Código Genético tem redundância

Número de códons para cada aminoácido varia de 1 a 6

Alterações na 3a posição do códon geralmente não causam mudança no aminoácido

(34)

Estrutura básica do gene

From: Futuyma. 2005.

Evolution. Sinauer.

Estimulam ou reprimem a transcrição de DNA em RNA mensageiro de cadeia simples

Promoter - RNA polymerase se liga

para inicializar a transcrição

Introns são removidos do

pre-mRNA e descartados

Introns são removidos do pre-mRNA e descartados

(35)

Stepmatrices (matriz de passo)

• Especificam o custo da mudança

A C G T

A 0

5

1

5 C 5 0 5 1

G 1 5 0 5

T 5 1 5 0

Para

De

A

G

C

T

PURINES (Pu)

PYRIMIDINES (Py)

transitions

Py Py

Pu Pu

tra

n

sve

rsi

o

n

s

Py

Pu

Matrizes diferentes podem ser usadas para cada posição de um codon (1a, 2a, 3a)

(36)

Porque dar peso diferente as mudanças?

• Não ponderar = pesos iguais

• Transições podem ser mais comuns do que transversões

• Diferentes tipos de transições e transversões podem ser mais ou menos comum

• Taxas de variação podem ser diferentes entre as posições no códon (sinonymous vs. non-synonymous substitutions)

• Diferentes caracteres tem diferentes índices de consistência (ajuste)

Ciliate SSUrDNA data

N umb er of C ha ra ct er s 0 50 100 150 200 250 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 0 Number of steps

(37)

Parcimônia

• é um método simples - de fácil

compreensão e operacionalização

• não tem um modelo explícito de

evolução (é implicito)

• os resultados são confiáveis se

homoplasia nos dados for rara ou aleatoriamente distribuída na árvore

Vantagens

• Podem dar resultados espúrios quando

homoplasia for comum ou concentrada em determinadas partes da árvore, por exemplo: long-branch attraction (atração de ramos longos)

• Subestima o comprimentos dos ramos (e.g.

saturações)

• Modelo de evolução é implícito - o

comportamento do método não pode ser bem compreendido

• Parcimônia muitas vezes justificada por

razões puramente filosóficas - devemos preferir hipóteses mais simples - em

particular por morfologistas

(38)

Busca Exaustiva

A

B

_C

1 Árvore inicial 3 taxa qualquer

2a

A

B

D

C

A

B

D

C

A

B

_C

D

2b

2c

E

Adiciona quarto taxon (D) em cada uma das posições possíveis

Adiciona o quinto em cada uma das posições passiveeis dentro de cada

uma das 3 árvores do passo anterior

(39)

Busca heurística

• Branch Swapping (permutação de ramos):

•

Nearest neighbor interchange (NNI)

•

Subtree pruning and regrafting (SPR)

•

Tree bisection and reconnection (TBR)

(40)

Busca heurística

• Tree bisection and reconnection (TBR)

A B C D E F G A B C D E F G A C F D E B G

(41)

O espaço de árvores percorrido pode ter mínimos locais,

que são árvores que tem comprimento menor que outras

árvores parecidas mas que inferir mais homoplasia que

a árvore mais parcimoniosa dos dados

GLOBAL MINIMUM Local Minimum Local Minima Tree Length SUCCESS FAILURE FAILURE Branch Swapping Branch Swapping Branch Swapping

(42)

Parsimony can be inconsistent

• Felsenstein (1978) developed a simple model phylogeny including four taxa and a

mixture of short and long branches

• Under this model parsimony will give the wrong tree

A B C _D Model tree p _p q q q Rates or Branch lengths p >> q A B C D Parsimony tree Wrong

• With more data the certainty that parsimony will give the wrong tree

increases - so that parsimony is statistically inconsistent

• Advocates of parsimony initially responded by claiming that Felsenstein’s

result showed only that his model was unrealistic

• It is now recognised that the long-branch attraction (in the Felsenstein Zone)

is one of the most serious problems in phylogenetic inference

Long branches are

attracted but the

similarity is

(43)

Consenso

Spirostomumum Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Tracheloraphis Euplotes Gruberia Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Spirostomumum Euplotes Tracheloraphis Gruberia Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Euplotes Spirostomumum Tracheloraphis Gruberia Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Tracheloraphis Spirostomum Euplotes Gruberia Árvores == parcimoniosas Majority-rule

ramos que aparecem em mais de 50% das árvores Consenso Stricto Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Spirostomum Euplotes Tracheloraphis Gruberia 100 100 100 100 66 66

(44)

Máxima verossimilhança

ou

Máxima probabilidade

(45)

Máxima verossimilhança (ML)

• Qual a probabilidade de observar um conjunto de dados

particular, dada uma árvore filogenética e alguma noção de

como o processo evolutivo trabalhou ao longo do tempo

Probabilidade

)

€ a b c d b a e f c e a g d c f a " # $ $ % $ $ & ' $ $ ( $ $

(

€

π

= a,c,g,t

[

]

(46)

10 vezes

50 vezes

10000 vezes

(47)

Qual a probabilidade de observar um

dado!

• Se jogarmos uma moeda e nós pensamos que a moeda é imparcial, então a

probabilidade de observar cara é de 0.5.

• Se nós pensamos que a moeda é tendenciosa, e esperamos obter uma

vantagem de 80% do tempo, então a probabilidade de observar esse dado

(a cara) é de 0.8.

• Portanto:

A probabilidade de fazer alguma observação é inteiramente

dependente do modelo que fundamenta nossa suposição

.

p

_{= ?}

O dado não mudou,

mudou o modelo, então a

verossimilhança de

(48)

Qual a probabilidade de observar uma guanina 'G'

num determinado caractere?

• Do mesmo modo como o exemplo da moeda, a probabilidade de

observar este 'G' depende do modelo de evolução que se pensa

ser a base dos dados.

• E.g.

– Model 1: frequency of G = 0.4 => likelihood(G) = 0.4 – Model 2: frequency of G = 0.1 => likelihood(G) =0.1 – Model 3: frequency of G = 0.25 => likelihood(G) = 0.25

(49)

Uma única regra

• A soma das probabilidades de todas as

possibilidades deve ser sempre 1

(50)

O modelo

O modelo é composto da composição/frequência das bases

(nucleotídeos) nos seus dados e de um processo de substituição

de bases, i.e. da taxa de mudança entre estados de caráter

€ a b c d b a e f c e a g d c f a " # $ $ % $ $ & ' $ $ ( $ $

€

π

= a,c,g,t

[

]

+

Model =

(51)

Simple “time-reversible” model

• Um modelo simples tem a mesma taxa de mutação de A para C ou vice-versa (0.4) e a mesma composição (frequencia) de bases (0.25 ou 25% cada A, G, T, C) [versão simplificada do modelo 1969 Jukes e Cantor]

€

.

0.4 . .

0.4 .

. .

.

. .

.

. .

"

#

$

%

$

&

'

$

(

$

P =

€

π

= 0.25 0.25 . .

[

]

(52)

Substitution matrix

Para sequências de nucleotídeos, existem 16 possíveis

maneiras de acontecer substituições - uma matriz 4x4.

€

P =

a

b

c

d

e

f

g

h

i

j

k

l

m

n

o

p

"

#

$

%

$

&

'

$

(

$

Convenção dita que a ordem dos nucleótidos é A, C, G, T

A

C

G

T

A

C

G

T

(53)

Substitution matrix

Nesta matriz, a probabilidade de

A

mudar para

C

é 0.01 e a

probabilidade de

C

ficar

C

é 0.979, etc…

€

P =

0.976

0.01 0.007 0.007

0.002 0.983 0.005

0.01

0.003

0.01 0.979 0.007

0.002 0.013 0.005 0.979

"

#

$

%

$

&

'

$

(

$

(54)

Substitution matrix

Nesta matriz, a probabilidade de

A

mudar para

C

é 0.01 e a

probabilidade de

C

ficar

C

é 0.979, etc…

€

P =

0.976

0.01 0.007 0.007

0.002 0.983 0.005

0.01

0.003

0.01 0.979 0.007

0.002 0.013 0.005 0.979

"

#

$

%

$

&

'

$

(

$

soma(linha)==1 soma(linha)==1 soma(linha)==1 soma(linha)==1 Todas as possibilidades do que pode com um caractere

(55)

Probabilidade de um alinhamento de duas sequências.

• ccat

• ccgt

€

π

_c

P

_{c−> c}

π

_c

P

_{c −>c}

π

_a

P

_{a−> g}

π

_t

P

_{t−> t}

=0.4x0.983x0.4x0.983x0.1x0.007x0.3x0.979

=0.0000300

Probabilidade de mudança da primeira para a segunda

sequência é de 0.0000300

(56)

Caracteres invariáveis

(Invariable sites)

• Para um determinado conjunto de dados, podemos supor que uma certa

proporção de caracteres não estão livres para variar - e.g. seleção purificadora (relacionada com a função da sequência) impede que esses sítios de mudar).

• Há posições/caracteres/sitios invariáveis:

1. porque estão sob essa restrição selectiva 2. por não ter tido a oportunidade de variar

3. porque há homoplasia no conjunto de dados e uma reversão (digamos) fez com que o site apareça constante.

(57)

Caracteres variáveis

• Obviamente outros caracteres no conjunto de dados estão livres para variar.

• Intensidade de seleção nesses caracteres raramente é uniforme, por isso é desejável modelos de taxas de variação de site-by-site (caractere por

caractere).

• Isto é feito de duas maneiras:

1. site específico (e.g. posição de códon)

2. usando uma aproximação discreta para uma distribuição contínua (distribuição gama).

• Mais uma vez, estas variáveis são modeladas sobre todas as possibilidades de mudança na sequência sobre todas as possibilidades de comprimento ramo e mais de todas as possibilidades de topologia da árvore.

(58)

O parâmetro alpha descreve a distribuição gama

que é usada para descrever a taxa de variação

(59)

O modelo afeta o resultado?

Há vários modelos:

Jukes and Cantor (JC69):

A frequência de bases é a mesma (0.25), a taxa de mudança de uma base à outra é a mesma

Kimura 2-Parameter (K2P):

A frequência de bases é a mesma (0.25), transições e transgressões tem taxas diferentes

Hasegawa-Kishino-Yano (HKY):

Como K2P, mas a composição de bases muda General Time Reversible (GTR):

Muda a base e TODAS as possíveis substituições diferem

Todos estes modelos podem ser estendidos para acomodar caracteres invariáveis e variação na taxa entre caracteres (sites)