Amostrando n genes ao acaso. Árvore de Coalescência. Amostrando n genes ao acaso. Teoria da coalescência. Amostrando dois genes ao acaso

(1)

Por causa da replicação, um único tipo de gene pode existir no tempo e no espaço de forma que transcenda os indivíduos que temporaamente carregam o gene. Alguns alelos são idênticos por serem descendentes replicados de um único alelo ancestral

DNA é capaz de replicar

Coalescência

Coalescência do DNA Replicação do DNA

Gene Tree

(all copies of homologous DNA coalesce to a common ancestral molecule) Teoria do coalescente Se µ << 1 e Prob (coal) << 1 DNA não replica e sofre mutação em uma geração

Tempo

Tempo Coalescência

Cada reprodução pode envolver qualquer um dos N indivíduous, e é um evento independente de outras

• Assim, a probabilidade de que dois gametas venham do mesmo parental é de 1/N

• Em diplóides, a probabilidade de ibd / coalescência é 1/(2N) • Populações não são ideais, logo a probabilidade de coalescência em uma geração é de 1/2Nef

(2)

Pcoalescence há exatamente t gerações é a probabilidade de não

coalescência pelas 1as_{t-1 gerações no passado seguida por um}

evento de coalescência na geração t:

Amostrando dois genes ao acaso

probabilidade de não coalescência em t-1 gerações probabilidade de coalescência na geração t

A variância do tempo médio de coalescência de dois genes (σ2

ct)

é a média da espectativa de (t - 2Nef)2 :

O tempo médio de coalescência será:

Amostrando dois genes ao acaso

• Se n = 10, o tempo coberto por eventos de coalescência deve variar entre 0.0444Nef e 3.6Nef.

• Se n = 100, o tempo coberto por eventos de coalescência deve variar entre 0.0004Nef e 3.96Nef.

Não precisa grande amostra para inferir coalescências antigas, mas precisa de muitas para inferir coalescências recentes

Amostrando n genes ao acaso

Os tempos médios para a 1a_{e a última coalescência são:}

4Nef/[n(n-1)] e 4Nef(1-1/n)

Árvore de Coalescência

E(T5,4) = 2N/10 E(T2,1) = 2N gerações E(T3,2)=2N/3 E(T4,3)=2N/6 Tempo presente

Teoria da coalescência

Se µ << 1 e Prob (coal) << 1 DNA não replica e sofre mutação em uma geração

Tempo

• Tanto para 2 quanto n- coalescências, o tempo médio de coalescência é proporcional a Nef enquanto a variância é a Nef2.

• O relógio molecular segue Poisson em que a média = variância. • O coalescente é um processo evolutivo irregular, com muita variação inerente que não pode ser eliminada por n maiores; é inato ao processo evolutivo e chamado de estocasticidade evolutiva.

A variância do tempo de coalescência de n genes é:

Amostrando n genes ao acaso

(3)

Experimento de Buri em deriva genética

Problema: Não há réplicas na maioria dos dados reais,

os eventos ocorreram apenas uma vez.

Tempo de fixação (coalescência) em 105

réplicas do mesmo processo evolutivo

Mutação cria

variação e

destrói ibd

Coalescência

com mutação

Coalescência antes da mutação

Mutação

Mutação antes da coalescência

Assumindo

µ

muito pequeno e N

ef

muito grande

P de mutação e coalescência na mesma geração é baixa

Mutação e Coalescência:

Diversidade genética

(4)

= Heterozigosidade esperada

Com

µ

<< N

ef

pode ser simplificado para:

Mutação e Coalescência:

Diversidade genética

_{Árvores de Genes são genealogias de genes. Como cópias}

diferentes em loci homólogos estão relacionados pela ordem de eventos de coalescência.

Árvore de gene e árvore de haplótipos

Únicos passos que podemos “ver” são os marcados por eventos mutacionais

Árvores de Genes são genealogias de genes. Como cópias

diferentes em loci homólogos estão relacionados pela ordem de eventos de coalescência.

Árvore de gene e árvore de haplótipos

A esta árvore de mais baixa resolução chamamos de árvore de haplótipos ou de

alelos.

Árvore de haplótipo

Árvore de haplótipo -- Antigas e recentes

Dobzhansky & Sturtevant (1936): An Inversion Tree for Drosophila

(5)

Idealmente cada inversão ocorre apenas uma vez na árvore e a árvore minimiza o número total de mutações – Modelo de Alelos Infinitos

Idealmente cada inversão ocorre apenas uma vez na árvore e a árvore minimiza o número total de mutações -- Máxima Parcimônia

Máxima Parcimônia (e outros métodos) permite inferir estados de ancestrais extintos.

Árvore é enraizada com espécie relacionada que esteja filogeneticamente fora do grupo de interesse - Grupo externo.

Árvore de inversões não equivale sempre a árvore de espécies, ou populações - Polimorfismo Transpecífico.

Árvore de gene e árvore de haplótipos

Polimorfismo transpecífico (polimorfismo

ancestral, sorteamento de linhagem) – Quando

alguns dos haplótipos encontrados em uma espécie

são genealogicamente mais aparentados a

linhagens de haplótipos encontrados em outra

espécie do que a linhagens da própria espécie.

(6)

Árvore de gene e árvore de haplótipos

Polimorfismo transpecífico, ou polimorfismo

ancestral, ou ainda sorteamento de linhagem

Freqüência e topologia são misturadas. Mutação é mais provável em haplótipos comuns. Politomias e ramos pequenos são esperadas.

Modelo de Sítios Infinitos

1 2 3 4 5

Mutações

1 2 3 4 5 6

Se

qü

ên

ci

as

7

Cada mutação ocorre em um nucleotídeo diferente

LPL Has 10 Exons Over 30 kb of DNA on Chromosome 8p22 Sequenced 9,734 bp from the 3’ End of Intron 3 to the 5’ End of Intron 9 Sequenced:

24 Individuals from North Karelia, Finland (World’s Highest Frequency of CAD) 23 European-Americans from Rochester, Minnesota

24 African-Americans from Jackson, Mississippi Found 88 Variable Sites

Ignored Singleton and Doubleton Sites and Variation Due to a Tetranucleotide Repeat, but

Phased the Remaining 69 Polymorphic Sites by a Combination of Using Allele Specific

Primer Pairs and Haplotype Substraction The Phased Site Data Identified 88 Distinct Haplotypes

Genetic Survey of Lipoprotein Lipase

Ln-Likelihood ratio teste de homogeneidade = 99.8, 3 df, p = 1.75 x 10-7

Ln-Likelihood ratio teste de homogeneidade nas 3 classes mutáveis = 12.3, 2 df, p = 0.002

Análise de sítios altamente mutáveis

Type of Site # Nt # polym % polym p/ nt

CPG 198 19 9.6%

Mononucleotide runs > 5 456 15 3.3% Poly α arrest site ± 3

nucleotides [TG(A/G)(A/G)GA]

264 8 3.0%

All other nucleotides 8,866 46 0.5%

Região Tipo do Sítio 0-1 Homoplasias >2 Homoplasias 5’ e 3’ Altamente

mutável 11 14 Flanqueadora Todos os

outros 22 5

Sítios altamente mutáveis em

LPL e homoplasia

Recombinational

Hotspot Altamente mutável 3 7

Todos os outros 5 2 Todos Altamente mutável 14 21 Todos os outros 27 7 Fisher's Exact Test: P = 0.0013 sob a hipótese nula de homogeneidade Fisher's Exact Test: P = 0.0013 sob a hipótese nula de homogeneidade

(7)

ε4 ε3 ε2

Árvore de

haplótipos

da

Apolipo-protein E

Árvore de haplótipos da Apolipo-protein E

4036

Coalescente de

haplótipos de

Apo-protein E

ε4 Anos (x 105₎ ε2 ε3 9 16 6 27 2 28 1 14 29 30 12 13 17 20 5 31 3.2 1.6 0.0 0.8 2.4 3937 4075 5229B 624 308 3673 545 2440 3106 1998 1163 1522 3701 2907 471 4951 73

Árvore de

haplótipos

da

Apolipo-protein E

560 560 560 560 560 560 1575 624 624 624 624 1522 5361 5361 5361 4951 4951 4951 832 832 2440 1998 3937 1998 5229B 4075 1163 4036 73 471 14 11 19 17 20 18 23 15 12 25 13 10 16 24 2 22 6 7 5 1 1575 560 624 624 21 26 4 3 31 3106 28 545 27 3673 308 29 3701 8 30 2907 9

ε

3 ε

2 ε

4

Sítios 560 e 624 estão em uma repetição Alu

Modelo de Sítios Finitos

1 2 3 4 5

Mutações

1 2 3 4 5 6

Se

qü

ên

ci

as

7

Um conjunto finito de nucleotídeos são sujeitos à mutação e podem sofrer eventos mutacionais múltiplos

Uso de métodos não apropriados para estudos

intraspecíficos

Porque não apropriados: • baixa divergência • ancestral não está extinto • Politomia

• reticulação

(8)

Parcimônia estatística

Redes ou árvores que alocam homoplasia entre

haplótipos menos divergentes com probabilidade

menor do que 0.05 são eliminadas em favor de

outras que alocam tais homoplasias entre

haplótipos mais divergentes

Árvore genealógica

Em estudos intraspecíficos:

•NÃO esperamos que o ancestral esteja extinto; • Politomias são esperadas. Na verdade, politomias são PROVÁVEIS;

• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;

• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;

Podemos usar estas esperanças para resolver “loops” ou homoplasias nos dados

Árvore de haplótipos

Máxima parcimônia Parcimônia estatística

Árvore genealógica

Árvore de haplótipos

• Geralmente NÃO sabemos a raiz; • Alelos antigos tem mais chance de serem nós internos, ao invés de pontas (tips).

560 560 560 560 560 560 1575 624 624 624 624 1522 5361 5361 5361 4951 4951 4951 832 832 2440 1998 3937 1998 5229B 4075 1163 4036 73 471 14 11 19 17 20 18 23 15 12 25 13 10 16 24 2 22 6 7 5 1 1575 560 624 624 21 26 4 3 31 3106 28 545 27 3673 308 29 3701 8 30 2907 9

ε

3 ε

2 ε

4 Árvore de

haplótipos

da

Apolipo-protein E

Um único haplótipo pode ter segmentos de DNA que tiveram padrões de mutação e coalescência diferentes no passado. Não existe uma única história evolutiva para estes haplótipos recombinantes.

Quando a recombinação é comum e uniforme, mesmo a idéia de uma árvore de haplótipos torna-se biologicamente sem sentido.

Importante investigar sua presença!

(9)

A recombinação ocorre em todos os genótipos, mas muda o estado do gameta parental apenas em duplos heterozigotos.

A recombinação muda a fase de marcadores polimórficos. Para se detectar e estudar a recombinação, é essencial ter dados com fase conhecida (como haplótipos)

PROBLEMA: Queremos estimar os haplótipos e suas freqüências no pool gênico, mas não podemos observá-los em todos os indivíduos.

GENOTIPAGEM N HAPLÓTIPOS

POSSÍVEIS

A/A A/A T/T HOMOZYGOTE 21 AAT G/G A/A T/T HOMOZYGOTE 19 GAT A/A C/A T/T SINGLE HETEROZYGOTE 9 ACT/AAT A/G A/A T/T SINGLE HETEROZYGOTE 39 AAT/GAT A/G C/A T/T DOUBLE HETEROZYGOTE 9 ACT/GAT or AAT/GCT A/G A/A T/C DOUBLE HETEROZYGOTE 2 AAT/GAC or AAC/GAT A/G C/A T/C TRIPLE HETEROZYGOTE 1 ACT/GAC or AAT/GCC or

ACC/GAT or AAC/GCT

1a_{Solução: Subtração de Haplótipos (Clark, Mol. Biol. Evol. 7:}

111-122, 1990).

POSSÍVEIS

ACC/GAT or AAC/GCT

Os haplótipos neste grupo são conhecidos!

111-122, 1990).

POSSÍVEIS

ACC/GAT or AAC/GCT

Tais haplótipos são também possibilidades em genótipos com fase ambígua

111-122, 1990).

POSSÍVEIS

ACC/GAT or AAC/GCT

A solução que inferir menos haplótipos novos será a preferida

2a_{Solução: Algoritmo EM (Estimation-Maximization)}

(Templeton et al. Genetics 120: 1145-1154, 1988).

Estima probabilidades de várias fases de genótipos pelo uso das freqüências dos haplótipos em um modelo de Hardy-Weinberg.

(10)

Estima probabilidades de várias fases de genótipos pelo uso das freqüências dos haplótipos em um modelo de Hardy-Weinberg. Repetir tal procedimento até que as freqüências estabilizem.

Nem tão bem resolvido quanto o algoritmo de Haplotype

Substraction.

Pode ser uma vantagem, e uma desvantagem.

3a_{Solução: Algoritmo Bayesiano (Stephens et al., Am J. Hum Gen.}

68: 978-989,2001)

Divide the individuals into those with unambiguous haplotypes and those with ambiguous haplotypes. Unlike haplotype subtraction and like EM, ambiguous individuals always remain ambiguous (although the probabilities could become very small). Then:

1. Let G be the vector of genotypes and H(0)_{some initial guess of the vector of haplotypes}

(just like EM).

2. Choose an individual, i, uniformly and at random (thus avoiding order effects) from the set of ambiguous individuals.

3. Sample Hi(t+1) from P(Hi|G,H-I(t))where H-I is the set of haplotypes excluding

individual i.

Go back to 2 and keep repeating until converge to a stationary distribution (they show this will always occur). Thus, you now have P(H|G).

However, where we do we get P(Hi|G,H-I(t))?

Como detectar eventos de recombinação em LPL

5NR 2JNR 70R 79R 7 8 13 20 29 31 33 56 53 5 65 25 7 8 13 16 11J 61 19 31J66 29 36 69 5 16 12 36J Branch "A"

{

Como detectar eventos de recombinação em LPL

α=3, β=5, κ=3, p =0.0179, crossover between sites 13 and 29.

1 10 20 30 40 50 60 69

2JNR CAGTTTCCCT CAGCACGATC GCAATTGCAC CTCAATGTAT AGTTGTAACC GAGTCCGCAT AACTATAGG

5NR CAGTTTATCT CACCACGATA GCAATTGCAC CTCAATGTAT AGTTGTAACC GAGTCCGCAT AACTATAGG

Node a CAGTTTATCT CACCACGATC GCAATTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG

α=2, β=7, κ=2, p =0.0278, crossover between sites 16 and 19.

Node d CAGTTTATCT CACCACGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG

11J CAGTATATCT CACCATGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG

Node e CAGTATATCT CACCATGAGC GCAATTGCAC TTTAA?GTAT AGTTGTAACC GAATCAGCAT CACTGGAGA

11J CAGTATATCT CACCATGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG

Node e CAGTATATCT CACCATGAGC GCAATTGCAC TTTAA?GTAT AGTTGTAACC GAATCAGCAT CACTGGAGA

(11)

Distribuição de recombinantes em LPL

LD e recombinational Hotspot em LPL

Reich, D. E. et al. Nature Genetics 32, 135-142, 2002. “recombination 'hot spots' are a general feature of the human genome and have a principal role in shaping genetic variation in the human population.”

Recombinação cria novas fases em sítios polimórficos, que podem ser medidas por:

D = gABgab-gAbgaB

• D mede o grau de associação entre dois sítios naquela população

• D é criado por várias forças evolutivas e eventos históricos, inclusive a mutação.

Hardy Weinberg em 2 loci

Ou seja, evolução ocorre!

O equilíbrio é alcançado gradualmente, na taxa r. Informações históricas são medidas por D, que decai com o tempo.

Em loci com alta ligação pode persistir por grandes períodos.

Hardy Weinberg em 2 loci

Dt = D0(1-r)t

Existe a tendência de usar D como medida da proximidade na molécula de DNA Isto se justifica quando r >> µ

Quando r < µ ou r ≈µ ; o desequilíbrio está medindo proximidade no processo de coalescência.

(12)

ε4 ε3 ε2

Árvore de

haplótipos

da

Apolipo-protein E

O gene ApoE

Stengård et al. (1996)

mostraram que

substituições de amino

ácidos em ApoE tem

grande impacto na

mortalidade por doenças

coronarianas em um

estudo longitudinal.

0 1 2 3 4 5 6 7 CAD Mortality Relative to CAD Mortality of 3/3 3/3 3/4 2/4 & 4/4 0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471 545560462832 1163 15221575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01*

Região Gênica da Apoprotein E

0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471545560 462832 1163 1522 1575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01*

Estes dois sítios estão em desequilíbrio

Região Gênica da Apoprotein E

560 560 560 560 560 560 1575 624 624 624 624 1522 5361 5361 5361 4951 4951 4951 832 832 2440 1998 3937 1998 5229B 4075 1163 4036 73 471 14 11 19 17 20 18 23 15 12 25 13 10 16 24 2 22 6 7 5 1 1575 560 624 624 21 26 4 3 31 3106 28 545 27 3673 308 29 3701 8 30 2907 9

Árvore de

haplótipos

da

Apo-lipoprotein E

560 560 560 560 560 560 1575 624 624 624 624 1522 5361 5361 5361 4951 4951 4951 832 832 2440 1998 3937 1998 5229B 4075 1163 4036 73 471 14 11 19 17 20 18 23 15 12 25 13 10 16 24 2 22 6 7 5 1 1575 560 624 624 21 26 4 3 31 3106 28 545 27 3673 308 29 3701 8 30 2907 9

Estes haplótipos são T no sítio 832 e C

em 3937

Estes haplótipos são G no sítio 832 e T em 3937

Árvore de

haplótipos

da

Apo-lipoprotein

E

(13)

0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471 545560624283 1163 15221575 1998 2440 0729 3106 36733701* 393740364075 5149 5229_A5229_B5361

Sítio 3937 é um polimorfismo de a.a. que afeta a função de ApoE e infarto

Região Gênica da Apoprotein E

0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471545560 624283 1163 1522 1575 1998 2440 0729 3106 36733701* 393740364075 5149 5229_A5229_B5361

Suponha que apenas esta região tenha sido sequenciada

Região Gênica da Apoprotein E

0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471 545560462832 1163 15221575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01*

Sítio 832 está associado na árvore de haplótipos com o sítio 3937

Região Gênica da Apoprotein E

Suponha que apenas esta região tenha

sido sequenciada

0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471545560 462832 1163 1522 1575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01*

Região Gênica da Apoprotein E

Sítio 832 pareceria com a maior associação com função de ApoE e infarto

Suponha que apenas esta região tenha sido sequenciada 0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471 545560462832 1163 15221575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01* Você seria capaz de inferir desta associação que o marcador mais perto do sítio funcional estaria aqui?

Região Gênica da Apoprotein E

Sítio 832 pareceria com a maior associação com função de ApoE e infarto