Por causa da replicação, um único tipo de gene pode existir no tempo e no espaço de forma que transcenda os indivíduos que temporaamente carregam o gene. Alguns alelos são idênticos por serem descendentes replicados de um único alelo ancestral
DNA é capaz de replicar
Coalescência
Coalescência do DNA Replicação do DNA
Gene Tree
(all copies of homologous DNA coalesce to a common ancestral molecule) Teoria do coalescente Se µ << 1 e Prob (coal) << 1 DNA não replica e sofre mutação em uma geraçãoTempo
Tempo Coalescência
Cada reprodução pode envolver qualquer um dos N indivíduous, e é um evento independente de outras
• Assim, a probabilidade de que dois gametas venham do mesmo parental é de 1/N
• Em diplóides, a probabilidade de ibd / coalescência é 1/(2N) • Populações não são ideais, logo a probabilidade de coalescência em uma geração é de 1/2Nef
Pcoalescence há exatamente t gerações é a probabilidade de não
coalescência pelas 1as t-1 gerações no passado seguida por um
evento de coalescência na geração t:
Amostrando dois genes ao acaso
probabilidade de não coalescência em t-1 gerações probabilidade de coalescência na geração t
A variância do tempo médio de coalescência de dois genes (σ2
ct)
é a média da espectativa de (t - 2Nef)2 :
O tempo médio de coalescência será:
Amostrando dois genes ao acaso
• Se n = 10, o tempo coberto por eventos de coalescência deve variar entre 0.0444Nef e 3.6Nef.
• Se n = 100, o tempo coberto por eventos de coalescência deve variar entre 0.0004Nef e 3.96Nef.
Não precisa grande amostra para inferir coalescências antigas, mas precisa de muitas para inferir coalescências recentes
Amostrando n genes ao acaso
Os tempos médios para a 1a e a última coalescência são:4Nef/[n(n-1)] e 4Nef(1-1/n)
Árvore de Coalescência
E(T5,4) = 2N/10 E(T2,1) = 2N gerações E(T3,2)=2N/3 E(T4,3)=2N/6 Tempo presenteTeoria da coalescência
Se µ << 1 e Prob (coal) << 1 DNA não replica e sofre mutação em uma geraçãoTempo
• Tanto para 2 quanto n- coalescências, o tempo médio de coalescência é proporcional a Nef enquanto a variância é a Nef2.
• O relógio molecular segue Poisson em que a média = variância. • O coalescente é um processo evolutivo irregular, com muita variação inerente que não pode ser eliminada por n maiores; é inato ao processo evolutivo e chamado de estocasticidade evolutiva.
A variância do tempo de coalescência de n genes é:
Amostrando n genes ao acaso
Experimento de Buri em deriva genética
Problema: Não há réplicas na maioria dos dados reais,
os eventos ocorreram apenas uma vez.
Tempo de fixação (coalescência) em 105
réplicas do mesmo processo evolutivo
Mutação cria
variação e
destrói ibd
Coalescência
com mutação
Coalescência antes da mutação
Mutação
Mutação antes da coalescência
Assumindo
µ
muito pequeno e N
efmuito grande
P de mutação e coalescência na mesma geração é baixa
Mutação e Coalescência:
Diversidade genética
= Heterozigosidade esperada
Com
µ
<< N
efpode ser simplificado para:
Mutação e Coalescência:
Diversidade genética
Árvores de Genes são genealogias de genes. Como cópiasdiferentes em loci homólogos estão relacionados pela ordem de eventos de coalescência.
Árvore de gene e árvore de haplótipos
Únicos passos que podemos “ver” são os marcados por eventos mutacionais
Árvores de Genes são genealogias de genes. Como cópias
diferentes em loci homólogos estão relacionados pela ordem de eventos de coalescência.
Árvore de gene e árvore de haplótipos
A esta árvore de mais baixa resolução chamamos de árvore de haplótipos ou de
alelos.
Árvore de haplótipo
Árvore de haplótipo -- Antigas e recentes
Dobzhansky & Sturtevant (1936): An Inversion Tree for Drosophila
Idealmente cada inversão ocorre apenas uma vez na árvore e a árvore minimiza o número total de mutações – Modelo de Alelos Infinitos
Idealmente cada inversão ocorre apenas uma vez na árvore e a árvore minimiza o número total de mutações -- Máxima Parcimônia
Máxima Parcimônia (e outros métodos) permite inferir estados de ancestrais extintos.
Árvore é enraizada com espécie relacionada que esteja filogeneticamente fora do grupo de interesse - Grupo externo.
Árvore de inversões não equivale sempre a árvore de espécies, ou populações - Polimorfismo Transpecífico.
Árvore de gene e árvore de haplótipos
Polimorfismo transpecífico (polimorfismo
ancestral, sorteamento de linhagem) – Quando
alguns dos haplótipos encontrados em uma espécie
são genealogicamente mais aparentados a
linhagens de haplótipos encontrados em outra
espécie do que a linhagens da própria espécie.
Árvore de gene e árvore de haplótipos
Polimorfismo transpecífico, ou polimorfismo
ancestral, ou ainda sorteamento de linhagem
Freqüência e topologia são misturadas. Mutação é mais provável em haplótipos comuns. Politomias e ramos pequenos são esperadas.
Modelo de Sítios Infinitos
1 2 3 4 5
Mutações
1 2 3 4 5 6Se
qü
ên
ci
as
7Cada mutação ocorre em um nucleotídeo diferente
LPL Has 10 Exons Over 30 kb of DNA on Chromosome 8p22 Sequenced 9,734 bp from the 3’ End of Intron 3 to the 5’ End of Intron 9 Sequenced:
24 Individuals from North Karelia, Finland (World’s Highest Frequency of CAD) 23 European-Americans from Rochester, Minnesota
24 African-Americans from Jackson, Mississippi Found 88 Variable Sites
Ignored Singleton and Doubleton Sites and Variation Due to a Tetranucleotide Repeat, but
Phased the Remaining 69 Polymorphic Sites by a Combination of Using Allele Specific
Primer Pairs and Haplotype Substraction The Phased Site Data Identified 88 Distinct Haplotypes
Genetic Survey of Lipoprotein Lipase
Ln-Likelihood ratio teste de homogeneidade = 99.8, 3 df, p = 1.75 x 10-7
Ln-Likelihood ratio teste de homogeneidade nas 3 classes mutáveis = 12.3, 2 df, p = 0.002
Análise de sítios altamente mutáveis
Type of Site # Nt # polym % polym p/ nt
CPG 198 19 9.6%
Mononucleotide runs > 5 456 15 3.3% Poly α arrest site ± 3
nucleotides [TG(A/G)(A/G)GA]
264 8 3.0%
All other nucleotides 8,866 46 0.5%
Região Tipo do Sítio 0-1 Homoplasias >2 Homoplasias 5’ e 3’ Altamente
mutável 11 14 Flanqueadora Todos os
outros 22 5
Sítios altamente mutáveis em
LPL e homoplasia
Recombinational
Hotspot Altamente mutável 3 7
Todos os outros 5 2 Todos Altamente mutável 14 21 Todos os outros 27 7 Fisher's Exact Test: P = 0.0013 sob a hipótese nula de homogeneidade Fisher's Exact Test: P = 0.0013 sob a hipótese nula de homogeneidade
ε4 ε3 ε2
Árvore de
haplótipos
da
Apolipo-protein E
Árvore de haplótipos da Apolipo-protein E
4036
Coalescente de
haplótipos de
Apo-protein E
ε4 Anos (x 105) ε2 ε3 9 16 6 27 2 28 1 14 29 30 12 13 17 20 5 31 3.2 1.6 0.0 0.8 2.4 3937 4075 5229B 624 308 3673 545 2440 3106 1998 1163 1522 3701 2907 471 4951 73Árvore de
haplótipos
da
Apolipo-protein E
560 560 560 560 560 560 1575 624 624 624 624 1522 5361 5361 5361 4951 4951 4951 832 832 2440 1998 3937 1998 5229B 4075 1163 4036 73 471 14 11 19 17 20 18 23 15 12 25 13 10 16 24 2 22 6 7 5 1 1575 560 624 624 21 26 4 3 31 3106 28 545 27 3673 308 29 3701 8 30 2907 9ε
3
ε
2
ε
4
Sítios 560 e 624 estão em uma repetição Alu
Modelo de Sítios Finitos
1 2 3 4 5
Mutações
1 2 3 4 5 6Se
qü
ên
ci
as
7Um conjunto finito de nucleotídeos são sujeitos à mutação e podem sofrer eventos mutacionais múltiplos
Uso de métodos não apropriados para estudos
intraspecíficos
Porque não apropriados: • baixa divergência • ancestral não está extinto • Politomia
• reticulação
Parcimônia estatística
Redes ou árvores que alocam homoplasia entre
haplótipos menos divergentes com probabilidade
menor do que 0.05 são eliminadas em favor de
outras que alocam tais homoplasias entre
haplótipos mais divergentes
Árvore genealógica
Em estudos intraspecíficos:
•NÃO esperamos que o ancestral esteja extinto; • Politomias são esperadas. Na verdade, politomias são PROVÁVEIS;
• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;
• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;
Podemos usar estas esperanças para resolver “loops” ou homoplasias nos dados
Árvore de haplótipos
Em estudos intraspecíficos:
•NÃO esperamos que o ancestral esteja extinto; • Politomias são esperadas. Na verdade, politomias são PROVÁVEIS;
• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;
• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;
Podemos usar estas esperanças para resolver “loops” ou homoplasias nos dados
Máxima parcimônia Parcimônia estatística
Árvore genealógica
Em estudos intraspecíficos:
•NÃO esperamos que o ancestral esteja extinto; • Politomias são esperadas. Na verdade, politomias são PROVÁVEIS;
• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;
• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;
Podemos usar estas esperanças para resolver “loops” ou homoplasias nos dados
Árvore de haplótipos
• Geralmente NÃO sabemos a raiz; • Alelos antigos tem mais chance de serem nós internos, ao invés de pontas (tips).
560 560 560 560 560 560 1575 624 624 624 624 1522 5361 5361 5361 4951 4951 4951 832 832 2440 1998 3937 1998 5229B 4075 1163 4036 73 471 14 11 19 17 20 18 23 15 12 25 13 10 16 24 2 22 6 7 5 1 1575 560 624 624 21 26 4 3 31 3106 28 545 27 3673 308 29 3701 8 30 2907 9
ε
3
ε
2
ε
4
Árvore de
haplótipos
da
Apolipo-protein E
Um único haplótipo pode ter segmentos de DNA que tiveram padrões de mutação e coalescência diferentes no passado. Não existe uma única história evolutiva para estes haplótipos recombinantes.
Quando a recombinação é comum e uniforme, mesmo a idéia de uma árvore de haplótipos torna-se biologicamente sem sentido.
Importante investigar sua presença!
A recombinação ocorre em todos os genótipos, mas muda o estado do gameta parental apenas em duplos heterozigotos.
A recombinação muda a fase de marcadores polimórficos. Para se detectar e estudar a recombinação, é essencial ter dados com fase conhecida (como haplótipos)
PROBLEMA: Queremos estimar os haplótipos e suas freqüências no pool gênico, mas não podemos observá-los em todos os indivíduos.
GENOTIPAGEM N HAPLÓTIPOS
POSSÍVEIS
A/A A/A T/T HOMOZYGOTE 21 AAT G/G A/A T/T HOMOZYGOTE 19 GAT A/A C/A T/T SINGLE HETEROZYGOTE 9 ACT/AAT A/G A/A T/T SINGLE HETEROZYGOTE 39 AAT/GAT A/G C/A T/T DOUBLE HETEROZYGOTE 9 ACT/GAT or AAT/GCT A/G A/A T/C DOUBLE HETEROZYGOTE 2 AAT/GAC or AAC/GAT A/G C/A T/C TRIPLE HETEROZYGOTE 1 ACT/GAC or AAT/GCC or
ACC/GAT or AAC/GCT
1a Solução: Subtração de Haplótipos (Clark, Mol. Biol. Evol. 7:
111-122, 1990).
GENOTIPAGEM N HAPLÓTIPOS
POSSÍVEIS
A/A A/A T/T HOMOZYGOTE 21 AAT G/G A/A T/T HOMOZYGOTE 19 GAT A/A C/A T/T SINGLE HETEROZYGOTE 9 ACT/AAT A/G A/A T/T SINGLE HETEROZYGOTE 39 AAT/GAT A/G C/A T/T DOUBLE HETEROZYGOTE 9 ACT/GAT or AAT/GCT A/G A/A T/C DOUBLE HETEROZYGOTE 2 AAT/GAC or AAC/GAT A/G C/A T/C TRIPLE HETEROZYGOTE 1 ACT/GAC or AAT/GCC or
ACC/GAT or AAC/GCT
Os haplótipos neste grupo são conhecidos!
1a Solução: Subtração de Haplótipos (Clark, Mol. Biol. Evol. 7:
111-122, 1990).
GENOTIPAGEM N HAPLÓTIPOS
POSSÍVEIS
A/A A/A T/T HOMOZYGOTE 21 AAT G/G A/A T/T HOMOZYGOTE 19 GAT A/A C/A T/T SINGLE HETEROZYGOTE 9 ACT/AAT A/G A/A T/T SINGLE HETEROZYGOTE 39 AAT/GAT A/G C/A T/T DOUBLE HETEROZYGOTE 9 ACT/GAT or AAT/GCT A/G A/A T/C DOUBLE HETEROZYGOTE 2 AAT/GAC or AAC/GAT A/G C/A T/C TRIPLE HETEROZYGOTE 1 ACT/GAC or AAT/GCC or
ACC/GAT or AAC/GCT
Os haplótipos neste grupo são conhecidos!
Tais haplótipos são também possibilidades em genótipos com fase ambígua
1a Solução: Subtração de Haplótipos (Clark, Mol. Biol. Evol. 7:
111-122, 1990).
GENOTIPAGEM N HAPLÓTIPOS
POSSÍVEIS
A/A A/A T/T HOMOZYGOTE 21 AAT G/G A/A T/T HOMOZYGOTE 19 GAT A/A C/A T/T SINGLE HETEROZYGOTE 9 ACT/AAT A/G A/A T/T SINGLE HETEROZYGOTE 39 AAT/GAT A/G C/A T/T DOUBLE HETEROZYGOTE 9 ACT/GAT or AAT/GCT A/G A/A T/C DOUBLE HETEROZYGOTE 2 AAT/GAC or AAC/GAT A/G C/A T/C TRIPLE HETEROZYGOTE 1 ACT/GAC or AAT/GCC or
ACC/GAT or AAC/GCT
Os haplótipos neste grupo são conhecidos!
A solução que inferir menos haplótipos novos será a preferida
2a Solução: Algoritmo EM (Estimation-Maximization)
(Templeton et al. Genetics 120: 1145-1154, 1988).
Estima probabilidades de várias fases de genótipos pelo uso das freqüências dos haplótipos em um modelo de Hardy-Weinberg.
2a Solução: Algoritmo EM (Estimation-Maximization)
(Templeton et al. Genetics 120: 1145-1154, 1988).
Estima probabilidades de várias fases de genótipos pelo uso das freqüências dos haplótipos em um modelo de Hardy-Weinberg. Repetir tal procedimento até que as freqüências estabilizem.
2a Solução: Algoritmo EM (Estimation-Maximization)
(Templeton et al. Genetics 120: 1145-1154, 1988).
Estima probabilidades de várias fases de genótipos pelo uso das freqüências dos haplótipos em um modelo de Hardy-Weinberg. Repetir tal procedimento até que as freqüências estabilizem.
2a Solução: Algoritmo EM (Estimation-Maximization)
(Templeton et al. Genetics 120: 1145-1154, 1988).
Nem tão bem resolvido quanto o algoritmo de Haplotype
Substraction.
Pode ser uma vantagem, e uma desvantagem.
3a Solução: Algoritmo Bayesiano (Stephens et al., Am J. Hum Gen.
68: 978-989,2001)
Divide the individuals into those with unambiguous haplotypes and those with ambiguous haplotypes. Unlike haplotype subtraction and like EM, ambiguous individuals always remain ambiguous (although the probabilities could become very small). Then:
1. Let G be the vector of genotypes and H(0) some initial guess of the vector of haplotypes
(just like EM).
2. Choose an individual, i, uniformly and at random (thus avoiding order effects) from the set of ambiguous individuals.
3. Sample Hi(t+1) from P(Hi|G,H-I(t))where H-I is the set of haplotypes excluding
individual i.
Go back to 2 and keep repeating until converge to a stationary distribution (they show this will always occur). Thus, you now have P(H|G).
However, where we do we get P(Hi|G,H-I(t))?
Como detectar eventos de recombinação em LPL
5NR 2JNR 70R 79R 7 8 13 20 29 31 33 56 53 5 65 25 7 8 13 16 11J 61 19 31J66 29 36 69 5 16 12 36J Branch "A"
{
Como detectar eventos de recombinação em LPL
α=3, β=5, κ=3, p =0.0179, crossover between sites 13 and 29.
1 10 20 30 40 50 60 69
2JNR CAGTTTCCCT CAGCACGATC GCAATTGCAC CTCAATGTAT AGTTGTAACC GAGTCCGCAT AACTATAGG
5NR CAGTTTATCT CACCACGATA GCAATTGCAC CTCAATGTAT AGTTGTAACC GAGTCCGCAT AACTATAGG
Node a CAGTTTATCT CACCACGATC GCAATTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG
α=2, β=7, κ=2, p =0.0278, crossover between sites 16 and 19.
Node d CAGTTTATCT CACCACGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG
11J CAGTATATCT CACCATGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG
Node e CAGTATATCT CACCATGAGC GCAATTGCAC TTTAA?GTAT AGTTGTAACC GAATCAGCAT CACTGGAGA
11J CAGTATATCT CACCATGATC GCAACTGCTC TTTAATGTAT AGTTGTAACC GAATCAGCAT AACTATAGG
Node e CAGTATATCT CACCATGAGC GCAATTGCAC TTTAA?GTAT AGTTGTAACC GAATCAGCAT CACTGGAGA
Distribuição de recombinantes em LPL
LD e recombinational Hotspot em LPL
Reich, D. E. et al. Nature Genetics 32, 135-142, 2002. “recombination 'hot spots' are a general feature of the human genome and have a principal role in shaping genetic variation in the human population.”
Recombinação cria novas fases em sítios polimórficos, que podem ser medidas por:
D = gABgab-gAbgaB
• D mede o grau de associação entre dois sítios naquela população
• D é criado por várias forças evolutivas e eventos históricos, inclusive a mutação.
Hardy Weinberg em 2 loci
Ou seja, evolução ocorre!
O equilíbrio é alcançado gradualmente, na taxa r. Informações históricas são medidas por D, que decai com o tempo.
Em loci com alta ligação pode persistir por grandes períodos.
Hardy Weinberg em 2 loci
Dt = D0(1-r)t
Existe a tendência de usar D como medida da proximidade na molécula de DNA Isto se justifica quando r >> µ
Quando r < µ ou r ≈µ ; o desequilíbrio está medindo proximidade no processo de coalescência.
ε4 ε3 ε2
Árvore de
haplótipos
da
Apolipo-protein E
O gene ApoE
Stengård et al. (1996)
mostraram que
substituições de amino
ácidos em ApoE tem
grande impacto na
mortalidade por doenças
coronarianas em um
estudo longitudinal.
0 1 2 3 4 5 6 7 CAD Mortality Relative to CAD Mortality of 3/3 3/3 3/4 2/4 & 4/4 0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471 545560462832 1163 15221575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01*Região Gênica da Apoprotein E
0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471545560 462832 1163 1522 1575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01*
Estes dois sítios estão em desequilíbrio
Região Gênica da Apoprotein E
560 560 560 560 560 560 1575 624 624 624 624 1522 5361 5361 5361 4951 4951 4951 832 832 2440 1998 3937 1998 5229B 4075 1163 4036 73 471 14 11 19 17 20 18 23 15 12 25 13 10 16 24 2 22 6 7 5 1 1575 560 624 624 21 26 4 3 31 3106 28 545 27 3673 308 29 3701 8 30 2907 9
Árvore de
haplótipos
da
Apo-lipoprotein E
560 560 560 560 560 560 1575 624 624 624 624 1522 5361 5361 5361 4951 4951 4951 832 832 2440 1998 3937 1998 5229B 4075 1163 4036 73 471 14 11 19 17 20 18 23 15 12 25 13 10 16 24 2 22 6 7 5 1 1575 560 624 624 21 26 4 3 31 3106 28 545 27 3673 308 29 3701 8 30 2907 9Estes haplótipos são T no sítio 832 e C
em 3937
Estes haplótipos são G no sítio 832 e T em 3937
Árvore de
haplótipos
da
Apo-lipoprotein
E
0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471 545560624283 1163 15221575 1998 2440 0729 3106 36733701* 393740364075 5149 5229A5229B5361
Sítio 3937 é um polimorfismo de a.a. que afeta a função de ApoE e infarto
Região Gênica da Apoprotein E
0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471545560 624283 1163 1522 1575 1998 2440 0729 3106 36733701* 393740364075 5149 5229A5229B5361
Sítio 3937 é um polimorfismo de a.a. que afeta a função de ApoE e infarto
Suponha que apenas esta região tenha sido sequenciada
Região Gênica da Apoprotein E
0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471 545560462832 1163 15221575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01*
Sítio 832 está associado na árvore de haplótipos com o sítio 3937
Região Gênica da Apoprotein E
Suponha que apenas esta região tenhasido sequenciada
Sítio 3937 é um polimorfismo de a.a. que afeta a função de ApoE e infarto
0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471545560 462832 1163 1522 1575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01*
Região Gênica da Apoprotein E
Sítio 832 pareceria com a maior associação com função de ApoE e infarto
Suponha que apenas esta região tenha sido sequenciada 0. 0.5 1. 1.5 2. 2.5 3. 3.5 4. 4.5 5. 5.5 E xon 1 Ex on 2 E xon 3 Ex on 4 73 30 8 471 545560462832 1163 15221575 9819 2440 2907 3106 3673 393740364075 4951 5229 A 52 29 B 53 61 37 01* Você seria capaz de inferir desta associação que o marcador mais perto do sítio funcional estaria aqui?
Região Gênica da Apoprotein E
Sítio 832 pareceria com a maior associação com função de ApoE e infarto
Suponha que apenas esta região tenha sido sequenciada