MAE0540-Genética de Populações
MAE5757-Métodos Estatísticos em
Genética e Genômica
Júlia Maria Pavan Soler
pavan@ime.usp.brMotivação
MAPEAMENTO DE “GENES” NAS POPULAÇÕES MUNDIAIS
Já vimos: “Genoma é um espaço estruturado”
Inferências sobre “Efeitos Genéticos” em dados gerados de delineamentos:
Estudos com indivíduos não relacionados e fenótipos quantitativos
Estudos Observacionais Caso-Controle
Estudos Observacionais com Famílias
Estudos de Expressão Gênica (Microarrays)
Delineamentos com Famílias
...
Amostragem de dados de famílias: oportunidade de coletar
simultaneamente dados de indivíduos correlacionados (parentes) e não correlacionados
Amostragem por Probandos: indivíduos que abrem a amostragem da família
Indivíduos parentes: compartilham grandes regiões genômicas em comum
Indivíduos não relacionados: compartilham regiões muito pequenas Probando
Fundadores
Delineamentos com Indivíduos Relacionados
Núcleos familiares dados de pares de irmãos
...
Núcleos familiares dados de trios (pai, mãe e filho)
...
Núcleos familiares dados de irmandades
...
Doenças genéticas raras: filhos afetados (casos) e pais livres da doença (controle)
Doenças genéticas raras ou comuns: gêmeos ou pares de irmãos
...
Famílias estendidas (grandes pedigrees)
Doenças complexas e comuns Doenças complexas e comuns
Mapeamento de Genes – Dados de Famílias
Delineamentos “ótimos”: para n fixo é melhor poucas famílias o mais extensas possível
3 núcleos familiares 15 pares de relativos
2 núcleos familiares 18 pares de relativos
1 núcleo familiar 27 pares de relativos*
2 núcleos familiares relacionados
30 pares de relativos
Exemplo: estudos de simulação mostram que (d) é mais poderoso* (a)
(c)
(b)
Dados de Famílias
Genes Compartilhados
i
Yi Yj
Cov ; ... Indivíduos Relacionados Grau de Parentesco Proporção IBDj
Aa aaIndivíduos Não Relacionados
Independentes
Proporção IBS mapeamento fino
ij
k
l
Aa
kl aaModelos Genéticos
|
|
Y
E Y X
Y
E Y X
Efeito Fixo Efeito AleatórioComponente Genético Estudos Caso-Controle e Delineamentos com cruzamentos controlados Delineamentos com populações naturais (famílias humanas)
Vamos ver modelos em que o componente genético é modelado
Modelos de Regressão para
Dados de Famílias
D2
:
2 1 M f fY
Y
D
D
fG
M
M fE
2|
ˆ
1 fY
Y
f 20
:
H
Teste do efeito do marcador (teste de ligação)Pedigrees Gerais Explorar a estrutura de Covariância
(Haseman-Elston, 1972)
Modelos para Pares de Irmãos:
Modelo de regressão sob premissas clássicas: Proporção ibd
Modelos de Regressão para
Dados de Famílias
2 1 2 1 f;
f f fY
S
Y
Y
Y
D
1 fY
Y
f 2Modelo de Haseman-Elston revisitado (Elston et al., 2000)
;
:
)
,
(
:
)
,
(
Y
f1Y
f1
2
D
S
2
)
(
2
0
0
)
(
2
12 2 12 2 2 12 12 2 12
DSe
S
D
S
D
e
S
e
D
Mf f f f f Mf S S f Mf D D f
ˆ
2
)
(
2
1
ˆ
ˆ
2 2 2 2 2 2)
(
2
1
)
(
2
1
S D S D
Ajuste com os dados “combinados”, cada indivíduo contribui com duas observações independentes no ajuste de regressão.
Modelos de Regressão para
Dados de Famílias
1
f
Y
Y
f2Modelo de Haseman-Elston revisitado (Elston et al., 2000)
e
Y
Y
S
D
e
S
e
D
Mf S D S D f f f f Mf S S f Mf D D f
ˆ
)
(
2
1
)
(
2
1
2
)
(
2
1
ˆ
ˆ
2 2 2 1 2 2 2 2 D2 , S2 , -2Y 12Y22
__ D __ S __ Método ponderado de Haseman-Elston: obter estimativas que são
combinações lineares das estimativas de D2 e S2 (Sam and Purcell, 2001)
Motivação para Delineamentos com grandes famílias e o uso do modelo misto poligênico neste caso, o efeito genético é modelado como “aleatório”.
Genética Quantitativa
ij j ijg
e
y
2 e ij ij dj aj j j ije
Var
y
Var
dX
aX
g
g
y
E
Efeito Fixo do Gene
ij j ij
g
e
y
2 2 2 2 2 d a g e g j ij ije
g
Var
y
Var
y
E
Efeito Aleatório do Gene
ef. aleatório ef. fixo ef. aleatório
Genética Quantitativa
ij j ij j ije
g
e
y
Efeito Aleatório do Gene
j
j
i
i
j
j
i
i
y
y
Cov
N
y
e
g
N
e
N
g
N
g
g j i ij e g ij ij j e ij g j j g j0
;
;
~
;
0
~
;
~
;
0
~
2 2 2 2 2 2
j
g
qq j j i Y | QQ j j i Y | qq
QQ
2
2 ; ~ | ; ~ e j ij g j j N j y N g
e
e
0
:
q q
Q q
Q Q
g2
H
QQ
qq
2 2 Y 2 1 Y 1 1 Y Y21 Qq
Ex. grupo: família, genótipoij j ij
g
y
2 2 2 2 2 2 2 2 2 2 2 2 2 1 11 1;
1
0
0
...
0
0
0
0
1
0
0
1
1
0
0
...
0
0
0
0
;
~
...
e g g Y g Y Y g g Y g g Y n n k nV
V
N
y
y
y
k
g
ij
e
j ij j N e N g e g ~ 0;
2 ~ 0;
2 Matriz bloco diagonal: correlação uniforme dentro dos grupos
Genética Quantitativa – Modelo de Efeitos
Aleatórios
0
:
A2
H
F.V. g l SQ QM F p
ENTRE(Tr) K-1 DENTRO(Res) N-K TOTAL N-1
2)
(
y
y
r
j
ij j ijy
y
)
2(
ij ijy
y
)
2(
SQE / (K-1) SQR / (N-K) QME / QMR
r s QM QMTr r QMTr E s QM E g g e e e Re ˆ ˆ Re 2 2 2 2 2
r k QMTr V r k r V Y g e ˆ ˆ ˆ ˆ ; 2 2 Tabela de ANOVA30 25
20
temp
Dados da Temperatura Corporal de Animais
animal 1 2 3 4 5
: Variabilidade da resposta dentro do cluster/família (homocedasticidade )
: Variabilidade da resposta entre as médias de resposta de cada família
2 A
2 e
FamíliaMedida biométrica em adultos
Y Y
YYˆ Y Yˆ Y
I X(XX)1X
Y YI PXYFonte de Variação
S.Q.
Modelo (Fixo)
Resíduo (Aleatório)
Total
X XX X
Y Y P Y Y Y Yˆ ˆ ( )1 X Y Y P Yˆ X Y Y e ˆ X CO Efeito Genético pode ser modelado como um componente
Modelo de Componentes de Variância –
Dados de Irmandades
2 2 2 2 ) ( ) ( 1 ... 0 0 ... ... ... 0 ... 1 0 1 ... 1 1 1 ... 1 1 ... ... ... 1 ... 1 1 1 ... 1 1 1 1 e g e n g n n f f f n n f f f f f f I Y Cov ... ... f f f fμ
X
β
g
e
Y
2
;
0
~
g ifN
g
2
;
0
~
e ifN
e
Ω
f
2
Φ
f
g2
I
f
e2 Matriz de relacionamento ) 2 / 1 ( 2 221 efeito poligênico Componente de erro
2 2 2 2 2 2 2 1 2 ; ; ij g g e g g ij Y jf if jf if ijf h h Y Y Cov Y Y Herdabilidade: proporção da variância de Y que é devido ao componente genético0
:
g2
H
F.V. g l SQ QM F p
Entre famílias F-1 Dentro (Resíduo) N-F TOTAL N-1
2)
(
y
y
n
f j
ij j ijy
y
)
2(
ij ijy
y
)
2(
SQE / (F-1) SQR / (N-F) QME / QMR
r QMD QME r QME E QMD E g g e e e 2 2 2 2 2 ˆ ˆ
r F QME V r F r V Y g e ˆ ˆ ˆ ˆ ; 2 2 Tabela de ANOVA nf=r : dados balanceados2 2 0 2 0 2
1
;
1
e w f f g e bF
N
S
E
F
N
n
N
n
n
F
S
E
F
N
S
n
F
S
n
F
N
S
F
S
n
F
N
S
w b g e Y w b g w e)
1
(
1
ˆ
ˆ
ˆ
1
ˆ
;
ˆ
0 1 0 2 2 2 1 0 2 2
Projeto Corações de Baependi, MG
Mapear “Genes” associados a fatores de risco cardiovascular na População Brasileira
Baependi, MG Área: 752km² Habitantes: 18.072
Amostragem em Multiestágios Longitudinal (2006-2012) Amostra: 1.712 indivíduos de 119 famílias
Tamanho das famílias: 21 26 Gerações: 2 - 4 Número de filhos: 3 2 Núcleos familiares: 631 Gênero: M(43,5%) F(56,5%) Número de filhos N ú m e ro d e n ú cl e o s fa m ili a re s 14 11 10 9 8 7 6 5 4 3 2 1 250 200 150 100 50 0 2 1 1 5 8 12 18 35 54 89 148 258 Tamanho da família Fr e q u ê n ci a 156 119 108 82 78 77 43 42 33 31 28 26 23 22 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 9 8 7 6 5 4 3 2 1 0 1 1 1 1 1 1 1 1 2 1 1 1 1 9 1 2 1 2 3 6 2 6 2 2 5 2 2 4 2 7 3 6
Projeto Corações de
Baependi (MG)
FASE 1 FASE 2 FASE 3 Seleção de S.C. Plano Amostral de Unidades Domiciliares por S.C. Levantamento da Estrutura Familiar Cadastro de Endereços B.D. de Estrutura Familiar FASE 4 Questionário de Anamnese Dados Clínicos Dados Laboratoriais Coleta DNA Armazenagem Banco de Dados Análise Herda-bilidade Poligênica Cadastro de Setores Censitários (IBGE) Critérios de Escolha Estratificação e SorteioPróximos Passos: Estudo Longitudinal (Set/2012)
Novos fenótipos, Diferentes Marcadores, Sequenciamento
IME/USP Dez/2005 Jan/2006 Genotipa-gem de SNPs Affyme-trics 6.0 Jan/2006 FASE 5 FASE 7 FASE 6
Projeto
Corações de
Baependi, MG
http://g1.globo.com/globo-reporter/noticia/2010/06/cidade -de-minas-ajuda-cientistas-na- busca-pela-causa-da-hipertensao.htmlEstatísticas Descritivas - Fenótipos
Total Masculino Feminino
Variável N Média DP N Média DP N Média DP
Idade (anos) 1664 44,10 16,95 722 44,69 17,49 942 43,65 16,52 Circunf. Abdominal (cm) 1646 87,44 12,47 715 86,84 11,56 931 87,91 13,11 Glicemia d jejum (mg/dl) 1609 93,73 29,65 699 93,14 26,45 910 94,18 31,89 Triglicérides (mg/dl) 1643 133,34 75,42 716 134,83 82,63 927 132,20 69,36 HDL-c (mg/dL) 1648 55,91 15,59 716 53,89 15,25 932 57,47 15,68 PAS (mmHg) 1660 126,81 19,38 721 130,33 18,74 939 124,10 19,44 PAD (mmHg) 1658 78,78 11,38 720 79,41 11,58 938 78,29 11,22 IMC (kg/m2) 1630 24,42 4,80 705 23,39 3,83 925 25,21 5,29
2 e f f
I
σ
Ω
Modelo Esporádico (sem efeito genético/correlação)
Modelo Poligênico: adicionar o efeito de um “poligene”
f
f f f fμ
X
β
e
e
N
0
Ω
Y
;
~
;
f f f fμ
X
β
g
e
Y
2
;
0
~
g ifN
g
2
;
0
~
e ifN
e
Modelos Lineares Mistos – Efeitos Genéticos
1
f n if fg
g
E Var(Y) Valor esperado de Y para a família f (covariáveis) 2 22
f g f e fΦ
I
Ω
Covariância: depende do graude parentesco Componente de variância residual C. V. residual e poligênico G E Var(Y)
1 2 3 4 5 6 7 1 1 0 ½ ½ ½ 0 ¼ 2 0 1 ½ ½ ½ 0 ¼ 3 ½ ½ 1 ½ ½ 0 ¼ 4 ½ ½ ½ 1 ½ 0 ¼ 5 ½ ½ ½ ½ 1 0 ½ 6 0 0 0 0 0 1 ½ 7 ¼ ¼ ¼ ¼ ½ ½ 1
2
Modelo Linear Misto Poligênico
r ij 2 1 2
r: grau de parentesco 1 2 3 4 5 6 7 Família f Para o cálculo é necessário conhecer a estrutura familiar
f
f
j
i
f
f
j
i
y
y
Cov
g r f j if0
;
2 2 1
f f f fμ
X
β
g
e
Y
2 22
f g f e fΦ
I
Ω
Heredogramas Arquivos PED relacionamento Matriz de Matriz de variâncias e covariâncias 2 2 81 2 1 ... 2 ... 2 2 e g
1 1 0 1 0 1666x1666 1666x1666Modelo Linear Misto Poligênico
e
g
X
Y
j j j
efeitos aleatórios Poligene e Resíduo Covariá veis Resí duo Var(Y) Poli-gene fenótipo0
:
0
:
2 1 2 0 g
H
g
H
2 2 2 2 e g g gh
efeitos fixos covariáveis
22
|
;
jf ij g ifY
X
Y
Cov
Y
|
X
2g e2;
Var
|
;
j j jX
X
Y
E
Teste do Efeito Poligênico:
Herdabilidade Poligênica
(coef. de correlação intra-classe) Parâmetro de Interesse:
Modelo Misto Poligênico
Testes de Hipóteses sob o modelo Poligênico:
Estatística Razão de Verossimilhanças (sob modelo Normal)
0
:
2 0 g
H
ln
ˆ
ln
0
2
L
L
~ Mistura 2 1 2 0 2 1 2 1
10 ln 2 log ˆ log 10 10 0 L L LOD Modelo Esporádico ModeloPoligênicoEstatística Lod Score:
Rejeição de H0
herdabilidade poligênica significante Interesse em identificar “genes” candidatos
(Almasy and Blangero, 1998; de Andrade et al., 1999)
2 2
2 ; ~ n f f g n e f N f I f Y
Y
n
Y
Y
L g2 e2 f f f 1 2 1 ln 2 1 2 ln 2 1 | , , lnProjeto Corações de Baependi
Herdabilidade de Variáveis Cardiovascular na “População Brasileira”
Covariáveis
Fenótipo Herdabilidadea % Covar Sexo Idade Idade² Sex*Idad Ant-Hipert Hipoglic n
Var. Quantitativas CIRCABD* 0.3924022 0.2128177 x x x x x 1666 CHDL* 0.3502449 0.0220878 x x 1661 GLICOSE 0.2895079 0.1412034 x x x x x 1622 TRIG* 0.2798660 0.1157518 x x x x 1655 mediaPAS* 0.2202316 0.3416865 x x x x x 1680 mediaPAD* 0.2099344 0.1938822 x x x x x 1678 Var. de Controle Idade 0.0618386b 0.2777962 x x x 1685 Altura 0.8248354 0.5837355 x x 1669
*: transformação logarítmica (base 10) Significância: a (p<0,000) b (p = 0.010)
Modelo Misto Poligênico
Padrão de heterogeneidade genética:
Note que os valores médios associados às famílias variam ao redor da média geral (linha
horizontal),sugerindo
heterogeneidade entre famílias e correlação dentro de família
(em geral, as famílias estão abaixo ou acima da média)
Valores de ln(SBP) são mostrados para cada família (ordenadas de acordo com sua média)
Dados: Famílias de Baependi
26 , 0 ˆ ˆ ˆ ˆ 2 2 2 2 e g g g h
2 4 6 8 10 120 125 130 135 140 Family Y Max Mean Min
Modelo Misto Poligênico
Dados Simulados
Cenário 1 2 4 6 8 10 120 125 130 135 140 Family Y Max Mean Min Cenário 2Indicação dos valores mínimo,máximo e média das respostas das famílias.
Modelo Misto Poligênico
f f f fμ
X
β
g
e
Y
2
;
0
~
g ifN
g
2
;
0
~
e ifN
e
Ω
f
2
Φ
f
g2
I
f
e2 f f f f fμ
X
β
Z
e
Y
2
2
2
;
0
~
;
2
;
;
0
~
f g f f f f f f f g fN
I
Z
Z
g
Z
N
Formulações alternativas:
2 22
f g f e f fY
Cov
Ω
Φ
I
Modelo Misto Poligênico
Formulações alternativas: Modelo misto poligênico para dados de trios (pai, mãe e filho)
2
3 3 2 1 2 1 2 1 2 1 ; 0 ~ ; 0 1 0 0 0 1 g f f f f N I Z
g
f f f f f f f f f f f f f Z N Z Z g g g g ~ 0;2 2 ; 2 3 2 1 2 2 1 1 2 1 2 1 3 2 1 f f f f f f f f f f f f f f f f f e g e y e g e y e g e y 3 3 3 3 2 1 2 2 1 1 2 1 2 2 2 2 21 2 1 1 1 1 1 1 2 / 1 2 / 1 2 / 1 1 0 2 / 1 0 1 2 fModelo Linear Misto
Poligênico
Oligogênico (Efeito Aleatório)
Matriz IBD estimada de dados do Mapa de Marcadores f f f f f
μ
X
β
q
g
e
Y
1
efeitos aleatórios: “gene” poligene ambiente
Matriz de Parentesco
Y
f iY
f i
Cov
;
2 2 2 e g q
2 22
ii g q i i
i
i
i
i
2 2 22
g f e q f
I
“gene”” Resí duo Var(Y) Poli-gene 2: estimada dos dados familiares Componentes variância: QTL, Poligene e Resíduo1 2 3 4 5 6 7
0 , 1/2 ,1
2 , 1 , 0 2 / 7 7 ij j i j i k k
Matriz IBD (Proporção IBD)
Estrutura de Covariância
Família f
Proporção de alelos idênticos por descendência: cálculada dos dados de genótipos 2 2 2
2
g f e q f
I
f f j i f f j i j i y y Cov g ij q ij e g q f j if 0 2 ; 2 2 2 2 2
1 2 3 4 5 6 7 1 1 0 ½ ½ ½ 0 ¼ 2 0 1 ½ ½ ½ 0 ¼ 3 ½ ½ 1 ½ ½ 0 ¼ 4 ½ ½ ½ 1 ½ 0 ¼ 5 ½ ½ ½ ½ 1 0 ½ 6 0 0 0 0 0 1 ½ 7 ¼ ¼ ¼ ¼ ½ ½ 1 2 Matriz de Relacionamento1 2 3 4 5 6 7
Estrutura de Covariância
Família f 2 2 22
g
q
I
e
2 2 81 2 1 2 81 2 1 ... ... 2 ... 2 2 e q g
1 1 0 1 0 0Matrizes bloco diagonal: os blocos modelam as covariâncias entre indivíduos relacionados. Fora da diagonal os valores são nulos, isto é, não supõe-se covariância entre as respostas de indivíduos não relacionados.
Modelos Lineares Mistos Genéticos
f f fX
e
Y
f f f fX
g
e
Y
f f f f fX
q
g
e
Y
1
Poligene Resi duo Var(Y) Residuo Var(Y) “gene” Resi duo Var(Y) Poli-gene Modelo EsporádicoModelo Poligênico (Dados de Famílias): estimar herdabilidade poligênica
Modelo Oligogênico (Dados de Famílias e de
Estratégia de Análise
Modelo e2 g2 q2
Esporádico e2 0 0
Poligênico e2 g2 0
1 QTL e2 g2 q2
Testar o Efeito Poligênico: H0 :
g2 0 Testar o Efeito do Oligogene H0 :
q2 0
2 1 2 0 2 2 1 2 0 2 1 2 1 ~ , , , , , ln 2
e g e g L L ERV
2 2 2 1 2 2 2 1 2 2 0 2 1 2 1 ~ , , , , , , , ln 2
e q g e g q L L ERV Testar o efeito do “gene” para muitas posições no genoma
Gráfico de Perfis da
Estatística RV
Modelo Oligogênico
Dados do Gaw 12 - Microsatélites
24 famílias 1000 Indivíduos Fenótipo Q1 Chr 19: 42 Marcadores Microsatélites c 10-4 300 posições QTL 0 : 2 0 q H
Modelos Lineares Mistos Genéticos
f f f f fX
q
g
e
Y
1
“gene” Resi duo Var(Y) Poli-geneModelo Oligogênico (Dados de Famílias e de Marcadores)
Para dados de Famílias e marcadores do tipo Microsatélite (grandes regiões genômicas) o ajuste de modelos lineares mistos que consideram o efeito do “gene” como aleatório tem identificado marcadores significantes para algumas doenças complexas e validado (V+).
1. Contudo, a identificação de grandes regiões significantes (QTLs: Quantitative Trait Loci) requer o refinamento destas para se encontrar o nucleotídeo causal (QTN: Quantitative Trait Nucleotide). 2. Além disso, tal estratégia de análise não deve mapear variantes
comuns (no nível de um nucleotídeo) .
Mapeamento de Genes via Dados de
Famílias e SNPs
e
g
X
X
Y
f
f
f SNP
SNP
2 2
2
;
~
f f SNP SNP g e fN
X
X
V
I
Y
Efeito do poligene Efeito do resíduo Efeito do SNP (Fixo) Efeito de covariáveis0
:
0 SNP
H
Testar o efeito de cada SNP via o modelo poligênicoProblemas:
Grande esforço computacional: teste de cerca de 106 SNPs
Correção para múltiplos testes (F+)
Efeito individual do SNP é pequeno (muitos F-) análises multilocos
SNP: Efeito fixo, modela E(Y)
SNPs são compartilhados pela população geral não explicam correlação familiar e por isso são modelados como fator fixo no modelo linear misto
Mapeamento de Genes em Dados
de Famílias
0 : ; 0 μ XSNPjβSNPj g e H SNPj Y Mapeamento de Genes da Obesidade Truncal (circunferência abdominal)
Gráfico Manhattan
F+
Mapeamento de Genes: Famílias e SNPs
Alternativa: Análise em Multiestágios – Efeito Fixo do SNPPasso 1: Modelo Misto Poligênico e Cálculo dos Resíduos Condicionais (sem usar dados de SNPs) (Aulchenko et al., 2007)
Passo 2: Modelo de Regressão para cada SNP (Y=Resíduo) e Seleção de SNPs if if if if
X
g
e
Y
2 2 2 f g f e f I
X
g
i
n
y
e
r
i
ˆ
i
i
ˆ
i
ˆ
ˆ
i
1
,
2
,...,
610
,...,
2
,
1
;
X
j
r
i
SNPj ij
i0
:
0 SNPj
H
Seleção de um subconjunto de SNPs de efeitosignificante ( corrigido)
k
j
e
g
X
X
Y
i
i
SNP*j ij
i
i,
1
,
2
,...,
efeito de covariáveis efeito do poligenesob premissas clássicas
Mapeamento de Genes: Famílias e SNPs
Solução de Aulchenco et al., 2007: - o efeito do SNP é considerado fixo
- necessidade de correção do efeito de estrutura de populações
- restrito ao efeito do SNP associado ao componente do erro/residuo Soluções alternativas: Yang et al. 2011 - GCTA
- o efeito de múltiplos SNPs é considerado como aleatório
- não há necessidade de corrigir para estrutura de populações - exclui indivíduos “altamente” relacionados (por declaração)
;
e
g
X
Y
SNPs
2 2
;
~
N
X
V
A
SNPs SNPsI
eY
K j j j j j i j ij iip
p
p
g
p
g
K
A
1 ´ ´1
2
2
2
1
Matriz de relacionamento calculadaa partir de dados de genótipo de SNPs (gij=0,1,2; gij ~Bino[2;pj] )
0
:
20
Como Mapear CV e RV?
Decomposição do Efeito do SNP
2
| 2 | 2 ; ~ f f SNP SNP g SNP eSNP f N X X V I Y
SNPe e SNPg g SNP
ˆ
ˆ
ˆ
Duarte (2012, Tese/IME-USP) e Souza (2012, Mestrado/IME-USP):
mostraram que a análise de Aulchenko é restrita ao resíduo condicional e não leva em conta a contribuição do efeito aleatório ao SNP.
Componente poligênico
Componente residual
Usando a Teoria da Variável Adicionada, pode-se comparar os modelos reduzido e completo e obter uma partição do efeito do SNP associado a cada componente aleatório do modelo.
2 2
2 ; ~ f g e f N X V I Y
Como Mapear CV e RV?
Decomposição do Efeito do SNP
2
| 2 |2
;
~
f f SNP SNP g SNP eSNP fN
X
X
V
I
Y
SNPe e SNPg g SNP
ˆ
ˆ
ˆ
SNPgF gF SNPg g SNPg
ˆ
1ˆ
1
...
ˆ
Decomposição do efeito do SNP nos componentes poligênico e residual
Contribuição de cada família ao efeito poligênico do SNP
g SNPg gF SNPgF
e SNPe SNPe e SNPg g SNP ˆ ˆ ˆ 1 ˆ 1 ... ˆ ˆ Famílias de Baependi: Efeito do SNP (dados simulados)
Família 30 efeito do SNP está em aumentar a pressão sistólica
(indicação dos indivíduos que usam medicamento (preto) e carregam 2 cópias do alelo de risco (rosa))
Famílias de Baependi: Efeito do SNP (dados simulados)
Família 16: 116 indivíduos (dados não apresentados)
Família 61: Efeito do SNP está em reduzir o valor da pressão sistólica
(indicação dos indivíduos que usam medicamento e carregam 2 cópias do alelo de risco)
GAW 17: Dados de Famílias e SNPs
SNP C4S1884: efeito do SNP __
efeito poligênico do SNP .... efeito residual do SNP ----
Decomposição do efeito poligênico para cada família: famílias caudais recebem baixo “peso”
GAW 17: Dados de Famílias e SNPs
SNP C13S320 (F-): efeito do SNP __
efeito poligênico do SNP .... efeito residual do SNP ----
Decomposição do efeito poligênico para cada família: famílias caudais recebem baixo “peso”
GAW 17: Dados de Famílias e SNPs
SNP C13S321: efeito do SNP __
efeito poligênico do SNP .... efeito residual do SNP ----
Decomposição do efeito poligênico para cada família: famílias caudais recebem baixo “peso”
Dados de Famílias e Decomposição do
Efeito de SNPs
Análise de Famílias Influentes para os dados de cada SNP:
gFM gF gF M g g g M g g g
ˆ ... ˆ ˆ ... ˆ ... ˆ ˆ ˆ ... ˆ ˆ 2 1 2 22 21 1 12 11 Coeficientes de regressão poligênicosDesafio: encontrar padrões!
M
j
e
g
X
X
Y
f
f
f SNPj
SNPj
;
1
,
2
,...,
g SNPg gF SNPgF
e SNPe SNPe e SNPg g SNP ˆ ˆ ˆ 1 ˆ 1 ... ˆ ˆ Entendendo a Variabilidade Genética nas
Populações Mundiais
AA 112 AA 115 aa 110 aa 115 Aa 130 Aa 129 AA 139 Aa 128 AA 110 Aa 149 AA 150 Aa 141 AA 119 Aa 150 AA 145 aa 120 AA 139 AA 119 Aa 150Como Pesquisar o Genoma?
ou
Microsatélites SNPs
Dilema do Especialista e do Generalista:
“é melhor conhecer um pequeno número de grandes verdades ou um grande número de pequenas verdades?”
Dados de Famílias e Estudos Caso-Controle
Lições Aprendidas e Desafios que Permanecem
Estudos com Famílias e mapas de microsatélite têm identificado QTLs com sucesso identificar as variantes genômicas na região candidata
O refinamento de QTLs em QTNs pode ser feito com dados de SNP na região candidata SNPs são variantes comuns. O que dizer sobre as variantes raras que podem estar nos QTLs ?
Estudos com Famílias e mapas de SNPs: o poder dos testes estatísticos para detectar “sinais” significantes é baixo devido aos múltiplos testes e ao efeito individual do SNP ser pequeno Como combinar efeitos de SNPs de forma a capturar toda a informação de indivíduos relacionados (variantes raras) e não relacionados (variantes comuns)? Além disso há o efeito de F+ e F- devido à estrutura de populações.
Estudos Caso-Controle e mapas de SNPs: problemas de múltiplos testes, efeito individual do SNP é pequeno, controle do efeito estrutura de populações, identificação de RV.
L j QTNj QTL 1 2 2 Estudos de Associação
Amostragem dos Indivíduos de P
Amostragem do
Genoma dos Indivíduos
Controle de Qualidade Estrutura de População Análise de Associação Validação
Processamento dos dados de SNP (Genotype calls, batch/plate effects), observações
faltantes, análise de concordância com popul. externas (HapMap), MAF, teste do Eq-HW , teste Eq-Ligação, região HLA
Análise Unilocos (preliminary)
Análises Multilocos (haplótipo, epistasia) Combinando diferentes plataformas (QTL, QTN, eQTL, eQTN, …)
Ancestral P1 Ancestral P2 Ancestral P3
Indivíduos Miscigenados: cromossomos com blocos das populações
ancestrais possibilidade de novos “genes” (cuidados com confundimentos)
Today
Estrutura de Populações
Análise de Associação Ajustadas (corrigidas) para efeitos de confundimento devido à história ancestral da população
Marcador (X) (SNP)
Fenótipos
Variáveis de interesse (Y)
Ancestria Mapeamento
Genético
1.SNPs associados à ancestria (maior prevalência em um grupo) 2.Prevalência de fenótipos estão associados à ancestria
Mapeamento genético pode conter resultados falsos (F+, F-)
Ancestria é desconhecida (impossibilidade de aleatorizar o fator de confundimento para controlar seu efeito)
Efeito da Estrutura de Populações em Dados
de Famílias e SNPs
Para dados de famílias a estrutura de
população induz ao confundimento?
Como controlar este possível efeito? Como calcular os Componentes Principais dos SNPs levando em conta a estrutura de correlação familiar? orientais nativos americanos europeus africanos
Análise de dados de indivíduos
independentes de 11 populações HaMap e
da Brasileira (“140 indivíduos)
Ancestralidade Local da População
Brasileira (CEU e YRI)
Indivíduo 1 – Cromossomo 1 (Giolo et al., 2011; Price et al., 2009) Uso de dados de indivíduos não relacionados. Alguns autores sugerem mapear “genes” com base nos coeficientes de ancestralidade local (Winkler et al., 2010)
Ancestralidade Local da População
Brasileira (CEU e YRI)
Indivíduo 1 – Cromossomo 2 Admixture Mapping (Mapeamento por ancestralidade):
Variantes causais da doença são mais frequentes em
segmentos de DNA derivados de
populações parentais com maior incidência da doença.
Dados de famílias: há desafios analíticos!
Coeficientes de Ancestralidade Global
SNPs e Dados de Família
2 , 1 , 0 ; ij ij M N g g G Indiv SNP1 SNP2 ... SNPj ... SNP M 1 g11 g12 ... g1j ... g1M ... ... i gi1 gi2 ... gij ... giM ... ... ... N gN1 gN2 ... gNj ... gNM Estrutura de família Análise de Componentes Principais (CP) clássica não é apropriada
ij M N x X
ij N M
ij M N g X x G padronização
ij F M n ij F M n g X x G : dados de famílias (indiv. Relacionados)
Coeficientes de Ancestralidade Global
SNPs e Dados de Família
SNPRelate software: calcula os Componentes Principais para indivíduos
relacionados a partir dos dados de fundadores (análise ajustada).
F k M M N k N k F F F k M F M k k F k n F M n M N V X PC U X V V U X X 2 / 1 2 / 1
Assume que os indivíduos relacionados são uma
amostra aleatória simples (AAS) de todos os fundadores!
Matriz de autovetores associada aos k primeiros autovalores não nulos
considerando dados dos Fundadores
F f f e N g f K N NK e N g f N K N fN
N
I
F
f
Diag
N
Y
F
f
I
N
Y
f f f 1 1;
2
;
1
,...,
;
1
~
,...,
1
;
2
;
1
~
´
1
1
2
f f N N f
Considere Yf a matriz de genótipos (padronizados) para um
subconjunto de K SNPs avaliados em N indivíduos de F famílias:
: para dados de irmãos
Ancestralidade Global
?
ˆ
?
ˆ
e g
Máxima verossimilhança (ML): Lange et al. (2001, 2006)
Máxima verossimilhança restrita (REML): Roy and Khattree (2005), McCullach and Searle (2002)
Estimação não-viciada de mínima variância (MINVQUE): Rao (1971), Swallow and Searle (1978), Henderson (1985).
ANOVA: Swallow and Monahan (1984), Searle (1992) e Konishi and Rao (1992) para modelos ANOVA com um fator aleatório e dados não-balanceados (delineamentos com dados de irmãos); Oualkacha et al. (2012) estendeu os resultados considerando modelos lineares mistos multivariados (delineamentos com famílias estendidas).
Modelo de CV Multivariado – Estimadores
Pedigrees Gerais
(Oualkacha et al., 2012)
)
/(
)
(
)
1
/(
)
/
(
)
/(
)
1
/(
ˆ
F
N
F
N
F
N
S
F
S
c a b c w b A g
g c a w A eF
N
S
F
N
ˆ
)
(
)
(
)
(
1
ˆ
f f f f f f f N j N k jk f b f a F f b f c F f b b F f a a F f fTrace
N
N
N
1 1 1 1 1 12
,
2
1
,
,
,
Estimadores via Manova: Sb e Sw são matrizes de SQPC entre e dentro de famíliasF.V. g. l. SQPC
Entre famílias F-1 Dentro (Resíduo) N-F TOTAL N-1
f j j f p p bn
y
y
y
y
S
( )(
)(
)
Tabela de MANOVA
ij j ij j ij p p wy
y
y
y
S
( )(
)(
)
ij ij ij p p Ty
y
y
y
S
( )(
)(
)
Matrizes de soma de quadrados e produtos cruzados
As estimativas de g e e podem ser “não” positiva (semi)definida, muitas vezes devido a n<<p. Pode-se usar aproximações para corrigir este problema
(Rebonato e Jackel, 2000) ou ainda usar estimadores regularizados (Rothman, Levina e Zhu, 2010; Bien e Tibshirani, 2011).
)
/(
)
(
)
1
/(
)
/
(
)
/(
)
1
/(
ˆ
F
N
F
N
F
N
S
F
S
c a b c w b A g
/
/
1
:
Konishi(19
93)
)
/(
)
1
/(
ˆ
)
2012
(
2
N
N
F
N
F
N
S
F
S
Oualkacha
f w b A g
f f f f f f f N j N k jk f b f a F f b f c F f b b F f a a F f f Trace N N N 1 1 1 1 1 1 2 , 2 1 , , ,
2;
1
1
2
f f f
c
aN
bN
fModelo de CV Multivariado – Estimadores
Oualkacha et al. (2012)
Correção para Estrutura de População
Y
f f f f gI
Nf e g eCov
2
;
g g g g g b gb
b
b
b
PC
g´
ˆ
´
max
1
h e h h g h b hb
b
b
b
PC
e h
´
ˆ
ˆ
´
max
1 e e e e e b eb
b
b
b
PC
e´
ˆ
´
max
1
: direção com max variação entre famílias
: direção com max var. dentro das famílias
: direção com max var. entre e min var. dentro
e
g j j PP
I
P
PCH
j
max
´
ˆ
1ˆ
1
uso de PC penalizadoElipse vertical: corresponde à variabilidade dentro das famílias Elipse maior: corresponde à variação entre famílias
=0:: solução não penalizada do PCH
=: solução do PCH próxima à solução para g.(maximização entre famílias)
(Wang, 2007)
Análise de CP Clássica Decomposição de
Famílias de Baependi
Análise de CP para dados de famílias
PC1 da matriz de correlação poligênica Rg : baixa correlação intraclasse
PCg (Rg)
o Família 5: homogênea o Família 60: heterogênea