Explorando a Flexibilidade do Modelo Linear Misto
-Aplica¸c˜
oes no Mapeamento de Genes
Nubia Esteban Duarte1
Suely R. Giolo 2
Mariza de Andrade3
Julia M. Pav´an Soler4
1INCOR-USP 2
UFPR
Conte´
udo
Introdu¸c˜
ao
Formula¸c˜
ao do modelo misto Poligˆ
enico
Decomposi¸c˜
ao do estimador do efeito fixo
Pr´
atica no R
´Indice para discriminar vari´aveis preditoras
´Indice para discriminar fam´ılias influentes
Introdu¸c˜ao
Motiva¸c˜ao
A motiva¸c˜
ao para a formula¸c˜
ao das metodologias
estat´ısticas propostas decorre da necessidade na
literatura de se explorar a flexibilidade do modelo
linear misto no mapeamento gen´
etico.
Sendo esta uma ´
area de interesse na an´
alise estat´ıstica
de dados genˆ
omicos de alta dimens˜
ao e ´
util para
Metodologias Estat´ısticas
Modelo Misto (Verbeke e Molenberghs, 2000)
O modelo misto pode ser escrito em forma matricial como segue:
Y
=Xβ +
Zγ + .
(1)com Y = (Y>1, ..., Y>c)>, X = (X1>, ..., X>c)>, Z = diag(Z1, ..., Zc),
γ = (γ1>, ..., γ>c)> e = (>1, ..., >c)>,
Comunmente, assume-se que E [γ] = 0 e E [] = 0, com matriz de covariˆancia Cov γ = ∆ 0cq×n 0n×cq Σ ,
onde ∆ e Σ s˜ao matrizes positivas definidas de ordem cq e n
(n =Pc
i =1ni), as quais correspondem as matrizes de covariˆancia dos
Metodologias Estat´ısticas
Tomando ξ = Zγ + , tem-se o modelo marginal
Y = Xβ + ξ, (2)
onde E [ξ] = 0 e Var [ξ] = V = Z∆Z>+ Σ.
Se ∆ e Σ s˜ao conhecidas, ent˜ao o modelo marginal ´e o modelo com
matriz de pondera¸c˜ao V−1.
Pode-se escalar ∆ e Σ supondo ∆ = σ2D e Σ = σ2R, onde R e D s˜ao
matrizes positivas definidas.
Portanto, V = (ZDZ>+ R)σ2. Para o caso de homocedasticidade,
Metodologias Estat´ısticas
Definindo M como M = σ2V−1= (ZDZ>+ R)−1, segue que
M−1 = (σ2)−1V = (ZDZ>+ R). (3)
Tamb´em, define-se a matriz Q como
Q = M − MX
X>MX −1
X>M = (I − P) M,
com as seguintes propriedades, QM−1Q = Q and QX = 0, onde
P = X X>MX−1X>M.
Essas duas matrizes, M−1 e Q, ser˜ao muito importantes no
Metodologias Estat´ısticas
Modelo Misto Poligˆenico (Amos, 1994; Almasy and Blangero, 1998)
Yf = Xfβ + gf + ef, f = 1, ..., F , (4)
Yf → Vetor que representa a vari´avel resposta.
Xfβ → Matrix de efeitos fixos.
gf → representa o efeito gen´etico exercido sobre Y.
ef → representa os efeitos residuais.
gf e ef s˜ao n˜ao correlacionados, com distribui¸c˜ao normal, com m´edia zero
e variˆancia σ2g e σ2e, respectivamente.
Sendo 2Φ a matriz de relacionamento entre indiv´ıduos, a matriz de covariˆancia ´e V: V = 2Φσg2+ Iσ2e = σy2 2Φh2g + Ihe2 , (5) h2g = σ 2 g σ2 e h2e = σ2 e σ2
Metodologias Estat´ısticas
Matriz de parentesco
Coeficiente de relacionamento φij = (1/2)r (grau de parentesco). 2Φ = 1 0 12 12 0 12 14 14 14 1 1 2 1 2 0 1 2 1 4 1 4 1 4 1 1 2 0 1 2 1 4 1 4 1 4 1 0 12 14 14 14 1 0 1 2 1 2 1 2 1 12 12 12 1 1 2 1 2 1 12 1 , (6)Metodologias Estat´ısticas
Herdabilidade (coeficiente de correla¸c˜
ao intraclasse):
Define-se como a propor¸c˜
ao da variˆ
ancia total que ´
e
devida a componentes gen´
eticos.
h
g2=
σ
2 gσ
2 g+ σ
e2.
Se h
g2for pequena, pode-se inferir que a vari´
avel resposta
Metodologias Estat´ısticas
Figura: Arquitetura Gen´etica de doen¸cas.
Existem ao menos dois tipos de efeitos gen´
eticos:
Popula¸c˜
ao (variantes comuns)
⇒
modelam E [Y ],
Fam´ılias (variantes raras)
⇒
modelam Cov [Y ].
Y = E [Y |X ] | {z }
Efeitos fixos
+ [Y − E [Y |X ]] | {z }
Efeitos aleat´orios
Metodologias Estat´ısticas
Metodologias Estat´ısticas
Codifica¸c˜ao dos SNPs como vari´aveis preditoras
SNPj =
2, se o indiv´ıduo ´e homozigoto AA,
1, se o indiv´ıduo ´e heterozigoto Aa, 0, se o indiv´ıduo ´e homozigoto aa .
(8)
Metodologias propostas
Metodologias propostas
Considerando o modelo misto poligˆenico dado em 4
Yf = Xfβ + gf + ef, f = 1, ..., F ,
O objetivo ´e particionar o efeito de um SNP em duas componentes
associadas com gf e ef usando a teoria associada ao Gr´afico da
Vari´avel Adicionada.
Formular um crit´erio de sele¸c˜ao de vari´aveis preditoras. Propor um ´ındice para detectar fam´ılias influentes.
⇒ Avalia¸c˜ao da metodologia nos dados simulados do Genetic
Metodologias propostas
Gr´afico da Vari´avel Adicionada em modelos mistos (Hodges, 1998;
Hilden-Minton, 1995) Y = X1β1+ XSNPβSNP + ; = g + e, (9) Estimativa do efeito do SNP ˆ βSNP = XSNP> V−1XSNP −1 XSNP> V1−1Y (10) Y = X1β1+ , = g + e ⇒ r2(residuos) (11) XSNP = X1β1∗+ ∗⇒ r1(residuos) (12)
Metodologias propostas
O efeito da vari´avel adicionada pode ser escrito em fun¸c˜ao dos res´ıduos, r 1 e r 2 ˆ β2 = X>2Q1X2 −1 X>2Q1Y (13) = r1>r1 −1 r>2r2, (14)
Portanto, ˆβ2 pode ser interpretado como o estimador de m´ınimos
quadrados (ordin´arios) do coeficiente angular.
Var ˆβ2 = (r1>r1)−1σ2 Plot r2× r1 → ˆβSNP
Metodologias propostas
Decomposi¸c˜ao do Gr´afico da Vari´avel Adicionada (Hilden-Minton,
1995; Nobre, 2004). Y = X1β1∗+ XSNPβSNP + (15) = X1β1∗+ XSNPβSNP + g + e. (16) r 1 =r1g r1e , r 2 = r2g r2e . Plots r2g×r1g → ˆβSNPg , r2e×r1e → ˆβSNPe .
Metodologias propostas M−1 = B>B B = R1/2 D1/2Z> . (17)
B pode ser particionada em matrizes associadas ao componente residual (R) e ao efeito aleat´orio (D).
ry = BQ1Y = R1/2Q 1Y D1/2Z>Q 1Y = R−1/2(Y − X 1βˆ1− Zˆγ) D−1/2ˆγ = ry .1 ry .2 , (18) e rx2= BQ1X2= R1/2Q 1X2 D1/2Z>Q1X2 = R−1/2(X 2− X1βˆ∗1− Z ˆγ∗) D−1/2γˆ∗ = rx2.1 rx2.2 . (19)
Metodologias propostas
Assim, ˆβSNP ´e particionado em efeitos poligˆenicos e residuais:
ˆ βSNP | {z } SNP effect = wgβˆgSNP | {z }
efeitos poligˆenicos
+ weβˆSNPe
| {z }
efeitos residuais .
wg + we = 1
⇒
Regi˜
oes genˆ
omicas associadas `
a estrutura familiar
(
variantes gen´
eticas raras
).
⇒
SNPs com efeitos principalmente associados ao
componente residual os quais est˜
ao segregando
principalmente na popula¸c˜
ao geral (
variantes gen´
eticas
Metodologias propostas
Graficamente, pode-se representar esta parti¸c˜ao: ˆ βSNP | {z } SNP effect = wgβˆgSNP | {z }
efeitos poligˆenicos
+ weβˆSNPe
| {z }
efeitos residuais .
Metodologias propostas
´Indice para discriminar SNPs
O mapeamento de genes, por exemplo, considera plataformas de
SNPs que incluem um n´umero muito grande de vari´aveis preditoras a
serem estudadas.
No intuito de tornar mais operacional a sele¸c˜ao e discrimina¸c˜ao de vari´aveis preditoras em espa¸cos de alta dimens˜ao ´e apresentado um ´ındice
obtido a partir de estimativas do componente de variˆancia poligˆenico sob
Metodologias propostas
Modelo reduzido
Y = Xiβ + g + e (20)
Estimativas dos parˆametros em (20)⇒ wg0 + we0 = 1
Modelo completo (inclu´ındo a vari´avel adicionada)
Y = Xiβ + SNPiβSNP + g + e (21)
Estimativas dos parametros em (21)⇒wg + we = 1
Estimativas das diferen¸cas dos modelos na parte poligˆenica e na parte
residual:
Metodologias propostas
Indice para discriminar SNPs
dgj =
negativo ,se a maior mudan¸ca ocorre sob a variˆancia residual,
0 ,se a vari´avel adicionada n˜ao causa mudan¸cas,
Metodologias propostas
´ındice para detectar fam´ılias influentes.
Na formula¸c˜ao do modelo linear misto de componentes de variˆancia, um
n´ıvel adicional de decomposi¸c˜ao ´e proposto considerando o componente
poligˆenico do efeito total da vari´avel adicionada.
Este ´ındice especifica a contribui¸c˜ao de cada fam´ılia em termos de pesos e coeficientes angulares.
Metodologias propostas
´ındice para detectar fam´ılias influentes.
ˆ βSNP | {z } SNP effect = wgβˆgSNP | {z }
efeitos poligˆenicos
+ weβˆSNPe | {z } efeitos residuais . ˆ βSNP = wgβSNPgˆ + weβeSNPˆ = wg F X f =1 wgfβˆSNPfg + we F X f =1 wgfβˆSNPfe . (22) If = wgfβˆSNPfg , f = 1, ..., F . (23)
⇒Discriminar fam´ılias caudais, a saber, fam´ılias que apresentam altos
Metodologias propostas
´ındice para detectar fam´ılias influentes.
If = wgfβˆSNPfg , f = 1, ..., F . (24)
⇒
Discriminar fam´ılias caudais, a saber, fam´ılias que
Metodologias propostas
Aplica¸c˜
oes nos dados do GAW17
O banco de dados do ”Genetic Analysis Workshop 17 (GAW17)”(Almasy et al., 2011) consiste de:
- 697 indiv´ıduos distribu´ıdos em 8 fam´ılias extendidas,(m´edia = 87.12, s.e. = 19.33)
- 24.487 SNPs , 13.784 s˜ao n˜ao monom´orficos,
- Uma doen¸ca comum com prevalˆencia de 30 % foi simulada junto com trˆes vari´aveis quantitativas, Q1, Q2 e Q4. 17 snps foram usados para simular o fen´otipo Q1, o fen´otipo de interesse.
Metodologias propostas
SNP com efeito poligˆ
enico e residual - parti¸c˜
ao do efeito
do snp C6S2981
Metodologias propostas
Metodologias propostas
Tabela: Resultados para os dados do GAW17 usando o fen´otipo Q1 como vari´avel resposta e 4 snps como vari´aveis preditoras, inclu´ındo os valores de ˆβ2, a
decomposi¸c˜ao de ˆβ2, os pvalores associados e o ´ındice dg.
Gene SNP βˆ2 wg 0 we0 wg we p − value dg (se) VEGFA C6S2981 1.378 0.488 0.513 0.449 0.551 2.1e-15 0.039 (0.174) Decomposition ˆβ2= wgβˆg2+ weβˆe2 ˆ β2g p-value wgβˆ2g βˆ2e p − value weβˆe2 (se) (se)
VEGFA C6S2981 1.465 5.5e-21 0.658 1.307 1.4e-11 0.721 (0.068) (0.105)
Metodologias propostas
Tabela: Resultados da decomposi¸c˜ao de ˆβ2g para as 8 fam´ılias. .
SNP fam´ılia wg ,f βˆ2,fg If C6S2981 f1 0.105300 2.59875 0.27365 f2 0.435762 1.28311 0.55913 f3 0.001756 6.94313 0.01220 f4 0.001439 5.20073 0.00749 f5 0.001459 -4.85914 -0.00709 f6 0.001460 10.46216 0.01528 f7 0.451362 1.32948 0.60008 f8 0.001458 2.78540 0.00406
Metodologias propostas
SNP sem efeito poligˆ
enico nem residual - parti¸c˜
ao do
efeito do snp C13S321
Metodologias propostas
Metodologias propostas
SNP com efeito poligˆ
enico negativo - parti¸c˜
ao do efeito do
snp C6S5814
Metodologias propostas
Metodologias propostas
Metodologias propostas
A Tabela 2 mostra a estrutura da contribui¸c˜ao de cada fam´ılia para o estudo de estructuras de varia¸c˜ao para discriminar efeitos de SNPs.
Tabela: Decomposi¸c˜an dos efeitos de SNPs
SNP1 SNP2 . . . SNPj . . . SNPK βg2,1βe2,1 β g 2,2β e 2,2 . . . β g 2,jβ e 2,2 . . . β g 2,K β e 2,K Fam l w11β2,11g w12β2,12g w1jβg2,1j w1Kβ2,1Kg . . . . . . Fam f wf 1β2,f 1g wf 2β2,f 2g wfjβg2,fj wfKβ2,fKg . . . . . . Fam F wF 1β2,F 1g wF 2β2,F 2g . . . wFjβg2,Fj wFKβ2,FKg
Metodologias propostas
Referˆencias Bibliogr´aficas
Referˆ
encias Bibliogr´
aficas.
Almasy, L. and Blangero, J. (1998). Multipoint Quantitative-Trait Linkage Analysis in General Pedigrees. Am. J. Hum. Genet., 62, 1198-1211. Almasy, L., Dyer, T. D., Peralta, J. M., Kent, J. W., Charlesworth, J. C., Curran, J. E. and Blangero, J. (2011). Genetic Analysis Workshop 17 mini-exome simulation. BMC Proceedings, 5, (suppl 9):S2.
Amos, C. I. (1994). Robust Variance-Components Approach for Assessing
Genetic Linkage in Pedigrees. Am. J. Hum. Genet, 54(3), 535-543.
Blangero, J., Williams, J. & Almasy, L. (2000). Quantitative Trait Locus
Mapping Using Human Pedigrees. Human Biology. 72(1), 35-62.
de Andrade, M., Amos, C. I. and Thiel, T. J. (1999). Methods to estimate genetic components of variance for quantitative traits in family studies. Genet. Epidemiol., 17, 64-76.
Referˆencias Bibliogr´aficas
Referˆ
encias Bibliogr´
aficas.
Duarte, N. E. (2012). Mapeamento Gen´etico utilizando a teoria do gr´afico da vari´avel em modelos lineares mistos. Tesse para obten¸c˜ao do grau de Doutor em Ciˆencias. ´Area de concentra¸c˜ao Estat´ıstica. Instituto de Matem´atica e Estat´ıstica da Universidade de S˜ao Paulo. S˜ao Paulo. Duarte, N. E., Giolo, S. R., Pereira, A. C., de Andrade M., and Soler, J. P. (2014). Using the theory of added-variable plot for linear mixed models to decompose genetic effects in family data. Stat Appl Genet Mol Biol., 13, 359-378.
Hilden-Minton, J. A. (1995): Multilevel Diagnostics for Mixed and Hierarchical Linear Models, PhD Thesis, University of California, Los Angeles, Ed Moderna.
Referˆencias Bibliogr´aficas
Referˆ
encias Bibliogr´
aficas.
Johnson, B. W. and McCulloch, R. E. (1987). Added-Variable Plots in
Linear Regression. Technometrics, 29, 427-433.
Nobre, S. J. (2004). M´etodos de Diagn´ostico para Modelos Lineares Mistos. Disserta¸c˜ao para obten¸c˜ao do grau de Mestre em Ciˆencias. ´Area de concentra¸c˜ao Estat´ıstica. Instituto de Matem´atica e Estat´ıstica da Universidade de S˜ao Paulo. S˜ao Paulo.
Nobre, J. S. and Singer, J. M. (2007). Residuals analysis for linear mixed models. Biometrical. J. , 49, 863-875.
Nobre, J. S. and Singer, J. M. (2011). Leverage analysis for linear mixed models. J. Appl. Stat., 38(5), 1063-1072.
Wang, P. C. (1985). Adding a Variable in generalized linear models. Technometrics, 27, 273-276.