• Nenhum resultado encontrado

Explorando a Flexibilidade do Modelo Linear Misto - Aplicações no Mapeamento de Genes

N/A
N/A
Protected

Academic year: 2021

Share "Explorando a Flexibilidade do Modelo Linear Misto - Aplicações no Mapeamento de Genes"

Copied!
42
0
0

Texto

(1)

Explorando a Flexibilidade do Modelo Linear Misto

-Aplica¸c˜

oes no Mapeamento de Genes

Nubia Esteban Duarte1

Suely R. Giolo 2

Mariza de Andrade3

Julia M. Pav´an Soler4

1INCOR-USP 2

UFPR

(2)

Conte´

udo

Introdu¸c˜

ao

Formula¸c˜

ao do modelo misto Poligˆ

enico

Decomposi¸c˜

ao do estimador do efeito fixo

Pr´

atica no R

´Indice para discriminar vari´aveis preditoras

´Indice para discriminar fam´ılias influentes

(3)

Introdu¸c˜ao

Motiva¸c˜ao

A motiva¸c˜

ao para a formula¸c˜

ao das metodologias

estat´ısticas propostas decorre da necessidade na

literatura de se explorar a flexibilidade do modelo

linear misto no mapeamento gen´

etico.

Sendo esta uma ´

area de interesse na an´

alise estat´ıstica

de dados genˆ

omicos de alta dimens˜

ao e ´

util para

(4)

Metodologias Estat´ısticas

Modelo Misto (Verbeke e Molenberghs, 2000)

O modelo misto pode ser escrito em forma matricial como segue:

Y

=

Xβ +

Zγ + .

(1)

com Y = (Y>1, ..., Y>c)>, X = (X1>, ..., X>c)>, Z = diag(Z1, ..., Zc),

γ = (γ1>, ..., γ>c)> e  = (>1, ..., >c)>,

Comunmente, assume-se que E [γ] = 0 e E [] = 0, com matriz de covariˆancia Cov  γ   =  ∆ 0cq×n 0n×cq Σ  ,

onde ∆ e Σ s˜ao matrizes positivas definidas de ordem cq e n

(n =Pc

i =1ni), as quais correspondem as matrizes de covariˆancia dos

(5)

Metodologias Estat´ısticas

Tomando ξ = Zγ + , tem-se o modelo marginal

Y = Xβ + ξ, (2)

onde E [ξ] = 0 e Var [ξ] = V = Z∆Z>+ Σ.

Se ∆ e Σ s˜ao conhecidas, ent˜ao o modelo marginal ´e o modelo com

matriz de pondera¸c˜ao V−1.

Pode-se escalar ∆ e Σ supondo ∆ = σ2D e Σ = σ2R, onde R e D s˜ao

matrizes positivas definidas.

Portanto, V = (ZDZ>+ R)σ2. Para o caso de homocedasticidade,

(6)

Metodologias Estat´ısticas

Definindo M como M = σ2V−1= (ZDZ>+ R)−1, segue que

M−1 = (σ2)−1V = (ZDZ>+ R). (3)

Tamb´em, define-se a matriz Q como

Q = M − MX 

X>MX −1

X>M = (I − P) M,

com as seguintes propriedades, QM−1Q = Q and QX = 0, onde

P = X X>MX−1X>M.

Essas duas matrizes, M−1 e Q, ser˜ao muito importantes no

(7)

Metodologias Estat´ısticas

Modelo Misto Poligˆenico (Amos, 1994; Almasy and Blangero, 1998)

Yf = Xfβ + gf + ef, f = 1, ..., F , (4)

Yf → Vetor que representa a vari´avel resposta.

Xfβ → Matrix de efeitos fixos.

gf → representa o efeito gen´etico exercido sobre Y.

ef → representa os efeitos residuais.

gf e ef s˜ao n˜ao correlacionados, com distribui¸c˜ao normal, com m´edia zero

e variˆancia σ2g e σ2e, respectivamente.

Sendo 2Φ a matriz de relacionamento entre indiv´ıduos, a matriz de covariˆancia ´e V: V = 2Φσg2+ Iσ2e = σy2 2Φh2g + Ihe2 , (5) h2g = σ 2 g σ2 e h2e = σ2 e σ2

(8)

Metodologias Estat´ısticas

Matriz de parentesco

Coeficiente de relacionamento φij = (1/2)r (grau de parentesco). 2Φ =               1 0 12 12 0 12 14 14 14 1 1 2 1 2 0 1 2 1 4 1 4 1 4 1 1 2 0 1 2 1 4 1 4 1 4 1 0 12 14 14 14 1 0 1 2 1 2 1 2 1 12 12 12 1 1 2 1 2 1 12 1               , (6)

(9)

Metodologias Estat´ısticas

Herdabilidade (coeficiente de correla¸c˜

ao intraclasse):

Define-se como a propor¸c˜

ao da variˆ

ancia total que ´

e

devida a componentes gen´

eticos.

h

g2

=

σ

2 g

σ

2 g

+ σ

e2

.

Se h

g2

for pequena, pode-se inferir que a vari´

avel resposta

(10)

Metodologias Estat´ısticas

Figura: Arquitetura Gen´etica de doen¸cas.

Existem ao menos dois tipos de efeitos gen´

eticos:

Popula¸c˜

ao (variantes comuns)

modelam E [Y ],

Fam´ılias (variantes raras)

modelam Cov [Y ].

Y = E [Y |X ] | {z }

Efeitos fixos

+ [Y − E [Y |X ]] | {z }

Efeitos aleat´orios

(11)

Metodologias Estat´ısticas

(12)

Metodologias Estat´ısticas

Codifica¸c˜ao dos SNPs como vari´aveis preditoras

SNPj =

 

2, se o indiv´ıduo ´e homozigoto AA,

1, se o indiv´ıduo ´e heterozigoto Aa, 0, se o indiv´ıduo ´e homozigoto aa .

(8)

(13)

Metodologias propostas

Metodologias propostas

Considerando o modelo misto poligˆenico dado em 4

Yf = Xfβ + gf + ef, f = 1, ..., F ,

O objetivo ´e particionar o efeito de um SNP em duas componentes

associadas com gf e ef usando a teoria associada ao Gr´afico da

Vari´avel Adicionada.

Formular um crit´erio de sele¸c˜ao de vari´aveis preditoras. Propor um ´ındice para detectar fam´ılias influentes.

⇒ Avalia¸c˜ao da metodologia nos dados simulados do Genetic

(14)

Metodologias propostas

Gr´afico da Vari´avel Adicionada em modelos mistos (Hodges, 1998;

Hilden-Minton, 1995) Y = X1β1+ XSNPβSNP + ;  = g + e, (9) Estimativa do efeito do SNP ˆ βSNP =  XSNP> V−1XSNP −1 XSNP> V1−1Y (10) Y = X1β1+ ,  = g + e ⇒ r2(residuos) (11) XSNP = X1β1∗+ ∗⇒ r1(residuos) (12)

(15)

Metodologias propostas

O efeito da vari´avel adicionada pode ser escrito em fun¸c˜ao dos res´ıduos, r 1 e r 2 ˆ β2 =  X>2Q1X2 −1 X>2Q1Y (13) =  r1>r1 −1 r>2r2, (14)

Portanto, ˆβ2 pode ser interpretado como o estimador de m´ınimos

quadrados (ordin´arios) do coeficiente angular.

Var ˆβ2  = (r1>r1)−1σ2 Plot r2× r1 → ˆβSNP

(16)

Metodologias propostas

Decomposi¸c˜ao do Gr´afico da Vari´avel Adicionada (Hilden-Minton,

1995; Nobre, 2004). Y = X1β1∗+ XSNPβSNP +  (15) = X1β1∗+ XSNPβSNP + g + e. (16) r 1 =r1g r1e  , r 2 = r2g r2e  . Plots    r2g×r1g → ˆβSNPg , r2e×r1e → ˆβSNPe .

(17)

Metodologias propostas M−1 = B>B B =  R1/2 D1/2Z>  . (17)

B pode ser particionada em matrizes associadas ao componente residual (R) e ao efeito aleat´orio (D).

ry = BQ1Y =  R1/2Q 1Y D1/2Z>Q 1Y  =  R−1/2(Y − X 1βˆ1− Zˆγ) D−1/2ˆγ  =  ry .1 ry .2  , (18) e rx2= BQ1X2=  R1/2Q 1X2 D1/2Z>Q1X2  =  R−1/2(X 2− X1βˆ∗1− Z ˆγ∗) D−1/2γˆ∗  =  rx2.1 rx2.2  . (19)

(18)

Metodologias propostas

Assim, ˆβSNP ´e particionado em efeitos poligˆenicos e residuais:

ˆ βSNP | {z } SNP effect = wgβˆgSNP | {z }

efeitos poligˆenicos

+ weβˆSNPe

| {z }

efeitos residuais .

wg + we = 1

Regi˜

oes genˆ

omicas associadas `

a estrutura familiar

(

variantes gen´

eticas raras

).

SNPs com efeitos principalmente associados ao

componente residual os quais est˜

ao segregando

principalmente na popula¸c˜

ao geral (

variantes gen´

eticas

(19)

Metodologias propostas

Graficamente, pode-se representar esta parti¸c˜ao: ˆ βSNP | {z } SNP effect = wgβˆgSNP | {z }

efeitos poligˆenicos

+ weβˆSNPe

| {z }

efeitos residuais .

(20)

Metodologias propostas

´Indice para discriminar SNPs

O mapeamento de genes, por exemplo, considera plataformas de

SNPs que incluem um n´umero muito grande de vari´aveis preditoras a

serem estudadas.

No intuito de tornar mais operacional a sele¸c˜ao e discrimina¸c˜ao de vari´aveis preditoras em espa¸cos de alta dimens˜ao ´e apresentado um ´ındice

obtido a partir de estimativas do componente de variˆancia poligˆenico sob

(21)

Metodologias propostas

Modelo reduzido

Y = Xiβ + g + e (20)

Estimativas dos parˆametros em (20)⇒ wg0 + we0 = 1

Modelo completo (inclu´ındo a vari´avel adicionada)

Y = Xiβ + SNPiβSNP + g + e (21)

Estimativas dos parametros em (21)⇒wg + we = 1

Estimativas das diferen¸cas dos modelos na parte poligˆenica e na parte

residual:

(22)

Metodologias propostas

Indice para discriminar SNPs

dgj =

 

negativo ,se a maior mudan¸ca ocorre sob a variˆancia residual,

0 ,se a vari´avel adicionada n˜ao causa mudan¸cas,

(23)

Metodologias propostas

´ındice para detectar fam´ılias influentes.

Na formula¸c˜ao do modelo linear misto de componentes de variˆancia, um

n´ıvel adicional de decomposi¸c˜ao ´e proposto considerando o componente

poligˆenico do efeito total da vari´avel adicionada.

Este ´ındice especifica a contribui¸c˜ao de cada fam´ılia em termos de pesos e coeficientes angulares.

(24)

Metodologias propostas

´ındice para detectar fam´ılias influentes.

ˆ βSNP | {z } SNP effect = wgβˆgSNP | {z }

efeitos poligˆenicos

+ weβˆSNPe | {z } efeitos residuais . ˆ βSNP = wgβSNPgˆ + weβeSNPˆ = wg F X f =1 wgfβˆSNPfg + we F X f =1 wgfβˆSNPfe . (22) If = wgfβˆSNPfg , f = 1, ..., F . (23)

⇒Discriminar fam´ılias caudais, a saber, fam´ılias que apresentam altos

(25)

Metodologias propostas

´ındice para detectar fam´ılias influentes.

If = wgfβˆSNPfg , f = 1, ..., F . (24)

Discriminar fam´ılias caudais, a saber, fam´ılias que

(26)

Metodologias propostas

Aplica¸c˜

oes nos dados do GAW17

O banco de dados do ”Genetic Analysis Workshop 17 (GAW17)”(Almasy et al., 2011) consiste de:

- 697 indiv´ıduos distribu´ıdos em 8 fam´ılias extendidas,(m´edia = 87.12, s.e. = 19.33)

- 24.487 SNPs , 13.784 s˜ao n˜ao monom´orficos,

- Uma doen¸ca comum com prevalˆencia de 30 % foi simulada junto com trˆes vari´aveis quantitativas, Q1, Q2 e Q4. 17 snps foram usados para simular o fen´otipo Q1, o fen´otipo de interesse.

(27)
(28)

Metodologias propostas

SNP com efeito poligˆ

enico e residual - parti¸c˜

ao do efeito

do snp C6S2981

(29)

Metodologias propostas

(30)

Metodologias propostas

Tabela: Resultados para os dados do GAW17 usando o fen´otipo Q1 como vari´avel resposta e 4 snps como vari´aveis preditoras, inclu´ındo os valores de ˆβ2, a

decomposi¸c˜ao de ˆβ2, os pvalores associados e o ´ındice dg.

Gene SNP βˆ2 wg 0 we0 wg we p − value dg (se) VEGFA C6S2981 1.378 0.488 0.513 0.449 0.551 2.1e-15 0.039 (0.174) Decomposition ˆβ2= wgβˆg2+ weβˆe2 ˆ β2g p-value wgβˆ2g βˆ2e p − value weβˆe2 (se) (se)

VEGFA C6S2981 1.465 5.5e-21 0.658 1.307 1.4e-11 0.721 (0.068) (0.105)

(31)

Metodologias propostas

Tabela: Resultados da decomposi¸c˜ao de ˆβ2g para as 8 fam´ılias. .

SNP fam´ılia wg ,f βˆ2,fg If C6S2981 f1 0.105300 2.59875 0.27365 f2 0.435762 1.28311 0.55913 f3 0.001756 6.94313 0.01220 f4 0.001439 5.20073 0.00749 f5 0.001459 -4.85914 -0.00709 f6 0.001460 10.46216 0.01528 f7 0.451362 1.32948 0.60008 f8 0.001458 2.78540 0.00406

(32)

Metodologias propostas

SNP sem efeito poligˆ

enico nem residual - parti¸c˜

ao do

efeito do snp C13S321

(33)

Metodologias propostas

(34)

Metodologias propostas

SNP com efeito poligˆ

enico negativo - parti¸c˜

ao do efeito do

snp C6S5814

(35)

Metodologias propostas

(36)
(37)

Metodologias propostas

(38)

Metodologias propostas

A Tabela 2 mostra a estrutura da contribui¸c˜ao de cada fam´ılia para o estudo de estructuras de varia¸c˜ao para discriminar efeitos de SNPs.

Tabela: Decomposi¸c˜an dos efeitos de SNPs

SNP1 SNP2 . . . SNPj . . . SNPK βg2,1βe2,1 β g 2,2β e 2,2 . . . β g 2,jβ e 2,2 . . . β g 2,K β e 2,K Fam l w11β2,11g w12β2,12g w1jβg2,1j w1Kβ2,1Kg . . . . . . Fam f wf 1β2,f 1g wf 2β2,f 2g wfjβg2,fj wfKβ2,fKg . . . . . . Fam F wF 1β2,F 1g wF 2β2,F 2g . . . wFjβg2,Fj wFKβ2,FKg

(39)

Metodologias propostas

(40)

Referˆencias Bibliogr´aficas

Referˆ

encias Bibliogr´

aficas.

Almasy, L. and Blangero, J. (1998). Multipoint Quantitative-Trait Linkage Analysis in General Pedigrees. Am. J. Hum. Genet., 62, 1198-1211. Almasy, L., Dyer, T. D., Peralta, J. M., Kent, J. W., Charlesworth, J. C., Curran, J. E. and Blangero, J. (2011). Genetic Analysis Workshop 17 mini-exome simulation. BMC Proceedings, 5, (suppl 9):S2.

Amos, C. I. (1994). Robust Variance-Components Approach for Assessing

Genetic Linkage in Pedigrees. Am. J. Hum. Genet, 54(3), 535-543.

Blangero, J., Williams, J. & Almasy, L. (2000). Quantitative Trait Locus

Mapping Using Human Pedigrees. Human Biology. 72(1), 35-62.

de Andrade, M., Amos, C. I. and Thiel, T. J. (1999). Methods to estimate genetic components of variance for quantitative traits in family studies. Genet. Epidemiol., 17, 64-76.

(41)

Referˆencias Bibliogr´aficas

Referˆ

encias Bibliogr´

aficas.

Duarte, N. E. (2012). Mapeamento Gen´etico utilizando a teoria do gr´afico da vari´avel em modelos lineares mistos. Tesse para obten¸c˜ao do grau de Doutor em Ciˆencias. ´Area de concentra¸c˜ao Estat´ıstica. Instituto de Matem´atica e Estat´ıstica da Universidade de S˜ao Paulo. S˜ao Paulo. Duarte, N. E., Giolo, S. R., Pereira, A. C., de Andrade M., and Soler, J. P. (2014). Using the theory of added-variable plot for linear mixed models to decompose genetic effects in family data. Stat Appl Genet Mol Biol., 13, 359-378.

Hilden-Minton, J. A. (1995): Multilevel Diagnostics for Mixed and Hierarchical Linear Models, PhD Thesis, University of California, Los Angeles, Ed Moderna.

(42)

Referˆencias Bibliogr´aficas

Referˆ

encias Bibliogr´

aficas.

Johnson, B. W. and McCulloch, R. E. (1987). Added-Variable Plots in

Linear Regression. Technometrics, 29, 427-433.

Nobre, S. J. (2004). M´etodos de Diagn´ostico para Modelos Lineares Mistos. Disserta¸c˜ao para obten¸c˜ao do grau de Mestre em Ciˆencias. ´Area de concentra¸c˜ao Estat´ıstica. Instituto de Matem´atica e Estat´ıstica da Universidade de S˜ao Paulo. S˜ao Paulo.

Nobre, J. S. and Singer, J. M. (2007). Residuals analysis for linear mixed models. Biometrical. J. , 49, 863-875.

Nobre, J. S. and Singer, J. M. (2011). Leverage analysis for linear mixed models. J. Appl. Stat., 38(5), 1063-1072.

Wang, P. C. (1985). Adding a Variable in generalized linear models. Technometrics, 27, 273-276.

Referências

Documentos relacionados

Os principais objectivos definidos foram a observação e realização dos procedimentos nas diferentes vertentes de atividade do cirurgião, aplicação correta da terminologia cirúrgica,

The challenges of aging societies and the need to create strong and effective bonds of solidarity between generations lead us to develop an intergenerational

O relatório encontra-se dividido em 4 secções: a introdução, onde são explicitados os objetivos gerais; o corpo de trabalho, que consiste numa descrição sumária das

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se

libras ou pedagogia com especialização e proficiência em libras 40h 3 Imediato 0821FLET03 FLET Curso de Letras - Língua e Literatura Portuguesa. Estudos literários

Como mencionado anteriormente, em Cuba a densidade de médicos por número de habitantes é de 6,72 para cada 1 mil habitantes, média considerada altíssima, tendo

(...) o controle da convencionalidade em sede internacional seria um mecanismo processual que a Corte Interamericana de Direitos Humanos teria para averiguar se o direito