Júlia Maria Pavan Soler

(1)

MAE0540-Genética de Populações

MAE5757-Métodos Estatísticos em

Genética e Genômica

Júlia Maria Pavan Soler

pavan@ime.usp.br

(2)

Motivação

MAPEAMENTO DE “GENES” NAS POPULAÇÕES MUNDIAIS

 Já vimos: “Genoma é um espaço estruturado”

 Inferências sobre “Efeitos Genéticos” em dados gerados de delineamentos:

 Estudos com indivíduos não relacionados e fenótipos quantitativos

 Estudos Observacionais Caso-Controle

 Estudos Observacionais com Famílias

 Estudos de Expressão Gênica (Microarrays)

(3)

Delineamentos com Famílias

...

 Amostragem de dados de famílias: oportunidade de coletar

simultaneamente dados de indivíduos correlacionados (parentes) e não correlacionados

 Amostragem por Probandos: indivíduos que abrem a amostragem da família

 Indivíduos parentes: compartilham grandes regiões genômicas em comum

 Indivíduos não relacionados: compartilham regiões muito pequenas Probando

Fundadores

(4)

Delineamentos com Indivíduos Relacionados

Núcleos familiares  dados de pares de irmãos

...

Núcleos familiares  dados de trios (pai, mãe e filho)

...

Núcleos familiares  dados de irmandades

...

Doenças genéticas raras: filhos afetados (casos) e pais livres da doença (controle)

Doenças genéticas raras ou comuns: gêmeos ou pares de irmãos

...

Famílias estendidas (grandes pedigrees)

Doenças complexas e comuns Doenças complexas e comuns

(5)

Mapeamento de Genes – Dados de Famílias

Delineamentos “ótimos”: para n fixo é melhor poucas famílias o mais extensas possível

3 núcleos familiares  15 pares de relativos

2 núcleos familiares  18 pares de relativos

1 núcleo familiar  27 pares de relativos*

2 núcleos familiares relacionados

 30 pares de relativos

Exemplo: estudos de simulação mostram que (d) é mais poderoso* (a)

(c)

(b)

(6)

Dados de Famílias

Genes Compartilhados

i



Yi Yj



Cov ; ... Indivíduos Relacionados Grau de Parentesco Proporção IBD

j

Aa aa

Indivíduos Não Relacionados

Independentes

Proporção IBS mapeamento fino

ij



k

_l

Aa



_kl aa

(7)

Modelos Genéticos



|





|



Y



E Y X





_

Y



E Y X



_

Efeito Fixo Efeito Aleatório

Componente Genético Estudos Caso-Controle e Delineamentos com cruzamentos controlados Delineamentos com populações naturais (famílias humanas)

Vamos ver modelos em que o componente genético é modelado

(8)

Modelos de Regressão para

Dados de Famílias

D2



:

2 1 M f f

Y

D









D

f

G

M



M f

E

2

|











ˆ

1 f

Y

_f ₂

0 :





H

Teste do efeito do marcador (teste de ligação)

Pedigrees Gerais  Explorar a estrutura de Covariância

(Haseman-Elston, 1972)

Modelos para Pares de Irmãos:

Modelo de regressão sob premissas clássicas: Proporção ibd

(9)

Modelos de Regressão para

Dados de Famílias

2 1 2 1 f

;

f f f

Y

S

Y

D









1 f

Y

_f ₂

Modelo de Haseman-Elston revisitado (Elston et al., 2000)

;

:

)

,

(

:

)

,

(

Y

_f₁

Y

_f₁



2



D

S



2







































)

(

2

0

0 )

(

2

12 2 12 2 2 12 12 2 12



DS

e

S

D

S

D

e

S

e

D

Mf f f f f Mf S S f Mf D D f













































ˆ

2 )

(

2

1 ˆ

ˆ

2 2 2 2 2 2

)

(

2

1 )

(

2

1

S D S D













Ajuste com os dados “combinados”, cada indivíduo contribui com duas observações independentes no ajuste de regressão.

(10)

Modelos de Regressão para

Dados de Famílias

1

f

Y

_f₂

Modelo de Haseman-Elston revisitado (Elston et al., 2000)

e

Y

S

D

e

S

e

D

Mf S D S D f f f f Mf S S f Mf D D f













































ˆ

)

(

2

1 )

(

2

1

2 )

(

2

1 ˆ

ˆ

2 2 2 1 2 2 2 2 D2_{, S}2_{, -2Y} 12Y22



__ _D __ _S __ 

Método ponderado de Haseman-Elston: obter estimativas que são

combinações lineares das estimativas de D2_{e S}2_{(Sam and Purcell, 2001)}

Motivação para Delineamentos com grandes famílias e o uso do modelo misto poligênico  neste caso, o efeito genético é modelado como “aleatório”.

(11)

Genética Quantitativa

ij j ij

g

e

y







 

2 e ij ij dj aj j j ij

e

Var

y

Var

dX

aX

g

y

E

















 Efeito Fixo do Gene

ij j ij

g

e

y







 





2 2 2 2 2 d a g e g j ij ij

e

g

Var

y

Var

y

E



















 Efeito Aleatório do Gene

ef. aleatório ef. fixo ef. aleatório

(12)

Genética Quantitativa

ij j ij j ij

e

g

e

y













 Efeito Aleatório do Gene























































 

j

i

j

i

y

Cov

N

y

e

g

N

e

N

g

N

g

g j i ij e g ij ij j e ij g j j g j

0 ;

;

~

;

0 ~

;

~

;

0 ~

2 2 2 2 2 2











(13)

j



g



qq j j i Y |  QQ j j i Y |  qq



QQ









2



2 ; ~ | ; ~ e j ij g j j N j y N g









   e



e



0 :

_{q q}



_{Q q}



_{Q Q}





_g2



H





QQ



qq



2 2 Y 2 1 Y 1 1 Y Y₂₁ Qq



Ex. grupo: família, genótipo

(14)

ij j ij

g

y













2 2 2 2 2 2 2 2 2 2 2 2 2 1 11 1

;

1

0

0 ...

0

1

0

1

0

0 ...

0

0 ;

~

...

e g g Y g Y Y g g Y g g Y n n k n

V

N

y

k























































_ 



g



ij



e



j ij j N e N g e g ~ 0;



2 ~ 0;



2 

Matriz bloco diagonal: correlação uniforme dentro dos grupos

Genética Quantitativa – Modelo de Efeitos

Aleatórios

(15)

0 :

_A2



H



F.V. g l SQ QM F p

ENTRE(Tr) K-1 DENTRO(Res) N-K TOTAL N-1





2

)

(

y

r

_j





ij j ij

y

)

2

(





ij ij

y

)

2

(

SQE / (K-1) SQR / (N-K) QME / QMR









r s QM QMTr r QMTr E s QM E g g e e e Re ˆ ˆ Re 2 2 2 2 2            

 

r k QMTr V r k r V Y g e          ˆ ˆ ˆ ˆ ; 2 2 Tabela de ANOVA

(16)

30 25

20

temp

Dados da Temperatura Corporal de Animais

animal 1 2 3 4 5

: Variabilidade da resposta dentro do cluster/família (homocedasticidade )

: Variabilidade da resposta entre as médias de resposta de cada família

2 A



2 e



Família

Medida biométrica em adultos

(17)

Y Y

   

YYˆ  Y Yˆ Y



I X(XX)1X



Y YI P_XY

Fonte de Variação

S.Q.

Modelo (Fixo)

Resíduo (Aleatório)

Total



X XX X



Y Y  P Y Y Y Yˆ ˆ   (  )1    _X Y Y P Yˆ _X Y Y e  ˆ  X C

O Efeito Genético pode ser modelado como um componente

(18)

Modelo de Componentes de Variância –

Dados de Irmandades

 

2 2 2 2 ) ( ) ( 1 ... 0 0 ... ... ... 0 ... 1 0 1 ... 1 1 1 ... 1 1 ... ... ... 1 ... 1 1 1 ... 1 1 1 1 e g e n g n n f f f n n f _f f f f f I Y Cov                                     _ _ ... ... f f f f

μ

X

β

g

e

Y







2



;

0 ~

_g if

N

g





2



;

0 ~

_e if

N

e





Ω

f



2 Φ

f



g2



I

f



e2 Matriz de relacionamento ) 2 / 1 ( 2 2₂₁ efeito poligênico Componente de erro









2 2 2 2 2 2 2 1 2 ; ; _ij _g _g e g g ij Y jf if jf if ijf h h Y Y Cov Y Y             Herdabilidade: proporção da variância de Y que é devido ao componente genético

(19)

0 :

_g2



H



F.V. g l SQ QM F p

Entre famílias F-1 Dentro (Resíduo) N-F TOTAL N-1





2

)

(

y

n

_f _j





ij j ij

y

)

2

(





ij ij

y

)

2

(

SQE / (F-1) SQR / (N-F) QME / QMR









r QMD QME r QME E QMD E g g e e e        2 2 2 2 2 ˆ ˆ     

 

r F QME V r F r V Y g e          ˆ ˆ ˆ ˆ ; 2 2 Tabela de ANOVA n_f=r : dados balanceados

(20)

2 2 0 2 0 2

1 ;

1

e w f f g e b

F

N

S

E

F

N

n

N

n

F

S

E







































































































 

F

N

S

n

F

S

n

F

N

S

F

S

n

F

N

S

w b g e Y w b g w e

)

1 (

1 ˆ

ˆ

1 ˆ

;

ˆ

0 1 0 2 2 2 1 0 2 2



(21)

Projeto Corações de Baependi, MG

Mapear “Genes” associados a fatores de risco cardiovascular na População Brasileira

Baependi, MG  Área: 752km² Habitantes: 18.072

 Amostragem em Multiestágios Longitudinal (2006-2012)  Amostra: 1.712 indivíduos de 119 famílias

 Tamanho das famílias: 21  26  Gerações: 2 - 4  Número de filhos: 3  2  Núcleos familiares: 631  Gênero: M(43,5%) F(56,5%) Número de filhos N ú m e ro d e n ú cl e o s fa m ili a re s 14 11 10 9 8 7 6 5 4 3 2 1 250 200 150 100 50 0 2 1 1 5 8 12 18 35 54 89 148 258 Tamanho da família Fr e q u ê n ci a 156 119 108 82 78 77 43 42 33 31 28 26 23 22 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 9 8 7 6 5 4 3 2 1 0 1 1 1 1 1 1 1 1 2 1 1 1 1 9 1 2 1 2 3 6 2 6 2 2 5 2 2 4 2 7 3 6

(22)

Projeto Corações de

Baependi (MG)

FASE 1 FASE 2 FASE 3 Seleção de S.C. Plano Amostral de Unidades Domiciliares por S.C. Levantamento da Estrutura Familiar Cadastro de Endereços B.D. de Estrutura Familiar FASE 4 Questionário de Anamnese Dados Clínicos Dados Laboratoriais Coleta DNA Armazenagem Banco de Dados Análise Herda-bilidade Poligênica Cadastro de Setores Censitários (IBGE) Critérios de Escolha Estratificação e Sorteio

Próximos Passos: Estudo Longitudinal (Set/2012)

Novos fenótipos, Diferentes Marcadores, Sequenciamento

IME/USP Dez/2005 Jan/2006 Genotipa-gem de SNPs Affyme-trics 6.0 Jan/2006 FASE 5 _{FASE 7} FASE 6

(23)

Projeto

Corações de

Baependi, MG

http://g1.globo.com/globo-reporter/noticia/2010/06/cidade -de-minas-ajuda-cientistas-na- busca-pela-causa-da-hipertensao.html

(24)

(25)

Estatísticas Descritivas - Fenótipos

Total Masculino Feminino

Variável N Média DP N Média DP N Média DP

Idade (anos) 1664 44,10 16,95 722 44,69 17,49 942 43,65 16,52 Circunf. Abdominal (cm) 1646 87,44 12,47 715 86,84 11,56 931 87,91 13,11 Glicemia d jejum (mg/dl) 1609 93,73 29,65 699 93,14 26,45 910 94,18 31,89 Triglicérides (mg/dl) 1643 133,34 75,42 716 134,83 82,63 927 132,20 69,36 HDL-c (mg/dL) 1648 55,91 15,59 716 53,89 15,25 932 57,47 15,68 PAS (mmHg) 1660 126,81 19,38 721 130,33 18,74 939 124,10 19,44 PAD (mmHg) 1658 78,78 11,38 720 79,41 11,58 938 78,29 11,22 IMC (kg/m2) 1630 24,42 4,80 705 23,39 3,83 925 25,21 5,29

(26)

2 e f f

I

σ

Ω





 Modelo Esporádico (sem efeito genético/correlação)

 Modelo Poligênico: adicionar o efeito de um “poligene”



f



f f f f

μ

X

β

e

N

0 Ω

Y





;

~

;

f f f f

μ

X

β

g

e

Y







2



;

0 ~

_g if

N

g





2



;

0 ~

_e if

N

e



Modelos Lineares Mistos – Efeitos Genéticos

 

_₁



f n if f

g

E Var(Y) Valor esperado de Y para a família f (covariáveis) 2 2

2

_f _g _f _e f

Φ



I



Ω







Covariância: depende do grau

de parentesco Componente de variância residual C. V. residual e poligênico G E Var(Y)

(27)

1 2 3 4 5 6 7 1 1 0 ½ ½ ½ 0 ¼ 2 0 1 ½ ½ ½ 0 ¼ 3 ½ ½ 1 ½ ½ 0 ¼ 4 ½ ½ ½ 1 ½ 0 ¼ 5 ½ ½ ½ ½ 1 0 ½ 6 0 0 0 0 0 1 ½ 7 ¼ ¼ ¼ ¼ ½ ½ 1





2 Modelo Linear Misto Poligênico

r ij        2 1 2



r: grau de parentesco 1 2 3 4 5 6 7 Família f

 Para o cálculo é necessário conhecer a estrutura familiar





 





















f

j

i

f

j

i

y

Cov

g r f j if

0 ;

2 2 1



f f f f

μ

X

β

g

e

Y





2 2

2

_f _g _f _e f

Φ



I



Ω







(28)

Heredogramas Arquivos PED _{relacionamento}Matriz de Matriz de variâncias e covariâncias 2 2 81 2 1 ... 2 ... 2 2 e g



                            1 1 0 1 0 1666x1666 1666x1666

(29)

Modelo Linear Misto Poligênico

e

g

X

Y

j j j











efeitos aleatórios Poligene e Resíduo Covariá veis Resí duo Var(Y) Poli-gene fenótipo

0 :

2 ₁ 2 0 g





H

g



H



2 2 2 2 e g g g

h







efeitos fixos covariáveis





2

2 |

;

_jf _ij _g if

Y

X

Y

Cov









Y

|

X



2_g _e2

;

Var











|









;

j j j

X

Y

E





Teste do Efeito Poligênico:

Herdabilidade Poligênica

(coef. de correlação intra-classe) Parâmetro de Interesse:

(30)

Modelo Misto Poligênico

 Testes de Hipóteses sob o modelo Poligênico:

Estatística Razão de Verossimilhanças (sob modelo Normal)

0 :

2 0 g



H



 



ln

ˆ

ln

0



2 L





L







~ Mistura 2 1 2 0 2 1 2 1 _ _ _

 

10 ln 2 log ˆ log ₁₀  ₁₀ ₀    L  L  LOD Modelo Esporádico ModeloPoligênico

Estatística Lod Score:

Rejeição de H₀

herdabilidade poligênica significante Interesse em identificar “genes” candidatos

(Almasy and Blangero, 1998; de Andrade et al., 1999)



2 2



2 ; ~ _n _f _f _g _n _e f N _f I _f Y       



   Y



  n    



Y 



 



Y 



L _g2 _e2 _f _f _f 1 2 1 ln 2 1 2 ln 2 1 | , , ln

(31)

Projeto Corações de Baependi

Herdabilidade de Variáveis Cardiovascular na “População Brasileira”

Covariáveis

Fenótipo Herdabilidadea _{% Covar} _Sexo _Idade _Idade² _Sex*Idad _Ant-Hipert _Hipoglic _n

Var. Quantitativas CIRCABD* 0.3924022 0.2128177 x x x x x 1666 CHDL* 0.3502449 0.0220878 x x 1661 GLICOSE 0.2895079 0.1412034 x x x x x 1622 TRIG* 0.2798660 0.1157518 x x x x 1655 mediaPAS* 0.2202316 0.3416865 x x x x x 1680 mediaPAD* 0.2099344 0.1938822 x x x x x 1678 Var. de Controle Idade 0.0618386b _0.2777962 _x _x _x ₁₆₈₅ Altura 0.8248354 0.5837355 x x 1669

*: transformação logarítmica (base 10) Significância: a_(p<0,000)_{b (p = 0.010)}

(32)

Modelo Misto Poligênico

Padrão de heterogeneidade genética:

Note que os valores médios associados às famílias variam ao redor da média geral (linha

horizontal),sugerindo

heterogeneidade entre famílias e correlação dentro de família

(em geral, as famílias estão abaixo ou acima da média)

Valores de ln(SBP) são mostrados para cada família (ordenadas de acordo com sua média)

Dados: Famílias de Baependi

26 , 0 ˆ ˆ ˆ ˆ 2 2 2 2    e g g g h   

(33)

2 4 6 8 10 120 125 130 135 140 Family Y Max Mean Min

Modelo Misto Poligênico

Dados Simulados

Cenário 1 2 4 6 8 10 120 125 130 135 140 Family Y Max Mean Min Cenário 2

Indicação dos valores mínimo,máximo e média das respostas das famílias.

(34)

Modelo Misto Poligênico

f f f f

μ

X

β

g

e

Y







2



;

0 ~

_g if

N

g





2



;

0 ~

_e if

N

e





Ω

_f



2 Φ

_f



_g2



I

_f



_e2 f f f f f

μ

X

β

Z

e

Y











2





2



2 ;

0 ~

;

2 ;

;

0 ~

_f _g _f _f _f _f _f _f _f _g f

N

I



Z

g

Z



N















Formulações alternativas:

 

2 2

2

_f _g _f _e f f

Y

Cov



Ω



Φ





I





(35)

Modelo Misto Poligênico

Formulações alternativas: Modelo misto poligênico para dados de trios (pai, mãe e filho)



2



3 3 2 1 2 1 2 1 2 1 ; 0 ~ ; 0 1 0 0 0 1 g f f f f N I Z                           



g



f f f f f f f f f f f f f Z N Z Z g g g g                              ~ 0;2 2 ; 2 3 2 1 2 2 1 1 2 1 2 1 3 2 1        f f f f f f f f f f f f f f f f f e g e y e g e y e g e y 3 3 3 3 2 1 2 2 1 1 2 1 2 2 2 2 21 2 1 1 1 1 1                                            1 2 / 1 2 / 1 2 / 1 1 0 2 / 1 0 1 2 _f

(36)

Modelo Linear Misto

Poligênico



Oligogênico (Efeito Aleatório)

Matriz IBD estimada de dados do Mapa de Marcadores f f f f f

μ

X

β

q

g

e

Y





₁



efeitos aleatórios: “gene” poligene ambiente

Matriz de Parentesco



Y

_f _i

Y

_f _i_





Cov

;

2 2 2 e g q





2 2

2

_i_i _g q i i









_



_

i





i





2 2 2

2

_g _f _e q f















I





“gene”” Resí duo Var(Y) Poli-gene  2: estimada dos dados familiares Componentes variância: QTL, Poligene e Resíduo

(37)

1 2 3 4 5 6 7

 



0 , 1/2 ,1



2 , 1 , 0 2 / 7 7      _ ij j i j i k k



Matriz IBD (Proporção IBD)

Estrutura de Covariância

Família f

Proporção de alelos idênticos por descendência: cálculada dos dados de genótipos 2 2 2

2

_g _f _e q f















I









                 f f j i f f j i j i y y Cov g ij q ij e g q f j if 0 2 ; 2 2 2 2 2











1 2 3 4 5 6 7 1 1 0 ½ ½ ½ 0 ¼ 2 0 1 ½ ½ ½ 0 ¼ 3 ½ ½ 1 ½ ½ 0 ¼ 4 ½ ½ ½ 1 ½ 0 ¼ 5 ½ ½ ½ ½ 1 0 ½ 6 0 0 0 0 0 1 ½ 7 ¼ ¼ ¼ ¼ ½ ½ 1   2 Matriz de Relacionamento

(38)

1 2 3 4 5 6 7

Estrutura de Covariância

Família f 2 2 2

2 



_g







_q



I



_e





2 2 81 2 1 2 81 2 1 ... ... 2 ... 2 2 e q g



                                            1 1 0 1 0 0

Matrizes bloco diagonal: os blocos modelam as covariâncias entre indivíduos relacionados. Fora da diagonal os valores são nulos, isto é, não supõe-se covariância entre as respostas de indivíduos não relacionados.

(39)

Modelos Lineares Mistos Genéticos

f f f

X

e

Y











f f f f

X

g

e

Y











f f f f f

X

q

g

e

Y











₁



Poligene Resi duo Var(Y) Residuo Var(Y) “gene” Resi duo Var(Y) Poli-gene Modelo Esporádico

Modelo Poligênico (Dados de Famílias): estimar herdabilidade poligênica

Modelo Oligogênico (Dados de Famílias e de

(40)

Estratégia de Análise

Modelo e2 g2 q2

Esporádico e2 0 0

Poligênico e2 g2 0

1 QTL e2 g2 q2

 Testar o Efeito Poligênico: H₀ :



_g2  0

 Testar o Efeito do Oligogene H₀ :



_q2  0









2 1 2 0 2 2 1 2 0 2 1 2 1 ~ , , , , , ln 2















   e g e g L L ERV









2 2 2 1 2 2 2 1 2 2 0 2 1 2 1 ~ , , , , , , , ln 2















   e q g e g q L L ERV

 Testar o efeito do “gene” para muitas posições no genoma

 Gráfico de Perfis da

Estatística RV

(41)

Modelo Oligogênico

Dados do Gaw 12 - Microsatélites

24 famílias 1000 Indivíduos Fenótipo Q1 Chr 19: 42 Marcadores Microsatélites _c 10-4 300 posições QTL 0 : 2 0 q  H



(42)

Modelos Lineares Mistos Genéticos

f f f f f

X

q

g

e

Y











₁



“gene” Resi duo Var(Y) Poli-gene

Modelo Oligogênico (Dados de Famílias e de Marcadores)

Para dados de Famílias e marcadores do tipo Microsatélite (grandes regiões genômicas) o ajuste de modelos lineares mistos que consideram o efeito do “gene” como aleatório tem identificado marcadores significantes para algumas doenças complexas e validado (V+).

1. Contudo, a identificação de grandes regiões significantes (QTLs: Quantitative Trait Loci) requer o refinamento destas para se encontrar o nucleotídeo causal (QTN: Quantitative Trait Nucleotide). 2. Além disso, tal estratégia de análise não deve mapear variantes

comuns (no nível de um nucleotídeo) .

(43)

Mapeamento de Genes via Dados de

Famílias e SNPs

e

g

X

Y

_f



_f





_f _SNP



_SNP





2 2



2 ;

~

_f _f _SNP _SNP _g _e f

N

X

V

I

Y

















Efeito do poligene Efeito do resíduo Efeito do SNP (Fixo) Efeito de covariáveis

0 :

0 SNP



H



_{Testar o efeito de cada SNP via o} modelo poligênico

Problemas:

 Grande esforço computacional: teste de cerca de 106_SNPs

 Correção para múltiplos testes (F+)

 Efeito individual do SNP é pequeno (muitos F-)  análises multilocos

SNP: Efeito fixo, modela E(Y)

SNPs são compartilhados pela população geral  não explicam correlação familiar e por isso são modelados como fator fixo no modelo linear misto

(44)

Mapeamento de Genes em Dados

de Famílias

0 : ; ₀      μ X_SNPjβ_SNPj g e H _SNPj Y 

Mapeamento de Genes da Obesidade Truncal (circunferência abdominal)

Gráfico Manhattan

F+

(45)

Mapeamento de Genes: Famílias e SNPs

Alternativa: Análise em Multiestágios – Efeito Fixo do SNP

Passo 1: Modelo Misto Poligênico e Cálculo dos Resíduos Condicionais (sem usar dados de SNPs) (Aulchenko et al., 2007)

Passo 2: Modelo de Regressão para cada SNP (Y=Resíduo) e Seleção de SNPs if if if if

X

g

e

Y









2 2 2 _f _g _f _e f     I  



X

g



i

n

y

e

r

_i



ˆ

_i



_i



ˆ



_i



ˆ



ˆ

_i



1 ,

2 ,...,







6

10 ,...,

2 ,

1 ;







X

j

r

_i





_SNPj _ij



_i

0 :

0 SNPj



H



Seleção de um subconjunto de SNPs de efeito

significante ( corrigido)

k

j

e

g

X

Y

_i



_i









_SNP_*_j _ij



_i



_i

,



1 ,

2 ,...,

efeito de covariáveis efeito do poligene

sob premissas clássicas

(46)

Mapeamento de Genes: Famílias e SNPs

Solução de Aulchenco et al., 2007: - o efeito do SNP é considerado fixo

- necessidade de correção do efeito de estrutura de populações

- restrito ao efeito do SNP associado ao componente do erro/residuo Soluções alternativas: Yang et al. 2011 - GCTA

- o efeito de múltiplos SNPs é considerado como aleatório

- não há necessidade de corrigir para estrutura de populações - exclui indivíduos “altamente” relacionados (por declaração)

;

e

g

X

Y







_SNPs





2 2



;

~

N

X

V

A

_SNPs _SNPs

I

_e

Y





























K j j j j j i j ij ii

p

g

p

g

K

A

1 ´ ´

1

2

1

Matriz de relacionamento calculada

a partir de dados de genótipo de SNPs (g_ij=0,1,2; g_ij ~Bino[2;p_j] )

0 :

2

0



(47)

Como Mapear CV e RV?

Decomposição do Efeito do SNP



2



| 2 | 2 ; ~ _f _f _SNP _SNP _g _SNP _e_SNP f N X X V I Y







 







SNPe e SNPg g SNP









ˆ



ˆ



ˆ



Duarte (2012, Tese/IME-USP) e Souza (2012, Mestrado/IME-USP):

mostraram que a análise de Aulchenko é restrita ao resíduo condicional e não leva em conta a contribuição do efeito aleatório ao SNP.

Componente poligênico

Componente residual

Usando a Teoria da Variável Adicionada, pode-se comparar os modelos reduzido e completo e obter uma partição do efeito do SNP associado a cada componente aleatório do modelo.



2 2



2 ; ~ _f _g _e f N X V I Y



 







(48)

Como Mapear CV e RV?

Decomposição do Efeito do SNP



2



| 2 |

2 ;

~

_f _f _SNP _SNP _g _SNP _e_SNP f

N

X

V

I

Y

















SNPe e SNPg g SNP









ˆ



ˆ



ˆ



SNPgF gF SNPg g SNPg









ˆ



₁

ˆ

₁



...



ˆ

Decomposição do efeito do SNP nos componentes poligênico e residual

Contribuição de cada família ao efeito poligênico do SNP

(49)



g SNPg gF SNPgF



e SNPe SNPe e SNPg g SNP           ˆ  ˆ  ˆ  ₁ ˆ ₁ ... ˆ  ˆ 

(50)

Famílias de Baependi: Efeito do SNP (dados simulados)

Família 30 efeito do SNP está em aumentar a pressão sistólica

(indicação dos indivíduos que usam medicamento (preto) e carregam 2 cópias do alelo de risco (rosa))

(51)

Famílias de Baependi: Efeito do SNP (dados simulados)

Família 16: 116 indivíduos (dados não apresentados)

Família 61: Efeito do SNP está em reduzir o valor da pressão sistólica

(indicação dos indivíduos que usam medicamento e carregam 2 cópias do alelo de risco)

(52)

GAW 17: Dados de Famílias e SNPs

SNP C4S1884: efeito do SNP __

efeito poligênico do SNP .... efeito residual do SNP ----

Decomposição do efeito poligênico para cada família: famílias caudais recebem baixo “peso”

(53)

GAW 17: Dados de Famílias e SNPs

SNP C13S320 (F-): efeito do SNP __

(54)

GAW 17: Dados de Famílias e SNPs

SNP C13S321: efeito do SNP __

(55)

Dados de Famílias e Decomposição do

Efeito de SNPs

Análise de Famílias Influentes para os dados de cada SNP:

              gFM gF gF M g g g M g g g



ˆ ... ˆ ˆ ... ˆ ... ˆ ˆ ˆ ... ˆ ˆ 2 1 2 22 21 1 12 11 Coeficientes de regressão poligênicos

Desafio: encontrar padrões!

M

j

e

g

X

Y

_f



_f





_f _SNPj



_SNPj



;



1 ,

2 ,...,



g SNPg gF SNPgF



e SNPe SNPe e SNPg g SNP           ˆ  ˆ  ˆ  ₁ ˆ ₁ ... ˆ  ˆ 

(56)

Entendendo a Variabilidade Genética nas

Populações Mundiais

AA 112 AA 115 aa 110 aa 115 Aa 130 Aa 129 AA 139 Aa 128 AA 110 Aa 149 AA 150 Aa 141 AA 119 Aa 150 AA 145 aa 120 AA 139 AA 119 Aa 150

(57)

Como Pesquisar o Genoma?

ou

Microsatélites SNPs

Dilema do Especialista e do Generalista:

“é melhor conhecer um pequeno número de grandes verdades ou um grande número de pequenas verdades?”

(58)

Dados de Famílias e Estudos Caso-Controle

Lições Aprendidas e Desafios que Permanecem

 Estudos com Famílias e mapas de microsatélite têm identificado QTLs com sucesso  identificar as variantes genômicas na região candidata

O refinamento de QTLs em QTNs pode ser feito com dados de SNP na região candidata  SNPs são variantes comuns. O que dizer sobre as variantes raras que podem estar nos QTLs ?

 Estudos com Famílias e mapas de SNPs: o poder dos testes estatísticos para detectar “sinais” significantes é baixo devido aos múltiplos testes e ao efeito individual do SNP ser pequeno  Como combinar efeitos de SNPs de forma a capturar toda a informação de indivíduos relacionados (variantes raras) e não relacionados (variantes comuns)? Além disso há o efeito de F+ e F- devido à estrutura de populações.

 Estudos Caso-Controle e mapas de SNPs: problemas de múltiplos testes, efeito individual do SNP é pequeno, controle do efeito estrutura de populações, identificação de RV.



  L j QTNj QTL 1 2 2  

(59)

Estudos de Associação

Amostragem dos Indivíduos de P

Amostragem do

Genoma dos Indivíduos

Controle de Qualidade Estrutura de População Análise de Associação Validação

Processamento dos dados de SNP (Genotype calls, batch/plate effects), observações

faltantes, análise de concordância com popul. externas (HapMap), MAF, teste do Eq-HW , teste Eq-Ligação, região HLA

Análise Unilocos (preliminary)

Análises Multilocos (haplótipo, epistasia) Combinando diferentes plataformas (QTL, QTN, eQTL, eQTN, …)

(60)

Ancestral P1 Ancestral P2 Ancestral P3

Indivíduos Miscigenados: cromossomos com blocos das populações

ancestrais  possibilidade de novos “genes” (cuidados com confundimentos)

Today

(61)

Estrutura de Populações

Análise de Associação Ajustadas (corrigidas) para efeitos de confundimento devido à história ancestral da população

Marcador (X) (SNP)

Fenótipos

Variáveis de interesse (Y)

Ancestria Mapeamento

Genético

 1.SNPs associados à ancestria (maior prevalência em um grupo)  2.Prevalência de fenótipos estão associados à ancestria

 Mapeamento genético pode conter resultados falsos (F+, F-)

 Ancestria é desconhecida (impossibilidade de aleatorizar o fator de confundimento para controlar seu efeito)

(62)

Efeito da Estrutura de Populações em Dados

de Famílias e SNPs

Para dados de famílias a estrutura de

população induz ao confundimento?

Como controlar este possível efeito? Como calcular os Componentes Principais dos SNPs levando em conta a estrutura de correlação familiar? orientais nativos americanos europeus africanos

Análise de dados de indivíduos

independentes de 11 populações HaMap e

da Brasileira (“140 indivíduos)

(63)

Ancestralidade Local da População

Brasileira (CEU e YRI)

Indivíduo 1 – Cromossomo 1 (Giolo et al., 2011; Price et al., 2009) Uso de dados de indivíduos não relacionados. Alguns autores sugerem mapear “genes” com base nos coeficientes de ancestralidade local (Winkler et al., 2010)

(64)

Ancestralidade Local da População

Brasileira (CEU e YRI)

Indivíduo 1 – Cromossomo 2 Admixture Mapping (Mapeamento por ancestralidade):

Variantes causais da doença são mais frequentes em

segmentos de DNA derivados de

populações parentais com maior incidência da doença.

Dados de famílias: há desafios analíticos!

(65)

Coeficientes de Ancestralidade Global

SNPs e Dados de Família

 

2 , 1 , 0 ;    ij ij M N g g G Indiv SNP₁ SNP₂ ... SNP_j ... SNP M 1 g₁₁ g₁₂ ... g_1j ... g_1M ... ... i g_i1 g_i2 ... g_ij ... g_iM ... ... ... N g_N1 g_N2 ... g_Nj ... g_NM Estrutura de família

 Análise de Componentes Principais (CP) clássica não é apropriada

 

ij M N x X _ 

 

ij N M

 

ij M N g X x G _   _  padronização

 

ij F M n ij F M n g X x G _   _ 

: dados de famílias (indiv. Relacionados)

(66)

Coeficientes de Ancestralidade Global

SNPs e Dados de Família

SNPRelate software: calcula os Componentes Principais para indivíduos

relacionados a partir dos dados de fundadores (análise ajustada).

F k M M N k N k F F F k M F M k k F k n F M n M N V X PC U X V V U X X                     2 / 1 2 / 1

Assume que os indivíduos relacionados são uma

amostra aleatória simples (AAS) de todos os fundadores!

Matriz de autovetores associada aos k primeiros autovalores não nulos

considerando dados dos Fundadores

(67)













_

 



































F f f e N g f K N NK e N g f N K N f

N

I

F

f

Diag

N

Y

F

f

I

N

Y

f f f 1 1

;

2 ;

1 ,...,

;

1 ~

,...,

1 ;

2 ;

1 ~



´

1

2

f f N N f





Considere Y_f a matriz de genótipos (padronizados) para um

subconjunto de K SNPs avaliados em N indivíduos de F famílias:

: para dados de irmãos

Ancestralidade Global

(68)

?

ˆ

?

ˆ

e g



Máxima verossimilhança (ML): Lange et al. (2001, 2006)

Máxima verossimilhança restrita (REML): Roy and Khattree (2005), McCullach and Searle (2002)

 Estimação não-viciada de mínima variância (MINVQUE): Rao (1971), Swallow and Searle (1978), Henderson (1985).

 ANOVA: Swallow and Monahan (1984), Searle (1992) e Konishi and Rao (1992) para modelos ANOVA com um fator aleatório e dados não-balanceados (delineamentos com dados de irmãos); Oualkacha et al. (2012) estendeu os resultados considerando modelos lineares mistos multivariados (delineamentos com famílias estendidas).

(69)

Modelo de CV Multivariado – Estimadores

Pedigrees Gerais

(Oualkacha et al., 2012)

)

/(

)

(

)

1 /(

)

/

(

)

/(

)

1 /(

ˆ

F

N

F

N

F

N

S

F

S

c a b c w b A g

_









g c a w A e

F

N

S

F

N











ˆ

)

(

)

(

)

(

1 ˆ



 

_

 



     









f f f f f f f N j N k jk f b f a F f b f c F f b b F f a a F f f

Trace

N

1 1 1 1 1 1

2 ,

2

1 ,

,



Estimadores via Manova: S_b e S_w são matrizes de SQPC entre e dentro de famílias

(70)

F.V. g. l. SQPC

Entre famílias F-1 Dentro (Resíduo) N-F TOTAL N-1









 f j j f p p b

n

y

S

₍ ₎

(

)(

)

Tabela de MANOVA









 ij j ij j ij p p w

y

S

₍ ₎

(

)(

)









 ij ij ij p p T

y

S

₍ ₎

(

)(

)

Matrizes de soma de quadrados e produtos cruzados

As estimativas de _g e _e podem ser “não” positiva (semi)definida, muitas vezes devido a n<<p. Pode-se usar aproximações para corrigir este problema

(Rebonato e Jackel, 2000) ou ainda usar estimadores regularizados (Rothman, Levina e Zhu, 2010; Bien e Tibshirani, 2011).

(71)

)

/(

)

(

)

1 /(

)

/

(

)

/(

)

1 /(

ˆ

F

N

F

N

F

N

S

F

S

c a b c w b A g

_











/



/



1 

:

Konishi(19

93)

)

/(

)

1 /(

ˆ

)

2012

(

₂











N

F

N

F

N

S

F

S

Oualkacha

f w b A g

 

_

 



              f f f f f f f N j N k jk f b f a F f b f c F f b b F f a a F f f Trace N N N 1 1 1 1 1 1 2 , 2 1 , , ,        













2

;

1

2

_f _f _f



_c



_a

N



_b

N

_f

Modelo de CV Multivariado – Estimadores

Oualkacha et al. (2012)

(72)

Correção para Estrutura de População

 

Y

f _f f f g

I

N_f e g e

Cov







2 











;











g g g g g b g

b

PC

g

´

ˆ

´

max

1





_ h e h h g h b h

b

PC

e h





_ 

_´

ˆ

´

max

₁ e e e e e b e

b

PC

e

´

ˆ

´

max

₁





_

: direção com max variação entre famílias

: direção com max var. dentro das famílias

: direção com max var. entre e min var. dentro



e



g j j P

P

I

P

PCH

j









max

_

´

ˆ

1

ˆ

1



 uso de PC penalizado

(73)

Elipse vertical: corresponde à variabilidade dentro das famílias Elipse maior: corresponde à variação entre famílias

=0:: solução não penalizada do PCH

=: solução do PCH próxima à solução para _g.(maximização entre famílias)

(Wang, 2007)

(74)

Análise de CP Clássica Decomposição de 

Famílias de Baependi

Análise de CP para dados de famílias

(75)

(76)

PC1 da matriz de correlação poligênica Rg : baixa correlação intraclasse

(77)

PCg (Rg)

o Família 5: homogênea o Família 60: heterogênea