• Nenhum resultado encontrado

Devido ao avan¸co das t´ecnicas de sequencia¸c˜ao, em muitos dos estudos gen´eticos moder- nos j´a ´e poss´ıvel determinar os gen´otipos de um grande n´umero de marcadores gen´eticos (SNVs). Desta forma, com essas informa¸c˜oes, podem construir-se bases de dados de grandes dimens˜oes, como ´e o caso dos dados disponibilizados pelo P1000G. Para esses conjuntos de dados, calculam-se as frequˆencias dos alelos e dos gen´otipos, correspondentes a cada SNV, de modo que essas frequˆencias est˜ao sujeitas a uma restri¸c˜ao de soma unit´aria [Graffelman and Camarena, 2016].

O equil´ıbrio de Hardy-Weinberg (HWE), formulado de forma independente por Hardy e por Weinberg (1908), ´e um princ´ıpio fundamental da gen´etica moderna e desempenha um papel importante nos GWAS. Na ausˆencia de for¸cas perturbadoras (migra¸c˜ao, muta¸c˜ao, sele¸c˜ao, etc.) a lei de Hardy-Weinberg prevˆe que as frequˆencias dos gen´otipos e dos alelos permanecer˜ao no seu estado de equil´ıbrio ao longo das gera¸c˜oes. O desequil´ıbrio pode resultar numa atribui¸c˜ao errada dos gen´otipos, isto ´e, confus˜ao entre heterozig´oticos e homozig´oticos. Deste modo, testar o HWE pode ajudar a detetar esse “erro”. Por outro lado, o desequil´ıbrio em estudos de caso-controlo pode ser indicativo de associa¸c˜ao entre um marcador gen´etico (SNV) a uma dada doen¸ca, pelo que a verifica¸c˜ao do HWE pode fornecer pistas sobre essa situa¸c˜ao [Graffelman, 2015].

Para cada SNV bi-al´elica, de alelos x e y, considerem-se os trˆes gen´otipos xx, xy e yy, cujas contagens observadas s˜ao, repetivamente, nxx, nxy e nyy, com n = nxx + nxy + nyy. Sejam px e py = 1 − px as frequˆencias dos alelos x e y, respetivamente. Para se verificar a lei de Hardy-Weinberg, as frequˆencias dos gen´otipos, pxx, pxy e pyy, devem verificar

pxx = p2x , pxy = 2pxpy e pyy = p2y , (2.49) tal que pxx+ pxy+ pyy = 1.

Para avaliar se uma SNV pode ser considerada em equil´ıbrio ou n˜ao, pode-se recorrer ao teste cl´assico de ajustamento do χ2. Assim sendo, as frequˆencias esperadas para cada gen´otipo, sob a hip´otese de HWE, s˜ao exx = np2x, exy = 2npxpy e eyy = np2y .

A estat´ıstica do teste do χ2 para o HWE ´e dada por χ2= (nxx− exx) 2 exx +(nxy− exy) 2 exy + (nyy− eyy) 2 eyy , (2.50)

que tem distribui¸c˜ao qui-quadrado com um grau de liberdade, χ2

1, sob a hip´otese nula (HWE). Note-se que o teste do χ2 para a independˆencia, aplica-se tipicamente a tabelas ou ma- trizes. No entanto, os dois testes s˜ao equivalentes, se o vetor com as trˆes contagens de cada gen´otipo for reorganizado sob a forma da tabela 2.3.

x y x nxx 12nxy 12nx y 12nxy nyy 12ny 1 2nx 1 2ny n

Tabela 2.3: Representa¸c˜ao das contagens dos gen´otipos, nxx, nxy e nyy, atrav´es de uma tabela de 2 × 2.

Multiplicando por 2, a tabela 2.3, obt´em-se a tabela 2.4, na qual aparece o n´umero total de alelos 2n e as contagens para cada um dos alelos, nx = 2nxx+ nxy e ny = 2nyy+ nxy.

x y x 2nxx nxy nx y nxy 2nyy ny nx ny 2n

Tabela 2.4: Total de alelos, 2n, e contagens de cada um dos alelos, nx e ny, representados numa tabela 2 × 2.

Neste caso, as frequˆencias dos alelos x e y, s˜ao dadas por px = nx 2n = 2nxx+ nxy 2n (2.51) py = ny 2n = 2nyy+ nxy 2n (2.52)

Note-se que a estat´ıstica χ2 n˜ao ´e suficientemente informativa sobre a natureza do dese- quil´ıbrio de Hardy-Weinberg. Assim, torna-se importante calcular o chamado coeficiente de desequil´ıbrio, D. Este coeficiente ´e definido, segundo [Weir, 1996], pelas seguintes igualdades: pxx= p2x+ D pxy = 2pxpy− 2D e pyy = p2y+ D . (2.53) O coeficiente D indica um desvio relativamente `as contagens heterozig´oticas. Portanto, dese- quil´ıbrios causados por excesso ou d´efice de heterozig´oticos, conduzem a valores de D positivos ou negativos, respetivamente. Quando o HWE v´alido, o coeficiente de desequil´ıbrio ´e zero. Logo, uma formula¸c˜ao alternativa para testar o HWE, ´e testar a hip´otese H0 : Coeficiente de desequil´ıbrio nulo. Assim, a estat´ıstica que foi apresentada na equa¸c˜ao 2.50 pode ser escrita como χ2 = nD 2 p2 xp2y . (2.54)

Ora, substituindo D, na equa¸c˜ao 2.50 resulta que χ2 = (nD) 2 np2 x +(−2nD) 2 2npxpy + (nD) 2 np2 y = 2p 2 y(nD)2+ (−2nD)2pxpy+ 2p2x(nD)2 2np2 xp2y = 2(1 − px) 2(nD)2+ (−2nD)2p x(1 − px) + 2p2x(nD)2 2np2 xp2y = 2(1 − 2px+ p 2 x)n2D2+ 4n2D2(px− p2x) + 2p2xn2D2 2np2 xp2y = n 2D2− 2p xn2D2+ p2xn2D2+ 2n2D2px− 2n2D2p2x+ p2xn2D2 np2 xp2y = nD 2 p2 xp2y

Considerem-se, por exemplo, duas SNVs, A ↔ G e C ↔ G, presentes no cromossoma 1 dos dados do P1000G. Para a varia¸c˜ao A ↔ G o vetor das contagens dos gen´otipos, AA, AG e GG, ´e dado por (5; 304; 783). Ao aplicar o teste do ajustamento do χ2 para HWE, os resultados obtidos s˜ao χ2 ≈ 18.660, g.l. = 1, valor-p ≈ 1.562 × 10−05 e D ≈ 17.572, donde se rejeita a hip´otese de HWE. Para a varia¸c˜ao C ↔ G, as contagens dos gen´otipos CC, CG e GG s˜ao (1051; 41; 0). Nesta SNV, aceita-se a hip´otese nula de HWE pois aplicando o teste de ajustamento do χ2, obtˆem-se os resultados χ2 ≈ 0.400, g.l. = 1, valor-p ≈ 0.527 e D ≈ 0.385. Assim, conclui-se que para A ↔ G, existe um excesso de heterozig´oticos (D > 0) e que para C ↔ G existe um desequil´ıbrio negligenci´avel entre as contagens homozig´oticas e heterozig´oticas (D ≈ 0).

A rela¸c˜ao entre as frequˆencias dos gen´otipos de cada SNV, pode ser explorada a partir de diagramas de dispers˜ao, nos quais ´e representada uma curva que traduz o HWE. Uma formula¸c˜ao alternativa `a lei de Hardy-Weinberg, definida pelas igualdades da equa¸c˜ao 2.49, pode ser obtida ao fazer o quadrado da frequˆencia heterozig´otica, ou seja,

p2xy = 4pxxpyy. (2.55)

Da equa¸c˜ao 2.55, resulta a equa¸c˜ao da curva que representa a rela¸c˜ao entre as frequˆencias heterozig´oticas (pxy) versus homozig´oticas (pxx), dada por

pxy = 2( √

pxx− pxx) . (2.56)

No caso da rela¸c˜ao entre as frequˆencias homozig´oticas (pyy) versus homozig´oticas (pxx), a equa¸c˜ao da curva correspondente ´e

pyy = (1 − √

pxx)2. (2.57)

A figura 2.1 exemplifica os diagramas de dispers˜ao das frequˆencias heterozig´oticas/ homo- zig´oticas e homozig´oticas/homozig´oticas, para as seis primeiras SNVs no cromossoma 1.

Figura 2.1: Diagrama de dispers˜ao das frequˆencias pxy/pxx e pyy/pxx correspondentes `as seis primeiras SNVs do cromossoma 1 dos dados do P1000G.

Considerando o valor cr´ıtico do teste pr´e-especificado, χ21(α), para a estat´ıstica χ2, ´e poss´ıvel expressar-se a frequˆencia heterozig´otica, pxy, em fun¸c˜ao das frequˆencias al´elicas px e py = 1 − px, obtendo-se a equa¸c˜ao de duas par´abolas. Ou seja,

pxy = 2pxpy± 2pxpy q

χ2

1(α)/n . (2.58)

De facto, por 2.53, como −2D = pxy − 2pxpy ⇔ D2 = (pxy−2pxpy)

2

4 , substituindo D2 na equa¸c˜ao 2.54, resulta que

4χ21(α)p2xp2y = n(pxy− 2pxpy)2⇔ 4χ21(α)p2xp2y = np2xy− 4npxpypxy + 4np2xp2y ⇔ ⇔ np2xy− 4npxpypxy+ 4np2xp2y− 4χ21(α)p2xp2y = 0 .

Resolvendo a equa¸c˜ao quadr´atica em ordem a pxy, tem-se que

pxy = 4npxpy ± q (4npxpy)2− 4n(4np2xpy2− 4χ21(α)p2xp2y) 2n = 4npxpy ± q 16n2p2 xp2y− 16n2p2xp2y+ 16nχ21(α)p2xp2y 2n = 2npxpy ± 2pxpypnχ 2 1(α) n = 2pxpy± 2pxpy q χ2 1(α)/n .

Quando χ2 = 0 a frequˆencia heterozig´otica ´e igual a pxy = 2pxpy, ou seja, verifica-se o HWE. A partir da equa¸c˜ao 2.58 conclui-se que a hip´otese de HWE ser´a rejeitada, sempre que a frequˆencia de heterozig´oticos for muito grande ou muito pequena. Assim, a regi˜ao de aceita¸c˜ao para o HWE ´e dada por

2pxpy− 2pxpy q

χ21(α)/n ≤ pxy ≤ 2pxpy+ 2pxpy q

χ21(α)/n . (2.59) Tem-se que o limite superior e o limite inferior da regi˜ao de aceita¸c˜ao para o HWE, apre- sentados na equa¸c˜ao 2.59, s˜ao equa¸c˜oes quadr´aticas em py, por exemplo, que podem ser representadas num diagrama tern´ario (ternary plot ).

Este tipo de gr´afico, em que cada v´ertice do triˆangulo representa um dos gen´otipos poss´ıveis para uma dada SNV, ´e ´util para inferir se o HWE ´e verificado ou n˜ao. Normalmente, o v´ertice superior est´a associado ao gen´otipo heterozig´otico e os dois v´ertices inferiores aos gen´otipos homozig´oticos. Ao representar v´arias amostras para v´arios tipos de SNV, apesar de os v´ertices n˜ao ficarem especificados para os gen´otipos de cada SNV, o gr´afico permanece informativo pois ´e poss´ıvel visualizar quais as SNVs cujas frequˆencias al´elicas e genot´ıpicas est˜ao de acordo com o equil´ıbrio. A figura 2.2 exemplifica o ternary plot, no qual est˜ao repre- sentas as seis primeiras SNVs do cromossoma 1. Os pontos verdes correspondem `as SNVs que ficaram dentro da regi˜ao de aceita¸c˜ao para o HWE e os pontos vermelhos correspondem aos casos significativos, isto ´e, as varia¸c˜oes que n˜ao verificaram o HWE. Note-se que as SNVs com D > 0 (excesso heterozig´otico) situam-se acima da regi˜ao de aceita¸c˜ao e as que tˆem D < 0 (escassez heterozig´otica) abaixo. Na situa¸c˜ao representada, observam-se 3 SNVs significativas

(rejei¸c˜ao do HWE), A ↔ G, C ↔ T e G ↔ T . Tem-se ainda que para a varia¸c˜ao A ↔ G, as frequˆencias dos alelos A e G s˜ao pA≈ 0.14 e pG ≈ 0.86, respetivamente e que as frequˆencias dos gen´otipos s˜ao pAA ≈ 0.02, pAG = 0.24 e pGG ≈ 0.74. No ternary plot, est´a destacada a marca¸c˜ao da frequˆencia do alelo G, no eixo py (no caso particular desta SNV corresponde a pG). Observa-se tamb´em que, quanto menor for o valor da frequˆencia do gen´otipo xx, mais pr´oximo do lado de v´ertices xy e yy, ser´a marcado o ponto correspondente `a SNV.

Figura 2.2: Ternary plot das 6 primeiras SNVs do cromossoma 1 e respetiva regi˜ao de aceita¸c˜ao para o HWE.

Note-se que para investigar se uma SNV verifica ou n˜ao o HWE, tamb´em se pode recorrer a procedimentos exatos ou ao teste de ajustamento do χ2 com corre¸c˜ao `a continuidade de Yates. Contudo, os procedimentos exatos s˜ao computacionalmente intensivos, especialmente para grandes amostras [Graffelman, 2015]. Por outro lado, quando se aplica a corre¸c˜ao `a continuidade de Yates, para frequˆencias muito baixas do alelo menor, a corre¸c˜ao pode levar a taxas excessivas de erro tipo I [Graffelman, 2016]. Portanto, tendo em conta a grande dimens˜ao dos dados do P1000G, neste trabalho optou-se por testar o HWE recorrendo ao teste cl´assico de ajustamento do χ2, sem aplicar a corre¸c˜ao `a continuidade.

Documentos relacionados