RESULTADOS - VARIABILIDADE E HISTÓRIA EVOLUTIVA DO GENE HLA-E

5.1. FREQUÊNCIAS ALÉLICAS, GENOTÍPICAS E ADERÊNCIA AO EQUILÍBRIO DE HARDY-WEINBERG

Após a análise da variabilidade do gene HLA-E das 104 amostras oriundas do banco de doadores de medula óssea de Ribeirão Preto e dos indivíduos incluídos no projeto 1000Genomes, considerando-se a sequência genômica que codifica a porção externa na molécula HLA-E (1100-pb incluindo os éxons 1-4 e íntrons) e a região 3’ NT (1624-pb, incluindo o íntron 7), conforme descrito anteriormente, foram encontrados 34 pontos de variação (Tabela 4).

Considerando apenas as amostras brasileiras, seis pontos de variação foram detectados na região codificadora do HLA-E, nas posições +170, +424, +756, +1294, +1645 e +1857 (considerando a primeira A do primeiro ATG traduzido como nucleotídeo +1). Para a região 3' NT, oito pontos de variação foram encontrados, nas posições +3447, +3468, +3634, +3695, +3777, +3778, +4084 e +4297. Desses, sete foram encontrados exclusivamente no Brasil (Tabela 4). Curiosamente, dois novos pontos de variação, +3695 e +4084, foram encontrados na mesma amostra brasileira, um indivíduo do sexo masculino com 22 anos de idade e classificada como mulato. Para confirmar estas variações um novo PCR e novas reações de sequenciamento foram realizados.

Dos pontos de variação presentes na população brasileira, seis podem ser considerados polimorfismos (frequência do alelo mais frequente inferior a 99%), sendo três na região de codificação (+424, +756, +1645) e três na região 3' NT (+3468, +3777 e +4297) . Os três sítios polimórficos com maiores heterozigosidade foram os polimorfismos de região codificadora +424 e +756, e o polimorfismo da região 3’NT +3777. O primeiro é uma substituição sinônima no éxon 2, o segundo é uma mutação de sentido trocado que causa uma troca de um aminoácido na proteína HLA-E e o terceiro pode, em uma primeira análise, ser considerada como uma variação neutra por ocorrer na 3' NT.

A variação +756 define dois grupos de alelos, um grupo que codifica a molécula E*01:03 (que contém uma glicina no domínio α2 da cadeia pesada) e outro a molécula E*01:01 (que contém uma arginina nesta mesma posição) (Tamouza et

al., 2007). Todos os sítios de variação encontrados e as suas frequências em brasileiros e nas outras populações avaliadas no projeto 1000Genomes são apresentados na Tabela 4.

Considerando os dados do projeto 1000Genomes, 17 pontos de variação foram encontradas em uma ou mais populações mundiais (Tabela 4). Destes, apenas sete também estavam presentes no Brasil. Desta forma, todas estas variações exclusivas do Brasil ou de alguma população do 1000Genomes foram consideradas como sítios monomórficos nas demais populações, considerando o nucleotídeo presente na sequência de referência (NT_113891.2) como o nucleotídeo presente nestes pontos.

Das vinte variações encontradas exclusivamente nas populações avaliadas pelo 1000Genomes, onze apresentaram frequências superiores a 1% em pelo menos uma das populações. Ainda, seis pontos de variação foram considerados singletons (ocorreram em apenas um indivíduo no estado de heterozigose): +108, +1691, +3082, +3475, +3500 e +4430. Considerando-se que a cobertura de sequenciamento do genoma inteiro dos indivíduos analisados pelo projeto 1000Genomes é entre 2 a 6x, boa parte destes singletons podem ser fruto de erros de sequenciamento e erros de base calling, tornando-se resultados falso positivo. Por este motivo, optamos por excluir esses pontos de variações para as análises posteriores.

No total (1000Genomes e Brasil), quinze variações foram encontradas na região codificadora e treze variações na região 3' NT. O número de pontos de variação por população variou entre três e quatorze. As populações brasileira e queniana apresentaram o maior número de variações, seguidos por britânicos, colombianos e Afrodescendentes americanos. Dez dos vinte e oito pontos de variação foram encontrados em apenas um grupo populacional (mas com frequências muito baixas), e o SNP +887, já descrito pelo IMGT/HLA como associado com o alelo de região codificadora conhecido como E*01:03:03, não foi encontrado em qualquer uma das populações avaliadas.

A população finlandesa apresentou a maior diversidade nucleotídica considerando a região codificadora do HLA-E, enquanto que a população afrodescendente americana apresentou maior diversidade da região 3' NT (Tabela 5). Apesar do maior número de sítios de variação encontrados no Brasil, a

população brasileira apresentou a menor diversidade nucleotídica entre todas as populações. Considerando-se o loco HLA-E todo, a população afrodescendente americana apresentou a maior diversidade nucleotídica.

As frequências genotípicas aderiram ao esperado pelo Equilíbrio de Hardy- Weinberg para todos os marcadores (P > 0,05), exceto em dois casos: polimorfismo +424 na população Han do sul da China e +756 para os quenianos de Luhya (Tabela 6). Não foram detectados desvios para o Equilíbrio de Hardy-Weinberg nas amostras Brasileiras.

Tabela 4: Pontos de variação do gene HLA-E e suas frequências em diferentes populações do projeto 1000Genomes e em uma amostra brasileira.

Europa Ásia África Continente Americano Populações BRA CEU TSI GBR FIN IBS CHB JPT CHS YRI LWK ASW MXL PUR CLM Pontos de

variaçãoa SNP IDb Variação

104 85 98 89 93 14 97 89 100 88 97 61 66 55 60 Alelod _{Frequência alélica}

108e _N.D. _A/G _A _{1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,994 1,000 1,000 1,000 1,000 1,000} 170 N.D. G/T G 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 363 _rs140107837 C/T C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,974 1,000 1,000 1,000 1,000 424 _rs114942539 C/T C 0,735 0,647 0,714 0,702 0,699 0,643 0,732 0,758 0,660 0,750 0,742 0,656 0,689 0,555 0,592 756 _rs115492845 A/G A 0,635 0,606 0,592 0,624 0,516 0,500 0,423 0,303 0,360 0,659 0,541 0,467 0,553 0,455 0,508 971 rs145034129 G/A G 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,975 1,000 1,000 1,000 1014 rs114763484 T/A T 1,000 0,976 1,000 0,994 0,973 1,000 1,000 1,000 1,000 1,000 1,000 0,992 1,000 1,000 1,000 1278 rs182627071 C/T C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,982 0,992 1283 rs114425530 G/A G 1,000 1,000 1,000 1,000 1,000 1,000 0,995 1,000 1,000 1,000 1,000 1,000 1,000 0,991 1,000 1294 N.D. G/A G 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1322 rs116563630 G/A G 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,977 0,974 0,975 1,000 0,982 1,000 1625 rs116099950 G/C G 1,000 0,988 0,980 0,994 1,000 1,000 1,000 0,994 1,000 0,955 0,918 0,926 0,992 1,000 0,992 1627 rs138823292 C/G C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,990 1,000 1,000 1,000 1,000 1644 rs149396632 G/A G 1,000 1,000 0,995 0,994 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1645 N.D. A/T A 0,985 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1691e rs188968394 G/A G 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,992 1857 rs115331960 C/T C 0,990 0,988 1,000 0,983 0,860 1,000 0,995 1,000 1,000 1,000 1,000 1,000 0,992 1,000 0,983 3082e N.D. A/C A 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,994 1,000 1,000 1,000 1,000 1,000 1,000 1,000 3166 rs150528487 C/G C 1,000 1,000 0,995 0,994 1,000 1,000 0,979 0,983 1,000 1,000 1,000 1,000 0,992 1,000 1,000 3204 rs139529838 A/G A 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,974 1,000 1,000 1,000 1,000

3447 N.D. C/T C 0,990 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 3468 rs114910384 A/C A 0,971 1,000 0,995 0,994 1,000 1,000 0,923 0,983 0,935 0,915 0,912 0,926 0,985 1,000 0,983 3475e _rs189682683 _A/T _A _{1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,992 1,000 1,000} 3500e rs192326720 T/C T 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,992 3528 rs184455686 C/T C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,994 0,974 0,967 1,000 1,000 1,000 3558 rs149714735 C/T C 1,000 0,994 1,000 1,000 1,000 1,000 0,985 0,983 0,990 1,000 1,000 1,000 1,000 1,000 1,000 3634 rs115717075 G/A G 0,995 0,994 0,959 0,989 0,952 1,000 0,974 0,938 0,995 0,926 0,928 0,877 0,985 0,973 0,950 3695 N.D. G/A G 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 3777 rs114114145 A/G A 0,808 0,641 0,755 0,713 0,704 0,643 0,732 0,775 0,645 0,818 0,804 0,779 0,629 0,545 0,608 3778 N.D. A/G A 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 4084 N.D. G/A G 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 4297 rs114314243 G/A G 0,986 0,994 0,959 0,989 0,989 1,000 0,974 0,938 0,995 0,926 0,948 0,877 0,985 0,973 0,950 4415 rs145584770 C/T C 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,974 1,000 1,000 1,000 1,000 4430e _rs148481597 _C/T _C _{1,000 1,000 0,995 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000}

BRA: Brasileiros em Ribeirão Preto, São Paulo, Brasil; CEU: Residentes de Utah com ancestrais do norte e oeste da Europa; TSI: Residentes da Toscana na Itália; GBR: Britânicos da Inglaterra e Escócia; FIN: Finlandeses da Finlândia; IBS: População Ibérica na Espanha; CHB: População Han em Pequin, China; JPT: Japoneses em Tóquio; CHS: População Han do sul da China; YRI: Yoruba em Ibadan, Nigéria; LWK: Luhya em Webuye, Quênia; ASW: Afrodescendentes americanos no sudoeste dos EUA; MXL: Residentes de Los Angeles, Califórnia com ancestrais mexicanos; PUR: Porto-riquenhos; CLM: Colombianos de Medellín.

Em negrito os pontos de variação encontrados nas amostras brasileiras.

N.D – Não disponível. a

As posições referem-se à Adenina do primeiro ATG traduzido como nucleotídeo +1. b

SNP ID foram retirados da lista do Projeto 1000genomes. c

Número de indivíduos. d

Alelo com maior frequência. e

Tabela 5: Índices de diversidade nucleotídica do gene HLA-E para a região codificadora, 3’ NT e ambas as regiões considerando as populações do projeto 1000Genomes e as amostras Brasileiras.

Populações _codificadoraπ região π região 3' _NT π região codificadora e _3’NT BRA 0,000485 0,000277 0,000383 CEU 0,000551 0,000306 0,000432 TSI 0,000503 0,000345 0,000424 GBR 0,000510 0,000295 0,000405 FIN 0,000653 0,000324 0,000494 IBS 0,000529 0,000293 0,000414 CHB 0,000478 0,000438 0,000453 JPT 0,000429 0,000428 0,000423 CHS 0,000485 0,000361 0,000422 YRI 0,000513 0,000451 0,000478 LWK 0,000572 0,000400 0,000517 ASW 0,000606 0,000607 0,000598 MXL 0,000519 0,000366 0,000442 PUR 0,000561 0,000376 0,000469 CLM 0,000562 0,000446 0,000502 População mundial 0,000541 0,000392 0,000472

BRA: Brasileiros em Ribeirão Preto, São Paulo, Brasil; CEU: Residentes de Utah com ancestrais do norte e oeste da Europa; TSI: Residentes da Toscana na Itália; GBR: Britânicos da Inglaterra e Escócia; FIN: Finlandeses da Finlândia; IBS: População

Ibérica na Espanha; CHB: População Han em Pequin, China; JPT: Japoneses em Tóquio; CHS: População Han do sul da China; YRI: Yoruba em Ibadan, Nigéria; LWK: Luhya em Webuye, Quênia; ASW: Afrodescentes americanos no sudoeste dos EUA; MXL: Residentes de Los Angeles, Califórnia com ancestrais mexicanos; PUR: Porto-riquenhos; CLM: Colombianos de Medellín.

Tabela 6: Aderência das frequências dos genótipos ao Equilíbrio de Hardy-Weinberg considerando as populações do projeto 1000Genomes e as amostras Brasileiras (P ≤ 0.05 indica desvio do esperado pelo equilíbrio).

Europeus Asiáticos Africanos Continente Americano

Populações BRA CEU TSI GBR FIN IBS CHB JPT CHS YRI LWK ASW MXL PUR CLM

Locos P value 108 - - - - 170 - - - - 363 - - - 1,000 - - - - 424 0,801 0,636 1,000 1,000 0,464 1,000 0,306 0,381 0,023a_{0,397 0,111 0,776 0,395 0,787 0,109} 756 0,397 0,070 0,096 0,508 0,834 0,127 0,534 0,454 0,127 0,639 0,041a_{0,440 0,630 1,000 0,446} 887 - - - - 971 - - - 1,000 - - - 1014 - 1,000 - - 1,000 - - - - 1278 - - - 1,000 - 1283 - - - - 1294 - - - - 1322 - - - 1,000 1,000 1,000 - 1,000 - 1625 - 1,000 1,000 - - - 1,000 1,000 1,000 - - - 1627 - - - 1,000 - - - - 1644 - - - - 1645 1,000 - - - - 1691 - - - - 1857 1,000 1,000 - 1,000 1,000 - - - 1,000 3082 - - - - 3166 - - - 1,000 1,000 - - - - 3204 - - - 1,000 - - - - 3447 1,000 - - - -

3468 1,000 - - - 1,000 1,000 1,000 0,481 0,536 1,000 1,000 - 1,000 3475 - - - - 3500 - - - - 3528 - - - 1,000 1,000 - - - 3558 - - - 1,000 1,000 1,000 - - - - 3634 - - 1,000 1,000 1,000 - 1,000 1,000 - 0,379 1,000 0,581 1,000 1,000 1,000 3695 - - - - 3777 0,356 0,229 1,000 0,794 0,078 1,000 0,126 0,361 0,078 1,000 1,000 0,137 1,000 1,000 0,414 3778 - - - - 4084 - - - - 4297 1,000 - 1,000 1,000 1,000 - 1,000 1,000 - 0,381 1,000 0,579 1,000 1,000 1,000 4415 - - - 1,000 - - - - 4430 - - - -

BRA: Brasileiros em Ribeirão Preto, São Paulo, Brasil; CEU: Residentes de Utah com ancestrais do norte e oeste da Europa; TSI: Residentes da Toscana na Itália; GBR: Britânicos da

Inglaterra e Escócia; FIN: Finlandeses da Finlândia; IBS: População Ibérica na Espanha; CHB: População Han em Pequin, China; JPT: Japoneses em Tóquio; CHS: População Han do sul da China; YRI: Yoruba em Ibadan, Nigéria; LWK: Luhya em Webuye, Quênia; ASW: Afrodescentes americanos no sudoeste dos EUA; MXL: Residentes de Los Angeles, Califórnia com ancestrais mexicanos; PUR: Porto-riquenhos; CLM: Colombianos de Medellín.

Desvios do Equilíbrio de Hardy-Weinberg.

- Valores que não puderam ser obtidos pela falta de poder estatístico para o teste exato de Guo e Thompson, já que estas variantes são raras do ponto de vista populacional.

5.2. DESEQUILÍBRIO DE LIGAÇÃO

A presença de uma associação significativa entre os pontos de variação do gene HLA-E nas regiões codificadora e 3' NT foi avaliada pela mensuração do Desequilíbrio de Ligação (LD) (D') (Lewontin, 1964), utilizando o software Haploview 4.1 (Barrett et al., 2005). A Figura 7 mostra o padrão de LD obtido utilizando-se os pontos de variação que apresentaram frequência alélica mínima (MAF) de 1%.

A avaliação do LD na população global mundial, bem como em subgrupos menores como o padrão de LD apresentado pelo Brasil, indicou a presença de regiões cujos polimorfismos apresentam um forte desequilíbrio de ligação, em especial os polimorfismos +424 e +756 na região codificadora. Por outro lado, estes dados também indicaram um possível ponto de recombinação frequente entre as regiões codificadora e 3’ NT do HLA-E, evidenciado pela quebra no padrão de LD entre essas duas regiões apesar de sua proximidade (Figura 7). De fato, utilizando o método de intervalo de confiança implementado no software Haploview, apenas um bloco foi detectado na região codificadora, englobando os pontos de variação +424 e +756, para a maioria dos grupos. Os padrões de LD variam entre os grupos avaliados, especialmente entre as amostras das populações africanas e europeias. Embora o mesmo padrão de desequilíbrio entre os pontos +424 e +756 tenha sido observado em todos os grupos, o LD entre as regiões codificadora e 3’NT parece ser mais intenso nas amostras da população americana e europeia, quando comparado a brasileiros, asiáticos e populações da África. Estes resultados apontam para um provável ponto de recombinação entre as regiões codificadoras e 3’NT do loco HLA- E.

Figura 7: LD entre os pares de SNPs no gene HLA-E. A imagem foi gerada pelo programa Haploview usando SNPs com frequência ≥ 1%. Áreas em vermelho escuro indicam forte LD (LOD ≥ 2, D '= 1), tons de rosa indicam LD moderado (LOD ≥ 2, D' ≤ 1), azul indica LD fraco (LOD ≤ 2, D '= 1) e branco indica que não há LD (LD ≤ 2, D '≤ 1). Os blocos de haplótipos foram definidos pelo m todo de intervalos de confiança implementado no software Haploview. Diferentes valores de D' são representados dentro dos quadrados como percentagens. LOD log das probabilidades; D', correlação par a par entre os SNPs. Posições de SNPs foram estimados considerando a adenina no primeiro ATG do gene HLA-E como uma base +1.

5.3. DIVERSIDADE, FREQUÊNCIA E RELAÇÕES ENTRE OS HAPLÓTIPOS

Dada a associação positiva entre os pontos de variação da região codificadora e 3’ NT, mas fase gamética desconhecida, os haplótipos foram inferidos por dois métodos probabilísticos como descrito anteriormente. A inferência de haplótipos foi realizada em 1.196 (1092 amostras do projeto 1000Genomes e 104 amostras brasileiras). Destes, 1.168 indivíduos (97,65%) preencheram os critérios descritos anteriormente em relação à qualidade da inferência do par de haplótipos e, portanto, foram consideradas para as análises posteriores. O projeto 1000Genomes permite que os dados sejam baixados já com fase inferida. Entretanto, optou-se por incluir estes dados na inferência haplotípica pelo método descrito, já que esta inferência pelo método computacional é sensível a variações do n amostral. Portanto, para melhorar a qualidade da inferência para as amostras brasileiras, os dados do 1000Genomes foram incluídos. Vale ressaltar que a compatibilidade entre o método computacional e a fase biologicamente inferida, e disponível no site do projeto, foi superior a 99% para os dados do 1000Genomes, demonstrado a viabilidade da técnica assumida neste estudo.

A análise revelou a presença de 33 haplótipos diferentes utilizando os 28 pontos de variação considerados. As frequências haplotípicas variaram de 0,04% a 47,00%. A probabilidade média de cada par de haplótipos foi 0,9945 para o método PHASE e 0,9981 para o algoritmo PL-EM. A Tabela 7 apresenta os haplótipos encontrados considerando todas as populações em conjunto e suas respectivas diversidades haplotípicas.

Para avaliar a similaridade entre estes haplótipos e concatena-los em grupos relacionados, uma rede de haplótipos foi construída (Figura 8). Nesta análise, foi incluída uma sequência de um haplótipo frequente de chipanzé (Pan troglodytes) para o gene MHC-E, o ortólogo em primatas ao HLA-E humano, como um grupo externo. Na sequência foi acrescido um ponto de variação adicional (posição +433) a fim de se evitar uma sobreposição completa entre as sequências dos haplótipos do grupo externo com as sequências em humanos.

Esta relação entre os haplótipos, com base na rede apresentada, é também demonstrada na Tabela 8. Além disso, para comparar o padrão de haplótipos HLA-E em Homo sapiens com os haplótipos de outros primatas, foram incluídos na Tabela

8 três sequências do MHC-E de chipanzé (Pan troglodytes) (ENSPTRG00000017912), Gorila (Gorilla gorilla) (ENSGGOG00000012802) e macaco-rhesus (Macaca mulata) (ENSMMUG00000019888). Pode-se notar que as sequências de Pan troglodytes e Gorilla gorilla são muito semelhantes ao haplótipo H01 humano considerando os pontos de variação estudados, embora diferenças pontuais podem ocorrer em outros locais que em humanos são considerados como monomórficos.

Tabela 7: Frequência relativa d os 33 haplótipos encontrados para o gene HLA-E considerando-se os dados do projeto 1000Genomes e as amostras brasileiras.

Europa Ásia Africa America População

Haplótipos BRA CEU TSI GBR FIN IBS CHB JPT CHS YRI LWK ASW MXL PUR CLM mundial 2n 206 168 196 178 184 28 190 174 194 174 178 118 124 106 118 2336 H01 0,083 0,012 0,092 0,051 0,038 0,143 0,289 0,431 0,294 0,023 0,067 0,093 0,097 0,085 0,051 0,1274 H02 0 0 0 0 0 0 0 0 0 0,017 0,017 0 0 0,019 0 0,0034 H03 0 0,012 0,020 0,006 0 0 0 0,006 0 0,040 0,073 0,034 0,008 0 0,008 0,0146 H04 0 0 0 0 0 0 0 0 0 0 0,017 0 0 0 0 0,0013 H05 0,010 0,012 0 0,017 0,136 0 0,005 0 0 0 0 0 0,008 0 0,017 0,0154 H06 0 0 0,005 0,006 0,005 0 0 0 0 0 0 0 0 0 0 0,0013 H07 0,005 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0004 H08 0 0 0 0 0 0 0 0 0 0 0 0,008 0 0 0 0,0004 H09 0,583 0,601 0,587 0,612 0,467 0,500 0,337 0,247 0,294 0,569 0,489 0,407 0,468 0,415 0,466 0,4705 H10 0,024 0 0,005 0,006 0 0 0,058 0,017 0,057 0,081 0,062 0,076 0,016 0 0,017 0,0300 H11 0 0 0 0,006 0 0 0 0 0 0 0 0 0,008 0 0 0,0009 H12 0 0 0 0 0,033 0 0 0 0 0 0 0 0 0 0 0,0026 H13 0,010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0009 H14 0,005 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0004 H15 0,005 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0004 H16 0 0 0 0 0 0 0 0 0 0 0,006 0 0 0 0 0,0004 H17 0,175 0,321 0,245 0,281 0,255 0,357 0,232 0,167 0,335 0,166 0,169 0,220 0,298 0,415 0,347 0,2526 H18 0 0 0 0 0 0 0 0 0 0 0,017 0 0 0 0 0,0013 H19 0 0,006 0 0 0 0 0,016 0,017 0 0 0 0 0 0 0 0,0030 H20 0 0,024 0 0,006 0,027 0 0 0 0 0 0 0,008 0 0 0 0,0047 H21 0 0 0 0 0 0 0 0 0 0 0 0 0 0,009 0,008 0,0009 H22 0,005 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0004 H23 0,058 0 0 0 0,011 0 0 0 0 0,012 0,006 0 0,016 0 0 0,0081 H24 0 0 0 0 0 0 0 0 0 0 0,017 0 0 0 0 0,0013

H25 0,010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0009 H26 0,010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0009 H27 0,010 0,006 0 0 0,016 0 0 0,035 0,005 0,012 0,006 0 0,065 0,028 0,034 0,0133 H28 0,005 0,006 0,041 0,011 0,011 0 0,026 0,063 0,005 0,075 0,045 0,119 0,016 0,028 0,051 0,0330 H29 0 0 0 0 0 0 0 0 0 0,006 0,006 0 0 0 0 0,0009 H30 0 0 0 0 0 0 0 0 0 0 0,006 0,034 0 0 0 0,0021 H31 0 0 0 0 0 0 0,021 0 0 0 0 0 0 0 0 0,0017 H32 0,005 0 0 0 0 0 0,016 0 0,010 0 0 0 0 0 0 0,0026 H33 0 0 0,005 0 0 0 0 0,017 0 0 0 0 0 0 0 0,0017 Diversidade haplotípica 0,622 0,537 0,589 0,546 0,698 0,624 0,748 0,726 0,715 0,639 0,720 0,761 0,685 0,652 0,661 0,697

BRA: Brasileiros em Ribeirão Preto, São Paulo, Brasil; CEU: Residentes de Utah com ancestrais do norte e oeste da Europa; TSI: Residentes da Toscana na Itália; GBR: Britânicos

da Inglaterra e Escócia; FIN: Finlandeses da Finlândia; IBS: População Ibérica na Espanha; CHB: População Han em Pequin, China; JPT: Japoneses em Tóquio; CHS: População Han do sul da China; YRI: Yoruba em Ibadan, Nigéria; LWK: Luhya em Webuye, Quênia; ASW: Afrodescentes americanos no sudoeste dos EUA; MXL: Residentes de Los Angeles, Califórnia com ancestrais mexicanos; PUR: Porto-riquenhos; CLM: Colombianos de Medellín.

Tabela 8: Haplótipos encontrados considerando os pontos de variação presentes nas sequências genômicas que codificam a porção externa na molécula HLA-E (éxons 1-4, incluindo os íntrons) e região 3’ NT do mRNA de HLA-E (incluindo o íntron 7).

Região Codificadora 3’ Não Traduzida

Alelo HLA-E associadoa Haplótipos 170 363 424 756 971 ₁₀₁₄ ₁₂₇₈ ₁₂₈₃ ₁₂₉₄ ₁₃₂₂ ₁₆₂₅ ₁₆₂₇ ₁₆₄₄ ₁₆₄₅ ₁₈₅₇ ₃₁₆₆ ₃₂₀₄ ₃₄₄₇ ₃₄₆₈ ₃₅₂₈ ₃₅₅₈ ₃₆₃₄ ₃₆₉₅ ₃₇₇₇ ₃₇₇₈ ₄₀₈₄ ₄₂₉₇ ₄₄₁₅ Linhagem E010301 H01 G C C G G T C G G G G C G A C C A C A C C G G A A G G C 01:03:01 H02 G C C G G T C G G A G C G A C C A C A C C G G A A G G C 01:03:01 H08 G C C G A T C G G A G C G A C C A C A C C G G A A G G C 01:03:01971A H03 G C C G G T C G G G C C G A C C A C A C C G G A A G G C 01:03:05 H04 G C C G G T C G G G G C G A C C G C A T C G G A A G G C 01:03:01 H05 G C C G G T C G G G G C G A T C A C A C C G G A A G G C 01:03:01287P→S H06 G C C G G T C G G G G C A A C C A C A C C G G A A G G C 01:03:01216D→N H07 G C C G G T C G G G G C G A C C A C A C C G G A G G G C 01:03:01 Linhagem E010101 H09 G C C A G T C G G G G C G A C C A C A C C G G A A G G C 01:01:01 H10 G C C A G T C G G G G C G A C C A C C C C G G A A G G C 01:01:01 H16 G T C A G T C G G G G C G A C C A C C C C G G A A G G C 01:01:0177S→I H11 G C C A G T C G G G G C G A C G A C A C C G G A A G G C 01:01:01 H12 G C C A G T C G G G G C G A C C A C A C C A G A A G G C 01:01:01 H13 G C C A G T C G G G G C G A C C A T A C C G G A A G G C 01:01:01 H14 G C C A G T C G G G G C G A C C A C A C C G A A A A G C 01:01:01 H15 T C C A G T C G G G G C G A C C A C A C C G G A A G G C 01:01:01 Linhagem E010302a H17 G C T G G T C G G G G C G A C C A C A C C G G G A G G C 01:03:02:01

H18 G C T G G T C G G G G C G A C C A C A C C G G G A G G T 01:03:02:01 H19 G C T G G T C G G G G C G A C C A C A C T G G G A G G C 01:03:02:01 H20 G C T G G A C G G G G C G A C C A C A C C G G G A G G C 01:03:02 H21 G C T G G T T G G G G C G A C C A C A C C G G G A G G C 01:03:02 H22 G C T G G T C G A G G C G A C C A C A C C G G G A G G C 01:03:02 Linhagem E010302b H23 G C T G G T C G G G G C G A C C A C A C C G G A A G G C 01:03:02:01 H24 G C T G G T C G G G G C G A C C A C A C C A G A A G G C 01:03:02:01 H25 G C T G G T C G G G G C G T C C A C A C C G G A A G G C 01:03:02216D→V H26 G C T G G T C G G G G C G A C C A C A C C G G A A G A C 01:03:02:01 Possível permutação entre os haplótipos das diferentes linhagens

H27 G C C A G T C G G G G C G A C C A C A C C G G G A G G C 01:01:01 H28 G C T G G T C G G G G C G A C C A C A C C A G A A G A C 01:03:02:01 H29 G C C G G T C G G A G C G A C C A C A T C G G A A G G C 01:03:01 H30 G C C G G T C G G G C C G A C C A C A T C G G A A G G C 01:03:05 H31 G C C A G T C G G G G C G A C G A C C C C G G A A G G C 01:01:01 H32 G C C G G T C G G G G C G A C C A C A C C G G G A G G C 01:03:01 H33 G C C G G T C G G G G C G A C G A C A C C G G A A G G C 01:03:01 Primatas P. troglodytes G C C G G T C G G G G C G A C C A C A C C G G A A G - - Similar ao H01 humano G. gorilla G C C G G T T G G G G C G A C C G C A C C G G A A G G C M. mulata _{G C C A G T T G A G G C G A C C G C A C - - -}

- Região não avaliada a

Haplótipo da região codificadora convertido em um alelo reconhecido pelo IMGT/HLA. Casos em que os haplótipos puderam ser distinguidos por mutações sinônimas, a posição do nucleotídeo e o novo nucleotídeo são apresentados em sobrescrito. Casos em que os haplótipos puderam ser distinguidos por mutações não sinônimas, o número do códon e a troca do aminoácido foram fornecidos em sobrescrito.

Figura 8: Rede de haplótipos ilustrando as relações entre os 33 haplótipos (Tabela 8) encontrados em populações mundiais. A rede de haplótipos foi calculada utilizando-se o algoritmo median joining pelo software Network 4.6.1.0. O grupo externo representa uma sequência de Pan troglodytes adicionando-se o ponto de variação +433.

O haplótipo H09 é o mais frequentemente encontrado em todas as populações avaliadas (Tabela 7). Este haplótipo está associado a um alelo que codifica a molécula E*01:01 (que possui uma arginina codificada pelo códon 107, com uma adenina na posição +756). A população brasileira apresentou o maior número de haplótipos e alguns exclusivos do Brasil, incluindo os haplótipos H13, H22, H25, entre outros. O segundo haplótipo mais frequente considerando todos os grupos é o H17, o qual está associado à sequência de codificação da molécula de E*01:03 (que possui uma glicina codificada pelo códon 107, com uma guanina na posição +756 e uma timina na posição +424). A maior diversidade haplotípica foi detectada para os Afrodescendentes americanos (Tabela 7).

Ao avaliar a sequência de cada haplótipo HLA-E (Tabela 8) e a network construída (Figura 8), quatro linhagens de haplótipos HLA-E puderam ser definidas com características semelhantes (mutações comuns e um alelo principal codificador do gene HLA-E). A primeira linhagem, E010301, é provavelmente a linhagem mais antiga, já que parece ser compartilhada com outros primatas. Dentro deste grupo há vários sub-haplótipos, todos partilhando a mesma região codificadora para o alelo E*01:03:01 (que possui uma glicina codificada pelo códon 107, com uma guanina na posição +756 e uma citosina na posição +424), com exceção do haplótipo H03. O alelo codificador presente no haplótipo H03 é o E*01:03:05. Este alelo, pode ter derivado a partir do alelo E* 01:03:01 por uma única mutação na posição +1625.

A segunda linhagem principal, E010101, é derivada do haplótipo H09. O H09 é, de fato, o haplótipo mais comum na maioria das populações avaliadas. Esta linhagem provavelmente derivou do haplótipo H01 por uma única mutação (G → A) na posição +756. A linhagem derivada do H09 compartilha a mesma região codificadora com poucas mutações e uma proteína única: E*01:01 (que possui uma arginina codificada pelo códon 107, com uma adenina na posição +756). Vários sub- haplótipos podem ser encontrados nesta linhagem, todos provavelmente derivados do haplótipo H01. A partir desta linhagem deriva o haplótipo H10 com uma mutação na região 3'NT, na posição +3468, e a partir deste último é derivado o H16 com uma mutação C → T na posição +363.

A linhagem E010302b é derivada do H01 por uma única mutação, uma transição C → T na posição +424. À partir desta mutação surgiu o haplótipo H23, uma etapa intermediária entre H01 e H17. A partir de H23, outros três sub-haplótipos

foram encontrados, porém o haplótipo mais frequente desta linhagem (H28) parece resultar de um evento permutação entre dois haplótipos de baixa frequência, os haplótipos H24 e H26.

A última linhagem, E010302a, é representada principalmente pelo haplótipo H17. Este haplótipo pode ter se derivado de H23 ou H32 por uma mutação única. O grupo principalmente caracterizado pela presença de uma mutação C → T na posição +424 e A → G em +3777. Esta linhagem, derivada do H17, é caracterizada por partilhar o alelo E*01:03:02 e uma sequência 3' NT muito semelhante.

Além das variantes conhecidas para a região codificadora do gene HLA-E, alguns haplótipos encontrados definem novos sequências não-oficializadas do gene HLA-E. Em nossas análises 9 haplótipos com diferentes regiões codificadoras foram encontrados. Estes haplótipos não são compatíveis como nenhum outro já descrito na base de dados IMGT/HLA, entre os quais:

(a) quatro são semelhantes aos do alelo E*01:03:01, incluindo os haplótipos E*01:03:01-1322A (H2), E*01:03:01-971A-1322A (H08), 1:03:01-1857T (H05) e 01:03:01-1644A (H06). Destes, os dois últimos produzem uma molécula HLA-E diferente devido a uma substituição não sinônima (Tabela 8);

(b) dois são semelhantes ao alelo E*01:01:01, incluindo E*01:01:01-363T (H16) e E*01:01:01-170T (15), sendo que o primeiro haplótipo está associado a uma molécula de HLA-E diferente devido a mutações não sinônimas;

(c) três são semelhantes ao E*01:03:02, incluindo E*01:03:02-1278T (H21), E*01:03:02-1294A (H22), e E*01:03:02-1645T (H25), sendo que o último haplótipo produz uma molécula de HLA-E diferente (Tabela 8).

6. DISCUSSÃO

No presente estudo a variabilidade das regiões codificantes e 3’ NT do gene HLA-E foi avaliada no Brasil e os resultados foram comparados com dados oriundos do projeto 1000Genomes. Considerando-se todas as populações avaliadas, 34 pontos de variação foram encontrados na região proposta (éxons 1-4, incluindo íntrons, e toda a sequência genômica da região 3' NT, incluindo íntron 7), porém apenas 28 pontos de variação foram considerados nas demais análises já que 6 foram considerados singletons. Foram detectados 33 haplótipos com base nestes polimorfismos.

A alta variabilidade presente na população brasileira, devido a miscigenação que ocorreu ao longo de séculos, tornou nossa população uma ótima fonte de estudos para diversidade genética. De fato, a população brasileira é considerada como um excelente repositório de variação genética e boa fonte de informação para caracterização da variabilidade genética de um determinado segmento genômico. A comparação dos dados sobre variação do gene HLA-E entre diferentes populações, como as presentes no projeto 1000Genomes, com dados de uma população tão diversa como a população brasileira, pode ser uma fonte rica de informações sobre a história evolutiva e as relações entre as linhagens de haplótipos para este gene.

Dentre todos genes do MHC humano, o HLA-E é considerado o menos variável (Tabela 1). Curiosamente, o HLA-E está localizado entre dois dos genes mais polimórficos do genoma humano, a saber HLA-A e HLA-C (Shiina et al., 2009), que juntos apresentam mais de 3800 alelos descritos e catalogados pelo IMGT/HLA (Database 3.10). No entanto, acreditava-se que esta baixa variabilidade poderia estar em parte relacionada com os poucos trabalhos realizados avaliando este gene usando sequenciamento de DNA.

Levando em consideração a presente análise, tornou-se claro que o gene HLA-E é, de fato, um gene que desvia da alta diversidade característica dos outros locos HLA clássicos. Mesmo para as 1.168 amostras, que passaram nos critérios previamente estabelecidos após as inferências haplotípicas e considerando apenas a região codificadora do gene HLA-E (a região em que a variabilidade é catalogada pela base de dados IMGT/HLA), apenas 14 haplótipos codificadores foram encontrados (Tabela 8). Estes 14 haplótipos (ou alelos codificadores) representam

um número muito menor do que os milhares de alelos de HLA descritos para os genes HLA-A, -B ou -C, além de representar a metade dos alelos já descritos pelo IMGT/HLA para outro gene não clássico de classe I, o HLA-G (Tabela 1).

No documento VARIABILIDADE E HISTÓRIA EVOLUTIVA DO GENE HLA-E (páginas 41-77)