• Nenhum resultado encontrado

Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs

N/A
N/A
Protected

Academic year: 2021

Share "Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs"

Copied!
79
0
0

Texto

(1)Caracterização da estrutura de dependência do genoma humano usando campos Markovianos Estudo de populações mundiais e dados de SNPs. Francisco José de Almeida Fernandes. Dissertação Apresentada ao Instituto de Matemática e Estatística da Universidade de São Paulo para obtenção do título de Mestre em Ciências. Programa: Estatística Orientador: Profa. Dra. Júlia Maria Pavan Soler São Paulo, fevereiro de 2016.

(2) Caracterização da estrutura de dependência do genoma humano usando campos Markovianos - Estudo de populações mundiais e dados de SNPs. Esta versão da dissertação contém as correções e alterações sugeridas pela Comissão Julgadora durante a defesa da versão original do trabalho, realizada em 01/02/2016. Uma cópia da versão original está disponível no Instituto de Matemática e Estatística da Universidade de São Paulo.. Comissão Julgadora: • Profa . Dra . Júlia Maria Pavan Soler - IME-USP • Profa . Dra . Lúcia Pereira Barroso - IME-USP • Profa . Dra . Suely Ruiz Giolo - UFPR.

(3) i Muitas pessoas deveriam ser citadas neste agradecimento, muitos colegas, professores e amigos que de uma forma ou de outra, seja ajudando a eliminar uma dúvida, seja nas palavras de conforto e incentivo, me ajudaram a enfrentar todos os desafios e atingir este objetivo. Não gostaria de citálos nominalmente para não correr o risco de, por alguma falha de minha parte, esquecer algum deles. Muito deste trabalho é continuação da iniciação científica de Andressa Cerqueira e da monografia de André Bianchi, aos quais faço aqui um especial destaque. À doutora Suely Giolo agradeço pelo fornecimento do arquivo de dados, matéria prima deste trabalho. Agradeço ao meu pai por ter provado que apenas no dicionário, sucesso pode vir antes de trabalho; à minha mãe por ter colocado em mim o fascínio por essa máquina chamada "corpo humano"; à minha esposa pelo seu otimismo sem medidas; aos meus filhos pela importância que deram a este trabalho; à profa. dra. Florencia Leonardi por ter sido a primeira a acreditar que eu poderia chegar até aqui; à profa. dra. Júlia M P Soler, porque mais do que uma orientadora, foi cúmplice desta dissertação e, acima de tudo, agradeço a Deus, por ter permitido todas essas pessoas tão próximas a mim.. "A grandeza não consiste apenas em receber honras, mas em merecê-las"(Aristóteles).

(4) ii.

(5) Resumo FERNANDES, F. J. A. Caracterização da estrutura de dependência do genoma humano usando campos Markovianos - estudo de populações mundiais e dados de SNPs. 2016. 79 f. Dissertação (Mestrado) - Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2016. A identificação de regiões cromossômicas, ou blocos de dependência dentro do genoma humano, que são transmitidas em conjunto para seus descendentes (haplótipos) tem sido um desafio e alvo de várias iniciativas de pesquisa, muitas delas utilizando dados de plataformas de marcadores moleculares do tipo SNP (Single Nucleotide Polymorphisms - SNPs), com alta densidade dentro do DNA humano. Este trabalho faz uso de uma modelagem estocástica de campos Markovianos de alcance variável, em uma amostra estratificada de diferentes populações, para encontrar blocos de SNPs, independentes entre si, estruturando assim o genoma em regiões ilhadas de dependência. Foram utilizados dados públicos de SNPs de diferentes populações mundiais (projeto HapMap), além de uma amostra da população brasileira. As regiões de dependência configuram janelas de influência as quais foram usadas para caracterizar as diferentes populações de acordo com sua ancestralidade e os resultados obtidos mostraram que as janelas da população brasileira têm, em média, tamanho maior, evidenciando a sua história recente de miscigenação. É também proposta uma otimização da função de verossimilhança do problema para obter as janelas de consenso maximais de todas as populações. Dada uma determinada janela de consenso, uma medida de distância apropriada para variáveis categóricas, é adotada para medir sua homogeneidade/heterogeneidade. Janelas homogêneas foram identificadas na região HLA (Human Leukocyte Antigen) do genoma, a qual está associada à resposta imunológica. O tamanho médio dessas janelas foi maior do que a média encontrada no restante do cromossomo, confirmando a alta dependência existente nesta região, considerada como bastante conservada na evolução humana. Finalmente, considerando a distribuição dos SNPs entre as populações nas janelas mais heterogêneas, a Análise de Correspondência foi aplicada na construção de um classificador capaz de determinar o percentual relativo de ancestralidade de um indivíduo, o qual, submetido à validação, obteve uma eficiência de 90% de acerto da população originária. Palavras-chave: campos Markovianos de alcance variável, HapMap, blocos de SNPs, ancestralidade, miscigenação. iii.

(6) iv.

(7) Abstract FERNANDES, F. J. A. Characterization of the human genome dependence structure using Markov random fields - populations worldwide study and SNP data. 2016. 79 f. Dissertation (master’s degree) - Mathematics and Statistical Institute, University at São Paulo, São Paulo, 2016. The identification of chromosome regions, or dependency blocks in the human genome, that are transmitted together to offspring (haploids) has been a challenge and object of several research initiatives, many of them using platforms of molecular markers such as SNP (Single Nucleotide Polymorphisms), with high density inside the human DNA. This work makes use of a stochastic modeling of Markov random fields, in a stratified sample of different populations, to find SNPs blocks, independent of each other, thus structuring the genome in stranded regions of dependency. Public data from different worldwide populations were used (HapMap project), beyond a Brazilian population. The dependence regions constitute windows of influence which were used to characterize the different populations according of their ancestry and the results showed that the Brazilian population’s windows have, on average, a bigger size, showing their recent history of admixture. It is also proposed an optimization of likelihood function of the problem for the maximal windows of consensus from all populations. Given a particular window of consensus, a distance measure appropriated to categorical variables, it is adopted to evaluate its homogeneity/heterogeneity. Homogeneous windows were identified within region of genome called HLA (Human Leukocyte Antigen), which is associated with the immune response. The average size of these windows was bigger than the average found in the rest of the chromosome, confirming the high dependence verified in this region, considered highly conserved in the human evolution. Finally, considering the distribution of the SNPs among the populations in the most heterogeneous windows, the Correspondence Analysis was applied to build a classifier able to determine, for a given individual, the ancestry proportion from each population considered, which, submitted to a validation, obtained a 90% accuracy of the original population. Keywords: variable range Markov random fields, HapMap, SNP blocks, ancestry, admixture. v.

(8) vi.

(9) Sumário Lista de Abreviaturas. ix. Lista de Figuras. xi. Lista de Tabelas. xiii. 1 Introdução. 1. 1.1. Genoma Humano, SNPs e o Projeto HapMap . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Estudos de Regiões de Dependência no Genoma . . . . . . . . . . . . . . . . . . . . .. 2. 1.3. Ancestralidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.5. Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2 Modelagem da Estrutura de Dependência do Genoma 2.1. 2.2. Notação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9 9. 2.1.1. Modelagem por Campos Markovianos . . . . . . . . . . . . . . . . . . . . . . 11. 2.1.2. Vizinhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12. Função de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.1. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. 2.2.2. Janelas de Influência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. 2.3. Estratificação Populacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. 2.4. Janelas de Consenso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16. 3 Caracterização das Janelas de Consenso e Classificação das Observações. 19. 3.1. Índice de Heterogeneidade (IH) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19. 3.2. Classificador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.1. Análise de Correspondência - Representação Gráfica . . . . . . . . . . . . . . 23. 3.2.2. Mapa Biplot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25. 4 Aplicação - Análise das Janelas de Influência na História Ancestral das Populações. 27. 4.1. Preparação e Descrição dos Dados Utilizados no Estudo . . . . . . . . . . . . . . . . 27. 4.2. Parte I - Estimação e Estudo das Janelas de Influência . . . . . . . . . . . . . . . . . 30 4.2.1. Tamanhos das Janelas de Cada População . . . . . . . . . . . . . . . . . . . . 30. 4.2.2. Distribuição das Janelas por População . . . . . . . . . . . . . . . . . . . . . 31. 4.2.3. Comparação de Resultados Extremos . . . . . . . . . . . . . . . . . . . . . . . 32 vii.

(10) viii. SUMÁRIO. 4.3. Parte II - Estimação e Estudo das Janelas de Consenso . . . . . . . . . . . . . . . . . 33 4.3.1. Caracterização das Janelas de Consenso Maximal . . . . . . . . . . . . . . . . 36. 4.3.2. Região HLA do Genoma - Janelas Homogêneas . . . . . . . . . . . . . . . . . 37. 4.3.3. Classificador - Janelas Heterogêneas . . . . . . . . . . . . . . . . . . . . . . . 41. 5 Considerações Finais. 45. 5.1. Conclusões e Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. 5.2. Estudos Futuros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47. A Apêndice. 51. A.1 Códigos Fonte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 A.1.1 Recodificação dos SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 A.1.2 Janelas de Consenso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 A.1.3 Classificador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55. A.2 Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 A.3 Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Referências Bibliográficas. 61.

(11) Lista de Abreviaturas DNA. molécula formadora do genoma (ácido desoxirribonucleico). SNP. Single Nucleotide Polymorphism - Polimorfismos de nucleotídeo único. LD. Linkage Disequilibrium - Desequilíbrio de Ligação. HLA. Human Leukocyte Antigen - região específica do DNA. MCMC. Markov Chain Monte Carlo - Monte Carlo em Cadeias de Markov. HMC. Hiden Markov Chain - Cadeias de Markov escondidas. Jp. janelas de influência populacionais, particulares de cada população. Jc. janelas de consenso entre as populações. Jt. janelas de influência adotando todas as populações como uma única amostra. AC. Análise de Correspondência. ACS. Análise de Correspondência Simples. IH. Índice de Heterogeneidade. IS. Índice de Similaridade. PLINK. programa de código aberto para análise de dados genéticos. ix.

(12) x. LISTA DE ABREVIATURAS.

(13) Lista de Figuras 1.1. Ilustração da presença de um SNP (alteração de um único par de bases) em uma região do genoma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.2. História ancestral das populações - uma visão ilustrativa . . . . . . . . . . . . . . . .. 5. 1.3. Localização geográfica aproximada das populações utilizadas no estudo. . . . . . . .. 7. 1.4. Fluxograma das etapas do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.1. Algoritmo de árvore de contexto: exemplo para uma vizinhança de tamanho 3.. 2.2. Visão esquemática da construção de janelas de influência de SNPs. . . . . . . . . . . 15. 2.3. Esquema ilustrando a construção de uma janela de consenso maximal. . . . . . . . . 17. 3.1. Exemplos de janelas de consenso heterogênea e homogênea. . . . . . . . . . . . . . . 20. 3.2. Exemplo hipotético para ilustrar o procedimento de cálculo dos índices de heteroge-. . . . 15. neidade (IH) e similaridade (IS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3. Gráfico mostrando os perfis linha da Tabela 3.1 em coordenadas triangulares . . . . . 24. 4.1. Distribuição dos 365.116 SNPs comuns às populações ao longo dos 22 cromossomos somáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27. 4.2. Número de janelas por população.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31. 4.3. Tamanho médio das janelas por população. . . . . . . . . . . . . . . . . . . . . . . . 31. 4.4. Distribuição do tamanho médio das janelas por população. . . . . . . . . . . . . . . . 31. 4.5. Comparação da distribuição das janelas maiores nas populações ASW e BRZ. . . . . 32. 4.6. Distribuição das janelas por cromossomo nas populações ASW e BRZ. . . . . . . . . 33. 4.7. Exemplo das janelas de influência obtidas para cada população nos primeiros SNPs do cromossomo 1. Indicação das respectivas janelas de consenso maximal das populações e as janelas obtidas para toda a amostra sem segmentação por população. . . . . . . 35. 4.8. Boxplot dos índices IS e IH por cromossomo. . . . . . . . . . . . . . . . . . . . . . . 36. 4.9. Dispersão dos índices IS e IH (a linha vermelha representa a mediana do índice respectivo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37. 4.10 Cromossomo 6 com a região HLA em destaque. . . . . . . . . . . . . . . . . . . . . . 37 4.11 Mapa das regiões HLA no cromossomo 6. . . . . . . . . . . . . . . . . . . . . . . . . 38 4.12 SNPs comuns na região HLA-DOB e as janelas de influência e de consenso do entorno. 39 4.13 Comparação dos tamanhos das janelas de consenso na região HLA e no cromossomo 6. 39 4.14 Exemplo do Biplot bidimensional produzido pela ACS da Tabela 4.7. . . . . . . . . . 42 4.15 Exemplo do Biplot bidimensional produzido para uma janela com mais de três genótipos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42. xi.

(14) xii. LISTA DE FIGURAS. 4.16 Classificação utilizando mapa Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.1. Comparação entre alguns resultados obtidos por Greenspam e Geiger (Greenspan e Geiger, 2006), com os deste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49. A.1 Distribuição das janelas ’grandes’ em cada população do estudo. . . . . . . . . . . . . 59 A.2 Janelas encontradas nas regiões dos SNPs da região do HLA. . . . . . . . . . . . . . 60.

(15) Lista de Tabelas 1.1. Populações disponíveis no projeto HapMap. . . . . . . . . . . . . . . . . . . . . . . .. 2. 2.1. Exemplos da codificação adotada para cada SNP. . . . . . . . . . . . . . . . . . . . . 10. 3.1. Tabela de contingência hipotética representativa de uma janela contendo 3 diferentes genótipos (G1, G2, G3) em 5 populações (P1, P2, P3, P4, P5). Valores entre parênteses são as frequências relativas. . . . . . . . . . . . . . . . . . . . . . . . . . . 23. 4.1. Populações amostradas e número de indivíduos considerados no estudo . . . . . . . . 28. 4.2. Número de SNPs e as Janelas obtidas por população para cada cromossomo . . . . . 29. 4.3. Agrupamento das populações segundo sua ancestralidade primária . . . . . . . . . . 30. 4.4. Tabela resumo das regiões HLA encontradas . . . . . . . . . . . . . . . . . . . . . . . 38. 4.5. Janelas de consenso existentes nas regiões HLA encontradas . . . . . . . . . . . . . . 40. 4.6. Distribuição das janelas heterogêneas com IH>50% ao longo dos cromossomos . . . . 41. 4.7. Exemplo da tabela de contingência do classificador . . . . . . . . . . . . . . . . . . . 41. 4.8. Tabela de validação do classificador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43. 4.9. Tabela resumida mostrando os resultados obtidos para o classificador, em diferentes amostras e utilizando diferentes janelas de consenso. . . . . . . . . . . . . . . . . . . 44. A.1 Classificação utilizando mapa Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . 57. xiii.

(16) xiv. LISTA DE TABELAS.

(17) Capítulo 1. Introdução 1.1. Genoma Humano, SNPs e o Projeto HapMap. Desde o anúncio e publicação em fevereiro de 2001 dos primeiros rascunhos do genoma humano, feito separadamente pelo Consórcio Internacional para Sequenciamento do Genoma Humano (IHGSC - International Human Genome Sequencing Consortium) e pela empresa Celera Genomics Corporation, pesquisadores do mundo todo têm se debruçado sobre a sequência de mais de 3 bilhões de pares de bases nitrogenadas (nucleotídeos) na busca de compreender como cada pedaço do genoma é responsável por nossa diversidade, onde estão as causas das anomalias, doenças, síndromes, etc. O genoma humano é formado por moléculas químicas longas (DNA - ácido desoxirribonucleico) contendo duas fitas formadas por moléculas de açúcar (desoxirribose) e fosfato, unidas por pares de bases nitrogenadas de quatro tipos: A (adenina),C (citosina),T (timina) e G (guanina). O DNA está estruturado em organelas celulares denominadas cromossomos, os quais aparecem aos pares, sendo um proveniente da mãe e outro do pai, razão pela qual somos classificados em seres do tipo diplóide (dois cromossomos homólogos). Regiões cromossômicas que são transmitidas diretamente de um dos pais são denominadas haplótipos e muitos trabalhos de pesquisa têm como foco principal a identificação desses blocos, utilizando diferentes abordagens e propondo algoritmos distintos para tal (Geraci, 2010). Os genes são sequências de nucleotídeos ao longo de uma ou mais regiões do DNA que contêm a codificação química para a elaboração de proteínas (Lesk, 2005), identificados em uma posição determinada de um cromossomo, chamada loco. Alelos são formas alternativas de bases nitrogenadas presentes em cromossomos homólogos, num mesmo loco. Assim, dado um determinado loco, as bases nitrogenadas dos alelos formam o que chamamos genótipo do indivíduo naquele loco. Muito importante é notar, portanto, a diferença entre montagem de haplótipos, que são regiões genômicas num mesmo cromossomo, versus montagem de genótipos, que correspondem à informação genética de um loco nos dois cromossomos homólogos1 . Quando existem variações genéticas entre indivíduos para um mesmo loco, este é chamado 1. Particularmente, neste trabalho, utiliza-se a informação genotípica.. 1.

(18) 2. 1.2. INTRODUÇÃO. Figura 1.1: Ilustração da presença de um SNP (alteração de um único par de bases) em uma região do genoma. Tabela 1.1: Populações disponíveis no projeto HapMap.. Rótulo ASW CEU CHB CHD GIH JPT LWK MEX MKK TSI YRI BRZ. Origem da População população do sudoeste dos EUA com ancestralidade africana residentes de Utah com ancestralidade do norte e ocidente da Europa chineses em Beijing, China, com ancestralidade da dinastia Han chineses residentes na área metropolitana de Denver, Colorado índios Gujarati em Houston, Texas japoneses em Tokyo, Japão residentes em Webuye, Quênia com ancestralidade Luhya residentes em Los Angeles, Califórnia com ancestralidade mexicana residentes em Kinyawa, Quênia com ancestralidade Maasai residentes próximos a Florência, Itália com ancestralidade toscana residentes em Ibadan, Nigéria com ancestralidade Yoruba brasileiros residentes em Baependi, Minas Gerais. polimórfico. Entre os diferentes tipos de polimorfismos, destacam-se os SNPs (Single Nucleotide Polymorphisms - SNPs), quando há alteração em apenas um único par de bases (ver Figura 1.1). Os SNPs estão distribuídos ao longo de todo o genoma, são originados de mutações e dada sua alta densidade podem ser utilizados como marcadores moleculares estáveis no mapeamento de genes (Lesk, 2005). Por estas características, têm sido utilizados em vários trabalhos científicos como amostradores do genoma, de fato, os SNPs podem ser utilizados para amostrar o genoma com uma cobertura representativa de sua variabilidade. O projeto HapMap (Consortium et al., 2005) é um consórcio formado por vários países com o objetivo de identificar e catalogar as diferenças e similaridades entre o genoma de seres humanos através do levantamento do mapa dos SNPs em várias populações humanas (ver Tabela 1.1), distribuídas em regiões geográficas distintas e com diferentes ancestralidades. Com início em 2002, disponibiliza informações genotípicas, bem como haplotípicas, das populações estudadas, as quais podem ser utilizadas para identificar regiões cromossômicas onde variantes genéticas são compartilhadas, além de ajudar no mapeamento de genes, isto é, na identificação de genes associados a doenças ou envolvidos na resposta terapêutica às drogas.. 1.2. Estudos de Regiões de Dependência no Genoma. A montagem de haplótipos e o mapeamento de genes são apenas dois exemplos da importância de se encontrar regiões genômicas contíguas e com significado biológico, estatisticamente falando,.

(19) 1.2. ESTUDOS DE REGIÕES DE DEPENDÊNCIA NO GENOMA. 3. regiões que guardam dependência interna na distribuição de seus nucleotídeos. Este trabalho tem por objetivo contribuir na identificação desses blocos de dependência que ocorrem dentro do genoma humano. Entre as medidas probabilísticas de dependência interna do genoma, destaca-se o desequilíbrio de ligação ou LD do inglês Linkage Disequilibrium, definido como a associação entre alelos (ou genótipos) em diferentes locos, um indicador sensível das forças genéticas que estruturam o genoma (Slatkin, 2008). O desequilíbrio de ligação representa a fuga da independência na distribuição dos alelos (ou genótipos) em diferentes locos e, portanto, quando alelos de dois locos são encontrados juntos mais do que esperado sob independência, há evidência de LD. Quando da formação das células reprodutoras no processo denominado de meiose, há a possibilidade de troca de pedaços de genoma nos cromossomos homólogos, fenômeno conhecido como recombinação gênica. Os eventos de recombinação entre dois locos são avaliados segundo um parâmetro λ, que varia entre 0 e 0, 5. Quanto mais próximo λ estiver de 0, mais próximos (em distância genética) estão os dois locos e, portanto, menor a probabilidade de haver recombinação gênica nesse intervalo, consequentemente, maior o LD entre estes locos. Apesar de, em um contexto geral, ambas as medidas serem usadas no estudo de associação entre locos genéticos, não há uma função estabelecendo uma relação direta entre LD e recombinação gênica (Lange, 2002). Uma utilização importante da análise do LD é no mapeamento de doenças, isto é, na identificação de marcadores (por exemplo, SNPs) em LD com mutações causais para doenças. Quando uma mutação desse tipo é introduzida em uma população, ela necessariamente estará situada em um haplótipo, cercada por outros marcadores moleculares que estarão em completo desequilíbrio de ligação com a mutação, ou seja, encontra-se o marcador mutante (causal da doença) apenas na presença de um conjunto específico de marcadores adjacentes. Ao longo das gerações, no entanto, as recombinações gênicas acabam ocorrendo e o LD verificado gradualmente é dissipado. De fato, o LD depende de λ e do número de gerações desde que a mutação foi introduzida na população (Jorde, 1995). Eventos como os movimentos migratórios e a miscigenação, que alteram a distribuição dos alelos em uma população, podem quebrar a relação entre LD e eventos de não-recombinação pois podem conduzir ao LD entre locos distantes (por exemplo, em diferentes cromossomos). Por esta razão, o mapeamento de genes em populações miscigenadas merece cuidados adicionais, como o uso de testes estatísticos protegidos do efeito de resultados falsos positivos. A busca por regiões de marcadores em LD, envolvendo não apenas pares de locos em desequilíbrio mas análises de multilocos em LD (blocos de SNPs em regiões genômicas com desequilíbrio na distribuição das probabilidades alélicas ou genotípicas), é a base dos métodos de mapeamento genético e o nível do desequilíbrio esperado em uma dada região e em uma dada população serve de base para a interpretação dos estudos de associação, especialmente em estudos que visam o entendimento da arquitetura genética de regulação de doenças. Esses blocos podem conter dois ou mais locos em LD, aumentando a complexidade dos padrões e níveis de LD. As medidas de desequilíbrio de ligação, considerando análises alélicas e não genotípicas, são largamente utilizadas para montagem de haplótipos (Druet e Georges, 2010), isto é, na reconstru-.

(20) 4. INTRODUÇÃO. 1.3. ção dos blocos genômicos localizados em um mesmo cromossomo, mas esta classe de análises está restrita a um primeiro passo de processamento dos dados conhecido como phasing, que transforma dados genotípicos em alélicos. Iniciativas de determinação de haplótipos têm envolvido algoritmos baseados em cadeias de Markov escondidas, HMC - Hidden Markov Chain (Druet e Georges, 2010) e amostragem de Monte Carlo em cadeias de Markov, MCMC - Markov Chain Monte Carlo (Bansal et al., 2008), entre outros (Bourgain et al., 2002). Kim et.al. propôs um modelo baseado em várias cadeias de Markov de múltiplas ordens para particionar o LD de uma região multiloco e a participação de cada possível sub-região no LD total (Kim et al., 2008). Além da associação intra blocos, Greenspam e Geiger utilizaram cadeias de Markov para mostrar que um modelo levando em conta a dependência entre os blocos de marcadores é mais acurado do que os modelos que assumem que os blocos são independentes (Greenspan e Geiger, 2006). Além da necessidade de conhecimento da fase alélica, estes métodos, em geral, assumem blocos de tamanho conhecido e associam tais blocos a uma doença específica. Os trabalhos e resultados citados evidenciam a complexidade da estrutura do genoma em termos de dependência, bem como sua importância na busca do conhecimento do papel do DNA na evolução da raça humana e sua diversidade. Na seção seguinte será introduzida a questão da ancestralidade e sua relação com a estrutura do genoma.. 1.3. Ancestralidade. A teoria mais aceita atualmente no que diz respeito à origem do Homo sapiens dá conta que sua migração teve início a partir da África, mais especificamente, na atual Etiópia (Schlesinger, 2010). A discussão das diversas evidências científicas que sustentam essa teoria foge do escopo deste trabalho, contudo, entre elas, está o fato de que, sendo as populações africanas mais antigas, o tempo permitiu um maior número de recombinações gênicas (mistura entre os genes dos pais), levando a haplótipos menores do que aqueles encontrados em populações mais recentes como os europeus e asiáticos. Neste contexto, a população brasileira, formada pela mistura de três populações ancestrais: ameríndias, africanos e europeus, tem uma história relativamente recente de miscigenação. Nas palavras do prof. Sérgio Pena: "Somos mesmo o país da miscigenação. Há brancos que são geneticamente negros e vice versa"(Pena et al., 2000). A informação transmitida pelos genes nas diversas populações foi largamente estudada por Cavalli-Sforza (Cavalli-Sforza, 1996), tendo, inclusive, proposto um conceito de distância genética entre pares de populações baseado nos genes adquiridos. No padrão do genoma dos indivíduos de hoje, encontramos blocos conservados dos ancestrais, variação no tamanho dos blocos, diferentes mutações distribuídas no genoma, variação na idade das mutações e redução progressiva das dependências devido à recombinação gênica. Uma visão ilustrativa dessa história ancestral das populações pode ser vista na Figura 1.2. Na busca do que as populações têm, geneticamente, em comum, os SNPs têm sido utilizados como marcadores importantes para caracterização e determinação da ancestralidade (Nassir et al., 2009; Coelho et al., 2014) e a análise de componentes principais desses marcadores é largamente.

(21) 1.4. OBJETIVOS. 5. Figura 1.2: História ancestral das populações - uma visão ilustrativa. usada no estudo de populações humanas (Price et al., 2006; Giolo et al., 2012).. 1.4. Objetivos. A determinação da estrutura de dependência do genoma serve de base para muitos estudos genéticos, especialmente os de mapeamento de genes, isto é, os que procuram associar regiões do genoma a determinada característica observável em um indivíduo (fenótipo). Apesar de existir o efeito de um único SNP na regulação de um determinado fenótipo2 , tal associação é, por vezes, difícil de encontrar significância estatística, o que se agrava em situações de múltiplos testes. Dada a alta densidade dos SNPs, não poderia haver uma certa influência entre eles? Até onde uma determinada base nitrogenada (A,C,T ou G) em um SNP não influencia ou é influenciada pelos outros SNPs ao seu redor? Essas regiões de influência, assim delimitadas, não poderiam ser usadas para caracterizar o genoma de diferentes populações? Neste contexto, o objetivo deste trabalho é propor uma alternativa utilizando uma abordagem baseada em modelagem estocástica, para estruturar o genoma em regiões dependentes e independentes, tendo como base os genótipos de plataformas de SNPs. Conforme discutido na seção 1.1, a ligação da dupla hélice do DNA é feita através de pontes de hidrogênio que unem as bases nitrogenadas, mas sempre em pares determinados. Assim, uma adenina(A) sempre se liga a uma timina(T) enquanto que a citosina(C) liga-se sempre com a guanina(G), o que nos permite identificar o par de bases de um loco, em um cromossomo, apenas sabendo uma de suas bases, pois a outra fica determinada pelo par correspondente. Consequentemente, para o genótipo desse loco, ou seja, as bases nitrogenadas dos dois cromossomos homólogos, paterno e materno, basta identificar uma base de cada cromossomo. Quando dizemos, portanto, que o genótipo de um indivíduo em um loco é A-C, na verdade sabemos que em um cromossomo esse loco é composto pelas bases T-A e no outro cromossomo pelas bases C-G. Essa característica química do DNA permite que o genótipo de cada SNP seja codificado utilizando um alfabeto, A, restrito, em que A = {A,C,T,G}, com |A| = 4, sendo |A| a cardinalidade do espaço A. Sendo o par (x, y) o genótipo de um SNP, em um loco de um determinado indivíduo, teremos: (x, y) ∈ {A,C,T,G}2 . 2. Como exemplo, a anemia falciforme é uma doença causada por um único SNP..

(22) 6. INTRODUÇÃO. 1.5. Existem algumas alternativas para codificação dos genótipos dos SNPs, as quais serão discutidas no Capítulo 2, por ora, basta compreender que, utilizando uma sequência de SNPs para amostrar o genoma, este pode ser escrito como uma sequência de códigos e ser modelado através de cadeias de Markov, onde cada estado representa os possíveis genótipos de um SNP específico, para assim encontrar as relações de dependência entre SNPs vizinhos. Considerando uma única população sob estudo, essa abordagem foi utilizada por Leonardi (2007), e devidamente adaptada por Bianchi (2009), de forma a encontrar os SNPs que influenciam e/ou são influenciados por seus vizinhos. Como resultado desse estudo foi possível limitar janelas de SNPs, nas quais há uma relação de dependência entre os SNPs internos e independência dos SNPs externos, constituindo assim uma estruturação para o genoma em regiões dependentes e independentes. Neste trabalho, utilizou-se essa técnica para levantamento das janelas de SNPs de cada população do projeto HapMap, bem como da amostra da população brasileira (ver Figura 1.3). Denotaremos estas como as "janelas populacionais" específicas de cada população (Jp). Os resultados obtidos foram utilizados para caracterizar as diferentes populações e, consequentemente, suas ancestralidades, conforme suas janelas de influência estimadas dos dados de SNPs. Estendendo o conceito de influência entre SNPs para a unificação das janelas (populacionais) de cada população propõe-se a construção de janela de consenso maximais (Jc), cada uma contendo as diferentes janelas que se sobrepõem nas diferentes populações. Os resultados deste procedimento são comparados com o que denotaremos como janelas totais (Jt), obtidas supondo-se que os dados das várias populações correspondem a uma amostra de uma única população aumentada, formada pelas várias populações sob estudo. Fazendo uso de uma medida de distância apropriada a variáveis categóricas, é construído um índice de similaridade (IS) e heterogeneidade (IH) para cada janela de consenso, de forma que, janelas de consenso compostas por janelas populacionais muito diferentes entre as populações são mais heterogêneas do que aquelas formadas por janelas mais similares. Como cada janela de SNPs retrata a estrutura de dependência do genoma, espera-se que janelas de consenso homogêneas entre diferentes populações sejam encontradas em regiões mais conservadas do genoma, em particular, em regiões importantes para a manutenção de nossa espécie, como, por exemplo, a região HLA (Human Leukocyte Antigen), responsável por nossa resposta imunológica. Por outro lado, janelas de consenso heterogêneas podem evidenciar pedaços do genoma no qual as populações diferem entre si e, nos quais, ocorreram mais recombinações. As janelas da região HLA foram selecionadas e analisadas no que diz respeito à sua homogeneidade. As janelas mais heterogêneas foram utilizadas para construir um classificador baseado em análise de correspondência que foi capaz de identificar em torno de 90% dos casos, a população originária de um determinado genótipo. Uma ilustração do racional deste trabalho pode ser vista na Figura 1.4..

(23) 1.5. ORGANIZAÇÃO DO TRABALHO. 7. Figura 1.3: Localização geográfica aproximada das populações utilizadas no estudo.. 1.5. Organização do Trabalho. O presente trabalho foi organizado da seguinte forma: no Capítulo 2 é apresentada a formulação teórica da montagem das janelas de SNPs de cada população em estudo (Jp), enquanto que o Capítulo 3 descreve a proposta de janela de consenso maximal (Jc) de todas as populações, compara este procedimento com a obtenção de janelas totais (Jt), supondo uma única população aumentada formada das diferentes subpopulações, e aborda a caracterização das janelas de consenso, introduzindo a formulação teórica do classificador proposto. No Capítulo 4 são discutidas as janelas populacionais estimadas e seus reflexos em termos de ancestralidade, bem como as janelas de consenso maximais para o conjunto de todas as populações, além da análise da similaridade das janelas de consenso contidas na região HLA do genoma e a proposta de um classificador de ancestralidade utilizando janelas de consenso heterogêneas e os resultados obtidos. Finalmente, no Capítulo 5 são discutidas algumas particularidades deste trabalho e considerações finais indicando trabalhos futuros. Informações, figuras e tabelas adicionais estão colocadas no Apêndice..

(24) 8. 1.5. INTRODUÇÃO. Dados de SNPs de diferentes populações mundias. Construção das janelas de dependência para cada população (Jp). Análise da ancestralidade de cada população. Construção das janelas de consenso maximais (Jc). Estudo da Homogeneidade e Heterogeneidade das janelas de consenso (Jc). Janelas homogêneas: estudo de áreas conservadas do genoma. Janelas heterogêneas: construção de um classificador de ancestralidade. Figura 1.4: Fluxograma das etapas do trabalho.

(25) Capítulo 2. Modelagem da Estrutura de Dependência do Genoma Este capítulo apresenta a formulação da função de verossimilhança e o algoritmo para montagem dos blocos de SNPs, aqui denominados janelas de influência, para cada população sob estudo (Jp). Os resultados apresentados tiveram como base os trabalhos de Leonardi (2007; 2010) e Bianchi (2009). No próximo capítulo, o mesmo conceito é estendido para propor janelas de consenso entre as diferentes populações nas diferentes regiões genômicas, baseadas nas janelas de influência populacionais.. 2.1. Notação. Conforme discutido no Capítulo 1, simplificadamente, podemos entender o genoma humano como uma sequência linear de bases nitrogenadas (nucleotídeos) de 4 tipos diferentes (A,C,T e G), o que, naturalmente, permite estruturar o genoma como um alfabeto. Somos organismos diplóides, ou seja, nossos cromossomos se organizam em pares de cromossomos homólogos, um proveniente do pai e um da mãe. Em cada cromossomo os nucleotídeos se organizam em pares A-T ou C-G, portanto, precisamos conhecer apenas uma das bases em um cromossomo pois a outra fica determinada pelo par correspondente. Dessa forma, sabendo uma das bases em cada cromossomo homólogo, temos o genótipo do indivíduo para uma determinada posição no cromossomo, denominada loco. Sendo o par (x, y) o genótipo de um SNP, em um loco de um determinado indivíduo, teremos: (x, y) ∈ {A,C,T,G}2 onde: A = {A,C,T,G} é o alfabeto com |A| = 4 sendo a cardinalidade de A. Dada uma amostra aleatória de tamanho n de genótipos para um determinado SNP, podemos fazer uso de diferentes tipos de codificação. Entre elas, uma muito utilizada especialmente em estudos de associação é a que utiliza 0 para o alelo mais frequente e 1 para o alelo raro. É necessário, portanto, neste caso, dada a amostra, verificar qual a base menos frequente (alelo raro) e atribuir 9.

(26) 10. MODELAGEM DA ESTRUTURA DE DEPENDÊNCIA DO GENOMA. 2.1. Tabela 2.1: Exemplos da codificação adotada para cada SNP.. Genótipo A-T C-G A-T T-A A-T A-T C-G G-C C-G T-A. Bases TC TT TA GG GT. Codificação Alelos 10 11 11 00 01. Codificação SNP 1 2 2 0 1. a essa base o valor 1, deixando o valor 0 para a outra base. Assim procedendo, para cada indivíduo da amostra, codificamos o genótipo do SNP como a soma dos valores dos alelos, assumindo valores no conjunto ternário {0, 1, 2}, sendo equivalente ao número de alelos raros encontrados. Neste trabalho, dado que o conjunto de dados é composto por diferentes populações e as frequências alélicas poderiam ser distintas entre as subamostras populacionais, optou-se por uma codificação fixa, sem perda de generalidade, independentemente da contagem de alelos: as bases A e T foram codificadas como 1 e as bases C e G codificadas como 0. Da mesma forma o genótipo fica representado pela soma dos códigos dos alelos. A Tabela 2.1 ilustra alguns exemplos de genótipos e sua correspondente codificação final, na primeira coluna encontra-se o genótipo de um loco para os dois cromossomos homólogos, a segunda coluna extrai uma base de cada cromossomo e as duas últimas colunas são a codificação utilizada. De acordo com a codificação adotada, cada SNP configura uma variável aleatória cuja realização pertence ao conjunto {0, 1, 2}. Assim, para um determinado SNP, em uma posição específica j, temos Xj a variável aleatória definida como, Xj = xj. | xj ∈ {0, 1, 2}. em que,    P (Xj = 0) = P (genótipo SNP ∈ {CC,CG,GC,GG}) P (Xj = 1) = P (genótipo SNP ∈ {AC,AG,TC,TG,CA,GA,CT,GT})   P (Xj = 2) = P (genótipo SNP ∈ {AA,AT,TA,TT}) Um conjunto S, de uma sequência de s SNPs será então uma sequência de variáveis aleatórias, S = {X1 , X2 , X3 , ..., Xs }. sendo : |S| = s a cardinalidade de S,. cujas realizações serão do tipo, ...001121221222110102020010022001101020... . Estendendo a notação para n indivíduos, um determinado SNP na posição j passa a ter uma.

(27) 2.1. NOTAÇÃO. 11. amostra de tamanho n e a variável aleatória Xj tem distribuição trinomial Xj ∼ T rinomial(φj ) Xj = xij ∈ {0, 1, 2}   j = posição do SNP, 1 6 j 6 s; s = número total de SNPs na amostra,     i = indivíduo, 1 6 i 6 n; n = número de indivíduos na amostra, em que:  φj = é o vetor de parâmetros da trinomial,     contendo as probabilidades de ocorrências dos valores 0, 1 e 2, restritas a somarem 1. Dessa notação, podemos também definir, xip,q = xip xip+1 ...xiq−1 xiq ,. com xip,q ∈ {0, 1, 2}(q−p+1) ;. 1 6 p 6 s;. 1 6 q 6 s e p < q,. como uma sequência de SNPs adjacentes no indivíduo i no intervalo fechado entre as posições p e q. Assim, decorre que, xi1,s. é a sequência de todos os SNPs do indivíduo i. Uma amostra dos genótipos de s SNPs para n indivíduos será então uma matriz D(nxs) e podemos denotar Di. = xi1,s como a linha da matriz D contendo todos os genótipos dos SNPs do indivíduo i e a coluna D.j como sendo as realizações da variável aleatória Xj em todos os indivíduos.. 2.1.1. Modelagem por Campos Markovianos. Cadeias de Markov são, em geral, um tipo de modelagem bastante utilizada para dados com dependência. Como o interesse é encontrar blocos de SNPs que guardam entre si alguma relação de dependência e, considerando cada realização da variável aleatória Xj como um estado com distribuição Trinomial, pode-se utilizar a abordagem de cadeias de Markov de ordem k para estimar os parâmetros dessa distribuição. Ocorre que o número de parâmetros para estimação cresce exponencialmente com a ordem k, o que pode ser resolvido utilizando cadeias de Markov de alcance variável (Bühlmann et al., 1999), com a diferença importante, no caso do problema aqui colocado, que deve-se inspecionar ambos os lados de um determinado estado (SNP) e não apenas estados anteriores, como mais comumente se verifica na utilização dessa solução. Em outras palavras, o objetivo é encontrar a memória da cadeia de Markov em ambas as direções de um determinado estado. O problema assim proposto pode ser abordado através da utilização de campos Markovianos ou, mais especificamente, campos Markovianos bidirecionais, os quais, diferentemente das cadeias de Markov tradicionais, onde há uma dimensão temporal (e, consequentemente, um posicionamento relativo de passado-presente-futuro), estuda a vizinhança de cada posição da cadeia, encontrando quantas posições antes e depois são necessárias para determinação da posição em estudo. Campos Markovianos podem ser interpretados como uma generalização da cadeia de Markov em que, para predizer o estado dentro de uma região finita qualquer, é necessário inspecionar os estados na sua vizinhança (Löcherbach e Orlandi, 2011). Analogamente ao caso unidimensional, essa região.

(28) 12. MODELAGEM DA ESTRUTURA DE DEPENDÊNCIA DO GENOMA. 2.2. de vizinhança é denominada região de contexto, sendo assim, uma extensão multidimensional da noção de cadeias de Markov de alcance variável introduzidas por Rissanen em seu artigo clássico (Rissanen et al., 1983). Utilizando o conceito de contexto, a solução para estimar as probabilidades condicionais associadas ao campo Markoviano será através do algoritmo de árvore de contexto. Para escrever a função de verossimilhança do problema é necessário introduzir o conceito de vizinhança, o que será feito na próxima seção.. 2.1.2. Vizinhança. Dado um alfabeto A podemos definir uma palavra w de tamanho m como sendo uma sequência de letras desse alfabeto (w ∈ Am ). Fixada uma posição j dentro da palavra w, ω com |ω| = l será prefixo de j e τ com |τ | = r, será sufixo de j, se w = ωjτ . Denominamos ω a vizinhança à esquerda da posição j em w e τ a vizinhança à direita da posição j em w. À concatenação (ω.τ ) denominamos simplesmente vizinhança de j dentro de w. Usando esse conceito para a sequência de SNPs da amostra, dado um SNP na posição j sua vizinhança será o conjunto: Vjl,r = {k ∈. N|j − l 6 k 6 j + r, k 6= j, j − l > 1, j + r 6 s},. em que, l. é o número de SNPs vizinhos à esquerda da posição j;. r. é o número de SNPs vizinhos à direita da posição j;. s é o número total de SNPs da unidade amostral. A partir dessa definição, os valores de l e r determinam o conjunto de dependências entre as variáveis aleatórias que representam os genótipos dos SNPs, em cada posição j específica da amostra, ou seja, dada uma vizinhança Vjl,r , se Xj 0 ∈ / Vjl,r implica que Xj é independente de Xj 0 dados Xk |k ∈ Vjl,r . No decorrer deste capítulo, sempre que não houver menção em contrário, designaremos por j a posição de um determinado SNP e por s o total de SNPs dentro de uma unidade amostral, definida neste trabalho como sendo o indivíduo amostrado da população.. 2.2. Função de Verossimilhança. Dada a matriz D da amostra e considerando os indivíduos (unidades amostrais) independentes, a função de verossimilhança pode ser definida como: L(θ|D) =. n Y i=1. P (Di. ) =. n Y i=1. P (Xj = xij , ∀j; 1 6 j 6 s)..

(29) 2.2. FUNÇÃO DE VEROSSIMILHANÇA. 13. Num indivíduo i, cada SNP é assumido independente condicionalmente ao restante dos SNPs, assim, L(θ|D) =. n Y s Y. P (Xj = xij |Xk = xik , ∀k 6= j).. (2.1). i=1 j=1. Para a sequência de SNPs, utilizando a definição de vizinhança da seção anterior, podemos utilizar a abordagem introduzida por Besag (Besag, 1975) para a função de pseudo-verossimilhança: ˜ L(ϕ|D) =. n Y s Y. l ,rj. P (Xj = xij |Xk = xik , ∀k ∈ Vj j. ).. (2.2). i=1 j=1. Assim, assume-se que a distribuição condicional da posição j é especificada em termos de um vetor ϕj dos parâmetros (lj , rj ) desconhecidos, sendo lj a vizinhança à esquerda e rj a vizinhança à direita da posição j. Neste contexto, como a amostra é composta por várias realizações independentes, correspondentes aos diferentes indivíduos na amostra, o processo é denominado não homogêneo, com tamanhos diferentes de vizinhança, dependendo da posição específica j. A maximização das expressões (2.1) e (2.2) converge para os mesmos valores e os estimadores ϕj = (ˆlj , rˆj ) são consistentes (Besag, 1975; Bianchi, 2009). Aplicando então o logaritmo à expressão (2.2), teremos:   n Y s Y l ,r `(l, r|D) = log  P (Xj = xij |Xk = xik , ∀k ∈ Vj j j ) , i=1 j=1. `(l, r|D) =. n X s X.   l ,r log P (Xj = xij |Xk = xik , ∀k ∈ Vj j j ) ,. i=1 j=1. `(l, r|D) =. s X n X.   l ,r log P (Xj = xij |Xk = xik , ∀k ∈ Vj j j ) .. (2.3). j=1 i=1. Reescrevendo a probabilidade em termos de prefixos e sufixos, temos: l ,rj. P (Xj = a|Xk = xik , ∀k ∈ Vj j. ) = P (Xj = a|Xj−l = ω1 , ..., Xj−1 = ωl , Xj+1 = τ1 , ..., Xj+r = τr ). a qual denotaremos simplesmente por Pj (a|ω, τ ). Considerando NjD (ω, a, τ ) como sendo o número de vezes que o símbolo a aparece na posição j, com a vizinhança ω à esquerda e τ à direita, dentro da amostra D.j , podemos reescrever a equação (2.3) como: `(l, r|D) =. s XXX X j=1 ω. τ. D (ω,a,τ ). log(Pj (a|ω, τ ))Nj. . .. (2.4). a. Maximizar a verossimilhança em (2.4), representa maximizar cada parcela da soma em j, isto é, considerando cada SNP individualmente. A j-ésima componente da pseudo-verossimilhança em função da vizinhança (ω, τ ) será, `j (ω, τ |D) =. X. NjD (ω, a, τ ) log(Pj (a|ω, τ ))),. a. a qual pode ser definida em termos da distribuição multinomial. Assim, podemos escrever (2.4) na.

(30) 14. 2.2. MODELAGEM DA ESTRUTURA DE DEPENDÊNCIA DO GENOMA. forma: `(l, r|D) =. s XXX X j=1 ω. τ. NjD (ω, a, τ ) log. NjD (ω, a, τ ). a. !!. NjD (ω, ., τ ). ,. (2.5). em que NjD (ω, ., τ ) corresponde ao número de vezes que a vizinhança (ω, τ ) aparece na amostra no entorno da posição j, para qualquer valor de Xj . Da forma como está escrita na equação (2.5), a verossimilhança sempre aumenta com o aumento da vizinhança, o que levaria a considerar todos os outros SNPs para maximizar a verossimilhança de uma determinada posição. Portanto , é necessário introduzir um termo de penalização proporcional ao tamanho da vizinhança. A penalização utilizada é a proposta por Csiszár e Talata (2006), considerando uma constante c dada por. (|A|−1) , 2. onde A é o alfabeto, no nosso caso, A = {0, 1, 2} e um termo proporcional ao. tamanho da vizinhança t(ω, τ ) = |A||ωτ | . Finalmente, a expressão da verossimilhança para cada SNP é dada por: `j (lj , rj |D) =. XXX ω. τ. a. NjD (ω, a, τ ) log. NjD (ω, a, τ ) NjD (ω, ., τ ). !! −. (|A| − 1) .|A||ωτ | log(n). 2. (2.6). A estimação dos parâmetros do modelo é feita calculando a verossimilhança dada por (2.6) para cada vizinhança de uma posição j. Os valores lj e rj serão aqueles que a maximizam.. 2.2.1. Algoritmo. Para estimar os valores de lj e rj que maximizam a expressão (2.6) foi utilizado um programa escrito por Bianchi (2009), em linguagem "C", que utiliza uma estrutura de dados de árvore de vizinhança. A Figura 2.1 representa de forma esquemática um exemplo desse tipo de árvore. Para cada vizinhança avaliada, é construída uma árvore correspondente. A árvore é percorrida por cada unidade amostral, contabilizando nas folhas o número de vezes que a palavra composta pelos nós foi encontrada. Assim, ao final, cada nó conterá o número de palavras que correspondem ao seu caminho. Como neste caso o alfabeto tem tamanho 3 (A = {0, 1, 2}, logo, |A| = 3), mantendo três contadores em cada folha conseguimos contabilizar o número de vezes que cada diferente vizinhança foi encontrada no entorno de cada um dos símbolos do alfabeto. A profundidade da árvore é então o tamanho de cada vizinhança considerada. Para viabilizar a implementação computacional, foi adotado um limite máximo de tamanho da vizinhança à esquerda e à direita de 20 posições, ou seja, para cada SNP são avaliadas 400 vizinhanças distintas. Tendo em vista essa imposição, deve ser realizada uma validação dos resultados empíricos obtidos, de forma a verificar que essa restrição não comprometeu a estimação dos parâmetros, em outras palavras, os valores estimados de l e r, para cada SNP, devem ser sempre bem inferiores ao limite considerado, caso contrário, recomenda-se aumentar o tamanho máximo da vizinhança adotado. Finalmente, a vizinhança estimada para o SNP j será aquela cujos valores lj e rj maximizam a expressão (2.6)..

(31) 2.3. ESTRATIFICAÇÃO POPULACIONAL. 15. Figura 2.1: Algoritmo de árvore de contexto: exemplo para uma vizinhança de tamanho 3.. Figura 2.2: Visão esquemática da construção de janelas de influência de SNPs.. 2.2.2. Janelas de Influência. A vizinhança Vj estimada é uma medida da dependência do SNP na posição j em relação aos seus vizinhos à esquerda e à direita. Os parâmetros lj e rj estimados para cada variável Xj definem a janela de dependência do SNP na posição j. Analogamente, os pares (lj−1 , rj−1 ) e (lj+1 , rj+1 ) definem as janelas de dependências dos SNPs vizinhos, nas posições j − 1 e j + 1, respectivamente. Avaliando a sobreposição das janelas de dependência dos SNPs adjacentes, podemos definir uma janela de influência J como sendo a sequência de SNPs cujas vizinhanças (janelas de dependência) estão contidas em J. Assim, cada janela de influência J é um par de valores tais que: J ∈ {(a, b)|a, b ∈ {1, ..., s}, a < b} e ∀j ∈ J ⇒ Vj ⊆ J A Figura 2.2 ilustra a montagem das janelas de influência; na metade superior estão representados os SNPs adjacentes no forma de pequenos círculos e suas vizinhanças estimadas na forma de arcos; na parte inferior da figura estão representadas as janelas de influência no formato de blocos, formando uma região de SNPs adjacentes que possua suas vizinhanças sobrepostas.. 2.3. Estratificação Populacional. Conforme descrito na Seção 2.1, bem como na formulação da pseudo-verossimilhança apresentada anteriormente, a matriz de dados D é formada por dados genotípicos de s SNPs avaliados em uma amostra de n indivíduos selecionados aleatoriamente de uma população sob estudo. Neste trabalho, o plano amostral considera a coleta de dados de diferentes populações sob estudo, isto é, as linhas da matriz D estão estratificadas em amostras aleatórias de diferentes populações, assim, consideramos duas diferentes abordagens:.

(32) 16. 2.4. MODELAGEM DA ESTRUTURA DE DEPENDÊNCIA DO GENOMA. 1. Amostra estratificada (de G populações): neste caso a expressão (2.6) é definida separadamente para cada grupo e os pares ϕgj (ljg , rjg ) que maximizam a pseudo-verossimilhança em cada SNP j dependerão da amostra relativa ao grupo g. 2. Amostra simples (de uma única população): neste caso a expressão (2.6) é definida para PG n = g=1 ng , isto é, assumindo que os dados correspondem a uma amostra (aumentada) de uma única população (heterogênea), e os pares ϕj (lj , rj ) serão calculados considerando todas as unidades amostrais. Escrevendo a função de pseudo-verossimilhança para cada um dos casos acima mencionados, teremos, respectivamente: Caso 1: g. `gj (ljg , rjg |Dg ). =. XXX ω. τ. g NjD (ω, a, τ ) log. a. NjD (ω, a, τ ) g NjD (ω, ., τ ). !! −. (|A| − 1) .|A||ωτ | log(ng ). (2.7) 2. Caso 2: `j (lj , rj |D). =. XXX ω. τ. NjD (ω, a, τ ) log. a. NjD (ω, a, τ ) NjD (ω, ., τ ). !! −. (|A| − 1) .|A||ωτ | log(n). 2. (2.8). Analisando as expressões (2.7) e (2.8), verificamos que, se para cada SNP (ou posição j), as amostras de cada grupo (população), separadamente, e da amostra total, forem originadas a partir de uma mesma distribuição trinomial, os parâmetros de vizinhança estimados nos dois casos serão os mesmos. Neste estudo, consideramos empiricamente as duas abordagens e, como esperado, em geral, os pares ϕgj e ϕj foram diferentes, determinando diferentes vizinhanças e, consequentemente, janelas de influência distintas, evidenciando estruturas de dependência dentro do genoma específicas para cada população de estudo.. 2.4. Janelas de Consenso. Considerando amostras estratificadas de acordo com os diferentes grupos populacionais sob estudo, seja Jp a janela de influência estimada considerando os dados de cada população. Unificando as estimativas das várias populações, propomos a formação de uma nova janela, a qual definiremos como janela de consenso, denotada po Jc, generalizando o mesmo conceito utilizado para encontrar as janelas de influência dos SNPs, desta vez, sobrepondo as janelas de influência de cada população, em cada região específica do genoma. Cada janela de influência estimada em uma população representa um conjunto de SNPs que guardam entre si uma relação de dependência. Para cada intervalo de SNPs adjacentes é possível verificar se existem ou não janelas de influência parcial ou totalmente inseridas nesse intervalo, em cada uma das populações em estudo. Assim, podemos definir a janela de consenso Jc como sendo uma sequência de SNPs na qual existem janelas de influência que estão contidas em Jc..

(33) 2.4. JANELAS DE CONSENSO. 17. Figura 2.3: Esquema ilustrando a construção de uma janela de consenso maximal.. Portanto, cada janela de consenso Jc é um par de valores tais que: Jc ∈ {(c, d)|c, d ∈ {1, ..., s}, c < d} e ∀Jp ∈ Jc ⇒ Jp ⊆ Jc mais especificadamente, se houverem K janelas de influência contidas em uma janela de consenso Jc, teremos: Jp = (ap , bp ), 1 6 p 6 K,. se Jp ⊆ Jc ⇒ (c 6 ap. e d > bp ),. ∀p,. 1 6 p 6 K,. 1 6 K 6 G,. com G sendo o número de populações sob estudo. A Figura 2.3 mostra esquematicamente a montagem de uma janela de consenso maximal, em uma região específica do genoma, neste caso, um intervalo de 5 SNPs: cada linha representa um estrato, isto é, uma população, os pontos são SNPs independentes, os blocos pretos as janelas populacionais (Jp) e a janela de consenso (Jc), está evidenciada na cor vermelha. A janela de consenso assim definida, Jc, pode servir, portanto, como uma medida da heterogeneidade das regiões de dependência entre as populações. De fato, caso as expressões (2.7) e (2.8) forneçam as mesmas estimativas, podemos esperar que as janelas de consenso maximais, Jc, assim construídas, e as janelas de influência determinadas a partir da amostra total sem considerar a estratificação (caso 2), denotada como Jt, sejam iguais..

(34) 18. MODELAGEM DA ESTRUTURA DE DEPENDÊNCIA DO GENOMA. 2.4.

(35) Capítulo 3. Caracterização das Janelas de Consenso e Classificação das Observações A definição de uma região de consenso entre várias amostras de DNA não é simples e requer que critérios sejam estabelecidos. De maneira intuitiva, uma região de consenso é aquela formada pelas bases que mais aparecem juntas quando os genomas são alinhados. Adequando essa definição para o caso de amostras estratificadas, que é o escopo deste estudo, uma janela de consenso seria aquela formada a partir da comparação entre as janelas das amostras, neste caso, entre as janelas de influência obtidas para cada população (Jp). Nesta comparação, a janela de consenso proposta no Capítulo 2 seguiu o princípio maximal. Alternativamente, poder-se-ia propor um modelo de janela de consenso minimal. Neste caso, uma janela de consenso entre dois SNPs existiria apenas se as respectivas janelas de influência em todas as populações também existissem. Essa abordagem pode ser útil para algumas finalidades, como na identificação de pontos em que o genoma mais sofreu cortes (possivelmente, recombinações) ao longo da evolução. Contudo, neste trabalho, considerando que o objetivo é determinar regiões de dependência do genoma, a janela maximal é considerada mais adequada, sendo a generalização do processo utilizado para cada população individualmente, quando da determinação das janelas de influência.. 3.1. Índice de Heterogeneidade (IH). Com a finalidade de caracterização das janelas de consenso, estas podem ser resultados de regiões do genoma bastante diferentes em termos das janelas de influência de cada população ou, ao contrário, de segmentos do genoma nos quais as janelas de influência são muito parecidas ou até mesmo iguais entre as populações, o que, intuitivamente, leva a classificá-las em termos de sua homogeneidade/heterogeneidade. A Figura 3.1 ilustra os dois casos1 . No primeiro deles (figura A), na região da janela de consenso encontramos grande variabilidade das janelas de influência, tendo desde populações com janelas iguais à de consenso até populações nas quais todos os SNPs da região são independentes de sua vizinhança. Por outro lado, a figura B, mostra uma janela de consenso 1. Em particular, a figura mostra duas regiões encontradas de fato no cromossomo 6.. 19.

(36) 20. CARACTERIZAÇÃO DAS JANELAS DE CONSENSO E CLASSIFICAÇÃO DAS OBSERVAÇÕES. 3.1. formada por janelas rigorosamente iguais em todas as populações.. ASW. ASW. CEU. CEU. CHB. CHB. CHD. CHD. GIH. GIH JPT. POP. POP. JPT LWK MEX. LWK MEX. MKK. 7310. 7312. 7314. 7316. MKK. TSI. TSI. YRI. YRI. BRZ. BRZ. Consenso. Consenso. 7318. 7320. 7322. SNP. A. 20094. B. 20098. 20102. 20106. SNP. Figura 3.1: A) Exemplo de uma janela de consenso heterogênea (região correspondente aos SNPs nas posições 7310 a 7314 no cromossomo 6); B) Exemplo de janela de consenso homogênea (região correspondente aos SNPs posicionados de 20095 a 20099 no cromossomo 6).. Para avaliar a heterogeneidade de uma determinada janela de consenso é preciso quantificar a distância entre as janelas de influência formadoras da mesma. Para isso utilizou-se o conceito de medida de distância/similaridade entre variáveis categóricas. O processo é explicado nos passos a seguir:. 1. Para cada janela de consenso, as respectivas janelas de influência de cada população são codificadas em uma sequência de números binários, sendo 1 para os intervalos entre SNPs que pertencem a uma mesma janela de influência e 0 para os intervalos entre SNPs que pertencem a janelas de influência distintas. Cada janela de influência fica agora representada por uma cadeia binária de comprimento igual ao tamanho da janela de consenso menos 1. Por esse motivo, no cálculo do índice de heterogeneidade, janelas de consenso de tamanho unitário são descartadas, contudo, lhes é atribuído valor máximo de similaridade pois, na verdade, nestes casos, todas as janelas de influência são iguais e representadas por um único SNP independente; 2. Considerando agora cada intervalo entre SNPs codificado como uma variável categórica binária é possível calcular a distância entre as populações duas a duas e construir uma matriz de similaridade/dissimilaridade entre as populações. Neste trabalho, a distância Euclidiana ao quadrado média foi adotada como medida de dissimilaridade entre pares de populações. Esta medida assume valores entre 0 e 1 e, portanto, seu complemento é uma medida de similaridade; 3. Finalmente, a partir da matriz de dissimilaridades é calculado um valor médio fornecendo um Índice de Heterogeneidade (IH), com valor entre 0 e 1. O complemento dessa medida equivale ao Índice de Similaridade (IS) adotado. O procedimento descrito acima pode ser melhor entendido a partir de um exemplo hipotético, como o mostrado na Figura 3.2. Neste caso avaliamos uma região genômica correspondente a uma janela de consenso de 7 SNPs em 5 populações distintas. No primeiro quadro, representa-se as janelas de influência de cada população na janela de consenso; o quadro abaixo é a transcrição dessas.

(37) 3.1. ÍNDICE DE HETEROGENEIDADE (IH). 21. Figura 3.2: Exemplo hipotético para ilustrar o procedimento de cálculo dos índices de heterogeneidade (IH) e similaridade (IS). janelas em sequências binárias, tendo ao lado o cálculo da distância Euclidiana média entre a primeira e segunda populações (P1 e P2). A matriz no final é a matriz de similaridade/dissimilaridade calculada para todas as comparações entre pares de populações. Nessa matriz, a triangular superior refere-se às dissimilaridades e a triangular inferior (em destaque na figura), incluindo a diagonal principal, refere-se às similaridades. Ainda utilizando o exemplo da Figura 3.2, a distância entre as populações 1 e 2 é calculada como:. (2 + 3) 5 d¯1,2 = = , 6 6. ou seja, a soma da diagonal secundária da tabela dividida pelo total de intervalos e, analogamente, a similaridade entre essas duas populações será a soma da diagonal principal dividida pelo total de intervalos. s¯1,2 =. (1 + 0) 1 = . 6 6. Uma vez construída a matriz de similaridade/dissimilaridade, o índice de heterogeneidade (IH).

Referências

Documentos relacionados

Em relação aos compostos obtidos com o ácido p-nitrobenzóico, apenas um se apresentou como dímero, o térbio em DMF, apresentando de forma atípica, quatro ligações do íon

Na tabela acima foi visto que os rendimentos de síntese foram melhores para a SR em todos os casos e que os rendimentos globais comparando-se as duas metodologias mostraram uma

Therefore, the aim of this study was to identify the species of Colletotrichum associated with chayote anthracnose in different production poles of Brazil, based on DNA sequence

In this study, we describe the fish demersal assemblage along the continental shelf of the northeast Brazilian coast 5°-9°S, specifically the ecological descriptors and the

A baixa taxa de desconto ao longo dos anos de produção do campo, para o cálculo da função objetivo, aliada a baixa produção de água que a locação de

Percebe-se que os informes financeiros Disponível, Controle de contas a receber e Controle de contas a pagar são disponibilizados a 100% dos gestores. No entanto, todos

Após a colheita, normalmente é necessário aguar- dar alguns dias, cerca de 10 a 15 dias dependendo da cultivar e das condições meteorológicas, para que a pele dos tubérculos continue