• Nenhum resultado encontrado

diferenças entre as populações no que diz respeito ao registro genético de suas ancestralidades. Um classificador, de indivíduos à sua população de origem, foi proposto utilizando recursos da análise de correspondência em tabelas de contingência, construídas a partir das janelas de consenso mais hete- rogêneas e os genótipos dos indivíduos nestas janelas encontrados em cada população. Submetendo amostras de tamanho 100 extraídas de forma aleatória do conjunto de dados original, o classificador mostrou acerto da população originária em torno de 90%. O mesmo classificador, utilizando janelas consideradas não heterogêneas, submetido às mesmas amostras, sempre teve resultado final abaixo dos índices atingidos quando utilizadas as janelas heterogêneas. Assim, para garantir maior poder da análise, sugere-se usar o classificador proposto considerando as regiões mais heterogêneas do genoma.

Os resultados do presente trabalho permitem validar a estrutura de dependência do genoma inferida aos dados das 12 populações mundiais, pela caracterização de suas respectivas janelas. As janelas de consenso construídas refletem padrões de dependência específicos, delimitando regiões genômicas com dependência e pouca ou nenhuma diversidade (janelas homogêneas), ou com de- pendência e alta diversidade (janelas heterogêneas). Estes padrões identificaram a recente história de miscigenação da população brasileira comparada às demais, confirmaram o estado conservado da região HLA, bem como permitem a construção de um classificador com alta probabilidade de acerto. Além disso, se considerarmos que muitos estudos são conduzidos com objetivo de verificar o efeito de um único SNP em uma determinada doença ou característica fenotípica, mas enfrentam o problema de que o efeito isolado de SNPs é, em geral, muito pequeno e de difícil significância estatística, especialmente em situações de múltiplos testes, a determinação de blocos de SNPs, tal como estimados no presente trabalho, pode lançar luz sobre regiões de estudo dentro do genoma ainda não identificadas.

Uma ressalva se faz necessária na conclusão deste trabalho: ao longo de todo o texto foi, por diversas vezes, utilizado o termo ancestralidade sem o devido rigor. Tendo em vista os resultados obtidos, compatíveis com que era esperado e de acordo com literatura prévia, a proposta de identi- ficar regiões dependentes do genoma discutida neste estudo, parece em grande medida, promissora, contudo, a ancestralidade é um conceito muito complexo para ser caracterizado completamente por esta proposta.

5.2

Estudos Futuros

No contexto deste trabalho, uma das possibilidades a ser considerada em estudos futuros é a realização de inferências para o Índice de heterogeneidade (IH), que permitam testar a estrutura de estratificação de populações sob estudo. Nota-se que as estimativas das janelas de consenso maximal ou total são as mesmas na ausência de heterogeneidade entre as populações.

O procedimento inferencial utilizado neste trabalho para determinação das regiões de depen- dência dentro do genoma, supõe independência entre as unidades amostrais. A extensão do modelo de campos Markovianos de alcance variável para tratar dados genotípicos de indivíduos correlacio-

nados, que possuem algum grau de parentesco, pode ser considerada também em trabalhos futuros. Neste caso, uma alternativa é a inclusão de um efeito aleatório para modelar a dependência en- tre unidades amostrais, o que implica em uma mudança importante na função de verossimilhança utilizada até agora. Outra alternativa a ser considerada pode ser a modelagem a partir de campos Markovianos de alcance variável em duas dimensões, uma refletindo a dependência entre os SNPs adjacentes no genoma e outra a dependência entre os SNPs que explicam a relação de dependência entre as unidades amostrais.

Para verificação do classificador, sugere-se a validação cruzada, a qual não foi utilizada por limi- tação de tempo, uma vez que todo o processamento computacional, desde a estimação das janelas de influência populacionais (J p) passando pela montagem das janelas de consenso (J c) e nova sele- ção das janelas de consenso mais heterogêneas, deveria ser refeito, tendo como base o conjunto de dados sem a amostra retirada para validação. A primeira etapa, isto é, a estimação das janelas de influência populacionais (J p), é calculada para cada população e para cada cromossomo separada- mente e, portanto, podem ser executados paralelamente. Uma alternativa seria, então, reescrever o programa de estimação das janelas populacionais (J p), utilizando recursos de paralelismo compu- tacional. Adicionalmente, os processos de montagem das janelas de consenso (J c) e de cálculo dos índices IH e IS, poderiam ser otimizados e organizados em um único código (atualmente estão em programas separados), integrados ao programa de estimação das janelas de influência populacionais, de tal forma que, dada uma matriz de dados D conforme definida no Capítulo 2, a partir de um único processamento, mais eficiente, fosse possível determinar as janelas que seriam utilizadas no classificador.

Por fim, este trabalho foi feito a partir da codificação do genótipo de cada indivíduo nos SNPs, ou seja, considerando o alfabeto {0, 1, 2} obtido das bases nitrogenadas (nucleotídeos) dos dois alelos homólogos recebidos do pai e da mãe. Uma alternativa futura pode ser a formulação da metodologia para sequências de haplótipos, considerando cada cromossomo separadamente, ou seja, a partir do alfabeto {0, 1}. Como comentado no trabalho, esta abordagem tem a desvantagem de requerer o conhecimento da fase alélica, o que exige passos de estimação adicionais, contudo, permite a com- paração direta com resultados de outros trabalhos baseados na mesma premissa.

Apenas a título de exemplo, no trabalho desenvolvido por Greenspan e Geiger (Greenspan e Geiger,2006) foram também utilizados dados de SNPs do projeto HapMap e através do programa HaploBlock (Zucchelli e Kere,2003), obtidos blocos haplotípicos. Na Figura5.1, a parte A mostra um resumo dos resultados desse trabalho, no que diz respeito ao comprimento cromossômico e espa- çamento médio entre SNPs, ambos medidos em kilobases. A parte B mostra uma tabela equivalente, elaborada utilizando os valores obtidos com os dados deste trabalho.

Os comprimentos cromossômicos são bastante parecidos entre os dois trabalhos. Como o número de SNPs deste trabalho é, de modo geral, metade do número de SNPs considerados por Greens- pan e Geiger, os valores de contagem e espaçamento médio dos SNPs acabam por guardar relação parecida. Assim, pelo menos numa primeira análise, mesmo que não rigorosa, há certa semelhança entre os dois resultados, contudo, se as janelas de consenso tivessem sido obtidas também a partir

ESTUDOS FUTUROS 49

A B

Figura 5.1: A) Resultados obtidos pela montagem de haplótiplos proposta por Greenspam e Geiger (Gre- enspan e Geiger, 2006); B) Espaçamento médio entre SNPs e comprimento cromossômico (em kilobases) obtidos com os dados deste trabalho.

de sequências haplotípicas, outras comparações poderiam ter sido feitas.

O conjunto de resultados obtidos neste trabalho, mostram que a obtenção de blocos dependentes no genoma através do processo estocástico utilizando campos Markovianos é bastante promissor e merece aprofundamento.

Apêndice A

Apêndice

A.1

Códigos Fonte

Documentos relacionados