• Nenhum resultado encontrado

A.1 Redes de GxG geradas pelo GeneMANIA

6.3 Trabalhos futuros

6.3 Trabalhos futuros

A seguir, apresentamos algumas ideias de trabalhos futuros que podem ser exploradas utilizando a metodologia proposta. Ainda não há um protocolo para tratar as bases de dados de GWAS em sua completude. Buscar relações entre os SNPs torna-se computaci- onalmente intratável devido ao número de variantes.

Como alternativa para análise dos dados de GWAS, pretendemos combinar e explorar mais características das redes de interação gene-gene para priorizar SNPs das bases de dados de GWAS, que conduzam a associações relevantes com os fenótipos. Torna-se indispensável realizar o mesmo estudo com dados de genótipos para populações diferentes. Replicações independentes com amostras maiores serão importantes para confirmar os rankings apresentados. Em estudos futuros, será também importante incluir as análises de epistasia entre os genes, para investigar associações conjuntas com os fenótipos.

De acordo com os resultados experimentais, a dimensionalidade dos dados constitui um grande desafio para tarefas de classificação, bem como para seleção de características em face da ocorrência de SNPs em LD. Assim, a implementação de novos métodos para classificação e desenvolvimento de novas métricas para quantificação das variáveis é imprescindível. A investigação metodológica do uso do índice Gini deve ser avaliada de outras perspectivas, pois de acordo com os experimentos sabe que LD influência, de forma a decrescer os valores de importância atribuídas as variantes. Outra perspectiva é investigar novas métricas de seleção de características, ou mesmo propor modificações às métricas já existentes para possíveis aplicações e consequentes comparações com os resultados aqui apresentados.

Referências Bibliográficas

[1] Alberts, B., Johnson, A., Lewis, J., Raff, M., Roberts, K., and Walter, P. (2007). Molecular Biology of the Cell. Garland Science, 5 edition.

[2] Alkan, C., Coe, B. P., and Eichler, E. E. (2011). Genome structural variation discovery and genotyping. Nat. Rev. Genet.,12(5), 363–376.

[3] Allen, N. C., Bagade, S., McQueen, M. B., Ioannidis, J. P. a., Kavvoura, F. K., Khoury, M. J., Tanzi, R. E., and Bertram, L. (2008). Systematic meta-analyses and field synopsis of genetic association studies in schizophrenia: the SzGene database. Nature genetics,40(7), 827–34.

[4] Araújo, G., Costa, I., Souza, M., and Oliveira, J. (2012). An experimental application of random forest in the adni genotype dataset.

[5] Balding, D. J. (2006). A tutorial on statistical methods for population association studies. Nat. Rev. Genet.,7(10), 781–791.

[6] Beckett, L. a., Harvey, D. J., Gamst, A., Donohue, M., Kornak, J., Zhang, H., and Kuo, J. H. (2010). The Alzheimer’s Disease Neuroimaging Initiative: Annual change in biomarkers and clinical outcomes. Alzheimer’s & dementia : the journal of the Alzheimer’s Association,6(3), 257–64.

[7] Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., and Tanzi, R. E. (2007). Sys- tematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat. Genet.,39(1), 17–23.

[8] Breiman, L. (1996). Bagging predictors. Machine Learning,24(2), 123–140. [9] Breiman, L. (2001). Random forests. Machine Learning,45(1), 5–32.

[10] Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984). Classification and Regression Trees. Wadsworth and Brooks, Monterey, CA.

[11] Brookes, A. J. (1999). The essence of SNPs. Gene,234(2), 177–186.

[12] Bush, W. S. and Moore, J. H. (2012). Chapter 11: genome-wide association studies. PLoS Comput. Biol.,8(12), e1002822.

[13] Calle, M. L. and Urrea, V. (2011). Letter to the editor: Stability of Random Forest importance measures. Brief. Bioinformatics,12(1), 86–89.

REFERÊNCIAS BIBLIOGRÁFICAS

[14] Carvalho, B. S., Louis, T. a., and Irizarry, R. a. (2010). Quantifying uncertainty in genotype calls. Bioinformatics (Oxford, England),26(2), 242–9.

[15] Castellano, J. e. a. (2011). Human apoe isoforms differentially regulate brain amyloid-b peptide clearance. Science Translational Medicine,3(89).

[16] Chan, I. S. and Ginsburg, G. S. (2010). Personalized Medicine: Progress and Promise. Annual review of genomics and human genetics, (June), 1–28.

[17] Chen, X., Wang, M., and Zhang, H. (2011). The use of classification trees for bioinformatics. Wiley Interdisciplinary Reviews: . . . , pages 55–63.

[18] Cichon, S., Craddock, N., Daly, M., Faraone, S. V., Gejman, P. V., Kelsoe, J., Lehner, T., Levinson, D. F., Moran, A., Sklar, P., and Sullivan, P. F. (2009). Genomewide association studies: history, rationale, and prospects for psychiatric disorders. The American journal of psychiatry,166(5), 540–56.

[19] Clarke, G. M., Anderson, C. a., Pettersson, F. H., Cardon, L. R., Morris, A. P., and Zondervan, K. T. (2011). Basic statistical analysis in genetic case-control studies. Nature protocols,6(2), 121–33.

[20] CM, L., JT, R., MB, M., S, B., BM, S., F, Z., and L., B. (2013). The msgene database.

[21] Corvin, a., Craddock, N., and Sullivan, P. F. (2010). Genome-wide association studies: a primer. Psychological medicine,40(7), 1063–77.

[22] Di Paolo, G. and Kim, T. W. (2011). Linking lipids to Alzheimer’s disease: choles- terol and beyond. Nat. Rev. Neurosci.,12(5), 284–296.

[23] Dukart, J., Mueller, K., Horstmann, A., Barthel, H., Möller, H., Villringer, A., Sabri, O., and Schroeter, M. (2011). Combined evaluation of FDG-PET and MRI improves detection and differentiation of dementia. PloS one,6(3), 1–8.

[24] Gentleman, R. C., Carey, V. J., Bates, D. M., Bolstad, B., Dettling, M., Dudoit, S., Ellis, B., Gautier, L., Ge, Y., Gentry, J., Hornik, K., Hothorn, T., Huber, W., Iacus, S., Irizarry, R., Leisch, F., Li, C., Maechler, M., Rossini, A. J., Sawitzki, G., Smith, C., Smyth, G., Tierney, L., Yang, J. Y., and Zhang, J. (2004). Bioconductor: open software development for computational biology and bioinformatics. Genome Biol., 5(10), R80.

REFERÊNCIAS BIBLIOGRÁFICAS

[25] Glaser, B., Nikolov, I., Chubb, D., Hamshere, M. L., Segurado, R., Moskvina, V., and Holmans, P. (2007). Analyses of single marker and pairwise effects of candidate loci for rheumatoid arthritis using logistic regression and random forests. BMC Proc, 1 Suppl 1, S54.

[26] Glessner, J. T. and Hakonarson, H. (2011). Genome-wide association: from con- founded to confident. Neuroscientist,17(2), 174–184.

[27] Goldstein, B. A., Hubbard, A. E., Cutler, A., and Barcellos, L. F. (2010). An application of Random Forests to a genome-wide association dataset: methodological considerations & new findings. BMC Genet.,11, 49.

[28] Gray, I. C., Campbell, D. A., and Spurr, N. K. (2000). Single nucleotide poly- morphisms as tools in human genetics. Hum. Mol. Genet.,9(16), 2403–2408.

[29] Hastie, T., Tibshirani, R., and Friedman, J. H. (2001). The elements of statistical learning: data mining, inference, and prediction. New York: Springer-Verlag. [30] Heidema, A. G., Boer, J. M., Nagelkerke, N., Mariman, E. C., van der A, D. L., and

Feskens, E. J. (2006). The challenge for genetic epidemiologists: how to analyze large numbers of SNPs in relation to complex diseases. BMC Genet.,7, 23.

[31] Hindorff, L., MacArthur, J., Wise, A., Junkins, H., Hall, P., Klemm, A., and Manolio, T. (2012). A Catalog of Published Genome-Wide Association Studies.

[32] Hirsch-Reinshagen, V., Burgess, B., and Wellington, C. (2009). Why lipids are important for Alzheimer disease? Molecular and cellular biochemistry, 326(1), 121–129.

[33] Hirschhorn, J. N. and Daly, M. J. (2005). Genome-wide association studies for common diseases and complex traits. Nature reviews. Genetics,6(2), 95–108.

[34] Hollingworth, P., e. a. (2011). Common variants at ABCA7, MS4A6A/MS4A4E, EPHA1, CD33 and CD2AP are associated with Alzheimer’s disease. Nat. Genet., 43(5), 429–435.

[35] Holtzman, D. M., Herz, J., and Bu, G. (2012). Apolipoprotein e and apolipoprotein e receptors: normal biology and roles in Alzheimer disease. Cold Spring Harb Perspect Med,2(3), a006312.

REFERÊNCIAS BIBLIOGRÁFICAS

[37] Kim, S. and Misra, A. (2007). SNP genotyping: technologies and biomedical applications. Annu Rev Biomed Eng,9, 289–320.

[38] Klein, R. J., Zeiss, C., Chew, E. Y., Tsai, J.-Y., Sackler, R. S., Haynes, C., Henning, A. K., SanGiovanni, J. P., Mane, S. M., Mayne, S. T., Bracken, M. B., Ferris, F. L., Ott, J., Barnstable, C., and Hoh, J. (2005). Complement factor H polymorphism in age-related macular degeneration. Science (New York, N.Y.),308(5720), 385–9. [39] Kuncheva, L. I. (2004). Combining Pattern Classifiers: Methods and Algorithms.

Wiley-Interscience.

[40] LaFramboise, T. (2009). Single nucleotide polymorphism arrays: a decade of biological, computational and technological advances. Nucleic acids research,37(13), 4181–93.

[41] Lamy, P., Grove, J., and Wiuf, C. (2011). A review of software for microarray genotyping. Human genomics,5(4), 304–9.

[42] Liaw, A. and Wiener, M. (2002). Classification and Regression by randomforest. R News,2, 18–22–238.

[43] Liu, C., Ackerman, H. H., and Carulli, J. P. (2011). A genome-wide screen of gene-gene interactions for rheumatoid arthritis susceptibility. Hum. Genet.,129(5), 473–485.

[44] Lunetta, K. L., Hayward, L. B., Segal, J., and Van Eerdewegh, P. (2004). Screening large-scale association study data: exploiting interactions using random forests. BMC Genet.,5, 32.

[45] Manolio, T. A. (2010). Genomewide association studies and assessment of risk of disease. The New England journal of medicine,363(21), 166–176.

[46] Maroco, J. a., Silva, D., Rodrigues, A., Guerreiro, M., Santana, I., and de Mendonça, A. (2011). Data mining methods in the prediction of Dementia: A real-data comparison of the accuracy, sensitivity and specificity of linear discriminant analysis, logistic regression, neural networks, support vector machines, classification trees and random forests. BMC research notes,4(1), 299.

[47] McMahon, H. T. and Boucrot, E. (2011). Molecular mechanism and physiological functions of clathrin-mediated endocytosis. Nat. Rev. Mol. Cell Biol.,12(8), 517–533.

REFERÊNCIAS BIBLIOGRÁFICAS

[48] Mehta, C. R. and Patel, N. R. (1986). Algorithm 643: Fexact: a fortran subroutine for fisher’s exact test on unordered r×c contingency tables. ACM Trans. Math. Softw., 12(2), 154–161.

[49] Meng, Y. A., Yu, Y., Cupples, L. A., Farrer, L. A., and Lunetta, K. L. (2009). Performance of random forest when SNPs are in linkage disequilibrium. BMC Bioin- formatics,10, 78.

[50] Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, Inc., New York, NY, USA, 1 edition.

[51] Montojo, J., Zuberi, K., Rodriguez, H., Kazi, F., Wright, G., Donaldson, S. L., Morris, Q., and Bader, G. D. (2010). GeneMANIA Cytoscape plugin: fast gene function predictions on the desktop. Bioinformatics,26(22), 2927–2928.

[52] Moore, J. H., Asselbergs, F. W., and Williams, S. M. (2010). Bioinformatics challenges for genome-wide association studies. Bioinformatics (Oxford, England), 26(4), 445–55.

[53] Mostafavi, S., Ray, D., Warde-Farley, D., Grouios, C., and Morris, Q. (2008). GeneMANIA: a real-time multiple association network integration algorithm for predicting gene function. Genome Biol.,9 Suppl 1, S4.

[54] Mueller, S. G., Weiner, M. W., Thal, L. J., Petersen, R. C., Jack, C., Jagust, W., Trojanowski, J. Q., Toga, A. W., and Beckett, L. (2005). The Alzheimer’s disease neuroimaging initiative. Neuroimaging clinics of North America,15(4), 869–77. [55] Naidoo, N., Pawitan, Y., Soong, R., Cooper, D., and Ku, C. (2011). Human genetics

and genomics a decade after the release of the draft sequence of the human genome. Human genomics,5(6), 577–622.

[56] Naj, A. C., e. a. (2011). Common variants at MS4A4/MS4A6E, CD2AP, CD33 and EPHA1 are associated with late-onset Alzheimer’s disease. Nat. Genet.,43(5), 436–441.

[57] Nicodemus, K. K. (2011). Letter to the editor: on the stability and ranking of predictors from random forest variable importance measures. Brief. Bioinformatics, 12(4), 369–373.

[58] Osborn, C. E. (2006). Statistical Applications for Health Information Management. Jones and Barllet Publishers, 2 edition.

REFERÊNCIAS BIBLIOGRÁFICAS

[59] Petersen, R. C. (2004). Mild cognitive impairment as a diagnostic entity. Journal of internal medicine,256(3), 183–94.

[60] Petersen, R. C., Donohue, M. C., Gamst, A. C., Harvey, D. J., Jack, C. R., Jagust, W. J., and Toga, A. W. (2010). Alzheimer ’ s Disease Neuroimaging Initiative ( ADNI ) Clinical characterization. Neurodegenerative Diseases, pages 201–209.

[61] Pierce, B. A. (2003). Genetics: a conceptual approach. WH Freman, 1 edition. [62] Polikar, R. (2006). Ensemble Based Systems in Decision Making. IEEE Circuits

and Systems Magazine,6(3), 21–45.

[63] Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M. a. R., Bender, D., Maller, J., Sklar, P., de Bakker, P. I. W., Daly, M. J., and Sham, P. C. (2007). PLINK: a tool set for whole-genome association and population-based linkage analyses. American journal of human genetics,81(3), 559–75.

[64] R Development Core Team (2008). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051- 07-0.

[65] Ritchie, M. D. (2011). Using biological knowledge to uncover the mystery in the search for epistasis in genome-wide association studies. Ann. Hum. Genet., 75(1), 172–182.

[66] Sagoo, G. S., Little, J., and Higgins, J. P. T. (2009). Systematic reviews of genetic association studies. Human Genome Epidemiology Network. PLoS medicine,6(3), 28.

[67] Saykin, A. J. e. a. (2010). Alzheimer’s Disease Neuroimaging Initiative biomarkers as quantitative phenotypes: Genetics core aims, progress, and plans. Alzheimers Dement,6(3), 265–273.

[68] Sherry, S. T., Ward, M. H., Kholodov, M., Baker, J., Phan, L., Smigielski, E. M., and Sirotkin, K. (2001). dbSNP: the NCBI database of genetic variation. Nucleic Acids Res.,29(1), 308–311.

[69] Sheskin, D. J. (2007). Handbook of Parametric and Nonparametric Statistical Procedures. Chapman & Hall/CRC, 4 edition.

REFERÊNCIAS BIBLIOGRÁFICAS

[70] Sun, Y. V., Cai, Z., Desai, K., Lawrance, R., Leff, R., Jawaid, A., Kardia, S. L., and Yang, H. (2007). Classification of rheumatoid arthritis status with candidate gene and genome-wide single-nucleotide polymorphisms using random forests. BMC Proc,1 Suppl 1, S62.

[71] Szymczak, S., Biernacka, J. M., Cordell, H. J., González-Recio, O., König, I. R., Zhang, H., and Sun, Y. V. (2009). Machine learning in genome-wide association studies. Genetic epidemiology,33(Supplement 1), 51–57.

[72] The International HapMap Consortium (2003). The International HapMap Project. Nature,426(6968), 789–796.

[73] Thies, W. and Bleiler, L. (2011). 2011 Alzheimer’s disease facts and figures. Alzheimers Dement,7(2), 208–244.

[74] Touw, W. G., Bayjanov, J. R., Overmars, L., Backus, L., Boekhorst, J., Wels, M., and van Hijum, S. a. F. T. (2012). Data mining in the Life Sciences with Random Forest: a walk in the park or lost in the jungle? Briefings in bioinformatics.

[75] Trojanowski, J. Q., Vandeerstichele, H., Korecka, M., Clark, C. M., Aisen, P. S., Petersen, R. C., Blennow, K., Soares, H., Simon, A., Lewczuk, P., Dean, R., Siemers, E., Potter, W. Z., Weiner, M. W., Jack, C. R., Jagust, W., Toga, A. W., Lee, V. M., and Shaw, L. M. (2010). Update on the biomarker core of the Alzheimer’s Disease Neuroimaging Initiative subjects. Alzheimers Dement,6(3), 230–238.

[76] Wang, W. Y. S., Barratt, B. J., Clayton, D. G., and Todd, J. a. (2005). Genome-wide association studies: theoretical and practical concerns. Nature reviews. Genetics,6(2), 109–18.

[77] Winham, S. J., Colby, C. L., Freimuth, R. R., Wang, X., de Andrade, M., Huebner, M., and Biernacka, J. M. (2012). SNP interaction detection with Random Forests in high-dimensional genetic data. BMC Bioinformatics,13, 164.

[78] Witte, J. S. (2010). Genome-wide association studies and beyond. Annual review of public health,31, 9–20 4 p following 20.

[79] Wu, F. and Yao, P. J. (2009). Clathrin-mediated endocytosis and Alzheimer’s disease: an update. Ageing Res. Rev.,8(3), 147–149.

REFERÊNCIAS BIBLIOGRÁFICAS

[80] Ziegler, A., König, I. R., and Thompson, J. R. (2008). Biostatistical aspects of genome-wide association studies. Biometrical journal. Biometrische Zeitschrift,50(1), 8–28.

A

Redes de Interações Gene-Gene

Neste apêndice são apresentadas evidências dos relacionamentos entre genes, de acordo com as redes geradas pelo GeneMANIA. Assim, para compor a rede restringimos a lista de genes apresentados, nas tabelas Tabela 5.1 e Tabela 5.2 que expõe os rankings ver Tabela 4.5. O objetivo, é identificar os possíveis relacionamentos entre, os genes já associados com a DA e os novos genes identificados.

Na Figura A.1 (A) são apresentandos todos os relacionamentos, considerando todas as categorias de dados, passíveis de consulta no GeneMANIA. De forma a melhor visualizar tais relacionamento, extraimos as interações para cada categoria de rede e destacamos individualmente, por linhas vermelhas, ao longo das redes, apresentadas na Figura A.1, como forma de melhor análisar tais evidências. Uma característica que o GeneMANIA apresenta é que quanto mais espessa a aresta de ligação entre os genes, mais forte será a evidência de interação entre os genes. Por fim, é importante notar que os genes relatados nos rankings, ver Tabela 5.1 e Tabela 5.2 interagem nas mais diversas categorias de redes GxG e para alguns dos genes até mais que uma categoria, assim com base em evidências são fortes candidatos a susceptibilidade para DA ou MCI.

Na Seção 5.3.1 são discutidos os genes encontrados, em termos de suas interações e associações com a DA.

LDLRAP1 ABCA7 CD2AP SH3GL2 RIMBP2 AMPH CBL IL2RA LASP1 MS4A6 SH3PXD2B PICALM SYNJ2 BIN1 ENSG00000214787 MMP25 NEBL CLU APOE KIRREL ENTHD1 CR1 SNAP91 HIP1 CD33 RIMBP2 SNAP91 KIRREL NEBLENTHD1 HIP1 SH3GL2 CLU MMP25 CR1 APOE CD33 AMPH LDLRAP1 ABCA7 CD2AP CBL SH3PXD2B MS4A6 PICALM SYNJ2 BIN1 LASP1 IL2RA ENSG00000214787 LDLRAP1 ABCA7 CBL RIMBP2 CD2AP AMPH SH3GL2 IL2RA ENSG00000214787 MS4A6 SH3PXD2B PICALM SYNJ2 BIN1 LASP1 MMP25 NEBL CLU APOE KIRREL CD33 CR1 SNAP91 HIP1 ENTHD1 LDLRAP1 ABCA7 CD2AP SH3GL2 RIMBP2 AMPH CBL IL2RA LASP1 MS4A6 SH3PXD2B PICALM SYNJ2 BIN1 ENSG00000214787 MMP25 NEBL CLU APOE KIRREL ENTHD1 CR1 SNAP91 HIP1 CD33 (A) Rede de interações GxG!

(C) ) Interações GxG por co-localização!

(B) Interações GxG por co- expressão gênica!

(D) Interações GxG por epistase.!

LDLRAP1 ABCA7 CBL RIMBP2 CD2AP AMPH IL2RA ENSG00000214787 MS4A6 SH3PXD2B PICALM LASP1 BIN1 SYNJ2 MMP25 NEBL CLU APOE KIRREL CD33 CR1 SNAP91 HIP1 ENTHD1 SH3GL2 LDLRAP1 ABCA7 CD2AP SH3GL2 RIMBP2 AMPH CBL IL2RA LASP1 MS4A6 SH3PXD2B PICALM SYNJ2 BIN1 ENSG00000214787 MMP25 NEBL CLU APOE KIRREL ENTHD1 CR1 SNAP91 HIP1 CD33 LDLRAP1 ABCA7 CD2AP SH3GL2 RIMBP2 AMPH CBL IL2RA LASP1 MS4A6 SH3PXD2B PICALM SYNJ2 BIN1 ENSG00000214787 MMP25 NEBL CLU APOE KIRREL ENTHD1 CR1 SNAP91 HIP1 CD33 LDLRAP1 ABCA7 CBL SH3GL2 RIMBP2 AMPH CD2AP IL2RA ENSG00000214787 MS4A6 SH3PXD2B PICALM SYNJ2 BIN1 LASP1 MMP25 NEBL CLU APOE KIRREL CD33 CR1 SNAP91 HIP1 ENTHD1

(E) Interações GxG por vias biológicas.!

(G) Interações proteína-proteína.!

(F) Interações por compartilhamento de domínios proteicos!

(H) Interações GxG por função biológica.! Figura A.1: Redes de GxG geradas pelo GeneMANIA. Os vértices (nodos) correspondem aos genes resultados das meta-análises (nodos vermelhos), provenientes dos GWAS catalogados no AlzGene e os potenciais genes (nodos em cinza), como novos genes de susceptibilidade, retratados no ranking gerado pela RF. As interações (arestas) estão destacadas em vermelho e ligam um gene a outro.

Documentos relacionados