Biologia Computacional
Um Espaço Desafiador para os
Profissionais de Computação
Katia S. Guimarães
Ro te iro
• Breve Históric o d a Era
Genômica
• Pós-Genoma , a Curta Era
Proteômica
• A Essenc ia lid a d e d o
Intera ctoma
• Nosso Tra b a lho d e Pesq uisa e
Op o rtunid a d e s no CIn
Bio -info rm á tic a vs.
Bio lo g ia Co m p uta c io na l
Pa ra a lg uns
Bio-informá tica é uma esp ec ia liza ç ã o d a Info rm á tic a q ue tra ta d e d esenvo lver
ferra m enta s p a ra lid a r c o m d a d o s b io ló g ic o s. Há muita c o ntrovérsia q ua nto a estes term o s.
Biologia (Molecula r) Computa ciona l á rea d e p esq uisa q ue c o m b ina c o nhec im ento s d e
Quím ic a , Físic a , Bio lo g ia , C. Co m p uta ç ã o , Ma tem á tic a e Esta tístic a p a ra a ta c a r
Histó ric o d a Era G e nô m ic a - 1990
Iníc io : Outub ro d e 1990
La nç a m ento d o Pro jeto G eno ma Huma no - Seq üenc ia r o DNA huma no (3• 109 p b ) e - Id entific a r o s estima d o s 100 m il g enes.
Ato res Princ ip a is:
Co nsó rc io envo lve nd o EUA, Ing la terra , Fra nç a , Ja p ã o , Alema nha e China .
Pra zo : 15 a no s (term ina ria em 2005)
Histó ric o d a Era G e nô m ic a - 1992
1992
Consórc io fa z ma p a s d os c ro m o sso m o s huma no s Cra ig Venter, p esq uisa d or
d o NIH, fund a
The Institute
Histó ric o d a Era G e nô m ic a - 1995
Grup o d e p esq uisa d o res d a TIGR p ub lic a na revista Sc ienc e o a rtig o
Wh o l e -g e n o m e r a n d o m s e q u e n c i n g a n d a s s e m b l y o f H a e m o p h i l u s i n fl u e n z a e R d .
Fle isc hma nn RD, Ad a m s MD, e t a l.
c o m a seq üênc ia d e DNA d a b a c téria Ha em o p hilus influenza e (o tite, m ening ite) Ta ma nho: 2• 106 b p
Téc nic a : d o ub le -b a rrel sho tg un seq uenc ing
Mais custo computacional
Histó ric o d a Era G e nô m ic a – 96-98
Pesq uisa d o res d a TIGR p ub lic a m a s
seq üênc ia s d e DNA d e o utra s b a c téria s
Myc o p la ma g enita luim (1996) (m eno r b a c téria ) Metha no c o c c us ja nna sc hii (1997)
1998
Cra ig Venter se a sso c ia c o m a Ap p lied
Bio system s p a ra fund a r a
Celera Genomics Corp.,
c o m o o b jetivo d e seq üenc ia r o g eno ma huma no em 03 a no s (2001),
a o c usto d e US$300 m ilhõ es ( 1/ 10 d o o rç a m ento d o p ro jeto d o Co nsó rc io ).
Histó ric o d a Era G e nô m ic a – 99-00
O Co nsó rc io revê a s sua s p revisõ es, e a nunc ia a c o nc lusã o d o seq üenc ia m e nto p a ra 2003,
c o m um esb o ç o em 2001. Dez/ 1999
É a nunc ia d o o seq üenc ia m ento d o p rim eiro c ro m o sso m o (no . 22) p elo c o nsó rc io mund ia l.
Jun/ 2000
Bill Clinto n e To ny Bla ir a nunc ia m a c o nc lusã o d o p rim eiro esb o ç o d o g eno ma huma no .
Histó ric o d a Era G e nô m ic a –
Fe v 2001
The Sequence of the Huma n Genome
J. C. Venter, M. D. Ada ms, E. W. Myers, et a l.
Initia l Sequencing a nd Ana lysis of the Huma n Genome
Célula
Genoma
Biologia Molecular 101 em 2 Minutos
Cromossomos
DNA O DNA contém
genes que codificam proteínas
Genes são expressos, gerando proteínas
Proteínas atuam sozinhas ou em complexos
O GenBank
Link: http://www.ncbi.nlm.nih.gov/Genbank/index.html
Do ponto de vista da computação, foram criadas inúmeras seqüências sobre o alfabeto {a, c, g, t}
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc
541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac
O GenBank do NCBI
Link: http://www.ncbi.nlm.nih.gov/Genbank/index.html Aproxima-damente 85 bilhões de pares de baseO que fazer com tanta Letrinha?
O genoma é como um livro dividido em capítulos (cromos-somos) e estes em palavras (genes)Genes são transcritos e traduzidos
dando origem a proteínas
Mas se fosse muito simples não
seria tão interessante
Foram encontrados apenas cerca de 25mil genes, ao invés dos 60 a 100 mil genes estimados a princípio.
Os genes dos eucariotos são
compostos por exons e introns …
Os introns sempre desaparecem
por ocasião do splicing.
Os genes têm a sua expressão controlada
por Fatores de Transcrição
O foco da atenção passou então para as proteínas .
Os níveis de expressão de um gene variam
com os promotores que se ligam à região
reguladora, imediatamente antes do gene
O que é Proteômica?
Proteômica é o estudo das proteínas, com suas estruturas e funções.
Link para Expasy:
http://ca.expasy.org/cgi-bin/prosite/PSView.cgi?ac=PS50057&onebyarch=1&hscale=0.6
Link para PDB:
O nível de expressão dos genes em diferentes con-dições ou em intervalos de tempo pode ser medido
Em setembro de 2006, o GEO (Gene Expression Omnibus) do NCBI continha mais de 3.2 bilhões de medidas, tomadas sobre mais de 200 organismos.
Intera ç õ es entre Pro teína s
Proteínas geralmente atuam em conjunto, e se organizam
em redes do tipo
small world, com
muitos nós de grau baixo e poucos nós de grau alto (hubs)
Interações entre Proteínas
Proteínas relacionadas funcionalmente encontram-se a uma distância muito pequena, e em geral são vizinhas nos mapas de interação.Doenças Humanas e Alvos de Drogas
Nature Biotech, Out 2007
Dobramento de Proteínas
Do b ra m ento d e Pro teína s
Alp ha
Helix
Dobramento de Proteínas
Beta Barrel
Docking e o Projeto de Drogas
Detalhes como orientação e ângulo de ligação de todos os resíduos do sítio ativo são essenciais.
The Blue G e ne Pro je c t
Em dezembro de 1999, IBM anunciou um projeto orçado em $100 milhões de dólares em 5 anos. Objetivo: Construir um computador massivamente paralelo para ser aplicado no estudo de fenômenos biomoleculares, como protein folding.
IBM Research – Blue Gene supercomputadores que operam da ordem de 478 TFlops (continuado) e 596 TFlops no pique!
No sso Tra b a lho Ne sta Áre a
No s últim o s a no s tem o s tra b a lha d o em : - Pred iç ã o d e Estrutura s d e Pro teína s - Rec o nstruç ã o d e Red es d e G enes
(em g era l e rela c io na d a s a d o enç a s) - Intera ç ã o entre Pro teína s e G enes
- SNPs (sing le nuc leo tid e p o lim o rp hism )
Pre d iç ã o d e Estrutura s d e Pro te ína s
Protein Seconda ry Structure Prediction: Efficient Neura l Network a nd Fea ture
Extra ction Approa ches
J. Melo , G. Ca va lc a nti e K.Guima rã es IEE Elec tro nic s Letters, 2004
Combining Few Neura l Networks for
Effective Seconda ry Structure Prediction
K. Guima rã es, J. Melo e G. Ca va lc a nti Bethesd a , USA, Ma rç o 2003
BIBE 2003
Re c o nstruç ã o d e Re d e s d e G e ne s
Analyzing the Effect of Prior Knowledge in Genetic Regulatory Network Inference
Gusta vo Ba sto s a nd Ka tia S. Guima rã es Dezem b ro 2005
A Simpler Ba yesia n Network Model for Genetic Regula tory Network Inference
Gusta vo Ba sto s a nd Ka tia S. Guima rã es Mo ntrea l, CA, Ag o sto 2005
IJCNN 2005
Inte ra ç ã o entre Pro te ína s e G e ne s
Predicting doma in-doma in intera ctions using a pa rsimony a pproa ch
K. S. Guima rã es, R. Jothi, E. Zotenko, T. Przytycka Novembro 2006
Decomposition of overla pping protein complexes: A gra ph theoretica l method for a na lyzing sta tic a nd dyna mic protein a ssocia tions
E. Zotenko, K. S. Guima rã es, R. Jothi, T. Przytycka Abril 2006
Inte ra ç ã o entre Pro te ína s e G e ne s
Interrogating domain-domain interactions with parsimony based approaches
K. S. Guima rã es a nd T. Przytycka Ma rço 2008
SNPs e Ha p lo typ ing
0.1% diferença de um indivíduo pa ra outro.
80% da s va ria ções em SNPs
Ponto frequente de ca ra cteriza çã o de doença s
Aborda gens Combina toria is e Esta tísticos
… ataggtccCtatttcgcgcCgtatacacgggActata … CCA
… ataggtccGtatttcgcgcCgtatacacgggTctata … GCT
Araújo, FRB ; GUIMARÃES, K. S. . A Case-Control Study of Non-parametric Approaches for Detecting SNP-SNP
Interactions. In: XXX International Conference of the Chilean Computer Science Society, 2011, Curicó, Chile. Proc. of the XXX International Conference of the Chilean Computer
Science Society, 2011.
Rosa, Rogério S. ; Santos, R.H.S. ; GUIMARÃES, K. S. . Accurate Prediction of Error in Haplotype Inference Methods through Neural Networks. In: IJCNN - Int. Joint Conference on Neural Nets, 2012, Brisbane. Proc. of the IJCNN 2012. Piscataway, NJ, USA : IEEE Publishing, 2012.
Rosa, Rogério S. ; GUIMARÃES, K. S. . Insights on Haplotype Inference on Large Genotype Datasets. In: Brazilian Symposium on Bioinformatics (BSB) 2010, 2010, Búzios, RJ, BRAZIL.
Lecture Notes in Bioinformatics. Berlin, Alemanha : Springer, 2010. v. 6268. p. 47-58.
Mic ro Arra y Cluste ring
Monteiro, Carla C.R.R. ; GUIMARÃES, K. S. . Logistic
Biclustering Models for Protein Network Inference. In: IEEE International Conference on Bioinformatics and Bioengineering, 2009, Taichung, Taiwan. BIBE 2009 Proceedings, 2009.