Biologia Computacional Um Espaço Desafiador para os Profissionais de Computação

(1)

Biologia Computacional

Um Espaço Desafiador para os

Profissionais de Computação

Katia S. Guimarães

[email protected]

(2)

Ro te iro

• Breve Históric o d a Era

Genômica

• Pós-Genoma , a Curta Era

Proteômica

• A Essenc ia lid a d e d o

Intera ctoma

• Nosso Tra b a lho d e Pesq uisa e

Op o rtunid a d e s no CIn

(3)

Bio -info rm á tic a vs.

Bio lo g ia Co m p uta c io na l

Pa ra a lg uns

Bio-informá tica é uma esp ec ia liza ç ã o d a Info rm á tic a q ue tra ta d e d esenvo lver

ferra m enta s p a ra lid a r c o m d a d o s b io ló g ic o s. Há muita c o ntrovérsia q ua nto a estes term o s.

Biologia (Molecula r) Computa ciona l á rea d e p esq uisa q ue c o m b ina c o nhec im ento s d e

Quím ic a , Físic a , Bio lo g ia , C. Co m p uta ç ã o , Ma tem á tic a e Esta tístic a p a ra a ta c a r

(4)

Histó ric o d a Era G e nô m ic a - 1990

Iníc io : Outub ro d e 1990

La nç a m ento d o Pro jeto G eno ma Huma no - Seq üenc ia r o DNA huma no (3• 109 p b ) e - Id entific a r o s estima d o s 100 m il g enes.

Ato res Princ ip a is:

Co nsó rc io envo lve nd o EUA, Ing la terra , Fra nç a , Ja p ã o , Alema nha e China .

Pra zo : 15 a no s (term ina ria em 2005)

(5)

Histó ric o d a Era G e nô m ic a - 1992

1992

 Consórc io fa z ma p a s d os c ro m o sso m o s huma no s  Cra ig Venter, p esq uisa d or

d o NIH, fund a

The Institute

(6)

Histó ric o d a Era G e nô m ic a - 1995

Grup o d e p esq uisa d o res d a TIGR p ub lic a na revista Sc ienc e o a rtig o

Wh o l e -g e n o m e r a n d o m s e q u e n c i n g a n d a s s e m b l y o f H a e m o p h i l u s i n fl u e n z a e R d .

Fle isc hma nn RD, Ad a m s MD, e t a l.

c o m a seq üênc ia d e DNA d a b a c téria Ha em o p hilus influenza e (o tite, m ening ite) Ta ma nho: 2• 106 b p

Téc nic a : d o ub le -b a rrel sho tg un seq uenc ing

 _{Mais custo computacional}

(7)

(8)

(9)

Histó ric o d a Era G e nô m ic a – 96-98

Pesq uisa d o res d a TIGR p ub lic a m a s

seq üênc ia s d e DNA d e o utra s b a c téria s

Myc o p la ma g enita luim (1996) (m eno r b a c téria ) Metha no c o c c us ja nna sc hii (1997)

1998

Cra ig Venter se a sso c ia c o m a Ap p lied

Bio system s p a ra fund a r a

Celera Genomics Corp.,

c o m o o b jetivo d e seq üenc ia r o g eno ma huma no em 03 a no s (2001),

a o c usto d e US$300 m ilhõ es ( 1/ 10 d o o rç a m ento d o p ro jeto d o Co nsó rc io ).

(10)

Histó ric o d a Era G e nô m ic a – 99-00

O Co nsó rc io revê a s sua s p revisõ es, e a nunc ia a c o nc lusã o d o seq üenc ia m e nto p a ra 2003,

c o m um esb o ç o em 2001. Dez/ 1999

É a nunc ia d o o seq üenc ia m ento d o p rim eiro c ro m o sso m o (no . 22) p elo c o nsó rc io mund ia l.

Jun/ 2000

Bill Clinto n e To ny Bla ir a nunc ia m a c o nc lusã o d o p rim eiro esb o ç o d o g eno ma huma no .

(11)

Histó ric o d a Era G e nô m ic a –

Fe v 2001

The Sequence of the Huma n Genome

J. C. Venter, M. D. Ada ms, E. W. Myers, et a l.

Initia l Sequencing a nd Ana lysis of the Huma n Genome

(12)

Célula

Genoma

Biologia Molecular 101 em 2 Minutos

Cromossomos

DNA O DNA contém

genes que codificam proteínas

Genes são expressos, gerando proteínas

Proteínas atuam sozinhas ou em complexos

(13)

O GenBank

Link: http://www.ncbi.nlm.nih.gov/Genbank/index.html

Do ponto de vista da computação, foram criadas inúmeras seqüências sobre o alfabeto {a, c, g, t}

1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat

421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc

541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac

(14)

O GenBank do NCBI

Link: http://www.ncbi.nlm.nih.gov/Genbank/index.html Aproxima-damente 85 bilhões de pares de base

(15)

O que fazer com tanta Letrinha?

O genoma é como um livro dividido em capítulos (cromos-somos) e estes em palavras (genes)

(16)

Genes são transcritos e traduzidos

dando origem a proteínas

(17)

Mas se fosse muito simples não

seria tão interessante

Foram encontrados apenas cerca de 25mil genes, ao invés dos 60 a 100 mil genes estimados a princípio.

(18)

Os genes dos eucariotos são

compostos por exons e introns …

(19)

Os introns sempre desaparecem

por ocasião do splicing.

(20)

Os genes têm a sua expressão controlada

por Fatores de Transcrição

O foco da atenção passou então para as proteínas .

(21)

Os níveis de expressão de um gene variam

com os promotores que se ligam à região

reguladora, imediatamente antes do gene

(22)

O que é Proteômica?

Proteômica é o estudo das proteínas, com suas estruturas e funções.

Link para Expasy:

http://ca.expasy.org/cgi-bin/prosite/PSView.cgi?ac=PS50057&onebyarch=1&hscale=0.6

Link para PDB:

(23)

O nível de expressão dos genes em diferentes con-dições ou em intervalos de tempo pode ser medido

Em setembro de 2006, o GEO (Gene Expression Omnibus) do NCBI continha mais de 3.2 bilhões de medidas, tomadas sobre mais de 200 organismos.

(24)

Intera ç õ es entre Pro teína s

Proteínas geralmente atuam em conjunto, e se organizam

em redes do tipo

small world, com

muitos nós de grau baixo e poucos nós de grau alto (hubs)

(25)

Interações entre Proteínas

Proteínas relacionadas funcionalmente encontram-se a uma distância muito pequena, e em geral são vizinhas nos mapas de interação.

(26)

Doenças Humanas e Alvos de Drogas

Nature Biotech, Out 2007

(27)

Dobramento de Proteínas

(28)

(29)

Do b ra m ento d e Pro teína s

Alp ha

Helix

(30)

Dobramento de Proteínas

Beta Barrel

(31)

Docking e o Projeto de Drogas

Detalhes como orientação e ângulo de ligação de todos os resíduos do sítio ativo são essenciais.

(32)

The Blue G e ne Pro je c t

Em dezembro de 1999, IBM anunciou um projeto orçado em $100 milhões de dólares em 5 anos. Objetivo: Construir um computador massivamente paralelo para ser aplicado no estudo de fenômenos biomoleculares, como protein folding.

IBM Research – Blue Gene supercomputadores que operam da ordem de 478 TFlops (continuado) e 596 TFlops no pique!

(33)

No sso Tra b a lho Ne sta Áre a

No s últim o s a no s tem o s tra b a lha d o em : - Pred iç ã o d e Estrutura s d e Pro teína s - Rec o nstruç ã o d e Red es d e G enes

(em g era l e rela c io na d a s a d o enç a s) - Intera ç ã o entre Pro teína s e G enes

- SNPs (sing le nuc leo tid e p o lim o rp hism )

(34)

Pre d iç ã o d e Estrutura s d e Pro te ína s

Protein Seconda ry Structure Prediction: Efficient Neura l Network a nd Fea ture

Extra ction Approa ches

J. Melo , G. Ca va lc a nti e K.Guima rã es IEE Elec tro nic s Letters, 2004

Combining Few Neura l Networks for

Effective Seconda ry Structure Prediction

K. Guima rã es, J. Melo e G. Ca va lc a nti Bethesd a , USA, Ma rç o 2003

BIBE 2003

(35)

Re c o nstruç ã o d e Re d e s d e G e ne s

Analyzing the Effect of Prior Knowledge in Genetic Regulatory Network Inference

Gusta vo Ba sto s a nd Ka tia S. Guima rã es Dezem b ro 2005

A Simpler Ba yesia n Network Model for Genetic Regula tory Network Inference

Gusta vo Ba sto s a nd Ka tia S. Guima rã es Mo ntrea l, CA, Ag o sto 2005

IJCNN 2005

(36)

Inte ra ç ã o entre Pro te ína s e G e ne s

Predicting doma in-doma in intera ctions using a pa rsimony a pproa ch

K. S. Guima rã es, R. Jothi, E. Zotenko, T. Przytycka Novembro 2006

Decomposition of overla pping protein complexes: A gra ph theoretica l method for a na lyzing sta tic a nd dyna mic protein a ssocia tions

E. Zotenko, K. S. Guima rã es, R. Jothi, T. Przytycka Abril 2006

(37)

Inte ra ç ã o entre Pro te ína s e G e ne s

Interrogating domain-domain interactions with parsimony based approaches

K. S. Guima rã es a nd T. Przytycka Ma rço 2008

(38)

SNPs e Ha p lo typ ing

0.1% diferença de um indivíduo pa ra outro.

80% da s va ria ções em SNPs

Ponto frequente de ca ra cteriza çã o de doença s

Aborda gens Combina toria is e Esta tísticos

… ataggtccCtatttcgcgcCgtatacacgggActata …  CCA

… ataggtccGtatttcgcgcCgtatacacgggTctata …  GCT

(39)

Araújo, FRB ; GUIMARÃES, K. S. . A Case-Control Study of Non-parametric Approaches for Detecting SNP-SNP

Interactions. In: XXX International Conference of the Chilean Computer Science Society, 2011, Curicó, Chile. Proc. of the XXX International Conference of the Chilean Computer

Science Society, 2011.

(40)

Rosa, Rogério S. ; Santos, R.H.S. ; GUIMARÃES, K. S. . Accurate Prediction of Error in Haplotype Inference Methods through Neural Networks. In: IJCNN - Int. Joint Conference on Neural Nets, 2012, Brisbane. Proc. of the IJCNN 2012. Piscataway, NJ, USA : IEEE Publishing, 2012.

Rosa, Rogério S. ; GUIMARÃES, K. S. . Insights on Haplotype Inference on Large Genotype Datasets. In: Brazilian Symposium on Bioinformatics (BSB) 2010, 2010, Búzios, RJ, BRAZIL.

Lecture Notes in Bioinformatics. Berlin, Alemanha : Springer, 2010. v. 6268. p. 47-58.

(41)

Mic ro Arra y Cluste ring

Monteiro, Carla C.R.R. ; GUIMARÃES, K. S. . Logistic

Biclustering Models for Protein Network Inference. In: IEEE International Conference on Bioinformatics and Bioengineering, 2009, Taichung, Taiwan. BIBE 2009 Proceedings, 2009.