• Nenhum resultado encontrado

Bioinformática DCC/FCUP

N/A
N/A
Protected

Academic year: 2021

Share "Bioinformática DCC/FCUP"

Copied!
78
0
0

Texto

(1)

Bioinform´atica

DCC/FCUP

2012/2013

Pedro Ribeiro

Unidade 1

Introduc¸˜ao e Conceitos Fundamentais

(baseado nos slides de V´ıtor Costa/FCUP e de Sushmita Roy/UWisconsin)

(2)

Funcionamento da Unidade Curricular

• P´agina: http://www.dcc.fc.up.pt/∼pribeiro/aulas/bioinformatica1213/

• Aulas Te´oricas (sala S3): terc¸as, das 15:30 `as 17:00 / quartas, das 14:00 `as 15:30

• Aulas Pr´aticas (Lab 3): quartas, das 15:30 `as 17:00

(3)

Avaliac¸ ˜ao

• Componente Distribu´ıda (10 valores)

? Mini-Trabalhos (2 valores) - individual ou em grupos de 2

? Projecto (4 valores) - individual ou em grupos de 2

? Apresentac¸˜ao de Artigo (4 valores) - individual

(4)

Mini-Trabalhos

• Implementac¸˜ao de algoritmos (C, C++ ou Java)

• 5 mini-trabalhos, cada um vale 0.5, melhores 4 contam

• Submiss˜ao via Mooshak com feedback autom´atico

• Nota baseada na quantidade de testes correctos

• Datas previstas (2 semanas de prazo para cada um) 1. 27/02: assemblagem

2. 13/03: alinhamento

3. 20/03: ´arvores filogen´eticas 4. 10/04: cadeias de markov 5. 24/04: redes

(5)

Projecto

• Durac¸˜ao prevista de 1 mˆes

• Vamos falar mais sobre eles final de Abril

• Projecto de bioinform´atica que pode ser 1 de 3 alternativas:

? Criac¸˜ao de ferramenta de bioinform´atica (entrega: c´odigo + manual)

? Artigo de revis˜ao do estado da arte (entrega: artigo escrito)

(6)

Apresentac¸ ˜ao de Artigo

• Apresentac¸˜ao oral com base em slides

• Realizada nas ´ultimas aulas te´oricas

• Artigo cient´ıfico recente (ano >= 2010) em Bioinform´atica

• Algumas revistas conferˆencias poss´ıveis:

? Bioinformatics (Oxford) [DBLP]

? BMC Bioinformatics [DBLP]

? PLOS Computational Biology [DBLP]

? Algorithms in Bioinformatics (Workshop) [DBLP]

• Exemplos do ano passado (MIM):

? A Quick Guide for Developing Effective Bioinformatics Programming Skills (2009)

? GPU-BLAST: using graphics processors to accelerate protein sequence alignment (2010)

? A Comprehensive Benchmark Study of Multiple Sequence Alignment Methods: Current Challenges and Future Perspectives (2011)

? Mugsy: fast multiple alignment of closely related whole genome (2010)

? When the Web meets the cell: using personalized PageRank for analyzing protein interaction networks (2010)

(7)

Antecedentes

• O que espera que o aluno saiba `a partida?

? Algoritmos e Estruturas de Dados: essencial

? Estat´ıstica: conveniente, mas n˜ao obrigat´orio

(8)

Objectivos do Curso

Pretende-se que o aluno:

• Se familiarize com os conceitos b´asicos de Bioinform´atica, com especial ˆenfase na Biologia Molecular Computacional

• Conhec¸a e compreenda os tipos e fontes de dados usados

• Conhec¸a os problemas computacionais mais importantes

• Entenda os algoritmos mais importantes e interessantes, em particular na assem-blagem, emparelhamento de sequˆencias, filogenia e reconhecimento de padr˜oes (no genoma, proteoma e redes de interac¸˜ao)

• Tenha uma perspectiva das ferramentas mais populares e das quest˜oes abertas na ´area

(9)

Bibliografia

1. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. R. Durbin, S. Eddy, A. Krogh, and G. Mitchison. Cambridge University Press, 1998. [Google Scholar]

2. Computational Genome Analysis An Introduction, Richard Deonier, S Tavar´e, and Michael S. Waterman, Springer Verlag, 2005.

(10)

Cursos Relacionados

• Introduction to Bionformatics (Sushmita Roy, Univ. Wisconsin)

• Introduction to Computational Molecular Biology (Bonnie Berger, MIT)

• Introduction to Bioinformatics (Yael Mandel-Gutfreund, IIT, Israel)

• Bioinform´atica (Leonor Morais, IST)

(11)

O que vamos aprender?

• Conceitos de Ciˆencia de Computadores

? Programac¸˜ao Dinˆamica, Teoria de Grafos, ´Arvores, Cadeias de Markov, ..

• Conceitos de Biologia

? Entidades moleculares e Dados Biol´ogicos

• Problemas Importantes da Biologia Molecular

(12)

Bioinform ´atica

Processamento/armazenamento/apresentac¸˜ao/pesquisa de dados biol´ogicos: 1. sequˆencias; 2. estruturas; 3. func¸˜oes; 4. n´ıveis de actividade; 5. redes de interac¸˜ao; de/entre biomol´eculas.

Tamb´em conhecida como Biologia Computacional ou Biologia Molecular Computa-cional

(13)

Porqu ˆe usar computadores?

• Biologia ´e muito baseada em dados

? Riqueza de dados: muitos tipos e fontes

? Complexidade: sistemas complexos e dados com “ru´ıdo”

• Sˆao necess´arios computadores para guardar, gerenciar, analisar e visualizar os dados

• Queremos essencialmente passar de dados para conhecimento

• Muitas quest˜oes biol´ogicas traduzem-se intuitivamente para um problema computa-cional

(14)

Resumo dos t ´

opicos que vamos abordar

• Assemblagem de genomas

• Comparac¸˜ao de genomas

• Anotac¸˜ao de genomas

(15)

Assemblagem de Genomas

(16)

T ´

opicos em Assemblagem de Genomas

• Sequenciac¸˜ao

• Algoritmos greedy

• Teoria de Grafos e o problema da “superstring” m´ınima

? Caminhos de Hamilton e de Euler

? Grafos ”De Bruijn”

(17)

Comparac¸ ˜ao de Genomas I

(18)

T ´

opicos em Comparac¸ ˜ao de Sequ ˆencias

• Alinhamento de pares com programac¸˜ao dinˆamica

• Alinhamentos locais e globais

• Modelos de avaliac¸˜ao de alinhamentos

(19)

Comparac¸ ˜ao de Genomas II

(20)

T ´

opicos na Comparac¸ ˜ao de Genomas

• Alinhamentos m´ultiplos ? Programac¸˜ao Dinˆamica ? Alinhamento em Estrela ? Alinhamento em ´Arvore • Arvores filogen´eticas´ ? Construc¸˜ao de ´arvores

? M´etodos baseados em distˆancia e em parcim´onia

(21)
(22)
(23)

Anotac¸ ˜ao de Genomas

Onde est˜ao os genes e as zonas regulat´orias?

(24)

T ´

opicos na Anotac¸ ˜ao de Genomas

• Conceitos de Probabilidade

• Cadeias de Markov

• Cadeias de Markov Escondidas (HMMs)

• Aprendizagem de HMMs: forward/backward/Viterbi

(25)

Redes Biol ´

ogicas

(26)

T ´

opicos em Redes Biol ´

ogicas

• Tipos de Redes

• Propriedades te´oricas (scale-free, small-world, ...)

• M´etricas (grau, diˆametro, centralidade, coeficient de clustering, ...)

• Padr˜oes (motifs, graphlets)

• Algoritmos para pesquisa e contagem de subgrafos

(27)

Outros t ´

opicos

• Plataformas de software: BioC++, BioJava, etc

• Servic¸os e workflows: Taverna, BioCatalogue

• Computac¸˜ao volunt´aria: BOINC, @HOME

• Algoritmos de clustering e de classificac¸˜ao (actividade de genes)

• Estrutura de prote´ınas

• Inferˆencia de redes

(28)

Introduc¸ ˜ao `a Biologia Molecular

• Organizac¸˜ao da informac¸˜ao biol´ogica

• As diferentes partes da c´elula

• DNA, RNA, cromossoma, n´ucleo, ...

• Entidades bioqu´ımicas: mRNA, prote´ınas, metab´olitos, ...

• Genes, heredetariedade, transcric¸˜ao, traduc¸˜ao, regulac¸˜ao, express˜ao, splicing, ...

(29)
(30)
(31)

DNA

• Acido desoxirribonucleico´

• Vista como sendo a Matriz que codifica o organismo

• Composta de pequenas mol´eculas chamadas nucle´otidos

• Distinguidos por uma base:

? A: adenina

? C: citosina

? G: guanina

? T: timina

(32)

DNA

• Pode ser visto como uma sequˆencia de 4 letras:

ctgcatctatacgatcg cggggccgggggtgcggg ctaggaccctgactgcc cggggccgggggtgcggg

(33)
(34)

Pares de Watson-Crick

• No DNA de 2 fitas:

? A sempre liga com T e

(35)

A H ´elice Dupla

• Cada fita de DNA tem uma “direcc¸˜ao”:

? Num lado o carbono terminal da coluna est´a ligado ao carbono 5’ do ac¸´ucar

? No oposto, est´a ligado ao carbono 3’

• Podemos portanto falar do terminal 5’ e 3’ de uma fita

(36)

DNA como a “planta” de um organismo

• E a “mol´ecula da hereditariedade”´

• Cont´em toda a informac¸˜ao necess´aria para “criar” um organismo

• A ligac¸˜ao com pares torna poss´ıvel a auto-replicac¸˜ao:

(37)
(38)

Cromossomas

• O DNA est´a armazenado em cromossomas (juntamente com prote´ınas)

• procariontes s˜ao organismos uni-celulares sem n´ucleo e tˆem apenas um cromos-soma circular

• eucariontes s˜ao organismos com n´ucleo e tˆem um n´umero espec´ıfico de cromosso-mas lineares.

(39)

Organizac¸ ˜ao F´ısica do DNA

DNA ´e muito “longo” ( 3m nos humanos, 3000 milh˜oes de nucle´otidos) Cc´elula ´e muito pequena: os cromossomas comprimem a mol´ecula de DNA Cromatina = DNA+prote´ınas

(40)
(41)

N ´

umero de Cromossomas

As diferentes esp´ecies possuem um n´umero diferente de cromossomas:

Myrmecia pilosula (formiga) 2

Drosopihla melanogaster (mosca) 8

Macropus (canguru) 16

Phaseolus (feij˜ao) 22

Felis catus (gato) 38

Homo sapiens (humano) 46

Bos primigenius (vaca) 60

Canis lupus familiaris (c˜ao) 78

Carpa (peixe) 104

Ophioglossum reticulatum (planta) 1440

(42)

Genoma

O termo genoma refere-se ao DNA completo para uma esp´ecie

• O ser humano tem 46 cromossomas;

• Todas as c´elulas tˆem o genoma completo

(43)

Genomas Completamente Publicados

(44)

A Corrida do Genoma

Tipo Genoma One Ano

Procarionte H. Influenza TIGR 1995

Eucarionte S. Cerevisiae (fermento) Wisconsin 1997

Animal C. Elegans (verme) Washington U./Sanger 1998

Planta A. thaliana v´arios grupos 2000

Mosca: Drosophila M. v´arios grupos 2000

(45)

Tamanhos de Alguns Genomas

Genoma

#bps

HIV

9750

E. coli

4.6 milh˜oes

S. cerevisiae

12 milh˜oes

C. elegans

97 milh˜oes

Drosophila M.

137 milh˜oes

human

3000 milh˜oes

(46)

H ´a Mais

• > 300 outros bancos de dados sobre biologia nuclear.

• GenBank (Mar 2012):

? 135.440.924 sequˆencias

? 26.551.501.141 bases

• UniProt com SWISS-Prot (2012 12):

? 534.695 entradas com sequˆencias de prote´ınas

? 189667883 amino-´acidos

• Protein Data Bank (Abril 06):

(47)

Mais Dados

• EMBL/EBI:

• International HapMap

• Yeast Genome

(48)

Genes

Genes s˜ao a unidade b´asica de hereditariedade:

• sequˆencia de bases do DNA que carrega a informac¸˜ao necess´aria para construir uma certa prote´ına (ou RNA)

• diz-se que genes codificam prote´ınas

• estimativa: o nosso genoma tem cerca de 25000 genes

(49)

Densidade de Genes

Nem todo o DNA no genoma codifica prote´ınas:

micr´obios 90% codificac¸˜ao

(50)

Prote´ınas

• Prote´ınas s˜ao mol´eculas compostas de polipept´ıdeos;

• Um polipept´ıdeo ´e um pol´ımero composto de amino-´acidos

• As c´elulas constroem as suas prote´ınas de cerca de 20 amino-´acidos diferentes

• Um polipept´ıdeo pode ser visto como uma sequˆencia composta de um alfabeto com 20 caracteres.

(51)

Func¸ ˜ao das Prote´ınas

• Suporte Estrutural

• Armazenamento de Amino ´Acidos

• Transporte de outras substˆancias

• Coordenac¸˜ao das actividades do organismo

• Resposta ao est´ımulos qu´ımicos

• Movimento

• Protecc¸˜ao contra doenc¸as

(52)

Amino- ´

Acidos

Alanina Ala A Isoleucina Ile I

Arginina Arg R Leucina Leu L

´

Acido Asp´artico Asp D Licina Lys K

Asparagina Asn N Metionina Met M

Ciste´ına Cys C Prolina Pro P

´

Acido Glutˆamico Clu E Serina Ser S

Fenilalanina Phe F Treonina Thr T

Glutamina Gln Q Triptofan Trp W

Glicina Cly G Tirosina Tyr Y

(53)

Hexokinase

5 10 15 20 25 30 1 A A S X D X S L V E V H X X V F I V P P X I L Q A V V S I A 31 T T R X D D X D S A A A S I P M V P G W V L K Q V X G S Q A 61 G S F L A I V M G G G D L E V I L I X L A G Y Q E S S I X A 91 S R S L A A S M X T T A I P S D L W G N X A X S N A A F S S 121 X E F S S X A G S V P L G F T F X E A G A K E X V I K G Q I 151 T X Q A X A F S L A X L X K L I S A M X N A X F P A G D X X 181 X X V A D I X D S H G I L X X V N Y T D A X I K M G I I F G 211 S G V N A A Y W C D S T X I A D A A D A G X X G G A G X M X 241 V C C X Q D S F R K A F P S L P Q I X Y X X T L N X X S P X 271 A X K T F E K N S X A K N X G Q S L R D V L M X Y K X X G Q 301 X H X X X A X D F X A A N V E N S S Y P A K I Q K L P H F D 331 L R X X X D L F X G D Q G I A X K T X M K X V V R R X L F L 361 I A A Y A F R L V V C X I X A I C Q K K G Y S S G H I A A X 391 G S X R D Y S G F S X N S A T X N X N I Y G W P Q S A X X S 421 K P I X I T P A I D G E G A A X X V I X S I A S S Q X X X A 451 X X S A X X A

(54)
(55)

Hemoglobina

(56)
(57)

RNA

• RNA ´e como DNA excepto que:

? habitualmente apenas uma fita

? usa uracilo (U) em vez de timina (T)

• Uma fita de RNA pode ser vista como uma sequˆencia formada com 4 letras: A, C, G, U.

(58)
(59)

Transcripc¸ ˜ao

• RNA Polimerase ´e o enzima que constr´oi uma fita de RNA a partir de um gene.

• O RNA que ´e transcrito ´e chamado de RNA mensageiro: RNA-m.

(60)
(61)
(62)

Traduc¸ ˜ao

• Ribossomas s˜ao as m´aquinas que sintetizam prote´ınas a partir do mRNA;

• Um grupo de cod˜oes ´e chamado de quadro de leitura (“reading frame”): Fita de DNA A C G C A G A T A T C A T G A

A C G C A G A T A T C A T G A A C G C A G A T A T C A T G A A C G C A G A T A T C A T G A

• a traduc¸˜ao comec¸a com o “start codon”

(63)
(64)
(65)

Processamento do RNA nos eucariontes

• Eucariontes s˜ao organismos que tˆem n´ucleos fechados nas suas c´elulas

• Nos eucariontes, o mRNA consiste de segmentos alternados de ex˜oes e intr˜oes:

? os ex˜oes s˜ao as componentes respons´aveis por codificac¸˜ao

(66)
(67)
(68)
(69)

RNA e Genes

• H´a genes que n˜ao codificam prote´ınas

• Em alguns casos o resultado ´e RNA:

? RNA ribossomal (rRNA), inclui componentes importantes dos ribossomas

? RNA de transferˆencia (tRNA), que envia amino-´acidos para ribossomas

? micro RNAs (miRNAs) que tem um papel regulat´orio importante em muitas plantas e animais

(70)

Resumo

• Conceitos Chave

? Dogma central

? DNA, RNA, prote´ınas

? Cromossoma, N´ucleo, Ribossoma

• Processos Importante

? Transcric¸˜ao

? Traduc¸˜ao

(71)

Din ˆamica da C ´elula

• quase todas as c´elulas no mesmo ser tˆem o mesmo genoma, mas os genes s˜ao ex-pressos de forma diferente de acordo com tipo da c´elula, tempo, e ambiente.

• DNA ´e “est´atico” mas RNA n˜ao

• Existem redes de interac¸˜ao entre diferente entidades bioqu´ımicas na c´elula (DNA, RNA, prote´ınas, mol´eculas) que executam processos como:

? metabolismo (conjunto de reacc¸˜oes qu´ımicas)

? regulac¸˜ao (quais genes s˜ao expressos e quando)

(72)
(73)
(74)

Interac¸ ˜

oes

• cada n´o representa o produto de um gene (prote´ına)

• linhas azuis representam interacc¸˜oes directas entre prote´ınas

• linhas amarelas mostram interacc¸˜oes em que uma prote´ına se associa a DNA e altera a express˜ao de outra.

(75)

Significado da Revoluc¸ ˜ao Gen ´

omica

• Biologia baseada em dados:

? gen´omicas funcional

? biologia de sistemas

• Medicina Molecular:

? Identificac¸˜ao de componentes gen´eticos de v´arias doenc¸as

? diagnose/prognose a partir de sequˆencias/express˜oes

? terapia com genes

• Farmacogen´omicas:

? Desenvolver drogas altamente especializada

• Toxicogen´omicas:

(76)

Resumo

• C´elulas tˆem (muitas) diferentes entidades

• C´elulas funcionam atrav´es da interacc¸˜ao (complexa) entre estas entidades

(77)

Bioinform ´atica Revisitada

Representac¸˜ao/Armazenamento/Recuperac¸˜ao/An´alise de dados biol´ogicos sobre sequˆencias (DNA, prote´ınas)

• estruturas (prote´ınas)

• func¸˜oes (prote´ınas, sinais de sequˆencias)

• n´ıveis de actividade (mRNA, prote´ınas)

• redes de interacc¸˜oes (caminhos metab´olicos, caminhos regulat´orios, caminhos de sinalizac¸˜ao)

(78)

Artigo recomendado

L. Hunter. Life and Its Molecules: A Brief Introduction. AI Magazine 25(1):9-22, 2004.

Referências

Documentos relacionados

Considerando esses pressupostos, este artigo intenta analisar o modo de circulação e apropriação do Movimento da Matemática Moderna (MMM) no âmbito do ensino

O livro de literatura infantil e a apropriação da linguagem discorremos sobre um levantamento de pesquisas, em sua maioria, estrangeiras, feito por Cardoso e Sepúlveda

3.4.1 Os candidatos habilitados na fase do teste de conhecimentos serão convocados para a etapa de entrevista técnica, que será realizada pela Unidade de Recursos

Existem formas de se classificar domínios de aplicação mais criteriosamente do que simplesmente em apenas. “processo”

ou sociedades recreativas à inglesa. Além do Fluminense Futebol Clube, ele viria a presidir o Iate Clube do Rio de Janeiro e seria um dos membros mais assíduos do Automóvel Clube

The convex sets separation is very important in convex programming, a very powerful mathematical tool for, see [ ], operations research, management

Resultado: Ranking de Educação conforme pesquisa do Observatório Social do Brasil.. Ranking- EDUCAÇÃO

Retomando o que se afirmou sobre os gêneros secundários, podemos afirmar que as histórias em quadrinhos constituem um gênero discursivo secundário, pois aparecem em circunstâncias