Uma introduçao a bionformatica

(1)

Uma introduçao a

bionformat-ica

Alan Mitchell Durham

Departamento de Ciência da Computação da USP Bioinfo-USP

(2)

(3)

(4)

(5)

Proteinas – estrutura e função



Estrutura tridimensional importante para

(6)

Redes Metabólicas

• Sistemas biológicos são o produto de

in-terações complexas entre moléculas

• Estas moléculas formam redes complexas

e estímulos e repressões

• O entendimento profundo do proceso

(7)

Redes Metabólicas: exemplo

(met. purinas)

(8)

Tarefas com uso intensivo de

bioin-formática

• sequenciamento

–

eliminacao de contaminantes

–

trimagem de primers e vetores

–

descartar sequencias com baixa qualidade

–

montagem de sequencias (varios pedaços, quebra

cabeças)

• anotação

–

predição de genes – RNA , Proteinas

–

caracterização de famílias de genes de proteínas –

função biológica por semelhança

–

análise de repetições

– microsatélites

(9)

• Tarefas com uso intensivo de

bioinformática (cont.)

• análise de dados de expressão de genes

–

diagnóstico

–

descobrimento de vias metabólicas

–

microarrays

–

sage (sequenciamento)

• predição de estrutura tridimensional

–

tRNA, ncRNA

–

Proteinas

• fillogenia molecular

–

relação evolutiva entre genes ou espécies

(10)

De onde viemos?



Brasil: AX vs DX

• (Antes do Projeto Xylella vs. Depois do Projeto Xylella)



Domínio da tecnologias modernas de seqüenciamento

– projetos genoma

– análise de dados de expressão – Ests

– Sage, long Sage

– MPSS

– Microarray



não paramos aí

• modelagem e dinâmica de proteínas

• simulação de redes metabólicas

(11)

Qual a grande diferença?

 introdução do uso intensivo de ferramentas computacionais

• métodos biológicos extremamente caros

• projetos genoma propiciaram infinidade de informações e dados para análise

• processos computacionais podem ser utilizados para análise ex-austiva

 importância da validação

• computação é atividade meio não atividade fim

• métodos computacionais e estatísticos são poderosos geradores de hipóteses

• métodos biológicos, associados a análise estatística cuidadosa val-idam hipóteses

• cuidado: análises nunca são melhores que a qualidade dos dados nos quais elas se baseiam

(12)

Uma lição importante: uma

an-dorinha só não faz verão

 demasiadas informações disponíveis para prescindir de análise computacional

 cada vez mais fica difícil escapar de alto volume de dados  resultados computacionais sempre necessitam validação  pode ser um erro grave:

• uso de ferramentas computacionais sem a devida compreensão de suas limitações

– blast vs s.waterman vs. n. wunch

– alinhamento múltiplo e análise filogenética

• uso de resultado computacional sem a compreensão da da biologia

– análise filogenética e hipóteses de evolução

– psi-blast, matrizes de substituição

– predição de genes

(13)

Para onde vamos?



análises mais rápidas: paralelização



novas análises:desenvolvimento de

novas ferramentas de análise



construindo análises mais rápido:

(14)

Processamento paralelo



inúmeros problemas em bioinformática

sofrem de limitações computacionais:

• alinhamento múltiplo

• busca de similaridade

• estrutura de proteínas

• predição de estruturas secundárias

(15)

Processamento paralelo



paralelismo muitas vezes propagado

como uma solução “mágica “ para o

problema.



porém, podemos usar o termo

paralel-ismo em vários sentidos



muitas cpus vs muitos computadores

• multiprogramação vs. algoritmos paralelos

(16)

Processamento paralelo



aplicabilidade restrita de cada um.

• multi-programação utilizada para executar programas que rodam independentemente e podem rodar ao mesmo

tempo, seja dividindo apenas uma cpu ou várias

• processamento distribuído indicado para realizar tarefas diferentes que cooperam entre si

• algoritmos paralelos dividem uma tarefa individual em vári-as tarefvári-as que podem ser executadvári-as simultaneamente



algoritmos paralelos são a tecnologia mais

promis-sora

• projetos de paralelização são complexos e nem

sempre viáveis

(17)

Novas ferramentas



uma das áreas mais desafiadoras da bioinformática



uma das áreas mais complexas de pesquisa

• necessidade de interação próxima de pesquisadores de

áreas complemente distintas: ciências da vida vs.

ciên-cias “exatas”

• metodologias diferentes

• linguagens diferentes

• cuidados formais diferentes

• visão diferente da questão de sigilo

• visão diferente do que são resultados satisfatórios



porém é a área onde os grandes saltos de qualidade

podem ser alcançados

(18)

Novas ferramentas de bioinformática

(continuação)



Simuladores

• modelos matemáticos e computacionais para

re-produção de comportamentos interdependentes

• simuladores paralelos de redes metabólicas

• sistemas dinâmicos com equações diferenciais

• ....



Análise combinatória

• alinhamento múltiplo e análise filogenética

(19)

Novas ferramentas

(continu-ação.)



Otimização e Análise Numérica

–

redução de dimensionalidade (microarrays)

–

sistemas dinâmicos



Bancos de dados



Aprendizado Computacional e

(20)

Novas ferramentas de

bioinformát-ica : bancos de dados

 realidade

• Volume extremamente grande de novos dados (apenas o Genoma Humano tem 4 bilhões de pares de bases, ao

menos 30.000 genes com até 100.000 variantes, sem falar de todas as possíveis redes metabólicas)

• Até projetos de sequenciamento de porte médio envolvem milhares milhões de sequências

• Número inimaginável de possíveis relações

• Grande parte dos dados ainda guardados em arquivos simples não estruturados (.txt, .doc, .xls, ....)

(21)

Novas ferramentas: reconhecimento

de Padrões



criação de função matemática para

caracteriza-ção de fenômenos



isso me interessa?

• gene finders

• regiões promotoras

• RNAs (tRNAs, ncRNAs)

• famílias de proteínas/genes

• processamento de imagens (reconhecimento de caracteristicas, limpeza de ruido, etc.)



algumas tecnologias

• gramáticas estocásticas, modelos de covariancia

• hmm

• redes neurais

(22)

Aprendizado Computacional



diferente de sistemas inteligentes



geração automática de classificadores

• algoritmo para achar genes de malária a partir dos

genes conhecidos (Glimmer-M)

• preditores de estrutura secundária de tRna utilizando

estruturas conhecidas



aprendizado nao supervisionado: clusterizaçao



utilizado quando conhecimento biológico não é

sufi-ciente

(23)

Um exemplo: gramáticas



Gramáticas: mecanismo de descrição de uma

lin-guagem



Linguagem: um conjunto de frases

• nucleotídeos são as palavras

• seqüências são as frases

ou

• codons são as palavras

• proteínas são as frases



Gramáticas podem ser utilizadas para

• Reconhecimento

• Geração

(24)

Um exemplo familiar



Frase ::= sujeito predicado



sujeito ::= artigo nome



artigo ::=

a

|

o



nome ::=

cão

|

moça

|

dia



predicado ::= verbo adjetivo



verbo ::=

está

|

estava



adjetivo ::=

feliz

|

triste

(25)

Construindo uma frase

Frase ->

->

sujeito predicado

->

artigo nome

predicado

->

a

nome predicado

->

a

moça

predicado ->

->

a moça

verbo adjetivo->

->

a moça

está

adjetivo ->

->

a moça está

feliz

(26)

Exemplos de fenômenos

genéti-cos que podem ser modelados

(27)

Gramática livre de contexto



S ::= a S u | u S a | c S g | g S c | A



A ::= A a | A u | A c | Ag| nil

S -> aSu-> ->acSgu-> ->acgScgu-> ->acgaSucgu-> ->acgauSaucgu -> ->acgauAucgu-> ->acgauAcucgu-> ->acgauAccucgu-> ->acgauAuccugu-> ->acgauuccugu

(28)



S ::= a S u | u S a | c S g | g S c | SS

(29)

Gramáticas estocásticas

 uso de probabilidades para lidar com ambigüidade  exemplo:

• S ::= Promotor SequenciaCod [1]

• ...

• SequenciaCod ::= Codon SequenciaCod [0.998]

• SeqCod ::= Stop [0.002]

• Cod ::= Lys [0.03]

• Cod ::= Asp [0.035]

• ...

(30)

• Gramáticas Estocásticas:

exemplos

• análise de sinais:

– preditor de splice sites (Vieira, Durham et al, Icobicobi 2004)

– construção de um preditor de genes baseado na tecnologia (em desenvolv.) (splice sites, promotores, etc.)

• caracterização de estrutua secundária em RNAs

– busca de genes para famílias de ncRNAs (em desenv.)

– estudo de equivalencia com modelos de covariancia

(31)

Desenvolvimento de software

 desenvolvimento moderno de software

• modularidade

• abstração

• encapsulamento

 encapsulamento

• detalhes de implementação do software não precisam ser con-hecidos nem pelos usuários, nem pelos sistemas que os utilizam

• visão dos componentes é abstrata, apresentando um modelo em geral mais simples da realidade

(32)

Desenvolvimento de software

abstração

 modularidade

• desenvolvimento de componentes facilmente intercambiáveis

• ex. trocar dois programas de alinhamento sem nenhum trabalho adicional

• interface padrão

• e.g. motor de automóvel, caixa de câmbio,...

 plataformas de análise

• criação de ambientes para desenvolvimento de sistemas específicos

• exemplo similar: programas de desenho

– paintbrush

– corel draw

(33)

Plataformas de análise



aumento grande de produtividade para desenvolvimento

de novos sistemas

• usuário compõe soluções a partir de elementos pré definidos (triangulos, retangulos, retas)



baixo custo de customização para necessidades

es-pecíficas

• componentes configuráveis (mudança de cor, de traço na linha, espessura de linha)



gostaríamos de algo semelhante para processamento de

dados biológicos



poucos sistemas até agora na área de bionformática



amplo espectro de desenvolvimento

(34)

Desenvolvimento de plataformas:

questões a tratar



inicialmente definir escopo de atuação



análise das soluções atuais



existe boa definicao das tarefas?



soluções apresentam estrutura comum?



podemos isolar componentes de

soluções que se repetem?



criar um modelo para integração dos

componentes para, a partir deles,

descrever as soluções atuais

(35)

Desenvolvimento de plataformas: 2

casos concretos



Egene: Plataforma para construcao de

pipelines de processamento de sequencias

(Bioinformatics, 2005)



MYOP/ToPS: Plataforma para construcao de

(36)

Egene: o problema

 escopo: pipelines de sequenciamento e anotação  pipelines utilizam grande variedade de softwares  mais de um software para a mesma tarefa

• Blast, Crossmatch, water

 um software pode ser usado para tarefas diferentes (

• Crossmatch: filtrar sequências contaminantes, mascara-mento de vetores

 configuração dos softwares especifica para cada tarefa  tarefas bem caracterizadas:

• eliminação de contaminantes, mascaramento de vetores, montagem, procura por genes, busca de regiões funcion-ais do gene, etc.

 sequências passarm por vários passos de processamento

(37)

Egene: criando uma plataforma

 definição de componentes: • ...

(38)

EGene



O sistema egene pode ser configurado

de modo gráfico usando o configurador

coed



<FIGURA>

(39)

EGene: vantagens do uso

 documentação automática de um pipeline em forma gráfica  usuário não precisa conhecer convenções de cada um dos

softwares para utilizar o sistema, apenas sua funcionalidade  inserção e remoção de componentes extremamente rápida  facilidades gráficas de edição, modo gráfico pode ser usado

como documentação

 em computador multiprocessado, possibilidade de uso de todos os processadores (multi processamento)

 relatórios formato web com gráficos  “snapshots” em qualquer ponto

(40)

MYOP (Make Your Own Predictor):

um arcabouco para preditores de

genes



predicao de genes:

• metodos extrínsecos: similaridade (busca

por genes semelhantes em bancos de

da-dos publicos)

• metodos intrínsecos: software que codifica

caracteristicas de um gene e utilizado para

busca dos genes no genoma.

(41)

Preditores intrinsecos



modelagem da estrutura dos genes: componentes

• sinais: sitios de splicing, sitions de poliadenilacao,

re-gioes promotoras

• sensores de conteúdo: introns, exons, 5' UTR, 3'UTR,

regiao intergenica



modelagem da estrutura do genes:

(42)

(43)

(44)

(45)

(46)

• Preditores de genes

con-hecidos:

(47)

• MYOP: vantagens



plataforma para estudo sistemático de predição de genes



possibilita comparação precisa entre os vários modelos



estudo de protocolos para criação de preditores de genes

(48)

Isso é tudo?



Abordagem para desenvolvimento de

ferramentas pode ser aplicada em outros

domínios de problemas



Domínios com características

mencion-adas anteriormente são bons candidatos

para novas ferramentas.

(49)

Desenvolvimento



interação interdisciplinar é essencial



o pesquisador de C. Computação

• modelagem computacional flexível e fácilmente

ex-tensível

• entendimento ao menos parcial do problema para

cri-ação de um modelo computacional que registre as

cara-cterísticas do problema



o pesquisador da área do domínio do problema

• ententimento da variabilidade das soluções

• auxílio no desenvolvimento da interface de configuração

de soluções: a ferramenta precisa falar “biologuês”.

(50)

• Conclusões

 área de bioinformática tem amplo espectro  conhecimentos nas duas áreas é importante

• interação entre pesquisadores

• formação multi-disciplinar

 várias abordagens

• desenvolvimento de sistemas e/ou plataformas de análise

• bancos de dados

• uso de novas tecnologias

– aprendizado computacional

 alguns temas não abordados

• genética de populações

• análise filogenética

• modelagem e dinâmica de proteínas

• construção automática de redes metabólicas

• análise de expressão gênica (microarrays, scar)

(51)

• O que aprender



Biologia molecular (min. 1 semestre)



Estatistica



Banco de Dados



Desenvolvimento de sistemas



Aprendizado computacional



Bioinformatica instrumental



Etc.

(52)

• Onde aprender mais?



Cursos de curta duracao

• Curso de verão/inverno Bioinfo/USP

• LNCC



Mestrado e Doutorado em

Bioinformat-ica:

USP,

UFMG,LNCC,...

(53)

Grupos de Bioinformatica em

São Paulo

 _{IME USP (quase completo):}

• Alair Pereira do Lago, Alan Durham, André Fujita, Carlos Eduardo Ferreira, Carlos Bragança Pereira, Carlos Hitoshi, Eduardo Jordão, Jõao Eduardo Ferreira, Marco Gu-bitoso, Paulo Silva e Silva, Rorberto Hirata, Roberto Cesar Marcondes.

 ICB -USP (incompleto)

• Arthur Gruber, Paolo Zanotto

 DCM – RP

• Alessandra Alaniz Macedo, Clever Ricardo Guareis de Farias, Evandro Eduardo Seron Ruiz, Joaquim Cezar Felipe, José Augusto Baranauskas, Junior Barrera, Renato Tinós, Ricardo Zorzetto Nicoliello Vencio

 Outras Unidades (incompleto)

• Arthur Gruber (ICB), Sergio Verjovski (IQ), Joao Setubal (IQ), Glaucia Mendes

Souza (IQ), Aline Ferreira (IQ), Sergio Matiolli (IB), Zilá Paulino Simoes (Gene-tia – RP), Ariane Machado Lima (EACH), Luciano Vieira de Araújo (EACH), Fábio Nakano (EACH), Marcio Oikawa (UFABC), Tiago Venancio (UERJ), ....

 _{Outros Centros - Sandro de Souza (Ludwig), Ana Tereza Vasconcelos (LNCC), Gonçalo}

Pereira (Unicamp), UFABC ...

(54)

Créditos

 _{Colaboradores (ordem alfabética)}

• Arthur Gruber(FMVZ-USP)

– Egene, chimera finder, Scarsdb, TRAP

• Hernando del Portillo (ICB-USP)

– projetos P. Vivax Ests, Temático malária

– gramáticas estocásticas e RNA

• Ariane Machado-Lima

- Grammar Lab, Grafos e Telomerase

• Glaucia Mendes Souca

- Caracterização de promoteres em cana de açúcar

• Sylvia Leão

- Genômica comparativa em Mycobacteria

 _Alunos

• André Yoshiaki, Flavia Rainone, Paulo Ahagon, Roberto Tadashi, Ricardo Yamamoto Abe, Milene Ferro, Tiago Motta Jorge, Milene Ferro. Luis Thiberio

– E- gene, Co-ed, TRAP, ScarsDB

• Ariane Machado, Daniel Vieira, Andre Yoshiaki

– Grammar Lab – gramáticas estocásticas – ToPS • Vitor Onuchic – RNA Telomerase  _{FAPESP, CNPq}

(55)

Créditos

 EGene

• Arthur Gruber

• Andre Yoshiaki Kashiwabara

• Fernando Tadashi Matsunaga

• Ricardo Yamamoto Abe

• Milene Ferro • Paulo Ahagon • Leonardo Varuzza • CNPq • Capes • Fapesp  MYOP

• Andre Yoshiaki Kashiwabara