• Nenhum resultado encontrado

Uma introduçao a bionformatica

N/A
N/A
Protected

Academic year: 2021

Share "Uma introduçao a bionformatica"

Copied!
55
0
0

Texto

(1)

Uma introduçao a

bionformat-ica

Alan Mitchell Durham

Departamento de Ciência da Computação da USP Bioinfo-USP

(2)
(3)
(4)
(5)

Proteinas – estrutura e função

Estrutura tridimensional importante para

(6)

Redes Metabólicas

Sistemas biológicos são o produto de

in-terações complexas entre moléculas

Estas moléculas formam redes complexas

e estímulos e repressões

O entendimento profundo do proceso

(7)

Redes Metabólicas: exemplo

(met. purinas)

(8)

Tarefas com uso intensivo de

bioin-formática

sequenciamento

eliminacao de contaminantes

trimagem de primers e vetores

descartar sequencias com baixa qualidade

montagem de sequencias (varios pedaços, quebra

cabeças)

anotação

predição de genes – RNA , Proteinas

caracterização de famílias de genes de proteínas –

função biológica por semelhança

análise de repetições

– microsatélites

(9)

Tarefas com uso intensivo de

bioinformática (cont.)

análise de dados de expressão de genes

diagnóstico

descobrimento de vias metabólicas

microarrays

sage (sequenciamento)

predição de estrutura tridimensional

tRNA, ncRNA

Proteinas

fillogenia molecular

relação evolutiva entre genes ou espécies

(10)

De onde viemos?

Brasil: AX vs DX

(Antes do Projeto Xylella vs. Depois do Projeto Xylella)

Domínio da tecnologias modernas de seqüenciamento

– projetos genoma

– análise de dados de expressão – Ests

– Sage, long Sage

– MPSS

– Microarray

não paramos aí

modelagem e dinâmica de proteínas

simulação de redes metabólicas

(11)

Qual a grande diferença?

 introdução do uso intensivo de ferramentas computacionais

• métodos biológicos extremamente caros

• projetos genoma propiciaram infinidade de informações e dados para análise

• processos computacionais podem ser utilizados para análise ex-austiva

 importância da validação

computação é atividade meio não atividade fim

• métodos computacionais e estatísticos são poderosos geradores de hipóteses

• métodos biológicos, associados a análise estatística cuidadosa val-idam hipóteses

• cuidado: análises nunca são melhores que a qualidade dos dados nos quais elas se baseiam

(12)

Uma lição importante: uma

an-dorinha só não faz verão

 demasiadas informações disponíveis para prescindir de análise computacional

 cada vez mais fica difícil escapar de alto volume de dados  resultados computacionais sempre necessitam validação  pode ser um erro grave:

• uso de ferramentas computacionais sem a devida compreensão de suas limitações

– blast vs s.waterman vs. n. wunch

– alinhamento múltiplo e análise filogenética

• uso de resultado computacional sem a compreensão da da biologia

– análise filogenética e hipóteses de evolução

– psi-blast, matrizes de substituição

– predição de genes

(13)

Para onde vamos?

análises mais rápidas: paralelização

novas análises:desenvolvimento de

novas ferramentas de análise

construindo análises mais rápido:

(14)

Processamento paralelo

inúmeros problemas em bioinformática

sofrem de limitações computacionais:

alinhamento múltiplo

busca de similaridade

estrutura de proteínas

predição de estruturas secundárias

(15)

Processamento paralelo

paralelismo muitas vezes propagado

como uma solução “mágica “ para o

problema.

porém, podemos usar o termo

paralel-ismo em vários sentidos

muitas cpus vs muitos computadores

multiprogramação vs. algoritmos paralelos

(16)

Processamento paralelo

aplicabilidade restrita de cada um.

• multi-programação utilizada para executar programas que rodam independentemente e podem rodar ao mesmo

tempo, seja dividindo apenas uma cpu ou várias

• processamento distribuído indicado para realizar tarefas diferentes que cooperam entre si

• algoritmos paralelos dividem uma tarefa individual em vári-as tarefvári-as que podem ser executadvári-as simultaneamente

algoritmos paralelos são a tecnologia mais

promis-sora

projetos de paralelização são complexos e nem

sempre viáveis

(17)

Novas ferramentas

uma das áreas mais desafiadoras da bioinformática

uma das áreas mais complexas de pesquisa

necessidade de interação próxima de pesquisadores de

áreas complemente distintas: ciências da vida vs.

ciên-cias “exatas”

metodologias diferentes

linguagens diferentes

cuidados formais diferentes

visão diferente da questão de sigilo

visão diferente do que são resultados satisfatórios

porém é a área onde os grandes saltos de qualidade

podem ser alcançados

(18)

Novas ferramentas de bioinformática

(continuação)

Simuladores

modelos matemáticos e computacionais para

re-produção de comportamentos interdependentes

simuladores paralelos de redes metabólicas

sistemas dinâmicos com equações diferenciais

....

Análise combinatória

alinhamento múltiplo e análise filogenética

(19)

Novas ferramentas

(continu-ação.)

Otimização e Análise Numérica

redução de dimensionalidade (microarrays)

sistemas dinâmicos

Bancos de dados

Aprendizado Computacional e

(20)

Novas ferramentas de

bioinformát-ica : bancos de dados

 realidade

• Volume extremamente grande de novos dados (apenas o Genoma Humano tem 4 bilhões de pares de bases, ao

menos 30.000 genes com até 100.000 variantes, sem falar de todas as possíveis redes metabólicas)

• Até projetos de sequenciamento de porte médio envolvem milhares milhões de sequências

• Número inimaginável de possíveis relações

• Grande parte dos dados ainda guardados em arquivos simples não estruturados (.txt, .doc, .xls, ....)

(21)

Novas ferramentas: reconhecimento

de Padrões

criação de função matemática para

caracteriza-ção de fenômenos

isso me interessa?

• gene finders

• regiões promotoras

• RNAs (tRNAs, ncRNAs)

• famílias de proteínas/genes

• processamento de imagens (reconhecimento de caracteristicas, limpeza de ruido, etc.)

algumas tecnologias

• gramáticas estocásticas, modelos de covariancia

• hmm

• redes neurais

(22)

Aprendizado Computacional

diferente de sistemas inteligentes

geração automática de classificadores

algoritmo para achar genes de malária a partir dos

genes conhecidos (Glimmer-M)

preditores de estrutura secundária de tRna utilizando

estruturas conhecidas

aprendizado nao supervisionado: clusterizaçao

utilizado quando conhecimento biológico não é

sufi-ciente

(23)

Um exemplo: gramáticas

Gramáticas: mecanismo de descrição de uma

lin-guagem

Linguagem: um conjunto de frases

nucleotídeos são as palavras

seqüências são as frases

ou

codons são as palavras

proteínas são as frases

Gramáticas podem ser utilizadas para

Reconhecimento

Geração

(24)

Um exemplo familiar

Frase ::= sujeito predicado

sujeito ::= artigo nome

artigo ::=

a

|

o

nome ::=

cão

|

moça

|

dia

predicado ::= verbo adjetivo

verbo ::=

está

|

estava

adjetivo ::=

feliz

|

triste

(25)

Construindo uma frase

Frase ->

->

sujeito predicado

->

->

artigo nome

predicado

->

->

a

nome predicado

->

a

moça

predicado ->

->

a moça

verbo adjetivo->

->

a moça

está

adjetivo ->

->

a moça está

feliz

(26)

Exemplos de fenômenos

genéti-cos que podem ser modelados

(27)

Gramática livre de contexto

S ::= a S u | u S a | c S g | g S c | A

A ::= A a | A u | A c | Ag| nil

S -> aSu-> ->acSgu-> ->acgScgu-> ->acgaSucgu-> ->acgauSaucgu -> ->acgauAucgu-> ->acgauAcucgu-> ->acgauAccucgu-> ->acgauAuccugu-> ->acgauuccugu

(28)

S ::= a S u | u S a | c S g | g S c | SS

(29)

Gramáticas estocásticas

 uso de probabilidades para lidar com ambigüidade  exemplo:

• S ::= Promotor SequenciaCod [1]

• ...

• SequenciaCod ::= Codon SequenciaCod [0.998]

• SeqCod ::= Stop [0.002]

• Cod ::= Lys [0.03]

• Cod ::= Asp [0.035]

• ...

(30)

Gramáticas Estocásticas:

exemplos

• análise de sinais:

– preditor de splice sites (Vieira, Durham et al, Icobicobi 2004)

– construção de um preditor de genes baseado na tecnologia (em desenvolv.) (splice sites, promotores, etc.)

• caracterização de estrutua secundária em RNAs

– busca de genes para famílias de ncRNAs (em desenv.)

– estudo de equivalencia com modelos de covariancia

(31)

Desenvolvimento de software

 desenvolvimento moderno de software

• modularidade

• abstração

• encapsulamento

 encapsulamento

• detalhes de implementação do software não precisam ser con-hecidos nem pelos usuários, nem pelos sistemas que os utilizam

• visão dos componentes é abstrata, apresentando um modelo em geral mais simples da realidade

(32)

Desenvolvimento de software

abstração

 modularidade

• desenvolvimento de componentes facilmente intercambiáveis

• ex. trocar dois programas de alinhamento sem nenhum trabalho adicional

• interface padrão

• e.g. motor de automóvel, caixa de câmbio,...

 plataformas de análise

• criação de ambientes para desenvolvimento de sistemas específicos

• exemplo similar: programas de desenho

– paintbrush

– corel draw

(33)

Plataformas de análise

aumento grande de produtividade para desenvolvimento

de novos sistemas

• usuário compõe soluções a partir de elementos pré definidos (triangulos, retangulos, retas)

baixo custo de customização para necessidades

es-pecíficas

• componentes configuráveis (mudança de cor, de traço na linha, espessura de linha)

gostaríamos de algo semelhante para processamento de

dados biológicos

poucos sistemas até agora na área de bionformática

amplo espectro de desenvolvimento

(34)

Desenvolvimento de plataformas:

questões a tratar

inicialmente definir escopo de atuação

análise das soluções atuais

existe boa definicao das tarefas?

soluções apresentam estrutura comum?

podemos isolar componentes de

soluções que se repetem?

criar um modelo para integração dos

componentes para, a partir deles,

descrever as soluções atuais

(35)

Desenvolvimento de plataformas: 2

casos concretos

Egene: Plataforma para construcao de

pipelines de processamento de sequencias

(Bioinformatics, 2005)

MYOP/ToPS: Plataforma para construcao de

(36)

Egene: o problema

 escopo: pipelines de sequenciamento e anotação  pipelines utilizam grande variedade de softwares  mais de um software para a mesma tarefa

• Blast, Crossmatch, water

 um software pode ser usado para tarefas diferentes (

• Crossmatch: filtrar sequências contaminantes, mascara-mento de vetores

 configuração dos softwares especifica para cada tarefa  tarefas bem caracterizadas:

• eliminação de contaminantes, mascaramento de vetores, montagem, procura por genes, busca de regiões funcion-ais do gene, etc.

 sequências passarm por vários passos de processamento

(37)

Egene: criando uma plataforma

 definição de componentes: • ...

(38)

EGene

O sistema egene pode ser configurado

de modo gráfico usando o configurador

coed

<FIGURA>

(39)

EGene: vantagens do uso

 documentação automática de um pipeline em forma gráfica  usuário não precisa conhecer convenções de cada um dos

softwares para utilizar o sistema, apenas sua funcionalidade  inserção e remoção de componentes extremamente rápida  facilidades gráficas de edição, modo gráfico pode ser usado

como documentação

 em computador multiprocessado, possibilidade de uso de todos os processadores (multi processamento)

 relatórios formato web com gráficos  “snapshots” em qualquer ponto

(40)

MYOP (Make Your Own Predictor):

um arcabouco para preditores de

genes

predicao de genes:

metodos extrínsecos: similaridade (busca

por genes semelhantes em bancos de

da-dos publicos)

metodos intrínsecos: software que codifica

caracteristicas de um gene e utilizado para

busca dos genes no genoma.

(41)

Preditores intrinsecos

modelagem da estrutura dos genes: componentes

sinais: sitios de splicing, sitions de poliadenilacao,

re-gioes promotoras

sensores de conteúdo: introns, exons, 5' UTR, 3'UTR,

regiao intergenica

modelagem da estrutura do genes:

(42)
(43)
(44)
(45)
(46)

Preditores de genes

con-hecidos:

(47)

MYOP: vantagens

plataforma para estudo sistemático de predição de genes

possibilita comparação precisa entre os vários modelos

estudo de protocolos para criação de preditores de genes

(48)

Isso é tudo?

Abordagem para desenvolvimento de

ferramentas pode ser aplicada em outros

domínios de problemas

Domínios com características

mencion-adas anteriormente são bons candidatos

para novas ferramentas.

(49)

Desenvolvimento

interação interdisciplinar é essencial

o pesquisador de C. Computação

modelagem computacional flexível e fácilmente

ex-tensível

entendimento ao menos parcial do problema para

cri-ação de um modelo computacional que registre as

cara-cterísticas do problema

o pesquisador da área do domínio do problema

ententimento da variabilidade das soluções

auxílio no desenvolvimento da interface de configuração

de soluções: a ferramenta precisa falar “biologuês”.

(50)

Conclusões

 área de bioinformática tem amplo espectro  conhecimentos nas duas áreas é importante

• interação entre pesquisadores

• formação multi-disciplinar

 várias abordagens

• desenvolvimento de sistemas e/ou plataformas de análise

• bancos de dados

• uso de novas tecnologias

– aprendizado computacional

 alguns temas não abordados

• genética de populações

• análise filogenética

• modelagem e dinâmica de proteínas

• construção automática de redes metabólicas

• análise de expressão gênica (microarrays, scar)

(51)

O que aprender

Biologia molecular (min. 1 semestre)

Estatistica

Banco de Dados

Desenvolvimento de sistemas

Aprendizado computacional

Bioinformatica instrumental

Etc.

(52)

Onde aprender mais?

Cursos de curta duracao

Curso de verão/inverno Bioinfo/USP

LNCC

Mestrado e Doutorado em

Bioinformat-ica:

USP,

UFMG,LNCC,...

(53)

Grupos de Bioinformatica em

São Paulo

IME USP (quase completo):

• Alair Pereira do Lago, Alan Durham, André Fujita, Carlos Eduardo Ferreira, Carlos Bragança Pereira, Carlos Hitoshi, Eduardo Jordão, Jõao Eduardo Ferreira, Marco Gu-bitoso, Paulo Silva e Silva, Rorberto Hirata, Roberto Cesar Marcondes.

 ICB -USP (incompleto)

• Arthur Gruber, Paolo Zanotto

 DCM – RP

• Alessandra Alaniz Macedo, Clever Ricardo Guareis de Farias, Evandro Eduardo Seron Ruiz, Joaquim Cezar Felipe, José Augusto Baranauskas, Junior Barrera, Renato Tinós, Ricardo Zorzetto Nicoliello Vencio

 Outras Unidades (incompleto)

• Arthur Gruber (ICB), Sergio Verjovski (IQ), Joao Setubal (IQ), Glaucia Mendes

Souza (IQ), Aline Ferreira (IQ), Sergio Matiolli (IB), Zilá Paulino Simoes (Gene-tia – RP), Ariane Machado Lima (EACH), Luciano Vieira de Araújo (EACH), Fábio Nakano (EACH), Marcio Oikawa (UFABC), Tiago Venancio (UERJ), ....

Outros Centros - Sandro de Souza (Ludwig), Ana Tereza Vasconcelos (LNCC), Gonçalo

Pereira (Unicamp), UFABC ...

(54)

Créditos

Colaboradores (ordem alfabética)

• Arthur Gruber(FMVZ-USP)

– Egene, chimera finder, Scarsdb, TRAP

• Hernando del Portillo (ICB-USP)

– projetos P. Vivax Ests, Temático malária

– gramáticas estocásticas e RNA

• Ariane Machado-Lima

- Grammar Lab, Grafos e Telomerase

• Glaucia Mendes Souca

- Caracterização de promoteres em cana de açúcar

• Sylvia Leão

- Genômica comparativa em Mycobacteria

Alunos

• André Yoshiaki, Flavia Rainone, Paulo Ahagon, Roberto Tadashi, Ricardo Yamamoto Abe, Milene Ferro, Tiago Motta Jorge, Milene Ferro. Luis Thiberio

– E- gene, Co-ed, TRAP, ScarsDB

• Ariane Machado, Daniel Vieira, Andre Yoshiaki

– Grammar Lab – gramáticas estocásticas – ToPS • Vitor Onuchic – RNA Telomerase  FAPESP, CNPq

(55)

Créditos

 EGene

• Arthur Gruber

• Andre Yoshiaki Kashiwabara

• Fernando Tadashi Matsunaga

• Ricardo Yamamoto Abe

• Milene Ferro • Paulo Ahagon • Leonardo Varuzza • CNPq • Capes • Fapesp  MYOP

• Andre Yoshiaki Kashiwabara

Referências

Documentos relacionados

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças

Com o intuito de aperfeic¸oar a realizac¸˜ao da pesquisa O/D, o objetivo do presente trabalho ´e criar um aplicativo para que os usu´arios do transporte p´ublico informem sua origem

A proposta desta pesquisa objetivou desenvolver o estudante para realizar a percepção sobre o estudo da complexidade do corpo humano, onde o educando teve oportunidade

O trabalho tem como objetivo elucidar a importância do brincar para as crianças, do contato delas com a natureza, de sua ação de ocupar espaços públicos na cidade, como praças e

Neste capítulo, será apresentada a Gestão Pública no município de Telêmaco Borba e a Instituição Privada de Ensino, onde será descrito como ocorre à relação entre

O lúdico tem sido utilizado como instrumento educacional desde a pré-história onde o homem primitivo se utilizava de rituais, que muito se assemelham as brincadeiras de

tratando do ambiente escolar, quando a criança se desvincula do seio familiar para inserir na escola ela já trás consigo um referencial de aprendizagem referente aos