Uma introduçao a
bionformat-ica
Alan Mitchell Durham
Departamento de Ciência da Computação da USP Bioinfo-USP
Proteinas – estrutura e função
Estrutura tridimensional importante para
Redes Metabólicas
•
Sistemas biológicos são o produto de
in-terações complexas entre moléculas
•
Estas moléculas formam redes complexas
e estímulos e repressões
•
O entendimento profundo do proceso
Redes Metabólicas: exemplo
(met. purinas)
Tarefas com uso intensivo de
bioin-formática
•
sequenciamento
–
eliminacao de contaminantes
–
trimagem de primers e vetores
–
descartar sequencias com baixa qualidade
–
montagem de sequencias (varios pedaços, quebra
cabeças)
•
anotação
–
predição de genes – RNA , Proteinas
–
caracterização de famílias de genes de proteínas –
função biológica por semelhança
–
análise de repetições
– microsatélites
•
Tarefas com uso intensivo de
bioinformática (cont.)
•
análise de dados de expressão de genes
–
diagnóstico
–
descobrimento de vias metabólicas
–
microarrays
–
sage (sequenciamento)
•
predição de estrutura tridimensional
–
tRNA, ncRNA
–
Proteinas
•
fillogenia molecular
–
relação evolutiva entre genes ou espécies
De onde viemos?
Brasil: AX vs DX
•
(Antes do Projeto Xylella vs. Depois do Projeto Xylella)
Domínio da tecnologias modernas de seqüenciamento
– projetos genoma
– análise de dados de expressão – Ests
– Sage, long Sage
– MPSS
– Microarray
não paramos aí
•
modelagem e dinâmica de proteínas
•
simulação de redes metabólicas
Qual a grande diferença?
introdução do uso intensivo de ferramentas computacionais• métodos biológicos extremamente caros
• projetos genoma propiciaram infinidade de informações e dados para análise
• processos computacionais podem ser utilizados para análise ex-austiva
importância da validação
• computação é atividade meio não atividade fim
• métodos computacionais e estatísticos são poderosos geradores de hipóteses
• métodos biológicos, associados a análise estatística cuidadosa val-idam hipóteses
• cuidado: análises nunca são melhores que a qualidade dos dados nos quais elas se baseiam
Uma lição importante: uma
an-dorinha só não faz verão
demasiadas informações disponíveis para prescindir de análise computacional
cada vez mais fica difícil escapar de alto volume de dados resultados computacionais sempre necessitam validação pode ser um erro grave:
• uso de ferramentas computacionais sem a devida compreensão de suas limitações
– blast vs s.waterman vs. n. wunch
– alinhamento múltiplo e análise filogenética
• uso de resultado computacional sem a compreensão da da biologia
– análise filogenética e hipóteses de evolução
– psi-blast, matrizes de substituição
– predição de genes
Para onde vamos?
análises mais rápidas: paralelização
novas análises:desenvolvimento de
novas ferramentas de análise
construindo análises mais rápido:
Processamento paralelo
inúmeros problemas em bioinformática
sofrem de limitações computacionais:
•
alinhamento múltiplo
•
busca de similaridade
•
estrutura de proteínas
•
predição de estruturas secundárias
Processamento paralelo
paralelismo muitas vezes propagado
como uma solução “mágica “ para o
problema.
porém, podemos usar o termo
paralel-ismo em vários sentidos
muitas cpus vs muitos computadores
•
multiprogramação vs. algoritmos paralelos
Processamento paralelo
aplicabilidade restrita de cada um.
• multi-programação utilizada para executar programas que rodam independentemente e podem rodar ao mesmo
tempo, seja dividindo apenas uma cpu ou várias
• processamento distribuído indicado para realizar tarefas diferentes que cooperam entre si
• algoritmos paralelos dividem uma tarefa individual em vári-as tarefvári-as que podem ser executadvári-as simultaneamente
algoritmos paralelos são a tecnologia mais
promis-sora
•
projetos de paralelização são complexos e nem
sempre viáveis
Novas ferramentas
uma das áreas mais desafiadoras da bioinformática
uma das áreas mais complexas de pesquisa
•
necessidade de interação próxima de pesquisadores de
áreas complemente distintas: ciências da vida vs.
ciên-cias “exatas”
•
metodologias diferentes
•
linguagens diferentes
•
cuidados formais diferentes
•
visão diferente da questão de sigilo
•
visão diferente do que são resultados satisfatórios
porém é a área onde os grandes saltos de qualidade
podem ser alcançados
Novas ferramentas de bioinformática
(continuação)
Simuladores
•
modelos matemáticos e computacionais para
re-produção de comportamentos interdependentes
•
simuladores paralelos de redes metabólicas
•
sistemas dinâmicos com equações diferenciais
•
....
Análise combinatória
•
alinhamento múltiplo e análise filogenética
Novas ferramentas
(continu-ação.)
Otimização e Análise Numérica
–
redução de dimensionalidade (microarrays)
–
sistemas dinâmicos
Bancos de dados
Aprendizado Computacional e
Novas ferramentas de
bioinformát-ica : bancos de dados
realidade
• Volume extremamente grande de novos dados (apenas o Genoma Humano tem 4 bilhões de pares de bases, ao
menos 30.000 genes com até 100.000 variantes, sem falar de todas as possíveis redes metabólicas)
• Até projetos de sequenciamento de porte médio envolvem milhares milhões de sequências
• Número inimaginável de possíveis relações
• Grande parte dos dados ainda guardados em arquivos simples não estruturados (.txt, .doc, .xls, ....)
Novas ferramentas: reconhecimento
de Padrões
criação de função matemática para
caracteriza-ção de fenômenos
isso me interessa?
• gene finders
• regiões promotoras
• RNAs (tRNAs, ncRNAs)
• famílias de proteínas/genes
• processamento de imagens (reconhecimento de caracteristicas, limpeza de ruido, etc.)
algumas tecnologias
• gramáticas estocásticas, modelos de covariancia
• hmm
• redes neurais
Aprendizado Computacional
diferente de sistemas inteligentes
geração automática de classificadores
•
algoritmo para achar genes de malária a partir dos
genes conhecidos (Glimmer-M)
•
preditores de estrutura secundária de tRna utilizando
estruturas conhecidas
aprendizado nao supervisionado: clusterizaçao
utilizado quando conhecimento biológico não é
sufi-ciente
Um exemplo: gramáticas
Gramáticas: mecanismo de descrição de uma
lin-guagem
Linguagem: um conjunto de frases
•
nucleotídeos são as palavras
•
seqüências são as frases
ou
•
codons são as palavras
•
proteínas são as frases
Gramáticas podem ser utilizadas para
•
Reconhecimento
•
Geração
Um exemplo familiar
Frase ::= sujeito predicado
sujeito ::= artigo nome
artigo ::=
a
|
o
nome ::=
cão
|
moça
|
dia
predicado ::= verbo adjetivo
verbo ::=
está
|
estava
adjetivo ::=
feliz
|
triste
Construindo uma frase
Frase ->
->
sujeito predicado
->
->
artigo nome
predicado
->
->
a
nome predicado
->
a
moça
predicado ->
->
a moça
verbo adjetivo->
->
a moça
está
adjetivo ->
->
a moça está
feliz
Exemplos de fenômenos
genéti-cos que podem ser modelados
Gramática livre de contexto
S ::= a S u | u S a | c S g | g S c | A
A ::= A a | A u | A c | Ag| nil
S -> aSu-> ->acSgu-> ->acgScgu-> ->acgaSucgu-> ->acgauSaucgu -> ->acgauAucgu-> ->acgauAcucgu-> ->acgauAccucgu-> ->acgauAuccugu-> ->acgauuccugu
S ::= a S u | u S a | c S g | g S c | SS
Gramáticas estocásticas
uso de probabilidades para lidar com ambigüidade exemplo:
• S ::= Promotor SequenciaCod [1]
• ...
• SequenciaCod ::= Codon SequenciaCod [0.998]
• SeqCod ::= Stop [0.002]
• Cod ::= Lys [0.03]
• Cod ::= Asp [0.035]
• ...
•
Gramáticas Estocásticas:
exemplos
• análise de sinais:
– preditor de splice sites (Vieira, Durham et al, Icobicobi 2004)
– construção de um preditor de genes baseado na tecnologia (em desenvolv.) (splice sites, promotores, etc.)
• caracterização de estrutua secundária em RNAs
– busca de genes para famílias de ncRNAs (em desenv.)
– estudo de equivalencia com modelos de covariancia
Desenvolvimento de software
desenvolvimento moderno de software• modularidade
• abstração
• encapsulamento
encapsulamento
• detalhes de implementação do software não precisam ser con-hecidos nem pelos usuários, nem pelos sistemas que os utilizam
• visão dos componentes é abstrata, apresentando um modelo em geral mais simples da realidade
Desenvolvimento de software
abstração
modularidade
• desenvolvimento de componentes facilmente intercambiáveis
• ex. trocar dois programas de alinhamento sem nenhum trabalho adicional
• interface padrão
• e.g. motor de automóvel, caixa de câmbio,...
plataformas de análise
• criação de ambientes para desenvolvimento de sistemas específicos
• exemplo similar: programas de desenho
– paintbrush
– corel draw
Plataformas de análise
aumento grande de produtividade para desenvolvimento
de novos sistemas
• usuário compõe soluções a partir de elementos pré definidos (triangulos, retangulos, retas)
baixo custo de customização para necessidades
es-pecíficas
• componentes configuráveis (mudança de cor, de traço na linha, espessura de linha)
gostaríamos de algo semelhante para processamento de
dados biológicos
poucos sistemas até agora na área de bionformática
amplo espectro de desenvolvimento
Desenvolvimento de plataformas:
questões a tratar
inicialmente definir escopo de atuação
análise das soluções atuais
existe boa definicao das tarefas?
soluções apresentam estrutura comum?
podemos isolar componentes de
soluções que se repetem?
criar um modelo para integração dos
componentes para, a partir deles,
descrever as soluções atuais
Desenvolvimento de plataformas: 2
casos concretos
Egene: Plataforma para construcao de
pipelines de processamento de sequencias
(Bioinformatics, 2005)
MYOP/ToPS: Plataforma para construcao de
Egene: o problema
escopo: pipelines de sequenciamento e anotação pipelines utilizam grande variedade de softwares mais de um software para a mesma tarefa
• Blast, Crossmatch, water
um software pode ser usado para tarefas diferentes (
• Crossmatch: filtrar sequências contaminantes, mascara-mento de vetores
configuração dos softwares especifica para cada tarefa tarefas bem caracterizadas:
• eliminação de contaminantes, mascaramento de vetores, montagem, procura por genes, busca de regiões funcion-ais do gene, etc.
sequências passarm por vários passos de processamento
Egene: criando uma plataforma
definição de componentes: • ...
EGene
O sistema egene pode ser configurado
de modo gráfico usando o configurador
coed
<FIGURA>
EGene: vantagens do uso
documentação automática de um pipeline em forma gráfica usuário não precisa conhecer convenções de cada um dos
softwares para utilizar o sistema, apenas sua funcionalidade inserção e remoção de componentes extremamente rápida facilidades gráficas de edição, modo gráfico pode ser usado
como documentação
em computador multiprocessado, possibilidade de uso de todos os processadores (multi processamento)
relatórios formato web com gráficos “snapshots” em qualquer ponto
MYOP (Make Your Own Predictor):
um arcabouco para preditores de
genes
predicao de genes:
•
metodos extrínsecos: similaridade (busca
por genes semelhantes em bancos de
da-dos publicos)
•
metodos intrínsecos: software que codifica
caracteristicas de um gene e utilizado para
busca dos genes no genoma.
Preditores intrinsecos
modelagem da estrutura dos genes: componentes
•
sinais: sitios de splicing, sitions de poliadenilacao,
re-gioes promotoras
•
sensores de conteúdo: introns, exons, 5' UTR, 3'UTR,
regiao intergenica
modelagem da estrutura do genes:
•
Preditores de genes
con-hecidos:
•
MYOP: vantagens
plataforma para estudo sistemático de predição de genes
possibilita comparação precisa entre os vários modelos
estudo de protocolos para criação de preditores de genes
Isso é tudo?
Abordagem para desenvolvimento de
ferramentas pode ser aplicada em outros
domínios de problemas
Domínios com características
mencion-adas anteriormente são bons candidatos
para novas ferramentas.
Desenvolvimento
interação interdisciplinar é essencial
o pesquisador de C. Computação
•
modelagem computacional flexível e fácilmente
ex-tensível
•
entendimento ao menos parcial do problema para
cri-ação de um modelo computacional que registre as
cara-cterísticas do problema
o pesquisador da área do domínio do problema
•
ententimento da variabilidade das soluções
•
auxílio no desenvolvimento da interface de configuração
de soluções: a ferramenta precisa falar “biologuês”.
•
Conclusões
área de bioinformática tem amplo espectro conhecimentos nas duas áreas é importante
• interação entre pesquisadores
• formação multi-disciplinar
várias abordagens
• desenvolvimento de sistemas e/ou plataformas de análise
• bancos de dados
• uso de novas tecnologias
– aprendizado computacional
alguns temas não abordados
• genética de populações
• análise filogenética
• modelagem e dinâmica de proteínas
• construção automática de redes metabólicas
• análise de expressão gênica (microarrays, scar)
•
O que aprender
Biologia molecular (min. 1 semestre)
Estatistica
Banco de Dados
Desenvolvimento de sistemas
Aprendizado computacional
Bioinformatica instrumental
Etc.
•
Onde aprender mais?
Cursos de curta duracao
•
Curso de verão/inverno Bioinfo/USP
•
LNCC
Mestrado e Doutorado em
Bioinformat-ica:
USP,
UFMG,LNCC,...
Grupos de Bioinformatica em
São Paulo
IME USP (quase completo):
• Alair Pereira do Lago, Alan Durham, André Fujita, Carlos Eduardo Ferreira, Carlos Bragança Pereira, Carlos Hitoshi, Eduardo Jordão, Jõao Eduardo Ferreira, Marco Gu-bitoso, Paulo Silva e Silva, Rorberto Hirata, Roberto Cesar Marcondes.
ICB -USP (incompleto)
• Arthur Gruber, Paolo Zanotto
DCM – RP
• Alessandra Alaniz Macedo, Clever Ricardo Guareis de Farias, Evandro Eduardo Seron Ruiz, Joaquim Cezar Felipe, José Augusto Baranauskas, Junior Barrera, Renato Tinós, Ricardo Zorzetto Nicoliello Vencio
Outras Unidades (incompleto)
• Arthur Gruber (ICB), Sergio Verjovski (IQ), Joao Setubal (IQ), Glaucia Mendes
Souza (IQ), Aline Ferreira (IQ), Sergio Matiolli (IB), Zilá Paulino Simoes (Gene-tia – RP), Ariane Machado Lima (EACH), Luciano Vieira de Araújo (EACH), Fábio Nakano (EACH), Marcio Oikawa (UFABC), Tiago Venancio (UERJ), ....
Outros Centros - Sandro de Souza (Ludwig), Ana Tereza Vasconcelos (LNCC), Gonçalo
Pereira (Unicamp), UFABC ...
Créditos
Colaboradores (ordem alfabética)
• Arthur Gruber(FMVZ-USP)
– Egene, chimera finder, Scarsdb, TRAP
• Hernando del Portillo (ICB-USP)
– projetos P. Vivax Ests, Temático malária
– gramáticas estocásticas e RNA
• Ariane Machado-Lima
- Grammar Lab, Grafos e Telomerase
• Glaucia Mendes Souca
- Caracterização de promoteres em cana de açúcar
• Sylvia Leão
- Genômica comparativa em Mycobacteria
Alunos
• André Yoshiaki, Flavia Rainone, Paulo Ahagon, Roberto Tadashi, Ricardo Yamamoto Abe, Milene Ferro, Tiago Motta Jorge, Milene Ferro. Luis Thiberio
– E- gene, Co-ed, TRAP, ScarsDB
• Ariane Machado, Daniel Vieira, Andre Yoshiaki
– Grammar Lab – gramáticas estocásticas – ToPS • Vitor Onuchic – RNA Telomerase FAPESP, CNPq
Créditos
EGene
• Arthur Gruber
• Andre Yoshiaki Kashiwabara
• Fernando Tadashi Matsunaga
• Ricardo Yamamoto Abe
• Milene Ferro • Paulo Ahagon • Leonardo Varuzza • CNPq • Capes • Fapesp MYOP
• Andre Yoshiaki Kashiwabara