Bioinform´
atica para o Citrus EST Project
(CitEST)
Marcelo da Silva Reis 1
1Instituto de Matem´atica e Estat´ıstica, Universidade de S˜ao Paulo
Organiza¸c˜
ao da Apresenta¸c˜
ao
I Esta apresenta¸c˜ao ter´a a dura¸c˜ao de 3 horas I Faremos um intervalo de meia hora `as 10:00h
I Das 8:30h - 10:00h ser´a apresentada a estrutura de bioinform´atica do Citros EST Project (CitEST) I Das 10:30h - 12:00h teremos:
I uma introdu¸c˜ao `a duas ferramentas de identifica¸c˜ao de sequˆencias (BLAST e Pfam)
Sobre o apresentador
I trabalhou de 2001 `a 2004 no Laborat´orio de Bioinform´atica da UNICAMP (projetos genoma de Leptospira, transcriptoma de Gracilaria e outros
I em 2004-2005 fez p´os-gradua¸c˜ao em Bioinform´atica na Universidade de Colˆonia, na ´area de Redes Gˆenicas Regulat´orias
I trabalhou de 2005 `a 2007 no Centro APTA Citros, em projetos e sistemas que ser˜ao mostrados aqui em breve... :-) I desde 2007 ´e aluno de doutorado do IME-USP, novamente na
´
Agenda
Apresenta¸c˜ao
O que ´e Bioinform´atica?
O papel da Bioinform´atica no Centro APTA Citros
O Portal CitEST
Sistema de submiss˜ao de sequˆencias Gene Projects
Editor de Unigenes Digital Northern Genˆomica Comparativa
BLAST Pfam Referˆencias
Agenda
Apresenta¸c˜ao
O que ´e Bioinform´atica?
O papel da Bioinform´atica no Centro APTA Citros O Portal CitEST
Sistema de submiss˜ao de sequˆencias Gene Projects
Editor de Unigenes Digital Northern
Genˆomica Comparativa
BLAST Pfam
O que ´
e Bioinform´
atica?
I Existem diversas defini¸c˜oes para o termo “Bioinform´atica”;
I Para os t´opicos aqui apresentados, utilizaremos a seguinte:
Bioinform´atica ´e a aplica¸c˜ao da Tecnologia da Informa¸c˜ao (T.I.) no campo da Biologia Molecular.
Exemplos de aplica¸c˜
oes
I processamento de arquivos produzidos por sequenciadoras I extra¸c˜ao da sequˆencia de DNA / RNA
I elimina¸c˜ao de contaminantes
I produ¸c˜ao de Unigenes
I montagem de genoma (fragmento ou cromossomo completo) I an´alise de sequˆencias
I armazenamento e organiza¸c˜ao da informa¸c˜ao
O papel da Bioinform´
atica no Centro APTA Citros
I auxilia em quase todos os processos exemplificados
I v´arias an´alises (automatizadas) dispon´ıveis via Portal CitEST
Agenda
Apresenta¸c˜ao
O que ´e Bioinform´atica?
O papel da Bioinform´atica no Centro APTA Citros
O Portal CitEST
Sistema de submiss˜ao de sequˆencias Gene Projects
Editor de Unigenes Digital Northern
Genˆomica Comparativa
BLAST Pfam
O Portal CitEST
I P´agina web do Citrus EST Project
I Tamb´em hospeda diversos projetos relacionados, como Phytophthora, Liberibacter, etc.
Sistema de submiss˜
ao de sequˆ
encias
Recebe “pacotes” de cromatogramas do Laborat´orio de Sequenciamento e:
I transforma os arquivo bin´arios em fastas (prog. phredPhrap)
I elimina contaminantes (vetores, adaptadores, etc.)
Sistema de submiss˜
ao de sequˆ
encias (2)
I ao enviar um “pacote” de bin´arios, o sistema produz um relat´orio sobre a qualidade dos fastas produzidos
I pesquisador tem a op¸c˜ao de confirmar ou rejeitar o armazenamento
Agora que temos os fastas...
...vamos analisar as sequˆencias obtidas:
I para isso vamos fazer uso dos Editores
I Editores servem ao pesquisador como ferramenta para:
I data mining, montagem e anota¸c˜ao de uma pequena por¸c˜ao de transcritos
I data mining e anota¸c˜ao de todos os transcritos de uma determinada esp´ecie
Gene Projects e UniGene Editor
Os editores utilizados no Centro APTA Citros s˜ao:
I para pequenas montagens de projetos em andamento: I Gene Projects
I para an´alise de montagens “globais” de transcritos de uma determinada esp´ecie:
I UniGene Editor
Gene Projects
I editor desenvolvido pela equipe de bioinfo do LGE-UNICAMP
I permite a cria¸c˜ao de “projetos”
I o pesquisador pode selecionar trascritos, montar, “BLASTar” e anotar observa¸c˜oes
UniGene Editor
I editor desenvolvido pela equipe de bioinfo do LBI-UNICAMP
I banco de dados de UniGenes, contendo an´alises pr´e-processadas de BLASTs, Pfam, PSORT, etc. I o pesquisador tem o op¸c˜ao de:
I pesquisar um UniGene (c´opia ´unica de um transcrito)
I analisar as informa¸c˜oes pr´e-processadas
I anotar observa¸c˜oes em um Notepad
Ferramenta de Hibridiza¸c˜
ao in silico
I an´alise da express˜ao diferencial entre genes de duas ou mais bibliotecas
I ferramenta analisa a abundˆancia de transcritos, utilizando um crit´erio estat´ıstico
I dois m´odulos:
I um que produz os dados de sa´ıda de forma tabular
I outro para visualiza¸c˜ao gr´afica, agrupando os transcritos de
Digital Northern (2)
Exemplo de uma figura produzida pelo segundo m´odulo:
Agora vamos verificar as tabelas produzidas no primeiro m´odulo e brincar um pouco com o segundo...
Agenda
Apresenta¸c˜ao
O que ´e Bioinform´atica?
O papel da Bioinform´atica no Centro APTA Citros
O Portal CitEST
Sistema de submiss˜ao de sequˆencias Gene Projects
Editor de Unigenes Digital Northern
Genˆomica Comparativa BLAST
Pfam
Genˆ
omica Comparativa
I identifica¸c˜ao de uma sequˆencia atrav´es da compara¸c˜ao com outras sequˆencias
I no processo obtemos uma lista de sequˆencias similares, das quais podemos “importar” a anota¸c˜ao
I normalmente as sequˆencias com as quais comparamos fazem parte se um banco de dados biol´ogico
BLAST
I Basic Local Alignment Search Tool
I compara sequˆencias contra um banco biol´ogico atrav´es de alinhamentos locais
I diversos “sabores”: blastx, blastn, blastp, etc.
Bancos do BLAST
Alguns dos principais bancos utilizados:
I GenBank – maior e mais abrangente, mas menos preciso http://www.ncbi.nlm.nih.gov/Genbank
I SwissProt – menor, mas com comprova¸c˜ao proteˆomica http://www.expasy.ch/sprot
BLAST local x BLAST NCBI
I seguran¸ca de informa¸c˜oes (sequˆencias) sigilosas
I utilizar o BLAST em m´aquinas p´ublicas (e.g. NCBI) nem sempre ´e desej´avel
I rodar em terminal permite:
I maior controle sobre as op¸c˜oes da ferramenta
Utilizando o BLAST
Agora vamos rodar o BLAST, tanto a vers˜ao Web quanto a por linha de comando.
Pfam
I Protein Families
I serve para a identifica¸c˜ao utilizando fam´ılias de dom´ınios de prote´ınas
I ou seja, a identifica¸c˜ao ´e obtida atrav´es de homologia com “motivos” de dom´ınios de prote´ınas
Pfam local x Pfam Web
I mesma quest˜ao das sequˆencias sigilosas
I vers˜ao Web do Pfam (e seus bancos) dispon´ıvel em: http://pfam.sanger.ac.uk
I rodar em terminal (ferramenta hmmer) permite: I maior controle sobre as op¸c˜oes da ferramenta
Utilizando o Pfam
Agora vamos rodar o Pfam, tanto a vers˜ao Web quanto a por linha de comando.
Agenda
Apresenta¸c˜ao
O que ´e Bioinform´atica?
O papel da Bioinform´atica no Centro APTA Citros
O Portal CitEST
Sistema de submiss˜ao de sequˆencias Gene Projects
Editor de Unigenes Digital Northern
Genˆomica Comparativa
BLAST Pfam
Referˆ
encias
1. A.M. Amaral, M.S. Reis e F.R. Silva. O Programa BLAST: guia pr´atico de utiliza¸c˜ao. EMBRAPA, dezembro de 2007.
2. BLAST: Basic Local Alignment Search Tool.
http://blast.ncbi.nlm.nih.gov/Blast.cgi. Acesso em 10 de maio de 2009.
3. GenBank. http://www.ncbi.nlm.nih.gov/Genbank. Acesso em 11 de maio de 2009.
4. Laborat´orio de Biotecnologia.
http://biotecnologia.centrodecitricultura.br. Acesso em 20 de maio de 2009.
5. M.S. Reis, M.A. Takita, D.A. Palmieri e M.A. Machado. Bioinformatics for the Citrus EST Project (CitEST). Genet.Mol.Biol. 30:3:0, S˜ao Paulo 2007.
6. Pfam: Home Page. http://pfam.sanger.ac.uk. Acesso em 7 de maio de 2009.