Motif Tools
Motif Tools
Edwin Delgado (IME-USP), Milton Yutaka (BIOINFO)
7 de outubro de 2013
Motif Tools 1. Introdu¸c˜ao
Objetivos
Identificar / predizer motivos em regi˜ oes promotoras preditas do genoma da cana (upstream e downstream).
Visualizar as predi¸c˜ oes e an´ alises estat´ısticas destes dados.
Motif Tools 1. Introdu¸c˜ao
Vis˜ ao global
Motif Tools 2. Dados
Dados e software utilizados
montagem shotgun scga4
genes preditos de cana com augustus
alinhamento dos contigs com genes do sorgo e SAS, com software sim4 e blast.
script Java para extra¸c˜ ao de regi˜ oes promotoras.
script Java que gera um arquivo fasta com regi˜ oes promotoras.
Motif Tools 2. Dados
Dados e software utilizados (1)
montagem shotgun scga4, com todos os contigs (arquivo fasta). Detalhes no relat´ orio tem´ atico do ano 2012, p´ agina 24.
Exemplo:
>scga4_contig00001 length=21564 numreads=667
TTTTGATGTGCTAATATGTTGATTAGTGCATGTTTTATATGCCAATTAGGATAATAGTGG TGCTAATTAACATATTTTATTTGTAGTTAGCTATTATCATGACAAAATTAGTGTTAGTGC ATATTTATTAGTATAATtAGTTGTCATTTTCAAAAAATATAAATACAATTAGTCAAGTAT genes preditos de cana com software augustus (arquivo gff3)
Exemplo:
scga4_contig00001 AUGUSTUS gene 741 20200 0.05 -. ID=g1
scga4_contig00001 AUGUSTUS transcript 741 20200 0.05 -. ID=g1.t1 scga4_contig00001 AUGUSTUS stop_codon 741 743 . -0 Parent=g1.t1 scga4_contig00001 AUGUSTUS CDS 741 746 0.53 -0 ID=g1.t1.cds ...
scga4_contig00001 AUGUSTUS CDS 888 1391 0.63 -0 ID=g1.t1.cds ...
scga4_contig00001 AUGUSTUS CDS 1550 2575 0.99 -0 ID=g1.t1.cds ...
Motif Tools 2. Dados
Dados e software utilizados (2)
alinhamento dos contigs com genes do sorgo e SAS pelo software sim4 (cobertura ≥ 60%, identidade ≥ 80%, tamanho
≥ 50), e tamb´ em pelo software blast. A sa´ıda ´ e um arquivo gff3.
Exemplo:
scga4_contig268031 sim4 mRNA 1 797 90 . . ID=SCVPST1062C11.g.1
scga4_contig268040 sim4 mRNA 1 414 99 + . ID=SCUTLR2008A01.g.1
scga4_contig268056 sim4 mRNA 139 926 98 -. ID=SCVPLB1017B08.g.1
scga4_contig268081 sim4 mRNA 484 926 92 . . ID=SCRFFL1030B02.g.1
Motif Tools 2. Dados
Dados e software utilizados (3)
script Java para extra¸c˜ ao de regi˜ oes promotoras (upstream 3k e downstream 3K).
script Java que gera um arquivo fasta com regi˜ oes promotoras.
Exemplo:
>scga4_contig02326|g2829|upstream|1:227|forward
TCTTTGTCCTGCTGCTCGCGAACAGCAACAG...
Motif Tools 3. Metodologia
Pesquisa de bancos de dados
Pesquisa de bancos de dados p´ ublicos de motivos e TATA-Box.
ppbd: a plant promoter database (Arabidopsis thaliana, Oryza sativa, oxfordjournals, 2007)
DoOP: Databases of Orthologous Promoters (Homo sapiens, Arabidopsis thaliana, oxfordjournals, 2004)
PLACE database (v´ arias esp´ ecies de plantas, com anota¸ c˜ oes, literatura relevante com PubMed ID)
JASPAR, the open access database (Nucleic Acids, 2010, conjunto de
perfis curados e n˜ ao redundantes, relacionados a eucariotas multicelulares)
Motif Tools 3. Metodologia
Banco JASPAR e software JASPSCAN
Download e instala¸ c˜ ao do banco JASPAR no servidor Thor.
execu¸c˜ ao do software JASPSCAN (JASPAR) usando as sequˆ encias das regi˜ oes promotoras, e obten¸ c˜ ao dos motivos alinhados. Parˆ ametros:
-menu C (conjunto matriz Core) -matrices all (todas)
-threshold 60 (limiar)
Motif Tools 3. Metodologia
Gera¸c˜ ao de estat´ısticas
gera¸c˜ ao de resultados (scripts em Perl)
Pre-processamento dos dados gerados pelo JASPSCAN arquivo com a posi¸c˜ ao de cada base da regi˜ ao promotora.
arquivo com os diferentes tamanhos dos motivos alinhados.
lista dos motivos alinhados e sua frequˆ encia.
lista das classes dos motivos alinhados e sua frequˆ encia matriz de distribui¸ c˜ oes das bases A C T G
arquivo com as posi¸c˜ oes mais importantes e motivos alinhados neles.
gera¸ c˜ ao de imagens dos resultados (script em R)
Motif Tools 3. Metodologia
An´ alise Computacional
Figura: Pipeline completo para an´ alise de motivos
Motif Tools
4. Ferramenta web Java
Sequˆ encia de passos
buscar o gene de interesse. busca pelo SAS / gene do sorgo / contig trazer detalhes do gene (regi˜ oes promotoras). op¸ c˜ ao de visualizar detalhes do gene, por exemplo a sequencia FASTA, regi˜ oes upstream e downstream.
Imagem obtida via AJAX e gerada pelo GBrowse, com mapeamentos de outros genes (sorgo e SAS).
trazer as estat´ısticas dos motivos. op¸ c˜ ao para visualizar as estat´ısticas de cada
regi˜ ao promotora (upstream, downstream). Imagem obtida via AJAX com todas
as estat´ısticas calculadas.
Motif Tools
4. Ferramenta web Java
Buscar o gene de interesse
ferramenta web em Java integrada com o banco de dados do GBrowse para consultar as regi˜ oes promotoras upstream / downstream (3Kb)
Figura: Ferramenta web de busca das regi˜ oes promotoras
Motif Tools
4. Ferramenta web Java
Trazer detalhes do gene (regi˜ oes promotoras)
Motif Tools
4. Ferramenta web Java
Trazer estat´ısticas dos motivos
Figura: Imagem gerada das estat´ısticas dos motivos
Motif Tools 5. Estat´ısticas
Motif Tools 5. Estat´ısticas
Arquivo com a posi¸ c˜ ao de cada base da regi˜ ao promotora.
Figura: frequˆ encia de motivos alinhados nas bases por posi¸c˜ ao
Motif Tools 5. Estat´ısticas
Arquivo com a posi¸ c˜ ao de cada base da regi˜ ao promotora.
Figura: frequˆ encia do tamanho das sequencias sobrepostas nas bases
Motif Tools 5. Estat´ısticas
Arquivo com a posi¸ c˜ ao de cada base da regi˜ ao promotora.
Figura: Nro de motivos agrupados por janela de tamanho 6,8 e 12
Motif Tools 5. Estat´ısticas
Arquivo com os diferentes tamanhos dos motivos alinhados.
Figura: frequˆ encia do tamanho dos motivos alinhados
Motif Tools 5. Estat´ısticas
Lista dos motivos alinhados e sua frequˆ encia.
Figura: frequˆ encia dos nomes dos motivos
Motif Tools 5. Estat´ısticas
Lista das classes dos motivos alinhados e sua frequˆ encia
Motif Tools 5. Estat´ısticas
Arquivo com as posi¸ c˜ oes mais importantes e motivos alinhados neles. Trˆ es principais posi¸ c˜ oes:
Exemplo:
Max Position Motifs
16 2061 (NFE2L1::MafG; Ubx; Dfd; ... ) 38 1241 (Ubx; Hltf; Pdx1; Awh; Vsx1; ...) 42 1799 (Prrx2; Ubx; Nobox; Lim3; ... )
Figura: motivos alinhados nas bases
Motif Tools 6. Fim
Obrigado pela aten¸ c˜ ao!
Ferramenta dispon´ıvel em:
http://sucest-fun.org/wsapp/searchMotifs.do
Motif Tools 7. Comparativas
Figura: PLACE vs JASPAR
Motif Tools 7. Comparativas
Motif Tools 7. Comparativas
SCEPRZ1010E06.g, regi˜ ao upstream, banco de dados JASPAR
Exemplo:
# Sequence: reverse from: 1 to: 39
# Database scanned: JASPAR_CORE Threshold: 60.000
Start End Strand Score_Percent ID Name Species Class Supergroup 13 18 + 100.000 MA0056.1 MZF1_1-4 9606 Zinc-coordinatin
15 24 + 90.879 MA0061.1 NF-kappaB 9606,10090,10116,9986 Ig-fold 15 20 + 93.258 MA0080.1 SPI1 9606 Winged Helix-Turn-Helix 17 22 + 91.045 MA0261.1 lin-14 6239 Other
22 28 + 96.858 MA0268.1 ADR1 4932 Zinc-coordinating
10 15 + 100.000 MA0332.1 MET28 4932 Zipper-Type
22 28 + 99.258 MA0337.1 MIG1 4932 Zinc-coordinating
23 29 + 97.148 MA0338.1 MIG2 4932 Zinc-coordinating
23 29 + 97.487 MA0339.1 MIG3 4932 Zinc-coordinating
22 35 + 96.494 MA0425.1 YGR067C 4932 Zinc-coordinating
22 30 + 94.745 MA0431.1 YML081W 4932 Zinc-coordinating
23 29 + 98.167 MA0436.1 YPR022C 4932 Zinc-coordinating
9 14 + 100.000 POL009.1 DCE_S_II . Unknown
Motif Tools 7. Comparativas
SCEPRZ1010E06.g, regi˜ ao upstream, banco de dados PLACE
Exemplo:
RESULTS OF YOUR SIGNAL SCAN SEARCH REQUEST
../../tmp/sigscan//signalseqdone.2753: 39 base pairs Signal database file: user.dat
Factor or Site Name Loc.(Str.) Signal Sequence __________________________________________________________________
PREATPRODH site 3 (-) ACTCAT
CACTFTPPCA1 site 6 (-) YACT
EECCRCAH1 site 16 (-) GANTTNC
Motif Tools 7. Comparativas
Outros softwares
N˜ ao usam banco de motivos, s˜ ao preditores de motivos baseado no arquivo de entrada
bioprospector
phylogibbs
meme
motifsampler
YMF
Motif Tools 7. Comparativas