Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias
Aprimoramento de uma ferramenta de predi¸c˜
ao
de ncRNAs baseada em estruturas secund´
arias
Trabalho de Formatura Supervisionado
Felipe Lamberti Amado
Orientador: Prof. Dr. Alan Mitchell Durham
Instituto de Matem´
atica e Estat´ıstica - USP
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao
Biologia b´asica - Transcri¸c˜ao e Tradu¸c˜ao
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao
Biologia b´asica - Transcri¸c˜ao e Tradu¸c˜ao
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao
Tipos de RNA
Tipos de RNA
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao
Representando sequˆencias como grafos
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao
O preditor
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Objetivos
Objetivos deste trabalho
I
Otimizar os parˆ
ametros utilizados pelo preditor
I
Fazer uma compara¸c˜
ao justa com algum outro preditor de
microRNAs
I
Implementar uma extens˜
ao do preditor para realizar o
treinamento autom´
atico
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Otimiza¸c˜ao dos parˆametros
Parˆ
ametros a serem otimizados
I
Limiar de
probabilidade
I
Tamanho
m´ınimo de
h´
elice
0,0
2
0,25
4
0,05
6
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Otimiza¸c˜ao dos parˆametros
Curvas ROC
● ●● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ●●● ● ● ● ●●● ● ● ● ●●●● ● ● ●●●●● ● ●●●●● ●●●●●● 3 4 5 6 7 8 9 10 11 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.0 Specificity Sensitivity 0.00 0.25 0.50 0.75 prob_thresholdAprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Otimiza¸c˜ao dos parˆametros
´
Arvore de decis˜
ao
Sequˆ
encia
Padr˜
ao 1
Padr˜
ao 2
...
Padr˜
ao N
microRNA real?
seqA
1
0
...
0
1
seqB
1
1
...
1
1
seqC
0
1
...
0
0
:
:
:
:
:
:
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Otimiza¸c˜ao dos parˆametros
´
Arvore de decis˜
ao
Sequˆ
encia
Padr˜
ao 1
Padr˜
ao 2
...
Padr˜
ao N
microRNA real?
seqA
1
0
...
0
1
seqB
1
1
...
1
1
seqC
0
1
...
0
0
:
:
:
:
:
:
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Otimiza¸c˜ao dos parˆametros
Padr˜
oes otimizados
Padr˜
ao I
V
Padr˜
ao II
Limiar de probabilidade: 0
Limiar de probabilidade: 0,57
Tamanho m´ınimo de h´
elice: 7
Tamanho m´ınimo de h´
elice: 5
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Otimiza¸c˜ao dos parˆametros
Antes x Depois da otimiza¸c˜
ao
Medida
Antes
Depois
Especificidade
87,538%
84,154%
Sensibilidade
71,692%
82,692%
Acur´
acia
79,615%
83,423%
Especificidade = TN/(TN + FN)
Sensibilidade = TP/(TP + FP)
Acur´
acia = (TP + TN)/(TP + FP + TN + FN)
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Compara¸c˜ao entre os preditores
Compara¸c˜
ao entre os preditores
Medida
MiPred
Nosso preditor
Especificidade
88,076%
84,154%
Sensibilidade
80,615%
82,692%
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Treinamento autom´atico do preditor
Treinamento autom´
atico do preditor
I
Feito encontrando subestruturas t´ıpicas em um conjunto de
microRNAs
I
Que foram encontradas utilizando um algoritmo de subgrafo
maximal entre dois grafos
I
Que, por sua vez, foi implementado utilizando uma redu¸
c˜
ao
ao problema do clique maximal
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Treinamento autom´atico do preditor
Redu¸c˜
ao ao problema do clique maximal
I
Entrada: Grafos G
1
=< V
1
, A
1
> G
2
=< V
2
, A
2
>
I
Grafo produto de arestas H
e
= G
1
◦ G
2
possui como v´
ertices o
conjunto V
H
= E
1
× E
2
I
H´
a uma aresta do n´
o v = (v
1
, v
2
) ao w = (w
1
, w
2
) em H
e
sse
v
1
6= w
1
e v
2
6= w
2
e (o n´
o que conecta as arestas v
1
e w
1
´
e
compat´ıvel com o n´
o que conecta v
2
e w
2
OU v
1
e w
1
n˜
ao s˜
ao
arestas adjacentes em G
1
e v
2
e w
2
tamb´
em n˜
ao s˜
ao
adjacentes em G
2
)
I
Sa´ıda: Clique maximal de H
e
que corresponde a um subgrafo
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Treinamento autom´atico do preditor
Redu¸c˜
ao do problema ao problema do clique maximal
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Treinamento autom´atico do preditor
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados
Treinamento autom´atico do preditor
Fam´ılia A x Fam´ılia B
(a)
(b)
I
O treinamento foi realizado em 21
sequˆ
encias da fam´ılia A,
encontrando 4 subestruturas
recorrentes
I
53,7% das sequˆ
encias da fam´ılia A
foram identificadas com sucesso
I
Apenas 2,7% das sequˆ
encias da
fam´ılia B foram identificadas como
sendo de A
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Conclus˜oes
Conclus˜
oes
I
Com a otimiza¸
c˜
ao dos parˆ
ametros, obtivemos uma discreta
melhora, mas suficiente para alcan¸
car um n´ıvel de acur´
acia
compar´
avel a um dos melhores preditores de microRNA
atualmente
I
Apesar de ter apresentado um bom resultado em um dos
testes realizados, o algoritmo de treinamento autom´
atico
ainda precisa de melhorias
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Conclus˜oes
Conclus˜
oes
I
Com a otimiza¸
c˜
ao dos parˆ
ametros, obtivemos uma discreta
melhora, mas suficiente para alcan¸
car um n´ıvel de acur´
acia
compar´
avel a um dos melhores preditores de microRNA
atualmente
I
Apesar de ter apresentado um bom resultado em um dos
testes realizados, o algoritmo de treinamento autom´
atico
ainda precisa de melhorias
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Parte subjetiva
O que mais me ajudou neste trabalho
I
Disciplina de Algoritmo em grafos
I
Disciplina de Biologia Computacional
I
Disciplina de Data Mining (cursada durante intercˆ
ambio)
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Parte subjetiva
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice
Bibliografia
Bibliografia I
Hu LL et al (2012). Benchmark comparison of ab initio
microRNA identification methods and software. GMR.
A Machado-Lima, HA del Portillo, AM Durham (2008).
Computational methods in noncoding RNA research.. J Math
Biol. 56(1-2):15-49
Ina Koch (2001). Enumerating all connected maximal common
subgraphs in two graphs. Elsevier.
Sarah W. Burge et al (2013). Rfam 11.0: 10 years of RNA
families. Nucleic Acids Res.
Jiang P et al (2007). MiPred: classification of real and pseudo
microRNA precursors using random forest prediction model
with combined features. Nucleic Acids Res.
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice
Bibliografia
Bibliografia II
Wei-Yin Loh and Yu-Shan Shih (1997). Split Selection
Methods For Classification Trees. Statistica Sinica 7, 815-840
Marilena V. Iorio et al (2005). MicroRNA Gene Expression
Deregulation in Human Breast Cancer. AACR.
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice
Bibliografia
MicroRNA
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice Bibliografia
RNAfold
shuf34 G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G C G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G C G G C C G G U C C G GC U C C G A G C U C G G G G G C G CC C U A G U C C G A G U G A U A G UA C U G C C G C U A A C G U U G A GU U G U A G G G C G G C C G G U C C G GC U C C G A G C U C G G G G G C G CC C U A G U C C G A G U G A U A G UA C U G C C G C U A A C G U U G A GU U G U A G G G C(c)
G G C C G G U C C G G C U C C G A GCUC G G GG G C G C C C UA G U C CGA GUG A U AGU A C U G C C G C U A A C G U U G A G U U G U A G G G C(d)
Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice Bibliografia