• Nenhum resultado encontrado

Aprimoramento de uma ferramenta de predição de ncrnas baseada em estruturas secundárias

N/A
N/A
Protected

Academic year: 2021

Share "Aprimoramento de uma ferramenta de predição de ncrnas baseada em estruturas secundárias"

Copied!
29
0
0

Texto

(1)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias

Aprimoramento de uma ferramenta de predi¸c˜

ao

de ncRNAs baseada em estruturas secund´

arias

Trabalho de Formatura Supervisionado

Felipe Lamberti Amado

Orientador: Prof. Dr. Alan Mitchell Durham

Instituto de Matem´

atica e Estat´ıstica - USP

(2)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao

Biologia b´asica - Transcri¸c˜ao e Tradu¸c˜ao

(3)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao

Biologia b´asica - Transcri¸c˜ao e Tradu¸c˜ao

(4)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao

Tipos de RNA

Tipos de RNA

(5)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao

(6)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao

Representando sequˆencias como grafos

(7)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Introdu¸c˜ao

O preditor

(8)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Objetivos

Objetivos deste trabalho

I

Otimizar os parˆ

ametros utilizados pelo preditor

I

Fazer uma compara¸c˜

ao justa com algum outro preditor de

microRNAs

I

Implementar uma extens˜

ao do preditor para realizar o

treinamento autom´

atico

(9)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Otimiza¸c˜ao dos parˆametros

Parˆ

ametros a serem otimizados

I

Limiar de

probabilidade

I

Tamanho

m´ınimo de

elice

0,0

2

0,25

4

0,05

6

(10)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Otimiza¸c˜ao dos parˆametros

Curvas ROC

● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●●● ● ● ● ●●● ● ● ● ●●● ● ● ●●●● ● ●●●●● ●●●●●● 3 4 5 6 7 8 9 10 11 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.0 Specificity Sensitivity 0.00 0.25 0.50 0.75 prob_threshold

(11)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Otimiza¸c˜ao dos parˆametros

´

Arvore de decis˜

ao

Sequˆ

encia

Padr˜

ao 1

Padr˜

ao 2

...

Padr˜

ao N

microRNA real?

seqA

1

0

...

0

1

seqB

1

1

...

1

1

seqC

0

1

...

0

0

:

:

:

:

:

:

(12)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Otimiza¸c˜ao dos parˆametros

´

Arvore de decis˜

ao

Sequˆ

encia

Padr˜

ao 1

Padr˜

ao 2

...

Padr˜

ao N

microRNA real?

seqA

1

0

...

0

1

seqB

1

1

...

1

1

seqC

0

1

...

0

0

:

:

:

:

:

:

(13)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Otimiza¸c˜ao dos parˆametros

Padr˜

oes otimizados

Padr˜

ao I

V

Padr˜

ao II

Limiar de probabilidade: 0

Limiar de probabilidade: 0,57

Tamanho m´ınimo de h´

elice: 7

Tamanho m´ınimo de h´

elice: 5

(14)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Otimiza¸c˜ao dos parˆametros

Antes x Depois da otimiza¸c˜

ao

Medida

Antes

Depois

Especificidade

87,538%

84,154%

Sensibilidade

71,692%

82,692%

Acur´

acia

79,615%

83,423%

Especificidade = TN/(TN + FN)

Sensibilidade = TP/(TP + FP)

Acur´

acia = (TP + TN)/(TP + FP + TN + FN)

(15)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Compara¸c˜ao entre os preditores

Compara¸c˜

ao entre os preditores

Medida

MiPred

Nosso preditor

Especificidade

88,076%

84,154%

Sensibilidade

80,615%

82,692%

(16)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Treinamento autom´atico do preditor

Treinamento autom´

atico do preditor

I

Feito encontrando subestruturas t´ıpicas em um conjunto de

microRNAs

I

Que foram encontradas utilizando um algoritmo de subgrafo

maximal entre dois grafos

I

Que, por sua vez, foi implementado utilizando uma redu¸

ao

ao problema do clique maximal

(17)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Treinamento autom´atico do preditor

Redu¸c˜

ao ao problema do clique maximal

I

Entrada: Grafos G

1

=< V

1

, A

1

> G

2

=< V

2

, A

2

>

I

Grafo produto de arestas H

e

= G

1

◦ G

2

possui como v´

ertices o

conjunto V

H

= E

1

× E

2

I

a uma aresta do n´

o v = (v

1

, v

2

) ao w = (w

1

, w

2

) em H

e

sse

v

1

6= w

1

e v

2

6= w

2

e (o n´

o que conecta as arestas v

1

e w

1

´

e

compat´ıvel com o n´

o que conecta v

2

e w

2

OU v

1

e w

1

ao s˜

ao

arestas adjacentes em G

1

e v

2

e w

2

tamb´

em n˜

ao s˜

ao

adjacentes em G

2

)

I

Sa´ıda: Clique maximal de H

e

que corresponde a um subgrafo

(18)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Treinamento autom´atico do preditor

Redu¸c˜

ao do problema ao problema do clique maximal

(19)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Treinamento autom´atico do preditor

(20)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias M´etodos e resultados

Treinamento autom´atico do preditor

Fam´ılia A x Fam´ılia B

(a)

(b)

I

O treinamento foi realizado em 21

sequˆ

encias da fam´ılia A,

encontrando 4 subestruturas

recorrentes

I

53,7% das sequˆ

encias da fam´ılia A

foram identificadas com sucesso

I

Apenas 2,7% das sequˆ

encias da

fam´ılia B foram identificadas como

sendo de A

(21)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Conclus˜oes

Conclus˜

oes

I

Com a otimiza¸

ao dos parˆ

ametros, obtivemos uma discreta

melhora, mas suficiente para alcan¸

car um n´ıvel de acur´

acia

compar´

avel a um dos melhores preditores de microRNA

atualmente

I

Apesar de ter apresentado um bom resultado em um dos

testes realizados, o algoritmo de treinamento autom´

atico

ainda precisa de melhorias

(22)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Conclus˜oes

Conclus˜

oes

I

Com a otimiza¸

ao dos parˆ

ametros, obtivemos uma discreta

melhora, mas suficiente para alcan¸

car um n´ıvel de acur´

acia

compar´

avel a um dos melhores preditores de microRNA

atualmente

I

Apesar de ter apresentado um bom resultado em um dos

testes realizados, o algoritmo de treinamento autom´

atico

ainda precisa de melhorias

(23)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Parte subjetiva

O que mais me ajudou neste trabalho

I

Disciplina de Algoritmo em grafos

I

Disciplina de Biologia Computacional

I

Disciplina de Data Mining (cursada durante intercˆ

ambio)

(24)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Parte subjetiva

(25)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice

Bibliografia

Bibliografia I

Hu LL et al (2012). Benchmark comparison of ab initio

microRNA identification methods and software. GMR.

A Machado-Lima, HA del Portillo, AM Durham (2008).

Computational methods in noncoding RNA research.. J Math

Biol. 56(1-2):15-49

Ina Koch (2001). Enumerating all connected maximal common

subgraphs in two graphs. Elsevier.

Sarah W. Burge et al (2013). Rfam 11.0: 10 years of RNA

families. Nucleic Acids Res.

Jiang P et al (2007). MiPred: classification of real and pseudo

microRNA precursors using random forest prediction model

with combined features. Nucleic Acids Res.

(26)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice

Bibliografia

Bibliografia II

Wei-Yin Loh and Yu-Shan Shih (1997). Split Selection

Methods For Classification Trees. Statistica Sinica 7, 815-840

Marilena V. Iorio et al (2005). MicroRNA Gene Expression

Deregulation in Human Breast Cancer. AACR.

(27)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice

Bibliografia

MicroRNA

(28)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice Bibliografia

RNAfold

shuf34 G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G C G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G C G G C C G G U C C G GC U C C G A G C U C G G G G G C G CC C U A G U C C G A G U G A U A G UA C U G C C G C U A A C G U U G A GU U G U A G G G C G G C C G G U C C G GC U C C G A G C U C G G G G G C G CC C U A G U C C G A G U G A U A G UA C U G C C G C U A A C G U U G A GU U G U A G G G C

(c)

G G C C G G U C C G G C U C C G A GCUC G G GG G C G C C C UA G U C CGA GUG A U AGU A C U G C C G C U A A C G U U G A G U U G U A G G G C

(d)

(29)

Aprimoramento de uma ferramenta de predi¸c˜ao de ncRNAs baseada em estruturas secund´arias Apˆendice Bibliografia

Pseudo-n´

o

(e)

http://en.wikipedia.org/wiki/File:Pseudoknot.svg

Referências

Documentos relacionados

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

[r]

As sementes tem dormência imposta pelo tegumento e para a superação é necessário submetê-las à embebição em água (24 a 48 horas), escarificação mecânica ou

Outro aspecto a ser observado é que, apesar da maioria das enfermeiras referirem ter aprendido e executado as fases do processo na graduação, as dificuldades na prática

O DIRETOR DO LABORATÓRIO NACIONAL DE COMPUTAÇÃO CIENTÍFICA DO MINISTÉRIO DA CIÊNCIA, TECNOLOGIA, INOVAÇÕES E COMUNICAÇÕES, no uso da competência que lhe foi

Os ativos não circulantes classificados como disponível para venda são mensurados pelo menor montante entre o seu custo contábil e o seu valor justo, líquido das despesas com a

Como objetivos específicos pretendeu-se iden- tificar os taxa existentes nesta gruta, determinar a riqueza de es- pécies de sua comunidade; verificar a influência de fatores

Depois de considerar a confidência, conteúdo, distribuição, e assuntos de oportunidade associadas com a distribuição de um relatório, um controlador pode, então,