INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DA UNIVERSIDADE DE SÃO PAULO MAC499 - Trabalho de Formatura Supervisionado

(1)

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DA

UNIVERSIDADE DE SÃO PAULO

MAC499 - Trabalho de Formatura Supervisionado

Aprimoramento de uma ferramenta de predição de ncRNAs

baseada em estruturas secundárias

Felipe Lamberti Amado

Orientador: Prof. Dr. Alan Mitchell Durham

Disciplina oferecida por: Prof. Dr. Carlos Eduardo Ferreira

(2)

Agradecimentos

Agradeço a minha família pelo carinho e compreensão, a meus colegas e amigos — em especial, Jackson, Renato, Samuel, Suzana e Wallace — pelo apoio sem o qual os últimos 5 anos teriam sido infinitamente menos divertidos e proveitosos, ao pessoal do grupo de Bioinformática — em especial, André, Vitor, Igor, Renato, Liliane e Alexandre — pela ajuda e motivação, ao pessoal do Kekanto pela oportunidade de estágio e flexibilidade de horários, aos meus amigos em geral por me manterem são e ao meu orientador Prof. Dr. Alan Durham pelas orientações e pela oportunidade de participação em trabalhos importantes, como o que foi publicado no jornal PLOS Computational Biology.

Agradeço também a USP, ao Prof. Dr. Alfredo Goldman e a Prof. Dra. Mary Lilian por terem viabilizado um intercâmbio internacional com bolsa e me proporcionado experiências incríveis que levarei para o resto da minha vida.

Aproveito para agradecer também a todos os brasileiros que pagam seus impostos e lutam para que eles sejam gastos da melhor forma possível.

(3)

Sumário

I Parte Objetiva v

1 Introdução 1

2 Conceitos 2

2.1 Biologia básica e processo de transcrição . . . 2

2.2 Estrutura secundária . . . 2

2.3 RNA não codificante e microRNA. . . 3

2.4 Complexidade computacional . . . 4

2.5 Definição de grafo. . . 4

2.6 Problema do Clique . . . 4

2.7 Problema do Subgrafo Isomorfo . . . 5

2.8 Problema do Subgrafo Isomorfo Comum Máximo . . . 6

3 Trabalhos relacionados 7 3.1 MiPred . . . 7

3.2 SPARC . . . 8

4 Atividades realizadas 10 4.1 Otimização dos parâmetros . . . 10

4.2 Treinamento do preditor . . . 13

5 Resultados 17 5.1 Comparação com MiPred . . . 17

5.2 Otimização dos parâmetros . . . 17

5.3 Treinamento do preditor . . . 18 6 Conclusões 19 6.1 Trabalhos futuros . . . 19 Referências Bibliográficas 20 II Parte Subjetiva 22 Dificuldades e frustrações 23 iii

(4)

SUMÁRIO iv

Disciplinas relevantes para o trabalho 24

(5)

Parte I

Parte Objetiva

(6)

Capítulo 1

Introdução

O dogma central da biologia molecular, introduzido por Francis Crick em 1958, descreve o processo pelo qual a informação contida no DNA é expressa nas células. Resumidamente, trata-se do processo em que o DNA é transcrito para RNA que, por sua vez, é traduzido para proteína. Poucos anos depois, foi descoberto que nem todas as moléculas de RNA são traduzidas para proteínas. Isto é, algumas partes do DNA são somente transcritas para RNA, que não são traduzidas. Tais moléculas são chamadas de RNA não codificantes (ncRNA) e são importantes, principalmente, na regulação de genes expressos. Os ncRNAs podem ativar ou desativar genes específicos e também são encontrados em estruturas celulares como os ribossomos, fundamentais no processo de tradução.

O ex-aluno de mestrado do IME-USP, Vitor Onuchi, juntamente com os professores doutores Alan Durham e Ariane Machado, desenvolveu um preditor de ncRNAs que se baseia em estrutura secundária, i.e. o arranjo espacial da molécula. A técnica consiste em encontrar subestruturas que se assemelhem a subestruturas típicas de ncRNAs, reduzindo o problema a um problema conhecido da Computação. Trata-se do problema em encontrar um subgrafo isomorfo em um grafo, o qual foi provado ser NP-completo. Para problemas NP-completo, não se conhece um algoritmo que leve menos tempo que o proporcional a uma função exponencial no tamanho da entrada, no pior caso. No entanto, o algoritmo mostrou-se eficiente para instâncias desse problema em especial.

Os resultados preliminares obtidos na predição de microRNAs — moléculas curtas de ncRNA que possuem papel importante na regulação gênica — já haviam se mostrado promissores, atingindo altos níveis de sensibilidade e especificidade (aproximadamente 73% e 88%, respectivamente) nos testes realizados utilizando a base de dados do Rfam.

Este trabalho consistiu na realização de uma comparação justa entre o preditor de microRNAs desenvolvido e uma solução já existente, no aprimoramento da ferramenta de predição — encon-trando melhores parâmetros através de curvas ROC — e, por fim, no desenvolvimento de uma extensão dela, com o intuito de automatizar o processo de encontrar subestruturas típicas. Para isso, testamos uma redução ao problema em encontrar um subgrafo isomorfo máximo dentro de um conjunto de grafos.

(7)

Capítulo 2

Conceitos

2.1 Biologia básica e processo de transcrição

O ácido desoxirribonucleico (DNA) é um composto orgânico, cujas moléculas são encontradas dentro das células de todos os organismos vivos. Essas moléculas carregam informações essenciais sobre o organismo e uma alteração (mutação) mínima pode causar doenças como o câncer. A informação genética contida no DNA é codificada pelas quatro bases nitrogenadas adenina (A), citosina (C), guanina (G) e timina (T). Assim, podemos representar a informação contida em uma molécula de DNA como uma sequência de A, C, G e T. Por exemplo: AAACGGCACT.

O ácido ribonucleico (RNA) é também um composto orgânico, bastante parecido com o DNA, porém mais instável e que geralmente não possui hélices duplas. A transcrição de uma molécula de DNA resulta em uma molécula de RNA, que preserva a mesma informação, sendo trocadas apenas as bases de timina (T) por uracila (U). Assim, a transcrição da molécula de DNA ACCATGT resulta em uma molécula de RNA ACCAUGU.

É importante ressaltar que o processo de transcrição é um fenômeno biológico bastante complexo e que já foi estudado por muitos anos. Uma leitura mais aprofundada sobre o assunto, entretanto, fica a critério do leitor.

2.2 Estrutura secundária

A estrutura secundária de uma molécula é a forma ou arranjo espacial que ela assume devido às forças de atração (pontes de hidrogênio) que existem entre algumas de suas partes. A estrutura secundária de uma molécula de RNA, que é formada devido a atrações entre as bases pirimidinas (citosina, timina e uracila) e as bases purinas (adenina e guanina), é bastante importante, assim como a de uma proteína, sendo muitas vezes o que define a função da molécula. Diferentemente das proteínas, que tendem a possuir uma sequência de aminoácidos conservada para determinadas

(8)

2.4 RNA NÃO CODIFICANTE E MICRORNA 3

truturas, há uma grande variabilidade nas sequências de bases de RNA. Essa característica dificulta abordagens que se baseiam puramente nas sequências, i.e. sem levar em conta suas estruturas.

Encontrar a estrutura secundária verdadeira de uma molécula não é uma tarefa trivial. Envolve processos manuais caros ou aproximações computacionais, devido a alta complexidade computacio-nal para achar uma estrutura que possua a menor energia livre, que ainda sim pode não ser a real. Existem algoritmos de programação dinâmica que encontram eficientemente a estrutura de menor energia livre, mas eles supo˜em que não haja pseudonós, i.e. pareamentos de bases que se cruzem — dizemos que dois pareamentos de bases (i, j) e (k, l) se cruzam se i < k < j < l.

2.3 RNA não codificante e microRNA

Uma parte dos RNA transcritos de DNA passam pelo processo de tradução, que resulta em proteínas. Uma outra parte não é traduzida e atua de outras formas dentro da célula. Alguns RNAs não codificantes inibem a expressão de certos genes, outros atuam em outros processos celulares importantes e uma boa parte ainda possui funções desconhecidas.

Os microRNAs são moléculas de RNA não codificantes curtas (cerca de apenas 22 bases) que re-gulam a expressão gênica. Recentemente, diversas descobertas têm sido feitas sobre essas moléculas. Por exemplo:

• Sua relação com a diferenciação das células: estudos mostraram que células fetais ainda não diferenciadas possuem um conjunto específico de microRNAs sendo expressos [LSLL12]; • Envolvimento em infecções virais: no caso do HIV, por exemplo, o vírus codifica microRNAs

capazes de interferir nos mecanismos de defesa da célula, criando um ambiente favorável para invasão e replicação [TGOVO12][hiv13];

• Sua relação com diversos tipos de câncer, com as primeiras terapias envolvendo microRNAs já sendo desenvolvidas [NSC12][I+05].

No caso dos microRNAs, depois da transcrição do DNA para RNA, temos um RNA longo chamado de transcrito primário (pri-mir). Este transcrito é, então, cortado dentro do núcleo e dá origem a um microRNA precursor (microRNA), que deixa o núcleo. No citoplasma, o pre-microRNA sofre outro corte e, finalmente, dá origem a uma sequência de RNA maduro. [Kim05]

Neste trabalho, focamos apenas nos microRNAs precursores (pre-microRNA), pois possuem uma estrutura secundária relevante e uma base de dados muito mais completa em comparação com os transcritos primários.[GJGvD+06]

(9)

2.6 COMPLEXIDADE COMPUTACIONAL 4

2.4 Complexidade computacional

Um problema em NP é um problema de decisão tal que para as instâncias onde a resposta é "sim", há um certificado de que a resposta é de fato "sim" que pode ser verificado em tempo polinomial. Os problemas que estão em P também estão em NP e, além disso, existem algoritmos polinomiais que os resolvem. Existem problemas em NP para os quais não se conhece um algoritmo que os resolva em tempo polinomial. Entre eles, temos os problemas em NP-Completo, que são aqueles para os quais existem reduções polinomiais de qualquer outro problema também em NP-Completo. Finalmente, um problema em NP-Difícil é um problema para o qual existe uma redução polinomial de qualquer problema em NP-Completo.

NP-Completo NP-Difícil

P

NP

Figura 2.1: Diagrama de Venn com algumas das classes de problemas de acordo com suas complexidades. Apesar de não ter sido demonstrado, existem fortes evidências de que P 6= N P .

2.5 Definição de grafo

Um grafo é uma abstração matemática com inúmeras aplicações práticas. Podemos definir um grafo como um conjunto de nós que são ligados por arestas, ou mais precisamente, uma tupla <N,A>, onde N é um conjunto de nós e A é um conjunto de arestas tal que ∀{v, w} ∈ A, v e w são elementos de N.

2.6 Problema do Clique

O problema do clique consiste em encontrar um subgrafo completo de tamanho k em um grafo G. Mais precisamente, dado um grafo G =< Ng, Ag > e um inteiro k, encontrar um subgrafo

G0 =< N_g0, A0_g> com k nós tal que para todo par {v, w} com v, w ∈ N_g0, exista a aresta {v, w} ∈ A0. Este problema é bastante conhecido e foi demonstrado ser NP-completo.

(10)

2.7 PROBLEMA DO SUBGRAFO ISOMORFO 5

Figura 2.2: O subgrafo em destaque é um exemplo de clique de cardinalidade 4.

2.7 Problema do Subgrafo Isomorfo

Dizemos que um grafo G =< Ng, Ag > possui um subgrafo isomorfo ao grafo S =< Ns, As >

se existe uma função injetora f : Ns→ Ng tal que para toda aresta {v, w} ∈ As, existe uma aresta

{f (v), f (w)} ∈ Ag. Em particular, dizemos que os grafos S e G são isomorfos se ambas as condições

forem verdadeiras: i) f for bijetora;

ii) ∀{y, z} ∈ A_g, existe aresta {f−1(y), f−1(z)} ∈ As.

Para demonstrar que o problema do subgrafo isomorfo é NP-completo, basta mostrar que o pro-blema está em NP e que há uma redução polinomial de um propro-blema NP-completo a ele. Considere o certificado (G =< N_g, Ag >, S =< Ns, As >, f : Ns→ Ng). Podemos conferi-lo polinomialmente

verificando que f é uma função injetora e que para toda aresta {v, w} ∈ As, existe uma aresta

{f (v), f (w)} ∈ A_g, logo, o problema está em NP. O problema do clique que é NP-completo é facil-mente reduzido ao problema do subgrafo isomorfo. Considere uma entrada (G, k) para o problema do clique, gere o grafo completo de tamanho k (grafo H) e use (G, H) como entrada para o problema do subgrafo isomorfo. É fácil perceber que se houver um subgrafo de G isomorfo a H, então há um clique de tamanho k no grafo G e vice-versa. Portanto, o problema é NP-completo.

(11)

2.8 PROBLEMA DO SUBGRAFO ISOMORFO COMUM MÁXIMO 6

Figura 2.3: Subgrafo do grafo B em destaque é isomorfo ao grafo A. As linhas pontilhadas representam a função f.

2.8 Problema do Subgrafo Isomorfo Comum Máximo

O problema em achar um subgrafo isomorfo comum máximo consiste em encontrar o subgrafo de maior número de arestas em G₁ que seja isomorfo a um subgrafo de G₂. Este é um problema NP-difícil.

Para mostrar que o problema é NP-difícil, considere o problema de decisão análogo: Dados os grafos G1, G2 e um inteiro k, existe um subgrafo de G1 isomorfo a um subgrafo de G2 com número

de arestas maior ou igual a k? Podemos reduzir este problema de decisão ao problema inicial simplesmente comparando o número de arestas do subgrafo isomorfo comum máximo encontrado com número inteiro k. Logo, se provarmos que esse problema de decisão é NP-completo, provamos que o problema inicial é NP-difícil.

Para provar que o problema de decisão acima é NP-completo, basta provar que ele está em NP e que há uma redução polinomial de um problema NP-completo a ele. Considere o certificado (G1 =< N1, A1 >, G2 =< N2, A2 >, k, S =< Ns, As >, f1 : Ns → N1, f2 : Ns → N2). Podemos

conferi-lo polinomialmente verificando que as funções f1 e f2 são injetoras, que para toda aresta

{v, w} ∈ A_s, existe uma aresta {f₁(v), f1(w)} ∈ G1 e uma aresta {f2(v), f2(w)} ∈ G2 e que S

tem pelo menos k arestas. Logo, está em NP. Considere uma entrada (G, k) para o problema do clique, gere o grafo completo de tamanho k (grafo H) e use (G, H, k(k − 1)/2) como entrada para o problema de decisão. Perceba como encontrar um subgrafo isomorfo comum com pelo menos k(k − 1)/2 arestas entre G e H é equivalente a encontrar um clique de k nós em G.

Dessa forma, mostramos que o problema de decisão é NP-completo e portanto o problema do subgrafo isomorfo comum máximo é NP-dificil.

(12)

Capítulo 3

Trabalhos relacionados

Existem dois tipos principais de abordagens utilizadas para o problema da predição de ncRNAs: métodos ab initio, que envolvem a análise apenas da sequência a ser classificada, e métodos compara-tivos, em que outras sequências também são utilizadas — geralmente, fazendo uso de alinhamentos múltiplos. [MLdPD09]

Os métodos ab initio utilizam principalmente dois tipos de informação — termodinâmica e/ou composicional — e podem ou não envolver técnicas de aprendizagem computacional.

Estudos mostraram que algumas sequências de ncRNA, como os microRNAs precursores, pos-suem baixa energia livre e, por este motivo, muitos dos preditores se baseiam nessa informação. [CFKK05]

O nosso preditor, SPARC, pode ser considerado um preditor ab initio, assim como o preditor que escolhemos para realizarmos as comparações, o MiPred. Ambos utilizam informação termodinâmica (energia livre) de alguma forma.

3.1 MiPred

O MiPred é um preditor ab initio que utiliza a quantidade de energia livre, entre outras carac-terísticas, para identificar uma sequência que possua uma estrutura secundária parecida com a de um microRNA precursor. Além disso, introduz um novo modelo de aprendizagem computacional chamado de random forest (RF) para classificar estas sequências que têm uma estrutura secundária parecida com a de um microRNA precursor como sendo de um pre-miRNA verdadeiro ou não. [P+07]

Em uma comparação, feita em 2012, entre o MiPred, Virgo, Triplet-SVM e microPred, o MiPred se destacou como o preditor de maior acurária (75%) na classificação de pre-miRNAs. [L+12]

(13)

3.2 SPARC 8

3.2 SPARC

A ideia por trás deste preditor é, dado uma sequência que queremos classificar, representar todas as prováveis estruturas secundárias desta sequência como um grafo. Assim, o processo de predição consiste em encontrar pelo menos um subgrafo desse grafo que seja isomorfo a algum dos grafos de estruturas típicas já conhecidas.

U C C U G U G G U G U U U G G C A A U G G U A G A A C U C A C U C U G GU GG UG CU G G A A G G A U C C G G U G GU UC UA G A C UU GC CA AC A A CUG A CU U GA G 1 2 3 4 5 6 7 8 9 10 11 12 ₁ 2 3 4 5 6 7 8 9 10 11 12

Figura 3.1: Representação de uma estrutura secundária como grafo, onde as arestas em azul são arestas de ordem e arestas em preto são arestas de pareamento. As arestas de ordem de i a j para i < j - 1 foram ocultadas para simplificação da figura.

O SPARC utiliza primeiramente o RNAfold[HFS+94] para calcular a probabilidade de parea-mento de todas as bases, duas a duas, de uma molécula de RNA, gerando uma tabela de proba-bilidades. O algoritmo, então, procura nesta tabela subsequências que possuam um comprimento maior que o comprimento mínimo e de probabilidade maior que um certo limiar, ambos passados como parâmetros ao preditor. A partir dessas subsequências, é construído o grafo que representa todas as prováveis estruturas secundárias.

O grafo é construido da seguinte maneira: cada par de subsequências alinhadas é representado por um par de nós, ligados por uma aresta dirigida, que chamamos de aresta de pareamento e que vai da subsequência mais à direita até a subsequência mais à esquerda. Além disso, são inseridas arestas, chamadas arestas de ordem, para cada par de nós (i,j) tal que o nó i representa uma região mais à esquerda na sequência. Cada nó e aresta são rotulados com as posições inicial e final em que ocorrem na sequência.

Limiares de comprimento mínimo de cada hélice (subsequência que faz parte de um pareamento) e comprimento máximo de cada arco (distância entre subsequências de pareamento) são também passados como parâmetros (Figura 4.2).

(14)

3.2 SPARC 9

A predição então se faz procurando por subgrafos isomorfos aos grafos de estruturas conheci-das a priori. Caso o grafo de toconheci-das as prováveis estruturas da sequência de entrada possua pelo menos um subgrafo isomorfo, que respeite os limites de comprimento que são passados como parâ-metros, a algum dos grafos de estrutura conhecida, então o preditor classificará a sequência como de microRNA. Caso contrário, a classificará como não-microRNA.

O SPARC foi idealizado pela Prof. Dra. Ariane Machado e desenvolvido pelo ex-aluno de mes-trado do IME-USP, Vitor Onuchi, com a ajuda do Prof. Dr. Alan Durham.

(15)

Capítulo 4

Atividades realizadas

4.1 Otimização dos parâmetros

O SPARC inicialmente utilizava três padrões estruturais para tentar classificar as sequências como microRNA ou não-microRNA. Cada padrão utilizava os seguintes parâmetros para o limiar de probabilidade e tamanho de hélice mínima: (0,7), (0.25,5) e (0.05,6). Tais padrões foram encontrados através de observação humana de apenas algumas das sequências e os parâmetros haviam sido escolhidos sem muito critério.

Figura 4.1: Subestruturas típicas usadas inicialmente pelo preditor. Os números próximos às áreas alinhadas são os comprimentos mínimos de hélice enquanto os outros números são comprimentos máximos de arco.

No intuito de otimizar os parâmetros do preditor, testes foram realizados variando os limiares de probabilidade, os tamanhos mínimos de hélices, os comprimentos de hélices e de arcos específicos para cada subestrutura. Chamaremos o conjunto desses valores mais uma subestrutura de padrão. As sequências de microRNAs utilizadas nos experimentos foram obtidas da base de dados aberta do Rfam.[GJMM+05] Nesta base, as sequências são separadas em famílias, que são definidas pelo grau de similaridade de suas estruturas secundárias. Cada família possui um modelo de covariância, que é gerado a partir de sequências verificadas e bem anotadas. Selecionamos apenas estas sequências

(16)

4.1 OTIMIZAÇÃO DOS PARÂMETROS 11

para os experimentos.

Para que fosse possível a geração de medidas de especificidade, utilizamos dois conjuntos de sequências: o conjunto de sequências bem anotadas do Rfam que consideramos como microRNAs reais e um conjunto dessas mesmas sequências porém embaralhadas. Dessa forma, mantemos a frequência de ocorrência de cada uma das bases A, C, G e U, evitando um possível viés.

Testando diversas combinações de parâmetros para cada subestrutura, foi possível a geração de curvas ROC. Curvas ROC permitem a visualização das variações de sensibilidade e especificidade conforme variamos o valor de um dos parâmetros. No entanto, como havia dez parâmetros a serem otimizados e cada um deles gostaríamos de variar para uma quantidade razoável de valores, seria trabalhoso e ineficiente analisar cada uma das curvas.

Foi feita então uma tabela, onde cada coluna j representa um padrão (subestrutura + combinação de valores), cada linha i uma sequência e cada célula vale 1 caso o padrão j seja identificado na sequência i e 0 caso contrário. Adicionamos a essa tabela uma coluna indicando se a sequência se tratava de um microRNA real (1) ou não (0). Feito isso, utilizamos um programa chamado QUEST[LS97] para a contrução de uma árvore de decisão, que utilizaria um subconjunto das colunas tal que obtivesse uma boa medida de acurácia.

Sequência Padrão 1 Padrão 2 ... Padrão N microRNA real?

seqA 1 0 ... 0 1

seqB 1 1 ... 1 1

seqC 0 1 ... 0 0

: : : : : :

Tabela 4.1: Tabela utilizada na geração da árvore de decisão. Linhas representam sequências, colunas representam padrões e células indicam se o padrão foi identificado (1) ou não (0).

A árvore de decisão encontrada era bastante simples — fato importante para que o nosso modelo não fosse muito específico e pouco generalista —, sendo equivalente à disjunção das variáveis representadas pelas colunas escolhidas da tabela, por exemplo Cl∨ Ck∨ ...Cn. Ou seja, caso pelo

(17)

4.1 OTIMIZAÇÃO DOS PARÂMETROS 12 Encontrou padrão i? Sim, é microRNA Sim, é microRNA Não é microRNA Encontrou padrão j? Sim Não Sim Não

Figura 4.2: Exemplo de árvore de decisão equivalente a uma simples disjunção.

(18)

4.2 TREINAMENTO DO PREDITOR 13

4.2 Treinamento do preditor

Para encontrar as subestruturas típicas nos grafos das sequências, foi implementada uma solução para o problema em encontrar o subgrafo isomorfo comum máximo a dois grafos, através de uma redução para o problema do clique máximo como descrita por Koch[Koc01]. Algumas modificações sutis ao algoritmo foram necessárias para a introdução de restrições de compatibilidade que levassem em conta os comprimentos dos nós e das arestas e utilização de arestas direcionadas.

A redução para o problema do clique máximo é feita da seguinte forma: a partir dos grafos G1 =< V1, E1 > e G2 =< V2, E2 >, encontramos um outro grafo, que chamamos de grafo produto

de arestas. O grafo produto de arestas H entre G₁ e G₂ é o grafo onde cada nó representa um par de arestas (v, w), onde v ∈ E1 e w ∈ E2 e uma aresta entre nós (v1, w1) e (v2, w2) representa

isomorfismo entre o subgrafo de arestas v₁ e v₂ em G₁ e o subgrafo de arestas w₁ e w₂ em G₂, obedecendo algumas restrições.

Mais precisamente, há um nó v = (v₁, w1) em H se as arestas v1 e w1 são compatíveis, os nós

de origem dessas arestas são compatíveis e os nós de destino também são compatíveis. Além disso, há uma aresta entre os nós v = (v₁, w1) e w = (v2, w2) em H se todas as seguintes condições são

satisfeitas:

• v1 6= v2 e w16= w2;

• Se v1 e v2 não são arestas adjacentes em G1, então w1 e w2 não são adjacentes em G2;

• Se v₁ e v₂ são arestas adjacentes em G₁, então w₁ e w₂ são adjacentes em G₂ e ambos os pares de arestas em cada grafo têm o mesmo tipo de adjacência;

• Nenhuma das subsequências representadas pelos nós do subgrafo de arestas v1 e v2 se

sobre-põem;

• Nenhuma das subsequências representadas pelos nós do subgrafo de arestas w₁ e w₂ se sobre-põem.

(19)

Figura 4.5: Pares de grafos não direcionados e direcionados e seus respectivos grafos produto de arestas. Arestas ou nós de mesmo estilo/cor representando arestas ou nós compatíveis. Gráfico inspirado em um gráfico de [Wel11].

Construído o grafo produto de arestas, o algoritmo procura, então, por cliques neste grafo. Listando todos os cliques do de maior cardinalidade até o de menor cardinalidade, é verificado se o clique atual realmente representa subgrafos isomorfos dos grafos de entrada — pois há o caso Y-triângulo em que isso não acontece (Figura4.6) — e em caso afirmativo, encontramos o subgrafo isomorfo máximo.

Figura 4.6: Caso Y-triângulo, em que um clique (arestas em negrito) no grafo de produto de arestas não representa subgrafos isomorfos. Gráfico inspirado em um gráfico de [Koc01].

A listagem dos cliques do grafo produto de arestas foi feita como descrita no Algoritmo 1. Em suma, é utilizada uma fila de cliques que crescem de um nó a cada passo, se possível.

Foram testadas algumas formas de se obter subgrafos que representassem subestruturas típicas relevantes em um conjunto de mais de duas sequências. Entre elas, a escolhida foi a descrita no Algoritmo2. Esse algoritmo aplica iterativamente a solução para o problema do subgrafo isomorfo máximo, de forma a tentar encontrar mais de um subgrafo e que possuam, pelo menos, um certo

(20)

Algoritmo 1 Lista cliques de um grafo C qualquer.

1: _{função ImprimeCliques(C)}

2: E ← conjunto de arestas do grafo C

3: nE ← número de arestas em E

4: V ← conjunto de vértices do grafo C

5: nV ← número de vértices em V

6: para i ← 1 até n_E faça

7: enfileira([E[i].origem, E[i].alvo]) . Enfileira cliques de 2 vértices

8: fim para

9: enquanto fila não vazia faça

10: C ← desenfileira

11: para i ← maior índice de vértice em C +1 até nV faça

12: z ← V[i]

13: se z tem arestas para todos os vértices de C então . Tenta engordar o clique

14: C ← C + z 15: enfileira(C) 16: quebra para 17: fim se 18: fim para 19: imprime C 20: fim enquanto 21: fim função número de nós.

(21)

Algoritmo 2 Encontra subgrafos de subestruturas relevantes. O algoritmo recebe um conjunto de grafos C, um número máximo de subestruturas max e um número mínimo de nós dos subgrafos min.

1: _{função SubestruturasRelevantes(C, max, min)} 2: para i ← 1 até |C| faça

3: enfileira(Ci) . Enfileira todos os grafos de C

4: fim para

5: cont ← 0

6: enquanto tamanho da fila > 1 e cont < max faça

7: G1 ← desenfileira

8: G2 ← desenfileira

9: subgrafo ← subgrafoMaximo(G1, G2)

10: para i ← 1 até |C| faça . |C| é o número de grafos em C

11: se |subgrafoMaximo(subgrafo, C_i)| ≥ min então

12: . se o número de nós é maior que o mínimo

13: subgrafo ← subgrafoMaximo(subgrafo, Ci)

14: remove C_i da fila

15: fim se

16: fim para

17: se |subgrafo| ≥ min então

18: imprime(subgrafo) 19: senão 20: enfileira G₂ 21: enfileira G1 22: fim se 23: cont ← cont + 1 24: fim enquanto 25: fim função

(22)

Capítulo 5

Resultados

5.1 Comparação com MiPred

Comparamos nosso preditor com um dos melhores preditores de microRNAs segundo Hu [L+12], chamado miPred[P+07]. Para compará-los, foi escolhida uma amostra aleatória de 1300 sequências de microRNAs, entre aquelas mais bem anotadas do Rfam, para extrair a medida de sensibilidade e utilizamos o conjunto dessas mesmas sequências porém embaralhadas para extrair a medida de especificidade.

Tabela 5.1: Comparação entre os preditores.

Medida MiPred Nosso preditor Especificidade 88,076% 84,154%

Sensibilidade 80,615% 82,692%

Acurácia 84,346% 83,423%

5.2 Otimização dos parâmetros

Com os novos parâmetros, utilizamos apenas dois padrões em vez de três. O que, intuitivamente, faz com que o preditor fique menos específico e mais generalista. Apesar de perdermos cerca de 3% em especificidade, ganhamos 11% em sensibilidade, resultando em um aumento de quase 4% em acurácia.

(23)

Tabela 5.2: Antes e depois da otimização dos parâmetros.

Medida Antes Depois

Especificidade 87,538% 84,154% Sensibilidade 71,692% 82,692% Acurácia 79,615% 83,423%

Figura 5.1: Subestruturas típicas otimizadas.

5.3 Treinamento do preditor

Em um dos testes realizados, duas famílias A e B foram selecionadas. O treinamento foi realizado em 21 sequências da família A, encontrando 4 subestruturas recorrentes.

Executando o preditor em 106 sequências dessa mesma família A, o programa foi capaz de identificar 57 delas, ou seja, uma sensibilidade de aproximadamente 53,7%. Executando o preditor com as mesmas subestruturas anteriores, mas dessa vez, em 438 sequências da família B, apenas 12 foram identificadas, i.e. uma porcentagem de falso positivo de cerca de 2,7%.

Entretanto, houve uma alta variação dessas medidas nos testes realizados. Acredita-se que esta variação esteja relacionada com a variabilidade dos tamanhos médios das sequências de cada família, fazendo com que seja necessária uma nova configuração dos limiares para o critério de compatibili-dade entre nós e entre arestas, e também com a dependência, que o algoritmo de treinamento possui atualmente, da ordem e do tamanho das sequências no conjunto de treinamento.

(24)

Capítulo 6

Conclusões

Com a otimização dos parâmetros do preditor, conseguimos uma discreta melhora, mas suficiente para alcançarmos níveis de acurácia comparáveis a um dos melhores preditores de microRNA atuais. Apesar de o algoritmo de treinamento ter mostrado medidas altas de sensibilidade e especificidade em alguns casos, ainda precisa de melhorias para que não seja necessária a configuração de novos parâmetros para cada nova família.

6.1 Trabalhos futuros

Todos os testes foram realizados apenas em sequências de microRNA, sendo que o preditor poderia ser, pelo menos em tese, otimizado e utilizado em outros tipos de RNA não condificante. No entanto, para isso a etapa de treinamento necessitaria de otimizações no consumo de memória e/ou outros ajustes para suportar sequências maiores.

(25)

Referências Bibliográficas

[Bar04] DP Bartel. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell, 2004. [CFKK05] Peter Clote, Fabrizio Ferré, Evangelos Kranakis e Danny Krizanc. Structural RNA

has lower folding energy than random RNA of the same dinucleotide frequency. Rna, 11(5):578–591, 2005. 7

[Ens] Ensembl. Annotation of Non-Coding RNAs. http://www.ensembl.org/info/genome/ genebuild/ncrna.html. Último acesso em: 20 de novembro de 2013.

[GJGvD+06] Sam Griffiths-Jones, Russell J. Grocock, Stijn van Dongen, Alex Bateman e Anton J. Enright. miRBase: microRNA sequences, targets and gene nomenclature. Nucleic Acids Research, 34(suppl 1):D140–D144, 2006. 3

[GJMM+05] Sam Griffiths-Jones, Simon Moxon, Mhairi Marshall, Ajay Khanna, Sean R. Eddy e Alex Bateman. Rfam: annotating non-coding RNAs in complete genomes. Nucleic Acids Research, 33(suppl 1):D121–D124, 2005. 10

[HFS+94] Ivo L. Hofacker, Walter Fontana, Peter F. Stadler, L. Sebastian Bonhoeffer, Manfred Tacker e Peter Schuster. Fast Folding and Comparison of RNA Secondary Structures (The Vienna RNA Package) , 1994. 8

[hiv13] Regulation of host gene expression by HIV-1 TAR microRNAs. Retrovirology, 10(1):86, Janeiro 2013. 3

[HSP05] Alexander Hüttenhofer, Peter Schattner e Norbert Polacek. Non-coding RNAs: hope or hype?, Maio 2005.

[I+05] Marilena V. Iorio et al. MicroRNA Gene Expression Deregulation in Human Breast Cancer. AACR, 2005. 3

[Kim05] V Narry Kim. MicroRNA biogenesis: coordinated cropping and dicing. Nature reviews Molecular cell biology, 6(5):376–385, 2005. 3

[Koc01] Ina Koch. Enumerating all connected maximal common subgraphs in two graphs. Theoretical Computer Science, 250(1):1–30, 2001. 13,14

[L+12] Hu LL et al. Benchmark comparison of ab initio microRNA identification methods and software. GMR, 2012. 7,17

[LS97] Wei-Yin Loh e Yu-Shan Shih. Split selection methods for classification trees. Statistica Sinica, 7:815–840, 1997. 11

[LSLL12] Trevor R Leonardo, Heather L Schultheisz, Jeanne F Loring e Louise C Laurent. The functions of microRNAs in pluripotency and reprogramming. Nat Cell Biol, 14(11):1114–1121, Novembro 2012. 3

[MLdPD09] A Machado-Lima, HA del Portillo e AM Durham. Computational methods in non-coding RNA research. J Math Biol, 56(1-2):15–49, 2009. 7

(26)

REFERÊNCIAS BIBLIOGRÁFICAS 21

[MM06] John S. Mattick e Igor V. Makunin. Non-coding RNA. Human Molecular Genetics, 15(suppl 1):R17–R29, 2006.

[MTH+06] Ulrike Mückstein, Hakim Tafer, Jörg Hackermüller, Stephan H. Bernhart, Peter F. Stadler e Ivo L. Hofacker. Thermodynamics of RNA-RNA binding. Bioinformatics, 22(10):1177–1182, 2006.

[NSC12] SP Nana-Sinkam e CM Croce. Clinical applications for micrornas in cancer. Clinical Pharmacology & Therapeutics, 2012. 3

[P+07] Jiang P et al. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined features. Nucleic Acids Res, 2007. 7,

17

[PCFSV04] Luigi P. Cordella, Pasquale Foggia, Carlo Sansone e Mario Vento. A (sub)graph isomorphism algorithm for matching large graphs. IEEE Trans. Pattern Anal. Mach. Intell., 26(10):1367–1372, Outubro 2004.

[TGOVO12] Neil H. Tan Gana, Tomohiro Onuki, Ann Florence B. Victoriano e Takashi Okamoto. Micrornas in hiv-1 infection: An integration of viral and cellular interaction at the genomic level. Frontiers in Microbiology, 3(306), 2012. 3

[WCJ+11] Y Wang, X Chen, W Jiang, L Li, W Li e L Yang. Predicting human microRNA precursors based on an optimized feature subset generated by GA-SVM. Genomics, 2011.

[Wel11] Ruud Welling. A performance analysis on maximal common subgraph algorithms. Em 15th Twente Student Conference on IT, Enschede, The Netherlands. University of Twente, 2011. 14

(27)

Parte II

Parte Subjetiva

(28)

Dificuldades e frustrações

Tive uma grande dificuldade inicial por o meu trabalho se tratar de uma continuação de um projeto grande realizado há alguns anos pelo Vitor Onuchi, que atualmente mora fora do país fazendo doutorado, o que limitou bastante nossa comunicação. Além disso, houve um agravante durante o primeiro semestre, que foi a sobrecarga que sofri fazendo estágio de 30 horas semanais e ao mesmo tempo cursando outras disciplinas no IME.

Curiosamente, esse projeto era chamado pelo meu orientador de "o projeto amaldiçoado" devido às recorrentes tentativas de alunos de iniciação e mestrado que acabavam desistindo. Isso foi uma das razões pelas quais escolhi esse projeto — parecia desafiador. Mas, posteriormente, isso veio a me assombrar.

Senti-me frustrado diversas vezes durante o desenvolvimento do trabalho. Sentia que precisava dedicar mais tempo a esse trabalho, mas ao mesmo tempo queria continuar fazendo estágio e tendo uma vida social. Tive que abdicar da última por alguns meses.

Senti-me desmotivado e sozinho algumas vezes. A comunicação com o Vitor era feita através de e-mails que, às vezes, demoravam para serem respondidos. Poderia falar com meu orientador durante as reuniões semanais de segunda-feira, mas com muitos detalhes de implementação só o Vitor poderia me ajudar. Além disso, por Bioinformática não ser uma área muito popular entre meus amigos mais próximos com os quais eu poderia discutir o trabalho, a sensação de estar sozinho era ainda maior.

Mesmo com todos esses problemas, acredito que a realização deste trabalho foi uma experiência bastante interessante. Aprendi vários truques legais de LaTeX para a confecção desta monografia, apresentação e pôster. Além disso, utilizei na prática diversos conceitos aprendidos durante o curso, durante meu intercâmbio, durante minha iniciação científica.

(29)

Disciplinas relevantes para o trabalho

• Disciplina de Algoritmo em grafos

Fui introduzido aos grafos cursando esta disciplina. Utilizei diversos conceitos ensinados nesta matéria. A saber: definição de grafo, grafo direcionado, subgrafo, grafo conexo, entre outros. • Disciplina de Biologia Computacional

Esta matéria me introduziu a vários dos conceitos utilizados neste trabalho. Durante o curso, entrei em contato e implementei algoritmos de programação dinâmica bem similares aos uti-lizados pelo programa RNAfold para encontrar prováveis estruturas secundárias de uma mo-lécula de RNA. Além disso, reutilizei e adaptei um exercício-programa desta disciplina para encontrar cliques máximos.

• Disciplina de Data Mining

Cursada na City University London durante intercâmbio, essa matéria me introduziu às téc-nicas de construção de árvores de decisão, que utilizei neste trabalho para a otimização dos parâmetros do preditor.

.1

Observações e conselhos

Além das disciplinas, o que me ajudou bastante foi ter feito iniciação científica, onde aprendi sobre técnicas de validação de preditores (medidas de sensibilidade, especificidade, curvas ROC, validação cruzada, etc.).

Meus conselhos para os alunos que gostariam de atuar na área de bioinformática são: • Conheça a área e tenha certeza de que é o que você gosta

Uma ótima forma de conhecer a área é começar uma iniciação científica. Diga para seu pro-fessor que você gostaria de conhecer a área e a estude por alguns meses. Se for realmente o que gosta, peça uma bolsa de iniciação e siga em frente.

• Curse alguma disciplina de Biologia e/ou Bioinformática

Cursos como o de Biologia Computacional oferecido no IME vão te dar conhecimento sobre os algoritmos mais usados na área. Mas imagino que cursos de Biologia mesmo sejam bons para motivar, uma vez que você poderá entender para que servem os algoritmos de fato. • Pesquise bastante

(30)

OBSERVAÇÕES E CONSELHOS 25

Pesquise no seu buscador preferido, leia artigos no Wikipedia, se aprofunde lendo os artigos originais. Procure pelos artigos de review. Estes te darão uma visão mais geral e resumida sobre um determinado assunto.

• Faça amigos na área

Pessoas que gostem da área e que tenham interesses parecidos com os seus te ajudarão a encontrar motivação para continuar pesquisando nessa área.