• Nenhum resultado encontrado

Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs

N/A
N/A
Protected

Academic year: 2021

Share "Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs"

Copied!
86
0
0

Texto

(1)

C ˆAMPUS CORN´ELIO PROC ´OPIO

DIRETORIA DE PESQUISA E P ´OS - GRADUAC¸ ˜AO PROGRAMA DE P ´OS - GRADUAC¸ ˜AO EM BIOINFORM ´ATICA

ISAQUE KATAHIRA

Reconhecimento de padr˜oes utilizando m´etricas de redes complexas para a extra¸c˜ao de caracter´ısticas, representa¸c˜ao e classifica¸c˜ao de sequˆencias de

RNAs

CORN´ELIO PROC ´OPIO - PR 2018

(2)

Reconhecimento de padr˜oes utilizando m´etricas de redes complexas para a extra¸c˜ao de caracter´ısticas, representa¸c˜ao e classifica¸c˜ao de sequˆencias de

RNAs

Disserta¸c˜ao apresentada como requisito `a ob-ten¸c˜ao do grau de Mestre em Bioinform´atica pela Universidade Tecnol´ogica Federal do Paran´a – Cˆampus Corn´elio Proc´opio.

´

Area de concentra¸c˜ao: Bioinform´atica

Orientador: Prof. Dr. Fabr´ıcio Martins Lopes Coorientador: Prof. Dr. Luiz Filipe Protasio Pereira

CORN´ELIO PROC ´OPIO - PR 2018

(3)

K19 Katahira, Isaque

Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs / Isaque Katahira. – 2018.

Orientador: Fabrício Martins Lopes. Coorientador: Luiz Filipe Protasio Pereira.

1. Classificação. 2. Redes complexas.3. RNA.4. Bioinformática – Dissertações. I. Lopes, Fabrício Martins, orient. II. Pereira, Luiz Filipe Protasio, coorient. III. Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Bioinformática. IV. Título.

CDD (22. ed.) 572.80285

Biblioteca da UTFPR - Câmpus Cornélio Procópio

Bibliotecários/Documentalistas responsáveis: Simone Fidêncio de Oliveira Guerra – CRB-9/1276

Romeu Righetti de Araujo – CRB-9/1676

Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Bioinformática. Cornélio Procópio, 2018.

85 f. : il. color. ; 31 cm.

(4)

Câmpus Cornélio Procópio

Programa de Pós-Graduação em Bioinformática

Título da Dissertação Nº 06:

RECONHECIMENTO DE PADRÕES UTILIZANDO

MÉTRICAS DE REDES COMPLEXAS PARA A EXTRAÇÃO

DE

CARACTERÍSTICAS,

REPRESENTAÇÃO

E

CLASSIFICAÇÃO DE SEQUÊNCIAS DE RNAs”.

por

Isaque Katahira

Orientador: Prof. Dr. Fabrício Martins Lopes

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM BIOINFORMÁTICA – Linha de Pesquisa: Biologia Computacional e Sistêmica, pelo Programa de Pós-Graduação em Bioinformática – PPGBIOINFO – da Universidade Tecnológica Federal do Paraná – UTFPR –

Câmpus Cornélio Procópio, às 09h 00min do dia 16 de março de 2018. O trabalho

foi __________ pela Banca Examinadora, composta pelos professores:

__________________________________ Prof. Dr. Fabrício Martins Lopes

(Presidente)

__________________________________

Prof. Dr. André Yoshiaki Kashiwabara (UTFPR-CP)

_________________________________

Prof. Dr. Ronaldo Fumio Hashimoto

(USP-SP)

Visto da coordenação: __________________________________

André Yoshiaki Kashiwabara

Coordenador do Programa de Pós-Graduação em Bioinformática UTFPR Câmpus Cornélio Procópio

A Folha de Aprovação assinada encontra-se na Coordenação do Programa.

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.

(5)

Em primeiro lugar, agrade¸co a Deus por ter me dado inspira¸c˜ao, sa´ude e persistˆencia para desenvolver este trabalho. Ao diretor da Escola T´ecnica Estadual Prof. M´ario Antˆonio Verza, Prof. Randal do Vale Ortiz e demais amigos da unidade escolar, pelo incentivo, companheirismo e compreens˜ao para que eu pudesse frequentar as aulas do mestrado.

`

A minha m˜ae, Dona Maria Augusta dos Santos, por ter acreditado em meu sonho e estado comigo em todos os momentos dessa caminhada, sempre confiando que eu alcan¸caria o sucesso.

`

As minhas professoras da gradua¸c˜ao Dra. Lia Cupertino Duarte Albino, Dra. Elaine Pasqualine e ao professor Me. S´ergio Roberto Delfino por terem me inspirado na carreira docente. A minha ex-orientadora e amiga, Me. Ivone Matiko Ivassaki de Deus, que me acompanhou nas apresenta¸c˜oes nos primeiros congressos cient´ıficos, despertando em mim o gosto pela pesquisa cient´ıfica j´a na gradua¸c˜ao.

Ao Prof. Dr. Fabr´ıcio Martins Lopes, por ter confiado em minha capacidade e me aceitado como seu orientando de mestrado. Fazer parte do grupo de pesquisa “Reconheci-mento de Padr˜oes em sequˆencias genˆomicas” enriqueceu minha forma¸c˜ao profissional e suas orienta¸c˜oes foram fundamentais para o desenvolvimento e conclus˜ao deste trabalho. Ao Prof. Dr. Luiz Filipe Protasio Pereira, por ter aceitado o convite em coori-entar este trabalho e ter participado efetivamente do seu desenvolvimento, realizando contribui¸c˜oes significativas, especialmente durante a qualifica¸c˜ao.

Ao Prof. Dr. Andr´e Yoshiaki Kashiwabara pelas valiosas contribui¸c˜oes oferecidas durante a banca de qualifica¸c˜ao deste trabalho.

Ao Prof. Dr. Fabio Fernandes da Rocha Vicente, que contribuiu com indica¸c˜oes bibliogr´aficas, especialmente, para as descri¸c˜oes das ferramentas comparativas.

Ao amigo e membro do grupo de pesquisa Eric Augusto Ito que contribuiu para o desenvolvimento dos scripts da ferramenta BASiNET, etapa fundamental para atingirmos os objetivos da disserta¸c˜ao.

Aos professores Dr. Alexandre Rossi Paschoal, Dr. Andr´e Yoshiaki Kashiwabara, Dr. Douglas Silva Domingues, Dr. Fabr´ıcio Martins Lopes, Dra. Francismar Corrˆea Marcelino-Guimaraes, Dra. K´atia Romero Felizardo Scannavino, Dr. Laurival Antonio Vilas-Boas e Dr. Pedro Henrique Bugatti pelas aulas sempre precisas e esclarecedoras durante o per´ıodo de mestrado.

(6)

participa¸c˜ao como representante discente e na colabora¸c˜ao da organiza¸c˜ao dos Workshops de Bioinform´atica dos anos de 2016 e 2017, na UTFPR - Cˆampus Corn´elio Proc´opio. De forma especial, agrade¸co ao secret´ario Jos´e Eduardo de Lima Sim˜ao por ter me ajudado em todas as quest˜oes burocr´aticas no PPGBIOINFO.

Aos amigos de curso Bruno, Douglas, Fabio, Guilherme, Marcelo, Nayara, Ricardo, Samara e Vanesca pelo apoio e pela acolhida durante as aulas.

(7)

aprendendo”. (Marcos Rey)

(8)

KATAHIRA, Isaque. “Reconhecimento de padr˜oes utilizando m´etricas de redes complexas para a extra¸c˜ao de caracter´ısticas, representa¸c˜ao e classifica¸c˜ao de sequˆencias de RNAs” 2018. 85 f. Disserta¸c˜ao (Mestrado em Bioinform´atica) – Univer-sidade Tecnol´ogica Federal do Paran´a, Corn´elio Proc´opio, 2018.

A partir do surgimento dos Sequenciadores de Nova Gera¸c˜ao (NGS), um grande volume de dados de DNAs e RNAs passaram a ser sequenciados rapidamente a custos relati-vamente menores. Os NGS tˆem a capacidade de produ¸c˜ao de milhares de sequˆencias simultaneamente, produzindo um volume massivo de dados a serem analisados. Nesse sentido, as ferramentas computacionais se tornam essenciais n˜ao s´o para a extra¸c˜ao, mas tamb´em para a sele¸c˜ao e an´alise desses dados. Esta pesquisa apresenta um modelo capaz de extrair caracter´ısticas para a classifica¸c˜ao de RNAs codificantes e n˜ao-codificantes. A ferramenta BiologicAl Sequences NETwork (BASiNET), dispon´ıvel em: <https://cran.r-project.org/package=BASiNET>, implementa o m´etodo desenvolvido, o qual mapeia sequˆencias de RNAs por meio de redes complexas, pois estas s˜ao eficientes para representar sistemas reais, nos quais est˜ao inseridos os sistemas biol´ogicos. A fim de representar as sequˆencias selecionadas, a configura¸c˜ao da rede complexa ´e feita a partir dos parˆametros do tamanho do passo (conex˜oes entre os nucleot´ıdeos) e do tamanho da palavra (quantidade de nucleot´ıdeos por v´ertice); na sequˆencia, as arestas menos densas s˜ao removidas para a gera¸c˜ao de sub-redes que s˜ao resultantes da elimina¸c˜ao crescente de 1 at´e n arestas da rede. Posteriormente, cada sub-rede ´e submetida `as m´etricas de: proximidade, grau, grau m´aximo, grau m´ınimo, intermedia¸c˜ao, coeficiente de clustering, caminho m´ınimo m´edio, desvio padr˜ao e motifs. A extra¸c˜ao de m´etricas de cada uma dessas sub-redes comp˜oe o vetor de caracter´ısticas, os valores desse vetor s˜ao inseridos no algoritmo de classifica¸c˜ao supervisionada que, por meio da detec¸c˜ao de padr˜oes, realiza a distin¸c˜ao das sequˆencias com valida¸c˜ao cruzada de 10-fold. A ferramenta BASiNET ´e aplicada de forma experimental a dois conjuntos de dados. Os resultados obtidos foram comparados com outras ferramentas: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) e Coding Potential Calculator (CPC2). A compara¸c˜ao evidencia a viabilidade da ferramenta BASiNET, uma vez que esta apresentou resultados m´edios superiores de acur´acia na identifica¸c˜ao de RNAs codificantes e RNAs n˜ao-codificantes, nos dois conjuntos de dados experimentais. Os ´ındices m´edios obtidos entre os dois experimentos foram superiores na identifica¸c˜ao de RNAs codificantes em 8,6% com rela¸c˜ao `a CNCI; 11,4% com rela¸c˜ao `a PLEK e 4,4% com rela¸c˜ao `a CPC2. A prop´osito da identifica¸c˜ao dos RNAs n˜ao-codificantes, a m´edia geral obtida foi superior em 2,2%, 2,6%, 1,5% com rela¸c˜ao `a CNCI, PLEK e CPC2, respectivamente. A melhoria dos ´ındices de acur´acia refor¸ca a estabilidade e a homogeneidade do m´etodo. Por fim, conv´em destacar que o m´etodo implementado pela BASiNET usa ferramentas de c´odigo aberto e pode ser executado em um computador com configura¸c˜oes b´asicas, sendo extens´ıvel `a classifica¸c˜ao de outras sequˆencias como as de DNAs e amino´acidos.

Palavras-chaves: Bioinform´atica. Classifica¸c˜ao supervisionada. Redes complexas. Extra¸c˜ao de caracter´ısticas. RNAs. Reconhecimento de padr˜oes.

(9)

Pattern recognition using complex network metrics for feature extraction, representation and classification of sequences of RNAs

KATAHIRA, Isaque. Pattern recognition using complex network metrics for fea-ture extraction, representation and classification of sequences of RNAs. 2018. 85 p. Dissertation (Master in Bioinformatics) – Federal Technological University of Paran´a. Corn´elio Proc´opio, 2018.

Due to the emergence of Next Generation Sequencers (NGS), a large volume of DNAs and RNAs has been sequenced quickly at relatively lower costs. NGS has a output capacity of several thousands of sequences simultaneously, producing a massive volume of data to be analyzed. In this sense, computational tools become essential not only for an extraction, but also for the data selection and analysis. This research presents a model capable of extracting features for classification of coding and non-coding RNAs. The BiologicAl Sequences NET-work (BASiNET) is available at url https : //cran.r − project.org/package = BASiN ET , implements the developed method, which convert RNAs sequences through complex net-works, since these are efficient to represent real systems, as is the case with biological systems. In order to represent the selected sequences, the configuration of the complex network is from the step size parameter, that represents the connections between the nucleotides, and also the word size parameter, that represents the quantity of nucleotides by vertex; afterwards the least dense edges are removed for subnetwork generation resulting from the increasing elimination of 1 to n edges from the network. Subsequently, each subnetwork is submitted to the measures of: proximity, degree, maximum degree, minimum degree, intermediation, clustering coefficient, mean minimum path, standard deviation and motifs. The extraction of measures from each of these subnetworks makes up the feature vector, the vector values are inserted in the supervised classification algorithm that, through the detection of patterns, performs the distinction of sequences with 10-fold cross validation. The BASiNET tool is applied to two data sets. The obtained results were compared with other tools: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) and Coding Potential Calculator (CPC2). The comparison of the BASiNET performance indicates, since it higher average accuracy results in the identification of coding RNAs and non-coding RNAs in the two experimental data sets. The average indices obtained from the two experiments were higher in the identification of coding RNAs by 8,6 % with respect to the CNCI; 11,4 % with respect to PLEK and 4,4 % with respect to CPC2. Regarding the identification of the non-coding RNAs, the overall average obtained was 2,2 %, 2,6 %, 1,5 % higher with respect to CNCI, PLEK and CPC2, respectively. The improvement of the accuracy indices reinforces the stability and the homogeneity of the method. Finally, it should be noted that the method implemented by BASiNET uses open source tools and can be executed on a computer with basic configurations, being extended to the classification of other sequences such as DNAs and amino acids.

Keywords: Bioinformatics. Supervised classification. Complex networks. Feature extraction. RNAs. Pattern recognition.

(10)

Figura 1 – Etapas da pesquisa . . . 20

Figura 2 – RNA Polimerase no processo de transcri¸c˜ao. . . 25

Figura 3 – Estrutura de um RNA. . . 25

Figura 4 – C´odigo gen´etico. . . 27

Figura 5 – Organiza¸c˜ao das estruturas da prote´ına. . . 28

Figura 6 – Grafo direcionado e sua matriz de adjacˆencias. . . 31

Figura 7 – Grafo n˜ao-direcionado e sua matriz de adjacˆencias. . . 32

Figura 8 – Grafo ponderado e sua matriz de pesos. . . 32

Figura 9 – Dinˆamica em uma rede complexa. . . 33

Figura 10 – Rede aleat´oria, a) distribui¸c˜ao dos v´ertices e b) representa¸c˜ao m´edia dos graus. . . 34

Figura 11 – Rede de mundo pequeno. . . 35

Figura 12 – Conex˜oes dos v´ertices, a) rede aleat´oria e b) rede livre de escala. . . 36

Figura 13 – Exemplos de redes com motifs, a) motif em uma rede real e b) motif em uma rede aleat´oria. . . 39

Figura 14 – Motifs em redes biol´ogicas. . . 39

Figura 15 – ´Arvore de decis˜ao bin´aria em que a) cont´em a estrutura raiz, descen-dente e folha, e b) representa a estrutura de decis˜ao com base nas caracter´ısticas de m1, m2 e m3, por exemplo, se o valor de m1 > 5 e m2 <= 7, portanto, essa instˆancia ´e predita como classe B. . . 42

Figura 16 – Valida¸c˜ao Cruzada . . . 45

Figura 17 – Distribui¸c˜ao dos tamanhos das sequˆencias de RNAs no primeiro conjunto de dados. . . 51

Figura 18 – Distribui¸c˜ao dos tamanhos das sequˆencias de RNAs no segundo conjunto de dados. . . 53

Figura 19 – M´etodo utilizado para identifica¸c˜ao de padr˜oes. . . 56

Figura 20 – Grafo de uma sequˆencia com tamanho de palavra 3 e tamanho de passo 1. 57 Figura 21 – Remo¸c˜ao das arestas menos densas, a) threshold = 0, b) threshold = 1 e c) threshold = 2. . . 58

(11)

dados. . . 63 Figura 23 – ´Arvore de decis˜ao do J48 para a esp´ecie Danio rerio no primeiro conjunto

de dados. . . 64 Figura 24 – Histograma da frequˆencia das m´etricas utilizadas pelas ´arvores de decis˜ao

para classifica¸c˜ao no primeiro conjunto de dados. . . 65 Figura 25 – M´edia geral de acur´acia de mRNAs, long RNAs e small RNAs no

segundo conjunto de dados. . . 68 Figura 26 – ´Arvore de decis˜ao do J48 para a esp´ecie Caenorhabditis elegans no

segundo conjunto de dados. . . 68 Figura 27 – Histograma da frequˆencia das m´etricas utilizadas pelas ´arvores de decis˜ao

para classifica¸c˜ao no segundo conjunto de dados. . . 69 Figura 28 – Distin¸c˜ao de redes pela remo¸c˜ao de v´ertices com alta intera¸c˜ao, sendo

a) um grafo e b) o mesmo grafo com a remo¸c˜ao de um v´ertice, fato que altera a topologia da rede. . . 70 Figura 29 – Rela¸c˜ao entre o caminho m´ınimo e a intermedia¸c˜ao, sendo que em a) o

caminho m´ınimo ´e de 2 saltos e em b) o caminho m´ınimo ´e de 4 saltos devido `a remo¸c˜ao de um v´ertice com alta intera¸c˜ao. . . 71

(12)

Tabela 1 – Reposit´orios de dados biol´ogicos. . . 29 Tabela 2 – Alfabetos que representam as sequˆencias biol´ogicas. . . 30 Tabela 3 – Matriz de confus˜ao. . . 43 Tabela 4 – Primeiro conjunto de dados completo utilizado pela ferramenta PLEK 50 Tabela 5 – Segundo conjunto de dados completo utilizado pela ferramenta CPC2 . 52 Tabela 6 – Comparativo de acur´acia m´edia da BASiNET com as ferramentas de

predi¸c˜ao CNCI, PLEK e CPC2, no primeiro conjunto de dados . . . . 62 Tabela 7 – Identifica¸c˜ao dos thresholds de recorrˆencia das m´etricas caminho m´ınimo

m´edio (ASPL) e intermedia¸c˜ao (BET) aplicadas ao primeiro conjunto de dados . . . 66 Tabela 8 – Comparativo de acur´acia m´edia da BASiNET com as ferramentas de

predi¸c˜ao CNCI, PLEK e CPC2, no segundo conjunto de dados . . . 67 Tabela 9 – Identifica¸c˜ao dos thresholds de recorrˆencia das m´etricas caminho m´ınimo

m´edio (ASPL) e intermedia¸c˜ao (BET) aplicadas ao segundo conjunto de dados . . . 70 Tabela 10 – BASiNET aplicada ao primeiro conjunto de dados com as medidas

de avalia¸c˜ao: verdadeiros positivos (TP), verdadeiros negativos (TN), precis˜ao e F-measure, com o classificador Random Forest (RF) . . . . 75 Tabela 11 – BASiNET aplicada ao primeiro conjunto de dados com as medidas

de avalia¸c˜ao: verdadeiros positivos (TP), verdadeiros negativos (TN), precis˜ao e F-measure, com o classificador J48 . . . 75 Tabela 12 – BASiNET aplicada ao segundo conjunto de dados com as medidas

de avalia¸c˜ao: verdadeiros positivos (TP), verdadeiros negativos (TN), precis˜ao e F-measure, com o classificador J48. . . 76 Tabela 13 – BASiNET aplicada ao segundo conjunto de dados com as medidas

de avalia¸c˜ao: verdadeiros positivos (TP), verdadeiros negativos (TN), precis˜ao e F-measure, com o classificador Random Forest (RF) . . . . 76

(13)

A Adenina

AUC Area Embaixo da Curva (Area Under the Curve)´

C Citosina

CN Redes Complexas (Complex Networks)

COG Conjunto de Grupos Ort´ologos (Cluster of Orthologous Groups) CVC Clorose Variegada dos Citrus

DDBJ Banco de DNA do Jap˜ao (DNA Data Bank of Japan) DNA Acido Desoxirribonucleico (Deoxyribonucleic Acid)´

EMBL Laborat´orio Europeu de Biologia Molecular (European Molecular Bio-logy Laboratory)

FN Falso Negativo

FPR Taxa de Falsos Positivos (False Positive Rate)

KEGG Enciclop´edia Kyoto de Genes e Genomas (Kyoto Encyclopedia of Genes and Genomes)

G Guanina

GO Gene Ontology

INSDC Colabora¸c˜ao Internacional de Banco de Dados de Sequˆencias de Nu-cleot´ıdeos (International Nucleotide Sequence Database Collaboration) lncRNAs RNAs longos n˜ao-codificantes (long non-coding) RNAs

Mb Megabases

mRNA RNA mensageiro

NCBI Centro Internacional para Informa¸c˜ao Biotecnol´ogica (National Center for Biotechnology Information)

(14)

NIH Instituto Nacional de Sa´ude (National Institutes of Health) NGS Sequenciamento de Nova Gera¸c˜ao (Next Generation Sequencing) ORF Quadro Aberto de Leitura (Open Reading Frame)

Pb Pares de base

PDB Banco de Dados de Prote´ınas (Protein Data Bank) sncRNAs RNAs n˜ao-codificantes curtos (small non-coding) RNAs

RefSeq Base de dados de Sequˆencias de Referˆencia (Reference Sequence Data-base)

RNA Acido Ribonucleico (Ribonucleic Acid)´

ROC Caracter´ıstica de Opera¸c˜ao do Receptor (Receiver Operating Characte-ristic)

T Timina

TN Verdadeiro Negativo TP Verdadeiro Positivo

TPR Taxa de Verdadeiros Positivos (True Positive Rate) tRNA RNA transportador

U Uracila

(15)

G Caracteriza um grafo ou uma rede

V Representa um conjunto de v´ertices de uma rede E Conjunto de pares n˜ao ordenados “arestas” vi Conjuntos das adjacˆencias do v´ertice i

Si For¸ca do v´ertice i

(16)

1 Introdu¸c˜ao . . . 17

1.1 Motiva¸c˜ao . . . 17

1.2 Objetivos . . . 20

1.3 Contribui¸c˜oes . . . 21

1.4 Organiza¸c˜ao do trabalho . . . 21

2 Revis˜ao bibliogr´afica . . . 22

2.1 Sequˆencias biol´ogicas . . . 23

2.1.1 DNA . . . 23

2.1.2 RNA . . . 24

2.1.3 Prote´ına . . . 26

2.1.4 Reposit´orios de sequˆencias biol´ogicas . . . 28

2.2 Modelos de redes complexas . . . 30

2.2.1 Redes aleat´orias . . . 34

2.2.2 Redes de mundo pequeno . . . 35

2.2.3 Redes livres de escala . . . 35

2.2.4 M´etricas de redes complexas . . . 36

2.2.5 Reconhecimento de padr˜oes e classifica¸c˜ao . . . 40

2.2.6 Algoritmo de classifica¸c˜ao de ´arvore de decis˜ao . . . 41

2.2.7 Medidas de avalia¸c˜ao do classificador . . . 43

2.2.8 Valida¸c˜ao Cruzada . . . 45

2.3 Metodologias propostas para classifica¸c˜ao de RNAs codificantes e RNAs n˜ao-codificantes de prote´ınas . . . 45

2.3.1 Coding Potential Calculator (CPC e CPC2) . . . 46

2.3.2 Coding-Non-Coding Index (CNCI) . . . 47

2.3.3 Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK) . . . 48

3 Recursos necess´arios e proposta para classifica¸c˜ao de RNAs . 49 3.1 Materiais . . . 50

(17)

3.1.3 Software WEKA . . . 54

3.2 M´etodo proposto . . . 55

3.2.1 Mapeamento de sequˆencias de RNAs . . . 56

3.2.2 Extra¸c˜ao de caracter´ısticas para a identifica¸c˜ao de RNAs . . . 58

3.2.3 Classifica¸c˜ao de sequˆencias em RNAs codificantes ou RNAs n˜ ao-codificantes . . . 59

3.2.4 Algoritmo de extra¸c˜ao de caracter´ısticas: BASiNET . . . 59

4 Resultados da classifica¸c˜ao e discuss˜ao comparativa . . . 61

4.1 Classifica¸c˜ao de mRNAs e ncRNAs - comparativo da BASiNET com as ferramentas PLEK, CNCI e CPC2 . . . 61

4.2 Classifica¸c˜ao de mRNAs, lncRNAs e sncRNAs - comparativo da BA-SiNET com as ferramentas PLEK, CNCI e CPC2 . . . 66

5 Conclus˜oes . . . 72

Apˆendice A . . . 75

Apˆendice B . . . 76

encias . . . 77 Referˆ

(18)

1 Introdu¸c˜ao 1.1 Motiva¸c˜ao

As demandas de processamento computacional cada vez mais sofisticadas, a exigˆencia de tempos de resposta cada vez menores e o crescente volume de dados tˆem desa-fiado pesquisadores de diversas ´areas do conhecimento. As an´alises de sequˆencias biol´ogicas tˆem conquistado uma importˆancia cada vez maior devido `a extensa quantidade de dados sequenciados. Para tratar desse fenˆomeno, a literatura comumente utiliza o termo “Big Data”, um termo bastante amplo que se refere a tecnologias de gera¸c˜ao, armazenamento, transmiss˜ao e processamento de uma grande e complexa quantidade de dados estruturados e n˜ao-estruturados produzidos por aplica¸c˜oes de alto desempenho, de forma a torn´a-los significativos em diversos contextos de an´alise (BARAB ´ASI, 2009; CLINE et al., 2007; CUZZOCREA; SONG; DAVIS, 2011; FONSECA et al., 2016; GOODWIN; MCPHERSON; MCCOMBIE, 2016; LETOUZ´E, 2011; SCHOEBERL et al., 2017).

O crescente fluxo de dados na ordem de centenas de petabytes traz novos e grandes desafios no que tange a estrat´egias computacionais capazes de realizar o processamento anal´ıtico dos dados (data about the data) em diversas redes, como transportes, sociais, comunica¸c˜oes e biol´ogicas, entre outras. Nas mais variadas ´areas as quais se aplicam, algoritmos buscam detectar padr˜oes, tendˆencias e correla¸c˜oes que, somados a t´ecnicas avan¸cadas de visualiza¸c˜ao, constituem ferramentas importantes para atribui¸c˜ao de sentidos ao massivo volume de dados dispon´ıvel (ALBERT, 2005; BARAB ´ASI et al., 2002; CAMILO; SILVA, 2009; ITZKOVITZ et al., 2003; PANG-NING; STEINBACH; KUMAR, 2014).

Na biologia molecular, as aplica¸c˜oes de Big Data est˜ao relacionadas, sobretudo, aos estudos das “ ˆOmicas”, investiga¸c˜ao das mol´eculas que comp˜oem as c´elulas, os tecidos e os organismos, destinando-se principalmente ao estudo de genes (genˆomica), RNAs (trans-criptˆomica), prote´ınas (proteˆomica) e metab´olitos (metabolˆomica). Algumas aplica¸c˜oes destac´aveis est˜ao relacionadas ao uso de biomarcadores voltados `a identifica¸c˜ao de genes que causam doen¸cas na gravidez, como, a pr´e-eclˆampsia ou o nascimento prematuro (HORGAN; KENNY, 2011), `as intera¸c˜oes entre prote´ınas (SAID et al., 2004) e `a

identi-fica¸c˜ao de lncRNAs relacionados a doen¸cas graves como o cˆancer (GUTTMAN; RINN, 2012). O conjunto de todos esses estudos tamb´em ´e conhecido como biologia de alta

(19)

dimensionalidade e todas essas t´ecnicas comp˜oem a chamada biologia sistˆemica (IDEKER; GALITSKI; HOOD, 2001; PIRES, 2014; WESTERHOFF; PALSSON, 2004).

A biologia sistˆemica inclui a visualiza¸c˜ao de redes associativas a fim de analisar e decifrar a complexidade dos sistemas biol´ogicos, por meio da observa¸c˜ao das conex˜oes existentes entre os elementos (WANG; CHANG, 2011). Com uma vis˜ao essencialmente interdisciplinar, ela supera o reducionismo por considerar que o todo ´e maior que a soma das partes e que as redes estabelecidas s˜ao fundamentais para a compreens˜ao de como os sistemas mudam ao longo do tempo, ou seja, em um organismo nenhum sistema funciona so-zinho, todos os sistemas se articulam entre si e tal articula¸c˜ao ainda ´e influenciada de forma dinˆamica por diversos fatores espec´ıficos `a rede analisada (GOODWIN; MCPHERSON; MCCOMBIE, 2016; HORGAN; KENNY, 2011). Uma das vantagens em utilizar a biologia sistˆemica ´e a capacidade de projetar modelos in silico preditivos e multiescalares que est˜ao relacionados `a descoberta de novos biomarcadores, por exemplo, para o melhoramento na produ¸c˜ao de soja (HAO et al., 2012), `a segmenta¸c˜ao de grupos pautada em perfis gen´eticos, bem como ao aprimoramento de tratamentos de doen¸cas, como o cˆancer (BIOLOGY, 2017; MUHAMMAD et al., 2017).

Nesse aspecto, a vis˜ao em rede tornou-se essencial para a compreens˜ao das intera¸c˜oes das unidades biol´ogicas, ou seja, como as sequˆencias e os sistemas interagem entre si para a execu¸c˜ao das funcionalidades dos organismos (KITANO, 2002; LOPES; CESAR; COSTA, 2011a; LOPES; OLIVEIRA; CESAR, 2011b; MUHAMMAD et al., 2017; YEGER-LOTEM et al., 2004; ZHAO et al., 2015). Em uma an´alise de grafos (redes), os “v´ertices” correspondem `as unidades de informa¸c˜ao biol´ogica e as “arestas” s˜ao as conex˜oes existentes entre essas informa¸c˜oes, sendo que essa representa¸c˜ao permite visualizar os relacionamentos existentes para um melhor entendimento de v´arios processos biol´ogicos, visto que a topologia das redes pode interferir na funcionalidade do organismo (BARAB ´ASI, 2009; CHEN et al., 2010; GOLLO; BREAKSPEAR, 2014; LOPES et al., 2014; MEGHANATHAN, 2016). O uso de redes complexas ´e cada vez mais recorrente para se modelar sistemas reais e artificiais (ALBERT, 2005), pois essas redes podem representar desde a an´alise de rea¸c˜oes qu´ımicas at´e a dinˆamica dos relacionamentos que permeiam a sociedade, por exemplo, as redes sociais e a internet (BARAB ´ASI et al., 2002; BOCCALETTI et al., 2006; JIA et al., 2017). No campo biol´ogico, as redes complexas tˆem colaborado especialmente para os estudos de bioinform´atica relacionados `a predi¸c˜ao gˆenica e `as intera¸c˜oes entre prote´ınas

(20)

(ALBERT, 2005; CONQUE; KASHIWABARA; LOPES, 2014; LI; ZHANG; ZHOU, 2014; LOPES; MARTINS; CESAR, 2008).

Nesse sentido, as redes complexas tˆem sido usadas para representar diferentes objetos e extrair caracter´ısticas mais globais e abrangentes em diferentes contextos (BOCCALETTI et al., 2006; COSTA et al., 2007; MILO et al., 2002; NEWMAN, 2003; VAZQUEZ et al., 2004), considerando interatomas (BARAB ´ASI; GULBAHCE; LOSCALZO, 2011; PAVLOPOULOS et al., 2011), organiza¸c˜ao celular (BARAB ´ASI; OLTVAI, 2004), redes gˆenicas (CONQUE; KASHIWABARA; LOPES, 2016; LOPES; CESAR; COSTA, 2011a; LOPES et al., 2010; LOPES et al., 2014; VICENTE; LOPES, 2014), dentre outros.

• Problema de pesquisa:

Diante do grande volume de dados biol´ogicos disponibilizados pelos reposit´orios na internet, como a Bioinform´atica pode auxiliar na transforma¸c˜ao desses dados em informa¸c˜oes significativas?

• Hip´otese:

A utiliza¸c˜ao de m´etricas topol´ogicas de redes complexas auxilia na classifica¸c˜ao e identifica¸c˜ao de sequˆencias biol´ogicas de RNAs codificantes e RNAs n˜ao-codificantes. • M´etodo:

As sequˆencias biol´ogicas s˜ao transformadas em grafos utilizando dois parˆametros de configura¸c˜ao: o tamanho da palavra (Word Size - WS), que representa a quantidade de nucleot´ıdeos - e o tamanho do passo (Step Size - ST), que representa as conex˜oes entre eles. Desses grafos s˜ao extra´ıdas m´etricas de redes complexas de proximidade, grau, grau m´ınimo, grau m´aximo, intermedia¸c˜ao, coeficiente de clustering, caminho m´ınimo m´edio, desvio padr˜ao e motif de tamanho 3 e 4 (BARAB ´ASI; OLTVAI, 2004; BOCCALETTI et al., 2006; COSTA et al., 2007). Na sequˆencia, s˜ao aplicados thresholds de modo a diminuir a quantidade de arestas menos densas criando subgrafos, dos quais s˜ao novamente extra´ıdas as m´etricas j´a descritas, gerando um vetor de caracter´ısticas, de modo que esses valores s˜ao utilizados com intuito de revelar propriedades significativas para compreens˜ao, classifica¸c˜ao e caracteriza¸c˜ao das sequˆencias biol´ogicas (ALBERT; BARAB ´ASI, 2002; COSTA et al., 2007). Uma vis˜ao geral da pesquisa pode ser observada na Figura 1:

(21)

Figura 1 – Etapas da pesquisa

Fonte: Autoria pr´opria.

1.2 Objetivos

– Objetivo geral:

O objetivo principal deste trabalho ´e caracterizar sequˆencias de RNAs por meio da utiliza¸c˜ao de m´etricas de redes complexas a fim de buscar padr˜oes para a classifica¸c˜ao das sequˆencias em RNAs codificantes e RNAs n˜ao-codificantes. – Objetivos espec´ıficos:

1) Aplicar uma metodologia baseada no agrupamento dos nucleot´ıdeos (nu-cleot´ıdeo, dinucleot´ıdeo ou trinucleot´ıdeo) e na rela¸c˜ao organizacional entre eles para representar as sequˆencias de RNAs na forma de redes complexas;

2) Classificar diferentes classes de RNAs como: mRNA, ncRNA, lncRNA e sncRNA;

3) Analisar poss´ıveis padr˜oes na identifica¸c˜ao e classifica¸c˜ao das referidas redes biol´ogicas.

4) Comparar a ferramenta desenvolvida, BASiNET, com as ferramentas CNCI, PLEK e CPC2 a fim de verificar a validade do m´etodo por meio da compara¸c˜ao dos ´ındices de acur´acia obtidos na classifica¸c˜ao de RNAs codificantes e RNAs n˜ao-codificantes.

(22)

1.3 Contribui¸c˜oes

O desenvolvimento do m´etodo proposto BiologicAl Sequences NETwork (BASiNET) contribui para a representa¸c˜ao e distin¸c˜ao de sequˆencias biol´ogicas de RNAs em codificantes ou n˜ao-codificantes. Pautada no uso de m´etricas de redes complexas para a extra¸c˜ao de caracter´ısticas distintivas, a metodologia pode ser ampliada a outras classifica¸c˜oes biol´ogicas relacionadas a DNAs e amino´acidos. Desse modo, a ferramenta pode se tornar extens´ıvel a um n´umero significativo de problemas relacionados a sequˆencias biol´ogicas.

1.4 Organiza¸c˜ao do trabalho

O presente trabalho est´a organizado da seguinte forma: ap´os essa introdu¸c˜ao, no segundo cap´ıtulo, h´a a apresenta¸c˜ao do referencial bibliogr´afico sobre dados biol´ogicos e a conex˜ao entre as redes complexas com suas aplica¸c˜oes em sistemas reais. No terceiro cap´ıtulo, ´e descrito o m´etodo do trabalho, que consiste em utilizar m´etricas de redes complexas para caracterizar sequˆencias biol´ogicas de RNAs. O quarto cap´ıtulo apresenta os resultados da caracteriza¸c˜ao e distin¸c˜ao, comparando os ´ındices obtidos pela BASiNET com os de outras ferramentas de predi¸c˜ao. No quinto cap´ıtulo, s˜ao apresentadas as conclus˜oes e os encaminhamentos para pesquisas futuras.

(23)

2 Revis˜ao bibliogr´afica

O primeiro genoma completo sequenciado foi em um v´ırus (Enterobacteria phage phiX174), em 1977, realizado por Frederick Sanger que sequenciou 5.375 pares de bases (pb) (SANGER; NICKLEN; COULSON, 1977). Desde ent˜ao, as inova¸c˜oes tecnol´ogicas realizaram uma revolu¸c˜ao na ´area de sequenciamento de dados biol´ogicos, visto que proporcionam a leitura de uma maior quantidade de sequˆencias em tempo relativamente reduzido (GOODWIN; MCPHERSON; MCCOMBIE, 2016; WALKER, 2014).

Nesse aspecto, a d´ecada de 1990 foi um per´ıodo intenso em descobertas de sequˆencias biol´ogicas, destacando-se o lan¸camento do Projeto Genoma Humano, o qual reuniu pesqui-sadores e laborat´orios do mundo todo, inclusive do Brasil, para realizar o mapeamento gen´etico que auxiliou na compreens˜ao da origem de v´arias doen¸cas, como por exemplo, o cˆancer (LANDER et al., 2001; SAID et al., 2004). O sequenciamento completo do Projeto Genoma Humano foi conclu´ıdo em 2003 e foram sequenciadas 3,4 bilh˜oes pb, entre 20-25 mil genes, dos quais apenas 2% s˜ao codificados em prote´ınas (GIBBS et al., 2003; INTERNATIONAL; CONSORTIUM, 2003).

Em 1992, o reposit´orio de sequˆencias biol´ogicas GenBank foi integrado ao Instituto Nacional de Sa´ude (NIH, do inglˆes National Institutes of Health), permitindo o acesso p´ublico a sequˆencias de nucleot´ıdeos e prote´ınas (BENSON; LIPMAN; OSTELL, 1993). Em 1995, foi sequenciado o primeiro genoma de um procarioto (Haemophilus influenzae) com 1.830.137 pb (FLEISCHMANN et al., 1995).

Em 1996, na B´elgica, o pesquisador Andr´e Goffeau publicou o primeiro genoma eucarioto unicelular (Saccharomyces cerevisiae), os resultados foram 12.068 Kb e 6.000 genes (GOFFEAU et al., 1996). Em 1998, o genoma de um organismo multicelular de uma esp´ecie de nematoide (Caenorhabditis elegans) foi publicado com 97 Mb e 19.000 genes (CONSORTIUM et al., 1998). O in´ıcio do s´eculo XXI foi marcado com o sequenciamento da Drosophila melanogster com cerca de 120 Mb e 13.600 genes (ADAMS et al., 2000). Ainda no ano 2000, o primeiro vegetal sequenciado foi a esp´ecie Arabidopsis thaliana com um genoma de 125 Mb e 25.498 genes (KAUL et al., 2000).

No Brasil, foi publicado no ano 2000, o sequenciamento completo da bact´eria Xyllela fastidiosa com 2.679.305 pb e dois plasm´ıdeos com 51.158 bp e 1.285 bp, respons´aveis por

(24)

provocar a doen¸ca Clorose Variegada dos Citrus (CVC) ou amarelinho, ligada `a diminui¸c˜ao dr´astica da produtividade de plantas c´ıtricas (SIMPSON et al., 2000).

A partir de 2005, os Sequenciadores de Nova Gera¸c˜ao - NGS (do inglˆes, Next Generation Sequencing) come¸caram a ser disponibilizados e proporcionaram um grande avan¸co no volume de dados gerados. O sequenciador 454 (Life Sciences), por exemplo, proporcionou a produ¸c˜ao de dados moleculares de 25 milh˜oes de pares de base em uma corrida de 4 horas, isso representou uma redu¸c˜ao de tempo de 100 vezes, quando comparado ao m´etodo de Sanger (MARGULIES et al., 2005). Atualmente, com o uso dos sequenciadores de alto desempenho (NGS), ´e poss´ıvel analisar o genoma completo de diversas esp´ecies, incluindo as regi˜oes codificantes e n˜ao-codificantes (ALBERTS et al., 2010).

Desde seu in´ıcio, os NGS tˆem impactado significativamente nos estudos em Bioin-form´atica devido ao aumento do volume de dados dispon´ıveis, ao tamanho das sequˆencias produzidas e `a queda dos custos de sequenciamento, proporcionado por ferramentas como a Illumina ou Nanopore (FONSECA et al., 2016; GOODWIN; MCPHERSON; MCCOMBIE, 2016).

Devido `a massiva produ¸c˜ao de sequˆencias biol´ogicas, principalmente a partir do lan¸camento comercial dos NGS, h´a uma grande lacuna entre produ¸c˜ao de dados biol´ogicos e sua an´alise, fato que motiva a constru¸c˜ao de m´etodos eficientes para tratar esses dados e torn´a-los informa¸c˜oes significativas.

2.1 Sequˆencias biol´ogicas 2.1.1 DNA

As informa¸c˜oes gen´eticas de todos os organismos eucariotos e procariotos est˜ao armazenadas na mol´ecula de ´Acido Desoxirribonucleico (DNA, do inglˆes Deoxyribonu-cleic Acid) (WATSON; CRICK, 1953), nos organismos eucariotos o DNA est´a localizado no n´ucleo da c´elula, enquanto nos organismos procariotos o DNA est´a disperso no citoplasma da c´elula (ZAHA; FERREIRA; PASSAGLIA, 2014). Existem poucos v´ırus que contˆem as informa¸c˜oes na mol´ecula de ´Acido Ribonucleico (RNA, do inglˆes Ribonucleic Acid) (SNUSTAD, 2011). As mol´eculas de DNA e RNA s˜ao essenciais para a sobrevivˆencia, desen-volvimento e funcionamento de todos os organismos (ZAHA; FERREIRA; PASSAGLIA, 2014).

(25)

A estrutura prim´aria da mol´ecula de DNA ´e composta por um grupo fosfato, uma base nitrogenada (Adenina, Timina, Citosina e Guanina) e um a¸c´ucar (desoxirribose), cuja estrutura qu´ımica ´e formada por uma pentose contendo cinco carbonos, dos quais o carbono 5’ e o carbono 3’ se ligam ao fosfato que ´e composto de um ´atomo de f´osforo e quatro de oxigˆenio, formando uma sequˆencia linear de nucleot´ıdeos (ALBERTS et al., 2010; WATSON; CRICK, 1953; ZAHA; FERREIRA; PASSAGLIA, 2014).

A estrutura secund´aria do DNA, conhecida como dupla h´elice, possui dois filamentos de nucleot´ıdeos unidos por pontes de hidrogˆenio que s˜ao antiparalelas, ou seja, com polaridade oposta entre si, em forma de uma espiral (ALBERTS et al., 2010; SNUSTAD, 2011; WATSON; CRICK, 1953; ZAHA; FERREIRA; PASSAGLIA, 2014).

Na estrutura secund´aria, as bases nitrogenadas s˜ao pareadas entre a Adenina e a Timina, unidas por duas pontes de hidrogˆenio, e entre a Citosina e a Guanina que s˜ao ligadas por trˆes pontes de hidrogˆenio. As bases Timina e Citosina pertencem ao grupo das pirimidinas apresentando um ´unico anel arom´atico heteroc´ıclico, j´a a Adenina e a Guanina pertencem ao grupo qu´ımico das purinas e apresentam anel arom´atico heteroc´ıclico duplo (ALBERTS et al., 2010; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

Ao preservar a informa¸c˜ao gen´etica, o DNA armazena os dados de forma protegida e condensada, a combina¸c˜ao do DNA com prote´ınas como as histonas forma os nucleossomos resultando-se na cromatina; no mais alto n´ıvel de condensa¸c˜ao, formam-se os cromossomos (ZAHA; FERREIRA; PASSAGLIA, 2014).

A condensa¸c˜ao do material gen´etico se justifica como mecanismo para que n˜ao ocor-ram falhas ou muta¸c˜oes nos descendentes ao longo do processo de replica¸c˜ao (SNUSTAD, 2011). Contudo, uma vez que a informa¸c˜ao gen´etica (DNA) ´e a mesma em todas as c´elulas, a diferencia¸c˜ao e a express˜ao gen´etica se d´a por meio da regula¸c˜ao gˆenica (ALBERTS et al., 2010; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

2.1.2 RNA

Dado que sequˆencias biol´ogicas podem apresentar diferentes express˜oes gˆenicas, compreender a dinˆamica das rela¸c˜oes existentes entre os RNAs ainda ´e uma quest˜ao em aberto (GUTTMAN; RINN, 2012; LOPES; OLIVEIRA; CESAR, 2011b; SUN et al., 2013; TAYLOR; SIEGEL; GALITSKI, 2007).

(26)

O RNA ´e transcrito a partir da fita molde de DNA de uma regi˜ao gˆenica, no sentido 5’ e 3’ de forma complementar a fita molde, ou seja, ele ter´a a mesma informa¸c˜ao da fita codante, exceto pela troca da base nitrogenada Timina pela Uracila (ALBERTS et al., 2010). Nesse processo, destaca-se a enzima denominada RNA Polimerase que possui fun¸c˜oes como: a) reconhecer e ligar-se a regi˜ao certa do DNA a ser sintetizado; b) separar as fitas duplas de DNA e mantˆe-las separadas na regi˜ao durante a s´ıntese do RNA e estabilizar essa regi˜ao; c) restaurar a regi˜ao j´a sintetizada do DNA e em conjunto com outras prote´ınas finalizar a s´ıntese do RNA (ZAHA; FERREIRA; PASSAGLIA, 2014).

A Figura 2 exibe a atua¸c˜ao da RNA Polimerase:

Figura 2 – RNA Polimerase no processo de transcri¸c˜ao.

Fonte: National Human Genome Research Institute - adapta¸c˜ao.

Os mRNAs carregam os c´odigos necess´arios para a produ¸c˜ao de prote´ınas, con-forme descrito inicialmente por Beatle e Tatum na d´ecada de 1940 (ZAHA; FERREIRA; PASSAGLIA, 2014).

Nos organismos eucariotos, o mRNA passa por algumas etapas at´e ser traduzido no ribossomo. Inicialmente, ap´os a transcri¸c˜ao da regi˜ao gˆenica do DNA, a fita simples de RNA cont´em unidades codificadoras (´exons) e as unidades n˜ao-codificadoras (intr´ons), conforme Figura 3: exón1 116-130 573-904 216-255

AAAA...

CAP

142-145 222 + codificante 1-30 Conteúdo 31-104 aminoácidos Comprimento exóns Comprimento intróns Codificante 105-fim + 3' UTR 5' UTR

intrón1 exón2 intrón2 exón3

Figura 3 – Estrutura de um RNA.

Fonte: (LEWIN, 2008) - adapta¸c˜ao.

A partir da unidade de transcri¸c˜ao, o transcrito prim´ario de RNA passa pelo capeamento (CAP) no sentido 5’ e pela poliadenila¸c˜ao (AAAA...) no sentido 3’; na sequˆencia, h´a a retirada dos ´ıntrons, de modo que a fita de mRNA contenha apenas os

(27)

ex´ons em um processo de recombina¸c˜ao (splicing) do RNA, desse modo, o mRNA se encontra no est´agio maduro podendo atravessar a parede nuclear para ser traduzido pelos ribossomos no citoplasma (ALBERTS et al., 2010).

Nesse contexto, h´a diversos tipos de RNAs al´em dos mRNAs, que s˜ao diferenciados pela regi˜ao gˆenica transcrita, por exemplo, os RNAs ribossomais (rRNA) que s˜ao encon-trados em maior quantidade na c´elula, sendo os respons´aveis por sintetizar as prote´ınas; os RNAs transportadores (tRNA) que s˜ao respons´aveis por transportar os amino´acidos; e outros diversos RNAs n˜ao-codificantes denominados de non-coding RNAs (ncRNA), que s˜ao essenciais para compreens˜ao e funcionamento dos organismos, atuando por exemplo, na replica¸c˜ao, na tradu¸c˜ao, ou na regula¸c˜ao da express˜ao gˆenica (GUTTMAN; RINN, 2012; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

Dentre os ncRNAs, a classe long non-coding (lncRNAs) ´e composta por sequˆencias com mais de 200 pares de bases (WANG; CHANG, 2011), j´a a classe dos small non-coding (sncRNAs) s˜ao sequˆencias menores (KAPRANOV et al., 2007), muito abundantes nos organismos, altamente conservados que s˜ao envolvidos no silenciamento gˆenico transcri-cional (LEE; AMBROS, 2001; WANG; CHANG, 2011). A importˆancia dos ncRNAs se relaciona a regula¸c˜ao da transcri¸c˜ao que pode estar associada a doen¸cas humanas como o cˆancer (SPIZZO et al., 2012; ZHAO et al., 2015), s´ındromes neurodegenerativas, disfun¸c˜oes cardiovasculares, dentre outras (CHEN et al., 2012).

Nesse sentido, identificar os diferentes tipos de sequˆencias, no grande volume de dados produzidos pelo sequenciamento de alto desempenho, tem movido esfor¸cos de pesquisadores do mundo que buscam desenvolver m´etodos computacionais eficazes na classifica¸c˜ao de mRNA, ncRNAs, lncRNAs e sncRNAs (CONQUE; KASHIWABARA; LOPES, 2014; LI; ZHANG; ZHOU, 2014; LIU; GOUGH; ROST, 2006; KANG et al., 2017; KONG et al., 2007).

2.1.3 Prote´ına

Dado que as prote´ınas s˜ao respons´aveis por grande parte dos processos biol´ogicos no organismo, ´e fundamental a compreens˜ao dos mecanismos que participam de sua forma¸c˜ao (DOOLITTLE, 2010).

(28)

Para a s´ıntese das prote´ınas, ´e necess´ario que haja o processo de tradu¸c˜ao, em que o mRNA maduro ´e lido a partir do amino´acido Metionina (AUG) em uma sequˆencia de trincas de nucleot´ıdeos reconhecido pelo rRNA (composto por duas subunidades proteicas), onde cada amino´acido correspondente ´e transportado pelo tRNA (antic´odon) para ser incorporado aos c´odons, formando uma cadeia de amino´acidos (ZAHA; FERREIRA; PASSAGLIA, 2014).

A Figura 4 exibe o c´odigo gen´etico com 20 diferentes amino´acidos, resultando em 64 combina¸c˜oes dos quatro nucleot´ıdeos (A, C, U, G) agrupados em c´odons (triplets).

UUC UUA UUU UUG UCU UCC UCA UCG UAU UAC UAA UAG UGU UGC UGA UGG CUU CUC CUA CUG CCC CCU CCA CCG CAGCAA CAC CAU CGU CGC CGA CGG AUU AUC AUA AUG ACU ACC ACA ACG AAA AAC AAU

AAG AGGAGA

AGC AGU GUU GUC GUA GUG GCU GCC GCA GCG GAGGAA GAC GAU GGC GGG GGA GGU G F D E A V M T N K L L I R P W H Q S TERM TERM Y C S R Mapeamento dos códons em aminoácidos

Figura 4 – C´odigo gen´etico.

Fonte: NIRENBERG, 2004 - adapta¸c˜ao.

Destaca-se na Figura 4, a n˜ao ambiguidade e a redundˆancia de c´odons pela corres-pondˆencia a um mesmo amino´acido. As ´unicas sequˆencias n˜ao redundantes s˜ao: AUG que corresponde ao amino´acido da Metionina e UGG do amino´acido Triptofano. A Metionina tamb´em representa o c´odon de inicializa¸c˜ao da tradu¸c˜ao pelo ribossomo. J´a os c´odons UAA; UAG; UGA n˜ao correspondem a nenhum amino´acido e indicam apenas o t´ermino da tradu¸c˜ao da prote´ına (NIRENBERG, 2004).

As prote´ınas s˜ao organizadas em quatro estruturas: i) a estrutura prim´aria ´e composta pela sequˆencia dos amino´acidos; ii) a estrutura secund´aria ´e formada por amino´acidos ligados por hidrogˆenio, ocorrendo a forma¸c˜ao de alfa h´elice e de folha dobrada (beta); iii) a estrutura terci´aria ´e resultado da atra¸c˜ao entre a forma¸c˜ao da alfa h´elice e da folha dobrada; iv) a estrutura quatern´aria ´e composta pela prote´ına com mais de uma cadeia de amino´acidos enovelados em formato espec´ıfico (SNUSTAD, 2011). A Figura 5 exibe as quatro estruturas de uma prote´ına.

(29)

Figura 5 – Organiza¸c˜ao das estruturas da prote´ına.

Fonte: National Human Genome Research Institute - adapta¸c˜ao.

Destaca-se na Figura 5 que cada uma das estruturas pode ter uma fun¸c˜ao no organismo, auxiliando, por exemplo, nos processos de replica¸c˜ao, tradu¸c˜ao, bioss´ıntese e fun¸c˜oes estruturais (SNUSTAD, 2011).

2.1.4 Reposit´orios de sequˆencias biol´ogicas

Para fomentar os estudos cient´ıficos que envolvem pesquisadores do mundo todo, fo-ram criados laborat´orios espec´ıficos para o armazenamento de dados biol´ogicos como sequˆencias de nucleot´ıdeos de DNA e RNA, amino´acidos e prote´ınas (GALPERIN; FERN ´ANDEZ-SU ´AREZ; RIGDEN, 2017). O European Molecular Biology Laboratory (EMBL), instalado desde 1974, ´e considerado o principal laborat´orio da Europa para as ciˆencias da vida. Trata-se de uma organiza¸c˜ao intergovernamental com mais de 80 grupos de investiga¸c˜ao independentes que cobrem todo o espectro da biologia molecular e opera em seis locais: em Heidelberg (Alemanha) considerado o laborat´orio principal; em Barcelona (Espanha) se concentra os estudos da biologia de tecidos e modelagem de doen¸cas; em Hamburg (Alemanha) e Grenoble (Fran¸ca), est˜ao concentradas as pesquisas de biologia estrutural; em Hinxton (Reino Unido) est´a instalado o Instituto Europeu de Bioinform´atica; e, em Monterotondo (It´alia), onde s˜ao desenvolvidos estudos em que ratos s˜ao os principais organismos experimentais (STOESSER et al., 2002).

Al´em do EMBL, destacam-se outros reposit´orios de dados de importˆancia mundial em estudos de biologia molecular. O International Nucleotide Sequence Database Collabo-ration (INSDC) armazena dados do DNA Data Bank of Japan (DDBJ), pelo European Nucleotide Archive (ENA) e pelo GenBank, localizado no Instituto de Gen´etica, em

(30)

Mishina, Jap˜ao, com foco em fornecer dados de nucleot´ıdeos e amino´acidos `a comunidade cient´ıfica (COCHRANE et al., 2016; TORIBIO et al., 2017).

O GenBank armazena sequˆencias gen´eticas de DNA, RNA e prote´ınas de v´arias esp´ecies procariotas e eucariotas, do National Center for Biotechnology Information (NCBI) (BENSON et al., 2017). O NCBI est´a localizado em Bethesda, Maryland, EUA, al´em do banco de Cluster of Orthologous Groups (NCBI COG) que cont´em as informa¸c˜oes de filogenia envolvendo prote´ınas codificadoras em genomas completos (NCBI, 2017).

O Protein Data Bank (PDB), destaca-se como reposit´orio mundial de informa¸c˜oes sobre as estruturas 3D de grandes mol´eculas biol´ogicas, incluindo prote´ınas e ´acidos nucleicos. O PDB ´e gerenciado por trˆes centros, localizados nos Estados Unidos, Jap˜ao e Europa (ROSE et al., 2017). O Kyoto Encyclopedia of Genes and Genomes (KEGG) est´a localizado em dois centros no Jap˜ao: Centro de Bioinform´atica no Instituto de Pesquisa Qu´ımica, Universidade de Kyoto e o Centro do Genoma Humano no Instituto de Ciˆencias M´edicas, Universidade de T´oquio. O KEGG ´e um banco de dados de pesquisas integradas de genˆomica, vias metab´olicas, qu´ımica, informa¸c˜ao funcional sistˆemica e sa´ude (KANEHISA et al., 2017).

O Gene Ontology (GO) ´e uma importante iniciativa da Bioinform´atica para unificar e fornecer um vocabul´ario controlado de termos para descrever a fun¸c˜ao do gene e dados de anota¸c˜oes (ASHBURNER et al., 2000).

A Tabela 1 apresenta a compila¸c˜ao da quantidade de dados e sua descri¸c˜ao disponi-bilizados pelos reposit´orios GENBANK, PDB e KEGG.

Tabela 1 – Reposit´orios de dados biol´ogicos.

Reposit´orio Descri¸c˜ao Quantidade

GENBANK Sequˆencias de nucleot´ıdeos publica-dos e descritos

370.000 esp´ecies formal-mente descritas.

PDB Prote´ınas 3D e ´acidos nucleicos 130.365 estruturas biol´ogicas macromoleculares.

KEGG Fun¸c˜oes do sistema biol´ogico, rela-cionando o conjunto de dados mole-culares. KEGG GENES - 25.193.365; KEGG PATHWAY - 552.727; KEGG REACTION - 10.775; KEGG DISEASE - 1.999; KEGG MEDICUS - 14.578.

(31)

Observa-se a expans˜ao permanente dos reposit´orios existentes, bem como o surgi-mento de novos. Os dados se expandem em quantidade e diversidade, contribuindo para as mais diversas ´areas biol´ogicas, sobretudo para os avan¸cos relacionados `a compreens˜ao de muta¸c˜oes dos organismos (GALPERIN; FERN ´ANDEZ-SU ´AREZ; RIGDEN, 2017).

A Tabela 2 apresenta o alfabeto utilizado em cada tipo de sequˆencia, bem como algumas bases de dados de armazenamento.

Tabela 2 – Alfabetos que representam as sequˆencias biol´ogicas. Sequˆencia biol´ogica Alfabeto Reposit´orios

DNA A,C,T,G RefSeq; GenBank; KEGG; DDBJ;

ENA.

RNA A,C,U,G RefSeq; DDBJ; GenBank.

Amino´acidos A,R,N,D,C,

Q,E,G,H,I, J,K,M,F,P, S,T,W,Y,V

RefSeq; PDB; COG; GenBank.

Fonte: BIONFORMATICS, 2017 - adapta¸c˜ao.

Os reposit´orios de armazenamento de dados biol´ogicos disponibilizam suas in-forma¸c˜oes por meio de padr˜oes, dentre eles destaca-se o padr˜ao FASTA. Trata-se de um formato de arquivo texto que representa sequˆencias de nucleot´ıdeos ou amino´acidos por meio de letras (BIONFORMATICS, 2017; MICHIGAN, 2017).

2.2 Modelos de redes complexas

Em 1736, Leonhard Euler iniciou os estudos da teoria dos grafos no c´elebre caso das pontes de K¨onigsberg ao representar cada uma das quatro por¸c˜oes de terras por v´ertices e cada ponte por uma aresta. Com suas observa¸c˜oes, Euler evidenciou que n˜ao existia uma rota que cruzasse todas as pontes sem repetir o caminho (BARAB ´ASI, 2009).

A impossibilidade evidenciada por Euler acontecia devido a uma propriedade do grafo a qual estabelece que atravessar todos os pontos e voltar ao local inicial sem que haja repeti¸c˜ao de caminhos, somente ´e poss´ıvel caso o ponto de origem tenha um n´umero par de arestas; como todos os v´ertices do grafo possu´ıam um n´umero ´ımpar de arestas era imposs´ıvel realizar a travessia (BARAB ´ASI, 2009).

Neste contexto, ao modelar problemas reais em grafos, a simplicidade de repre-senta¸c˜ao e a praticidade de uso permitem utilizar suas propriedades para generalizar

(32)

aplica¸c˜oes e encontrar solu¸c˜oes para problemas diversos, como: modelagem de textos; an´alise de redes sociais; redes neurais; dobramento de prote´ınas; dentre outras fun¸c˜oes biol´ogicas (ALBERT, 2005; BARAB ´ASI, 2009; COSTA et al., 2007; LOPES, 2011; LOPES et al., 2014; SMOOT et al., 2011).

A estrutura dos grafos (Figura 6) ´e determinada por G = (V, E), na qual a letra G representa o grafo, a letra V os v´ertices representados pelos dinucleot´ıdeos GG, AT, TG, AA, GA e a letra E corresponde `as arestas que determinam o direcionamento das conex˜oes (DIESTEL, 2000). Os grafos tamb´em podem ser representados numericamente por meio de uma matriz de adjacˆencias.

Figura 6 – Grafo direcionado e sua matriz de adjacˆencias.

Fonte: Autoria pr´opria.

Assim, a matriz de adjacˆencias representa de forma bin´aria a ocorrˆencia de aresta entre os v´ertices do grafo, sendo que 1 representa a existˆencia de aresta entre o v´ertice identificado na respectiva linha e coluna e 0 a inexistˆencia delas (DOROGOVTSEV; GOLTSEV; MENDES, 2002). Nos sistemas biol´ogicos, essa estrutura pode ser verificada nas redes de regula¸c˜ao gˆenica (MILO et al., 2002; LOPES; CESAR; COSTA, 2011a).

O exemplo citado traz um grafo direcionado, contudo h´a tamb´em grafos n˜ ao-direcionados e ponderados. A Figura 7 exibe um grafo n˜ao-direcionado acompanhado de sua respectiva matriz de adjacˆencias, neste caso a matriz ´e sim´etrica, isto ´e, a aresta de TG para AA existe tamb´em de AA para TG.

(33)

Figura 7 – Grafo n˜ao-direcionado e sua matriz de adjacˆencias.

Fonte: Autoria pr´opria.

A Figura 8 exibe um grafo ponderado e sua respectiva matriz de pesos, isto ´e, cada aresta tem associado a ela um valor que ´e somado em caso de nova ocorrˆencia. Destaca-se que nesse tipo de grafo as arestas tˆem um peso associado (GOLDBARG; GOLDBARG, 2012):

Figura 8 – Grafo ponderado e sua matriz de pesos.

Fonte: Autoria pr´opria.

Dado o exposto, qualquer um dos grafos pode conter conex˜oes irregulares entre os v´ertices e topologias n˜ao triviais, tais grafos s˜ao definidos como redes complexas (BARAB ´ASI, 2009). Os diferenciais sobre as redes complexas com rela¸c˜ao a um grafo simples ´e a complexidade e a dinˆamica na representa¸c˜ao de sistemas reais. Tal representa¸c˜ao demonstra padr˜oes em sua estrutura que se assemelham `a complexidade das atividades do mundo real (BARAB ´ASI, 2009).

(34)

Costa (2007) demonstra a aplica¸c˜ao dos thresholds para caracteriza¸c˜ao e repre-senta¸c˜ao da dinˆamica dos conjuntos. Na Figura 9, foi poss´ıvel selecionar v´arios subconjuntos por meio de m´etricas, isso gera o vetor de caracter´ısticas baseado na dinˆamica da rede representado por ~µT, em que µ ´e a m´edia eT o threshold (COSTA et al., 2007).

Na sequˆencia, foram aplicados limiares (thresholds) no grafo, conforme exibido na Figura 9. Representação Representação Threshold Caracterização Caracterização

µ=[µ

1

µ

2

µ

3

...µ

TM

]

µ

T

=[µ

T1

µ

T2

µ

T3

...µ

TM

]

∆µ

Figura 9 – Dinˆamica em uma rede complexa.

Fonte: COSTA et al., 2007 - adapta¸c˜ao.

Na literatura s˜ao encontrados exemplos de sucesso do uso da teoria de redes complexas na resolu¸c˜ao e representa¸c˜ao de sistemas reais em quatro grupos, conforme descrito por Newman (2003): o primeiro grupo se refere `as redes sociais, que s˜ao formadas por pessoas com caracter´ısticas e contatos em comum, destaca-se o experimento realizado por Milgram (1967) que afirmou serem necess´arios em m´edia seis la¸cos de amizade para que duas pessoas quaisquer estejam ligadas no mundo (small world); o segundo grupo trata-se das redes de informa¸c˜ao, em que os relacionamentos se d˜ao pela troca de comunica¸c˜oes, como as cita¸c˜oes entre artigos ou mesmo a web e seus hiperlinks que relacionam uma vasta gama de informa¸c˜oes; o terceiro grupo s˜ao as redes tecnol´ogicas dispostas em ´areas como a avia¸c˜ao, o transporte, a eletricidade, a comunica¸c˜ao e a internet; e o quarto grupo, foco desta pesquisa, diz respeito `as redes biol´ogicas, tais como, as redes neurais, metab´olicas, de intera¸c˜ao entre prote´ınas ou de regula¸c˜ao gˆenica (NEWMAN, 2003).

(35)

As redes complexas apresentam um caminho promissor para o melhor entendimento das intera¸c˜oes biol´ogicas, pois permitem visualizar de forma gr´afica a complexidade das atividades dos organismos (ALBERT, 2005).

2.2.1 Redes aleat´orias

De acordo com o modelo de Redes aleat´orias proposto por Erd¨os e R´enyi (ER), os v´ertices s˜ao distribu´ıdos de forma aleat´oria com uma uniformidade de probabilidade entre as conex˜oes (Figura 10a). Esse modelo de distribui¸c˜ao dos graus dos v´ertices tamb´em se aproxima da distribui¸c˜ao de Poisson, conforme exibido na Figura 10b (COSTA et al., 2007; ERD ¨OS; R´ENYI, 1959). A letra k representa o grau m´edio de conex˜oes e P(k) a probabilidade de um novo v´ertice ter k conex˜oes. Desse modo, ´e poss´ıvel verificar uma concentra¸c˜ao maior em torno do grau m´edio, isto ´e, uma possibilidade maior de que novos v´ertices estejam em torno do grau m´edio.

Rede aleatória 1850 0.00 0.08 0.10 0.02 0.04 0.06 P(k) a) 1900 1950 2000 2050 k b) 2100 2150

Figura 10 – Rede aleat´oria, a) distribui¸c˜ao dos v´ertices e b) representa¸c˜ao m´edia dos graus.

Fonte: COSTA et al., 2007 - adapta¸c˜ao.

O modelo ER ´e considerado a primeira representa¸c˜ao de redes complexas (COSTA et al., 2007). Nesse modelo, inicialmente os v´ertices est˜ao desconectados, sendo a rede constru´ıda aleatoriamente com a inser¸c˜ao de arestas por meio da probabilidade 0 > p >1 (BOCCALETTI et al., 2006). Nas redes reais, o modelo ER n˜ao ´e t˜ao representativo,

(36)

uma vez que ´e comum encontrar alguns v´ertices mais conectados que outros (BARAB ´ASI; ALBERT, 1999).

2.2.2 Redes de mundo pequeno

Watts e Strogatz buscaram representar as redes como um conjunto de m´etricas de similaridade. Nesse modelo de redes complexas, as conex˜oes n˜ao s˜ao totalmente aleat´orias, mas est˜ao determinadas por agrupamentos (WATTS; STROGATZ, 1998). Esse modelo, recebe o nome de mundo pequeno em referˆencia ao experimento de Milgran (1967), nos Estados Unidos, o qual relata que em m´edia h´a seis graus de separa¸c˜ao entre qualquer pessoa do mundo (TRAVERS; MILGRAM, 1967). Nesse modelo de rede, a constru¸c˜ao das rela¸c˜oes ´e realizada considerando a proximidade entre os v´ertices (COSTA et al., 2007), conforme exibido na Figura 11.

loop Rede de mundo pequeno

Figura 11 – Rede de mundo pequeno.

Fonte: COSTA et al., 2007 - adapta¸c˜ao.

Destaca-se, na Figura 11, o agrupamento entre os v´ertices, desse modo ´e poss´ıvel verificar pequenos grupos de semelhan¸ca e a caracter´ıstica de um grande n´umero de loops de tamanho 3 (COSTA et al., 2007). Watts e Strogatz demonstraram que essa rede ´e encontrada no sistema neural da Caenorhabditis elegans (WATTS; STROGATZ, 1998).

2.2.3 Redes livres de escala

No modelo de redes complexas de Barab´asi (BA), existem conex˜oes preferenciais (hub), isto ´e, h´a v´ertices mais atrativos, tais sistemas s˜ao representados pela distribui¸c˜ao

(37)

dos graus nos v´ertices por uma Lei de Potˆencia (ALBERT, 2005; BARAB ´ASI, 2009; COSTA et al., 2007).

Para encontrar os graus de distribui¸c˜ao da rede livre de escala, ´e dada a f´ormula da lei de potˆencia, representada por P (k) ∼ kγ, na qual P (k) corresponde `a probabilidade de intera¸c˜ao entre k e os outros v´ertices e γ `a constante do expoente, frequentemente com os valores 2 ou 3, que se refere ao decl´ınio exponencial dos v´ertices (ALBERT, 2005).

Na rede livre de escala, existe a possibilidade dos v´ertices serem mais conectados (hub), isto ´e, alguns v´ertices possuem mais atratividade, como exibido na Figura 12b (BARAB ´ASI; ALBERT, 1999).

hub

a) b)

Figura 12 – Conex˜oes dos v´ertices, a) rede aleat´oria e b) rede livre de escala.

Fonte: ITZKOVITZ et al., 2003 - adapta¸c˜ao.

Destaca-se a representatividade das redes livres de escala relacionadas com os estudos de redes biol´ogicas, uma vez que os organismos s˜ao constitu´ıdos por um complexo conjunto de materiais gen´eticos cujas interconectividades vˆem sendo investigadas para melhor compreens˜ao de como os organismos funcionam. As redes metab´olicas, de regula¸c˜ao gˆenica ou de intera¸c˜oes entre prote´ınas s˜ao exemplos disso (ALBERT, 2005; CLINE et al., 2007; LOPES; CESAR; COSTA, 2011a).

2.2.4 M´etricas de redes complexas

H´a diversas m´etricas utilizadas para a extra¸c˜ao de caracter´ısticas topol´ogicas de redes complexas, destacam-se as correlacionais e as de centralidade (COSTA et al., 2007). As primeiras n˜ao consideram a magnitude dos valores e sim a similaridade entre os padr˜oes, j´a as de centralidade s˜ao representadas pela similaridade entre os valores, ou seja, ´e

(38)

considerada a proximidade entre as distˆancias que podem ter padr˜oes muito diferentes ao longo das caracter´ısticas observadas (CAMILO; SILVA, 2009; WEBB; COPSEY, 2011).

Para Barab´asi e Oltvai (2004), as m´etricas mais b´asicas que podem ser utilizadas na caracteriza¸c˜ao de um sistema biol´ogico s˜ao: grau; distribui¸c˜ao de grau; redes scale-free; grau exponencial; caminho m´ınimo; caminho m´edio e coeficiente de clustering. No mesmo sentido Costa (2007), destaca dentre outras m´etricas, as de centralidade para classifica¸c˜ao de problemas do mundo real, uma vez que elas permitem evidenciar quantitativamente os elementos mais importantes ou centrais da rede (COSTA et al., 2007).

A intermedia¸c˜ao ´e uma m´etrica de centralidade que quantifica o n´umero de media¸c˜oes realizadas pelo v´ertice com rela¸c˜ao a outros dois v´ertices, capturando os v´ertices mais utilizados como ponte para outros v´ertices, na qual giej ´e o n´umero de caminho mais curto

entre os v´ertices i e j que passa pelo v´ertice ou aresta e. J´a gij ´e a totalidade dos caminhos

mais curtos entre i e j (COSTA et al., 2007).

A representa¸c˜ao matem´atica ´e dada pela equa¸c˜ao: e =P

i6=j

giej

gij

A proximidade se refere `a semelhan¸ca entre os v´ertices de um grafo, baseada em um v´ertice rotulado ou valores atribu´ıdos a ele. O coeficiente de proximidade, quando positivo, demonstra que os v´ertices tendem a se conectarem, j´a quando o valor ´e negativo, h´a pouca ou nenhuma atratividade entre eles (NEWMAN, 2003), definida pela equa¸c˜ao:

r = P ieii− P iaibi 1−Piaibi

No qual ei j refere-se a fra¸c˜ao das arestas conectadas aos v´ertices i e j. J´a ai = Pj

eij e bj =Pi eij.

A prop´osito do grau, tamb´em uma m´etrica de centralidade, ela reflete o n´umero de arestas conectadas aos v´ertices. No qual ki ´e o v´ertice e aij ´e a soma das arestas conectadas

a ele (COSTA et al., 2007), definida pela equa¸c˜ao: ki = Pjaij =

P

jaj i

Algumas m´etricas s˜ao derivadas da centralidade de grau, dentre elas o grau m´aximo e o grau m´ınimo, representados pelas f´ormulas: kmax = maxi ki e kmin = mini ki, na qual

(39)

Destaca-se tamb´em a m´etrica de caminho m´ınimo m´edio que est´a relacionada a caracteriza¸c˜ao estrutural interna da rede, uma vez que determina o comprimento dos menores caminhos entre dois v´ertices que se conectam, representado pela letra l. Na qual N ´e o n´umero de v´ertices do grafo e dij ´e a distˆancia m´edia geod´esica (caminho mais

curto) entre os v´ertices i e j (BOCCALETTI et al., 2006). A representa¸c˜ao matem´atica ´e dada pela equa¸c˜ao:

l=N (N −1)1 P

i6=j dij

O coeficiente de clustering conhecido tamb´em como transitividade ´e uma m´etrica de agrupamento que determina a probabilidade de um v´ertice estar conectado a outro. Onde Cw

i ´e a probabilidade que varia entre 0 e 1, si ´e a for¸ca do v´ertice i, j´a os wij e wik

s˜ao os pesos das arestas, ki ´e o grau do v´ertice e aij, aik e ajk s˜ao elementos da matriz de

adjacˆencias (COSTA et al., 2007), definida pela equa¸c˜ao: Cw i = 1 si(ki−1) P k > j wij+wik 2 aijaikaj k

O desvio padr˜ao (DP) indica a dispers˜ao dos v´ertices relacionados `a m´edia amostral. Onde x ´e a aresta e ¯x as m´edias das arestas, sendo n o n´umero total de possibilidades de arestas no grafo. Representado pela equa¸c˜ao:

DP =

r P|x

i−¯x|2

n

O Motivo (do inglˆes motif ) ´e um subgrafo que representa uma rede maior com a finalidade de quantificar frequˆencias significativas nos parˆametros das an´alises (MILO et al., 2002). Em uma sequˆencia biol´ogica, um motif ´e um padr˜ao que ocorre repetidamente em diferentes posi¸c˜oes na rede, representando m´odulos com informa¸c˜oes moleculares relevantes e representativas da sequˆencia devido `a sua alta recorrˆencia (BERG; L ¨ASSIG, 2004).

Na Figura 13, ´e poss´ıvel verificar que a frequˆencia de ocorrˆencias do motif indicado ´e muito mais intensa em a) do que em b). Assim, evidencia-se que a observa¸c˜ao de motifs em redes reais ´e fundamental enquanto constitui¸c˜ao topol´ogica de uma sub-rede representativa de uma rede maior. Observa-se que o n´umero de ocorrˆencias de motif ´e muito mais significativo em uma rede real (MILO et al., 2002).

(40)

a) b)

motif

rede real rede aleatória

Figura 13 – Exemplos de redes com motifs, a) motif em uma rede real e b) motif em uma rede aleat´oria.

Fonte: MILO et al., 2002 - adapta¸c˜ao.

Os motifs podem ser aplicados em diversas ´areas, tais como, an´alises bioqu´ımicas, neurobiol´ogicas, ecol´ogicas, de circuitos eletrˆonicos e hiperlinks em p´aginas web (TAY-LOR; SIEGEL; GALITSKI, 2007; GOLLO; BREAKSPEAR, 2014). H´a v´arias topologias definidoras de motifs, por´em, no ˆambito biol´ogico, de acordo com Milo (2002), destacam-se os denominados feedfoward loop, bi-fan e biparallel, conforme exibido na Figura 14.

Figura 14 – Motifs em redes biol´ogicas.

Fonte: MILO et al., 2002.

No motif feedforward loop de tamanho 3, o v´ertice X influˆencia os v´ertices Y e Z, enquanto Y influˆencia somente o v´ertice Z e Z n˜ao influˆencia nenhum v´ertice. No motif Bi-fan de tamanho 4, os v´ertices X e Y s˜ao reguladores dos v´ertices Z e W simultaneamente, por´em n˜ao s˜ao regulados por nenhum outro v´ertice (MILO et al., 2002). A ocorrˆencia

(41)

desses motifs ´e destac´avel em redes de regula¸c˜ao gˆenica e em redes de sinapses neuronais (DREES et al., 2005).

No motif Bi-Parallel, tamb´em de tamanho 4, o v´ertice X influˆencia Y e Z que, por sua vez, influˆencia o v´ertice W. Observa-se, portanto, que X exerce influˆencia indireta em W, sendo X o regulador central dos demais v´ertices. Esses motifs podem ser visualizados em redes de sinapses neuronais e redes representativas de cadeias alimentares (MILO et al., 2002).

Dado que a m´etrica motif ´e um subgrafo que representa uma rede maior, destaca-se a finalidade de quantificar as frequˆencias mais significativas como parˆametros das an´alises. A frequˆencia estat´ıstica de um motif pode ser medida quando comparada `a correspondente em um grafo aleat´orio, sendo Ni(real) o n´umero de vezes que o motif i aparece em uma

rede real e Ni(rand) o n´umero de vezes que o motif i aparece em uma rede aleat´oria, j´a

σi(rand) ´e o desvio padr˜ao de i do n´umero de ocorrˆencias encontradas na rede aleat´oria

(COSTA et al., 2007). O escore-Z ´e definida pela equa¸c˜ao: zi=

Ni(real)−hNi(rand)i

σi(rand)

Dado o exposto, ´e de fundamental importˆancia a busca por m´etricas que extraiam caracter´ısticas relevantes para identificar as sequˆencias biol´ogicas, uma vez que esses padr˜oes podem ser utilizados para compreens˜ao das funcionalidades biol´ogicas das sequˆencias analisadas (BERG; L ¨ASSIG, 2004).

2.2.5 Reconhecimento de padr˜oes e classifica¸c˜ao

Devido `a existˆencia de muitas sequˆencias biol´ogicas, ´e de fundamental importˆancia reconhecer padr˜oes distintivos que as caracterizem. Para tanto, Webb e Copsey (2011) afirmaram que o reconhecimento de padr˜oes ´e uma ´area que envolve os estudos de investiga¸c˜ao relacionados `a formula¸c˜ao de um problema, bem como a cole¸c˜ao de dados por meio da discrimina¸c˜ao, classifica¸c˜ao, c´alculo e interpreta¸c˜oes dos resultados. Os m´etodos de reconhecimento de padr˜oes buscam a classifica¸c˜ao de uma determinada sequˆencia em uma classe espec´ıfica (THEODORIDIS et al., 2010).

Na bioinform´atica, um problema recorrente ´e a grandeza do espa¸co de caracter´ısticas, tornando dif´ıcil e computacionalmente custosa a tarefa de classifica¸c˜ao e consequentemente a an´alise do material biol´ogico estudado (BISHOP, 1995; CAMPOS, 2001).

(42)

H´a trˆes formas para tratar as classifica¸c˜oes: i) o aprendizado ou classifica¸c˜ao supervisionada; ii) a semi-supervisionada e a iii) a n˜ao-supervisionada (LIBBRECHT; NOBLE, 2015).

O conceito de supervis˜ao est´a relacionado ao conhecimento do padr˜ao (r´otulo) a ser categorizado. Assim, o aprendizado supervisionado divide-se em dois grupos: classifica¸c˜ao e regress˜ao (CAMILO; SILVA, 2009). A classifica¸c˜ao associa os objetos a uma categoria ou classe com base em suas caracter´ısticas qualitativas, enquanto a regress˜ao associa os objetos a valores num´ericos, sendo a classe alvo analisada quantitativamente (CAMILO; SILVA, 2009).

Quanto ao aprendizado n˜ao-supervisionado, os r´otulos s˜ao desconhecidos e tamb´em o n´umero total de classes a serem encontradas durante a classifica¸c˜ao. Os classificadores n˜ao-supervisionados tamb´em s˜ao conhecidos como an´alise de agrupamentos (clusterings) (CAMILO; SILVA, 2009; WEBB; COPSEY, 2011).

Sobre a classifica¸c˜ao semi-supervisionada, os dados rotulados e n˜ao rotulados s˜ao aplicados no processo de classifica¸c˜ao, de modo a abranger um n´umero maior de situa¸c˜oes onde possa haver somente partes de classes conhecidas (ZHU, 2005).

2.2.6 Algoritmo de classifica¸c˜ao de ´arvore de decis˜ao

A ´arvore de decis˜ao ´e uma estrutura de dados representativos de uma sequˆencia de passos que determina um caminho para classifica¸c˜ao, sua utiliza¸c˜ao j´a foi empregada com sucesso em situa¸c˜oes do mundo real, por exemplo, na an´alise de amino´acidos, estudos card´ıacos e an´alise de f´armacos, entre outros (MURTHY, 1998). Essa estrutura come¸ca com uma unidade raiz (n´o que est´a no topo da ´arvore), em ´arvores de decis˜ao bin´aria, h´a dois caminhos distintos (descendentes ou ramos) a serem percorridos de acordo com um crit´erio de decis˜ao, caso esses caminhos n˜ao cheguem ao final, os mesmos podem se subdividir em outros dois caminhos, sucessivamente, at´e chegar ao n´o folha que cont´em a classe predita (GONG; HAN, 1997; MEIRA et al., 2008).

A indu¸c˜ao da ´arvore de decis˜ao constr´oi um modelo com base no treinamento de amostras de dados rotulados, considerando os valores das caracter´ısticas de cada n´o das amostras para separar as classes (GONG; HAN, 1997; KAUR; CHHABRA, 2014; KOTSIANTIS; ZAHARAKIS; PINTELAS, 2007).

Referências

Documentos relacionados

Atualmente os currículos em ensino de ciências sinalizam que os conteúdos difundidos em sala de aula devem proporcionar ao educando o desenvolvimento de competências e habilidades

In this work, improved curves are the head versus flow curves predicted based on the correlations presented in Table 2 and improved by a shut-off head prediction

Segundo o mesmo autor, a animação sociocultural, na faixa etária dos adultos, apresenta linhas de intervenção que não se esgotam no tempo livre, devendo-se estender,

Foi ainda emitida confirmação de que não são utilizadas quaisquer substâncias químicas tóxicas, cancerígenas, tóxicas para a reprodução e mutagénicas da

&#34;tendo em vista a estrutura da incorporação pretendida, a Companhia entende que não se faz necessário o atendimento integral ao Artigo 264 da Lei 6.404/76 e à ICVM

No período de primeiro de janeiro a 30 de junho de 2011, foram encaminhadas, ao Comitê de Segurança do Paciente da instituição sede do estudo, 218 notificações de

No 2T18, o segmento apresentou uma pequena redução da receita líquida (desconsiderando receita de longa distância) em relação ao 2T17 e um crescimento de 0,9% na comparação com