Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs

(1)

C ÂMPUS CORNÉLIO PROC ÓPIO

DIRETORIA DE PESQUISA E P ÓS - GRADUAÇ ÃO PROGRAMA DE P ÓS - GRADUAÇ ÃO EM BIOINFORM ÁTICA

ISAQUE KATAHIRA

Reconhecimento de padrões utilizando métricas de redes complexas para a extra¸cão de caracter´ısticas, representa¸cão e classifica¸cão de sequências de

RNAs

CORN´ELIO PROC ´OPIO - PR 2018

(2)

Reconhecimento de padrões utilizando métricas de redes complexas para a extra¸cão de caracter´ısticas, representa¸cão e classifica¸cão de sequências de

RNAs

Disserta¸cão apresentada como requisito à ob-ten¸cão do grau de Mestre em Bioinformática pela Universidade Tecnológica Federal do Paraná – Câmpus Cornélio Procópio.

´

Area de concentra¸c˜ao: Bioinform´atica

Orientador: Prof. Dr. Fabr´ıcio Martins Lopes Coorientador: Prof. Dr. Luiz Filipe Protasio Pereira

CORN´ELIO PROC ´OPIO - PR 2018

(3)

K19 Katahira, Isaque

Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs / Isaque Katahira. – 2018.

Orientador: Fabrício Martins Lopes. Coorientador: Luiz Filipe Protasio Pereira.

1. Classificação. 2. Redes complexas.3. RNA.4. Bioinformática – Dissertações. I. Lopes, Fabrício Martins, orient. II. Pereira, Luiz Filipe Protasio, coorient. III. Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Bioinformática. IV. Título.

CDD (22. ed.) 572.80285

Biblioteca da UTFPR - Câmpus Cornélio Procópio

Bibliotecários/Documentalistas responsáveis: Simone Fidêncio de Oliveira Guerra – CRB-9/1276

Romeu Righetti de Araujo – CRB-9/1676

Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Bioinformática. Cornélio Procópio, 2018.

85 f. : il. color. ; 31 cm.

(4)

Câmpus Cornélio Procópio

Programa de Pós-Graduação em Bioinformática

Título da Dissertação Nº 06:

“

RECONHECIMENTO DE PADRÕES UTILIZANDO

MÉTRICAS DE REDES COMPLEXAS PARA A EXTRAÇÃO

DE

CARACTERÍSTICAS,

REPRESENTAÇÃO

E

CLASSIFICAÇÃO DE SEQUÊNCIAS DE RNAs”.

por

Isaque Katahira

Orientador: Prof. Dr. Fabrício Martins Lopes

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM BIOINFORMÁTICA – Linha de Pesquisa: Biologia Computacional e Sistêmica, pelo Programa de Pós-Graduação em Bioinformática – PPGBIOINFO – da Universidade Tecnológica Federal do Paraná – UTFPR –

Câmpus Cornélio Procópio, às 09h 00min do dia 16 de março de 2018. O trabalho

foi __________ pela Banca Examinadora, composta pelos professores:

__________________________________ Prof. Dr. Fabrício Martins Lopes

(Presidente)

__________________________________

Prof. Dr. André Yoshiaki Kashiwabara (UTFPR-CP)

_________________________________

Prof. Dr. Ronaldo Fumio Hashimoto

(USP-SP)

Visto da coordenação: __________________________________

André Yoshiaki Kashiwabara

Coordenador do Programa de Pós-Graduação em Bioinformática UTFPR Câmpus Cornélio Procópio

A Folha de Aprovação assinada encontra-se na Coordenação do Programa.

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.

(5)

Em primeiro lugar, agrade¸co a Deus por ter me dado inspira¸cão, saúde e persistência para desenvolver este trabalho. Ao diretor da Escola Técnica Estadual Prof. Mário Antônio Verza, Prof. Randal do Vale Ortiz e demais amigos da unidade escolar, pelo incentivo, companheirismo e compreensão para que eu pudesse frequentar as aulas do mestrado.

`

A minha m˜ae, Dona Maria Augusta dos Santos, por ter acreditado em meu sonho e estado comigo em todos os momentos dessa caminhada, sempre confiando que eu alcan¸caria o sucesso.

`

As minhas professoras da gradua¸cão Dra. Lia Cupertino Duarte Albino, Dra. Elaine Pasqualine e ao professor Me. Sérgio Roberto Delfino por terem me inspirado na carreira docente. A minha ex-orientadora e amiga, Me. Ivone Matiko Ivassaki de Deus, que me acompanhou nas apresenta¸cões nos primeiros congressos cient´ıficos, despertando em mim o gosto pela pesquisa cient´ıfica já na gradua¸cão.

Ao Prof. Dr. Fabr´ıcio Martins Lopes, por ter confiado em minha capacidade e me aceitado como seu orientando de mestrado. Fazer parte do grupo de pesquisa “Reconheci-mento de Padrões em sequências genômicas” enriqueceu minha forma¸cão profissional e suas orienta¸cões foram fundamentais para o desenvolvimento e conclusão deste trabalho. Ao Prof. Dr. Luiz Filipe Protasio Pereira, por ter aceitado o convite em coori-entar este trabalho e ter participado efetivamente do seu desenvolvimento, realizando contribui¸cões significativas, especialmente durante a qualifica¸cão.

Ao Prof. Dr. André Yoshiaki Kashiwabara pelas valiosas contribui¸cões oferecidas durante a banca de qualifica¸cão deste trabalho.

Ao Prof. Dr. Fabio Fernandes da Rocha Vicente, que contribuiu com indica¸cões bibliográficas, especialmente, para as descri¸cões das ferramentas comparativas.

Ao amigo e membro do grupo de pesquisa Eric Augusto Ito que contribuiu para o desenvolvimento dos scripts da ferramenta BASiNET, etapa fundamental para atingirmos os objetivos da disserta¸c˜ao.

Aos professores Dr. Alexandre Rossi Paschoal, Dr. André Yoshiaki Kashiwabara, Dr. Douglas Silva Domingues, Dr. Fabr´ıcio Martins Lopes, Dra. Francismar Corrêa Marcelino-Guimaraes, Dra. Kátia Romero Felizardo Scannavino, Dr. Laurival Antonio Vilas-Boas e Dr. Pedro Henrique Bugatti pelas aulas sempre precisas e esclarecedoras durante o per´ıodo de mestrado.

(6)

participa¸cão como representante discente e na colabora¸cão da organiza¸cão dos Workshops de Bioinformática dos anos de 2016 e 2017, na UTFPR - Câmpus Cornélio Procópio. De forma especial, agrade¸co ao secretário José Eduardo de Lima Simão por ter me ajudado em todas as questões burocráticas no PPGBIOINFO.

Aos amigos de curso Bruno, Douglas, Fabio, Guilherme, Marcelo, Nayara, Ricardo, Samara e Vanesca pelo apoio e pela acolhida durante as aulas.

(7)

aprendendo”. (Marcos Rey)

(8)

KATAHIRA, Isaque. “Reconhecimento de padrões utilizando métricas de redes complexas para a extra¸cão de caracter´ısticas, representa¸cão e classifica¸cão de sequências de RNAs” 2018. 85 f. Disserta¸cão (Mestrado em Bioinformática) – Univer-sidade Tecnológica Federal do Paraná, Cornélio Procópio, 2018.

A partir do surgimento dos Sequenciadores de Nova Gera¸cão (NGS), um grande volume de dados de DNAs e RNAs passaram a ser sequenciados rapidamente a custos relati-vamente menores. Os NGS têm a capacidade de produ¸cão de milhares de sequências simultaneamente, produzindo um volume massivo de dados a serem analisados. Nesse sentido, as ferramentas computacionais se tornam essenciais não só para a extra¸cão, mas também para a sele¸cão e análise desses dados. Esta pesquisa apresenta um modelo capaz de extrair caracter´ısticas para a classifica¸cão de RNAs codificantes e não-codificantes. A ferramenta BiologicAl Sequences NETwork (BASiNET), dispon´ıvel em: <https://cran.r-project.org/package=BASiNET>, implementa o método desenvolvido, o qual mapeia sequências de RNAs por meio de redes complexas, pois estas são eficientes para representar sistemas reais, nos quais estão inseridos os sistemas biológicos. A fim de representar as sequências selecionadas, a configura¸cão da rede complexa é feita a partir dos parâmetros do tamanho do passo (conexões entre os nucleot´ıdeos) e do tamanho da palavra (quantidade de nucleot´ıdeos por vértice); na sequência, as arestas menos densas são removidas para a gera¸cão de sub-redes que são resultantes da elimina¸cão crescente de 1 até n arestas da rede. Posteriormente, cada sub-rede é submetida às métricas de: proximidade, grau, grau máximo, grau m´ınimo, intermedia¸cão, coeficiente de clustering, caminho m´ınimo médio, desvio padrão e motifs. A extra¸cão de métricas de cada uma dessas sub-redes compõe o vetor de caracter´ısticas, os valores desse vetor são inseridos no algoritmo de classifica¸cão supervisionada que, por meio da deteçcão de padrões, realiza a distin¸cão das sequências com valida¸cão cruzada de 10-fold. A ferramenta BASiNET é aplicada de forma experimental a dois conjuntos de dados. Os resultados obtidos foram comparados com outras ferramentas: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) e Coding Potential Calculator (CPC2). A compara¸cão evidencia a viabilidade da ferramenta BASiNET, uma vez que esta apresentou resultados médios superiores de acurácia na identifica¸cão de RNAs codificantes e RNAs não-codificantes, nos dois conjuntos de dados experimentais. Os ´ındices médios obtidos entre os dois experimentos foram superiores na identifica¸cão de RNAs codificantes em 8,6% com rela¸cão à CNCI; 11,4% com rela¸cão à PLEK e 4,4% com rela¸cão à CPC2. A propósito da identifica¸cão dos RNAs não-codificantes, a média geral obtida foi superior em 2,2%, 2,6%, 1,5% com rela¸cão à CNCI, PLEK e CPC2, respectivamente. A melhoria dos ´ındices de acurácia refor¸ca a estabilidade e a homogeneidade do método. Por fim, convém destacar que o método implementado pela BASiNET usa ferramentas de código aberto e pode ser executado em um computador com configura¸cões básicas, sendo extens´ıvel à classifica¸cão de outras sequências como as de DNAs e aminoácidos.

Palavras-chaves: Bioinformática. Classifica¸cão supervisionada. Redes complexas. Extra¸cão de caracter´ısticas. RNAs. Reconhecimento de padrões.

(9)

Pattern recognition using complex network metrics for feature extraction, representation and classification of sequences of RNAs

KATAHIRA, Isaque. Pattern recognition using complex network metrics for fea-ture extraction, representation and classification of sequences of RNAs. 2018. 85 p. Dissertation (Master in Bioinformatics) – Federal Technological University of Paraná. Cornélio Procópio, 2018.

Due to the emergence of Next Generation Sequencers (NGS), a large volume of DNAs and RNAs has been sequenced quickly at relatively lower costs. NGS has a output capacity of several thousands of sequences simultaneously, producing a massive volume of data to be analyzed. In this sense, computational tools become essential not only for an extraction, but also for the data selection and analysis. This research presents a model capable of extracting features for classification of coding and non-coding RNAs. The BiologicAl Sequences NET-work (BASiNET) is available at url https : //cran.r − project.org/package = BASiN ET , implements the developed method, which convert RNAs sequences through complex net-works, since these are efficient to represent real systems, as is the case with biological systems. In order to represent the selected sequences, the configuration of the complex network is from the step size parameter, that represents the connections between the nucleotides, and also the word size parameter, that represents the quantity of nucleotides by vertex; afterwards the least dense edges are removed for subnetwork generation resulting from the increasing elimination of 1 to n edges from the network. Subsequently, each subnetwork is submitted to the measures of: proximity, degree, maximum degree, minimum degree, intermediation, clustering coefficient, mean minimum path, standard deviation and motifs. The extraction of measures from each of these subnetworks makes up the feature vector, the vector values are inserted in the supervised classification algorithm that, through the detection of patterns, performs the distinction of sequences with 10-fold cross validation. The BASiNET tool is applied to two data sets. The obtained results were compared with other tools: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) and Coding Potential Calculator (CPC2). The comparison of the BASiNET performance indicates, since it higher average accuracy results in the identification of coding RNAs and non-coding RNAs in the two experimental data sets. The average indices obtained from the two experiments were higher in the identification of coding RNAs by 8,6 % with respect to the CNCI; 11,4 % with respect to PLEK and 4,4 % with respect to CPC2. Regarding the identification of the non-coding RNAs, the overall average obtained was 2,2 %, 2,6 %, 1,5 % higher with respect to CNCI, PLEK and CPC2, respectively. The improvement of the accuracy indices reinforces the stability and the homogeneity of the method. Finally, it should be noted that the method implemented by BASiNET uses open source tools and can be executed on a computer with basic configurations, being extended to the classification of other sequences such as DNAs and amino acids.

Keywords: Bioinformatics. Supervised classification. Complex networks. Feature extraction. RNAs. Pattern recognition.

(10)

Figura 1 – Etapas da pesquisa . . . 20

Figura 2 – RNA Polimerase no processo de transcri¸c˜ao. . . 25

Figura 3 – Estrutura de um RNA. . . 25

Figura 4 – C´odigo gen´etico. . . 27

Figura 5 – Organiza¸c˜ao das estruturas da prote´ına. . . 28

Figura 6 – Grafo direcionado e sua matriz de adjacˆencias. . . 31

Figura 7 – Grafo n˜ao-direcionado e sua matriz de adjacˆencias. . . 32

Figura 8 – Grafo ponderado e sua matriz de pesos. . . 32

Figura 9 – Dinˆamica em uma rede complexa. . . 33

Figura 10 – Rede aleatória, a) distribui¸cão dos vértices e b) representa¸cão média dos graus. . . 34

Figura 11 – Rede de mundo pequeno. . . 35

Figura 12 – Conexões dos vértices, a) rede aleatória e b) rede livre de escala. . . 36

Figura 13 – Exemplos de redes com motifs, a) motif em uma rede real e b) motif em uma rede aleat´oria. . . 39

Figura 14 – Motifs em redes biol´ogicas. . . 39

Figura 15 – Árvore de decisão binária em que a) contém a estrutura raiz, descen-dente e folha, e b) representa a estrutura de decisão com base nas caracter´ısticas de m1, m2 e m3, por exemplo, se o valor de m1 > 5 e m2 <= 7, portanto, essa instância é predita como classe B. . . 42

Figura 16 – Valida¸c˜ao Cruzada . . . 45

Figura 17 – Distribui¸c˜ao dos tamanhos das sequˆencias de RNAs no primeiro conjunto de dados. . . 51

Figura 18 – Distribui¸c˜ao dos tamanhos das sequˆencias de RNAs no segundo conjunto de dados. . . 53

Figura 19 – Método utilizado para identifica¸cão de padrões. . . 56

Figura 20 – Grafo de uma sequˆencia com tamanho de palavra 3 e tamanho de passo 1. 57 Figura 21 – Remo¸c˜ao das arestas menos densas, a) threshold = 0, b) threshold = 1 e c) threshold = 2. . . 58

(11)

dados. . . 63 Figura 23 – Árvore de decisão do J48 para a espécie Danio rerio no primeiro conjunto

de dados. . . 64 Figura 24 – Histograma da frequência das métricas utilizadas pelas árvores de decisão

para classifica¸cão no primeiro conjunto de dados. . . 65 Figura 25 – Média geral de acurácia de mRNAs, long RNAs e small RNAs no

segundo conjunto de dados. . . 68 Figura 26 – Árvore de decisão do J48 para a espécie Caenorhabditis elegans no

segundo conjunto de dados. . . 68 Figura 27 – Histograma da frequência das métricas utilizadas pelas árvores de decisão

para classifica¸cão no segundo conjunto de dados. . . 69 Figura 28 – Distin¸cão de redes pela remo¸cão de vértices com alta intera¸cão, sendo

a) um grafo e b) o mesmo grafo com a remo¸cão de um vértice, fato que altera a topologia da rede. . . 70 Figura 29 – Rela¸cão entre o caminho m´ınimo e a intermedia¸cão, sendo que em a) o

caminho m´ınimo é de 2 saltos e em b) o caminho m´ınimo é de 4 saltos devido à remo¸cão de um vértice com alta intera¸cão. . . 71

(12)

Tabela 1 – Repositórios de dados biológicos. . . 29 Tabela 2 – Alfabetos que representam as sequências biológicas. . . 30 Tabela 3 – Matriz de confusão. . . 43 Tabela 4 – Primeiro conjunto de dados completo utilizado pela ferramenta PLEK 50 Tabela 5 – Segundo conjunto de dados completo utilizado pela ferramenta CPC2 . 52 Tabela 6 – Comparativo de acurácia média da BASiNET com as ferramentas de

predi¸cão CNCI, PLEK e CPC2, no primeiro conjunto de dados . . . . 62 Tabela 7 – Identifica¸cão dos thresholds de recorrência das métricas caminho m´ınimo

médio (ASPL) e intermedia¸cão (BET) aplicadas ao primeiro conjunto de dados . . . 66 Tabela 8 – Comparativo de acurácia média da BASiNET com as ferramentas de

predi¸cão CNCI, PLEK e CPC2, no segundo conjunto de dados . . . 67 Tabela 9 – Identifica¸cão dos thresholds de recorrência das métricas caminho m´ınimo

m´edio (ASPL) e intermedia¸c˜ao (BET) aplicadas ao segundo conjunto de dados . . . 70 Tabela 10 – BASiNET aplicada ao primeiro conjunto de dados com as medidas

de avalia¸c˜ao: verdadeiros positivos (TP), verdadeiros negativos (TN), precis˜ao e F-measure, com o classificador Random Forest (RF) . . . . 75 Tabela 11 – BASiNET aplicada ao primeiro conjunto de dados com as medidas

de avalia¸c˜ao: verdadeiros positivos (TP), verdadeiros negativos (TN), precis˜ao e F-measure, com o classificador J48 . . . 75 Tabela 12 – BASiNET aplicada ao segundo conjunto de dados com as medidas

de avalia¸c˜ao: verdadeiros positivos (TP), verdadeiros negativos (TN), precis˜ao e F-measure, com o classificador J48. . . 76 Tabela 13 – BASiNET aplicada ao segundo conjunto de dados com as medidas

de avalia¸c˜ao: verdadeiros positivos (TP), verdadeiros negativos (TN), precis˜ao e F-measure, com o classificador Random Forest (RF) . . . . 76

(13)

A Adenina

AUC Area Embaixo da Curva (Area Under the Curve)´

C Citosina

CN Redes Complexas (Complex Networks)

COG Conjunto de Grupos Ort´ologos (Cluster of Orthologous Groups) CVC Clorose Variegada dos Citrus

DDBJ Banco de DNA do Jap˜ao (DNA Data Bank of Japan) DNA Acido Desoxirribonucleico (Deoxyribonucleic Acid)´

EMBL Laborat´orio Europeu de Biologia Molecular (European Molecular Bio-logy Laboratory)

FN Falso Negativo

FPR Taxa de Falsos Positivos (False Positive Rate)

KEGG Enciclop´edia Kyoto de Genes e Genomas (Kyoto Encyclopedia of Genes and Genomes)

G Guanina

GO Gene Ontology

INSDC Colabora¸cão Internacional de Banco de Dados de Sequências de Nu-cleot´ıdeos (International Nucleotide Sequence Database Collaboration) lncRNAs RNAs longos não-codificantes (long non-coding) RNAs

Mb Megabases

mRNA RNA mensageiro

NCBI Centro Internacional para Informa¸c˜ao Biotecnol´ogica (National Center for Biotechnology Information)

(14)

NIH Instituto Nacional de Sa´ude (National Institutes of Health) NGS Sequenciamento de Nova Gera¸c˜ao (Next Generation Sequencing) ORF Quadro Aberto de Leitura (Open Reading Frame)

Pb Pares de base

PDB Banco de Dados de Prote´ınas (Protein Data Bank) sncRNAs RNAs n˜ao-codificantes curtos (small non-coding) RNAs

RefSeq Base de dados de Sequˆencias de Referˆencia (Reference Sequence Data-base)

RNA Acido Ribonucleico (Ribonucleic Acid)´

ROC Caracter´ıstica de Opera¸c˜ao do Receptor (Receiver Operating Characte-ristic)

T Timina

TN Verdadeiro Negativo TP Verdadeiro Positivo

TPR Taxa de Verdadeiros Positivos (True Positive Rate) tRNA RNA transportador

U Uracila

(15)

G Caracteriza um grafo ou uma rede

V Representa um conjunto de vértices de uma rede E Conjunto de pares não ordenados “arestas” vi Conjuntos das adjacências do vértice i

Si For¸ca do v´ertice i

(16)

1 Introdu¸c˜ao . . . 17

1.1 Motiva¸c˜ao . . . 17

1.2 Objetivos . . . 20

1.3 Contribui¸c˜oes . . . 21

1.4 Organiza¸c˜ao do trabalho . . . 21

2 Revis˜ao bibliogr´afica . . . 22

2.1 Sequˆencias biol´ogicas . . . 23

2.1.1 DNA . . . 23

2.1.2 RNA . . . 24

2.1.3 Prote´ına . . . 26

2.1.4 Repositórios de sequências biológicas . . . 28

2.2 Modelos de redes complexas . . . 30

2.2.1 Redes aleat´orias . . . 34

2.2.2 Redes de mundo pequeno . . . 35

2.2.3 Redes livres de escala . . . 35

2.2.4 M´etricas de redes complexas . . . 36

2.2.5 Reconhecimento de padr˜oes e classifica¸c˜ao . . . 40

2.2.6 Algoritmo de classifica¸cão de árvore de decisão . . . 41

2.2.7 Medidas de avalia¸c˜ao do classificador . . . 43

2.2.8 Valida¸c˜ao Cruzada . . . 45

2.3 Metodologias propostas para classifica¸c˜ao de RNAs codificantes e RNAs n˜ao-codificantes de prote´ınas . . . 45

2.3.1 Coding Potential Calculator (CPC e CPC2) . . . 46

2.3.2 Coding-Non-Coding Index (CNCI) . . . 47

2.3.3 Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK) . . . 48

3 Recursos necess´arios e proposta para classifica¸c˜ao de RNAs . 49 3.1 Materiais . . . 50

(17)

3.1.3 Software WEKA . . . 54

3.2 M´etodo proposto . . . 55

3.2.1 Mapeamento de sequˆencias de RNAs . . . 56

3.2.2 Extra¸c˜ao de caracter´ısticas para a identifica¸c˜ao de RNAs . . . 58

3.2.3 Classifica¸c˜ao de sequˆencias em RNAs codificantes ou RNAs n˜ ao-codificantes . . . 59

3.2.4 Algoritmo de extra¸c˜ao de caracter´ısticas: BASiNET . . . 59

4 Resultados da classifica¸c˜ao e discuss˜ao comparativa . . . 61

4.1 Classifica¸c˜ao de mRNAs e ncRNAs - comparativo da BASiNET com as ferramentas PLEK, CNCI e CPC2 . . . 61

4.2 Classifica¸c˜ao de mRNAs, lncRNAs e sncRNAs - comparativo da BA-SiNET com as ferramentas PLEK, CNCI e CPC2 . . . 66

5 Conclus˜oes . . . 72

Apˆendice A . . . 75

Apˆendice B . . . 76

encias . . . 77 Referˆ

(18)

1 Introdu¸c˜ao 1.1 Motiva¸c˜ao

As demandas de processamento computacional cada vez mais sofisticadas, a exigência de tempos de resposta cada vez menores e o crescente volume de dados têm desa-fiado pesquisadores de diversas áreas do conhecimento. As análises de sequências biológicas têm conquistado uma importância cada vez maior devido à extensa quantidade de dados sequenciados. Para tratar desse fenômeno, a literatura comumente utiliza o termo “Big Data”, um termo bastante amplo que se refere a tecnologias de gera¸cão, armazenamento, transmissão e processamento de uma grande e complexa quantidade de dados estruturados e não-estruturados produzidos por aplica¸cões de alto desempenho, de forma a torná-los significativos em diversos contextos de análise (BARAB ÁSI, 2009; CLINE et al., 2007; CUZZOCREA; SONG; DAVIS, 2011; FONSECA et al., 2016; GOODWIN; MCPHERSON; MCCOMBIE, 2016; LETOUZÉ, 2011; SCHOEBERL et al., 2017).

O crescente fluxo de dados na ordem de centenas de petabytes traz novos e grandes desafios no que tange a estratégias computacionais capazes de realizar o processamento anal´ıtico dos dados (data about the data) em diversas redes, como transportes, sociais, comunica¸cões e biológicas, entre outras. Nas mais variadas áreas as quais se aplicam, algoritmos buscam detectar padrões, tendências e correla¸cões que, somados a técnicas avan¸cadas de visualiza¸cão, constituem ferramentas importantes para atribui¸cão de sentidos ao massivo volume de dados dispon´ıvel (ALBERT, 2005; BARAB ÁSI et al., 2002; CAMILO; SILVA, 2009; ITZKOVITZ et al., 2003; PANG-NING; STEINBACH; KUMAR, 2014).

Na biologia molecular, as aplica¸cões de Big Data estão relacionadas, sobretudo, aos estudos das “ Ômicas”, investiga¸cão das moléculas que compõem as células, os tecidos e os organismos, destinando-se principalmente ao estudo de genes (genômica), RNAs (trans-criptômica), prote´ınas (proteômica) e metabólitos (metabolômica). Algumas aplica¸cões destacáveis estão relacionadas ao uso de biomarcadores voltados à identifica¸cão de genes que causam doen¸cas na gravidez, como, a pré-eclâmpsia ou o nascimento prematuro (HORGAN; KENNY, 2011), às intera¸cões entre prote´ınas (SAID et al., 2004) e à

identi-fica¸cão de lncRNAs relacionados a doen¸cas graves como o câncer (GUTTMAN; RINN, 2012). O conjunto de todos esses estudos também é conhecido como biologia de alta

(19)

dimensionalidade e todas essas técnicas compõem a chamada biologia sistêmica (IDEKER; GALITSKI; HOOD, 2001; PIRES, 2014; WESTERHOFF; PALSSON, 2004).

A biologia sistêmica inclui a visualiza¸cão de redes associativas a fim de analisar e decifrar a complexidade dos sistemas biológicos, por meio da observa¸cão das conexões existentes entre os elementos (WANG; CHANG, 2011). Com uma visão essencialmente interdisciplinar, ela supera o reducionismo por considerar que o todo é maior que a soma das partes e que as redes estabelecidas são fundamentais para a compreensão de como os sistemas mudam ao longo do tempo, ou seja, em um organismo nenhum sistema funciona so-zinho, todos os sistemas se articulam entre si e tal articula¸cão ainda é influenciada de forma dinâmica por diversos fatores espec´ıficos à rede analisada (GOODWIN; MCPHERSON; MCCOMBIE, 2016; HORGAN; KENNY, 2011). Uma das vantagens em utilizar a biologia sistêmica é a capacidade de projetar modelos in silico preditivos e multiescalares que estão relacionados à descoberta de novos biomarcadores, por exemplo, para o melhoramento na produ¸cão de soja (HAO et al., 2012), à segmenta¸cão de grupos pautada em perfis genéticos, bem como ao aprimoramento de tratamentos de doen¸cas, como o câncer (BIOLOGY, 2017; MUHAMMAD et al., 2017).

Nesse aspecto, a visão em rede tornou-se essencial para a compreensão das intera¸cões das unidades biológicas, ou seja, como as sequências e os sistemas interagem entre si para a execu¸cão das funcionalidades dos organismos (KITANO, 2002; LOPES; CESAR; COSTA, 2011a; LOPES; OLIVEIRA; CESAR, 2011b; MUHAMMAD et al., 2017; YEGER-LOTEM et al., 2004; ZHAO et al., 2015). Em uma análise de grafos (redes), os “vértices” correspondem às unidades de informa¸cão biológica e as “arestas” são as conexões existentes entre essas informa¸cões, sendo que essa representa¸cão permite visualizar os relacionamentos existentes para um melhor entendimento de vários processos biológicos, visto que a topologia das redes pode interferir na funcionalidade do organismo (BARAB ÁSI, 2009; CHEN et al., 2010; GOLLO; BREAKSPEAR, 2014; LOPES et al., 2014; MEGHANATHAN, 2016). O uso de redes complexas é cada vez mais recorrente para se modelar sistemas reais e artificiais (ALBERT, 2005), pois essas redes podem representar desde a análise de rea¸cões qu´ımicas até a dinâmica dos relacionamentos que permeiam a sociedade, por exemplo, as redes sociais e a internet (BARAB ÁSI et al., 2002; BOCCALETTI et al., 2006; JIA et al., 2017). No campo biológico, as redes complexas têm colaborado especialmente para os estudos de bioinformática relacionados à predi¸cão gênica e às intera¸cões entre prote´ınas

(20)

(ALBERT, 2005; CONQUE; KASHIWABARA; LOPES, 2014; LI; ZHANG; ZHOU, 2014; LOPES; MARTINS; CESAR, 2008).

Nesse sentido, as redes complexas têm sido usadas para representar diferentes objetos e extrair caracter´ısticas mais globais e abrangentes em diferentes contextos (BOCCALETTI et al., 2006; COSTA et al., 2007; MILO et al., 2002; NEWMAN, 2003; VAZQUEZ et al., 2004), considerando interatomas (BARAB ÁSI; GULBAHCE; LOSCALZO, 2011; PAVLOPOULOS et al., 2011), organiza¸cão celular (BARAB ÁSI; OLTVAI, 2004), redes gênicas (CONQUE; KASHIWABARA; LOPES, 2016; LOPES; CESAR; COSTA, 2011a; LOPES et al., 2010; LOPES et al., 2014; VICENTE; LOPES, 2014), dentre outros.

• Problema de pesquisa:

Diante do grande volume de dados biológicos disponibilizados pelos repositórios na internet, como a Bioinformática pode auxiliar na transforma¸cão desses dados em informa¸cões significativas?

• Hip´otese:

A utiliza¸cão de métricas topológicas de redes complexas auxilia na classifica¸cão e identifica¸cão de sequências biológicas de RNAs codificantes e RNAs não-codificantes. • Método:

As sequências biológicas são transformadas em grafos utilizando dois parâmetros de configura¸cão: o tamanho da palavra (Word Size - WS), que representa a quantidade de nucleot´ıdeos - e o tamanho do passo (Step Size - ST), que representa as conexões entre eles. Desses grafos são extra´ıdas métricas de redes complexas de proximidade, grau, grau m´ınimo, grau máximo, intermedia¸cão, coeficiente de clustering, caminho m´ınimo médio, desvio padrão e motif de tamanho 3 e 4 (BARAB ÁSI; OLTVAI, 2004; BOCCALETTI et al., 2006; COSTA et al., 2007). Na sequência, são aplicados thresholds de modo a diminuir a quantidade de arestas menos densas criando subgrafos, dos quais são novamente extra´ıdas as métricas já descritas, gerando um vetor de caracter´ısticas, de modo que esses valores são utilizados com intuito de revelar propriedades significativas para compreensão, classifica¸cão e caracteriza¸cão das sequências biológicas (ALBERT; BARAB ÁSI, 2002; COSTA et al., 2007). Uma visão geral da pesquisa pode ser observada na Figura 1:

(21)

Figura 1 – Etapas da pesquisa

Fonte: Autoria pr´opria.

1.2 Objetivos

– Objetivo geral:

O objetivo principal deste trabalho é caracterizar sequências de RNAs por meio da utiliza¸cão de métricas de redes complexas a fim de buscar padrões para a classifica¸cão das sequências em RNAs codificantes e RNAs não-codificantes. – Objetivos espec´ıficos:

1) Aplicar uma metodologia baseada no agrupamento dos nucleot´ıdeos (nu-cleot´ıdeo, dinucleot´ıdeo ou trinucleot´ıdeo) e na rela¸c˜ao organizacional entre eles para representar as sequˆencias de RNAs na forma de redes complexas;

2) Classificar diferentes classes de RNAs como: mRNA, ncRNA, lncRNA e sncRNA;

3) Analisar poss´ıveis padrões na identifica¸cão e classifica¸cão das referidas redes biológicas.

4) Comparar a ferramenta desenvolvida, BASiNET, com as ferramentas CNCI, PLEK e CPC2 a fim de verificar a validade do método por meio da compara¸cão dos ´ındices de acurácia obtidos na classifica¸cão de RNAs codificantes e RNAs não-codificantes.

(22)

1.3 Contribui¸c˜oes

O desenvolvimento do método proposto BiologicAl Sequences NETwork (BASiNET) contribui para a representa¸cão e distin¸cão de sequências biológicas de RNAs em codificantes ou não-codificantes. Pautada no uso de métricas de redes complexas para a extra¸cão de caracter´ısticas distintivas, a metodologia pode ser ampliada a outras classifica¸cões biológicas relacionadas a DNAs e aminoácidos. Desse modo, a ferramenta pode se tornar extens´ıvel a um número significativo de problemas relacionados a sequências biológicas.

1.4 Organiza¸c˜ao do trabalho

O presente trabalho está organizado da seguinte forma: após essa introdu¸cão, no segundo cap´ıtulo, há a apresenta¸cão do referencial bibliográfico sobre dados biológicos e a conexão entre as redes complexas com suas aplica¸cões em sistemas reais. No terceiro cap´ıtulo, é descrito o método do trabalho, que consiste em utilizar métricas de redes complexas para caracterizar sequências biológicas de RNAs. O quarto cap´ıtulo apresenta os resultados da caracteriza¸cão e distin¸cão, comparando os ´ındices obtidos pela BASiNET com os de outras ferramentas de predi¸cão. No quinto cap´ıtulo, são apresentadas as conclusões e os encaminhamentos para pesquisas futuras.

(23)

2 Revis˜ao bibliogr´afica

O primeiro genoma completo sequenciado foi em um v´ırus (Enterobacteria phage phiX174), em 1977, realizado por Frederick Sanger que sequenciou 5.375 pares de bases (pb) (SANGER; NICKLEN; COULSON, 1977). Desde então, as inova¸cões tecnológicas realizaram uma revolu¸cão na área de sequenciamento de dados biológicos, visto que proporcionam a leitura de uma maior quantidade de sequências em tempo relativamente reduzido (GOODWIN; MCPHERSON; MCCOMBIE, 2016; WALKER, 2014).

Nesse aspecto, a década de 1990 foi um per´ıodo intenso em descobertas de sequências biológicas, destacando-se o lan¸camento do Projeto Genoma Humano, o qual reuniu pesqui-sadores e laboratórios do mundo todo, inclusive do Brasil, para realizar o mapeamento genético que auxiliou na compreensão da origem de várias doen¸cas, como por exemplo, o câncer (LANDER et al., 2001; SAID et al., 2004). O sequenciamento completo do Projeto Genoma Humano foi conclu´ıdo em 2003 e foram sequenciadas 3,4 bilhões pb, entre 20-25 mil genes, dos quais apenas 2% são codificados em prote´ınas (GIBBS et al., 2003; INTERNATIONAL; CONSORTIUM, 2003).

Em 1992, o repositório de sequências biológicas GenBank foi integrado ao Instituto Nacional de Saúde (NIH, do inglês National Institutes of Health), permitindo o acesso público a sequências de nucleot´ıdeos e prote´ınas (BENSON; LIPMAN; OSTELL, 1993). Em 1995, foi sequenciado o primeiro genoma de um procarioto (Haemophilus influenzae) com 1.830.137 pb (FLEISCHMANN et al., 1995).

Em 1996, na Bélgica, o pesquisador André Goffeau publicou o primeiro genoma eucarioto unicelular (Saccharomyces cerevisiae), os resultados foram 12.068 Kb e 6.000 genes (GOFFEAU et al., 1996). Em 1998, o genoma de um organismo multicelular de uma espécie de nematoide (Caenorhabditis elegans) foi publicado com 97 Mb e 19.000 genes (CONSORTIUM et al., 1998). O in´ıcio do século XXI foi marcado com o sequenciamento da Drosophila melanogster com cerca de 120 Mb e 13.600 genes (ADAMS et al., 2000). Ainda no ano 2000, o primeiro vegetal sequenciado foi a espécie Arabidopsis thaliana com um genoma de 125 Mb e 25.498 genes (KAUL et al., 2000).

No Brasil, foi publicado no ano 2000, o sequenciamento completo da bact´eria Xyllela fastidiosa com 2.679.305 pb e dois plasm´ıdeos com 51.158 bp e 1.285 bp, respons´aveis por

(24)

provocar a doen¸ca Clorose Variegada dos Citrus (CVC) ou amarelinho, ligada à diminui¸cão drástica da produtividade de plantas c´ıtricas (SIMPSON et al., 2000).

A partir de 2005, os Sequenciadores de Nova Gera¸cão - NGS (do inglês, Next Generation Sequencing) come¸caram a ser disponibilizados e proporcionaram um grande avan¸co no volume de dados gerados. O sequenciador 454 (Life Sciences), por exemplo, proporcionou a produ¸cão de dados moleculares de 25 milhões de pares de base em uma corrida de 4 horas, isso representou uma redu¸cão de tempo de 100 vezes, quando comparado ao método de Sanger (MARGULIES et al., 2005). Atualmente, com o uso dos sequenciadores de alto desempenho (NGS), é poss´ıvel analisar o genoma completo de diversas espécies, incluindo as regiões codificantes e não-codificantes (ALBERTS et al., 2010).

Desde seu in´ıcio, os NGS têm impactado significativamente nos estudos em Bioin-formática devido ao aumento do volume de dados dispon´ıveis, ao tamanho das sequências produzidas e à queda dos custos de sequenciamento, proporcionado por ferramentas como a Illumina ou Nanopore (FONSECA et al., 2016; GOODWIN; MCPHERSON; MCCOMBIE, 2016).

Devido à massiva produ¸cão de sequências biológicas, principalmente a partir do lan¸camento comercial dos NGS, há uma grande lacuna entre produ¸cão de dados biológicos e sua análise, fato que motiva a constru¸cão de métodos eficientes para tratar esses dados e torná-los informa¸cões significativas.

2.1 Sequˆencias biol´ogicas 2.1.1 DNA

As informa¸cões genéticas de todos os organismos eucariotos e procariotos estão armazenadas na molécula de Ácido Desoxirribonucleico (DNA, do inglês Deoxyribonu-cleic Acid) (WATSON; CRICK, 1953), nos organismos eucariotos o DNA está localizado no núcleo da célula, enquanto nos organismos procariotos o DNA está disperso no citoplasma da célula (ZAHA; FERREIRA; PASSAGLIA, 2014). Existem poucos v´ırus que contêm as informa¸cões na molécula de Ácido Ribonucleico (RNA, do inglês Ribonucleic Acid) (SNUSTAD, 2011). As moléculas de DNA e RNA são essenciais para a sobrevivência, desen-volvimento e funcionamento de todos os organismos (ZAHA; FERREIRA; PASSAGLIA, 2014).

(25)

A estrutura primária da molécula de DNA é composta por um grupo fosfato, uma base nitrogenada (Adenina, Timina, Citosina e Guanina) e um a¸cúcar (desoxirribose), cuja estrutura qu´ımica é formada por uma pentose contendo cinco carbonos, dos quais o carbono 5’ e o carbono 3’ se ligam ao fosfato que é composto de um átomo de fósforo e quatro de oxigênio, formando uma sequência linear de nucleot´ıdeos (ALBERTS et al., 2010; WATSON; CRICK, 1953; ZAHA; FERREIRA; PASSAGLIA, 2014).

A estrutura secundária do DNA, conhecida como dupla hélice, possui dois filamentos de nucleot´ıdeos unidos por pontes de hidrogênio que são antiparalelas, ou seja, com polaridade oposta entre si, em forma de uma espiral (ALBERTS et al., 2010; SNUSTAD, 2011; WATSON; CRICK, 1953; ZAHA; FERREIRA; PASSAGLIA, 2014).

Na estrutura secundária, as bases nitrogenadas são pareadas entre a Adenina e a Timina, unidas por duas pontes de hidrogênio, e entre a Citosina e a Guanina que são ligadas por três pontes de hidrogênio. As bases Timina e Citosina pertencem ao grupo das pirimidinas apresentando um único anel aromático heteroc´ıclico, já a Adenina e a Guanina pertencem ao grupo qu´ımico das purinas e apresentam anel aromático heteroc´ıclico duplo (ALBERTS et al., 2010; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

Ao preservar a informa¸cão genética, o DNA armazena os dados de forma protegida e condensada, a combina¸cão do DNA com prote´ınas como as histonas forma os nucleossomos resultando-se na cromatina; no mais alto n´ıvel de condensa¸cão, formam-se os cromossomos (ZAHA; FERREIRA; PASSAGLIA, 2014).

A condensa¸cão do material genético se justifica como mecanismo para que não ocor-ram falhas ou muta¸cões nos descendentes ao longo do processo de replica¸cão (SNUSTAD, 2011). Contudo, uma vez que a informa¸cão genética (DNA) é a mesma em todas as células, a diferencia¸cão e a expressão genética se dá por meio da regula¸cão gênica (ALBERTS et al., 2010; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

2.1.2 RNA

Dado que sequências biológicas podem apresentar diferentes expressões gênicas, compreender a dinâmica das rela¸cões existentes entre os RNAs ainda é uma questão em aberto (GUTTMAN; RINN, 2012; LOPES; OLIVEIRA; CESAR, 2011b; SUN et al., 2013; TAYLOR; SIEGEL; GALITSKI, 2007).

(26)

O RNA é transcrito a partir da fita molde de DNA de uma região gênica, no sentido 5’ e 3’ de forma complementar a fita molde, ou seja, ele terá a mesma informa¸cão da fita codante, exceto pela troca da base nitrogenada Timina pela Uracila (ALBERTS et al., 2010). Nesse processo, destaca-se a enzima denominada RNA Polimerase que possui fun¸cões como: a) reconhecer e ligar-se a região certa do DNA a ser sintetizado; b) separar as fitas duplas de DNA e mantê-las separadas na região durante a s´ıntese do RNA e estabilizar essa região; c) restaurar a região já sintetizada do DNA e em conjunto com outras prote´ınas finalizar a s´ıntese do RNA (ZAHA; FERREIRA; PASSAGLIA, 2014).

A Figura 2 exibe a atua¸c˜ao da RNA Polimerase:

Figura 2 – RNA Polimerase no processo de transcri¸c˜ao.

Fonte: National Human Genome Research Institute - adapta¸c˜ao.

Os mRNAs carregam os códigos necessários para a produ¸cão de prote´ınas, con-forme descrito inicialmente por Beatle e Tatum na década de 1940 (ZAHA; FERREIRA; PASSAGLIA, 2014).

Nos organismos eucariotos, o mRNA passa por algumas etapas até ser traduzido no ribossomo. Inicialmente, após a transcri¸cão da região gênica do DNA, a fita simples de RNA contém unidades codificadoras (éxons) e as unidades não-codificadoras (intróns), conforme Figura 3: exón1 116-130 573-904 216-255

AAAA...

CAP

142-145 222 + codificante 1-30 Conteúdo 31-104 aminoácidos Comprimento exóns Comprimento intróns Codificante 105-fim + 3' UTR 5' UTR

intrón1 exón2 intrón2 exón3

Figura 3 – Estrutura de um RNA.

Fonte: (LEWIN, 2008) - adapta¸c˜ao.

A partir da unidade de transcri¸cão, o transcrito primário de RNA passa pelo capeamento (CAP) no sentido 5’ e pela poliadenila¸cão (AAAA...) no sentido 3’; na sequência, há a retirada dos ´ıntrons, de modo que a fita de mRNA contenha apenas os

(27)

exóns em um processo de recombina¸cão (splicing) do RNA, desse modo, o mRNA se encontra no estágio maduro podendo atravessar a parede nuclear para ser traduzido pelos ribossomos no citoplasma (ALBERTS et al., 2010).

Nesse contexto, há diversos tipos de RNAs além dos mRNAs, que são diferenciados pela região gênica transcrita, por exemplo, os RNAs ribossomais (rRNA) que são encon-trados em maior quantidade na célula, sendo os responsáveis por sintetizar as prote´ınas; os RNAs transportadores (tRNA) que são responsáveis por transportar os aminoácidos; e outros diversos RNAs não-codificantes denominados de non-coding RNAs (ncRNA), que são essenciais para compreensão e funcionamento dos organismos, atuando por exemplo, na replica¸cão, na tradu¸cão, ou na regula¸cão da expressão gênica (GUTTMAN; RINN, 2012; SNUSTAD, 2011; ZAHA; FERREIRA; PASSAGLIA, 2014).

Dentre os ncRNAs, a classe long non-coding (lncRNAs) é composta por sequências com mais de 200 pares de bases (WANG; CHANG, 2011), já a classe dos small non-coding (sncRNAs) são sequências menores (KAPRANOV et al., 2007), muito abundantes nos organismos, altamente conservados que são envolvidos no silenciamento gênico transcri-cional (LEE; AMBROS, 2001; WANG; CHANG, 2011). A importância dos ncRNAs se relaciona a regula¸cão da transcri¸cão que pode estar associada a doen¸cas humanas como o câncer (SPIZZO et al., 2012; ZHAO et al., 2015), s´ındromes neurodegenerativas, disfun¸cões cardiovasculares, dentre outras (CHEN et al., 2012).

Nesse sentido, identificar os diferentes tipos de sequências, no grande volume de dados produzidos pelo sequenciamento de alto desempenho, tem movido esfor¸cos de pesquisadores do mundo que buscam desenvolver métodos computacionais eficazes na classifica¸cão de mRNA, ncRNAs, lncRNAs e sncRNAs (CONQUE; KASHIWABARA; LOPES, 2014; LI; ZHANG; ZHOU, 2014; LIU; GOUGH; ROST, 2006; KANG et al., 2017; KONG et al., 2007).

2.1.3 Prote´ına

Dado que as prote´ınas são responsáveis por grande parte dos processos biológicos no organismo, é fundamental a compreensão dos mecanismos que participam de sua forma¸cão (DOOLITTLE, 2010).

(28)

Para a s´ıntese das prote´ınas, é necessário que haja o processo de tradu¸cão, em que o mRNA maduro é lido a partir do aminoácido Metionina (AUG) em uma sequência de trincas de nucleot´ıdeos reconhecido pelo rRNA (composto por duas subunidades proteicas), onde cada aminoácido correspondente é transportado pelo tRNA (anticódon) para ser incorporado aos códons, formando uma cadeia de aminoácidos (ZAHA; FERREIRA; PASSAGLIA, 2014).

A Figura 4 exibe o código genético com 20 diferentes aminoácidos, resultando em 64 combina¸cões dos quatro nucleot´ıdeos (A, C, U, G) agrupados em códons (triplets).

UUC UUA UUU UUG UCU UCC UCA UCG UAU UAC UAA UAG UGU UGC UGA UGG CUU CUC CUA CUG CCC CCU CCA CCG CAGCAA CAC CAU CGU CGC CGA CGG AUU AUC AUA AUG ACU ACC ACA ACG AAA AAC AAU

AAG AGGAGA

AGC AGU GUU GUC GUA GUG GCU GCC GCA GCG GAGGAA GAC GAU GGC GGG GGA GGU G F D E A V M T N K L L I R P W H Q S TERM TERM Y C S R Mapeamento dos códons em aminoácidos

Figura 4 – C´odigo gen´etico.

Fonte: NIRENBERG, 2004 - adapta¸c˜ao.

Destaca-se na Figura 4, a não ambiguidade e a redundância de códons pela corres-pondência a um mesmo aminoácido. As únicas sequências não redundantes são: AUG que corresponde ao aminoácido da Metionina e UGG do aminoácido Triptofano. A Metionina também representa o códon de inicializa¸cão da tradu¸cão pelo ribossomo. Já os códons UAA; UAG; UGA não correspondem a nenhum aminoácido e indicam apenas o término da tradu¸cão da prote´ına (NIRENBERG, 2004).

As prote´ınas são organizadas em quatro estruturas: i) a estrutura primária é composta pela sequência dos aminoácidos; ii) a estrutura secundária é formada por aminoácidos ligados por hidrogênio, ocorrendo a forma¸cão de alfa hélice e de folha dobrada (beta); iii) a estrutura terciária é resultado da atra¸cão entre a forma¸cão da alfa hélice e da folha dobrada; iv) a estrutura quaternária é composta pela prote´ına com mais de uma cadeia de aminoácidos enovelados em formato espec´ıfico (SNUSTAD, 2011). A Figura 5 exibe as quatro estruturas de uma prote´ına.

(29)

Figura 5 – Organiza¸c˜ao das estruturas da prote´ına.

Fonte: National Human Genome Research Institute - adapta¸c˜ao.

Destaca-se na Figura 5 que cada uma das estruturas pode ter uma fun¸cão no organismo, auxiliando, por exemplo, nos processos de replica¸cão, tradu¸cão, bioss´ıntese e fun¸cões estruturais (SNUSTAD, 2011).

2.1.4 Repositórios de sequências biológicas

Para fomentar os estudos cient´ıficos que envolvem pesquisadores do mundo todo, fo-ram criados laboratórios espec´ıficos para o armazenamento de dados biológicos como sequências de nucleot´ıdeos de DNA e RNA, aminoácidos e prote´ınas (GALPERIN; FERN ÁNDEZ-SU ÁREZ; RIGDEN, 2017). O European Molecular Biology Laboratory (EMBL), instalado desde 1974, é considerado o principal laboratório da Europa para as ciências da vida. Trata-se de uma organiza¸cão intergovernamental com mais de 80 grupos de investiga¸cão independentes que cobrem todo o espectro da biologia molecular e opera em seis locais: em Heidelberg (Alemanha) considerado o laboratório principal; em Barcelona (Espanha) se concentra os estudos da biologia de tecidos e modelagem de doen¸cas; em Hamburg (Alemanha) e Grenoble (Fran¸ca), estão concentradas as pesquisas de biologia estrutural; em Hinxton (Reino Unido) está instalado o Instituto Europeu de Bioinformática; e, em Monterotondo (Itália), onde são desenvolvidos estudos em que ratos são os principais organismos experimentais (STOESSER et al., 2002).

Além do EMBL, destacam-se outros repositórios de dados de importância mundial em estudos de biologia molecular. O International Nucleotide Sequence Database Collabo-ration (INSDC) armazena dados do DNA Data Bank of Japan (DDBJ), pelo European Nucleotide Archive (ENA) e pelo GenBank, localizado no Instituto de Genética, em

(30)

Mishina, Japão, com foco em fornecer dados de nucleot´ıdeos e aminoácidos à comunidade cient´ıfica (COCHRANE et al., 2016; TORIBIO et al., 2017).

O GenBank armazena sequências genéticas de DNA, RNA e prote´ınas de várias espécies procariotas e eucariotas, do National Center for Biotechnology Information (NCBI) (BENSON et al., 2017). O NCBI está localizado em Bethesda, Maryland, EUA, além do banco de Cluster of Orthologous Groups (NCBI COG) que contém as informa¸cões de filogenia envolvendo prote´ınas codificadoras em genomas completos (NCBI, 2017).

O Protein Data Bank (PDB), destaca-se como repositório mundial de informa¸cões sobre as estruturas 3D de grandes moléculas biológicas, incluindo prote´ınas e ácidos nucleicos. O PDB é gerenciado por três centros, localizados nos Estados Unidos, Japão e Europa (ROSE et al., 2017). O Kyoto Encyclopedia of Genes and Genomes (KEGG) está localizado em dois centros no Japão: Centro de Bioinformática no Instituto de Pesquisa Qu´ımica, Universidade de Kyoto e o Centro do Genoma Humano no Instituto de Ciências Médicas, Universidade de Tóquio. O KEGG é um banco de dados de pesquisas integradas de genômica, vias metabólicas, qu´ımica, informa¸cão funcional sistêmica e saúde (KANEHISA et al., 2017).

O Gene Ontology (GO) é uma importante iniciativa da Bioinformática para unificar e fornecer um vocabulário controlado de termos para descrever a fun¸cão do gene e dados de anota¸cões (ASHBURNER et al., 2000).

A Tabela 1 apresenta a compila¸cão da quantidade de dados e sua descri¸cão disponi-bilizados pelos repositórios GENBANK, PDB e KEGG.

Tabela 1 – Reposit´orios de dados biol´ogicos.

Reposit´orio Descri¸c˜ao Quantidade

GENBANK Sequˆencias de nucleot´ıdeos publica-dos e descritos

370.000 esp´ecies formal-mente descritas.

PDB Prote´ınas 3D e ´acidos nucleicos 130.365 estruturas biol´ogicas macromoleculares.

KEGG Fun¸c˜oes do sistema biol´ogico, rela-cionando o conjunto de dados mole-culares. KEGG GENES - 25.193.365; KEGG PATHWAY - 552.727; KEGG REACTION - 10.775; KEGG DISEASE - 1.999; KEGG MEDICUS - 14.578.

(31)

Observa-se a expansão permanente dos repositórios existentes, bem como o surgi-mento de novos. Os dados se expandem em quantidade e diversidade, contribuindo para as mais diversas áreas biológicas, sobretudo para os avan¸cos relacionados à compreensão de muta¸cões dos organismos (GALPERIN; FERN ÁNDEZ-SU ÁREZ; RIGDEN, 2017).

A Tabela 2 apresenta o alfabeto utilizado em cada tipo de sequˆencia, bem como algumas bases de dados de armazenamento.

Tabela 2 – Alfabetos que representam as sequências biológicas. Sequência biológica Alfabeto Repositórios

DNA A,C,T,G RefSeq; GenBank; KEGG; DDBJ;

ENA.

RNA A,C,U,G RefSeq; DDBJ; GenBank.

Amino´acidos A,R,N,D,C,

Q,E,G,H,I, J,K,M,F,P, S,T,W,Y,V

RefSeq; PDB; COG; GenBank.

Fonte: BIONFORMATICS, 2017 - adapta¸c˜ao.

Os repositórios de armazenamento de dados biológicos disponibilizam suas in-forma¸cões por meio de padrões, dentre eles destaca-se o padrão FASTA. Trata-se de um formato de arquivo texto que representa sequências de nucleot´ıdeos ou aminoácidos por meio de letras (BIONFORMATICS, 2017; MICHIGAN, 2017).

2.2 Modelos de redes complexas

Em 1736, Leonhard Euler iniciou os estudos da teoria dos grafos no célebre caso das pontes de Königsberg ao representar cada uma das quatro por¸cões de terras por vértices e cada ponte por uma aresta. Com suas observa¸cões, Euler evidenciou que não existia uma rota que cruzasse todas as pontes sem repetir o caminho (BARAB ÁSI, 2009).

A impossibilidade evidenciada por Euler acontecia devido a uma propriedade do grafo a qual estabelece que atravessar todos os pontos e voltar ao local inicial sem que haja repeti¸cão de caminhos, somente é poss´ıvel caso o ponto de origem tenha um número par de arestas; como todos os vértices do grafo possu´ıam um número ´ımpar de arestas era imposs´ıvel realizar a travessia (BARAB ÁSI, 2009).

Neste contexto, ao modelar problemas reais em grafos, a simplicidade de repre-senta¸c˜ao e a praticidade de uso permitem utilizar suas propriedades para generalizar

(32)

aplica¸cões e encontrar solu¸cões para problemas diversos, como: modelagem de textos; análise de redes sociais; redes neurais; dobramento de prote´ınas; dentre outras fun¸cões biológicas (ALBERT, 2005; BARAB ÁSI, 2009; COSTA et al., 2007; LOPES, 2011; LOPES et al., 2014; SMOOT et al., 2011).

A estrutura dos grafos (Figura 6) é determinada por G = (V, E), na qual a letra G representa o grafo, a letra V os vértices representados pelos dinucleot´ıdeos GG, AT, TG, AA, GA e a letra E corresponde às arestas que determinam o direcionamento das conexões (DIESTEL, 2000). Os grafos também podem ser representados numericamente por meio de uma matriz de adjacências.

Figura 6 – Grafo direcionado e sua matriz de adjacˆencias.

Assim, a matriz de adjacências representa de forma binária a ocorrência de aresta entre os vértices do grafo, sendo que 1 representa a existência de aresta entre o vértice identificado na respectiva linha e coluna e 0 a inexistência delas (DOROGOVTSEV; GOLTSEV; MENDES, 2002). Nos sistemas biológicos, essa estrutura pode ser verificada nas redes de regula¸cão gênica (MILO et al., 2002; LOPES; CESAR; COSTA, 2011a).

O exemplo citado traz um grafo direcionado, contudo há também grafos n˜ ao-direcionados e ponderados. A Figura 7 exibe um grafo não-direcionado acompanhado de sua respectiva matriz de adjacências, neste caso a matriz é simétrica, isto é, a aresta de TG para AA existe também de AA para TG.

(33)

Figura 7 – Grafo n˜ao-direcionado e sua matriz de adjacˆencias.

A Figura 8 exibe um grafo ponderado e sua respectiva matriz de pesos, isto é, cada aresta tem associado a ela um valor que é somado em caso de nova ocorrência. Destaca-se que nesse tipo de grafo as arestas têm um peso associado (GOLDBARG; GOLDBARG, 2012):

Figura 8 – Grafo ponderado e sua matriz de pesos.

Dado o exposto, qualquer um dos grafos pode conter conexões irregulares entre os vértices e topologias não triviais, tais grafos são definidos como redes complexas (BARAB ÁSI, 2009). Os diferenciais sobre as redes complexas com rela¸cão a um grafo simples é a complexidade e a dinâmica na representa¸cão de sistemas reais. Tal representa¸cão demonstra padrões em sua estrutura que se assemelham à complexidade das atividades do mundo real (BARAB ÁSI, 2009).

(34)

Costa (2007) demonstra a aplica¸cão dos thresholds para caracteriza¸cão e repre-senta¸cão da dinâmica dos conjuntos. Na Figura 9, foi poss´ıvel selecionar vários subconjuntos por meio de métricas, isso gera o vetor de caracter´ısticas baseado na dinâmica da rede representado por ~µT, em que µ é a média eT o threshold (COSTA et al., 2007).

Na sequˆencia, foram aplicados limiares (thresholds) no grafo, conforme exibido na Figura 9. Representação Representação Threshold Caracterização Caracterização

µ=[µ

1

µ

2

µ

3

...µ

TM

]

µ

T

=[µ

T1

µ

T2

µ

T3

...µ

TM

]

∆µ

Figura 9 – Dinˆamica em uma rede complexa.

Fonte: COSTA et al., 2007 - adapta¸c˜ao.

Na literatura são encontrados exemplos de sucesso do uso da teoria de redes complexas na resolu¸cão e representa¸cão de sistemas reais em quatro grupos, conforme descrito por Newman (2003): o primeiro grupo se refere às redes sociais, que são formadas por pessoas com caracter´ısticas e contatos em comum, destaca-se o experimento realizado por Milgram (1967) que afirmou serem necessários em média seis la¸cos de amizade para que duas pessoas quaisquer estejam ligadas no mundo (small world); o segundo grupo trata-se das redes de informa¸cão, em que os relacionamentos se dão pela troca de comunica¸cões, como as cita¸cões entre artigos ou mesmo a web e seus hiperlinks que relacionam uma vasta gama de informa¸cões; o terceiro grupo são as redes tecnológicas dispostas em áreas como a avia¸cão, o transporte, a eletricidade, a comunica¸cão e a internet; e o quarto grupo, foco desta pesquisa, diz respeito às redes biológicas, tais como, as redes neurais, metabólicas, de intera¸cão entre prote´ınas ou de regula¸cão gênica (NEWMAN, 2003).

(35)

As redes complexas apresentam um caminho promissor para o melhor entendimento das intera¸cões biológicas, pois permitem visualizar de forma gráfica a complexidade das atividades dos organismos (ALBERT, 2005).

2.2.1 Redes aleat´orias

De acordo com o modelo de Redes aleatórias proposto por Erdös e Rényi (ER), os vértices são distribu´ıdos de forma aleatória com uma uniformidade de probabilidade entre as conexões (Figura 10a). Esse modelo de distribui¸cão dos graus dos vértices também se aproxima da distribui¸cão de Poisson, conforme exibido na Figura 10b (COSTA et al., 2007; ERD ÖS; RÉNYI, 1959). A letra k representa o grau médio de conexões e P(k) a probabilidade de um novo vértice ter k conexões. Desse modo, é poss´ıvel verificar uma concentra¸cão maior em torno do grau médio, isto é, uma possibilidade maior de que novos vértices estejam em torno do grau médio.

Rede aleatória 1850 0.00 0.08 0.10 0.02 0.04 0.06 P(k) a) 1900 1950 2000 2050 k b) 2100 2150

Figura 10 – Rede aleatória, a) distribui¸cão dos vértices e b) representa¸cão média dos graus.

O modelo ER é considerado a primeira representa¸cão de redes complexas (COSTA et al., 2007). Nesse modelo, inicialmente os vértices estão desconectados, sendo a rede constru´ıda aleatoriamente com a inser¸cão de arestas por meio da probabilidade 0 > p >1 (BOCCALETTI et al., 2006). Nas redes reais, o modelo ER não é tão representativo,

(36)

uma vez que é comum encontrar alguns vértices mais conectados que outros (BARAB ÁSI; ALBERT, 1999).

2.2.2 Redes de mundo pequeno

Watts e Strogatz buscaram representar as redes como um conjunto de métricas de similaridade. Nesse modelo de redes complexas, as conexões não são totalmente aleatórias, mas estão determinadas por agrupamentos (WATTS; STROGATZ, 1998). Esse modelo, recebe o nome de mundo pequeno em referência ao experimento de Milgran (1967), nos Estados Unidos, o qual relata que em média há seis graus de separa¸cão entre qualquer pessoa do mundo (TRAVERS; MILGRAM, 1967). Nesse modelo de rede, a constru¸cão das rela¸cões é realizada considerando a proximidade entre os vértices (COSTA et al., 2007), conforme exibido na Figura 11.

loop Rede de mundo pequeno

Figura 11 – Rede de mundo pequeno.

Destaca-se, na Figura 11, o agrupamento entre os vértices, desse modo é poss´ıvel verificar pequenos grupos de semelhan¸ca e a caracter´ıstica de um grande número de loops de tamanho 3 (COSTA et al., 2007). Watts e Strogatz demonstraram que essa rede é encontrada no sistema neural da Caenorhabditis elegans (WATTS; STROGATZ, 1998).

2.2.3 Redes livres de escala

No modelo de redes complexas de Barabási (BA), existem conexões preferenciais (hub), isto é, há vértices mais atrativos, tais sistemas são representados pela distribui¸cão

(37)

dos graus nos vértices por uma Lei de Potência (ALBERT, 2005; BARAB ÁSI, 2009; COSTA et al., 2007).

Para encontrar os graus de distribui¸cão da rede livre de escala, é dada a fórmula da lei de potência, representada por P (k) ∼ kγ, na qual P (k) corresponde à probabilidade de intera¸cão entre k e os outros vértices e γ à constante do expoente, frequentemente com os valores 2 ou 3, que se refere ao decl´ınio exponencial dos vértices (ALBERT, 2005).

Na rede livre de escala, existe a possibilidade dos vértices serem mais conectados (hub), isto é, alguns vértices possuem mais atratividade, como exibido na Figura 12b (BARAB ÁSI; ALBERT, 1999).

hub

a) b)

Figura 12 – Conexões dos vértices, a) rede aleatória e b) rede livre de escala.

Fonte: ITZKOVITZ et al., 2003 - adapta¸c˜ao.

Destaca-se a representatividade das redes livres de escala relacionadas com os estudos de redes biológicas, uma vez que os organismos são constitu´ıdos por um complexo conjunto de materiais genéticos cujas interconectividades vêm sendo investigadas para melhor compreensão de como os organismos funcionam. As redes metabólicas, de regula¸cão gênica ou de intera¸cões entre prote´ınas são exemplos disso (ALBERT, 2005; CLINE et al., 2007; LOPES; CESAR; COSTA, 2011a).

2.2.4 M´etricas de redes complexas

Há diversas métricas utilizadas para a extra¸cão de caracter´ısticas topológicas de redes complexas, destacam-se as correlacionais e as de centralidade (COSTA et al., 2007). As primeiras não consideram a magnitude dos valores e sim a similaridade entre os padrões, já as de centralidade são representadas pela similaridade entre os valores, ou seja, é

(38)

considerada a proximidade entre as distˆancias que podem ter padr˜oes muito diferentes ao longo das caracter´ısticas observadas (CAMILO; SILVA, 2009; WEBB; COPSEY, 2011).

Para Barabási e Oltvai (2004), as métricas mais básicas que podem ser utilizadas na caracteriza¸cão de um sistema biológico são: grau; distribui¸cão de grau; redes scale-free; grau exponencial; caminho m´ınimo; caminho médio e coeficiente de clustering. No mesmo sentido Costa (2007), destaca dentre outras métricas, as de centralidade para classifica¸cão de problemas do mundo real, uma vez que elas permitem evidenciar quantitativamente os elementos mais importantes ou centrais da rede (COSTA et al., 2007).

A intermedia¸cão é uma métrica de centralidade que quantifica o número de media¸cões realizadas pelo vértice com rela¸cão a outros dois vértices, capturando os vértices mais utilizados como ponte para outros vértices, na qual giej é o número de caminho mais curto

entre os vértices i e j que passa pelo vértice ou aresta e. Já gij é a totalidade dos caminhos

mais curtos entre i e j (COSTA et al., 2007).

A representa¸cão matemática é dada pela equa¸cão: e =P

i6=j

giej

gij

A proximidade se refere à semelhan¸ca entre os vértices de um grafo, baseada em um vértice rotulado ou valores atribu´ıdos a ele. O coeficiente de proximidade, quando positivo, demonstra que os vértices tendem a se conectarem, já quando o valor é negativo, há pouca ou nenhuma atratividade entre eles (NEWMAN, 2003), definida pela equa¸cão:

r = P ieii− P iaibi 1−P_iaibi

No qual ei j refere-se a fra¸cão das arestas conectadas aos vértices i e j. Já ai = Pj

eij e bj =Pi eij.

A propósito do grau, também uma métrica de centralidade, ela reflete o número de arestas conectadas aos vértices. No qual ki é o vértice e aij é a soma das arestas conectadas

a ele (COSTA et al., 2007), definida pela equa¸c˜ao: ki = Pjaij =

P

jaj i

Algumas métricas são derivadas da centralidade de grau, dentre elas o grau máximo e o grau m´ınimo, representados pelas fórmulas: kmax = max_i ki e kmin = min_i ki, na qual

(39)

Destaca-se também a métrica de caminho m´ınimo médio que está relacionada a caracteriza¸cão estrutural interna da rede, uma vez que determina o comprimento dos menores caminhos entre dois vértices que se conectam, representado pela letra l. Na qual N é o número de vértices do grafo e dij é a distância média geodésica (caminho mais

curto) entre os vértices i e j (BOCCALETTI et al., 2006). A representa¸cão matemática é dada pela equa¸cão:

l=_{N (N −1)}1 P

i6=j dij

O coeficiente de clustering conhecido também como transitividade é uma métrica de agrupamento que determina a probabilidade de um vértice estar conectado a outro. Onde Cw

i é a probabilidade que varia entre 0 e 1, si é a for¸ca do vértice i, já os wij e wik

são os pesos das arestas, ki é o grau do vértice e aij, aik e ajk são elementos da matriz de

adjacˆencias (COSTA et al., 2007), definida pela equa¸c˜ao: Cw i = 1 si(ki−1) P k > j wij+wik 2 aijaikaj k

O desvio padrão (DP) indica a dispersão dos vértices relacionados à média amostral. Onde x é a aresta e ¯x as médias das arestas, sendo n o número total de possibilidades de arestas no grafo. Representado pela equa¸cão:

DP =

r P_|x

i−¯x|2

n

O Motivo (do inglês motif ) é um subgrafo que representa uma rede maior com a finalidade de quantificar frequências significativas nos parâmetros das análises (MILO et al., 2002). Em uma sequência biológica, um motif é um padrão que ocorre repetidamente em diferentes posi¸cões na rede, representando módulos com informa¸cões moleculares relevantes e representativas da sequência devido à sua alta recorrência (BERG; L ÄSSIG, 2004).

Na Figura 13, é poss´ıvel verificar que a frequência de ocorrências do motif indicado é muito mais intensa em a) do que em b). Assim, evidencia-se que a observa¸cão de motifs em redes reais é fundamental enquanto constitui¸cão topológica de uma sub-rede representativa de uma rede maior. Observa-se que o número de ocorrências de motif é muito mais significativo em uma rede real (MILO et al., 2002).

(40)

a) b)

motif

rede real rede aleatória

Figura 13 – Exemplos de redes com motifs, a) motif em uma rede real e b) motif em uma rede aleat´oria.

Fonte: MILO et al., 2002 - adapta¸c˜ao.

Os motifs podem ser aplicados em diversas áreas, tais como, análises bioqu´ımicas, neurobiológicas, ecológicas, de circuitos eletrônicos e hiperlinks em páginas web (TAY-LOR; SIEGEL; GALITSKI, 2007; GOLLO; BREAKSPEAR, 2014). Há várias topologias definidoras de motifs, porém, no âmbito biológico, de acordo com Milo (2002), destacam-se os denominados feedfoward loop, bi-fan e biparallel, conforme exibido na Figura 14.

Figura 14 – Motifs em redes biol´ogicas.

Fonte: MILO et al., 2002.

No motif feedforward loop de tamanho 3, o vértice X influência os vértices Y e Z, enquanto Y influência somente o vértice Z e Z não influência nenhum vértice. No motif Bi-fan de tamanho 4, os vértices X e Y são reguladores dos vértices Z e W simultaneamente, porém não são regulados por nenhum outro vértice (MILO et al., 2002). A ocorrência

(41)

desses motifs é destacável em redes de regula¸cão gênica e em redes de sinapses neuronais (DREES et al., 2005).

No motif Bi-Parallel, também de tamanho 4, o vértice X influência Y e Z que, por sua vez, influência o vértice W. Observa-se, portanto, que X exerce influência indireta em W, sendo X o regulador central dos demais vértices. Esses motifs podem ser visualizados em redes de sinapses neuronais e redes representativas de cadeias alimentares (MILO et al., 2002).

Dado que a métrica motif é um subgrafo que representa uma rede maior, destaca-se a finalidade de quantificar as frequências mais significativas como parâmetros das análises. A frequência estat´ıstica de um motif pode ser medida quando comparada à correspondente em um grafo aleatório, sendo Ni(real) o número de vezes que o motif i aparece em uma

rede real e Ni(rand) o número de vezes que o motif i aparece em uma rede aleatória, já

σi(rand) é o desvio padrão de i do número de ocorrências encontradas na rede aleatória

(COSTA et al., 2007). O escore-Z ´e definida pela equa¸c˜ao: zi=

Ni(real)−hNi(rand)i

σi(rand)

Dado o exposto, é de fundamental importância a busca por métricas que extraiam caracter´ısticas relevantes para identificar as sequências biológicas, uma vez que esses padrões podem ser utilizados para compreensão das funcionalidades biológicas das sequências analisadas (BERG; L ÄSSIG, 2004).

2.2.5 Reconhecimento de padr˜oes e classifica¸c˜ao

Devido à existência de muitas sequências biológicas, é de fundamental importância reconhecer padrões distintivos que as caracterizem. Para tanto, Webb e Copsey (2011) afirmaram que o reconhecimento de padrões é uma área que envolve os estudos de investiga¸cão relacionados à formula¸cão de um problema, bem como a cole¸cão de dados por meio da discrimina¸cão, classifica¸cão, cálculo e interpreta¸cões dos resultados. Os métodos de reconhecimento de padrões buscam a classifica¸cão de uma determinada sequência em uma classe espec´ıfica (THEODORIDIS et al., 2010).

Na bioinformática, um problema recorrente é a grandeza do espa¸co de caracter´ısticas, tornando dif´ıcil e computacionalmente custosa a tarefa de classifica¸cão e consequentemente a análise do material biológico estudado (BISHOP, 1995; CAMPOS, 2001).

(42)

Há três formas para tratar as classifica¸cões: i) o aprendizado ou classifica¸cão supervisionada; ii) a semi-supervisionada e a iii) a não-supervisionada (LIBBRECHT; NOBLE, 2015).

O conceito de supervisão está relacionado ao conhecimento do padrão (rótulo) a ser categorizado. Assim, o aprendizado supervisionado divide-se em dois grupos: classifica¸cão e regressão (CAMILO; SILVA, 2009). A classifica¸cão associa os objetos a uma categoria ou classe com base em suas caracter´ısticas qualitativas, enquanto a regressão associa os objetos a valores numéricos, sendo a classe alvo analisada quantitativamente (CAMILO; SILVA, 2009).

Quanto ao aprendizado não-supervisionado, os rótulos são desconhecidos e também o número total de classes a serem encontradas durante a classifica¸cão. Os classificadores não-supervisionados também são conhecidos como análise de agrupamentos (clusterings) (CAMILO; SILVA, 2009; WEBB; COPSEY, 2011).

Sobre a classifica¸cão semi-supervisionada, os dados rotulados e não rotulados são aplicados no processo de classifica¸cão, de modo a abranger um número maior de situa¸cões onde possa haver somente partes de classes conhecidas (ZHU, 2005).

2.2.6 Algoritmo de classifica¸cão de árvore de decisão

A árvore de decisão é uma estrutura de dados representativos de uma sequência de passos que determina um caminho para classifica¸cão, sua utiliza¸cão já foi empregada com sucesso em situa¸cões do mundo real, por exemplo, na análise de aminoácidos, estudos card´ıacos e análise de fármacos, entre outros (MURTHY, 1998). Essa estrutura come¸ca com uma unidade raiz (nó que está no topo da árvore), em árvores de decisão binária, há dois caminhos distintos (descendentes ou ramos) a serem percorridos de acordo com um critério de decisão, caso esses caminhos não cheguem ao final, os mesmos podem se subdividir em outros dois caminhos, sucessivamente, até chegar ao nó folha que contém a classe predita (GONG; HAN, 1997; MEIRA et al., 2008).

A indu¸cão da árvore de decisão constrói um modelo com base no treinamento de amostras de dados rotulados, considerando os valores das caracter´ısticas de cada nó das amostras para separar as classes (GONG; HAN, 1997; KAUR; CHHABRA, 2014; KOTSIANTIS; ZAHARAKIS; PINTELAS, 2007).