Classificação de elementos transponíveis por redes neurais convolucionais

(1)

Classificação de Elementos Transponíveis por

Redes Neurais Convolucionais

Cornélio Procópio, Paraná, Brasil

11 de maio de 2020

(2)

Classificação de Elementos Transponíveis por Redes

Neurais Convolucionais

Dissertação apresentada ao Programa de Pós-Graduação em Bioinformática da Universidade Tecnológica Federal do Paraná, como requisito parcial para obtenção do Grau de Mestre em Bioinformática. Área de Concentração: Biolo-gia Sistêmica.

Universidade Tecnologócia Federal do Paraná – UTFPR Departamento Acadêmico de Computação

Programa de Pós-Graduação em Bioinformática

Orientador: Prof

o

Dr. Pedro Henrique Bugatti

Coorientador: Prof

o

Dr. Alexandre Rossi Paschoal

Cornélio Procópio, Paraná, Brasil

11 de maio de 2020

(3)

C957 Cruz, Murilo Horácio Pereira da

Classificação de elementos transponíveis por redes neurais convolucionais / Murilo Horácio Pereira da Cruz. – 2020.

111 f. : il. color. ; 31 cm.

Orientador: Pedro Henrique Bugatti. Coorientador: Alexandre Rossi Paschoal.

Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Bioinformática. Cornélio Procópio, 2020.

Bibliografia: p. 108-111.

1. Genoma. 2. Redes neurais (Neurobiologia). 3. Classificação. 4. Bioinformática – Dissertações. I. Bugatti, Pedro Henrique, orient. II. Paschoal, Alexandre Rossi, coorient. III. Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Bioinformática. IV. Título.

CDD (22. ed.) 572.80285 Biblioteca da UTFPR - Câmpus Cornélio Procópio

Bibliotecário/Documentalista responsável: Romeu Righetti de Araujo – CRB-9/1676

(4)

Câmpus Cornélio Procópio

Programa de Pós-Graduação em Bioinformática

Título da Dissertação Nº 14:

“

Classificação de Elementos Transponíveis por Redes

Neurais Convolucionais”.

por

Murilo Horácio Pereira da Cruz

Orientador: Prof. Dr. Pedro Henrique Bugatti Co-orientador: Prof. Dr. Alexandre Rossi Paschoal

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM BIOINFORMÁTICA – Linha de Pesquisa: Biologia Computacional E Sistêmica, pelo Programa de Pós-Graduação em Bioinformática – PPGBIOINFO – da Universidade Tecnológica Federal do Paraná – UTFPR – Câmpus Cornélio Procópio, às 13h00min do dia 13 de março de 2020. O trabalho foi __________ pela Banca Examinadora, composta pelos professores:

__________________________________ Prof. Dr. Pedro Henrique Bugatti

(Presidente)

__________________________________

Prof. Dr. André Fujita (USP-SP) _________________________________

Prof. Dr. Fabrício Martins Lopes

(UTFPR-CP)

Visto da coordenação:

__________________________________ Alexandre Rossi Paschoal

Coordenador do Programa de Pós-Graduação em Bioinformática UTFPR Câmpus Cornélio Procópio

A Folha de Aprovação assinada encontra-se na Coordenação do Programa.

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.

(5)

Agradeço especialmente ao meu orientador, Profo _{Dr. Pedro Henrique Bugatti, por} aceitar a me orientar neste projeto de pesquisa e por toda contribuição, como auxílios e sugestões. Agradeço também ao meu co-orientador, o Profo Dr. Alexandre Rossi Paschoal, por todos os conselhos e ideias para a realização deste projeto de pesquisa.

Também agradeço à Profa _{Dra. Priscila Tiemi Maeda Saito por todo o auxílio e} sugestões, bem como ao Profo _{Dr. Douglas Silva Domingues.}

Agradeço também aos meus pais que sempre me apoiaram e me auxiliaram durante todo o tempo de desenvolvimento deste projeto, sem eles a realização do mesmo não seria possível.

Agradecimentos especiais são direcionados ao Diretório Acadêmico de Computação (DAC) da Universidade Tecnológica Federal do Parana (UTFPR), à todo corpo docente e servidores que atuam no Programa de Pós-graduação em Bioinformática (PPGBIOINFO) e à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) por ter fomentado parte da pesquisa desenvolvida no presente trabalho.

(6)

Temos que ter persistência e, acima de tudo, confiança em nós mesmos.” (Marie Curie)

(7)

Elementos transponíveis são o tipo de sequência mais presente nos genomas eucarióticos. Estes são capazes de se transpor e produzir múltiplas cópias ao longo do genoma hospedeiro. Devido a estas ações, estas sequências produzem uma variedade de efeitos nos organismos, como por exemplo podem atuar na regulação da expressão gênica. Existem diversos tipos destes elementos, os quais são classificados de maneira hierárquica em classes, ordens e superfamílias. Poucos métodos da literatura abordam a classificação nos níveis mais profundos da hierarquia, como o nível de superfamílias. Além disso, a maioria dos métodos da literatura utilizam características manualmente definidas como: k-mers; presença de ORF; presença de domínios proteicos; e busca por similaridade. Tais características podem ser ineficientes para atingir a generalização dos métodos e computacionalmente custosas. Neste trabalho é apresentada uma abordagem, denominada Transposabel Element Representation Learner (TERL), a qual é capaz de representar sequências 1D em uma imagem 2D da sequência. A abordagem proposta é genérica e pode ser utilizada para classificar qualquer tipo de sequência biológica em qualquer nível do sistema de classificação da mesma, além de ser flexível quanto ao tipo de arquitetura que pode ser utilizada. No presente trabalho sete bases de dados da literatura foram utilizadas para criar nove conjuntos de treinamento e teste. Estes conjuntos foram utilizados em uma série de 21 experimentos conduzidos para avaliar o desempenho da abordagem proposta e dos métodos TEclass e PASTEC da literatura. O TERL foi capaz de obter acurácia e F1-score de 0,95 e 0,71 respectivamente na classificação de 11 superfamílias e acurácia e especificidade de 0,89 e 0,93 respectivamente na classificação a nível de ordem de um conjunto com sequências de diversos organismos e bases de dados. Estes resultados superam os obtidos pelo TEclass e PASTEC. Outra grande vantagem apresentada pela abordagem proposta diz respeito ao tempo de classificação das sequências, sendo que o TERL é em média 76 vezes mais eficiente que o TEclass e quatro ordens de grandeza mais eficiente que o PASTEC.

Palavras-chave: elementos transponíveis. classificação. redes neurais convolucionais.

(8)

Transposable elements are the most represented sequences in eukaryotic genomes. They are capable to transpose and produce multiple copies throughout the host genome. By doing so, these sequences can produce a variety of effects on organisms, such as the regulation of gene expression. There are several kinds of these elements, which are classified in a hierarchic way into classes, orders and superfamílies. Few methods of the literature classify these sequences into the deeper levels of the classification hierarchy, such as superfamily. Moreover, most methods use handcrafted features, such as: k-mers; presence of ORF; presence of protein domains; and homology based search. These features could be inneficient for generalization to non homologous sequences and time-consuming. In this work, we introduce an approach, called Transposabel Element Representation Learner (TERL), which is capable to represent 1D sequences into 2D sequence images. Our approach is generic and can be used to classify any type of biological sequence in any level of the classification system, also it is flexible to the type of architecture to use for the classification. In this work we use seven databases to create nine data sets. These data sets were used in a series of 21 experiments designed to assess the performance of the methods TEclass, PASTEC and the proposed approach. TERL obtained an accuracy and F1-score of 0.95 and 0.71 respectively on the classification of 11 superfamilies. Considering accuracy and specificity our approach obtained 0.89 and 0.93 respectively on the classification of order sequences from a data set created with sequences from different organisms and from different databases. These results surpass the metrics obtained by TEclass and PASTEC. Our approach showed great advantage regarding the classification time, which is on average 76 times more efficient than TEclass and four orders of magnitude more efficient than PASTEC.

Keywords: transposable elements. classification. convolutional neural networks. deep

(9)

Figura 1 – Inserção de Ds no cromossomo . . . 22

Figura 2 – Exemplos de instabilidade fenotípica . . . 22

Figura 3 – Sistema de classificação hierárquica universal proposto por (WICKER et al., 2007) . . . 23

Figura 4 – Exemplos de modelos de neurônios naturais e artificiais . . . 30

Figura 5 – Importância da representação . . . 33

Figura 6 – Operação de convolução . . . 34

Figura 7 – Exemplo de uma arquitetura de CNN. . . 34

Figura 8 – Workflow do método TEclass . . . 37

Figura 9 – Workflow do método PASTEC . . . 38

Figura 10 – Workflow do método REPCLASS . . . 38

Figura 11 – Pipeline do TERL . . . 41

Figura 12 – Transformação das sequências 1D para 2D . . . 42

Figura 13 – Representação na forma de imagem da transformação das sequências 1D para 2D . . . 43 Figura 14 – Arquitetura 1 . . . 45 Figura 15 – Arquitetura 2 . . . 46 Figura 16 – Arquitetura 3 . . . 46 Figura 17 – Arquitetura 4 . . . 47 Figura 18 – Arquitetura 5 . . . 48

Figura 19 – Matriz de confusão obtida no experimento 1 classificação das sequências a nível de superfamília do DS 1 pela arquitetura 1 . . . 60

Figura 20 – Matriz de confusão do mapeamento em nível de ordem da classificação em nível de superfamília pela CNN do experimento 1 . . . 61

Figura 21 – Matriz de confusão obtida pelo TEclass na classificação das sequências a nível de ordem do DS 1 . . . 62

Figura 22 – Matriz de confusão obtida no experimento 2 pelo TERL utililzando a arquitetura 1 na classificação das sequências a nível de ordem do DS 1 . 64 Figura 23 – Matriz de confusão obtida no experimento 3 pelo TERL utilizando a arquitetura 2 na classificação a nível de ordem do DS 1 . . . 65

Figura 24 – Matriz de confusão obtida no experimento 4 pelo TERL utilizando a arquitetura 3 na classificação a nível de superfamília do DS 1. . . 67

Figura 25 – Matriz de confusão obtida no experimento 4 pelo mapeamento dos resul-tados obtidos pelo TERL a nível de superfamília em nível de ordem. . . 68

Figura 26 – Matriz de confusão do experimento 5 obtida pela arquitetura 3 na classifi-cação a nível de ordem do DS 1.. . . 69

(10)

ordem do DS 1 pelo TERL utilizando a arquitetura 4 . . . 71

Figura 28 – Matriz de confusão obtida no experimento 7 pela classificação a nível de superfamília do DS 2 obtida pelo TERL utilizando a arquitetura 3. . . . 74

Figura 29 – Matriz de confusão do mapeamento dos resultados da arquitetura 3 na classificação a nível de superfamília do DS 2 em nível de ordem . . . 75

Figura 30 – Matriz de confusão obtida pelo TEclass na classificação das sequências a nível de ordem do data set 2 . . . 76

Figura 31 – Matriz de confusão obtida no experimento 8 pela arquitetura 3 na classifi-caçao a nível de ordem do DS 2 . . . 77

Figura 32 – Matriz de confusão obtida no experimento 9 pelo TERL utilizando a arquitetura 4 na classificação a nível de ordem do DS 2 . . . 78

Figura 34 – Matriz de confusão obtida pelo TEclass na classificação a nível de ordem do DS 3 . . . 81

Figura 36 – Matriz de confusão obtida no experimento 12 pelo TERL utilizando a arquitetura 5 na classificação das sequências do DS 4 . . . 85

Figura 37 – Matrizes de confusão obtidas no experimento 13 pelo TERL utilizando a arquitetura 5, TEclass e PASTEC na classificação a nível de ordem do data set 5 . . . 87

Figura 38 – Matriz de confusão obtida no experimento 14 pelo TERL utilizando a arquitetura 5 na classificação a nível de superfamílias do DS 6 . . . 91

Figura 39 – Matrizes de confusão obtidas no experimento 15 pelos métodos na classifi-cação a nível de ordem do data set 7 . . . 92

Figura 40 – Matrizes de confusão obtidas no experimento 16 pelos métodos na classifi-cação a nível de ordem do data set 8 . . . 95

Figura 41 – Matriz de confusão obtida no experimento 21 pelo TERL utilizando a arquitetura 5 na classificação de lncRNAs e mRNAs do DS 9 . . . 103

Figura 42 – Matriz de confusão obtida no experimento 21 na classificação das sequências de lncRNAs e mRNAs do data set 9 pelo TERL utilizando a arquitetura 5103

(11)

Tabela 1 – Distribuição das sequências obtidas de cada base de dados organizadas por superfamília e ordem. . . 51

Tabela 2 – Distribuição das sequências sem repetições de cada base de dados organi-zadas por superfamília e ordem. . . 53

Tabela 3 – Distribuição de sequências repetidas entre as bases por classes.. . . 54

Tabela 4 – Distribuição de sequências do data set 1, utilizado nos experimentos 1 a 6 59

Tabela 5 – Métricas obtidas no experimento 1 pela arquitetura 1 na classificação de sequências a nível de ordem do DS 1 . . . 60

Tabela 6 – Métricas obtidas no experimento 1 pelo TERL utilizando a arquitetura 1 no mapeamento dos resultados e pelo TEclass na classificação a nível de ordem do DS 1 . . . 62

Tabela 7 – Métricas obtidas no experimento 2 pelo TERL utilizando a arquitetura 1 e pelo TEclass na classificação a nível de ordem do DS 1 . . . 64

Tabela 8 – Métricas obtidas no experimento 3 pelo TERL utilizando a 2 e pelo TEclass na classificação a nível de ordem do DS 1 . . . 65

Tabela 9 – Métricas obtidas no experimento 4 pelo TERL utilizando a arquitetura 3 na classificação a nível de superfamília do DS 1 . . . 68

Tabela 10 – Métricas obtidas no experimento 4 pela arquitetura 3 no mapeamento dos resultados e pelo TEclass na classificação a nível de ordem do DS 1 . . . 69

Tabela 11 – Comparação entre as métricas da classificação a nível de ordem do DS 1 pelo método TEclass e abordagem mapeada e direta pela arquitetura 3 . 70

Tabela 12 – Métricas obtidas no experimento 6 pelo TERL utilizando a arquitetura 4 e pelo TEclass na classificação a nível de ordem do DS 1 . . . 71

Tabela 13 – Distribuição de sequências do data set 2, utilizado nos experimento 7 a 10 73

Tabela 14 – Métricas obtidas no experimento 7 pela arquitetura 3 na classificação a nível de superfamília do DS 2 . . . 75

Tabela 15 – Métricas obtidas no experimento 7 pelo mapeamento dos resultados da arquitetura 3 e pelo TEclass na classificação a nível de ordem do DS 2 . 76

Tabela 16 – Métricas obtidas no experimento 8 pela arquitetura 3 e pelo TEclass na classificação a nível de ordem do DS 2 . . . 77

Tabela 17 – Métricas obtidas no experimento 9 pelo TERL utilizando a arquitetura 4 e pelo TEclass métodos na classificação a nível de ordem do DS 2 . . . . 78

Tabela 18 – Distribuição de sequências do data set 3, utilizado nos experimentos 10 e 11 80

Tabela 19 – Métricas obtidas no experimento 10 pela arquitetura 3 e pelo TElass na classificação a nível de ordem do DS 3 . . . 82

(12)

e pelo TEclass na classificação a nível de ordem do DS 3 . . . 83

Tabela 21 – Distribuição de sequências do data set 4, utilizado no experimento 12 . . 84

Tabela 22 – Métricas obtidas no experimento 12 pelo TERL utilizando a arquitetura 5 na classificação a nível de superfamílias do DS 4 . . . 85

Tabela 24 – Métricas obtidas no experimento 13 pelo TERL utilizando a arquitetura 5, TEclass e PASTEC na classificação a nível de ordem do DS 5 . . . 88

Tabela 26 – Métricas obtidas no experimento 14 pelo TERL utilizando a arquitetura 5 na classificação a nível de superfamília do DS 6 . . . 90

Tabela 27 – Distribuição de sequências do datas set 7, utilizado no experimento 15 . 92

Tabela 31 – Análise do impacto dos arquivos de busca auxiliares no desempenho do PASTEC na classifiação a nível de ordem dos DSs 5, 7 e 8 . . . 98

Tabela 32 – Métricas obtidas no experimento 18 pelo TERL utilizando o primeiro tipo de arquitetura MobileNet na classificação a nível de superfamília do DS 4 100

Tabela 33 – Métricas obtidas no experimento 18 pelo TERL utilizando o segundo tipo de arquitetura MobileNet com o dobro de quantidade de filtros na classificação a nível de superfamília do DS 4 . . . 100

Tabela 34 – Comparação dos resultados obtidos pelo TERL utilizando os dois tipos de arquiteturas MobileNet e a arquitetura 5 na classificação das sequências do DS 4 . . . 100

Tabela 35 – Métricas obtidas no experimento 19 pelo TERL utilizando a arquitetura ResNet-50 na classificação a nível de superfamílias do DS 4. . . 101

Tabela 37 – Métricas obtidas pelo TERL utilizando a arquitetura 5 na classificação de lncRNAs e mRNAs do DS 9 . . . 102

Tabela 38 – Métricas obtidas no experimento 21 na classificação das sequências de lncRNAs e mRNAs do DS 9 pelo TERL utilizando a arquitetura 5 . . . 104

Tabela 39 – Comparação entre as métricas obtidas por diversas abordagens na classifi-cação do DS 9 sem as sequências ruído . . . 104

(13)

AP Proteinase aspártica (Aspartic Proteinase)

CNN Rede neural convolucional (Convolutional Neural Network)

DIRS Sequência de repetição intermediária de Dictyostelium (Dictyostelium

Intermediate Repeat Sequence)

DL Aprendizado profundo (Deep Learning)

DNA Ácido desoxirribonucleico (Deoxyribonucleic Acid) DS Conjunto de dados (Data set)

FC Totalmente conectado (Fully Connected)

HMM Modelo oculto de Markov (Hidden Markov Model) IA Inteligência artificial

INT DDE integrase

IUPAC União internacional de química pura e aplicada (International Union of

Pure and Applied Chemistry)

LINE Elemento nuclear intercalado longo (Long Interspersed Nuclear Element) LSTM Memória de longo e curto prazo (Long Short-Term Memory)

LTR Repetição terminal longa (Long Terminal Repeat) ORF Fase de leitura aberta (Open Reading Frame) PLE Elemento do tipo Penelope (Penelope-like Element) RF Floresta aleatória (Random Forest)

RH Ribonuclease H

RNA Ácido ribonucleico (Ribonucleic Acid) RNA Rede neural artificial

SINE Elemento nuclear intercalado curto (Short Interspersed Nuclear Element) SVM Máquina de vetores suporte (Support Vector Machine)

TIR Repetição terminal invertida (Terminal Inverted Repeat) TE Elemento transponível (Tranposable Element)

(14)

1 INTRODUÇÃO . . . . 15 1.1 Justificativa . . . 17 1.2 Objetivo . . . 18 1.3 Organização do Trabalho . . . 18 2 FUNDAMENTAÇÃO TEÓRICA . . . . 19 2.1 Elementos Transponíveis . . . 19

2.1.1 Organização dos Tipos de Elementos Transponíveis . . . 21

2.1.1.1 Elementos da Classe I . . . 24

2.1.1.2 Elementos da Classe II . . . 25

2.1.2 Aspectos Regulatórios dos Elementos Transponíveis e sua Importância . . . . 26

2.2 Redes Neurais Convolucionais Profundas . . . 28

2.2.1 Aprendizado de Máquina . . . 28

2.2.2 Redes Neurais Artificiais . . . 29

2.2.3 Aprendizado Profundo e Redes Neurais Convolucionais . . . 32

2.2.4 Demais Arquiteturas de CNN. . . 34

2.3 Trabalhos Relacionados . . . 36

3 ABORDAGEM PROPOSTA . . . . 40

3.1 Descrição da Abordagem Proposta . . . 40

3.1.1 Pré-processamento . . . 40

3.1.2 Cenários. . . 43

3.1.2.1 Arquiteturas empiricamente definidas . . . 45

3.1.2.2 Arquitetura definida por otimização . . . 47

3.1.2.3 Arquiteturas recentes. . . 48

3.2 Bases de Dados . . . 50

3.3 Implementação de um framework . . . 55

4 EXPERIMENTOS E RESULTADOS . . . . 58

4.1 Experimento 1: Classificação a nível de superfamília do data set 1 pela arquitetura 1 e mapeamento para ordem . . . 58

4.2 Experimento 2: Classificação a nível de ordem do data set 1 pelo TERL utilizando a arquitetura 1 . . . 63

(15)

pelo TERL utilizando a arquitetura 3 e mapeamento para ordem . . . 66

4.7 Experimento 7: Classificação a nível de superfamília do data set 2 pelo TERL utilizando a arquitetura 3 e mapeamento para ordem . . . 72

4.14 Experimento 14: Classificação a nível de superfamília do data set 6 pelo TERL utilizando a arquitetura 5 . . . 89

4.17 Experimento 17: Análise do desempenho do método PASTEC . . . . 97

4.18 Experimento 18: Classificação a nível de superfamília do data set 4 pelo TERL utilizando a arquitetura MobileNet. . . 99

4.19 Experimento 19: Classificação a nível de superfamília do data set 4 pelo TERL utilizando a arquitetura ResNet-50. . . 101

4.20 Experimento 20: Classificação do data set 1 pelo TERL utilizando a arquitetura ConvLSTM . . . 101

4.21 Experimento 21: Testes com outros tipos de sequências biológicas . . 102

5 CONCLUSÕES E DISCUSSÕES . . . 105

5.1 Resultados Obtidos . . . 106

5.2 Publicações Geradas . . . 106

(16)

(17)

1 Introdução

Elementos Transponíveis (TEs) são elementos presentes no genoma de organismos eucariontes, capazes de se replicar e movimentar ao longo do genoma.

A movimentação destes elementos se dá por um processo de troca de posição e inserção de réplicas em diversas regiões do genoma. Esta troca de posição e inserção de réplicas de sequências de DNA pode causar diversos efeitos nos organismos (CHUONG; ELDE; FESCHOTTE, 2016), (MCCLINTOCK, 1950), (WICKER et al.,2007) e (GERDES et al., 2016).

TEs foram descobertos em 1950 por uma citogeneticista americana, Barbara McClin-tock, em (MCCLINTOCK, 1950). Estas sequências foram descobertas durante um estudo sobre os mecanismos genéticos responsáveis pela alteração da pigmentação de grãos de milhos.

McClintock acreditava que durante a divisão celular, no processo de crescimento dos grãos, algumas células perdiam informações genéticas, o que levava ao aparecimento de diferentes padrões de pigmentação nos grãos.

Ao comparar a informação genética dos cromossomos da população com pigmentação dos grãos alterada com a população ancestral, McClintock notou que algumas regiões haviam se translocado ao longo do cromossomo.

Os elementos capazes de se translocar ao longo do genoma foram denominados, mais tarde, de elementos transponíveis.

Esse processo de translocação pode promover diversas implicações no organismo, como no caso dos grãos de milho em que os grãos sem pigmentação ou manchas são grãos que apresentam a interrupção de um gene responsável pela biossíntese de pigmentos.

Os grãos ou regiões dos grãos que apresentam pigmentação (i.e. fenótipo não alterado) não possuem este TE inserido na sequência do gene, de modo a produzir as proteínas normalmente.

Dentre outros efeitos causados pela presença de TEs nos genomas, (CHUONG; ELDE; FESCHOTTE, 2016) cita que os TEs são responsáveis por mecanismos como alteração da regulação da expressão gênica, adaptação ao meio ambiente, reorganização do genoma e especiação.

Estes elementos estão presentes em diversas quantidades nos genomas. Cada organismo apresenta uma porção destes elementos, como por exemplo cerca de 22% do genoma da

Drosophila melanogaster é composto por sequências de TEs, enquanto cerca de 35% e 50%

do genoma do arroz e do genoma humano, respectivamente, são compostos por sequências de TEs (FESCHOTTE et al., 2009).

(18)

A composição de TEs no genoma de plantas pode variar desde 3%, no caso do pequeno genoma da planta U. gibba (IBARRA-LACLETTE et al., 2013), até mais de 80%, como o grande genoma do milho que possui 85% de sequências de TEs (SCHNABLE et al., 2009) e (SUNG-IL, 2014).

Aliado à grande quantidade destes elementos presente nos genomas, estes possuem extrema diversidade e são divididos em diferentes classes, subclasses, ordens, superfamílias, famílias e subfamílias, podendo apresentar, por exemplo, até dezenas de milhares de famílias em plantas (WICKER et al.,2007).

Existem diversos métodos que podem ser utilizados para classificar estas sequências, como os métodos de aprendizado de máquina: redes neurais artificiais (RNAs), support vector

machines (SVMs), árvores de decisão, random forests (RFs), métodos de clusterização e

métodos de aprendizado profundo.

Dentre os métodos de aprendizado profundo, as convolutional neural networks (CNNs) se destacam por modelar na forma de um algoritmo o mecanismo de processamento de sinais luminosos pelos neurônios do cérebro ligados à visão, relacionando o que está sendo visto com algum conceito ou significado (HAYKIN, 2009), (LECUN; BENGIO; HINTON, 2015) e (GOODFELLOW; BENGIO; COURVILLE, 2016). CNNs são largamente aplicadas em problemas de visão computacional e obtiveram resultados estado da arte na área.

A topologia da rede neural convolucional remete ao mecanismo de visão dos vertebrados pois uma camada inicial é responsável por capturar padrões simples como traços, já as camadas seguintes capturam padrões mais abstratos e a camada final, responsável pela classificação do padrão de entrada, captura o nível mais abstrato de informação, pois relaciona o dado de entrada com uma classe.

CNNs são aplicadas em alguns problemas de genômica, como em (LIN; LANCHANTIN; QI,2016) que utiliza uma CNN para classificar propriedades de proteínas, como solubilidade e estrutura secundária, dado as sequências de aminoácidos.

Em (KELLEY; SNOEK; RINN,2016) CNNs são utilizadas para aprender a identificar as atividades funcionais de sequências de DNA a partir de dados genômicos. Um outro chamado método DeepEnhancer (Xu Min et al., 2016) utiliza CNNs para classificar acentuadores (i.e.

enhancers) a partir de sequências genômicas de fundo (i.e. background genomic sequences),

entre outros.

O custo computacional das CNNs depende apenas das dimensões de suas camadas. O algoritmo de treino é mais custoso do que o algoritmo de teste, porém todas as operações realizadas pelas CNNs são operações simples de multiplicações matriciais e outras operações matriciais básicas. Isto faz com que seja possível utilizar graphical processing units (GPUs) para executar o algoritmo de forma muito mais rápida do que se executado em central

(19)

Até o momento da escrita desta dissertação, somente a abordagem proposta no presente trabalho e previamente publicada em (CRUZ et al., 2019) utiliza CNNs para classificar TEs, sendo o principal meio de classificação destas sequências algoritmos de aprendizado de máquinas como SVMs, RFs e redes neurais artificiais.

A maioria destes outros métodos de aprendizado de máquinas utilizam busca por similaridade como uma das características, sendo um fator considerado ineficiente para clas-sificar TEs provindos de espécies diferentes das contidas na base de similaridade (ABRUSÁN et al., 2009).

1.1 Justificativa

Como citado, TEs são elementos importantes para compreender diversos mecanismos dos genomas. Devido a capacidade de se movimentarem ao longo do genoma, TEs são capazes de afetar a regulação da expressão gênica (MATSON, 2018), podendo modificar o fenótipo de um organismo.

Por meio destas modificações, organismos podem exibir fenótipos favoráveis ao ambi-ente em que se encontram, de modo a se adaptar às condições ambientais (LI et al., 2018), como podem apresentar conflitos e ser desfavorável para o organismo (CHUONG; ELDE; FESCHOTTE, 2016).

Devido aos TEs possuírem a capacidade de modificar a organização do genoma e a regulação da expressão gênica, estes são elementos fundamentais para pesquisas relacionadas a adaptação, evolução, identificação de genes alvos e de algumas doenças.

Dentre alguns exemplos de pesquisas relacionadas a TEs, destacam-se (COWLEY et al., 2018), que utiliza a capacidade de regulação da expressão gênica dos TEs para evidenciar os genes responsáveis pela resistência contra bacteriófagos e com isso produzir bacteriófagos mais potentes para possíveis aplicações como no desenvolvimento de antibióticos; (KRISHNAN et al., 2018) que utiliza TEs para regular a expressão gênica de um fungo patógeno de trigo, alterando os níveis de produção de melanina do fungo, enfraquecendo-o e deixando-o suscetível a qualquer variação do meio ambiente; (SERRATO-CAPUCHINA; MATUTE, 2018) verifica que TEs podem ser um dos fatores responsáveis pelo processo de especiação, devido a capacidade de regulação da expressão gênica e rearranjo do genoma.

A correta identificação e classificação destes elementos é necessária para produzir dados mais precisos com relação ao tipo de classe, ordem e superfamília que o TE pertence, possibilitando um melhor entendimento destes mecanismos e colaborando para pesquisas relacionadas a TEs.

Alguns trabalhos propõem métodos de identificação e classificação automática de TEs como em (ABRUSÁN et al.,2009), (HOEDE et al.,2014), (FESCHOTTE et al.,2009), (SCHIETGAT et al.,2018), (EDGAR; MYERS, 2005) e (TEMPEL; POLLET; TAHI,2012),

(20)

porém estes métodos não atingem a classificação geral de TEs, desde classes até superfamílias. Estes métodos também utilizam, na maioria das vezes, busca por similaridade como uma das características do processo de classificação, a qual é ineficiente para classificar sequências provindas de diferentes organismos (com ancestralidade distante), além do custo computacional ser proporcional à quantidade de sequências na base de referência.

Dessa forma, visando preencher essas lacunas existente, o presente trabalho propôs desenvolver um método de classificação genérico, podendo classificar TEs em classes, ordens e superfamílias, utilizando CNNs.

Por meio do presente trabalho foi possível verificar que CNNs são capazes de extrair características que melhor representam as sequências e classificá-las automaticamente. Deste modo, a CNN não utiliza nenhuma característica de tamanho das sequências ou de similaridade com sequências de uma base de referência.

A única entrada para o método proposto é o conjunto de sequências anotadas, para a fase de treinamento, ou um conjunto não anotadas, para a fase de teste e classificação.

1.2 Objetivo

Como objetivo principal almejou-se a proposta de uma abordagem de descrição e classificação de elementos transponíveis por meio de uma arquitetura de CNN fim-a-fim. Além disso, foram também definidos data sets e experimentos adequados para realizar comparações fidedignas entre os desempenhos (eficácia e eficiência) da abordagem proposta em relação às propostas na literatura. Com isso foi possível analisar a capacidade de generalização e granularidade de classificação da abordagem proposta para diferentes data sets, fato relegado pela grande maioria dos trabalhos que envolvem a classificação de elementos transponíveis.

1.3 Organização do Trabalho

Este trabalho está dividido da seguinte forma. No Capítulo 2 são apresentados os conceitos básicos sobre elementos transponíveis e redes neurais convolucionais. No Capítulo

3, é detalhado a abordagem desenvolvida (pré-processamento, arquiteturas, etc), bem como são apresentadas as bases de dados utilizadas e os detalhes da abordagem desenvolvida, como pré-processamento e arquiteturas utilizadas. O Capítulo4elucida os experimentos executados para verificar o desempenho do método proposto na classificação de TEs e a comparação dos resultados obtidos pelo método com os obtidos por métodos da literatura. Finalmente, no Capítulo 5 são apresentadas as conclusões obtidas perante os resultados dos experimentos.

(21)

2 Fundamentação Teórica

Neste capítulo são apresentados os conceitos relacionados aos elementos transponíveis e às técnicas de classificação destes elementos. Primeiramente a descoberta dos TEs é apresentada, em seguida são apresentados os conceitos de biologia molecular envolvidos no processo de transposição e a importância destes elementos em diversos aspectos biológicos.

Após os conceitos relacionados aos TEs, são apresentados conceitos relacionados à classificação multiclasse e aspectos teóricos do algoritmo de classificação foco de estudo (i.e. CNN).

2.1 Elementos Transponíveis

Em (MCCLINTOCK, 1950), por meio de um experimento designado para revelar a composição gênica do braço curto do cromossomo 9 do milho, notou-se a ocorrência de um fenômeno que se acreditava ter rara ocorrência ou reconhecimento, o fenômeno relacionado aos loci mutáveis.

Loci mutáveis são regiões do cromossomo que podem sofrer alterações e mudar de local ao longo do cromossomo. Este fenômeno, embora muito bem estudado na espécie Drosophila

melanogaster, nunca havia sido associado com a instabilidade da expressão gênica de outros

organismos, sendo que o mecanismo responsável por tal instabilidade poderia ser o mesmo para todos os organismos.

Ao analisar uma cultura de milho de cerca de 450 plantas obtidas por meio de autopolinização, observou-se que a estrutura do braço curto do cromossomo 9 tinha sofrido diversas mutações em cada uma das plantas.

Algumas apresentaram cópias de segmentos em determinadas regiões, falta de alguns segmentos, entre outros tipos de modificações. Ao analisar os loci mutáveis destas plantas, 40 diferentes tipos foram reconhecidos. Dentre estes 40 tipos diferentes, pode-se separá-los em duas classes distintas, a classe dos elementos que requerem um fator de ativação (i.e. ativador Ac) e a classe dos elementos que são autônomos e conseguem se expressar sem a necessidade de um fator de ativação.

Quatro loci mutáveis distintos dentre os 40 também foram observados.

1. Elementos que tem efeito de mutar o fenótipo mutante para o fenótipo natural (i.e. selvagem) ou próximo deste;

2. Elementos que, assim como o anterior, possuem a capacidade de mutar o fenótipo mutante para o fenótipo selvagem, porém o locus não é estável;

(22)

3. Elementos que produzem uma série de alelos dos loci mutáveis;

4. Elementos que assim como o anterior produzem uma série de alelos dos loci mutáveis, mas não são estáveis.

Quatro fatores são estudados, sendo: a origem dos loci mutáveis, os eventos que ocorrem nos loci que resultam em uma mudança na expressão fenotípica, razões para as alterações na frequência de mutações visíveis nos loci, os fatores que controlam o tempo em que as mutações ocorrem, produção de mutações no locus a1 sem a presença de Dte o estudo da heterocromatina como um possível fator de controle.

Sobre a origem dos loci mutáveis e os eventos que ocorrem nos loci que resultam em uma mudança na expressão fenotípica, pôde-se concluir por meio de observação no locus de dissociação (Ds locus), que alterações da expressão fenotípicas estão relacionadas a mudanças em um elemento da cromatina e que os loci mutáveis surgem quando tal cromatina é inserida adjacente aos que estão apresentando a expressão variegada. Após a inserção de tal cromatina, a expressão de genes vizinhos é alterada.

Alguns eventos possivelmente relacionados com o surgimento dos loci mutáveis, relacionados com locus de dissociação (Ds) foram elencados e são:

• Formação de cromátide dicêntrica com fusão de cromátides irmãs na região dos Ds; • Ausência da atividade dos Ds sem alterações visíveis do cromossomo (possível perda

do próprio locus);

• Deleções de segmentos de cromatina adjacentes à Ds (possível perda da atividade dos

Ds);

• Translocação recíproca envolvendo o cromossomo 9, com ponto de quebra na região dos Ds;

• Duplicações de segmentos do cromossomo 9, formação invertida, ou em forma de anel de cromossomos envolvendo o cromossomo 9 com um ponto de quebra no locus Ds; • Transposição da atividade dos Ds de uma posição para outra no complemento

cromos-somal com ou sem rearranjo cromoscromos-somal;

• Mudanças no próprio locus Ds, que resulta em alterações na frequência relativa dos eventos acima citados em gerações futuras de células e plantas.

Segundo (MCCLINTOCK,1950), (FEDOROFF; WESSLER; SHURE,1983), (WEIL; KUNZE, 2000) e (LONG et al., 1993), por meio da transposição do locus Ds, alguns loci mutáveis podem surgir. Esta afirmação seria a primeira aparição na literatura de elementos transponíveis.

(23)

O locus Ds que ao se transpor ao longo do complemento do cromossomo pode gerar alterações na expressão de genes próximos à região de incisão.

Esta afirmação foi feita ao analisar a correlação da expressão do fenótipo do alelo dominante C, responsável pela pigmentação da aleurona (i.e. camada mais externa da semente), a não expressão do fenótipo após a detecção de atividades de locus de dissociação

Ds oriundos de outra região do cromossomo no locus C.

Este fenômeno de transposição faz com que o fenótipo relativo ao genótipo recessivo

c (i.e. aleurona sem coloração) seja expresso e a retomada da expressão do fenótipo do alelo

dominante C após a detecção da falta de atividade do locus Ds no locus do alelo C e a presença da atividade do locus Ds em outra região do cromossomo.

Em (MCCLINTOCK, 1950), outros tipos de elementos mutáveis também foram observados e os tipos de efeitos que causam também são bem distintos, por exemplo, a análise do efeito de elementos mutáveis do tipo 3, dentre os 4 tipos de loci mutáveis, caracterizam uma quantidade de expressão do fenótipo selvagem muito maior nas regiões afetadas com a inserção deste tipo de elemento.

A presença do fator Ac é necessária para gerar a instabilidade (i.e. presença do fenótipo selvagem e mutante de forma alternada) e mutação no locus mutável, onde a não presença do fator Ac corresponde a estabilidade do fenótipo.

Este fator de ativação também pode se transpor ao longo do cromossomo e entre cromossomos, regulando a ocorrência de mutações e ativação dos loci mutáveis. Segundo (GRIFFITHS A. J. F. WESSLER; CARROLL; DOEBLEY, 2015), o elemento Ds é uma versão incompleta mutada do fator de ativação Ac. Possivelmente esta é a razão pela qual ambos elementos causam os efeitos observados de estabilidade e instabilidade do fenótipo. A inserção de Ds em um cromossomo e seus efeitos pode ser observada na Figura 1.

A instabilidade no fenótipo causada pela ação de elementos transponíveis no milho e na rosa, pode ser observada nas Figuras 2ae 2b.

2.1.1 Organização dos Tipos de Elementos Transponíveis

Como dito no Capítulo 1, de acordo com (WICKER et al.,2007) e também com o que foi observado no trabalho (MCCLINTOCK, 1950), existe uma grande diversidade de TEs (e.g. em plantas é possível que haja milhares ou dezenas de milhares de famílias distintas de TEs que podem compor até mais de 80% do genoma em algumas espécies), sendo que cada tipo de TE possui uma característica que o distingue dos demais, podendo ser com relação a sua composição, forma de transposição, entre outros fatores de diferenciação.

(WICKER et al., 2007) propõem o primeiro sistema de classificação hierárquica uni-versal para organizar os diferentes tipos de TEs em classes, subclasses, ordens e superfamílias. Esta divisão foi baseada nos mecanismos de transposição, similaridade entre sequências e

(24)

Figura 1 – Inserção de Ds no cromossomo e seus efeitos

Fonte: (GRIFFITHS A. J. F. WESSLER; CARROLL; DOEBLEY, 2015)

(a) Instabilidade no fenótipo do milho causada

pela ação de ETs (b) Instabilidade no fenótipo de uma rosa causada

pela ação de ETs

Figura 2 – Exemplos de instabilidade fenotípica

relações estruturais.

O sistema de classificação hierárquica que pode ser observado na Figura 3. Sobre as nomenclaturas das ordens, LTR (do inglês, Long Terminal Repeat), DIRS (do inglês,

Dictyostelium Intermediate Repeat Sequence), LINE (do inglês, Long Interspersed Nuclear Element), PLE (do inglês, Penelope-like Elements), SINE (do inglês, Short Interspersed Nuclear Element) e TIR (do inglês, Terminal Inverted Repeat).

(25)

Figura 3 – Sistema de classificação hierárquica universal proposto em (WICKER et al.,2007) Demonstra os níveis: classes, subclasses, ordens e superfamílias. Também apresenta as

respectivas diferenças estruturais. TSD (do inglês, Target Site Duplication) significa tamanho de duplicação do sítio alvo

Fonte: (WICKER et al., 2007)

porém diferem entre si com relação a estrutura de domínios de codificação de proteínas, também diferem com relação a presença ou não e tamanho de duplicação de sítio-alvo (i.e. TSD, uma sequência curta repetitiva que é inserida em ambos flancos no momento da inserção do TE). (WICKER et al., 2007) ainda afirma que praticamente não há nenhuma sequência conservada a nível de DNA entre as superfamílias, somente algumas similaridades são encontradas a nível de proteína.

(26)

2.1.1.1 Elementos da Classe I

Os elementos da classe I (i.e. superfamílias das ordens: LTR, DIRS, PLE, LINE e SINE) necessitam de um RNA intermediário para se transpor, sendo que nenhum membro desta classe cliva sequências de DNA e as transfere para um sítio doador (i.e. tranposição de um local para outro), ao invés disso, o RNA intermediário é transcrito a partir da sequência do TE e então por transcrição reversa é transformado em DNA novamente (por meio de uma transcriptase reversa codificada para TEs) formando uma nova cópia do elemento no genoma. Devido a esta propriedade de "copiar e colar", os elementos desta classe são responsáveis por grande parte das sequências repetitivas nos genomas.

Os elementos da ordem LTR não são tão presentes nos genomas de animais, porém são os elementos predominantes nos genomas de plantas. Podem variar de tamanho entre centenas de pares de bases até 25000 pares de base. Os elementos que flanqueiam os LTRs podem variar de algumas centenas de pares de bases até mais do que 5000 pares de bases e iniciam com 5’-TG-3’ e terminam com 5’-CA-3’. Segundo (WICKER et al., 2007), (NEUMANN; POŽÁRKOVÁ; MACAS,2003) e (GRIFFITHS A. J. F. WESSLER; CARROLL; DOEBLEY,

2015), quando integrados, produzem sítios de sequências curtas, de cerca de 4 a 6 pares de base, uma em cada flanco delimitando a inserção do elemento. Estes elementos possuem ORFs (fases de leitura abertas) para produção de GAG (i.e. uma proteína estrutural para partículas tipo vírus) e para produção de POL (i.e. um complexo proteico que codifica proteinase aspártica (AP), transcriptase reversa, RNase H (RH) e DDE integrase (INT)). Como (CHUONG; ELDE; FESCHOTTE, 2016) relata, é possível observar que os LTR codificam complexos proteicos responsáveis pela produção de enzimas necessárias para a replicação do próprio elemento. (WICKER et al.,2007) e (NEUMANN; POŽÁRKOVÁ; MACAS, 2003) também apontam a existência de uma ORF cujo propósito é ainda desconhecido.

Os elementos da ordem DIRS possuem um gene para tyrosine recombinase ao invés de um gene para INT (i.e. DDE integrase). O fato de não possuir um gene para INT os limita a não formar TSDs. As regiões terminais dos elementos DIRS lembram regiões do tipo split

direct repeats (SDR) ou regiões com repetições invertidas. Esta característica indica que o

mecanismo de inserção dos elementos DIRS é diferente do utilizado pelos elementos LTRs ou LINEs. Estes elementos pertencem à classe I devido a presença de RT. Os elementos desta ordem são encontrados em diversos organismos, desde algas verdes, animais e até mesmo fungos.

Os elementos da ordem PLE codificam uma RT mais próxima a telomerase do que a RT dos LTRs retrotransposons ou LINEs. Estes elementos apresentam uma endonuclease que está mais relacionada com endonuclease codificada por íntrons e com a proteína de reparação do DNA de bactérias UvrC. Os membros desta ordem também possuem sequências terminais longas repetitivas que podem estar invertidas ou não. Os elementos desta ordem foram encontrados em mais de 50 espécies, que incluem seres unicelulares, animais, fungos e

(27)

plantas.

Os elementos da ordem LINE não possuem terminais longos repetitivos e codificam RT e nuclease em uma de suas ORFs para transposição. Apresentam sequências de comprimento de milhares de pares de bases e são encontrados em espécies de todo o reino eucarioto. Os elementos da ordem LINE podem apresentar na terminação 3’ uma cauda poli(A), repetições em tandem ou uma região rica em adenina. A estrutura destes elementos pode variar entre as superfamílias desta ordem, como por exemplo, algumas podem conter somente uma ORF, sendo que outras podem conter mais, porém codificar enzimas diferentes.

Os elementos da ordem SINE são pequenos, como o próprio nome sugere, cerca de 80 a 500 pares de bases e produzem uma duplicação de sítio-alvo de cerca de 5 a 15 pares de bases. Estes elementos possuem sequências promotoras para RNA polimerase III (Pol III), o que pode indicar uma origem a partir de tRNA, 7SL RNA e 5S RNA. A região terminal 3’ pode ser rica em adenina ou no conjunto AT (i.e. adenina-timina) com repetições em tandem de 3 a 5 pares de base ou possuir uma cauda poli(T), que é o sinal de terminação da Pol III. 2.1.1.2 Elementos da Classe II

Os elementos da Classe II são divididos primeiramente em duas subclasses que separam os elementos de acordo com o número de fitas de DNA que são abertas durante a transposição. Dentre os elementos das subclasses, nenhum necessita de um RNA intermediário para se transpor (WICKER et al., 2007).

Os elementos da subclasse 1 são elementos do tipo recortar e colar da ordem TIR e crypton. Todos os elementos desta ordem codificam a enzima transposase que é necessária para a incisão no sítio-doador. A transposase dos elementos da subclasse 1 tendem a possuir . A diferença entre as superfamílias desta ordem se dá pelas sequências terminais e o tamanho da duplicação de sítio-alvo.

Os elementos da segunda ordem da subclasse 1, crypton, são pouco conhecidos e somente encontrados em fungos. (GOODWIN; BUTLER; POULTER,2003) descreve que estes elementos possuem uma ORF para tyrosine recombinase mas não possuem um domínio para transcriptase reversa, o que segundo (WICKER et al., 2007), pode ser um indicativo de que estes elementos se transpõem através do próprio DNA como intermediário. Estes elementos não possuem sequências terminais do tipo TIR e podem gerar TSDs resultantes de recombinação entre uma molécula circular e integração.

Os elementos da subclasse 2 são elementos que se transpõem por meio de replicação sem a clivagem da dupla fita. A replicação destes elementos se dá pelo deslocamento de somente uma fita. Esta subclasse possui duas ordens de elementos, Helitron e Maverick (ou Polintons).

(28)

chamado rolling-circle, que abre apenas uma fita de DNA e não gera duplicação do sítio-doador. A faixa terminal dos Helitrons é definida por motifs TCs e CTRR (i.e. citosina, timina e duas purinas). Os elementos da ordem Helitron codificam a enzima tyrosine recombinase do tipo Y2 (i.e. Y2-type tyrosine recombinase) e outras proteínas. Estes elementos foram majoritariamente encontrados em plantas, mas também foram identificados em animais e em fungos.

Os elementos da ordem Mavericks tendem a ser elementos longos de cerca de dez a vinte mil pares de base. Também possuem sequências terminais do tipo TIR e podem codificar até 11 proteínas, cujas ORFs variam em número e ordem dentre os elementos desta ordem. Estes elementos também não codificam a transcriptase reversa, o que pode indicar que estes elementos, assim como todos da Classe II, não utilizam um RNA como auxiliar para se transpor e replicar. Os elementos desta ordem foram encontrados em diversos eucariotos, mas não foram encontrados em plantas.

2.1.2 Aspectos Regulatórios dos Elementos Transponíveis e sua Importância

Segundo (BRITTEN; KOHNE, 1968), grande parte do genoma de organismos superi-ores é composta por sequências repetitivas, sendo que uma das hipóteses propostas é que estas repetições são oriundas de translocações de fragmentos de sequências que foram se acumulando ao longo do processo evolutivo dos organismos superiores. Esta vasta quantidade de sequências repetitivas nos genomas podem atuar como elementos regulatórios, evoluindo a rede de regulação gênica.

(CHUONG; ELDE; FESCHOTTE, 2016) apresenta evidências que revelam que os TEs são uma fonte, ao longo de todo o genoma, de elementos regulatórios. TEs autônomos são capazes de replicar os genes que codificam de modo independente ao cromossomo da célula hospedeira, porém dependem da maquinaria da célula hospedeira para expressar os genes que codifica. Com isso, alguns TEs evoluíram de modo a possuir regiões cis-regulatórias que funcionam como os sítios promotores da célula hospedeira.

Existem diversos tipos de TEs e cada tipo possui um mecanismo diferente de replicação e transposição, consequentemente apresentam padrões diferentes de constituição, com relação a elementos de sequência, regiões codificantes e regiões promotoras. Nem todos TEs apresentam sequências promotoras e poucas sequências promotoras de TEs foram estudadas, mas sabe-se que estes elementos possuem atividade regulada por meio de aglomerados de sequências cis-reguladoras, que podem recrutar e integrar combinações específicas de fatores de transcrição codificados pelo hospedeiro.

(CHUONG; ELDE; FESCHOTTE, 2016) trata TEs como se fossem parasitas genô-micos, sendo que estes ao se inserirem no genoma de algum organismo tendem a escolher as regiões mais propensas para replicação de seu material genético. Algumas famílias de elementos escolhem as regiões com poucos genes e de cromatina fechada, garantindo a

(29)

existência sem perturbação, porém, outras famílias tendem a escolher regiões de grande atividade transcricional. TEs evoluíram mecanismos sofisticados para encontrar os sítios correspondentes a tais regiões e os mecanismos necessários para se inserirem nas mesmas. Após a inserção de um elemento, dependendo da região de inserção este poderá afetar a expressão de genes ao redor da região de inserção.

A maioria dos TEs são silenciados bioquimicamente e estão inativos, porém, há estudos ((CHUONG; ELDE; FESCHOTTE,2016)) que indicam que uma considerável parte do transcriptoma de mamíferos é composto por sequências que iniciam em promotores de TEs e então codificam genes, ou seja, genes estão sendo expressos devido a atividade regulatória exercida pelos promotores de TEs.

Segundo (CHUONG; ELDE; FESCHOTTE,2016) e (GERDES et al.,2016), no estado embrionário, há alta atividade transcricional provinda de sequências de retrovírus endógenos ERVs, um tipo de TE, presentes no genoma e estas sequências são transcricionalmente reguladas por promotores de cadeias de longo terminal de repetição (LTR), outro tipo de TE, que contém sítios de ligação para fatores de transcrição que controlam estágios iniciais de desenvolvimento. Isto mostra que TEs são muito importantes, principalmente para a fase inicial de desenvolvimento de mamíferos.

TEs são grandes contribuidores de RNAs regulatórios, como micro RNAs (miRNAs),

long no-coding RNAs (lncRNAs) e RNAs circulares (circRNAs). Cerca de mais de dois terços

de lncRNAs possuem sequências exônicas provindas de TEs. Isto mais uma vez demonstra a importância dos TEs como elementos regulatórios do genoma.

Para qualquer fator de transcrição em qualquer tipo de célula os TEs contribuem com uma média de 20% de todos os sítios de ligação. E desta contribuição, maior parte se deve aos elementos da ordem LTR. Analisando os sítios de ligação e suas sequências é possível inferir que havia um motif para o sítio no TE ancestral e este foi sendo disperso ao longo do genoma por meio de transposição. Estas constatações sugerem que TEs são elementos de suma importância para aquisição de novos sítios de ligação a fatores de transcrição durante a evolução de mamíferos.

TEs também podem assumir um importante papel na organização genômica de alta ordem (i.e. estrutura da cromatina, super enrolamentos, entre outros), pois segundo (CHUONG; ELDE; FESCHOTTE,2016), alguns tipos de TEs são capazes de prevenir que a heterocromatina se espalhe, outros tipos como os SINE possuem sítios de ligação para fatores de transcrição responsável por atividades isolantes e organizam a arquitetura nuclear.

(CHUONG; ELDE; FESCHOTTE,2016) também elenca diversos benefícios adquiridos pelos organismos através da presença de determinados TEs e sua conservação evolucionária. Como por exemplo o TE LF-SINE responsável pelo desenvolvimento do cérebro em tetrápodes vertebrados, o TE MER41 responsável pela regulação da resposta inflamatória em humanos, o TE ERV9 responsável pelo controle da transição entre o desenvolvimento de globinas fetais

(30)

e adultas em humanos, o TE MER39(ERV) responsável pela expressão de prolactina durante a gravidez (i.e. proteína que possibilita a produção de leite em mamíferos fêmeas), entre diversos outros exemplos citados por (CHUONG; ELDE; FESCHOTTE, 2016) e muitos outros ainda a serem descobertos e estudados. Esta observações e evidências reforçam ainda mais o papel positivo que TEs podem assumir no genoma de seres vivos.

2.2 Redes Neurais Convolucionais Profundas

Nesta seção serão apresentados os conceitos teóricos referentes às redes neurais convolucionais profundas. Primeiramente a história das CNNs é apresentada, em seguida os conceitos relacionados à redes neurais artificiais e como estes conceitos são aplicados em CNNs.

2.2.1 Aprendizado de Máquina

Algoritmos de aprendizado de máquina, ou machine learning, para tarefas de classifi-cação e regressão, são algoritmos capazes de utilizar informações dos dados de um conjunto e com estas informações criar modelos capazes de predizer corretamente categorias ou valo-res para outros dados que não foram em nenhum momento apvalo-resentados ao algoritmo no momento da criação do modelo, ou seja, são capazes de aprender a partir dos dados.

Os algoritmos utilizam características dos dados como forma de informação e a partir desta são capazes de aprender modelos para realizar determinada tarefa. Existem duas vertentes para algoritmos de aprendizado de máquina, o aprendizado supervisionado e o aprendizado não supervisionado.

O aprendizado supervisionado utiliza um “supervisor” (i.e. um agente externo), para fornecer informações sobre os padrões (i.e. dados) que serão preditos pelo modelo. No caso de algoritmos utilizados para a tarefa de classificação, o supervisor muitas vezes consiste de um humano especialista que fornece os rótulos respectivos das amostras utilizadas para a criação do modelo. Os métodos supervisionados consistem de duas principais etapas para criação do modelo, uma etapa de treinamento e uma etapa de teste.

A etapa de treinamento consiste na definição dos coeficientes do modelo, enquanto que a etapa de teste consiste na verificação do desempenho do modelo e, muitas vezes, auxilia o algoritmo a ajustar os coeficientes de maneira a melhorar o desempenho do mesmo. Detalhes do processo de treinamento de um algoritmo de aprendizado de máquina supervisionado são descritos na Seção 2.2.2.

Algoritmos de aprendizado de máquina são capazes de resolver diferentes tipos de tarefas, como: classificação, regressão, transcrição, tradução de máquina, detecção de anomalia, síntese e amostragem, entre outras (GOODFELLOW; BENGIO; COURVILLE, 2016).

(31)

A tarefa de classificação, a qual é foco deste estudo, pode ser matematicamente definida pela Equação2.1. Onde f representa um modelo com os seus coeficientes, x representa uma amostra sendo aplicada ao modelo como entrada e y representa a resposta do modelo à aplicação do padrão x, no caso, y representa a respectiva classe do padrão de entrada x.

f : Rn− > 1, ..., k

f (x) = y (2.1)

Algoritmos de aprendizado não supervisionado utilizam informações obtidas a partir dos dados de um conjunto para gerar um modelo capaz de realizar a predição correta dado um padrão de entrada, porém no processo de criação do modelo não utiliza nenhuma informação com relação à classe ou alvo dos dados do conjunto, ou seja, não há o auxílio de um supervisor para prover informações sobre as categorias ou alvos de cada padrão.

Este tipo de algoritmo é geralmente utilizado quando o conjunto de categorias possíveis não é conhecido e mesmo assim deseja-se separar os dados de forma a agrupar dados com características semelhantes em grupos ou clusters.

Este estudo tem como foco a análise de métodos de aprendizado de máquina supervi-sionados. Em particular redes neurais artificiais, visto que CNNs são arquiteturas profundas de redes neurais artificiais. Os detalhes sobre RNAs são apresentados na Seção2.2.2.

2.2.2 Redes Neurais Artificiais

Redes neurais artificiais são uma classe de algoritmos de aprendizado de máquina supervisionado bioinspirados nas interações entre os neurônios de vertebrados (ZURADA,

1992). Esta inspiração se dá no modelo do neurônio artificial proposto em (PATTERSON,

1998). As representações de um neurônio artificial e biológico podem ser observadas nas Figuras 4a e4b.

O modelo de um neurônio biológico, em específico uma célula piramidal representada na Figura4a, é composto basicamente por um corpo celular, dendritos e axônio. O axônio tem como uma das principais funções transferir informações na forma de impulsos eletroquímicos pelo sistema nervoso. Os dendritos são responsáveis por estabelecer as ligações entre diferentes corpo celulares e axônios, é através destes que as sinapses são realizadas. O corpo celular pode disparar impulsos elétricos pelo axônio de acordo com o tipo de excitação obtido nos dendritos.

O modelo de um neurônio artificial, em específico um perceptron representado na Figura4b, é composto por unidades de entrada que propagam sinais ponderados por pesos sinápticos para uma unidade somadora, que aplica o valor da soma de todas as entradas ponderadas e o valor de viés à função de ativação. A função de ativação produz um sinal de saída que depende diretamente do tipo de excitação apresentada pelos sinas de entrada

(32)

(a) Modelo de um neurônio piramidal

(b) Modelo de um neurônio artificial

Figura 4 – Exemplos de modelos de neurônios naturais e artificiais

Fonte: (HAYKIN, 2009)

ponderados pelos pesos sinápticos e do valor de viés (bias). Claramente a ponderação dos sinais de entrada por pesos sinápticos tem como analogia a conexão entre o axônio e os dendritos de um neurônio biológico. A união da unidade de soma e a função de ativação é análoga ao corpo celular de um neurônio biológico.

Uma rede neural artificial consiste de diversos neurônios interconectados em camadas. Sendo a primeira camada denominada de camada de entrada, as camadas entre a camada de entrada e a camada de saída são denominadas de camadas ocultas e a camada final da rede é denominada de camada de saída. A camada de saída é responsável pela classificação, caso a rede esteja sendo treinada para resolver este tipo de tarefa. Quando uma rede apresenta várias camadas ocultas interconectadas, esta é denominada uma arquitetura de aprendizado profundo (deep learning).

O algoritmo tem como objetivo aprender a melhor configuração de valores para os pesos sinápticos e valores de viés através dos dados do conjunto de treinamento, de modo a ser capaz de predizer corretamente a classe de uma amostra nunca antes apresentada à rede.

Um algoritmo de treinamento é necessário para aprender os valores dos pesos sinápticos e valores de viés para realizar corretamente a tarefa proposta. O tipo mais comum de algoritmo de treinamento utilizado no treino de arquiteturas de redes neurais artificiais são os algoritmos da família backpropagation.

(33)

A Equação 2.2 define a ponderação dos sinais de entrada por estes pesos. a = n X i=0 Wjixi+ bj (2.2)

onde a é o valor da soma ponderada, W representa todos os pesos sinápticos de uma camada da rede, Wj o vetor de pesos sinápticos do j-ésimo neurônio, Wji o valor do i-ésimo peso sináptico do j-ésimo neurônio, xi o i-ésimo valor de entrada e bj o valor de viés do j-ésimo neurônio.

Esta soma ponderada é utilizada como entrada para uma função de ativação, que pode ser uma das seguintes funções: ReLU, sigmoide, tangente hiperbólica, entre outras. As equações para as funções de ativação podem ser observadas nas Equações 2.3, 2.4 e2.5 para ReLU, sigmoide e tangente hiperbólica respectivamente.

ϕ(a) = max(0, a) (2.3) ϕ(a) = 1 1 + e−a (2.4) ϕ(a) = sinh(a) cosh(a) = ea− e−a ea_{+ e}−a (2.5)

onde a representa o valor da soma ponderada.

Redes neurais artificiais são capazes de aproximar qualquer função, pois a aplicação das funções de ativação em valores de entrada ponderados pelos pesos sinápticos e os valores de viés possibilitam tal aproximação, até mesmo de funções não lineares como a função ou exclusivo (XOR), dada a quantidade correta de camadas ocultas e quantidade de neurônios em cada camada (HORNIK; STINCHCOMBE; WHITE,1989).

Os pesos são os parâmetros do modelo, os quais a rede tenta otimizar na fase de treinamento. Inicialmente os pesos são valores aleatórios e a partir das diferenças apresentadas pela rede e as respostas desejadas o algoritmo de otimização utilizado no treinamento modifica os pesos até um critério de parada (geralmente quantidade de épocas). Após atingir o critério de parada os pesos aprendidos tendem a obter um erro próximo ao mínimo e com isso a rede é capaz de realizar a tarefa proposta corretamente (e.g. prever corretamente se um cliente irá comprar determinado produto dado características do cliente como idade, salário, entre outras).

Para ajustar o modelo aos erros obtidos na fase de treinamento, as redes neurais artificiais utilizam um algoritmo de treinamento, cuja família de algoritmos backpropagation possui os algoritmos mais utilizados para o treino de redes neurais artificiais. Os algoritmos da família backpropagation usam a regra da cadeia numa abordagem gradiente descendente para minimizar a função do erro da rede.

(34)

2.2.3 Aprendizado Profundo e Redes Neurais Convolucionais

Segundo (GOODFELLOW; BENGIO; COURVILLE, 2016) o termo aprendizado profundo (DL) remete ao fato de que uma hierarquia de conceitos permite solucionar problemas complexos por meio das soluções de problemas menores. Esta hierarquia de conceitos possui determinada profundidade a medida que os problemas menores se interconectam para solucionar um problema complexo. Algoritmos de aprendizado profundo utilizam este conceito de dividir um problema muito complexo em várias unidades menores interligadas que quando solucionadas apresentam a solução para o problema como um todo.

Esta classe de algoritmos provou ter muito potencial quando em 2016 o método pro-posto por (SILVER et al.,2016), AlphaGO, por meio da aplicação de técnicas de aprendizado profundo e outros métodos de IA conseguiu derrotar o campeão mundial do jogo Go, um jogo com complexidade de aproximadamente 250150 _{movimentos possíveis (quantidade muito} maior do que o xadrez com complexidade de aproximadamente 3580 _{possíveis movimentos)} (SILVER et al., 2016). E também (SILVER et al., 2017) que utilizou novamente técnicas de aprendizado profundo e outras técnicas de IA para superar o AlphaGO de (SILVER et al., 2016) e conseguiu obter um sistema capaz de vencer todas as 100 partidas realizadas. Estes exemplos demonstram que utilizando técnicas de DL é possível obter sistemas com desempenho sobre-humano.

Algoritmos de aprendizado profundo representam uma subclasse de algoritmos de aprendizado de máquina, que por sua vez são algoritmos muito utilizados em problemas de reconhecimento de padrões.

Segundo (DUDA; HART; STORK, 2001), o reconhecimento de padrões é o ato de a partir de dados brutos tomar decisões baseadas nas categorias dos padrões.

Existem algoritmos de DL supervisionados e não supervisionados. A grande proposta e diferencial dos algoritmos de DL está relacionada à representação. Um fator muito importante para qualquer problema de reconhecimento de padrões é a representação dos dados. Que basicamente é definir a melhor maneira para representar os dados de modo que o sistema consiga identificar as categorias corretas dos padrões.

A Figura 5 exemplifica um caso em que sem a representação adequada a tarefa de separar os padrões em duas classes se torna muito complexa, porém ao mudar a representação dos dados a separação dos padrões se torna trivial. Algoritmos de DL são capazes de aprender a representação ideal dos dados para tarefas como classificação. Esta abordagem é denominada como aprendizado por representação.

Redes Neurais Convolucionais são algoritmos de DL, compostos basicamente por camadas de convolução, camadas de pooling e camadas totalmente conectadas. Uma camada de convolução pode possuir vários filtros, cada filtro possui um neurônio atrelado a uma máscara de pesos. Esta máscara de pesos é aplicada ao longo do dado de entrada da rede,

(35)

Figura 5 – A representação utilizada para a classificação do lado esquerdo é o sistema de coordenadas cartesianas e pode-se observar que as classes não são linearmente separáveis e se trata de um problema de separação complexo, já a representação utilizada para a mesma classificação do lado direito é o sistema de coordenadas polares e é possível observar que a tarefa de separação se torna trivial

Fonte: (GOODFELLOW; BENGIO; COURVILLE,2016)

por exemplo uma imagem. A aplicação destas máscaras ao longo do dado de entrada reduz a complexidade do mesmo e aplica certa abstração ao dado.

Geralmente após uma camada de convolução a camada de pooling é aplica, a qual realiza outra abstração diminuindo a dimensão do dado ainda mais. Existem alguns tipos diferentes de pooling, como o max pooling, média, mediana, ou qualquer outra função que possa resumir dados em uma máscara.

Um exemplo da operação de convolução pode ser observado na Figura 6. A operação de pooling aplica uma máscara como a operação de convolução e então aplica uma função, como max(X), sendo X uma matriz com os valores contidos em uma máscara ocupando parte dos dados de entrada da camada de pooling.

A Figura 7 apresenta a arquitetura de uma rede neural convolucional (LeNet-5) aplicada no reconhecimento de dígitos numéricos manuscritos.

f Uma CNN possui a capacidade de extração de características e classificação ou aproximação a função que define as saídas apropriadas para o problema que está sendo tratado. Os resultados das camadas de convolução são aplicados a parte final da arquitetura, as camadas totalmente conectadas, como se fossem as entradas de uma rede neural artificial plana comum, como a Multilayer Perceptron (MLP). Estas entradas podem ser consideradas como as características extraídas do processo de extração de característica realizado pela parte convolucional.

O processo de treinamento de uma rede neural convolucional é igual ao realizado por uma rede neural artificial. Amostras anotadas são apresentadas à redfe e de acordo com as diferenças apresentadas pela rede com relação a resposta desejada os pesos são atualizados.