Experimento 1: Classificação a nível de superfamília do data set

O experimento 1 tem o intuito de verificar se a instância da abordagem proposta com uma arquitetura simples de CNN é capaz de classificar TEs em seus diferentes níveis hierárquicos. Este experimento consiste em utilizar a base RepBase como fonte de sequências para os conjuntos de treinamento e teste.

Tabela 4 – Distribuição do data set 1. Este data set é composto por 3 classes de nível ordem e 10 classes de nível superfamília. As sequências são aleatoriamente selecionados com uma distribuição uniforme. Este data set é utilizado nos experimentos 1 a 6.

Ordem Superfamília Sequências Treino Teste

LTR Copia 7030 800 200 Gypsy 11185 800 200 Bel-Pao 1872 800 200 ERV 4453 800 200 LINE L1 1731 800 200 DNA Tc1-Mariner 2591 800 200 hAT 3047 800 200 Mutator 1382 800 200 PIF-Harbinger 1131 800 200

A grande maioria dos métodos da literatura como o PASTEC e TEclass utilizam o RepBase como base de busca por similaridade e utilizam esta métrica como uma das características do processo de classificação. Devido a isto, estes podem se beneficiar dos conjuntos criados neste experimento, pois as mesmas sequências do conjunto de teste podem pertencer a base de busca por similaridade utilizada.

A base de busca por similaridade contém todas as sequências de determinada versão do RepBase e o conjunto de teste utilizado no experimento possui sequências retiradas da mesma base.

Como mencionado anteriormente na Seção3.2 do Capítulo3, overfitting é evitado nos testes executados com as CNNs ao separar as sequências de modo que nenhuma sequência presente no conjunto de treinamento também esteja presente no conjunto de teste.

CNNs geralmente precisam de grande quantidade de dados para treinar e uma grande variedade de padrões para que consiga aprender a classificar e generalizar qualquer padrão das classes.

Devido à quantidade de sequências de várias classes, do data set 1, ser menor do que 2000 sequências e com a intenção de manter os conjuntos balanceados (considerando a classificação a nível de superfamília), 800 e 200 sequências foram selecionadas de cada classe aleatoriamente para formar os conjuntos de treinamento e teste respectivamente. Esta quantidade de sequências para treino e teste foram selecionadas para utilizar as sequências das superfamílias PIF-Harbinger e Mutator de forma balanceada.

As linhas destacadas em negrito na Tabela 4 representam as classes que possuem quantidade de sequências menor do que 2000, o que impossibilitou uma divisão com maior quantidade de sequências para treino e teste.

A arquitetura 1, apresentada na Seção 3.1.2.1 é utilizada nos experimentos 1 e 2. A matriz de confusão obtida por esta arquitetura na classificação das sequências à nível de

superfamília do data set 1 é apresentada na Figura 19. Dados estatísticos relacionados aos resultados apresentados nesta matriz de confusão são apresentados na Tabela 5.

Figura 19 – Matriz de confusão obtida no experimento 1 na classificação das sequências do

data set 1 a nível de superfamília pelo TERL utilizando a arquitetura 1. Fonte: Autoria própria

Tabela 5 – Métricas obtidas no experimento 1 a partir dos resultados da classificação das sequências a nível de ordem do data set 1 pelo TERL utilizando a arquitetura 1.

Classe Acurácia Erro Precisão Recall F1-score

Copia 0,921 0,079 0,682 0,535 0,599 Gypsy 0,857 0,143 0,335 0,295 0,314 Bel-Pao 0,901 0,099 0,550 0,580 0,564 ERV 0,923 0,077 0,687 0,570 0,623 L1 0,901 0,099 0,542 0,705 0,613 Tc1-Mariner 0,882 0,118 0,479 0,680 0,562 hAT 0,881 0,119 0,461 0,440 0,450 Mutator 0,892 0,108 0,517 0,445 0,478 PIF-Harbinger 0,885 0,115 0,481 0,440 0,460 Média 0,894 0,106 0,526 0,521 0,518

Dentre os métodos da literatura apresentados na Seção 2.3 do Capítulo 2, somente o método TE-Learner aborda a classificação a nível de superfamília, porém somente a classificação de superfamílias da ordem LTR. Comparações com este método não foram

realizadas pois a versão disponibilizada pelos autores apresenta erros que impossibilitaram a execução do mesmo.

O experimento 1 é executado de forma a classificar as sequências a nível de superfamília, porém a comparação com outros métodos exige que esta classificação seja mapeada para o nível de ordem. Isto é possível pois a classificação de TEs é hierárquica, sendo que uma sequência da superfamília Copia, por exemplo, é uma sequência da ordem LTR que por sua vez é uma sequência da Classe I (retrotransposon).

A matriz de confusão obtida após o mapeamento dos resultados ao nível de ordem é apresentada na Figura 20e as métricas obtidas são apresentadas na Tabela 6.

Figura 20 – Matriz de confusão do mapeamento dos resultados a nível de superfamília obtidos pela CNN em nível de ordem do experimento 1.

Os experimentos que realizam este tipo de mapeamento (superfamílias para ordem) foram executados com o intuito de verificar se ao treinar a abordagem proposta para uma classificação a nível mais profundo da hierarquia (e.g. superfamília), os resultados são melhores do que treiná-la para classificar as sequências no nível desejado (e.g. ordem).

De modo a comparar os resultados obtidos pelo TERL com os do método TEclass, as mesmas sequências do conjunto de teste foram classificadas pelo método TEclass e a matriz de confusão desta classificação é apresentada na Figura 21. Esta matriz de confusão é utilizada para a comparação de todos os 6 primeiros experimentos que realizam a classificação do data set 1.

Como pode ser observado na Figura 21, o método TEclass evita atribuir classes para determinadas sequências, atribuindo à estas classes o rótulo unclear. Para efeito de comparação, todas as sequências identificadas como unclear pelo método foram consideradas como falso positivo para o cálculo da acurácia e precisão e consideradas falso negativo para o

Figura 21 – Matriz de confusão obtida pelo TEclass na classificação das sequências a nível de ordem do data set 1.

cálculo da revocação (i.e. recall). As comparações da abordagem proposta com o método TEclass são apresentadas na Tabela 6. Comparações com o método REPCLASS não foram realizadas pois os resultados obtidos por este método em (HOEDE et al.,2014) são inferiores do que os obtidos pelos métodos TEclass e PASTEC. Comparações com o método PASTEC são realizadas nos experimentos 13, 15 e 16.

Tabela 6 – Métricas obtidas no experimento 1 pelo TEclass na classificação de sequências a nível de ordem do data set 1 e pelo TERL utilizando a arquitetura 1 com o mapeamento dos resultados a nível de superfamília em nível de ordem.

Método Classe Acurácia Erro Precisão Recall F1-score

LTR 0,800 0,200 0,810 0,719 0,762 LINE 0,901 0,099 0,542 0,705 0,613 DNA 0,811 0,189 0,777 0,806 0,791 TERL Média 0,837 0,163 0,710 0,743 0,722 LTR 0,981 0,019 0,984 0,998 0,991 LINE 0,982 0,018 0,943 0,985 0,963 DNA 0,977 0,023 0,976 0,951 0,963 TEclass Média 0,980 0,020 0,967 0,978 0,972

Como pode ser observado na Tabela 6, a arquitetura 1 não é suficiente para atingir resultados capazes de competir com os obtidos pelo método TEclass. Porém, como o data set 1 é composto somente por sequências do RepBase e o TEclass utiliza valores de similaridade com as sequências do RepBase como uma das características da classificação, o resultado deste método pode estar sendo beneficiado por estar classificando as mesmas sequências contidas na base de busca por similaridade.

De modo a eliminar esta vantagem, outros experimentos são realizados com o intuito de verificar o desempenho dos dois métodos utilizando as sequências do RepBase como treinamento e classificando sequências de outras bases como teste (ver experimentos 10, 11 e 16 das Seções 4.10, 4.11 e 4.16 respectivamente).

Ainda sobre os resultados obtidos pelo experimento 1, é possível perceber que com uma arquitetura simples, como a arquitetura 1, o TERL foi capaz de obter resultados interessantes em termos de acurácia para a classificação a nível de superfamília que poucos métodos abordam. Analisando a matriz de confusão da Figura 19, percebe-se que o TERL foi capaz de aprender a classificar corretamente os padrões apresentados por sequências de diferentes superfamílias. Classificação essa não realizada pelo TEclass e PASTEC.

4.2 Experimento 2: Classificação a nível de ordem do data set 1 pelo

No documento Classificação de elementos transponíveis por redes neurais convolucionais (páginas 60-65)