Experimento 3: Classificação a nível de ordem do data set 1 pelo

Média 0,913 0,087 0,853 0,817 0,832 LTR 0,981 0,019 0,984 0,998 0,991 LINE 0,982 0,018 0,943 0,985 0,963 DNA 0,977 0,023 0,976 0,951 0,963 TEclass Média 0,980 0,020 0,967 0,978 0,972

classificação em um nível mais profundo da hierarquia e mapeia para níveis mais rasos.

4.3 Experimento 3: Classificação a nível de ordem do data set 1 pelo

TERL utilizando a arquitetura 2

O experimento 3 tem como objetivo verificar o desempenho de uma instância do TERL que utiliza a arquitetura 2 na classificação de sequências de TEs a nível de superfamília do data set 1.

A arquitetura 2 apresenta pares de camadas de convolução e pooling, ao invés de duas camadas de convolução seguidas, como na arquitetura 1. As camadas de pooling após as

camadas de convolução auxiliam a reduzir a dimensionalidade dos dados de entrada para as próximas camadas e fazem isto de modo a conservar parte da informação obtida até o momento pelas camadas anteriores, por meio das funções de máximo, média, moda, entre outras.

Os resultados desta classificação podem ser observados na Figura 23 e as métricas obtidas podem ser observadas na Tabela 8.

Figura 23 – Matriz de confusão obtida pelo TERL no experimento 3, ao classificar as sequên- cias a nível de ordem do data set 1 utilizando a arquitetura 2.

Fonte: Autoria própria

Tabela 8 – Métricas obtidas pelos métodos a partir dos resultados do experimento 3, que utiliza uma instância do TERL com a arquitetura 2 para classificar as sequências do data set 1, e da classificação do data set 1 obtida pelo método TEclass.

Método Classe Acurácia Erro Precisão Recall F1-score

LTR 0,934 0,066 0,950 0,900 0,924 LINE 0,975 0,025 0,882 0,895 0,888 DNA 0,945 0,055 0,918 0,963 0,940 TERL Média 0,951 0,049 0,916 0,919 0,917 LTR 0,981 0,019 0,984 0,998 0,991 LINE 0,982 0,018 0,943 0,985 0,963 DNA 0,977 0,023 0,976 0,951 0,963 TEclass Média 0,980 0,020 0,967 0,978 0,972

Analisando os resultado obtidos é possível perceber o grande aumento no desempenho da abordagem proposta com relação à classificação a nível de ordem. Os resultados obtidos por este experimento superam todos os obtidos nos experimentos 1 e 2 e supera o recall obtido pelo TEclass para as sequências da Classe II.

O método TEclass ainda supera os resultados em praticamente todas as métricas, mas a diferença entre um método e outro diminui drasticamente ao aplicar o par convolução-

pooling. Visando diminuir ainda mais esta diferença, outras arquiteturas foram propostas na

Seção 3.1.2.1do Capítulo 3.

Arquiteturas mais profundas tendem a ser capazes de conseguir reconhecer níveis de abstração de padrões mais profundos, pois como citado no Capítulo 1 e na Seção 2.2.2

do Capítulo 2, os neurônios das primeiras camadas do córtex visual são responsáveis por identificar formas simples como traços horizontais, verticais e cantos. Já os neurônios de camadas mais profundas conseguem identificar formas geométricas como retângulos, triângulos e círculos e nos níveis mais profundos é capaz de reconhecer objetos.

Por isso arquiteturas muito rasas como a utilizada neste experimento podem não ser capazes de chegar aos níveis mais profundos de abstração e não inferir corretamente as características que descrevem as sequências de TE.

No experimento 3 uma arquitetura pouco mais profunda do que a utilizada neste experimento (com dois pares de convolução-pooling) é utilizada e nos experimentos 4 a 21 arquiteturas mais profundas, com no mínimo três pares de convolução-pooling, são utilizadas. No experimento 18 arquiteturas MobileNet com 26 camadas de convolução são utilizadas e no experimento 19 arquiteturas ResNet-50 com 53 camadas de convolução são utilizadas para verificar o desempenho de arquiteturas profundas.

4.4 Experimento 4: Classificação a nível de superfamília do data set 1

pelo TERL utilizando a arquitetura 3 e mapeamento para ordem

De modo a melhorar o desempenho da abordagem proposta, duas camadas ocultas são inseridas na camada totalmente conectada, antes da camada final de classificação, com a intenção de melhorar os resultados (i.e. arquitetura 3), pois a camada totalmente conectada é responsável por realizar a classificação na rede, enquanto as camadas de convolução e pooling são responsáveis por extrair características dos dados.

O experimento 4 tem como objetivo verificar o desempenho da adição destas camadas na rede e verificar se tal adição melhora o desempenho da abordagem e se é possível superar os resultados apresentados pelo método TEclass. Desta forma, o experimento 4 consiste em realizar a classificação das sequências do data set 1 a nível de superfamília utilizando o TERL com a arquitetura 3, mapear esta classificação para o nível de ordem e comparar com os resultados do TEclass. A matriz de confusão da classificação a nível de superfamília pode ser observada na Figura 24 e as métricas obtidas podem ser observadas na Tabela9.

Analisando os resultados da classificação a nível de superfamília, é possível perceber que houve melhoria em diversas métricas, quando comparadas com as obtidas pelo experimento

Figura 24 – Matriz de confusão obtida no experimento 4 na classificação das sequências a nível de superfamília do data set 1 pelo TERL utilizando a arquitetura 3.

Fonte: Autoria própria

1 na Tabela 5 da Seção 4.1. Porém esta melhoria não pode ser atribuída à adição das camadas ocultas, pois o experimento 1 utiliza a arquitetura 1, que não possui os pares convolução-pooling.

Os resultados do mapeamento da classificação a nível de superfamília para nível de ordem e classe podem ser observados na matriz de confusão apresentada na Figura 25 e nas métricas apresentadas na Tabela10.

Analisando os resultados obtidos, novamente é possível observar que ao treinar a rede em um nível mais profundo da hierarquia e mapear estes resultados para níveis mais rasos os resultados obtidos não superam ou se igualam aos resultados obtidos com a classificação no nível que se deseja comparar ou classificar.

Tabela 9 – Métricas obtidas no experimento 4 a partir dos resultados da classificação das sequências a nível de superfamília do data set 1 pelo TERL utilizando a arquitetura 3.

Classe Acurácia Erro Precisão Recall F1-score

Copia 0,935 0,065 0,752 0,620 0,679 Gypsy 0,892 0,108 0,517 0,385 0,441 Bel-Pao 0,931 0,069 0,692 0,685 0,688 ERV 0,931 0,069 0,656 0,800 0,721 L1 0,972 0,028 0,926 0,815 0,867 Tc1-Mariner 0,921 0,079 0,649 0,620 0,634 hAT 0,914 0,086 0,642 0,520 0,575 Mutator 0,892 0,108 0,508 0,765 0,611 PIF-Harbinger 0,918 0,082 0,621 0,665 0,643 Média 0,923 0,077 0,663 0,653 0,651

Figura 25 – Matriz de confusão obtida no experimento 4 pelo mapeamento da classificação a nível de superfamília das sequências do data set 1 em nível de ordem do TERL utilizando a arquitetura 3.

Fonte: Autoria própria

experimentos anteriores e mostram a capacidade do TERL em classificar sequências de TEs em níveis profundos da hierarquia da classificação de TEs.

Os métodos TEclass e PASTEC não são capazes de classificar TEs neste nível da hierarquia, sendo que somente os métodos REPCLASS e TE-Learner abordam este tipo de classificação. Não foi possível utilizar o TE-Learner para comparações devido a presença de erros na versão do software disponibilizado. O REPCLASS também não é utilizado para comparações pois os métodos PASTEC e TEclass obtiveram métricas superiores a este em (HOEDE et al., 2014).

Tabela 10 – Métricas obtidas no experimento 4 pelo TEclass na classificação das sequências do data set 1 a nível de ordem e pelo mapeamento dos resultados obtidos pelo

No documento Classificação de elementos transponíveis por redes neurais convolucionais (páginas 66-71)