• Nenhum resultado encontrado

Experimento 7: Classificação a nível de superfamília do data set

O foco dos experimentos 7, 8 e 9 é verificar o desempenho da abordagem proposta com a utilização de diferentes arquiteturas de CNNs e do método TEclass ao realizar a classificação das sequências do data set 2 composto por sequências de todas as bases. Este tipo de agrupamento permite agregar mais sequências para cada classe.

A distribuição de sequências do data set 2 pode ser observada na Tabela13. A intenção de utilizar um data set com sequências provenientes de todas as bases é simular uma situação real, onde os usuários podem classificar sequências de inúmeros organismos e encontrar padrões diferentes dos organismos tradicionais.

Ao utilizar tal data set os métodos devem aprender a classificar corretamente sequências de uma variedade de espécies, com diferentes níveis de qualidade de sequenciamento, pois algumas bases não apresentam regiões entre contigs preenchidas por símbolos indefinidos (i.e. símbolo N ou qualquer outro símbolo da IUPAC que represente incerteza), mas sim toda a sequência do transposon.

Neste experimento, assim como no procedimento de comparação aplicado em (HOEDE et al.,2014), o TEclass não foi retreinado com as sequências do conjunto de treinamento do

data set proposto, o que pode dar certa vantagem para o TERL, pois em seu treinamento

estava exposto a padrões de todos os tipos de sequências de todas as bases.

As sequências de cada superfamília de todas as bases são agrupadas e 2700 sequências aleatórias são selecionadas. Esta quantidade de sequências é utilizada para balancear o data

Tabela 13 – Distribuição de sequências do data set 2. Este data set é composto por 4 clas- ses de ordens e 10 classes de superfamílias. As sequências deste data set são aleatoriamente selecionadas dentre as sequências de todas as bases com uma distribuição uniforme. Esta amostragem aleatória seleciona 2200 sequências para compor o conjunto de treinamento e 500 sequências para compor o conjunto de teste. Este data set é utilizado nos experimentos 7 a 10.

Ordem Superfamília Treino Teste

Copia 2200 500 Gypsy 2200 500 Bel-Pao 2200 500 LTR ERV 2200 500 LINE L1 2200 500 SINE SINE 2200 500 Tc1-Mariner 2200 500 hAT 2200 500 Mutator 2200 500 DNA PIF-Harbinger 2200 500

set, pois a classe Bel-Pao possui apenas 2722 sequências.

O conjunto de treinamento é composto por 2200 sequências destas 2700 e o conjunto de teste pelo restante (500 sequências). Ao realizar tal amostragem, sequências de bases que possuem um maior volume para determinada classe possuem maiores chances de serem selecionadas, enquanto sequências de bases que possuem uma quantidade menor para a classe possuem chances menores. A composição final do data set pode ser observada na Tabela 13.

O experimento 7 tem como objetivo verificar o desempenho da abordagem proposta com a utilização da arquitetura 3, apresentada na Figura 16 (ver Seção3.1.2.1 do Capítulo

3), na classificação a nível de superfamília do data set 2. Neste experimento também foram comparados os desempenhos do método TEclass. A matriz de confusão para esta classificação a nível de superfamília pode ser observada na Figura28. As métricas obtidas neste experimento são apresentadas na Tabela14.

Ao analisar os resultados é possível observar que mesmo classificando sequências provindas de diversas bases, o TERL consegue obter um bom desempenho, com taxas de acurácia acima de 90% para várias superfamílias e o recall e F1-score médio obtidos foram de 0, 729 e 0, 728 respectivamente.

Para comparar o desempenho do TERL com o método TEclass, é necessário fazer o mapeamento da classificação a nível de superfamília para nível de ordem. A matriz de confusão deste mapeamento pode ser observada na Figura 29e as métricas e comparações com o TEclass podem ser observadas na Tabela 15.

A matriz de confusão apresentada pela classificação obtida pelo método TEclass pode ser observada na Figura 30. As métricas obtidas por esta classificação são apresentadas em todas as tabelas que comparam os resultados do TERL com os do TEclass para os

Figura 28 – Matriz de confusão obtida no experimento 7 na classificação das sequências a nível de superfamília do data set 2 pelo TERL utilizando a arquitetura 3.

Fonte: Autoria própria

experimentos 7 a 10.

Analisando os resultados é possível perceber que o TERL utilizando a arquitetura 3 e treinando o mesmo com as sequências do data set 2 consegue aprender a classificar corretamente os padrões apresentados por sequências provindas de diversas bases.

Praticamente todas as métricas obtidas pelo TERL são superiores às apresentadas pelo TEclass, porém, como a base de busca por similaridade utilizada pelo TEclass não possui sequências de outras bases de dados, isto pode dar certa vantagem ao TERL, mesmo assim é possível observar a queda no desempenho do TEclass ao classificar sequências de diferentes bases.

A queda no desempenho do método TEclass pode significar que o método não é capaz de generalizar para sequências de outros organismos e com diferentes qualidades de

Tabela 14 – Métricas obtidas no experimento 7 a partir da classificação das sequências a nível de superfamília do data set 2 pelo TERL utilizando a arquitetura 3.

Classe Acurácia Erro Precisão Recall F1-score

Copia 0,910 0,090 0,550 0,528 0,539 Gypsy 0,890 0,110 0,445 0,408 0,426 Bel-Pao 0,959 0,041 0,759 0,870 0,811 ERV 0,965 0,035 0,840 0,798 0,818 L1 0,959 0,041 0,849 0,722 0,781 SINE 0,962 0,038 0,799 0,834 0,816 Tc1-Mariner 0,961 0,039 0,791 0,832 0,811 hAT 0,938 0,062 0,681 0,716 0,698 Mutator 0,971 0,029 0,879 0,828 0,853 PIF-Harbinger 0,942 0,058 0,695 0,756 0,724 Média 0,946 0,054 0,729 0,729 0,728

Figura 29 – Matriz de confusão do mapeamento dos resultados a nível de superfamília do experimento 7 obtida pela CNN classificando sequências do data set 2 utilizando a arquitetura 3 em nível de ordem.

Fonte: Autoria própria

sequênciamento, ou que as sequências da base RepBase não fornecem padrões suficientes para generalizar para demais organismos e sequenciamentos de qualidades diferentes.

Os experimentos 11 e 16 tratam melhor esta situação, pois o conjunto de treinamento do data set utilizado nestes experimentos é composto somente por sequências do RepBase e o conjunto de teste é composto por sequências das demais bases.

Figura 30 – Matriz de confusão obtida pelo método TEclass na classificação das sequências do data set 2 a nível de ordem.

Fonte: Autoria própria

Tabela 15 – Métricas obtidas no experimento 7 pela CNN através do mapeamento da clas- sificação a nível de superfamília em nível de ordem das sequências do data set 2 e as métricas obtidas pelo TEclass na classificação das sequências a nível de ordem do data set 2.

Método Classe Acurácia Erro Precisão Recall F1-score

LTR 0,891 0,109 0,867 0,861 0,864 LINE 0,959 0,041 0,849 0,722 0,781 SINE 0,962 0,038 0,799 0,834 0,816 DNA 0,902 0,098 0,865 0,894 0,879