• Nenhum resultado encontrado

Experimento 21: Testes com outros tipos de sequências biológicas

Este experimento visa validar a capacidade de classificação de outros tipos de sequên- cias biológicas da abordagem proposta ao aplicar o TERL na classificação de sequências de mRNA e lncRNAs.

O data set 9 é criado com base nas sequências obtidas pelo CPC2 (KANG et al.,

2017), apenas removendo as sequências repetidas que foram encontradas entra as duas classes e adicionando sequências ruído como foi feito nos experimentos 12 a 18. A distribuição do

data set 9 pode ser observada na Tabela36.

Tabela 36 – Distribuição das sequências de mRNA e lncRNA do data set 9 utilizadas no experimento 21.

Classe Treino Teste

lncRNA 2676 1147 mRNA 2676 1147 Ruído 2676 1147

O complemento reverso também foi adicionado às sequências de treino do data set 9, o que leva cada classe a possuir uma quantidade de 5352 sequências.

É importante ressaltar que, a maioria dos métodos não realizam a classificação de sequências ruído para verificar a capacidade dos métodos de realmente identificar sequências do problema (TEs, lncRNAs, mRNAs, etc) e não predizer uma classe do problema para sequências não relacionadas.

A matriz de confusão obtida pela classificação das sequências do data set 9 pelo TERL utilizando a arquitetura 5 pode ser observada na Figura 41. As métricas obtidas por esta classificação são apresentadas na Tabela 37.

Tabela 37 – Métricas obtidas pelo TERL utilizando a arquitetura 5 na classificação das sequências de lncRNAs, mRNAs e ruídos do data set 9.

Classe Acurácia Precisão Recall Especificidade F1-score

lncRNA 0,907 0,804 0,955 0,884 0,873

mRNA 0,917 0,967 0,778 0,987 0,862

Ruído 0,983 0,970 0,978 0,985 0,974

Figura 41 – Matriz de confusão obtida pelo TERL utilizando a arquitetura 5 na classificação das sequências de lncRNA, mRNA e ruído do data set 9.

Figura 42 – Matriz de confusão obtida no experimento 21 na classificação das sequências de lncRNAs e mRNAs do data set 9 pelo TERL utilizando a arquitetura 5.

Analisando os resultados obtidos é possível perceber que o TERL foi capaz de obter boas métricas na classificação destas sequências também. O que indica que o método proposto é genérico e pode ser utilizado com qualquer sequência biológica.

De modo a comparar os resultados obtidos com os obtidos por métodos da literatura em (BONIDIA et al.,2019), foi realizado a classificação do data set 9 sem as sequências ruído. A matriz de confusão obtida nesta classificação pode ser observada na Figura 42. As métricas obtidas nesta classificação sem as sequências ruído podem ser observadas na Tabela 38.

A Tabela 39 exibe as acurácias apresentadas em (BONIDIA et al., 2019) obtidas por diversas abordagens da literatura na classificação das sequências do data set 9 sem as sequências ruído.

Tabela 38 – Métricas obtidas no experimento 21 na classificação das sequências de lncRNAs e mRNAs do data set 9 pelo TERL utilizando a arquitetura 5.

Classe Acurácia Precisão Recall Especificidade F1-score

lncRNA 0,881 0,821 0,976 0,787 0,892

mRNA 0,881 0,970 0,787 0,976 0,869

Média macro 0,881 0,895 0,881 0,881 0,888

Tabela 39 – Métricas obtidas pela arquitetura 5 e por diversas abordagens na classificação das sequências de lncRNAs e mRNAs do data set 9. Os resultados dos demais métodos são referentes aos obtidos em (BONIDIA et al., 2019), sendo a coluna “Bonidia” referente ao resultado do método proposto no mesmo.

Métrica CPC2 CNCI PLEK RNAplonc Bonidia TERL

Acurácia 0,957 0,900 0,665 0,944 0,955 0,881

Analisando os resultados exibidos na Tabela 39, pode-se verificar que a abordagem proposta obteve resultados próximos aos de algumas abordagens da literatura. Experimen- tos adicionais podem ser realizados para ajustar a arquitetura da CNN ao problema de classificação destes tipos de sequências em trabalhos futuros.

Assim como na classificação de TEs, estes métodos utilizam características manual- mente definidas, como presença de ORF, k-mers e regiões com sequências codificantes. A abordagem proposta é capaz de inferir automaticamente as características inerentes ao tipo de sequência que se está classificando.

TEclass e PASTEC não são capazes de classificar as sequências de lncRNAs e mRNAs, pois utilizam características específicas de TEs, como comprimento da sequência, busca por domínios proteicos presentes em TEs e utilização de busca por similaridade em bases de TEs. Já a nossa abordagem mostrou-se genérica, o que permite facilmente aplicá-la na classificação de qualquer tipo de sequência biológica.

As configurações de hardware que foram utilizadas para realizar os experimentos 1 a 11, 18, 19 e 21 são: processador Intel CoreR TM i5 i5-7300HQ 4 x 2.50 GHz; memória RAM de 16 GB DDR4 2400 MHz e GPU NVIDIA GeForceR GTX 1050 com 4 GB GDDR5 deR memória de vídeo e dos experimentos 12 a 17 são: processador Intel XeonR TM E5-2620 v3 6 x 2.4 GHz; memória RAM de 24 GB DDR4 2133 MHz e GPU NVIDIA TITAN V comR 12 GB GDDR5 de memória de vídeo.

5 Conclusões e Discussões

A partir dos resultados obtidos nos experimentos 1 a 6, pode-se concluir que as instâncias do TERL que utilizaram arquiteturas empiricamente definidas de CNNs são capazes de obter bons resultados nas classificações das sequências de TEs tanto em nível de ordem como em superfamília do data set 1. Algumas métricas obtidas no experimento 6 pelo TERL superam as obtidas pelo método TEclass, inclusive obtendo médias de acurácia, erro e precisão melhores do que as do TEclass.

Os resultados obtidos nos experimentos 7 a 9 mostram que o TERL obtém resultados melhores do que o TEclass na classificação das sequências de diversas bases. Isto demonstra que a abordagem proposta é uma boa candidata a ser aplicada em classificações de sequências de organismos novos, por exemplo. Nestes experimentos, basicamente todos os resultados obtidos são melhores do que os apresentadas pelo TEclass.

Os resultados obtidos nos experimentos 10 e 11 explicitam que arquiteturas empirica- mente definidas para o TERL são capazes de superar os resultados do TEclass em um data

set composto por sequências de treino do RepBase e sequências de teste das demais bases. A

partir dos resultados obtidos nestes experimentos pode-se concluir que o TERL é melhor na tarefa de generalização, pois treinando apenas com sequências do RepBase superaram os resultados do TEclass.

Nestes experimentos também verifica-se que a base RepBase não fornece quantidade de padrões com qualidade suficiente para que os métodos de aprendizado de máquina consigam generalizar a ponto de obter bons resultados na classificação dos conjuntos de teste compostos por sequências das demais bases, pois tanto o desempenho da abordagem proposta quanto o do TEclass caíram nos testes.

Os resultados obtidos nos experimentos 12 a 16 mostram que a instância do TERL que utiliza a arquitetura parcialmente otimizada através de busca gulosa é capaz de obter resultados melhores do que os métodos TEclass e PASTEC na classificação das sequências do data set 7 (composto por sequências de todas as bases).

Estes experimentos também verificam a capacidade dos métodos em reconhecer sequências embaralhadas que representam ruídos. A abordagem proposta foi capaz de classificar estas sequências, obtendo resultados próximos aos já obtidos para outras classes de TE. Já os métodos TEclass e PASTEC apresentam dificuldade em classificar este tipo de sequência.

Os resultados obtidos no experimento 17 mostram que o PASTEC é um método totalmente dependente dos arquivos auxiliares de busca por similaridade. A análise mostra que ao remover tais arquivos o desempenho do mesmo cai consideravelmente.

A partir dos resultados obtidos nos experimentos 18 e 19, conclui-se que é necessário um estudo mais aprofundado da utilização destas arquiteturas na abordagem proposta, pois ambas não foram capazes de atingir a generalização e o valor do custo (loss) para o conjunto de teste obtido aumentou conforme o passar das épocas.

Os experimentos 20 e 21 mostram que a abordagem proposta é genérica e pode ser aplicada na classificação de qualquer tipo de sequência biológica, pois também obteve resultados satisfatórios ao classificar sequências de lncRNAs e mRNAs.

Por fim, concluíse que a abordagem proposta é totalmente flexível com relação à arquitetura e que os resultados obtidos nos experimentos realizados indicam que esta é uma forte candidata para ser utilizada na classificação de TEs em genomas desconhecidos. A abordagem também pode ser facilmente utilizada para classificar qualquer tipo de sequência biológica. Além de ser uma abordagem eficiente, dezenas de vezes mais rápida que o método TEclass e quatro ordens de grandeza mais rápido que o PASTEC.