Alguns pontos da pesquisa e do desenvolvimento do método proposto ainda ficaram em aberto. A seguir, tais pontos são listados como propostas para trabalhos futuros, os quais poderão agregar bastante em novos conhecimentos, não somente no campo específico do DCIA, mas na área de pesquisa de problemas com múltiplas classes desbalanceadas.

• Apesar dos avanços ainda não existe um consenso sobre quando considerar uma base de dados como desbalanceada. A classificação e a mensuração do desempe-

1 Nem todas as principais contribuições são pontuadas devido ao fato de já terem sido ressaltadas nos parágrafos anteriores.

nho de classificadores podem sofrer grandes modificações quando uma determinada base de dados passa a ser encarada como desbalanceada. Entretanto, em bases de dados cuja taxa de desbalanceamento é praticamente irrisória, tais modificações possivelmente apenas acrescentam esforços ou custos desnecessários. Em (SILVA; ZANCHETTIN, 2015) é sugerido que, em bases binárias, os classificadores mais sensí-

veis ao desbalanceamento têm uma maior probabilidade de experimentar os efeitos do desbalanceamento quando a classe minoritária possui cerca de 25% ou menos da quantidade de instâncias da classe majoritária. Em geral, tal limite é dependente do classificador. Contudo há casos em que mesmo havendo pouco desbalanceamento, a classe majoritária já domina o classificador. Um estudo mais aprofundado sobre o tema pode se tornar de grande valia para a comunidade científica, não somente sobre bases binárias, mas também sobre bases com três ou mais classes. A partir de tais estudos pode haver a possibilidade de uma automação do modo de aprendizado escolhido, de acordo com a base de dados;

• O 1NN, através do DCIA, obteve melhores desempenhos que seus competidores à medida em que a taxa de desbalanceamento se tornava maior. Entretanto, para bases de dados cujo valor do IR ou do MIR são baixos, o 1NN obteve um menor desempenho. Concomitantemente à proposta de trabalho futuro anterior, pode ser interessante verificar se adaptar o DCIA para lidar com cada característica específica das bases de dados resulta em uma melhor geração de protótipos;

• Neste trabalho os testes e comparações estatísticos foram conduzidos usando a mé- trica MAUC. Entretanto, existem outras métricas que comunicam diferentes infor- mações sobre os desempenhos obtidos. Uma análise aprofundada dos desempenhos, levando-se em conta os resultados obtidos a partir de várias métricas, tem o potencial de produzir um conhecimento mais avançado. Tal conhecimento estará relacionado ao comportamento dos classificadores em relação às diferentes abordagens sobre o problema de desbalanceamento;

• A junção dos algoritmos de busca CSO, PSO e SGSA com o DCIA apresentaram vantagens e desvantagens. As três versões produzem, em geral, desempenho similar. É interessante, portanto, encontrar alguma maneira de se determinar qual algoritmo de busca melhor se encaixa no algoritmo, além de tentar mitigar quaisquer de suas desvantagens. Deve fazer parte desta pesquisa futura a combinação do DCIA com outros algoritmos de busca existentes. Além disso, é necessário também entender como o DCIA e os algoritmos de busca podem se beneficiar mutuamente na produção de um melhor desempenho;

• A métrica AUCarea é utilizada durante a Seleção de Atributos. Posteriormente, a métrica MAUC é utilizada para validar a geração de protótipos. Foi observado

que a métrica AUCarea algumas vezes não produz um bom desempenho quando utilizada também na geração de protótipos. Entretanto, existem outras métricas que podem ser testadas e combinadas. Portanto, é interessante verificar se existe outra combinação de métricas que possa produzir um melhor desempenho;

• O ajuste dos protótipos é realizado com um algoritmo de busca. Neste trabalho, foram utilizados CSO, GSA, PSO e SGSA. Entretanto, existem outros algoritmos de busca que podem ser investigados. Ainda, pode ser interessante a investigação de outros algoritmos de otimização nesta fase. Ao mesmo tempo, a adição de novos protótipos pode também obedecer a outro algoritmo. Uma proposta de trabalho futuro neste ponto é a utilização de Growing Neural Gas Network (FRITZKE, 1994),

uma vez que tal algoritmo explicita as relações topológicas de uma distribuição. Desta forma, a adição de novos protótipos pode ser guiada e custar menos tempo ou ciclos;

• A Seleção de Atributos foi investigada utilizando a abordagem wrapper (MOAYEDI- KIA et al., 2017). Dos algoritmos testados, o CSO como sugerido em (GU; CHENG; JIN, 2018) obteve o melhor resultado. Entretanto, existem alternativas ao wrapper,

i.e., abordagens filter e híbrida;

• Como observado no Capítulo 4, os protótipos gerados pelo DCIA possuem um efeito positivo maior sobre o classificador 1NN. A razão para isto é que o 1NN é o classifi- cador utilizado para validar a geração dos protótipos. A utilização de outros classi- ficadores, ou até mesmo comitês de classificadores para validar a geração de novos protótipos pode gerar um conjunto de treinamento diferente. Este novo conjunto pode ter como efeito a melhoria do desempenho obtidos por outros classificadores além do 1NN;

• A utilização da técnica 5-fold SCV está se tornando bastante comum no problema de classes desbalanceadas. A razão para tal é a quantidade de classes que possuem poucas instâncias. Entretanto, na literatura o mais comum é a utilização do 10-fold, como indicado em (KOHAVI, 1995). Contudo, ainda existem classes com menos de

cinco instâncias, as quais acabam por não estarem presentes em alguns dos con- juntos de testes organizados. A sobreamostragem de tais classes para que tenham tantas instâncias quanto o número de folds é uma possível solução. Todavia, é inte- ressante a existência de um estudo mais aprofundado para demonstrar se a utilização de hold-out deve ou não ser considerada em tais casos, como sugerido em (SILVA; ZANCHETTIN, 2016a);

• Redes Neurais Profundas têm atraído bastante atenção da comunidade científica devido à qualidade dos resultados reportados. Sobre o problema de desbalancea- mento, o Deep Learning tem sido mais utilizado em bases de imagens (JOHNSON;

KHOSHGOFTAAR, 2019). Entretanto, as arquiteturas até então utilizadas podem ser

adaptadas para outros tipos de dados. Um trabalho futuro neste sentido, pode con- sistir em utilizar alguma arquitetura de Deep Learning como o classificador base para o DCIA, em vez do 1NN.


