• Nenhum resultado encontrado

3.2 VORONOI DIAGRAM BASED CLASSIFIER

3.2.1 Comparações entre VDBC e suas modificações

Nesta seção são apresentadas todas as comparações estatísticas efetuadas entre o VDBC e suas modificações. As comparações foram feitas por base de dados, ou seja, a cada base de dados verificou-se se os algoritmos podem ser considerados estatisticamente equivalentes quanto aos seus desempenhos.

Figura 19 – Comparações visuais entre médias e desvios-padrões da métrica MAUC ob- tidas pelo VDBC e suas modificações.

Das variações do VDBC.M1, a que observa cinco vizinhos mais próximos foi escolhida para ser comparada às modificações do VDBC. A Figura 19 apresenta as comparações visuais por base entre o VDBC e suas modificações. O eixo das abscissas corresponde às bases de dados, enquanto o eixo das ordenadas corresponde a valores com a métrica MAUC. Esta figura é um gráfico de barras em que cada marcação significa a média obtida por algum algoritmo. As barras acima e abaixo das marcações correspondem aos desvios- padrões.

Os testes de normalidade foram feitos com as seguintes hipóteses: 𝐻0 : distribuição

normal e 𝐻1 : distribuição não normal. As hipóteses para comparações entre três ou mais

algoritmos foram: 𝐻0 : médias estatisticamente equivalentes e 𝐻1 : médias estatisticamente

não equivalentes.

Tabela 8 – Resultados das comparações estatísticas entre VDBC e suas modificações.

Base Hipótese Aceita p-value

Abalone VDBC ≡ M3 ≡ M4 ≡ M5 0,9893

Arrhythmia Todos os desempenhos estatisticamente equivalentes 0,5533 Balance Scale Todos os desempenhos estatisticamente equivalentes 0,2296

Car Evaluation VDBC ≡ M1 ≡ M3 ≡ M4 ≡ M5 0,1924

Contraceptive VDBC ≡ M1 ≡ M3 ≡ M4 ≡ M5 0,6583

Dermatology Todos os desempenhos estatisticamente equivalentes 0,2197

E.coli Todos os desempenhos estatisticamente equivalentes 0,6813

Gene VDBC ≡ M3 ≡ M4 0,2057

Glass Todos os desempenhos estatisticamente equivalentes 0,2986

Hayes-Roth VDBC ≡ M1 ≡ M3 ≡ M4 ≡ M5 0,2018

Horse VDBC ≡ M3 ≡ M4 ≡ M5 0,6759

Nursery Todos os desempenhos estatisticamente equivalentes 0,2509

Page Blocks VDBC.M2 é o melhor —

Post Operative Todos os desempenhos estatisticamente equivalentes 0,6652

Satimage VDBC ≡ M3 ≡ M4 0,9858

Shuttle VDBC ≡ M3 ≡ M4 ≡ M5 0,1607

Soybean Todos os desempenhos estatisticamente equivalentes 0,7187 Thyroid Todos os desempenhos estatisticamente equivalentes 0,4101

Wine Todos os desempenhos estatisticamente equivalentes 0,2702

Yeast Todos os desempenhos estatisticamente equivalentes 0,2647

Zoo VDBC ≡ M3 ≡ M4 ≡ M5 0,7762

Aceita apresenta os resultados dos testes sobre os algoritmos.

Para algumas bases as comparações estatísticas confirmam o que pode ser percebido visualmente. Por exemplo, nas bases Abalone e Car Evaluation os algoritmos VDBC.M1 e VDBC.M2, respectivamente, possuem desempenhos piores que os demais.

Entretanto existem alguns casos relativamente complexos. Por exemplo, na base Ba-

lance Scale ao se levar em conta todos os seis desempenhos é possível afirmar que os

mesmos são estatisticamente equivalentes. Contudo, se for feito um teste estatístico so- mente entre VDBC.M1 e VDBC.M4 temos que os desempenhos podem ser considerados estatisticamente diferentes.

Outro caso semelhante é a base Dermatology. Visualmente a tendência é conside- rar como equivalentes apenas os algoritmos VDBC, VDBC.M3 e VDBC.M4. Contudo, o desvio-padrão de alguns dos resultados permite inferir, através dos testes estatísticos, que são todos equivalentes. Mais uma vez há dois resultados, VDBC.M2 e VDBC.M4, que se analisados sozinhos podem ser considerados diferentes.

Figura 20 – Médias e desvios-padrões da quantidade de protótipos gerados pelo VDBC, VDBC.M3 e VDBC.M4 em algumas bases de dados.

ANOVA e Kruskal-Wallis, recorrendo ao t-student ou ranksum somente quando necessá- rio. Estes foram os casos das bases Page Blocks e Satimage. Na primeira base, a evidência fornecida pelo ANOVA é que, de fato, os desempenhos não são estatisticamente equiva- lentes. Além disso, somente o VDBC.M2 desponta como o melhor algoritmo. Por estas razões o valor de p-value não foi fornecido. Quanto à segunda base, o ANOVA deixa claro que o VDBC.M5 não é estatisticamente equivalente aos demais. Entretanto o p-value para o teste sobre a equivalência entre VDBC, VDBC.M1, VDBC.M3 e VDBC.M4 é 0,0597, ou seja, bem próximo do limite para rejeição (i.e., 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0, 05). Entretanto, ao se realizar o teste sem o VDBC.M1, o valor do p-value sobe para 0,9858, sendo esta esco- lhida como a Hipótese Aceita. A razão disso são os baixos valores dos desvios-padrões, que faz com que mesmo médias muito próximas sejam praticamente consideradas como estatisticamente diferentes.

Dos algoritmos que obtiveram resultados em todas as bases de dados, o VDBC, VDBC.M3 e VDBC.M4 são estatisticamente equivalentes em 20 das 21 bases. Os três algoritmos só não alcançaram o melhor resultado em uma única base (Page Blocks).

Dos três algoritmos citados, o VDBC.M4 é aparentemente o mais estável possuindo, em média, o menor valor de desvio-padrão. Além disso, as comparações estatísticas sobre a

quantidade de protótipos gerados mostra que o VDBC.M4 é o mais eficiente na redução de instâncias. A Figura 20 mostra a comparação visual da quantidade de protótipos gerados entre o VDBC, VDBC.M3 e VDBC.M4 em algumas bases de dados.

O VDBC.M5 obteve resultados em 17 bases, conseguindo ser ou estar entre os melhores em 16 das mesmas. Apenas na base E.coli é que a quinta modificação não alcançou um desempenho estatisticamente equivalente aos demais. O destaque desta versão é o desempenho de classificação alcançado em algumas bases com uma quantidade bastante menor de protótipos gerados. Isto indica que a estratégia de geração de protótipos pode ser repensada visando uma geração mínima dos mesmos. Por fim, esta modificação precisa ter parte de sua estratégia melhorada para que possa ser executada e obter resultados em todas as bases. A estratégia atual faz com que em alguns casos o crescimento do raio da hiperesfera seja irrisório em cada iteração, o que aumenta enormemente o custo de tempo. A partir dos experimentos conduzidos e das comparações realizadas, foi possível chegar às seguintes conclusões:

• Em bases de dados com múltiplas classes desbalanceadas é possível obter desem- penhos de classificação razoáveis e até competitivos com um algoritmo bastante simples tanto na geração dos protótipos quanto no processo de classificação;

• A diferença de tamanho entre a maior e a menor classe (IR) é um bom indicativo da complexidade dos dados da base. A homogeneidade do tamanho das classes (MIR) também é um bom indicador para isso;

• O reposicionamento dos protótipos influencia na quantidade final de protótipos ge- rados e no desempenho de classificação do modelo utilizado;

• A complexidade dos dados de algumas bases pode requerer uma abordagem ad

hoc. Os resultados do VDBC.M1 nas bases Page-Blocks e Yeast sugere que separar

as classes em grupos similares e adaptar o algoritmo para cada grupo seja uma alternativa a ser considerada;

• A sobreamostragem, nas formas em que foi testada, não ajuda a melhorar o de- sempenho de classificação, nem mesmo quando o foco está sobre as bordas entre as classes. Ao mesmo tempo esta estratégia força uma geração maior de protótipos; • A correlação moderada entre os desempenhos do VDBC e VDBC.M3 com os va-

lores de 𝐹𝑔𝑒𝑛, indicam que a proximidade entre as classes é um fator que pode ser considerado na construção de um algoritmo. Entretanto, como não houve diferença significativa entre esses algoritmos, deve-se pensar em outra estratégia;

• A subamostragem de instâncias de classes maiores nas regiões de borda não melhora o desempenho do algoritmo. Entretanto permite que o mesmo desempenho seja alcançado com uma menor geração de protótipos;

• O crescimento de hiperesferas é bastante eficiente em reduzir a quantidade de ins- tâncias. A estratégia da obtenção do valor de crescimento do raio, entretanto, precisa ser melhorada;

• Priorizar o processamento nas menores classes não necessariamente resulta em me- lhoria de desempenho de classificação;

• É possível a obtenção de um bom desempenho de classificação com uma quantidade ainda mais reduzida de protótipos gerados.