• Nenhum resultado encontrado

As saídas geradas por cada classificador base dos SMC’s são combinadas, com a intenção de encontrar uma decisão mais correta do que as encontradas a partir dos classificado- res base individualmente executados. Entretanto, como mencionado anteriormente, para que um SMC tenha um desempenho melhor do que os classificadores individualmente executados, é necessário que a saída de cada classificador base seja diferente dos outros classificadores, ou seja, é importante que haja uma diversidade entre estas saídas. Essa diversidade deve alcançar uma melhor ou pior decisão; sendo assim, conclui-se que tanto existem boas diversidades, quanto más diversidades (Kuncheva and Whitaker, 2001).

Não existe uma escolha única de medida de diversidade ou dependência, existem dife- rentes medidas de avaliação da diversidade em diferentes campos de pesquisa (Kuncheva, 2004). Existem medidas que trabalham com paridade (pairwise), ou seja, dois a dois, e medidas que não trabalham com paridade (no-pairwise), ou seja, a análise é feita indi- vidualmente. As do primeiro grupo são calculadas para cada par de classificadores, e as do segundo grupo utilizam a idéia de entropia e correlação de saídas individuais ou são baseadas na dificuldade de distribuição dos pontos dos dados trabalhados.

Dentre as medidas que utilizam paridade, pode-se citar quatro principais: o Q esta- tístico, o coeficiente de correlação, a medida de desacordo e a medida do duplo-falso. Já dentre as medidas que não utilizam paridade, pode-se citar seis principais: a medida de entropia E, a medida de dificuldade Θ, a variância de Kohavi-Wolpert, a medida de acordo k, a diversidade generalizada e a diversidade coincidente da falha (Kuncheva and Whitaker, 2001).

Dentre as medidas citadas anteriormente, foram utilizadas neste trabalho duas me- didas que utilizam paridade. Dentre as principais citadas, foram escolhidas para serem aplicadas neste trabalho o Q estatístico e a medida de desacordo. A medida de Q es- tatístico foi escolhida por ser um método muito utilizado na literatura, e a medida de desacordo pela sua característica de analisar a quantidade de respostas diferentes de todos os classificadores. Dentro das medidas de diversidade, a medida de desacordo é a que tem as informações mais interessantes para o propósito deste trabalho.

A medida de Q Estatístico de Yule (Kuncheva, 2004) para dois classificadores, Di e

Dj é dada pela Fórmula 4.1.

Qij = N11 N00 − N01 N10 N11 N00 + N01 N10, (4.1) onde N11

é o número de padrões onde ambos os classificadores acertam; N00

é o número de padrões onde ambos os classificadores erram; N01

4. Metodologia dos Experimentos 64 onde o primeiro classificador erra e o segunda acerta; N10é o número de padrões onde o

primeiro classificador acerta e o segunda erra.

Para classificadores estatisticamente independentes, espera-se que o valor de Q seja 0. Caso contrário, o valor de Q pode variar de -1 a 1. Essa variação se comporta da maneira mostrada a seguir.

• Quando os classificadores tendem a acertar ou errar os mesmos padrões, eles ten- dem a possuir valores de Q positivos.

• Quando os classificadores tendem a acertar ou errar padrões diferentes, eles tendem a possuir valores de Q negativos.

Sendo assim, pode-se afirmar que os classificadores são considerados mais diversos quando possuem valores de Q negativos. Por outro lado, pode-se afirmar que os classifi- cadores são menos diversos quando possuem valores de Q positivos.

A medida de desacordo, diferentemente da medida anterior que se tratava de dois classificadores bases, pressupõe que um é base e outro é complementar (L.I., 2003). Essa medida é dada pela Fórmula 4.2 que mostra como isso é feito.

D= N 01 + N10 N11 + N00 + N01 + N10 (4.2)

Para essa medida de diversidade, os resultados indicam que quanto mais próximo de zero, menor será a diversidade apresentada por esses classificadores, enquanto que mais distante de zero, maior será a diversidade entre esses classificadores.

Capítulo 5

Resultados dos Experimentos

Neste capítulo serão apresentados e interpretados os resultados obtidos, com a aplicação dos métodos computacionais e das metodologias anteriormente descritas, para os proble- mas de classificação para os conjuntos de dados. Primeiramente, é analisado o desempe- nho dos classificadores base, independentemente executados, e, em seguida, é a vez dos multi-classificadores. Sendo esses desempenhos apresentados de acordo com o conjunto de dados analisado, ou seja, primeiramente será apresentado os resultados obtidos pelos algoritmos multi-classificadores homogêneos e heterogêneos para o conjunto de proteí- nas, em seguida para o conjunto de partículas e, por fim, para o conjunto de câncer. Ainda neste capítulo serão apresentados os resultados obtidos pelos experimentos utilizando os SMC’s com pesos, e ainda será feito o cálculo das diversidades alcançadas por estes ex- perimentos.

5.1 Resultados Classificadores base

Antes de mostrar e começar a análise dos resultados obtidos pelos SMC’s para cada con- junto de dados, é importante apresentar os resultados obtidos pelos algoritmos utiliza- dos como classificadores base, porém, individualmente executados. É necessário ter o conhecimento dos resultados dos algoritmos base, para verificar se estes resultados são inferiores aos resultados obtidos pelos SMC’s. Como mencionado anteriormente, foram utilizadas cinco configurações diferentes para cada tipo de algoritmo de classificação (as configurações podem ser vistas no Apêndice A na Tabela A.1). Além disso, cada experi- mento foi executado utilizando o método de amostragem 10-fold cross validation.

Por motivo de simplicidade, na Tabela 5.1, são apresentados a média e o desvio padrão das taxas de acurácia de acordo com os tipos de algoritmos de classificação, isto é, foi feito

5. Resultados dos Experimentos 66 a média e o desvio padrão de todas as taxas de acurácia obtidas pelas cinco configurações de cada algoritmos de classificação (AD, KNN, MLP, NB e SVM). Pode-se observar nessa tabela que os algoritmos que apresentaram os melhores resultados em termos de média de taxa de acurácia, para o conjunto de dados de proteínas, foi o algoritmo MLP com uma taxa igual a 79,13% e um dos menores desvios padrão. Diferentemente aconteceu para o conjunto de dados de partículas, onde o algoritmo que obteve o melhor resultado foi o algoritmo KNN com uma média igual a 83,41%, entretando apresentou o maior desvio padrão. Para o conjunto de câncer o algoritmo que apresentou a melhor média foi o algoritmo Naive bayes com uma média igual a 97,69% e o segundo menor desvio padrão. Na última linha dessa tabela é apresentado a média total, ou seja, é a média obtida por todos os experimentos individuais.

Os melhores resultados obtidos pelas configurações do método MLP para o conjunto de dados de proteínas, se deve ao fato de ser um algoritmo mais robusto e que lida bem com conjuntos de dados de grande dimensionalidade e não tem seu desempenho tão afe- tado pelo desbalanceamento dos padrões, ao contrário do que aconteceu com o algoritmo KNN, por exemplo. Já o algoritmo SVM não apresentou um bom desempenho devido ao grande número de classes (cinco) deste conjunto de dados, uma vez que este algoritmo não trabalha de maneira eficiente com problemas que possuam muitas classes de padrões. O algoritmo KNN não apresentou bons resultados para o conjunto de proteínas pois algo- ritmos baseados em distância tem seu desempenho degradado com conjuntos com grande dimensionalidade (grande quantidades de atributos), pois os dados são muito esparsos. Sendo assim, também é explicado o bom desempenho deste algoritmo para o conjunto de partículas, onde este apresenta apenas 18 atributos. O melhor desempenho alcançado pelo algoritmo Naive para o conjunto de câncer, talvez se deva ao fato deste conjunto apre- sentar atributos irrelevantes. Onde, uma característica desse algoritmo é que ele é mais robusto com relação à existência de atributos irrelevantes, mas atributos correlacionados (mesmo que sejam relevantes1) podem degradar rapidamente seu desempenho.

Observando os desvios padrão, conclui-se que o algoritmo KNN foi o que apresentou os maiores desvios para os conjuntos de dados de proteínas e partículas, e o segundo maior para o conjunto de câncer. Isso mostra que esse algoritmo pode sofrer maiores variações de estabilidade para os conjuntos de dados utilizados. Isso pode ser explicado pelo fato dos conjuntos de dados aplicados nos experimentos serem desbalanceados e por esse algoritmo ter problemas com ruídos.

5. Resultados dos Experimentos 67 Média Algoritmos Individuais

Algoritmo Conjunto de Proteínas Conjunto de Partículas Conjunto Câncer

AD 73,94 ± 0,374 78,70 ± 0,522 95,05 ± 0,310 KNN 65,95 ± 5,114 83,41 ± 2,87 97,27 ± 0,927 MLP 79,13 ± 0,535 78,22 ± 1,594 95,34 ± 0,105 NB 75,26 ± 1,386 81,26 ± 2,117 97,69 ± 0,135 SVM 69,59 ± 1,379 76,14 ± 2,375 96,73 ± 0,936 Média Total 72,78 ± 5,114 79,55 ± 2,822 96,41 ± 1,172

Tabela 5.1: Média dos resultados dos algoritmos de AM individualmente executados para ambos os conjuntos de dados.