EXPERIMENTOS COM BASES ARTIFICIAIS - Online boosting para problemas multiclasse

Esta seção compara os métodos propostos em cenários independentes e identicamente distribuídos, contexto no qual é garantido o decrescimento exponencial do erro médio durante o treinamento.

4.3.1 Análise da Precisão

Tendo em vista a análise do desempenho dos métodos propostos (OABM1 e OABM2) com outras abordagens similares, a Tabela 3 traz os resultados dos testes realizados da perspectiva de dois classificadores: NB e HATT. As bases também foram separadas por quantidade de classes, sendo as três primeiras binárias (Agrawal, Sine e Stagger) e as três últimas multiclasse (LED, RandomRBF e Waveform). Os ranks representam a colocação média dos métodos, de forma que quanto melhor for o desempenho em relação aos outros, menor será o rank. Por fim, os melhores resultados serão destacados em negrito.

Observando as bases binárias com o classificador NB, o método OSBoost obteve o melhor desempenho, seguido do OABM1 e do OCBoost. Tanto o OSBoost quanto o OABM1 conseguiram melhorar o desempenho do classificador único (NB) nas três bases, fato que não foi alcançado por nenhum outro método.

Tabela 3 – Acurácia dos métodos utilizando bases artificias e em intervalos com 95% de confiança.

Bases AOLM NB/HATT OABM1 OABM2 OCBoost OMBBM OSBoost OzaBag OzaBoost

Naïve Bayes (NB) Agrawal 66.04±0.43 69.53±0.25 72.40±0.23 68.30±0.23 73.06±0.19 68.14±0.28 73.10±0.19 69.49±0.22 72.01±1.69 Sine 86.04±0.32 93.40±0.29 94.49±0.49 96.20±0.29 97.95±0.05 84.12±0.38 96.73±0.13 93.26±0.28 94.23±0.39 Stagger 99.11±0.04 99.70±0.06 99.83±0.02 99.64±0.02 99.64±0.05 99.77±0.02 99.72±0.05 99.70±0.05 99.81±0.02 Rank Bin. 8,67 5,50 2,67 5,83 3,50 6,67 2,33 6,17 3,67 LED 33.49±0.19 39.68±0.17 27.08±0.61 39.25±0.19 06.31±0.13 38.98±0.18 39.58±0.17 39.70±0.19 18.95±1.47 RandomRBF 92.42±0.15 90.58±0.24 95.94±0.10 95.50±0.10 40.78±0.22 94.99±0.08 94.09±0.16 90.39±0.22 95.79±0.11 Waveform 79.43±0.15 79.92±0.18 81.49±0.21 80.36±0.20 52.13±0.24 81.36±0.15 80.41±0.18 79.85±0.17 81.40±0.20 Rank Mult. 6,67 5,00 3,00 4,00 9,00 4,00 4,00 5,33 4,00 Rank Geral 7,67 5,25 2,83 4,92 6,25 5,33 3,17 5,75 3,83

Hoeffding Anytime Tree (HATT)

Agrawal 65,57±0,22 69,32±0,19 69,86±0,23 67,24±0,17 69,42±0,18 68,46±0,17 70,83±0,19 68,86±0,19 70,78±0,20 Sine 90,11±0,15 94,63±0,14 95,87±0,14 96,30±0,16 95,72±0,10 91,42±0,19 95,95±0,10 94,41±0,19 95,69±0,13 Stagger 99,45±0,05 99,66±0,06 99,82±0,02 99,41±0,12 99,59±0,05 99,70±0,04 99,68±0,04 99,63±0,06 99,80±0,03 Rank Bin. 8,67 5,33 2,33 6,00 5,00 6,00 2,33 6,33 3,00 LED 30,72±0,24 35,90±0,19 15,76±1,01 36,66±0,18 07,08±0,26 35,18±0,24 36,11±0,24 38,32±0,22 14,18±1,00 RandomRBF 93,35±0,16 90,28±0,17 95,66±0,43 96,09±0,09 38,96±0,37 94,19±0,16 93,01±0,27 91,23±0,30 95,65±0,22 Waveform 76,67±0,25 79,16±0,23 80,78±0,23 81,05±0,24 52,19±0,24 79,79±0,23 80,66±0,26 80,46±0,23 81,10±0,18 Rank Mult. 6,33 6,33 4,00 1,67 9,00 5,00 4,33 4,33 4,00 Rank Geral 7,50 5,83 3,17 3,83 7,00 5,50 3,33 5,33 3,50

Com relação aos geradores multiclasse (classificador NB), o melhor desempenho foi alcançado pelo OABM1, seguido pelo OABM2, OMBBM, OSBoost e OzaBoost, todos empatados no rank médio. Um dos motivos que levaram ao bom desempenho do OABM1 em problemas multiclasse é o fato de que dois dos três geradores utilizados (RandomRBF e Waveform), apesar de serem multiclasse, correspondem a problemas de fácil classificação. Dessa forma, a restrição de desempenho, presente tanto no OABM1 quanto no OzaBoost, não chegará a comprometer a acurácia.

Por outro lado, em problemas de difícil classificação, como é o caso do gerador LED, o OABM1 e o OzaBoost sofrem degradações significativas no desempenho. Essa degradação pode ser constatada comparando a acurácia de ambos com a acurácia do NB (sem comitê), onde as perdas são de 12,6% (OABM1) e 20,73% (OzaBoost). Já o OABM2, que não possui restrição de desempenho, também não consegue melhorar o desempenho do classificador único, mas tem uma perda de apenas 0,43%.

Observando agora os resultados dos métodos utilizando o classificador HATT, nas bases binárias, os métodos o OABM1, OSBoost e OzaBoost obtiveram os melhores de- sempenhos, respectivamente. Os três foram também os únicos métodos que conseguiram melhorar o desempenho do classificador único nos três geradores binários.

Finalmente, analisando os geradores multiclasse com o classificador HATT, o OABM2 alcançou o melhor desempenho, seguido do OABM1 e do OzaBoost. Apesar de ter alcan- çado bons resultados nesse cenário, de maneira geral o desempenho do OABM2 foi apenas intermediário. Porém, na medida que mais problemas multiclasse e de difícil classificação forem sendo inseridos (como é o caso do LED), maior a probabilidade do OABM2 obter

resultados de destaque. Essa característica pode ser observada também na Seção 4.4, onde bases reais são utilizadas.

4.3.2 Análise da Memória

De forma semelhante à Tabela 3, a Tabela 4 traz o consumo de memória dos métodos separados por classificadores e separando também as bases binárias das multiclasse. Os métodos mais econômicos em termos de consumo tiveram seus resultados destacados em

negrito. Entretanto, como o melhor resultado foi dominado pelos classificadores únicos

pelo fato de não estarem em um comitê, o segundo melhor resultado de cada base também foi destacado em negrito e itálico.

Tabela 4 – Consumo de memória (B/s) dos métodos utilizando bases artificias e em intervalos com 95% de confiança.

Bases AOLM NB/HATT OABM1 OABM2 OCBoost OMBBM OSBoost OzaBag OzaBoost

Naïve Bayes (NB) Agrawal 46,68±1,98 1,48±0,11 46,68±1,79 78,1±3,93 49,64±1,99 71,08±2,83 45,52±1,85 44,07±1,83 44,13±1,86 Sine 13,22±0,77 0,17±0,01 12,45±0,63 32,56±1,68 14,21±0,51 27,92±1,32 11,9±0,57 12,12±0,52 12±0,75 Stagger 5,59±0,41 0,2±0,01 5,22±0,28 19,71±1,28 6,21±0,35 11,94±0,73 5,03±0,31 4,8±0,35 5,02±0,36 Rank Bin. 5,83 1,00 5,17 9,00 7,00 8,00 3,33 2,67 3,00 LED 817,17±24,53 12,19±0,8 801,47±19,83 1222,93±21,8 820,91±20,54 1420,73±45,19 787,43±20,99 754,27±38,75 623,3±48,51 RandomRBF 1579,6±31,5 14,87±0,78 1582,58±36,71 1967,59±33,39 1634,68±35,39 2233,93±131,85 1498,75±79,19 1328,26±96,18 1139,88±87,45 Waveform 837,25±15,84 8,69±0,5 821,05±18,48 989,96±21,17 847,58±19,44 1064,17±26,02 822,19±22,39 738,96±44,63 627,71±50,82 Rank Mult. 5,67 1,00 5,00 8,00 7,00 9,00 4,33 3,00 2,00 Rank Geral 5,75 1,00 5,08 8,50 7,00 8,50 3,83 2,83 2,50

Hoeffding Anytime Tree (HATT)

Agrawal 1285,01±27,37 1,6±0,1 1089,47±22,83 1360,16±22,48 1350,59±26,02 1479,71±33,29 1307,64±28,2 773,93±15,99 697,88±14,91 Sine 526,42±10,61 0,49±0,04 314,19±10,81 484,61±15,7 536,79±12,18 655,73±18,24 528,74±13,06 317,85±9,88 236,72±8,05 Stagger 195,74±6,5 0,06±0,01 140,74±5,12 247,15±8,88 191,67±6,16 226,94±7,31 190,77±7,55 169,34±5,99 146,32±5,06 Rank Bin. 6,00 1,00 3,00 7,33 7,00 8,67 6,00 3,67 2,33 LED 11313,6±151,52 19,96±0,97 1812,38±88,5 10256,4±158,61 11281,2±175,29 13427,4±178,89 11279,2±190,97 4998,3±90,27 1631,28±110,08 RandomRBF 33824±508,77 68,21±2,5 13590,7±305,31 18328,5±203,05 34052,5±446,94 38242,3±391,29 34103,5±513,78 14969,4±197,84 8530,32±107,56 Waveform 21472,8±378,26 42,52±1,72 12946,6±558,17 15739,2±237,58 22580,6±384,05 24715,1±375,12 22675±295,25 9957,54±110,82 6979,12±300,37 Rank Mult. 6,67 1,00 3,33 5,00 7,00 9,00 7,33 3,67 2,00 Rank Geral 6,33 1,00 3,17 6,17 7,00 8,83 6,67 3,67 2,17

Analisando o consumo de memória dos métodos de comitê utilizando o classificador NB, o OzaBag foi o mais econômico nas bases binárias e o OzaBoost nas bases multiclasse. Apesar da superioridade de ambos, o consumo médio não foi muito diferente de métodos como AOLM, OABM1, OCBoost e OSBoost, sobretudo nas bases binárias. Por outro lado, os métodos OABM2 e OMBBM foram os mais custosos. Esse alto consumo tem relação direta com a complexidade do tempo, como será visto na Subseção 4.4.3. O fato de ambos terem um comportamento mais especializado em relação aos problemas multiclasse traz, como consequência, esse aumento no consumo de memória.

Passando a observar os métodos que utilizam como classificador base o HATT, o OzaBoost manteve o menor consumo tanto em bases binárias quanto em bases multiclasse, e foi seguido de perto pelos métodos OABM1 e OzaBag. Já o OMBBM manteve o alto consumo que obteve utilizando o NB também com o HATT, sendo o mais custoso nas bases binárias e multiclasse. O OABM2, apesar de ter sido o segundo com maior consumo

nos problemas binários, conseguiu superar os métodos OMBBM, OSBoost, OCBoost e AOLM nos problemas multiclasse.

4.3.3 Análise Estatística

Para complementar a análise dos resultados reportados, foi utilizado o teste estatístico 𝐹𝐹, baseado no teste não-paramétrico de Friedman (DEMSAR, 2006). Neste teste, a hipótese nula afirma que todos os métodos são estatisticamente equivalentes. Quando essa hipótese é rejeitada, significa que existe uma ou mais diferenças estatísticas entre os métodos. Para saber exatamente qual/quais método(s), foi utilizado o teste de Bonferroni-Dunn (GARCÍA; HERRERA, 2008) para comparar o OABM1 e o OABM2 com os outros. As comparações realizadas levaram em conta tanto a precisão quanto o consumo de memória. Em termos de acurácia (Tabela 3), o OABM1 foi estatisticamente superior ao AOLM utilizando tanto o NB quanto o HATT. Com relação ao restante dos métodos, o OABM1 foi considerado estatisticamente equivalente. O OABM2, por sua vez, foi considerado estatisticamente equivalente a todos os métodos nesse conjunto de dados, levando em consideração tanto o NB quanto o HATT. Para ilustrar esses resultados, as Figuras 5 e 6 foram criadas. Cada barra representa uma comparação do método base (OABM1 ou OABM2) com os outros métodos, e as barras que possuírem uma altura (P-Value) menor que 0,05 (limite tracejado em vermelho) serão consideradas estatisticamente inferiores, com 95% de confiança.

P-

Valor

OABM1 - Bonferroni-Dunn com 95% de confiança

Figura 5 – Os métodos abaixo da linha vermelha são estatisticamente inferiores em acu- rácia ao OABM1 com 95% de confiança.

Comparando os resultados da Tabela 4 (consumo de memória), o OABM1 foi considerado estatisticamente equivalente a todos os outros métodos, utilizando tanto o classificador base NB quanto HATT. Já o OABM2, utilizando o NB, foi considerado estatisticamente inferior aos métodos NB (classificador único), OzaBoost, OzaBag e OSBoost. Utilizando o HATT, foi considerado estatisticamente inferior somente ao classificador único.

P-

Valor

OABM2 - Bonferroni-Dunn com 95% de confiança

Figura 6 – Os métodos abaixo da linha vermelha são estatisticamente inferiores em acu- rácia ao OABM2 com 95% de confiança..

No documento Online boosting para problemas multiclasse (páginas 72-76)