• Nenhum resultado encontrado

Under-sampling, Over-sampling e os Atuais Sistemas de Aprendizado

temas de Aprendizado

Uma grande parte da pesquisa realizada para solucionar o problema do aprendizado com conjuntos de dados com classes desbalanceadas tem base em m´etodos que visam balancear a distribui¸c˜ao das classes. Entretanto, algumas pesquisas recentes tˆem mostrado que diversos sistemas de aprendizado s˜ao insens´ıveis `a distribui¸c˜ao das classes. Drummond & Holte(2000) mostram que existem crit´erios de divis˜ao de n´os em ´arvores de decis˜ao que s˜ao relativamente insens´ıveis `a distribui¸c˜ao das classes. Elkan(2001) faz declara¸c˜oes similares para o classificador Naive Bayes e para os algoritmos de ´arvore de decis˜ao. Se um sistema de aprendizado ´e insens´ıvel `a distribui¸c˜ao das classes, ent˜ao alterar essa distribui¸c˜ao, isto ´e, balancear um conjunto de dados, pode ter pouco efeito nos classificadores induzidos.

Por outro lado, os m´etodos de under- e over-sampling tˆem sido empiricamente ana- lisados em diversos dom´ınios, com bons resultados. Japkowicz (2000) compara algumas abordagens para lidar com conjuntos com classes desbalanceadas, e conclui que under- e over-sampling s˜ao m´etodos efetivos para aprender na presen¸ca de conjuntos de dados com classes desbalanceadas.

Drummond & Holte (2000) declaram que under- e over-sampling devem ser anali- sados em termos de como eles afetam a poda e o rotulamento dos n´os folhas. Entretanto, em diversos experimentos realizados por Provost & Fawcett (2001), os classificadores in- duzidos a partir de classes artificialmente balanceadas obtiveram resultados que foram, freq¨uentemente, melhores do que os obtidos com a distribui¸c˜ao natural das classes. Esses experimentos foram conduzidos sem realizar poda na ´arvore de decis˜ao induzida, e com ajustes nos r´otulos dos n´os folhas para lidar com as mudan¸cas realizadas na distribui¸c˜ao das classes no conjunto de treinamento.

Na pr´oxima se¸c˜ao s˜ao apresentados alguns dos experimentos realizados para verificar se o m´etodo de sele¸c˜ao unilateral pode efetivamente melhorar o desempenho de classifi- ca¸c˜ao da classe minorit´aria. Os classificadores induzidos s˜ao analisados para verificar se existem diferen¸cas entre o conhecimento gerado com e sem o balanceamento das classes.

Seção 6.8: Análise Experimental 155

6.8

An´alise Experimental

Alguns experimentos foram realizados para verificar se o m´etodo de sele¸c˜ao unilateral ´e capaz de melhorar o desempenho de classifica¸c˜ao da classe minorit´aria em um conjunto de dados com classes desbalanceadas. O sistema de aprendizado C4.5 (Quinlan, 1988) e o conjunto de dados Hepatitis do reposit´orio UCI (Blake & Merz,1998) foram utilizados nesse experimento. O conjunto de dados Hepatitis possui 155 exemplos, sendo 123 (79,3%) deles pertencentes `a classe majorit´aria live e 32 exemplos (20,6%) pertencentes `a classe minorit´aria die.

O conjunto de dados Hepatitis ´e conhecido na comunidade de Aprendizado de M´aquina pela sua dificuldade em produzir bons resultados. De acordo com Holte (1993), muito poucos sistemas de aprendizado obtiveram uma precis˜ao de dois pontos percentuais acima do erro majorit´ario, isto ´e, uma precis˜ao dois pontos percentuais acima de 79,3%. No experimento apresentado nesta se¸c˜ao, os conjuntos de treinamento s˜ao tratados por meio da sele¸c˜ao unilateral, e os conjuntos de teste s˜ao mantidos inalterados. O desempenho do sistema de aprendizado C4.5 foi medido no conjunto de dados original com todos os casos (a); no conjunto de dados sem os exemplos eliminados por meio de liga¸c˜oes Tomek (b); no conjunto de dados sem os exemplos eliminados por meio da cria¸c˜ao de um subconjunto consistente (c); no conjunto de dados sem exemplos eliminados por liga¸c˜oes Tomek e pela cria¸c˜ao de um subconjunto consistente (d); e por fim, no conjunto de dados sem alguns casos da classe majorit´aria removidos aleatoriamente (e).

As taxas de erro foram medidas utilizando o m´etodo de reamostragem 3-fold cross- validation. O n´umero de itera¸c˜oes k = 3 foi escolhido por causa do pequeno n´umero de exemplos da classe minorit´aria. Um n´umero maior para esse parˆametro poderia fazer com que o n´umero de casos da classe minorit´aria ficasse muito reduzido em cada conjunto de teste, fazendo com que os resultados apresentassem uma alta variˆancia. Para confirmar os resultados, o m´etodo 3-fold cross-validation foi aplicado 3 vezes. Uma vez que os resultados obtidos em cada uma das trˆes repeti¸c˜oes foram similares, somente os resultados apresentados em um dos experimentos s˜ao mostrados na Tabela 6.2. Nessa tabela, na coluna #Exemplos ´e mostrado o n´umero de exemplos no conjunto de treinamento para a classe majorit´aria e minorit´aria, respectivamente. Nas colunas F P e F N s˜ao apresentadas as taxas de falso positivo e falso negativo, al´em de seus respectivos desvios padr˜ao. Na coluna E ´e apresentada a taxa de erro juntamente com o desvio padr˜ao.

#Exemplos F P F N E a 80/23 10, 33 ± 4, 13 61, 61 ± 3, 64 20, 84 ± 3, 07 b 70/23 15, 36 ± 2, 85 42, 76 ± 8, 28 20, 82 ± 0, 82 c 62/23 12, 81 ± 6, 10 57, 23 ± 8, 27 22, 20 ± 4, 20 d 55/23 27, 82 ± 3, 21 29, 29 ± 5, 62 28, 15 ± 3, 34 e 50/23 8, 56 ± 1, 84 57, 23 ± 12, 29 18, 79 ± 4, 05

Tabela 6.2: Resultados dos experimentos para o conjunto de dados Hepatitis.

tivo positivo, ou seja, o n´umero de exemplos da classe minorit´aria que s˜ao incorretamente classificados. Esse fato ocorre principalmente quando liga¸c˜oes Tomek s˜ao utilizadas (b e d). O m´etodo de sele¸c˜ao unilateral obteve a menor taxa de falso negativo, entretanto, obteve a maior taxa de falso positivo. A taxa de erro obtida no conjunto de teste foi a maior se comparada com os demais m´etodos. Esses resultados eram esperados, como comentado na Se¸c˜ao 6.3 na p´agina 144, uma vez que os exemplos da classe majorit´aria s˜ao maioria no conjunto de teste.

O m´etodo de sele¸c˜ao aleat´oria (e), o qual n˜ao utiliza nenhuma heur´ıstica, obteve resultados compar´aveis `a sele¸c˜ao por subconjuntos consistentes. Mesmo que o m´etodo de sele¸c˜ao aleat´oria n˜ao utilize nenhuma heur´ıstica, esse m´etodo possui o m´erito de remover com a mesma probabilidade quaisquer casos. Comparando com os demais m´etodos uti- lizados neste trabalho, a sele¸c˜ao aleat´oria ´e o m´etodo que provavelmente causa a menor altera¸c˜ao na distribui¸c˜ao dos dados.

Possivelmente, a decis˜ao de n˜ao remover os casos da classe minorit´aria, mesmo que possivelmente sejam ru´ıdo, pode ter influenciado nos resultados. Essa decis˜ao foi tomada com base na necessidade de manter todos os poucos casos pertencentes `a classe minorit´aria. Entretanto, o ru´ıdo presente na classe minorit´aria pode reduzir a precis˜ao de classifica¸c˜ao. Uma vez que as liga¸c˜oes Tomek n˜ao oferecem uma forma segura de distinguir entre exemplos que s˜ao ru´ıdo e exemplos pr´oximos `a borda de decis˜ao, em trabalhos futuros pretende-se investigar outros m´etodos, ou melhoramentos `as liga¸c˜oes Tomek, que sejam capazes de realizar essa distin¸c˜ao.

Deve ser observado que mesmo utilizando o m´etodo de reamostragem 3-fold cross- validation os resultados apresentam grande variˆancia. Essa variˆancia faz com que seja dif´ıcil identificar diferen¸cas significativas entre os resultados. Com a aplica¸c˜ao do teste-t pareado para 3-fold cross validation foi poss´ıvel identificar somente uma diferen¸ca signifi- cativa: a taxa de falso positivo para o m´etodo que remove exemplos com liga¸c˜oes Tomek e sub-conjuntos consistentes (d) foi inferior `a taxa de falso positivo obtida com todos os dados (a), com 95% de confian¸ca.

Seção 6.9: Considerações Finais 157

Uma an´alise das ´arvores de decis˜ao induzidas mostra que as regras geradas antes da aplica¸c˜ao do m´etodo de sele¸c˜ao unilateral s˜ao sempre diferentes das regras geradas ap´os a aplica¸c˜ao do m´etodo. Embora n˜ao se possa tirar conclus˜oes mais gerais, o m´etodo de sele¸c˜ao unilateral tende a modificar a distribui¸c˜ao dos dados, e tal modifica¸c˜ao de distri- bui¸c˜ao pode se refletir nas regras induzidas. Aparentemente, as conclus˜oes apresentadas por Drummond & Holte (2000) n˜ao se aplicam `a sele¸c˜ao unilateral. Entretanto, mais resultados experimentais s˜ao necess´arios para confirmar essa hip´otese.

6.9

Considera¸c˜oes Finais

Aprender com conjuntos de dados com classes desbalanceadas ´e um t´opico importante em Aprendizado de M´aquina. Um m´etodo direto para lidar com conjuntos com classes desbalanceadas ´e balancear a distribui¸c˜ao das classes. Esse balanceamento pode ser obtido por meio da redu¸c˜ao (under-sampling) dos casos da classe majorit´aria, ou do aumento (over-sampling) dos casos da classe minorit´aria, ou da aplica¸c˜ao de ambos os m´etodos em conjunto.

Existem diversos m´etodos na literatura que confirmam a eficiˆencia dos m´etodos de under- e over-sampling em problemas pr´aticos. Entretanto, tamb´em existem algumas evidˆencias que mostram que balancear artificialmente a distribui¸c˜ao das classes n˜ao tem muito efeito no desempenho dos classificadores induzidos, uma vez que alguns sistemas de aprendizado s˜ao relativamente insens´ıveis `as diferen¸cas na distribui¸c˜ao das classes.

Nos experimentos realizados e descritos neste cap´ıtulo, o m´etodo de sele¸c˜ao unila- teral conseguiu diminuir a taxa de falso negativo, isto ´e, conseguiu classificar melhor os exemplos da classe minorit´aria. Entretanto, o taxa de falso positivo tamb´em obteve um acr´escimo consider´avel.

Uma an´alise preliminar dos classificadores induzidos mostra que as regras geradas ap´os a aplica¸c˜ao do m´etodo de sele¸c˜ao unilateral s˜ao sempre diferentes das regras obtidas sobre todos os dados. Aparentemente, a aplica¸c˜ao do m´etodo de sele¸c˜ao unilateral pode influenciar nas regras induzidas, e n˜ao somente na poda e no rotulamento dos n´os folhas, como foi notado por Drummond & Holte (2000) para outros m´etodo de under- e over- sampling.

Aparentemente ´e necess´ario haver um melhor entendimento de como a distribui¸c˜ao das classes afeta cada fase do processo de aprendizado. Por exemplo, em ´arvores de decis˜ao, ´e necess´ario entender como a distribui¸c˜ao das classes afeta a indu¸c˜ao da ´arvore,

sua poda e o rotulamento dos n´os folhas. Um melhor entendimento desses t´opicos b´asicos ir´a permitir que a comunidade projete melhores m´etodos de aprendizado para lidar com o problema de aprendizado com classes desbalanceadas.

Cap´ıtulo 7

Conclus˜ao

7.1

Considera¸c˜oes Iniciais

Neste cap´ıtulo s˜ao apresentadas as conclus˜oes deste trabalho. Na Se¸c˜ao 7.2s˜ao apresenta- das as principais contribui¸c˜oes desta tese; na Se¸c˜ao7.3 s˜ao discutidas algumas limita¸c˜oes dos m´etodos propostos neste trabalho para tratamento de valores desconhecidos e de con- juntos com classes desbalanceadas; por fim, na Se¸c˜ao 7.4 s˜ao apresentadas algumas id´eias para trabalhos futuros.