• Nenhum resultado encontrado

A.1 Problemas de classificação

5.2 Similaridade Local

As informações sobre o desempenho individual das instâncias de um problema permite uma análise mais detalhada do comportamento dos algoritmos aplicados nele. Nesta seção, são apresentados os valores de DI obtidos com os métodos e algoritmos selecionados para descrever o problema bridges-version1-CANTILEV, o mesmo de onde foi retirada a instância analisada na seção anterior.

5.2.1

Score-Driven

A Figura 5.2 apresenta os valores de DI para as instâncias da classe negativa desse problema utilizando método Score-Driven para avaliar o prejuízo em cada instância.

Pode-se ver que, nesse contexto, os algoritmos não têm grande dificuldade em classificar corretamente as instâncias negativas. A maioria apresenta os valores de DI bastante concentrados próximos a 0. Os resultados dos algoritmos NaiveBayes, BayesNet e NBTree apresentam vários outliersque se distribuem por quase toda a extensão dos possíveis valores de DI. Os piores resultados para as instâncias negativas são observados nos outliers de SMO-RBF, SMO-LIN, NNge, Logistice IB1.

A Figura 5.3 ilustra os valores de DI para as instâncias positivas com o uso do método SD. Os ZeroR, PART, JRIp e J48 são os que apresentam os piores resultados para essas instâncias.

5.2. SIMILARIDADE LOCAL 39

Figura 5.2: DI para as instâncias negativas de bridges-version1:CANTILEV utilizando o médoto Score-Driven

Fonte: Elaborada pelo autor

O modelo construído a partir do Ridor erra todas as instâncias da classe positiva, o que pode ser visto pela concentração dos valores de DI em 1.

Figura 5.3: DI para as instâncias positivas de bridges-version1:CANTILEV, SD

Fonte: Elaborada pelo autor

Um comportamento interessante de se notar nesse problema é a diferença entre o com- portamento dos algoritmos IB1 e IB3. Ambos utilizam a distância entre as instâncias para fazer

a classificação, contudo é observado que o IB1 apresenta um bom desempenho na classificação das instâncias positivas, enquanto o IB3 apresenta uma maior dificuldade. Isso sugere que as instâncias da classe positiva se concentram em uma região bem definida no espaço desse problema, mas a borda que separa as classes não é muito grande, o que causa os erros para o IB3.

Com os valores de DI obtidos para todas as instâncias desse problema, com os algoritmos selecionados, é possível então medir a similaridade entre os algoritmos nesse problema. A Figura 5.4 ilustra essa similaridade.

Figura 5.4: Similaridade entre Algoritmos em bridges-version1:CANTILEV, SD

Fonte: Elaborada pelo autor

Os algoritmos que apresentaram os piores resultados para as instâncias positivas (PART,J48,JRip, ZeroRe Ridor) ficaram em um mesmo agrupamento. Ridor apresenta uma maior dissimilaridade com os demais por ele apresentar o pior resultado entre os 5.

Como esse problema apresenta somente 10% de instâncias pertencentes à classe positiva, o comportamento observado nas instâncias da classe negativa possui um grande peso na medida de similaridade.

Analisando a Figura 5.3, vemos que há uma diferença entre seus comportamentos na classe positiva, com o Interquartile Range(IQR) do FT sendo bem maior do que o observado no resultado do RandomForest e a mediana desse sendo maior que a daquele. Contudo, o agrupamento formado por RandomForest e FT apresenta uma baixa dissimilaridade. Isso é causado pela grande semelhança observada em seus comportamentos nas instâncias da classe negativa.

Os algoritmos NNGe e SMO-RBF, apesar de apresentarem um comportamento muito semelhante nas instâncias da classe positiva, não pertencem ao mesmo agrupamento. Isso se dá pela diferença entre seus comportamentos nas instâncias da classe negativa. Enquanto o SMO-

5.2. SIMILARIDADE LOCAL 41 RBFapresenta seus valores de DI bem concentrados próximos a 0 e alguns outliers próximos a 1, o NNge tem vários outliers distribuídos entre 0 e 0.5.

5.2.2

Score-Uniform

Para a análise do comportamento dos algoritmos nesse problema em um cenário onde não se conhece ou não há segurança sobre a distribuição dos custos, a Figura 5.6 ilustra os valores de DI para as instâncias negativas desse problema.

Figura 5.5: DI para as instâncias negativas de bridges-version1-CANTILEV,SU

Fonte: Elaborada pelo autor

Nesse boxplot, observamos que os algoritmos SMO-RBF, SMO-LIN, Ridor, NNGe, Lo- gistic, MLPe IB1 apresentam um comportamento semelhante ao exposto na Figura 5.2. Essa semelhança provém do fato de que os modelos construídos a partir desses algoritmos retornam um valor de score muito próximos, se não igual, aos valores da classe (s ∼ 0), com exceção dos poucos outliers observados para esses modelos.

Para os algoritmos RandomForest, NBTree, NaiveBayes, LWL, IB3, FT, DecisionStump e BayesNet, é observado um aumento do IQR. Essa variação é consequência do uso do erro absoluto ao invés do erro quadrático. Como os valores dos erros se encontram no intervalo entre 0 e 1, o valor do erro ao quadrado será sempre menor ou igual ao seu valor absoluto.

Os valores de DI obtidos com os algoritmos PART, JRip, J48 e ZeroR não apresentaram um aumento de IQR. Os valores de DI para esses algoritmos sofrem um deslocamento, o que indica que esses algoritmos retornam praticamente o mesmo valor de score para todas as instâncias da classe negativa.

Para as instâncias positivas, como ilustrado na Figura 5.6, o comportamento é semelhante. Os mesmos algoritmos que apresentaram semelhança entre os valores de DI obtidos com o método Score-Driven para as instâncias negativas, também apresentam essa similaridade para as instâncias positivas.

Figura 5.6: DI para as instâncias positivas de bridges-version1-CANTILEV, SU

Fonte: Elaborada pelo autor

O algoritmo Ridor apresenta baixos valores de DI para as instâncias da classe negativa e altos valores para as instâncias da classe positiva. Isso sugere que o modelo construído a partir desse algoritmo considera todas as instâncias apresentadas a ele como sendo da classe negativa. No dendrograma apresentado na Figura 5.7, vemos os agrupamentos formados pelos modelos analisados a partir do método Score-Uniform.

Nesse caso, é observado o mesmo agrupamento apresentado na Figura 5.4 formado por J48, PART, JRip, Ridor e ZeroR, que são os algoritmos que apresentam os piores resultados para esse problema. Porém, o agrupamento formado pelos algoritmos LWL e DecisionStump apresenta uma maior semelhança para esse método.

Outra diferença é vista nos agrupamentos contendo SMO-LIN, SMO-RBF,NaiveBayes, BayesNet, Logistice IB1. No método Score-Driven, esses algoritmos pertencem ao mesmo agrupamento. Já no método Score-Uniform, os algoritmos NaiveBayes, BayesNet e Logistic formam um agrupamento próprio, enquanto SMO-LIN, SMO-RBF e IB1 se associam a um outro agrupamento.

5.2. SIMILARIDADE LOCAL 43

Figura 5.7: Similaridade entre Algoritmos em bridges-version1:CANTILEV, SU

Fonte: Elaborada pelo autor

5.2.3

Rate-Driven

Os métodos baseados em score apresentados até então são recomendados quando se espera que o modelo gerado a partir de um algoritmo possa oferecer scores bem calibrados para as instâncias. Pode ocorrer de o modelo não apresentar esse comportamento, contudo ele pode produzir scores que permitam ordenar as instâncias de um problema de forma adequada. Para avaliar esse tipo de comportamento, pode ser utilizado o método Rate-Driven para avaliar o desempenho do algoritmo.

Na Figura 5.8, é ilustrado o desempenho dos algoritmos nas instâncias positivas de bridges-version1:CANTILEV.

Figura 5.8: DI para as instâncias negativas de bridges-version1-CANTILEV,RD

Fonte: Elaborada pelo autor

Diferente do que se foi observado no método Score-Driven, a maior parte dos algoritmos apresenta um IQR alto. As exceções são os algoritmos ZeroR,Ridor, Part, NNGe, JRip, J48 e IB1, que apresentam o mesmo valor de DI para praticamente todas as instâncias.

Podemos observar que, em geral, as instâncias negativas desse problema são mais difíceis de serem classificadas a partir do rank do que a partir dos scores.

Já as instâncias positivas apresentam um DI menor ao se comparar com os valores do Score-Driven.

A maior parte dos algoritmos apresenta valores de DI próximos a 0. Mesmo os algoritmos que apresentam valores mais altos de DI (ZeroR, Ridor, PART e J48), tem esses valores menores do que os observados nas instâncias positivas com o método Score-Driven.

Os agrupamentos formados com os modelos construídos com o método RD são ilustrados no dendrograma da Figura 5.10.

Nesse dendrograma, são observadas algumas semelhanças com o gerado pelo método SD. Os algoritmos ZeroR, PART e J48 também apresentam um resultado ruim para esse método e formam um agrupamento com uma alta similaridade. Contudo, o algoritmo Ridor não se apresenta tão relacionado com esses algoritmos, o que indica que para esse problema ele é melhor para ordenar as instâncias do que para oferecer valores scores bem calibrados.

Outra diferença é a separação dos algoritmos BayesNet e NaiveBayes. Tanto no método SD quanto no SU, esses algoritmos fazem parte de um agrupamento próprio. No caso do RD, apesar de eles estarem em um mesmo agrupamento, eles apresentam maiores similaridades com outros algoritmos.

5.2. SIMILARIDADE LOCAL 45

Figura 5.9: DI para as instâncias positivas de bridges-version1-CANTILEV,RD

Fonte: Elaborada pelo autor

Figura 5.10: Similaridade entre Algoritmos em bridges-version1:CANTILEV, RD

[SMO-RBF,SMO-LIN] e [DecisionStump, LWL]

5.2.4

Rate-Uniform

No caso de se desejar avaliar a capacidade de um algoritmo ordenar as instâncias de um problema e não houver informações confiáveis sobre o cenário de custo onde o algoritmo será aplicado, é recomendada a aplicação do método Rate-Uniform para a avaliação do desempenho.

A Figura 5.5 apresenta os valores de DI para as instâncias negativas do problema analisado.

Figura 5.11: DI para as instâncias negativas de bridges-version1-CANTILEV,RU

Fonte: Elaborada pelo autor

Nessa figura, é visto que os valores de DI são maiores do que os observados para o método RD. Exceto para os algoritmos ZeroR, Ridor, PART, NNge, J48, JRip e IB1, que apresentam menores valores de DI para esse caso.

Os valores de DI para as instâncias positivas estão expostos na Figura 5.12. Nesse caso. é observado um aumento dos valores de DI para todos os algoritmos. Tanto para as instâncias positivas quanto para as negativas, é observado um aumento do IQR nos algoritmos.

Para finalizar a análise do comportamento dos algoritmos no problema bridges-version1:CANTILEV, apresentamos o dendrograma na Figura 5.13.

Nesse dendrograma, o algoritmo Ridor se apresenta mais próximo do agrupamento formado por ZeroR, PART e J48, comportamento esse também observado nos métodos SD e SU.

Da mesma forma que observado na Figura 5.10, os algoritmos BayesNet e NaiveBayes não são tão próximos quanto é observado no uso dos métodos SD e SU.

5.2. SIMILARIDADE LOCAL 47

Figura 5.12: DI para as instâncias positivas de bridges-version1-CANTILEV,RU

Fonte: Elaborada pelo autor

Figura 5.13: Similaridade entre Algoritmos em bridges-version1:CANTILEV, RU

5.3

Similaridade Global

Após medir o desempenho em todos os 152 problemas selecionados, foi calculada a mediana da similaridade entre os algoritmos em todos esses problemas para a análise da similaridade global.

A Figura 5.14 apresenta a similaridade entre os algoritmos sob a aplicação do método Score-Driven. Nesse dendrograma, os algoritmos pertencentes ao grupo Bayes apresentam uma grande similaridade entre si, formando um agrupamento relativamente isolado aos demais algoritmos.

Figura 5.14: Similaridade Global, SD

Fonte: Elaborada pelo autor

Os algoritmos da categoria Function também se encontram todos em um mesmo agru- pamento. Contudo, o FT apresenta uma maior similaridade com o MLP do que este apresenta com os demais membros de sua mesma categoria. Essa similaridade pode provir do fato de que a FT utiliza a função Sigmóide Logística em seus nós que é a mesma utilizada como função de

ativação dos neurônios da MLP.

Como esperado, os algoritmos PART e J48 possuem um comportamento semelhante. Os algoritmos IB1 e NNge classificam a instância de acordo com a sua vizinha mais próxima do conjunto de treinamento. Devido a esse comportamento, é esperado que eles façam parte do mesmo agrupamento. Uma similaridade não esperada que pode ser observada na Figura 5.14 é a do RandomForest com esses algoritmos. Esse comportamento sugere que para esse método de seleção de limiar, o RandomForest apresenta um bom resultado para problemas onde as instâncias de uma mesma classe estão concentradas em uma mesma região do espaço do problema.

5.3. SIMILARIDADE GLOBAL 49 Na Figura 5.15, estão expostos os agrupamentos formados com o uso do método de escolha de limiar Score-Uniform

Figura 5.15: Similaridade Global, SU

Fonte: Elaborada pelo autor

Esse método apresenta algumas diferenças em relação ao que foi encontrado utilizando o Score-Driven. Os algoritmos SMO-LIN, SMO-RBF e Logistic também formam um agrupamento nesse método, porém eles não são mais tão semelhantes a MLP quanto no método Score-Driven. O MLP se apresenta mais associado com algoritmos do grupo Tree (FT, RandomForest, NBTree). RandomForest, nesse contexto, não é mais tão semelhante com IB1 e NNge, o que sugere que, para esse cenário, a concentração das classes de um mesmo problema não afeta tanto o seu desempenho.

Outra diferença a se destacar é a similaridade dos agrupamentos [BayesNet, NaiveBayes] e [DecisionStump, LWL] com os demais algoritmos. Enquanto no método Score-Driven o agru- pamento formado pelos algoritmos de Bayes é o que apresenta comportamento mais distinto aos demais algoritmos, no método Score-Uniform essa característica é observada para o agrupamento [DecisionStump, LWL].

Na Figura 5.16, é ilustrada a semelhança entre os algoritmos de acordo com suas capacidades em ordenar as instâncias de um problema em um cenário onde a condição de operação é conhecida.

Nesse método, existe uma grande diferença do que foi observado com o uso do método Score-Driven. O algoritmo Ridor, que no caso anterior formava um agrupamento isolado, aqui aparece associado a outros algoritmos. FT aqui não mais se assemelha à MLP, mas sim com à RandomForest, o que também foi observado no uso do método Score-Uniform. Nota-se a existência de um agrupamento formado somente pelos algoritmos do grupo Function. O que não

Figura 5.16: Similaridade Global, RD

Fonte: Elaborada pelo autor

ocorreu nos métodos Score-Driven, onde havia um algoritmo de outro grupo, e Score-Uniform, onde os algoritmos de Function ficaram em agrupamentos mais distintos.

Também são observadas alguma semelhança com os métodos anteriores. Os agrupa- mentos [PART,J48] e [NaiveBayes, BayesNet] são também são formados para esse método. O agrupamento formados pelos algoritmos de Bayes inclusive apresentam uma similaridade semelhante (A(BayesNet, NaiveBayes) ∼ 0.5). Já os algoritmos do agrupamento [PART,J48] apresentam uma menor semelhança entre si, nos métodos baseados em score essa semelhança é menor que 0.5, enquanto no Rate-Driven esse valor supera 0.5.

Os agrupamentos formados com a similaridade entre os algoritmos sob a análise de custo com o método Rate-Uniform são apresentados na Figura 5.17.

Da mesma forma do que foi observado na Figura 5.16, os algoritmos Function fazem parte de um mesmo agrupamento. Contudo, vemos que nesse caso MLP é mais semelhante ao agrupamento [SMO-RBF, SMO-LIN] do que o Logistic, diferente do que é observado anterior- mente.

Nesse dendrograma. é observado que FT, que formava um agrupamento com RandomFo- restem Rate-Driven, encontra-se relativamente isolado dos demais algoritmos. RandomForest aqui se apresenta mais semelhante à NBTree.

Os algoritmos IB3 e IB1 formam um agrupamento tanto para Rate-Driven quanto para Rate-Uniform, o que não foi observado em nenhum dos métodos baseados em score.

A análise desses dendrogramas permite constatar que há uma distinção do comportamento dos algoritmos sob diferentes métodos de escolha de limiar. Um destaque pode ser feito com o algoritmo RandomForest, que para cada método forma um agrupamento com um algoritmo

5.3. SIMILARIDADE GLOBAL 51

Figura 5.17: Similaridade Global, RU

Fonte: Elaborada pelo autor

diferente. Também é notável que existem alguns algoritmos que são similares em todos os casos, como observados pelos agrupamentos [PART, J48] e [NaiveBayes, BayesNet].

6

Conclusão e Trabalhos Futuros

Neste trabalho, foi apresentada uma forma de avaliar a similaridade entre algoritmos baseado em seus desempenhos nas instâncias de cada problema. Esse desempenho foi medido de acordo com quatro métodos de seleção de limiar: Score-Driven(SD), Score-Uniform(SU), Rate-Driven(RD) e Rate-Uniform(RU). Cada um desses métodos reflete um cenário diferente para a distribuição entre os custos das classes de um mesmo problema. Para cada método de seleção de limiar, foram calculados os valores de dificuldade de instância mais adequados. Em seguida, foram medidas as similaridades entre os algoritmos em nível local, que se refere ao comportamento dos algoritmos em cada problema. Por fim, foram utilizadas as informações sobre as similaridades em todos os problemas para a análise do comportamento global entre os algoritmos.

Foi observado que existe uma diferença nos comportamentos apresentados para cada método de seleção de limiar utilizado. Os métodos SD e SU aproximam algoritmos que apresen- tam um valor de score similar para as mesmas instâncias de um problema e são recomendados para a avaliação do potencial do algoritmo por apresentar scores bem calibrados. Já os métodos RD e RU apresentam como mais semelhantes os algoritmos que retornarem valores de rank semelhantes para as mesmas instâncias e são indicados para avaliar o potencial que o algoritmo apresenta de ordenar as instâncias de um problema. Os métodos SU e RU podem ser utilizados para a avaliação de um pior cenário para a aplicação dos algoritmos, onde se sabe que os custos de classificação são importantes, mas não se tem confiabilidade acerca de seus valores.

Para ilustrar o uso dessas métricas, foram aplicados 19 algoritmos em 152 problemas de classificação distintos. Os resultados mostraram algumas similaridades interessantes, que podem servir como ponto de partida para a investigação de razões pelas quais esses algoritmos sejam semelhantes.

Para trabalhos futuros, a abordagem apresentada neste trabalho pode ser aplicada na análise do comportamento das instâncias de um problema para que se possa identificar o porquê de elas serem difíceis de serem classificadas. As similaridades obtidas a partir das métricas apresentadas podem servir como guia na construção de Ensemble Learnings (VEGA-PONS; RUIZ-SHULCLOPER, 2011) ou na aplicação de Landmark (PFAHRINGER; BENSUSAN;

53 GIRAUD-CARRIER, 2000).

Neste trabalho, a análise dos relacionamentos globais entre os algoritmos foi feita utilizando a mediana das similaridades em cada problema. Apesar de essa métrica ser bastante robusta, outras técnicas mais sofisticadas também podem ser aplicadas nesse contexto, como Consensus Similarity(NGUYEN; CARUANA, 2007).

Referências

BRAZDIL, P. et al. Metalearning: applications to data mining. [S.l.]: Springer Science & Business Media, 2008.

DING, C.; HE, X. H. X. Cluster merging and splitting in hierarchical clustering algorithms. 2002 IEEE International Conference on Data Mining, 2002. Proceedings., [S.l.], p.1–8, 2002. DRUMMOND, C.; HOLTE, R. C. Cost curves: an improved method for visualizing classifier performance. Machine Learning Journal, [S.l.], v.65, p.95–130, 2006.

FAWCETT, T. An introduction to ROC analysis. Pattern recognition letters, [S.l.], v.27, n.8, p.861–874, 2006.

FLACH, P. Repairing concavities in ROC curves. In: IN: PROC. 2003 UK WORKSHOP ON COMPUTATIONAL INTELLIGENCE. Anais. . . Springer-Verlag, 2003. p.38–44.

FüRNKRANZ, J.; PETRAK, J. An Evaluation of Landmarking Variants. In: ECML/PKDD WORKSHOP ON INTEGRATING ASPECTS OF DATA MINING, DECISION SUPPORT AND META-LEARNING (IDDM-2001. Proceedings. . . [S.l.: s.n.], 2001. p.57–68.

GIRAUD-CARRIER, C.; VILALTA, R.; BRAZDIL, P. Introduction to the special issue on meta-learning. Machine learning, [S.l.], v.54, n.3, p.187–193, 2004.

HALL, M. et al. The WEKA Data Mining Software: an update. SIGKDD Explor. Newsl., [S.l.], v.11, n.1, p.10–18, 2009.

HERNÁNDEZ-ORALLO, J.; FLACH, P.; FERRI, C. A unified view of performance metrics: translating threshold choice into expected classification loss. The Journal of Machine Learning Research, [S.l.], v.13, n.1, p.2813–2869, 2012.

HERNÁNDEZ-ORALLO, J.; FLACH, P.; FERRI, C. ROC curves in cost space. Machine learning, [S.l.], v.93, n.1, p.71–91, 2013.

JONES, E. et al. SciPy: open source scientific tools for Python. Disponível em <http://www.scipy.org/>. Acesso em: 31 jul. 2015.

KALOUSIS, A.; GAMA, J.; HILARIO, M. On data and algorithms: understanding inductive performance. Machine Learning, [S.l.], v.54, n.3, p.275–312, 2004.

KEERTHI, S. et al. Improvements to Platt’s SMO Algorithm for SVM Classifier Design. Neural Computation, [S.l.], v.13, n.3, p.637–649, 2001.

KUNCHEVA, L. I.; WHITAKER, C. J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy. Machine learning, [S.l.], v.51, n.2, p.181–207, 2003. LEITE, R.; BRAZDIL, P.; VANSCHOREN, J. Selecting classification algorithms with active testing. In: Machine Learning and Data Mining in Pattern Recognition. [S.l.]: Springer, 2012. p.117–131.

REFERÊNCIAS 55 LICHMAN, M. UCI Machine Learning Repository. Disponível em

<http://archive.ics.uci.edu/ml>. Acesso em 31 jul. 2015. University of California, Irvine, School of Information and Computer Sciences.

NGUYEN, N.; CARUANA, R. Consensus Clusterings. Seventh IEEE International Conference on Data Mining (ICDM 2007), [S.l.], p.607–612, oct 2007.

PETERSON, A. H.; MARTINEZ, T. Estimating the potential for combining learning models. Proceedings of the ICML workshop on meta-learning, [S.l.], p.68–75, 2005.

PFAHRINGER, B.; BENSUSAN, H.; GIRAUD-CARRIER, C. Meta-learning by landmarking various learning algorithms. In: SEVENTEENTH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, ICML’2000. Proceedings. . . Morgan Kaufmann, 2000. p.743–750. SCHÖLKOPF, B.; SMOLA, A. Support Vector Machines. Encyclopedia of Biostatistics, [S.l.], 1998.

SMITH, M. R.; MARTINEZ, T. Improving classification accuracy by identifying and removing instances that should be misclassified. In: NEURAL NETWORKS (IJCNN), THE 2011 INTERNATIONAL JOINT CONFERENCE ON. Anais. . . [S.l.: s.n.], 2011. p.2690–2697.

Documentos relacionados