Sugestões para futuras pesquisas - Instituto de Pesquisas Tecnológicas do Estado de São Paulo W

As sugestões para futuras pesquisas podem ser divididas em dois grupos: 1) Melhorias no método proposto neste trabalho e; 2) Propostas de outros métodos para explorar o problema do escopo desta pesquisa, a interpretação de clusters gerados por algoritmos particionais baseados em lógica fuzzy.

Inicialmente, o método proposto nesta pesquisa utiliza o algoritmo K-Means para analisar uma matriz de partição e encontrar eventuais variações em seus índices de pertinência. Outros algoritmos da mesma classe do algoritmo K-Means podem ser usados para realizar a mesma tarefa.

Em segundo lugar, independentemente do algoritmo de agrupamento

escolhido, melhorias podem ser implementadas no cálculo da medida de distância entre os elementos da matriz da partição.

Nesta pesquisa foi utilizada a distância Euclidiana para calcular a distância entre os elementos da matriz de partição que contém os clusters para interpretação. Outras medidas de distância (aplicáveis ao mesmo domínio dos dados existentes em uma matriz de partição) podem ser testadas para analisar o comportamento dos índices de variação da matriz.

Ainda pontuando as melhorias possíveis no método proposto neste trabalho, existe oportunidade para estudar a forma como a quantidade de grupos auxiliares é calculada.

Utiliza-se o algoritmo gap statistic para calcular a quantidade ideal de subclusters dentro de cada cluster principal. Na prática, estes grupos auxiliares são os responsáveis por separar os elementos que mais explicam o cluster dos elementos que menos explicam o cluster.

Outros algoritmos para medir a quantidade ideal de subclusters podem ser usados para otimizar a separação dos elementos que mais explicam os conceitos dos clusters.

Cabe ainda como sugestão de estudo do método, a análise do impacto de diferentes matrizes de partição fornecidas como entrada para seu processamento. Dependendo da forma como a matriz de partição é construída, os clusters representados dentro da mesma podem ter mais ou menos qualidade (que pode ser medida por índices de coesão e separação).

Como complemento ao método proposto, cabe o estudo do comportamento de seu algoritmo em relação aos diferentes cenários de execução (baseado em matrizes de partição com diversos índices de qualidade).

Dentro do escopo deste trabalho (e não apenas do método apresentado) existem outras sugestões de pesquisas futuras, entre elas a criação de métodos semiautomáticos que exploram as dimensões usadas para criar os clusters.

Os clusters são agrupamentos formados pela combinação de “N” dimensões, sendo que cada dimensão representa uma variável usada como entrada para o processo de clustering. Por este motivo, usualmente a interpretação dos grupos é feita por meio da análise destas dimensões.

Clusters muito complexos formados a partir da combinação de um grande número de dimensões são mais difíceis de serem interpretados. Portanto, formas de visualização destas dimensões podem ser propostas a fim de facilitar a análise do especialista do domínio.

Neste mesmo sentido, o estudo da dimensionalidade dos dados também pode ser empregado para facilitar a interpretação dos clusters.

A redução de dimensão trata a possibilidade de uma variável explicar outra variável já existente. Desta forma, uma destas dimensões pode ser desconsiderada no processo de interpretação do agrupamento.

Também é possível atuar na criação de novas dimensões que explicam agrupamentos de variáveis já existentes no conjunto de dados. Desta forma, todas as variáveis do agrupamento podem ser substituídas pela nova dimensão.

REFERENCIAS

ALBERTO, B. L. A. Abordagens de pré-processamento de dados em problemas

de classificação com classes desbalanceadas. Dissertação (Mestrado em

Modelagem Matemática e Computacional), Centro Federal de Educação Tecnológica de Minas Gerais, Belo Horizonte, 2012.

ANDRIENKO, G.; ANDRIENKO, N. Interactive cluster analysis of diverse types of spatiotemporal data. Fraunhofer Institute IAIS (Intelligent Analysis and

Information Systems). Sankt Augustin: Germany, v.11, p. 19-28, 2011.

BASTISTA, G. E. Pré-processamento de dados em aprendizado de máquina

supervisionado. Tese (Doutorado em Ciências de Computação e Matemática

Computacional), ICMC-USP, São Carlos, 2003.

BEZDEK, J. C. e PAL, S. K. Fuzzy models for pattern recognition: Methods that search for structures in data. New York: IEEE Press, 1992, 544p.

BEZDEK, J. Pattern recognition with fuzzy objective function algorithm. 1. ed. New York, 1981. 249p.

CHAPELLE, O.; SCHÖLKOPF, B.; ZIEN, A. Semi-supervised learning. 2. ed.

Cambridge: MIT Press, 2006. 508p.

CHEESEMAN, P.; STUTZ, J. Bayesian classiﬁcation (autoclass): Theory and results, In: FAYYAD, U., PIATETSKY-SHAPIRO, G., SMYTH, P.; UTHURUSAMY, R., (Eds.).

Advances in Knowledge Discovery and Data Mining. Menlo Park: The AAAI

Press, 1995, p. 61–83.

CHIANG I.W-Y.; LIANG G-S.; YAHALOM S.Z. The fuzzy clustering method: Applications in the air transport market in Taiwan. The Journal of Database

Marketing & Customer Strategy Management, v.11, n.2, p.149-158, 2003.

EVERITT, B. S. et al. Cluster analysis. 5. ed. London, 2011. 330p.

FISHER, L.; VAN NESS, J. W. (Ed.). Admissible clustering procedures. Washington: Biometrika, 1971. p. 91-104.

HAN, MINGHUA. Customer segmentation model based on retail consumer behavior analysis. In: International Symposium on Intelligent Information Technology

Application Workshops. Shanghai: IEEE, p.914-917, 2008.

HAVENS, T. C. et al. Fuzzy c-means algorithms for very large data. IEEE

Transsactions on Fuzzy Systems, v.20, n.6, p.1130-1146, 2012.

JAIN, A. K. Data clustering: 50 years beyond k-means. In: International Conference

in Pattern Recognition, 19 (ICPR), v.31, p. 651–666, 2010.

JAIN, A. K., MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM

Computing Surveys, v.31, n.3, p.264–323, 1999.

JAIN, A.K.; R.DUBES. Algorithms for clustering data. New Jersey: Prentice Hall, 1988, 320p.

KAUFMAN, L.; ROUSSEEUW, P. J. Finding groups in data: An Introduction to Cluster Analysis. 9. ed. New York, 2009. 355p.

MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em

algoritmos de aprendizado. Tese (Doutorado em Ciências de Computação e

Matemática Computacional), ICMC-USP, São Carlos, 2003.

METZ, J. Interpretação de clusters gerados por algoritmos de clustering

hierárquico. Dissertação (Mestrado em Ciências da Computação e Matemática

Computacional), ICMC-USP, São Carlos, 2006.

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In: REZENDE, S.O. (Ed.). Sistemas inteligentes: fundamentos e aplicações. São Carlos, 2003. p. 89-114.

REBELO, C. et al. Factor analysis to support the visualization and Interpretation of clusters of portal users. In: Proceedings of the 2006 IEEE/WIC/ACM International

Conference on Web Intelligence, Washington: IEEE Computer Society, 2006.

PERES, S. M.; et al. Tutorial sobre fuzzy c-means e fuzzy learning vector quantization: abordagens híbridas para tarefas de agrupamento e classificação.

SAAD, M.; ALIMI, A. Validity Index and number of clusters, International Journal of

Computer Science Issues, v.9, n.1, p. 52-57, 2012.

STEINHAUS, H. Sur la division des corps mat´eriels en parties. Bulletin de

l’Acad´emie Polonaise des Sciences, v.4, n.12, p.801-804, 1956.

TAN, P et al. In: Introduction to data mining (Ed.). In: Cluster analysis: basic concepts and algorithms. Boston: Addison-Wesley, 2006. p. 487-568.

TIBSHIRANI, R., Walther, G. and Hastie, T. Estimating the number of data clusters via the Gap statistic. Journal of the Royal Statistical Society, v.63, p. 411–423, 2001.

TSIPTSIS, K.; CHORIANOPOULOS, A. Data mining techniques in CRM: Inside Customer Segmentation. New York: John Wiley & Sons, 2010. 372p.

WITTEN, H.; FRANK, E. Data mining: practical machine learning tools and

techniques. 2. ed. Waikato: Morgan Kaufmann publications, 2005. 525p.

XIE, L.; BENI, G. A validity measure for fuzzy clustering, IEEE Trans PAMI, v. 13, n.8, p. 841-847, 1991.

XU, R. E WUNSCH, D. II survey of clustering algorithms. IEEE Transactions on

Neural Networks, n.16, v.3, p. 645–678, 2005.

YANG, Tianbao et al. Unsupervised transfer classification: application to text categorization, Proceedings of the 16th ACM SIGKDD international conference

on Knowledge discovery and data mining, Washington, p.25-28, 2010.

YIN, R. K. Estudo de caso: planejamento e métodos. 3. ed. Porto Alegre: Bookman, 2005. p.24.

ZADEH, L. A. Fuzzy sets. Information and control. Berkley, 1965. p. 338–353. ZHANG, C. et al. A validity index for fuzzy and possibilistic c-means algorithm.

No documento Instituto de Pesquisas Tecnológicas do Estado de São Paulo Weslley Gomes de Moura (páginas 80-85)