As sugestões para futuras pesquisas podem ser divididas em dois grupos: 1) Melhorias no método proposto neste trabalho e; 2) Propostas de outros métodos para explorar o problema do escopo desta pesquisa, a interpretação de clusters gerados por algoritmos particionais baseados em lógica fuzzy.
Inicialmente, o método proposto nesta pesquisa utiliza o algoritmo K-Means para analisar uma matriz de partição e encontrar eventuais variações em seus índices de pertinência. Outros algoritmos da mesma classe do algoritmo K-Means podem ser usados para realizar a mesma tarefa.
Em segundo lugar, independentemente do algoritmo de agrupamento
escolhido, melhorias podem ser implementadas no cálculo da medida de distância entre os elementos da matriz da partição.
Nesta pesquisa foi utilizada a distância Euclidiana para calcular a distância entre os elementos da matriz de partição que contém os clusters para interpretação. Outras medidas de distância (aplicáveis ao mesmo domínio dos dados existentes em uma matriz de partição) podem ser testadas para analisar o comportamento dos índices de variação da matriz.
Ainda pontuando as melhorias possíveis no método proposto neste trabalho, existe oportunidade para estudar a forma como a quantidade de grupos auxiliares é calculada.
Utiliza-se o algoritmo gap statistic para calcular a quantidade ideal de subclusters dentro de cada cluster principal. Na prática, estes grupos auxiliares são os responsáveis por separar os elementos que mais explicam o cluster dos elementos que menos explicam o cluster.
Outros algoritmos para medir a quantidade ideal de subclusters podem ser usados para otimizar a separação dos elementos que mais explicam os conceitos dos clusters.
Cabe ainda como sugestão de estudo do método, a análise do impacto de diferentes matrizes de partição fornecidas como entrada para seu processamento. Dependendo da forma como a matriz de partição é construída, os clusters representados dentro da mesma podem ter mais ou menos qualidade (que pode ser medida por índices de coesão e separação).
Como complemento ao método proposto, cabe o estudo do comportamento de seu algoritmo em relação aos diferentes cenários de execução (baseado em matrizes de partição com diversos índices de qualidade).
Dentro do escopo deste trabalho (e não apenas do método apresentado) existem outras sugestões de pesquisas futuras, entre elas a criação de métodos semiautomáticos que exploram as dimensões usadas para criar os clusters.
Os clusters são agrupamentos formados pela combinação de “N” dimensões, sendo que cada dimensão representa uma variável usada como entrada para o processo de clustering. Por este motivo, usualmente a interpretação dos grupos é feita por meio da análise destas dimensões.
Clusters muito complexos formados a partir da combinação de um grande número de dimensões são mais difíceis de serem interpretados. Portanto, formas de visualização destas dimensões podem ser propostas a fim de facilitar a análise do especialista do domínio.
Neste mesmo sentido, o estudo da dimensionalidade dos dados também pode ser empregado para facilitar a interpretação dos clusters.
A redução de dimensão trata a possibilidade de uma variável explicar outra variável já existente. Desta forma, uma destas dimensões pode ser desconsiderada no processo de interpretação do agrupamento.
Também é possível atuar na criação de novas dimensões que explicam agrupamentos de variáveis já existentes no conjunto de dados. Desta forma, todas as variáveis do agrupamento podem ser substituídas pela nova dimensão.
REFERENCIAS
ALBERTO, B. L. A. Abordagens de pré-processamento de dados em problemas
de classificação com classes desbalanceadas. Dissertação (Mestrado em
Modelagem Matemática e Computacional), Centro Federal de Educação Tecnológica de Minas Gerais, Belo Horizonte, 2012.
ANDRIENKO, G.; ANDRIENKO, N. Interactive cluster analysis of diverse types of spatiotemporal data. Fraunhofer Institute IAIS (Intelligent Analysis and
Information Systems). Sankt Augustin: Germany, v.11, p. 19-28, 2011.
BASTISTA, G. E. Pré-processamento de dados em aprendizado de máquina
supervisionado. Tese (Doutorado em Ciências de Computação e Matemática
Computacional), ICMC-USP, São Carlos, 2003.
BEZDEK, J. C. e PAL, S. K. Fuzzy models for pattern recognition: Methods that search for structures in data. New York: IEEE Press, 1992, 544p.
BEZDEK, J. Pattern recognition with fuzzy objective function algorithm. 1. ed. New York, 1981. 249p.
CHAPELLE, O.; SCHÖLKOPF, B.; ZIEN, A. Semi-supervised learning. 2. ed.
Cambridge: MIT Press, 2006. 508p.
CHEESEMAN, P.; STUTZ, J. Bayesian classification (autoclass): Theory and results, In: FAYYAD, U., PIATETSKY-SHAPIRO, G., SMYTH, P.; UTHURUSAMY, R., (Eds.).
Advances in Knowledge Discovery and Data Mining. Menlo Park: The AAAI
Press, 1995, p. 61–83.
CHIANG I.W-Y.; LIANG G-S.; YAHALOM S.Z. The fuzzy clustering method: Applications in the air transport market in Taiwan. The Journal of Database
Marketing & Customer Strategy Management, v.11, n.2, p.149-158, 2003.
EVERITT, B. S. et al. Cluster analysis. 5. ed. London, 2011. 330p.
FISHER, L.; VAN NESS, J. W. (Ed.). Admissible clustering procedures. Washington: Biometrika, 1971. p. 91-104.
HAN, MINGHUA. Customer segmentation model based on retail consumer behavior analysis. In: International Symposium on Intelligent Information Technology
Application Workshops. Shanghai: IEEE, p.914-917, 2008.
HAVENS, T. C. et al. Fuzzy c-means algorithms for very large data. IEEE
Transsactions on Fuzzy Systems, v.20, n.6, p.1130-1146, 2012.
JAIN, A. K. Data clustering: 50 years beyond k-means. In: International Conference
in Pattern Recognition, 19 (ICPR), v.31, p. 651–666, 2010.
JAIN, A. K., MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM
Computing Surveys, v.31, n.3, p.264–323, 1999.
JAIN, A.K.; R.DUBES. Algorithms for clustering data. New Jersey: Prentice Hall, 1988, 320p.
KAUFMAN, L.; ROUSSEEUW, P. J. Finding groups in data: An Introduction to Cluster Analysis. 9. ed. New York, 2009. 355p.
MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em
algoritmos de aprendizado. Tese (Doutorado em Ciências de Computação e
Matemática Computacional), ICMC-USP, São Carlos, 2003.
METZ, J. Interpretação de clusters gerados por algoritmos de clustering
hierárquico. Dissertação (Mestrado em Ciências da Computação e Matemática
Computacional), ICMC-USP, São Carlos, 2006.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In: REZENDE, S.O. (Ed.). Sistemas inteligentes: fundamentos e aplicações. São Carlos, 2003. p. 89-114.
REBELO, C. et al. Factor analysis to support the visualization and Interpretation of clusters of portal users. In: Proceedings of the 2006 IEEE/WIC/ACM International
Conference on Web Intelligence, Washington: IEEE Computer Society, 2006.
PERES, S. M.; et al. Tutorial sobre fuzzy c-means e fuzzy learning vector quantization: abordagens híbridas para tarefas de agrupamento e classificação.
SAAD, M.; ALIMI, A. Validity Index and number of clusters, International Journal of
Computer Science Issues, v.9, n.1, p. 52-57, 2012.
STEINHAUS, H. Sur la division des corps mat´eriels en parties. Bulletin de
l’Acad´emie Polonaise des Sciences, v.4, n.12, p.801-804, 1956.
TAN, P et al. In: Introduction to data mining (Ed.). In: Cluster analysis: basic concepts and algorithms. Boston: Addison-Wesley, 2006. p. 487-568.
TIBSHIRANI, R., Walther, G. and Hastie, T. Estimating the number of data clusters via the Gap statistic. Journal of the Royal Statistical Society, v.63, p. 411–423, 2001.
TSIPTSIS, K.; CHORIANOPOULOS, A. Data mining techniques in CRM: Inside Customer Segmentation. New York: John Wiley & Sons, 2010. 372p.
WITTEN, H.; FRANK, E. Data mining: practical machine learning tools and
techniques. 2. ed. Waikato: Morgan Kaufmann publications, 2005. 525p.
XIE, L.; BENI, G. A validity measure for fuzzy clustering, IEEE Trans PAMI, v. 13, n.8, p. 841-847, 1991.
XU, R. E WUNSCH, D. II survey of clustering algorithms. IEEE Transactions on
Neural Networks, n.16, v.3, p. 645–678, 2005.
YANG, Tianbao et al. Unsupervised transfer classification: application to text categorization, Proceedings of the 16th ACM SIGKDD international conference
on Knowledge discovery and data mining, Washington, p.25-28, 2010.
YIN, R. K. Estudo de caso: planejamento e métodos. 3. ed. Porto Alegre: Bookman, 2005. p.24.
ZADEH, L. A. Fuzzy sets. Information and control. Berkley, 1965. p. 338–353. ZHANG, C. et al. A validity index for fuzzy and possibilistic c-means algorithm.