• Nenhum resultado encontrado

6. Conclusões

6.2 Limitações e Trabalhos Futuros

Considerando os resultados alcançados nesta dissertação, os seguintes trabalhos futuros podem ser sugeridos:

• Incorporar outras técnicas de visualização de informações à ferramenta Visual

DATAMINER.

Muitas outras técnicas de visualização de informações podem ser implementadas para auxiliar a análise de regras de indução. Entre elas, técnicas orientadas por pixels, por ícones, entre outras.

• Abranger outras formas de representação de conhecimento minerado.

A ferramenta Visual DATAMINER concentra seu foco de atuação sobre a análise

de regras de indução. Para maior abrangência de seu foco, outras formas de representação do conhecimento podem ser trabalhadas tais como árvores de decisão.

• Investigar técnicas de visualização de informações em três dimensões.

Todas as técnicas implementadas pertencem à classificação de duas dimensões e uma investigação das técnicas 3D poderia enriquecer este trabalho. • Possibilitar à técnica Net Diagram a visualizar regras por classes, visto que

hoje esta técnica trabalha com todo o conjunto de regras gerado.

Esta foi uma das necessidades percebidas durante a análise do estudo de caso. Embora seja uma necessidade visualizar todo o conjunto de regras e seu

relacionamento com as classes, ter a possibilidade de visualizar um conjunto de regras por classe seria interessante. A restrição do foco de visualização ajuda a concentração na área de análise e diminui a possibilidade de erros.

• Implementar o limiar de índice de confiança para análise de similaridade utilizado na técnica Rule Relationship por cada classificação do problema a ser analisado.

Esta necessidade foi sentida ao se analisar a similaridade entre as regras de classificação adimplente e inadimplente, que apresentaram índices de confiança muito distintos, no problema analisado. O limiar de índice de similaridade informado foi interessante para a classe adimplente. Já para a classe inadimplente, que apresentou índices de confiança mais baixos, não pôde ser usado, uma vez que todas as regras estavam abaixo deste limiar.

• Apresentar junto com a técnica Rule Relationship, os índices de confiança e suporte das regras detalhadas.

Esta sugestão também foi percebida durante a análise do estudo de caso. Durante a análise de similaridade das regras, a informação dos índices de confiança e suporte das regras em análise é necessária para que se tenha a noção da representatividade das regras que são analisadas.

• Possibilitar a extensão da análise de atributos da base original, a fim de permitir a análise de um perfil em relação a mais de um atributo ao mesmo tempo.

A possibilidade de analisar o comportamento de um atributo a partir do comportamento de um outro atributo responderia algumas perguntas que podem surgir, ao se analisar um problema complexo. Um exemplo a ser dado é, a partir da análise do comportamento do atributo “estado civil”, o acesso ao comportamento dos atributos “possui telefone residencial” de pessoas “solteiras” seria interessante.

• Adicionar a possibilidade de acessar dados armazenados em um SGBD, Sistema de Gerenciamento de Bases de Dados, ao invés da limitação de acessar os dados das regras em arquivos texto.

A ferramenta VisualDATAMINER realiza a integração com ferramentas de

mineração de dados através de arquivos texto. A possibilidade de esta integração ser realizada através de dados armazenados em um SGBD amplia as facilidades de utilização da ferramenta.

• Realizar estudo de caso que contemple regras de associação.

No estudo de caso escolhido, não houve a possibilidade de testar as técnicas implementadas na análise de regras de associação, em um problema de larga escala. Isto se deve ao fato do problema escolhido para o estudo de caso ser um problema de natureza de classificação. A realização de um novo estudo de caso com um problema onde regras de associação possam ser analisadas enriqueceria este trabalho.

• Incorporar à ferramenta VisualDATAMINER um mecanismo de inferência para

análise detalhada de regras fuzzy.

Para que a análise de regras fuzzy possa ser realizada detalhadamente, mecanismos de inferência devem ser implementados na ferramenta.

Apêndice A

Formato dos Arquivos da

Ferramenta VisualDATAMINER

A ferramenta Visual DATAMINER utiliza três tipos de arquivos distintos: arquivos de entrada, gerados pela ferramenta de mineração de dados, arquivos de parâmetros, criados a partir dos parâmetros informados pelos usuários, e arquivos de apoio às técnicas de visualização de informações. Cada tipo de arquivo está descrito nas próximas seções.

Arquivos de Entrada

Há três padrões de arquivos a serem fornecidos pela ferramenta de mineração de dados, que proverá as regra a serem manipuladas pela ferramenta VisualDATAMINER. Os

padrões são os seguintes:

a. O primeiro padrão de arquivo possui o texto completo das regras a serem trabalhadas, em formato texto.

b. O segundo padrão possui os índices de representatividade da regra, a saber, o índice de confiança e índice de suporte para as regras de classificação clássicas e regras de associação e os índices de certeza e importância de cada atributo para o caso de regras fuzzy.

c. O terceiro padrão possui os dados originais com todos os seus atributos e registros utilizados na geração das regras. Este arquivo será importado para um banco de dados relacional.

Arquivos de Parâmetros

Há três padrões de arquivos gerados a partir das informações fornecidas na tela de Parâmetros, detalhados a seguir:

a. Informações sobre as classes:

b. Informações sobre a importância dos atributos sobre o processo classificatório:

Atributo Importância sobre o processo classificatório

c. Limite de índice de confiança/certeza para a análise de similaridade: Limite de índice de confiança/certeza

Estes três tipos de arquivos são gerados para as regras de classificação clássicas. Para as regras de classificação fuzzy, somente são gerados o primeiro e terceiro arquivo, devido à importância das partes antecedentes serem um conceito inerente à regras

fuzzy.

Para as regras de associação, somente o terceiro arquivo é gerado, devido a este tipo de regra não possuir o conceito de classificação.

Arquivos gerados pelo módulo de Integração

A partir dos arquivos de entrada e dos arquivos de parâmetros, quatro padrões de arquivos são gerados, para apoiar o funcionamento das técnicas de visualização de informações. Os arquivos são descritos abaixo:

a) O primeiro arquivo padrão apóia a utilização da técnica de Coordenadas Paralelas. Para o caso de regras clássicas e regras de associação, o registro de dado é formado pela identificação da regra, a classificação codificada (à classe 1 é atribuído o valor 0, enquanto à classe 2 é atribuído o valor 1, e assim por diante), o grau de confiança, o grau de suporte, cada parte condicional da regra, o valor assumido pela parte condicional (verdadeiro ou falso) e a parte conclusiva da regra. Já para as regras fuzzy, o lay-out do arquivo é definido pela identificação da regra, a classificação codificada da mesma forma acima

especificada, o grau de certeza da regra, cada parte condicional da regra, o valor assumido pela parte condicional (verdadeiro ou falso) e a parte conclusiva da regra.

b) O segundo arquivo padrão é utilizado no acesso aos dados originais da base de dados. Para as regras clássicas e de associação, o arquivo apresenta todo o corpo da regra separado pelas suas condições e sua conclusão, com os atributos da regra referenciando os nomes dos atributos carregados na base de dados relacional. Já para as regras fuzzy, o arquivo apresenta todo o corpo da regra dividido pelas suas condições e sua conclusão e o índice de importância de cada parte antecedente da regra.

c) O terceiro arquivo padrão é utilizado na técnica que trabalha com o relacionamento entre o conjunto de regras. Para os três tipos de regras, o arquivo possui a seguinte definição: a quantidade de condições da regra, a identificação da regra, o código da classificação da regra, o grau de confiança da regra e a codificação de identificação de cada parte antecedente da regra.

d) O quarto arquivo padrão apóia o cálculo de índice de importância de cada regra. Cada registro de dado possui todos os atributos utilizados em determinada regra.

Referências Bibliográficas

[Amorim 2004] – Amorim, B. P.; “Desenvolvimento de uma Plataforma Híbrida para

Descoberta de Conhecimento em Bases de Dados”, Dissertação de Mestrado, Universidade Federal de Pernambuco, 2004.

[Ankerst 1996] – Ankerst M., Keim D. A., Kriegel H.-P.: “Circle Segments: A Technique for Visually Exploring Large Multidimensional Data Sets”, Proc. Visualization ´96, Hot Topic Session, San Francisco, CA, 1996.

[Ankerst 2000] – Ankerst, M.: “Visual Data Mining with Pixel Oriented Visualization Techniques”, The Boeing Company, 2000.

[Ankerst & Keim 2001] – Ankerst, M.; Keim, D.; “Visual Data Mining and Exploration of Large Databases”, Tutorial, 2001.

[Asimov 1985] – Asimov, D.; “The Grand Tour: A tool for viewing multidimensional data”, SIAM Journal of Science & Stat. Comp., Vol 6, pp 128-143, 1985.

[Aurélio et al. 1999] – Aurelio, M., Vellasco, M., Lopes, C. H., “Descoberta de Conhecimento e Mineração de Dados – Apostila”, ICA – Laboratório de Inteligência Computacional Aplicada - Departamento de Engenharia Elétrica, PUC–Rio, 1999.

[Bartolini et al. 2003] Bartolini I.; Ciaccia P.; Patella M.; “A Framework for Comparison of Complex Patterns”, DEIS – IEIIT/BO-CNR, University of Bologna, Italy, 2003.

[Bederson 1994] – Bederson, B.; “PAD++: Advances in multiscale interfaces”, Proceedings Human Factors in Computing Systems CHI 1994, Conference Boston, MA, 1994.

[Bier et al. 1993] – Bier, E. A.; Stone, M. C.; Pier, K.; Buxton, W.; DeRose, T.; “Toolglass and Magic lenses: The See-Through Interface”, Proceedings SIGGRAPH 1993, Anaheim, CA, 1993.

[Brown 1994] – Brown, Malcolm: “Using Gini-style indices to evaluate the spatial patterns of health practitioners: Theoretical considerations and an application based on Alberta data”, Social Science Medicine 38:9, 1994.

[Brunsdon 2001] – Brunsdon C., Fotheringham A. S., Charlton M. E. : “An Investigation of Methods for Visualizing Highly Multivariate Datasets” – University of Newcastle – 2001. [Bruzesse & Davino 2000] – Bruzesse D., Davino C., “Visual Post-Analysis of Association Rules”, Department of Mathematics and Statistics, University of Naples Frederico II, 2000. [Card et al. 1999] – Card S. K., Mackinley J. D., Schneiderman B.: “Readings in Information Visualization – Using Information to think” – Morgan Kauffman publishers – 1999.

[Chen et al 1996 ] – Chen M.S., Han J. , Yu P. S., “Data Mining: An Overview from a

Database Perspective”, IEEE Transactions on Knowledge Engineering Vol 8, N.6, Dec 1996. [Chernoff 1973] – Chernoff, H. : “The Use of Faces to Represent points in K-dimensional Space Graphically”, Journal of the American Statistical Association, June 1973, Vol 68, n.342, pp 361-368.

[Deitel & Deitel 2001] DEITEL, H. M.; DEITEL, P. J. Java Como Programar. 3. ed. Porto Alegre: Bookman, 2001.

[Duke 2001] – Duke D., “Modular Techniques in Information Visualization”, Australian Symposium on Information Visualization, Sydney, 2001.

[Fabri 2000] – Fabri J. A. “Um sistema fuzzy aplicado a Classificação de Computadores Digitais” Revista: VALE: Arte, Ciência, Cultura. Publicada pelo Instituto Municipal de Ensino Superior de Assis (IMESA) e pela Fundação Educacional do Município de Assis, 2000. [Fayyad 1996] – Fayyad U., Piatestsky-Shapiro G., Smith P.: “From Data Mining to Knowledge Discovery: An Overview”, pp 1-35.

[Fayyad et al. 2002] Fayyad, U.; Grinstein, G. G.; Wierse, A.; “Information Visualization in Data Mining and Knowledge Discovery”, Morgan Kaufmann Publishers, 2002.

[Feiner & Beshers 1990] – Feiner, S.; Beshers, C.; “Visualizing n-dimensional virtual worlds with N-Vision”, Computer Graphics, March 1990.

[Freitas 1995] - Freitas, C.M. D. S; Wagner, F. R.;”Ferramentas de suporte às tarefas da análise exploratória visual”, Revista de informática Teórica e Aplicada, Jan 1995.

[Freitas et al. 2001] – Freitas, C.M. D. S.; Chubachi, O. M.; Luzzardi, P. R. G.; Cava, R. A.; “Introdução à Visualização de Informações”, RITA, Volume VIII, Número 2, 2001.

[Gershon et al. 1995] – Gershon, N.; Eick, S. G.; “Information Visualization”, IEEE Computer Graphics and Applications, 17(4):29-31, julho/agosto 1997.

[Grady et al. 2002] – Grady, N.; Auvil, L.; Beck, A.; Bono, P. R.; Meneses, C. J.; “Integrating Data Mining and Visualization Processes”, Information Visualization in Data Mining and Knowledge Discovery, U. Fayyad, G. G. Grinstein, A. Wierse, Morgan Kauffman Publishers, 299-303.

[Grinstein & Ward 2002] – Grinstein, G. G.; Ward, M. O.; “Introduction do Data Visualization”, Information Visualization in Data Mining and Knowledge Discovery, U. Fayyad, G. G.

Grinstein, A. Wierse, Morgan Kauffman Publishers, 21-45.

[Han & Kamber 2001] – Han J., Kamber M.: “Data Mining: Concepts and Techniques” Morgan Kaufmann Publishers, 2001.

[Han 1997] – Han J.: “Olap Mining: An Integration of OLAP with Data Mining”, Proceedings of IFIP ICDS, 1997.

[Haykin 1999] Haykin, S.; “Neural Networks, A Comprehensive Foundation”. 2nd ed. Prentice Hall, 1999.

[Hilderman & Hamilton 1999] – Hilderman, Robert J.; Hamilton, H. J. “Knowledge Discovery and Interestingness Measures: A Survey”, Department of Computer Science, University of Regina, Canada, 1999.

[Ho et al. 2002] – Ho, T.; Nguyen, T; Nguyen, D.; “Visualization Support for a User-Centered Kdd Process”, SIGKDD 2002, Julho 23-26, 2002, Edmonton, Alberta, Canada.

[Inselberg 1995] – Inselberg a., Dimsdale B.: Parallel Coordinates: A tool for Visualizing Multidimensional Geometry”, in Proc. Visualization ´90, San Francisco, CA, 1990, pp 361- 370.

[Kandogan 2001] – Kandogan, E.; “Star Coordinates: A Multi-dimensional Visualization Technique with Uniform Treatment of Dimensions”, IEEE Symposium on Information Visualization 2000, Salt Lake City, Utah, 2000.

[Keim 1994] – Keim D. A., Kriegel H.-P. : “Visdb: Database Exploration Using Multidimensional Visualization”, IEEE Computer Graphics and Applications, 1994.

[Keim 1995] – Keim D. A., Kriegel H.-P, Ankerst M.: “Recursive Patterns: A Technique for Visualizing Very Large Amounts of Data”, Proc. Visualization ´95, Atlanta GA, 1995, pp 279- 286.

[Keim & Kriegel 1996] – Kriegel H., Keim D.A.: “Visualization Techniques for Mining Large Databases: A Comparison” IEEE Transactions on Knowledge and Data Engineering, vol 8 n.6, 1996.

[Keim 1977] – Keim, D. A.; “Visual Database Exploration Techniques”, KDD´97 Int. Conf. on Knowledge Discovery and Data Mining, Newport Beach, CA.

[Keim 2001] – Keim, D.; “Visual Exploration of Large Data Sets”, Communications of the ACM, Volume 44, Número 8, 2001.

[Keim 2002] – Keim, D. A, “Information Visualization and Visual Data Mining”, IEEE Transactions on Visualization and Computer Graphics, Vol 7, Numero 1, Janeiro-Marco 2002.

[Kinnear & Taylor 1979] – Kinnear, T. C.; Taylor, J. R.; Marketing research: an applied approach, Mc Graw Hill, 1979.

[Klir 1995] – Klir, J. G., Yuan, B., “Fuzzy Sets and Fuzzy Logic – Theory and Applications – Prentice Hall, 1995.

[Lavado & Castro 2001] – Lavado, E.L.; Castro, A. A .”Projeto de Pesquisa (Parte V – Amostra)”, in Castro A . A. Planejamento de Pesquisa, São Paulo, AAC, 2001.

[LeBlanc 1990] – LeBlanc J.,Ward M. O., Wittels, n. : “Exploring n-dimensional Databases”, in Proc. Visualization ´90, San Francisco, CA, 1990, pp 230-239.

[Leung & Apperley 1994] – Leung, Y.; Apperley, M.; “A Review and Taxonomy of Distortion Oriented Presentation Techniques”, Human Factor in Computing Systems, 1994.

[Mackinley et al. 1991] – Mackinlay, J. D.; Robertson, G. G.; Card, S. K.; “The Perspective Wall: Detail and Context Smoothly Integrated”, Proceedings of CHI 1991, ACM, New York, 1991.

[Mattar 1996] – Mattar, F.; Pesquisa de Marketing, Ed. Atlas, 1996.

[Meyer 2002] – Meyer, A . S.; “Comparação de Coeficientes de Similaridade Usados em Análises de Agrupamentos com Dados de Marcadores Moleculares Dominantes”, Dissertação de Mestrado, Escola Superior de Agricultura Luiz de Queiroz, 2002. [Monard & Baranauskas 2003] – Monard, M., Baranauskas, J. A., “Conceitos sobre Aprendizagem de Máquina.” In: Resende, S. O. (Coord.) Sistemas Inteligentes: Fundamentos e Aplicações. Barueri: Manole, 2003, p.84-114.

[Monteiro 1999] – Monteiro, D., “Discovery – Um Ambiente para Descoberta de Conhecimento e Mineração de Dados”, Dissertação de Mestrado, Universidade de Pernambuco, Centro de Ciências Exatas e da Natureza, Ciência da Computação, 1999. [Naydenova & Kaloyanova 2005] – Naydenova, I., Kaloyanova, K.: “Basic Approaches of Integration Between Data Warehouse and Data Mining”, University of Sophia, Faculty of Mathematics and Informatics, Sophia, Bulgaria, 2005.

[Oliveira 2001] – Oliveira, T. M. V.; “Amostragem não Probabilística: Adequação de Situações para uso e Limitações de amostras por Conveniência, Julgamento e Quotas”, Fundação Escola de Comércio Álvares Penteado – FECAP – Revista de Administração On Line, 2001.

[Perlin & Fox 1993] – Perlin, K.; Fox, D.;”Pad: An Alternative Approach to the Computer Interface”, Proceedings SIGGRAPH, Anaheim, CA, 1993.

[Pickett & Grinstein 1988] – Pickett, R. M.; Grinstein, G. G.; “Iconographic Displays for Visualizing Multidimensional Data”, IEEE Conference on Systems, Man and Cibernetics, Piscataway, NJ, IEEE Press, 1988.

[Ramos 2001] – Ramos, P. G. Rulexpert: Uma ferramenta para descoberta de regras em bases de dados. 2001. Dissertação (Mestrado em Ciência da Computação) - Programa de Pós-Graduação em Ciência da Computação, Centro de Informática, Universidade Federal de Pernambuco, Recife, 2001.

[Rizzo 2000] – Rizzo I: “Data Mining” http://black/rc.unesp.br/IA/cintiab/datamine/home.html

[Rodrigues 2003] – Rodrigues Junior, J. F. “Desenvolvimento de um Framework para

Analise Visual de Informações Suportando Data Mining”, Dissertação de Mestrado, USP São Carlos, 2003.

[Schneiderman 1996] – Schneiderman, B.; “The eyes have it: a task by data type taxonomy for information visualizations”, Proceedings of IEEE Symposium on Visual Languages, Boulder, CO, 1996.

[Spence & Apperley 1982] – Spence, R.; Apperley, M. D.; “Database Navigation: An Office Environment for the Professional”, Behav Inf Tech I, 1982.

[SPSS 1999] – "Working with telecommunications – Churn in the telecommunications industry", White Paper, 1999

[Spoerri 1993] – Spoerri, A.; “InfoCrystal: A Visual Tool for Information Retrieval”, Proceedings Visualization 1993, San Jose, CA, 1993.

[SurfStar 2005] – “Surfstat.Australia: an online text in introductory Statistics”,

http://www.anu.edu.au/nceph/surfstat/surfstat-home/4-1-1.html, acessado em 25/07/2005.

[Tang et al. 2001] – Tang, D.; Stolte, C.; Hanrahan, P; “Polaris: A System for Query, Analysis and Visualization of Multi-Dimensional Relational Databases”, Transactions on Visualization and Computer Graphics, 2001.

[Tory & Moller 2004] – Tory M., Moller T., “Human Factors in Visualization Research”, IEEE Transactions on Visualization and Computer Graphics, Vol 10, No. 1, January/February 2004.

[Tukey 1977] – Tukey, J. W.; “Exploratory Data Analysis”, Addison-Wesley, 1977. [Ward 1994] – Ward, M. O.; “XmdvTool: Integrating Multiple Methods for Visualizing Multivariate Data”, Proceedings of IEEE Conference on Visualization, 1994.

[Ware 2000] – Ware C., “Information Visualization: Perception for Design”, San Francisco: Morgan Kaufmann (Academic Press), 2000.

[Witten & Frank 2000] Witten I. H., Frank E., “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”. Morgan Kaufmann, 2000.

[Wong & Bergeron 1997] – Wong, P. C.; Bergeron, R. D.; “30 Years of Multidimensional Multivariate Visualization”, Department of Computer Science, University of New Hampshire, 1997.

Documentos relacionados