Aplicativo de RBC - INTEGRANDO RBC COM MINERAÇÃO DE DADOS

5 INTEGRANDO RBC COM MINERAÇÃO DE DADOS

5.4 Aplicativo de RBC

O arquivo com os casos da amostra é carregado no aplicativo de RBC. O arquivo utilizado é uma cópia dos casos da amostra com extensão .data.

As informações do novo caso são informadas na tela abaixo, bem como os pesos para os atributos mais importantes.

X1: Qual é o número de furos do objeto?

azul azul

Figura 5-5: Tela do Aplicativo RBC

Ao clicar no botão “Verificar Similaridade”, é aplicado o algoritmo de vizinhança (Nearest Neighbour) para calcular a similaridade entre o caso consultado e os casos armazenados, considerando os pesos informados para cada atributo.

Distância (x, C) = ( ∑ wf * sim( |xf, Cf|2 ) ½ f=1

Figura 5-6: Algoritmo de Vizinhança

Onde:

n: quantidade de casos na base;

x: valor do atributo do caso da base de teste; C: valor do atributo do caso problema; wf: peso dado ao atributo;

sim( |x, C|2 ): função de similaridade = |x – C|2.

A escolha dessa função de similaridade foi devido ao fato de que as características dos casos são todas numéricas. Os casos mais similares são aqueles que possuem a menor Distância (x, C).

Pode ser determinado um fator de tolerância para a recuperação dos casos, isto é, se for informado este fator, o aplicativo recupera os casos mais similares além dos casos com menor distância.

Como resultado é mostrado o(s) caso(s) mais similar(es) encontrado(s), o menor e o maior fator de similaridade, a classe resultante e número de casos encontrados, conforme mostrado na figura 5-5.

Neste aplicativo, se não for encontrado casos que satisfaçam as condições consultadas, não é apresentada a classe resultante, também não é possível armazenar os novos casos, mas em sistemas de RBC esta é uma prática bastante comum e altamente recomendável, porque o sistema pode aprender com os novos casos.

Neste aplicativo, as duas metodologias não estão integradas, isto é, os pesos resultantes da análise da árvore de decisão na mineração de dados, devem ser informados pelo usuário para calcular a similaridade, podendo o usuário informar novos pesos e fazer simulações para achar o caso que melhor se adapte ao caso atual sendo analisado.

O ideal em um sistema de RBC, que irá utilizar mineração de dados, é integrar os dois sistemas. Através da análise da árvore de decisão e o cálculo da entropia e determinação do peso dos atributos, enviando automaticamente esta informação ao sistema de RBC.

CONCLUSÃO

Pessoas são excelentes solucionadores de problemas, com uma capacidade de solução de problemas que não pode ser superada pelas maquinas no atual estado da arte. À medida que a experiência aumenta, são capazes de resolver de forma rotineira e com qualidade, problemas mal definidos e com conhecimento incompleto. Os sistemas de RBC vêm para disseminar este conhecimento, reutilizando de forma automática a experiência de pessoas e organizações, registradas nos repositórios de conhecimento.

O primeiro sistema de RBC chamou-se CYRUS e foi desenvolvido por Janet Kolodner na Yale University em 1983. Passaram-se vinte anos e hoje RBC já pode ser considerada uma metodologia madura e as aplicações comerciais nesta área têm aumentado muito rapidamente.

A construção de sistemas de RBC passa pelas fases de coleta dos casos, proposta de uma forma de representação dos casos no sistema, e definição das estratégias de comparação e recuperação do melhor caso, que tenha solução compatível com os problemas apresentados. Definir a representação adequada para modelar casos na base de casos é uma tarefa da engenharia de conhecimento e envolve a identificação dos atributos mais significativos para discriminar a solução do problema. Esses atributos definem os índices da base de casos e influenciam na estratégia de recuperação do algoritmo de similaridade. A utilização de técnicas de mineração de dados permitem identificar quais atributos do problema mais influenciam no tipo de solução associada ao caso. Evidenciam ainda conhecimento da base de casos, como por exemplo, freqüência da presença de determinados valores associados a atributos e sua distribuição, índices de significância e gravidade dos atributos em relação a solução, entre outros. Essas informações, extraídas de forma automática, determinam as funções de similaridade de um sistema baseados em casos.

Este trabalho apresentou um estudo de caso da utilização de algoritmos de mineração de dados para extrair índices de uma base de casos, para subsidiar a construção de um sistema de RBC. A transformação das informações em índices foi realizada de forma manual nesse protótipo, cujo objetivo foi identificar as informações passíveis de serem extraídas e as transformações pelas quais a informação passa para tornar-se um índice efetivo de uma base de casos. A completa compreensão deste processo permitirá a construção e atualização automática de bases de casos em sistemas de RBC em domínios dinâmicos.

O sistema WEKA foi utilizado como ferramenta de mineração para extrair os padrões da base de dados, através de árvores de decisão. As árvores evidenciaram os atributos e valores mais discriminantes da base e esses foram utilizados como índices principais do sistema RBC. Após esta análise, foi calculada a entropia dos atributos

mais discriminantes para determinação dos pesos a serem aplicados no cálculo da similaridade.

A mineração de dados mostra-se útil para a extração de índices em bases de dados, porque agrupa os dados e disponibiliza uma visualização completa destes grupos, tornando possível a análise e conseqüentemente a determinação dos atributos que são mais discriminantes.

Como trabalhos futuros, sugere-se a integração total entre RBC e mineração de dados, com a geração dos índices pela mineração e a passagem automática destas informações para o sistema de RBC.

REFERÊNCIAS

Berry, M.J. e Linoff, G. Data Mining Techniques: for Marketing, Sales and

Customer Suport. New York, NY: John Wiley & Sons, 1997. 444p.

Fayyad, U.M. Advances in Knowledge Discovery and Data Mining. Menlo Park, CA: AAAI Press/MIT Press, 1996. 611p.

Feldens, M.A. Engenharia da Descoberta de Conhecimento em Base de Dados:

Estudo e Aplicação na Área da Saúde. Porto Alegre, 1997.

Freitas, A.A. Understanding the crucial differences between classification and

discovery of association rules. Springer-Verlag, 1999.

Kolodner, J.L. Case-Based Reasoning. San Francisco, CA: Morgan Kaufmann Publishers, 1993.

Lorenzi, F. Raciocínio Baseado em Casos e Armazém de Dados. Porto Alegre, 1996. Noguez, J.H.S. Técnicas de Mineração de Dados no Processo de Descoberta de

Conhecimento em Banco de Dados. Porto Alegre, 2000

Quinlan, J.R. Induction of Decision Trees. Machine Learnings v. 1, n. 1, p.81-106, 1986.

Quinlan, J.R. C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufmann Publishers, 1993. 302p.

Reategui, E.B. Combining Case-Based Reasoning with Neural Network in

Diagnostic Systems. Londres: Department of Computer Science, 1997. 185 p.

Ph.D. Thesis.

Richter, M.M. On the Notion of Similarity in Case-Based Reasoning. In: Mathematical and Statistical Methods in Artificial Intelligence, 1995, Udina, Italy Springer Verlag v. 363, p. 171-84.

Riesbeck, C.K. e Schank, R.C. Inside Case-Based Reasoning. Hillsdale,NJ: Erlbaum, 1989.

VanLehn, K. Problem solving and cognitive skill acquisition. In: Posner, M. I.

Foundations of Cognitive Science. Cambridge, MA.: Bradford Books, MIT

Press, 1989. p.527-80.

Von Wangennheim, C.G. e Von Wangenheim, A. Raciocínio Baseado em Casos. Barueri, SP: Manole, 2003. 293p.

Waikato, U.d. Weka Knowledge Explorer (Waikato Environment for Knowledge

Analys). Nova Zelândia, 2000.

Westphal, C. e Blaxton, T. Data Mining Solutions: Methods and Tools for Solving

No documento Mineração de Dados Aplicada à Definição de Índices em Sistemas de Raciocínio Baseado em Casos. (páginas 35-41)