• Nenhum resultado encontrado

Bases de dados com volumes cada vez maiores foram viabilizadas pelo desenvolvi- mento tecnológico e criaram importantes fontes de informação em diversas áreas da atividade humana. Posto isso, Adriaans e Zantinge (1996) argumentam que vivemos em um universo em expansão de dados em que há dados demais e muito poucas informações. A aplicação de técnicas de KDD para auxiliar a análise de grandes quantidades de dados torna-se, hoje em dia, um caminho viável e aplicável, usando para isso os algoritmos de Aprendizagem de Má- quina, Matemáticos ou Estatísticos. Estes algoritmos permitem a identificação de padrões de relacionamento entre dados que, adequadamente interpretados, podem levar o pesquisador à abstração de conhecimento inédito e relevante.

Fayyad et al. (1996, p. 27-34) define que o termo KDD refere-se a todo o processo não trivial de descoberta de conhecimento útil nos dados. A mineração de dados é um passo em particular nesse processo no qual se utilizam algoritmos específicos para a extração de pa- drões (isto é, modelos) dos dados.

Os demais passos no processo de KDD, como preparação, seleção e limpeza dos da- dos, utilização apropriada do conhecimento prévio e a correta interpretação dos resultados da mineração são necessários para garantirem que o conhecimento útil seja derivado dos dados. O objetivo é extrair um alto nível de conhecimento do baixo nível dos dados no contexto glo- bal de um grande conjunto de dados.

Para Han (2006, p. 5), é fundamental extrair informação que não seja obtida por sim- ples consulta ou observação, e necessário que seja implícita, seja desconhecida e potencial- mente útil. Portanto, a Descoberta de Conhecimento em Bases de Dados cria o contexto para o desenvolvimento dos instrumentos necessários para suportar a rápida extração de conheci- mento útil a partir do crescente volume de dados nas empresas (FAYYAD et al. 1996, p. 27- 34).

Ainda conforme Fayyad et al. (1996, p. 27-34), o rápido aumento de ferramentas e técnicas de KDD para atender uma crescente variedade de aplicações precisa seguir um pro- cesso consistente. A exigência de qualquer negócio é que a Solução de KDD deve ser perfei-

tamente integrada em um ambiente. Dessa forma se faz necessário delinear vários esforços de pesquisadores e praticantes para aderir às normas e técnicas que fazem suas soluções interope- ráveis, eficientes e eficazes.

A KDD é um processo iterativo composto de diversas etapas que envolvem preparação dos dados, procura por padrões, avaliação e refinamento. O processo é interativo, pois todas as etapas estão conectadas e contêm tarefas e decisões a serem realizadas pelos usuários. Caso a etapa de avaliação não seja satisfatória, de acordo com o processo, podemos voltar para a etapa de preparação dos dados. A exploração de dados também representa um passo impor- tante no processo de descoberta do conhecimento em bases de dados (Fayyad et al. 1996, p. 27-34). A Figura 2 representa as etapas que constituem o processo de KDD.

Figura 2 - Visão geral das etapas que constituem o processo de KDD

Fonte: Fayyad, Piatetsky-Shapiro e Smyth (1996)

Primeiramente é necessário catalogar as necessidades do ponto de vista do negócio e do usuário. Com as necessidades catalogadas, podemos definir o objetivo do KDD. Somente poderemos definir o objetivo do processo de mineração quando os requisitos forem levanta- dos, pois a escolha da técnica de mineração dependerá do objetivo a ser alcançado.

Após o levantamento dos requisitos, deve-se criar o conjunto de dados no qual o pro- cesso trabalhará. O conjunto de dados deve conter todas as informações necessárias para que os algoritmos de mineração possam alcançar seus objetivos. Essa etapa é conhecida como Seleção. Oliveira (2001, p. 51) afirma que é na Seleção de Dados que o analisador separa os dados visando aos arquivos necessários para se obter informações valiosas e descartar os ar-

quivos sem utilidade. Para isso, o analisador tem que ter profundo conhecimento e domínio das informações trabalhadas, a fim de não eliminar dados que possam influenciar no resultado final.

A segunda etapa é composta por tarefas de pré-processamento. As técnicas de pré- processamento incluem as operações básicas como remoção de ruído ou de outliers (se apro- priada), seleção das informações necessárias para modelagem, elaboração de estratégias para lidar com a falta de dados nos campos, identificação das alterações nas informações realizadas ao longo do tempo e decisões sobre questões de Database Management System (DBMS) co- mo tipos de dados, esquema e mapeamento de valores ausentes e desconhecidos.

A terceira etapa, conhecida como Transformação, tem por objetivo a redução e a pro- jeção dos dados. Inclui encontrar recursos úteis para representar os dados, dependendo do objetivo e da tarefa, utilizando a redução de dimensionalidade ou métodos de transformação para reduzir o número efetivo de variáveis em consideração ou para encontrar representações invariantes para os dados.

Na quarta etapa, aplicaremos as técnicas de Mineração de Dados para alcançar os ob- jetivos definidos na primeira etapa. Os objetivos podem ser classificados como tarefas de classificação, regressão, agrupamento, predição, etc. A escolha do(s) algoritmo(s) de minera- ção de dados inclui a seleção de Método(s) para procurar padrões nos dados, decisão de como os parâmetros serão apropriados e critérios gerais do processo de KDD. Após todas essas tare- fas terem sido realizadas, é hora da execução propriamente dita do algoritmo de mineração o qual procurará padrões conforme estratégias definidas utilizando os dados informados.

A quinta etapa trata-se da Interpretação e Avaliação dos padrões identificados. Este passo inclui visualização dos padrões extraídos ou dos modelos que resumem a estrutura e as informações presentes nos dados.

Ao final de todo o processo, teremos descoberto conhecimento em forma de padrões os quais serão utilizados para tomada de decisão ou simplesmente para documentação e de- núncia aos interessados.

Documentos relacionados