• Nenhum resultado encontrado

3.4 O CONTEXTO TECNOLÓGICO DA GESTÃO DO CONHECIMENTO

3.4.6 Sistemas para Descoberta de Conhecimento em Bases de Dados

3.4.6.2 Data Mining

Data Mining (ou mineração de dados) consiste na aplicação de técnicas de estatística e inteligência artificial em grandes bases de dados, visando encontrar tendência ou padrões a fim de apoiar decisões. Observa-se que a mineração de dados é apenas uma etapa do processo de descoberta de conhecimento em bases de dados (CABENA et al., 1998; FAYYAD et al., 1996).

14

OLAP é uma ferramenta utilizada para realizar análises sofisticadas, permitindo aos seus usuários compreenderem melhor os negócios que são realizados na organização (THOMSEN, 1997).

De acordo com Kimball (1998), as raízes do Data Mining estão nos anos 1960, quando era chamado de análise estatística e que consistia em rotinas estatísticas clássicas como regressão, correlação e outras. Nos anos 1980, foi acrescentado à análise estatística clássica, um conjunto maior de técnicas, como a lógica nebulosa, redes neurais artificiais, árvores de decisão e outras técnicas de Inteligência Artificial. Somente nos anos 1990, foi possível a aplicação dessas técnicas para auxiliar no gerenciamento estratégico dos negócios.

Nos últimos anos, as organizações armazenaram grandes quantidades de dados provenientes geralmente das suas fontes de dados. A queda nos custos de armazenamento de dados pode ser vista como a principal causa do surgimento dessas enormes bases de dados. Um outro fator é a disponibilidade de computadores de alto desempenho a baixo custo. Portanto, a tecnologia tornou relativamente fácil o acúmulo de dados. Entretanto, a análise desses dados ainda é demorada, dispendiosa, pouco automatizada e sujeita a erros. A automatização desse processo, com a utilização de softwares para atuar nessas bases de dados, trans formando-as em conhecimento, tornou-se numa necessidade dos dias atuais. É nesse contexto que Data Mining está cada vez mais sendo utilizado.

Técnicas de Data Mining têm sido aplicadas com sucesso para a solução de problemas em diversas áreas do conhecimento, tais como: área de vendas (identificar padrões de comportamentos dos consumidores), área de finanças (detectar padrões de fraudes no uso de cartões de crédito), área de transporte (determinar a distribuição dos horários entre os diversos caminhos), área médica (identificar terapias de sucessos para diferentes doenças) etc. (CABENA et al., 1998; HARRISON, 1998).

A importância das técnicas de Data Mining está relacionada com sua capacidade de extrair todo o conhecimento útil e previamente desconhecido que está implícito nas coleções de dados do DW e de representar esse conhecimento de forma acessível para o usuário final. Apesar de o processo não ser obrigatoriamente aplicado sobre DW, essa combinação possibilita ao usuário final obter melhores resultados em suas análises. O motivo é que DW armazena dados integrados, consistentes e históricos, o que geralmente não acontece com as fontes de dados operacionais.

De acordo com Harrison (1998), não existe uma técnica de Data Mining que resolva todos os problemas. A familiaridade com as técnicas é necessária para proporcionar a melhor abordagem de acordo com os problemas apresentados. Portanto, para cada classe de aplicação

deve-se aplicar um conjunto de algoritmos com o objetivo de extrair padrões e relações dentro de uma base de dados. Entre as principais famílias de algoritmos de Data Mining, destacam- se regras de associação, regras de classificação e agrupamento (“clustering”).

3.4.6.2.1 Metodologia de Desenvolvimento de Soluções Data Mining

A metodologia CRISP-DM (CRoss Industry Standard Process for Data Mining) é uma metodologia desenvolvida por um consórcio de pesquisadores e empresas de consultoria de Data Mining. Essa metodologia consiste em um conjunto de fases e processos padrões para desenvolver projetos de Data Mining, independentemente da área de negócio e das ferramentas utilizadas, de uma forma estruturada e metódica (CRISP, 1999).

Essa metodologia tem como objetivos principais: transformar necessidades de negócio em tarefas de Data Mining, sugerir transformações nos dados e técnicas adequadas, utilizar métricas para avaliar a qualidade dos resultados obtidos e documentar o projeto (ibid., 2000).

Segundo essa metodologia, a implementação de um sistema de Data Mining pode ser dividida em seis fases interdependentes para que o sistema atinja seus objetivos finais. As fases da metodologia CRISP-DM utilizada no processo de Data Mining são a compreensão do negócio, compreensão dos dados, preparação dos dados, modelagem, avaliação do modelo e publicação (Figura 3.5). Compreensão do Negócio Compreensão dos Dados Preparação dos Dados Modelagem Avaliação Publicação D A D O S

Figura 3.5 – Fases da Metodologia Crisp-DM utilizada no processo de Data Mining

Fonte: (CHAPMAN et al., 2000)

a) Compreensão do negócio - essa fase inicial procura identificar as metas, os objetivos e as necessidades numa perspectiva de negócio, e converter esse conhecimento numa tarefa de Data Mining e num plano inicial de ataque ao problema. Na determinação dos objetivos

do negócio, o primeiro passo é a identificação das necessidades do cliente. Além disso, o analista deve procurar fatores importantes que podem influenciar os resultados. Em seguida, procura-se descrever os objetivos do negócio e os critérios utilizados para determinar o sucesso do seu negócio;

b) Compreensão dos dados - essa fase tem como atividade principal a extração de uma amostra dos dados a serem utilizados e avaliação do ambiente em que eles se encontram. Assim, essa fase compreende a identificação da informação que possa ser relevante para o estudo e uma primeira familiarização com o conteúdo, descrição, qualidade e utilidade dos dados. A amostragem inicial dos dados tem como objetivo adquirir a informação com a qual se irá trabalhar, listando as suas fontes, o procedimento de leitura e os problemas detectados. Essa análise exploratória dos dados busca identificar questões que podem ser solucionadas com querys, visualizações e reporting;

c) Preparação dos dados - essa fase consiste num conjunto de atividades destinadas a obter o data set final, com base no qual será criado e validado o modelo. Na descrição do data set, o objetivo é descrever o seu formato para efeito de modelagem e validação. A seleção dos dados antecede a escolha dos atributos que serão incluídos em termos de análise. Os critérios de seleção vão desde os objetivos do Data Mining, até a sua correção e restrições em nível de volume. A integração representa a junção de dados prove nientes de várias tabelas, para criar uma só, na qual esteja toda a informação necessária para a análise, ou seja, compreende a junção de tabelas e a agregação de valores. Nessa fase, serão utilizados programas de extração, limpeza e transformação dos dados para uso dos algoritmos de Data Mining;

d) Modelagem - na fase de modelagem são selecionadas e aplicadas as técnicas de Data Mining mais apropriadas em relação aos objetivos pretendidos. Assim, essa fase consiste em selecionar os algoritmos a serem utilizados e o efetivo processamento do modelo. A criação de um modelo de teste constitui-se em um mecanismo importante para testar a qualidade e validar os modelos que serão obtidos. A criação do modelo representa a fase central da metodologia e consiste em aplicar uma técnica de modelagem sobre o conjunto de dados para criar um ou vários modelos. Isso inclui a parametrização das técnicas de modo a obter os melhores resultados. Além disso, alguns algoritmos necessitam dos dados em formatos específicos, o que pode causar vários retornos à fase de preparação dos dados;

e) Avaliação - essa fase consiste em avaliar os modelos para verificar se os resultados vão ao encontro dos objetivos do negócio definidos inicialmente. Ao final da fase de modelagem, vários modelos devem ter sido avaliados sob a perspectiva do analista responsável. A revisão do processo tem como objetivo uma última validação para tentar encontrar fatores importantes que tenham sido omitidos até então. A partir daí é verificado se o processo encerra, devendo-se então passar para a fase de publicação, ou se deverão ser efetuadas correções no processo voltando para as fases anteriores, ou mesmo reiniciar um novo processo;

f) Publicação - essa fase consiste em um conjunto de ações que conduza m à utilização dos resultados do Data Mining no negócio, tendo em vista as avaliações dos resultados, gerando uma estratégia de divulgação. O resultado dessa fase é um relatório final que procura explicar os resultados obtidos e as experiências. Isso pode ser feito de diversas maneiras, desde a criação de um software específico para tal, até a publicação de um relatório para uso interno.

Conclui-se que é relativamente fácil começar um projeto de Data Mining, a dificuldade está em finalizá- lo de acordo com as expectativas dos stakeholders. Em suma, um projeto de Data Mining requer a necessidade de conhecimento do negócio, o entendimento dos dados e da ferramenta escolhida, bem como do algoritmo implementado pela ferramenta. Observa-se também que as atividades de preparação dos dados consomem mais da metade do tempo dedicado ao projeto.