• Nenhum resultado encontrado

Na tentativa de propor uma metodologia capaz de fornecer orientações

quanto ao planejamento, aplicação e avaliação de uma atividade de Mineração

de Dados, diversos autores começaram a construir seus modelos. No entanto,

poucos modelos genéricos surgiram. Um modelo genérico pode ser definido

como uma metodologia para Mineração de Dados cuja aplicação possa ser

adaptada para as mais diversas áreas dos negócios.

O fato é que, não existe uma abordagem única que resolva todos os

problemas da Mineração de Dados. Diferentes métodos atendem diferentes

propósitos e cada método oferece suas vantagens e suas desvantagens, sendo

a escolha dependente do problema que se deseja enfrentar e também do que

se espera obter como resultado após a mineração (DIAS, 2001).

É possível entender os projetos de Mineração de Dados como projetos

que possuem características bastante específicas (DIAS, 2001) e que reúnem

diversas disciplinas, envolvendo áreas de conhecimento muitas vezes pouco

exploradas em conjunto. Fica evidente que uma abordagem direcionada

auxilia, não somente nas questões ligadas à documentação do projeto, mas

também serve como um roteiro para futuros projetos de natureza similar.

Mesmo propondo a definição de abordagens específicas para cada

caso, nada impede que estas se baseiem em metodologias de mineração já

consagradas. No âmbito da Mineração de Dados, uma tentativa de metodologia

que busca atender às particularidades causadas pela multidisciplinaridade

Industry Standard Process for Data Mining um modelo de processo proposto especificamente para a Mineração de Dados (CHAPMAN et al., 2000).

Uma metodologia que poderia fazer frente à CRISP-DM seria a SEMMA,

acrônimo para Sample, Explore, Modify, Model and Assess ou em português

Amostra, Exploração, Modificação, Modelagem e Avaliação. Trata-se de um

modelo com passos sequenciais para as atividades de Mineração de Dados. A

metodologia foi desenvolvida pela SAS Institute Inc5 uma das maiores

companhias da áreas de Bussiness Inteligence. Ainda assim, conforme mostra

a Figura 2.2, pesquisas apontam que a utilização do SEMMA chegou a ser

cinco vezes menor do que o CRISP-DM em 2014 (KDNUGGETS, 2014).

Figura 2.2 - Comparativo da Utilização de Metodologias de MD

Fonte: Adaptado de KDNUGGETS.com (2014)

Tendo em vista sua ampla utilização somada ao fato de se tratar de uma

metodologia desenvolvida para atender as necessidades dos mais diversos

casos possíveis para um projeto de Mineração de Dados, a apresentação de

5

algumas etapas propostas pela CRISP-DM é válida. Por se tratar de um

processo relativamente bem definido, diversas orientações sobre cada etapa

são fornecidas, conforme resumidas a seguir (CHAPMAN et al., 2000):

 Compreensão do negócio - Esta fase inicial foca na compreensão dos

objetivos do projeto e dos requerimentos necessários, do ponto de vista

do negócio. Só então este conhecimento será utilizado para definição de

um problema dentro da perspectiva da Mineração de Dados e de uma

estratégia preliminar para alcançar os objetivos.

 Compreensão dos dados - A etapa de compreensão dos dados

começa com uma coleta de dados inicial e tem sua continuidade nas

atividades que buscam a familiarização com os dados, a identificação de

possíveis problemas na qualidade dos dados, a elaboração de palpites

iniciais acerca dos dados e a detecção de conjuntos interessantes para

formar hipóteses sobre informações ocultas.

 Preparação dos dados - A fase de preparação dos dados abrange

todas as atividades necessárias para a construção do conjunto de dados

final, isto é, o conjunto de dados que será submetido às ferramentas de

modelagem. As tarefas de preparação de dados costumam ser repetidas

quantas vezes forem necessárias e não possuem uma ordem precisa

para ocorrerem. Alguns modelos podem exigir formatos específicos dos

dados. Por esta razão, o retorno à etapa de preparação dos dados é

comum quando se está na etapa seguinte de modelagem. Estas tarefas

incluem a seleção de tabelas, registros e atributos assim como a limpeza

 Modelagem - Nesta importante etapa várias técnicas para modelagem

são selecionadas e aplicadas sobre os dados que foram selecionados e

preparados no decorrer das etapas anteriores. Os parâmetros inerentes

ao modelo proposto são calibrados ao longo desta etapa, tendo em vista

a otimização dos valores obtidos como resultado da aplicação do

mesmo. Existem várias técnicas para o mesmo problema de Mineração

de Dados e algumas técnicas possuem requerimentos específicos

quanto ao formato dos dados. Por esta razão, como já foi dito

anteriormente, um eventual retorno para a etapa de preparação dos

dados costuma ser necessário durante o processo de modelagem.

 Avaliação - Esta etapa ocorre após a aplicação de pelo menos um

modelo que aparente resultar em alto valor do ponto de vista da análise

da informação. Antes de proceder para o desdobramento final do

modelo é importante avaliar de forma mais rigorosa o modelo escolhido

e revisar os passos executados para construir o modelo para certificar-

se de que ele alcança adequadamente os objetivos do negócio. Apesar

de seus objetivos lembrarem os objetivos da etapa anterior, na qual os

modelos são propostos e otimizados, a etapa de avaliação é

extremamente importante, pois com ela é possível determinar se existe

algum problema relevante do negócio que não tenha sido atendido de

forma satisfatória pelo modelo proposto. Ao final desta etapa será

possível decidir acerca da utilização ou não dos resultados obtidos com

a aplicação do modelo proposto. Afinal de contas, a aprovação do

modelo implica também na aceitação e consequente utilização das

 Desdobramento - Por fim, na etapa de desdobramento constata-se que

a criação do modelo não costuma ser o fim do projeto. Mesmo se o

propósito do modelo for expandir o conhecimento acerca dos dados

estudados, o conhecimento recebido precisará ser organizado e

apresentado de uma forma que seja útil para os interessados.

Dependendo dos requisitos, a fase de desdobramento pode se resumir à

elaboração de um relatório ou ser tão complexa ao ponto de exigir uma

implementação de um sistema de pontuação de dados ou tarefa de

Mineração de Dados possível de repetição. Na maioria dos casos será o

cliente (ou a parte interessada nas informações do negócio) e não o

analista de dados quem irá conduzir a etapa de desdobramento. Mesmo

que o analista seja o responsável, é importante que a parte interessada

compreenda as ações que serão necessárias para por em uso os

modelos criados e colher os resultados desejados.

As fases do CRISP-DM e suas respectivas relações, dependências e

sequência sugerida estão representados na Figura 2.3. É importante lembrar

que a sequência entre as fases não é rígida. Desta forma, pular ou avançar

etapas pode ser necessário. As flechas indicativas de sequência no diagrama

do processo CRISP-DM representado pela Figura 2.3 apontam simplesmente

as dependências mais importantes ou mesmo mais frequentes entre duas

fases distintas. Conforme representado pela flecha circular que envolve todo o

diagrama, o CRISP-DM respeita também a natureza cíclica do processo de

Mineração de Dados, podendo o processo global ser repetido quantas vezes

for necessário ou mesmo empregado mais de uma vez de forma diferente e

Figura 2.3 - Etapas do processo CRISP-DM

Fonte: Adaptado de CRISP-DM (2000)

Mesmo com o projeto descontinuado em junho de 2015, as contribuições

propostas pelo CRISP-DM continuam sendo adotadas, porém cada vez mais

cresce sua utilização como base para o desenvolvimento de abordagens

direcionadas, já que estas costumam atender melhor problemas específicos.

Documentos relacionados