• Nenhum resultado encontrado

METODOLOGIA CROSS-INDUSTRY STANDARD PROCESS FOR DATA

No documento Download/Open (páginas 75-80)

1. INTRODUÇÃO

2.4 METODOLOGIA CROSS-INDUSTRY STANDARD PROCESS FOR DATA

STANDARD

PROCESS

FOR

DATA

MINING (CRISP-DM)

A Mineração de Dados (MD) pode ser desenvolvida de modo não-sistemático, sem que haja nenhum cuidado em seu desenvolvimento, o que não é recomendado, pois acarreta em resultados não esperados ou imprecisos. Com intuito de evitar este tipo de situação, o uso de uma metodologia vem garantir que o processo de MD seja desenvolvido de modo sistemático e padronizado, o que acrescentará em resultados precisos e confiáveis (PASTA, 2011, p.68). Portanto, a eficiência do processo de MD está associada ao uso de uma metodologia denominada Cross-Industry Standard

Process for Data Mining (CRISP-DM), que contém regras e padrões formalizados para

orientar sua aplicação.

Esta metodologia foi proposta em meados da década de 1990 por um consórcio europeu de empresas, para servir como metodologia padrão não proprietária para MD. A Figura 18, ilustra esse processo proposto, que é uma sequência de seis etapas, que inicia com um bom entendimento do negócio e da necessidade do projeto de MD e finaliza com a implementação da solução que satisfaz a necessidade especificada (CHAPMAN et al., 2000).

Figura 18 - Etapas do processo CRISP-DM

Fonte: Adaptada de CHAPMAN et al. (2000, p. 10)

A sequência dessas fases não é rigorosa, dependendo do resultado de cada fase ou de qual tarefa particular de uma fase precisa ser executada na próxima fase. As flechas indicam as dependências mais importantes e frequentes entre as fases. As fases da metodologia CRISP-DM são semelhantes as fases do processo de KDD.

O círculo externo na Figura 18 simboliza a natureza cíclica da MD. Um processo de MD continua após uma solução ter sido descoberta. Os processos de MD subsequentes se beneficiarão das experiências anteriores.

Conforme Chapman et al. (2000, p.10) traduzido por Dias (2001, p.24), cada etapa do processo CRISP-DM é definida da seguinte forma:

Entendimento do Negócio (ou Business Understanding): fase inicial do processo que visa o entendimento dos objetivos do projeto e dos requisitos sob o ponto de vista do negócio. Baseado no conhecimento adquirido, o problema de MD é definido e um plano preliminar é projetado para ativar os objetivos;

Entendimento dos Dados (ou Data Understanding): inicia com uma coleção de dados e procede com atividades que visam buscar familiaridade com os dados, identificar problemas de qualidade de dados, descobrir os primeiros discernimentos nos dados ou detectar subconjuntos interessantes para formar hipóteses da informação escondida;

Preparação de Dados (Data Preparation): cobre todas as atividades de construção do dataset final. As tarefas de preparação de dados são, provavelmente, desempenhadas várias vezes e não em qualquer ordem prescrita. Estas tarefas incluem seleção de tabelas, registros e atributos, bem como transformação e limpeza dos dados para as ferramentas de modelagem;

Modelagem (Modelling): várias técnicas de modelagem são selecionadas e aplicadas e seus parâmetros são ajustados para valores ótimos. Geralmente, existem várias técnicas para o mesmo tipo de problema de MD. Algumas técnicas têm requisitos específicos na formação de dados. Portanto, retornar à fase de preparação de dados é frequentemente necessário.;

Avaliação (Evaluation): o(s) modelo(s) construído(s) na fase anterior é avaliado e são revistos os passos executados na sua construção para se ter certeza de que o modelo representa os objetivos do negócio. O principal objetivo é determinar se existe alguma questão de negócio importante que não foi suficientemente considerada. Nesta fase, uma decisão sobre o uso dos resultados de MD deverá ser alcançada;

Utilização, ou Aplicação, (Deployment): após o modelo ser construído e avaliado, ele pode ser usado de duas formas. Na primeira forma, o analista pode recomendar ações a serem tomadas baseando-se simplesmente na visão do modelo e de seus resultados. Na segunda forma, o modelo pode ser aplicado a diferentes conjuntos de dados.

O CRISP-DM foi projetado para fornecer orientação para os iniciantes em MD e para fornecer um modelo de processo genérico que pode ser especializado de acordo

com as necessidades de qualquer ramo de atividade ou da empresa. A metodologia CRISP-DM tem seu sucesso devido ao fato de ter sido desenvolvida à prática, não estar atrelada a nenhuma ferramenta específica de MD, mas sim a junção das melhores práticas que são utilizadas em um projeto de MD, aliada ao fato de atuar sobre todo o processo de MD (PASTA, 2011).

Para melhor entendimento de cada etapa do modelo CRISP-DM, e suas respectivas tarefas e saídas, a Tabela 10 apresenta um resumo dos conceitos anteriormente apresentados.

Tabela 10 - Etapas, Tarefas e Saídas da metodologia CRISP-DM ETAPA TAREFAS SAÍDAS

Entendimento do Negócio  Determinar os objetivos do negócio;  Background;  Os objetivos do negócio;

Critérios de sucesso do negócio.

 Avaliar a situação;  Inventário dos recursos;

 Requisitos,premissas e restrições;  Riscos e contingências;  Terminologia;  Custos e benefícios.  Determinar as metas da MD  Metas da MD;  Critérios de sucesso da MD.

 Produzir o plano do projeto  Plano do projeto;

 A avaliação inicial de ferramentas e técnicas.

Entendimento dos Dados

 Coletar os dados iniciais;  Relatório da coleta inicial dos dados.

 Descrever os dados;  Relatório da descrição dos dados.

 Explorar os dados;  Relatório da exploração dos dados.

 Verificar a qualidade dos dados;

Relatório da qualidade dos dados.

Preparação dos Dados

 Selecionar os dados;  Justificativa para inclusão/exclusão.

 Limpar os dados;  Relatório de limpeza dos dados.

 Construção dos dados;  Atributos derivados;

 Registros gerados;

 Integrar os dados;  Dados mesclados.

 Formatar os dados;  Dados reformatados.

Modelagem

 Selecionar a técnica de modelagem;

 Técnica de modelagem;

 Modelagem dos pressupostos.

 Gerar o design do teste;  Design do teste.

 Construir o modelo;

 As definições de parâmetros;

 Modelos;

 Descrição do modelo resultante.

 Avaliar o modelo.  Modelo de avaliação;

Parâmetros revisados.

Avaliação

 Avaliar os resultados;

 Avaliação dos resultados de MD no que diz respeito aos critérios de sucesso empresarial;

 Modelos aprovados.

 Processo de revisão  Revisão do processo.

 Determinar os próximos passos.

 Lista de ações possíveis;

Decisão.

Utilização, Aplicação ou Desenvolvimento

 Implantação do plano;  Plano de implantação.

 Plano de manutenção e monitoramento;

 Plano de manutenção e monitoramento;

 Produzir o relatório final;  Relatório final;

 Apresentação final.

 Projeto de revisão.  Documentação da experiência. Fonte: Adaptado de CHAPMAN et al. (2000)

No documento Download/Open (páginas 75-80)