Na tentativa de propor uma metodologia capaz de fornecer orientações
quanto ao planejamento, aplicação e avaliação de uma atividade de Mineração
de Dados, diversos autores começaram a construir seus modelos. No entanto,
poucos modelos genéricos surgiram. Um modelo genérico pode ser definido
como uma metodologia para Mineração de Dados cuja aplicação possa ser
adaptada para as mais diversas áreas dos negócios.
O fato é que, não existe uma abordagem única que resolva todos os
problemas da Mineração de Dados. Diferentes métodos atendem diferentes
propósitos e cada método oferece suas vantagens e suas desvantagens, sendo
a escolha dependente do problema que se deseja enfrentar e também do que
se espera obter como resultado após a mineração (DIAS, 2001).
É possível entender os projetos de Mineração de Dados como projetos
que possuem características bastante específicas (DIAS, 2001) e que reúnem
diversas disciplinas, envolvendo áreas de conhecimento muitas vezes pouco
exploradas em conjunto. Fica evidente que uma abordagem direcionada
auxilia, não somente nas questões ligadas à documentação do projeto, mas
também serve como um roteiro para futuros projetos de natureza similar.
Mesmo propondo a definição de abordagens específicas para cada
caso, nada impede que estas se baseiem em metodologias de mineração já
consagradas. No âmbito da Mineração de Dados, uma tentativa de metodologia
que busca atender às particularidades causadas pela multidisciplinaridade
Industry Standard Process for Data Mining um modelo de processo proposto especificamente para a Mineração de Dados (CHAPMAN et al., 2000).
Uma metodologia que poderia fazer frente à CRISP-DM seria a SEMMA,
acrônimo para Sample, Explore, Modify, Model and Assess ou em português
Amostra, Exploração, Modificação, Modelagem e Avaliação. Trata-se de um
modelo com passos sequenciais para as atividades de Mineração de Dados. A
metodologia foi desenvolvida pela SAS Institute Inc5 uma das maiores
companhias da áreas de Bussiness Inteligence. Ainda assim, conforme mostra
a Figura 2.2, pesquisas apontam que a utilização do SEMMA chegou a ser
cinco vezes menor do que o CRISP-DM em 2014 (KDNUGGETS, 2014).
Figura 2.2 - Comparativo da Utilização de Metodologias de MD
Fonte: Adaptado de KDNUGGETS.com (2014)
Tendo em vista sua ampla utilização somada ao fato de se tratar de uma
metodologia desenvolvida para atender as necessidades dos mais diversos
casos possíveis para um projeto de Mineração de Dados, a apresentação de
5
algumas etapas propostas pela CRISP-DM é válida. Por se tratar de um
processo relativamente bem definido, diversas orientações sobre cada etapa
são fornecidas, conforme resumidas a seguir (CHAPMAN et al., 2000):
Compreensão do negócio - Esta fase inicial foca na compreensão dos
objetivos do projeto e dos requerimentos necessários, do ponto de vista
do negócio. Só então este conhecimento será utilizado para definição de
um problema dentro da perspectiva da Mineração de Dados e de uma
estratégia preliminar para alcançar os objetivos.
Compreensão dos dados - A etapa de compreensão dos dados
começa com uma coleta de dados inicial e tem sua continuidade nas
atividades que buscam a familiarização com os dados, a identificação de
possíveis problemas na qualidade dos dados, a elaboração de palpites
iniciais acerca dos dados e a detecção de conjuntos interessantes para
formar hipóteses sobre informações ocultas.
Preparação dos dados - A fase de preparação dos dados abrange
todas as atividades necessárias para a construção do conjunto de dados
final, isto é, o conjunto de dados que será submetido às ferramentas de
modelagem. As tarefas de preparação de dados costumam ser repetidas
quantas vezes forem necessárias e não possuem uma ordem precisa
para ocorrerem. Alguns modelos podem exigir formatos específicos dos
dados. Por esta razão, o retorno à etapa de preparação dos dados é
comum quando se está na etapa seguinte de modelagem. Estas tarefas
incluem a seleção de tabelas, registros e atributos assim como a limpeza
Modelagem - Nesta importante etapa várias técnicas para modelagem
são selecionadas e aplicadas sobre os dados que foram selecionados e
preparados no decorrer das etapas anteriores. Os parâmetros inerentes
ao modelo proposto são calibrados ao longo desta etapa, tendo em vista
a otimização dos valores obtidos como resultado da aplicação do
mesmo. Existem várias técnicas para o mesmo problema de Mineração
de Dados e algumas técnicas possuem requerimentos específicos
quanto ao formato dos dados. Por esta razão, como já foi dito
anteriormente, um eventual retorno para a etapa de preparação dos
dados costuma ser necessário durante o processo de modelagem.
Avaliação - Esta etapa ocorre após a aplicação de pelo menos um
modelo que aparente resultar em alto valor do ponto de vista da análise
da informação. Antes de proceder para o desdobramento final do
modelo é importante avaliar de forma mais rigorosa o modelo escolhido
e revisar os passos executados para construir o modelo para certificar-
se de que ele alcança adequadamente os objetivos do negócio. Apesar
de seus objetivos lembrarem os objetivos da etapa anterior, na qual os
modelos são propostos e otimizados, a etapa de avaliação é
extremamente importante, pois com ela é possível determinar se existe
algum problema relevante do negócio que não tenha sido atendido de
forma satisfatória pelo modelo proposto. Ao final desta etapa será
possível decidir acerca da utilização ou não dos resultados obtidos com
a aplicação do modelo proposto. Afinal de contas, a aprovação do
modelo implica também na aceitação e consequente utilização das
Desdobramento - Por fim, na etapa de desdobramento constata-se que
a criação do modelo não costuma ser o fim do projeto. Mesmo se o
propósito do modelo for expandir o conhecimento acerca dos dados
estudados, o conhecimento recebido precisará ser organizado e
apresentado de uma forma que seja útil para os interessados.
Dependendo dos requisitos, a fase de desdobramento pode se resumir à
elaboração de um relatório ou ser tão complexa ao ponto de exigir uma
implementação de um sistema de pontuação de dados ou tarefa de
Mineração de Dados possível de repetição. Na maioria dos casos será o
cliente (ou a parte interessada nas informações do negócio) e não o
analista de dados quem irá conduzir a etapa de desdobramento. Mesmo
que o analista seja o responsável, é importante que a parte interessada
compreenda as ações que serão necessárias para por em uso os
modelos criados e colher os resultados desejados.
As fases do CRISP-DM e suas respectivas relações, dependências e
sequência sugerida estão representados na Figura 2.3. É importante lembrar
que a sequência entre as fases não é rígida. Desta forma, pular ou avançar
etapas pode ser necessário. As flechas indicativas de sequência no diagrama
do processo CRISP-DM representado pela Figura 2.3 apontam simplesmente
as dependências mais importantes ou mesmo mais frequentes entre duas
fases distintas. Conforme representado pela flecha circular que envolve todo o
diagrama, o CRISP-DM respeita também a natureza cíclica do processo de
Mineração de Dados, podendo o processo global ser repetido quantas vezes
for necessário ou mesmo empregado mais de uma vez de forma diferente e
Figura 2.3 - Etapas do processo CRISP-DM
Fonte: Adaptado de CRISP-DM (2000)
Mesmo com o projeto descontinuado em junho de 2015, as contribuições
propostas pelo CRISP-DM continuam sendo adotadas, porém cada vez mais
cresce sua utilização como base para o desenvolvimento de abordagens
direcionadas, já que estas costumam atender melhor problemas específicos.