3.2 Metodologias Técnicas
3.2.2 CRoss Industry Standard Process for Data Mining
Como referido anteriormente, o DM corresponde a uma fase do processo
deDCBDe a metodologia que melhor se enquadrou neste âmbito foi a meto-
dologia CRISP-DM. Esta divide o processo de DM em seis fases principais.
Estas fases encontram-se representadas na Figura3.2 [53,54,56]:
• Compreensão do negócio: a fase inicial de um projeto deDMconcentra-
se em compreender os objetivos e os requisitos do projeto. Quando tiver especicado o projeto a partir de uma perspetiva de negócios, é
3.2. METODOLOGIAS TÉCNICAS
Figura 3.2: O processo deCRoss Industry Standard Process for Data Mining
(adaptado de [56]).
possível formulá-lo como um problema deDM e desenvolver um plano
de implementação preliminar.
• Estudo dos dados: a fase de compreensão dos dados envolve a recolha e
exploração dos dados. Nesta fase são observados os dados de forma mais pormenorizada e é determinado o nível de abordagem para o problema
deDMformulado. Neste sentido, pode-se optar por remover alguns dos
dados ou adicionar novos dados. Nesta etapa também são identicados problemas de qualidade de dados, procura de padrões nos dados, entre outros.
• Preparação de dados: na fase de preparação de dados são contem-
pladas todas as tarefas envolvidas na criação da fonte de informação estruturada que será usada para a construção dos modelos. Tarefas de preparação de dados são suscetíveis de serem realizadas várias vezes sem uma ordem especíca. Nestas fase são realizadas tarefas como se- leção de atributos, limpeza de dados e transformação. Além disso, é possível adicionar novos atributos calculados tendo por base os existen-
pode ser signicativamente melhorada.
• Modelação: nesta fase é identicado o tipo de modelos de supervisão
que podem ser aplicados ao problema deDM: classicação, associação,
regressão linear, redes neuronais, entre outras. Se o algoritmo requer a transformação de dados, será necessário voltar novamente à fase ante- rior para as implementar. Relativamente à identicação do problema em si, no âmbito deste projeto foi identicado que seria um problema de classicação, uma vez que se pretendia a previsão de variáveis não nu-
méricas como é comprovado na secção6.1. Por regra para este processo
de classicação são utilizadas 4 técnica [57]:
Decision Trees (DT): gera automaticamente regras que são decla- rações condicionais que mostram a lógica usada para construir a árvore;
Naïve Bayes (NB): usa o teorema de Bayes que consiste numa fórmula que calcula a probabilidade de contar a frequência de valores e combinações de valores;
Support Vector Machine (SVM): é uma técnica estatística popular para a realização de modelos linear de classicação binária. General Linear Mode (GLM): é uma técnica poderosa deDMba-
seada em regressão linear e não-linear para a classicação binária e multi-classe.
• Avaliação: nesta fase são avaliados alguns parâmetros, como por exem-
plo se o modelo satisfaz ou não o objetivo de negócio originalmente indicado na fase de Compreensão do negócio. Estas avaliação pode ser realizada recorrendo a medidas estatísticas. Estas dependem das
técnicas de DM utilizada para a construção do modelo.
• Implementação: A implementação consiste na utilização do modelo de
DM em casos semelhantes aos utilizados para a construção do modelo.
A implementação pode envolver scoring (aplicação de modelos em no- vos dados), a extração de detalhes do modelo (por exemplo, as regras
3.2. METODOLOGIAS TÉCNICAS
de uma árvore de decisão), ou a integração de modelos deDM em apli-
cações, infra-estrutura deDW, ou consulta e ferramentas de relatórios.
Após a implementação dos modelos e execução dos mesmos é obtido novo conhecimento útil.
Como referido, a Figura 3.2 ilustra as fases de um projeto de DM. O
uxo do processo mostra que um projeto de DM não termina quando uma
determinada solução é implementada, apresentando, por isso, uma natureza
interativa. Os resultados do DM desencadeiam novas questões de negócios
que, por sua vez, podem ser usadas para desenvolver modelos com maior exatidão e precisão.
Medidas Estatísticas
Como referido ao longo deste projeto são utilizados modelos de classica- ção e no caso dos algoritmos que envolvem tarefas de classicação, verica-se que para uma variável alvo de duas classes é criada uma Matriz de Confusão M. Nesta é possível obter quatro tipos de resultados. Na célula M(1,1) é
obtido o resultado doVerdadeiro Positivo (VP), que corresponde ao número
dos exemplos positivos corretamente classicados. Na célula M(2,1) é re-
presentado o Falso Positivo (FP), que corresponde ao número dos exemplos
positivos classicados como negativos (erro tipo I). Por outro lado, o valor
representado na célula M(2,2) diz respeito ao Verdadeiro Negativo (VN) e
corresponde ao número dos exemplos negativos realmente classicadas como negativas e, nalmente, na célula células M (1,2) é apresentado o resultado doFalso Negativo (FN), que corresponde ao número dos exemplos negativos
classicados como positivos (erro tipo II) [58]. A partir deste valores podem
ser estimadas as seguintes métricas estatísticas:
• Sensibilidade (Sen): corresponde à capacidade de detetar corretamente
a ocorrência do procedimento;
• Especicidade (Esp): corresponde à capacidade de identicar correta-
• Acuidade (Acu): corresponde à percentagem total de relação entre os valores detetados corretamente e os valores reais.
Na Tabela3.1são apresentadas as expressão que caracterizam as medidas
estatísticas descritas anteriormente, assim como, a Matriz de Confusão. Tabela 3.1: Expressões que denem as medidas estatísticas
Resultados
positivos Resultadosnegativos Sen Esp Acu
Valores Positivos VP FN V P V P+F N V N V N+F P V P+V N V P+F P+V N+F N Valores negativos FP VN
É de referir que a Matriz de Confusão é a base do calculo destas métricas. Deste modo, a Matriz de Confusão consiste numa hipótese que oferece uma medida efetiva do modelo de classicação, ao mostrar o número de classi- cações corretas versus as classicações preditivas para cada classe, sobre um conjunto de exemplos.