• Nenhum resultado encontrado

Metodologia CRISP-DM. NeuroTech Ltda.

N/A
N/A
Protected

Academic year: 2021

Share "Metodologia CRISP-DM. NeuroTech Ltda."

Copied!
45
0
0

Texto

(1)

NeuroTech Ltda.

www.neurotech.com.br

(2)

Conteúdo

 Metodologias para Mineração de Dados

 A metodologia CRISP-DM

 Exemplo de um Projeto de Mineração de Dados

(3)

Gerência de Projetos

 Metodologias para documentação de processos de KDD

• Enquadrar KDD como projetos complexos

 Projetos

• Início, meio e fim

 Todo Projeto • Inicialização • Planejamento • Execução • Acompanhamento e Controle • Finalização

(4)

Gerência de Projetos

 Áreas do Conhecimento • Riscos • Qualidade • Aquisição • Custos • Tempo • Recursos Humanos • Integração • Escopo • Comunicação

(5)

Metodologias para o Processo KDD

1996 – Fayyad et al.1996 – CRISP-DM1996 – Brachman et al.1997 – Klemettinen et al.1998 – Feldens et al.2003 – DMLC2005 – DMEasy

(6)

1.

Iterativo

2.

Interativo

3.

Organizado em Fases

4.

Processos Extras

5.

Reuso do Conhecimento

6.

Visão de Projeto

7.

Levantamento de Requisitos

8.

Entendimento do Negócio

Características Desejáveis

(7)

Comparações - Metodologias

N= não aborda; M= menciona, mas sem detalhes; A= aborda em detalhes.

Ano Metodol. Iter Inter Fase Proces. Extras Reuso Conhec Visão Projeto Levant. Requis. Entden Negóc 1996 Fayyad A M A N N N N N 1996 CRISP-DM A M A N N A M A 1996 Brachman A M A M N N M M 1997 Klemettin A M A N N N N A 1998 Feldens A M A N N N N N 2003 DMLC A M A N M A M A 2005 DMEasy A A A A M A A A

(8)

Metodologias em Data Mining

Fonte: http://www.kdnuggets.com/polls/

(9)

O que é CRISP-DM?

 Metodologia padrão não proprietária que identifica as diferentes fases na implantação de um projeto de data mining (DMP).

CRISP-DM

http://www.crisp-dm.org/

CRoss Industry Standard Process for Data Mining

(10)

Níveis do CRISP-DM

Phases Generic Tasks Specialized Tasks Process Instances CRISP Process Model Mapping CRISP Process

(11)

Metodologia de Trabalho: CRoss-Industry

Standard Process for DM (CRISP-DM)

Entendimento do Negócio Entendimento dos Dados Preparação dos Dados Modelagem de I.A. Avaliação de Desempenho Implantação Dados

(12)

Abordagem Tradicional para

Mineração de Dados

Data Mining KDD CRISP-DM

Inteligência Artificial (IA) Tecnologia=BD+Estat.+IA+ADS

(13)

Processo de Descoberta do Conhecimento [Fayyad 96] Preprocessing Data Sources Target Data Transformed Data Preprocessed Data Patterns / Models Knowledge Selection Interpretation/ Evaluation Transformation Data Mining 2. Business Understanding 3. Data Understanding 4.2 Clean Data 4.1 Select Data 4.3 Construct Data 5. Modeling 6. Evaluation 7. Deployment

(14)

Exemplo de Projeto Mineração de Dados Utilizando

CRISP-DM: Objetivo do Projeto

 Descrever todo o processo de desenvolvimento da solução do projeto: Mineração de dados para a diagnóstico de falhas.

 Apresentar a metodologia de desenvolvimento de soluções padrão em mineração de dados chamada CRISP-DM

(15)
(16)

Fase 1 no projeto de DM

Business Understanding:

• Definição dos objetivos do negócio

- Detectar as falhas do sistema, a partir do histórico das ocorrências e da condição dos alarmes de sinalização de problemas nos sistemas.

- Extrair conhecimento dos dados através de regras para o melhor entendimento das circunstâncias que resultam em falhas.

• Descrever os critérios de resultados para que o projeto seja considerado um sucesso, assim como a forma de medir.

- Auxílio para a definição de políticas de manutenção

- Uniformidade no padrão de qualidade do serviço (livre de fadiga, stress, desgaste emocional)

(17)

Fase 1 no projeto de DM (cont)

Business Understanding:

• Avaliar situação atual do cliente.

- Recursos Disponíveis

- Dados em um data warehouse (ORACLE)

- Suposições e Restrições

- Alarme Crítico = Falha

(18)

Fase 1 no projeto de DM (cont)

Business Understanding:

• Determinar os riscos

- Demanda do especialista do domínio

- Qualidade dos dados

- Recebimento dos dados

• Determinar tarefas de mineração de dados

- Classificação de padrões

- Regras de classificação

(19)

Fase 1 no projeto de DM (cont)

Business Understanding:

• Fazer Plano do Projeto

- Etapa 1:

- Levantamento da situação atual do problema de falhas

- Etapa 2:

- Análise preliminar dos dados sobre as ocorrências de falhas de equipamentos

- Etapa 3:

- Preparação dos dados

- Modelagem dos dados

- Extração de Regras do conhecimento adquirido

- Etapa 4:

- Interação com especialista do domínio

- Homologação dos resultados

- Etapa 5:

(20)

Business understanding

Data

understanding

(21)

Fase 2 no projeto de DM

Data Understanding

• Coletar dados iniciais

- Dados referentes aos alarmes na rede de telecomunicações SDH - Alcatel foram disponibilizados em arquivos textos mensais nos 14 meses de dez/2001 a jan/2003.

- Junção dos dados em uma única tabela. (ACCESS).

(22)

Fase 2 no projeto de DM

Data Understanding

• Descrever os dados

- 491.127 alarmes

- 75934 (15,46%) são alarmes críticos (falhas).

Campo NOME DO CAMPO 1 EQUIPAMENTO 2 ALARME 3 MODULO 4 LOCAL 5 NOME LOCAL 6 GERENCIA 7 SEVERIDA 8 DATAALARME 9 DATANORM 10 ROTA

(23)

Fase 2 no projeto de DM

Tipo de alarmes Freqüência Percentual CRITICAL 75934 15,5 % MAJOR 234780 47,8 % MINOR 147797 30,1 % WARNING 32616 6,6 % Data Understanding  Descrever os dados • Tabelas • Gráficos

(24)

Fase 2 no projeto de DM

- Data Understanding

Verificar qualidade dos dados

Boa qualidade dos dados

0% de missings

(25)

Business understanding Data understanding Data preparation

(26)

Fase 3 no projeto de DM

Data Preparation:

• Preparar os dados para importação no software de DM.

• Derivar campos calculados (se necessário)

• Integrar bases de dados externas (IBGE, Correios, etc.)

• Limpeza dos dados: outliers e missings.

(27)

Fase 3 no projeto de DM

Data preparation:

• Campos Calculados:

- QTD WARNING => Quantidade de alarmes warnings desde o último alarme crítico.

- QTD MAJOR => Quantidade de alarmes major desde o último alarme crítico

- QTD MINOR => Quantidade de alarmes minor desde o último alarme crítico

(28)

Fase 3 no projeto de DM

Data preparation:

• Pré-Processamento:

• 5 (cinco) atributos relevantes

• 3 natureza numérica

- Normalização [0...1]

• 2 natureza categórica

- Transformação 1 de n

• Variável de saída

- ‘WARNING’ para ‘Não-FALHA’ - ‘MINOR’ para ‘Não-FALHA’ - ‘MAJOR’ para ‘Não-FALHA’ - ‘CRITICO’ para ‘FALHA’

(29)

Business understanding Data understanding Data preparation Modelling

(30)

Fase 4 no projeto de DM

Modeling:

• Selecionar as técnicas de modelagem

- Redes Neurais

- Regras de Classificação

• Catalogar parâmetros utilizados

- 50% para treinamento,

- 25% para validação

- 25% para teste

• Retornar ao Data Preparation

(31)

Fase 4 no projeto de DM

 Modeling: Rede Neural: Arquitetura MLP Algoritmo: Backpropagation Camadas Escondidas: 1 Neurônios Escondidos: 2, 4, 8 e 20 Taxa de Aprendizado: 0,1, 0,01 e 0,001 Número de iterações: 100, 1000 e 10000

Problema: Diagnóstico de Falhas

Número de Entradas: 16 Número de Saídas 2 Padrões de Treinamento 50% Padrões de Validação 25% Padrões de Teste 25% Regras de Classificação:

 Regras com abrangência maior que 5%

(32)

Business understanding Data understanding Data preparation Modelling Evaluation

(33)

Fase 5 no projeto de DM

Evaluation – Rede Neural:

Falha Alarme Total Clas.Falha 18011 3563 21574

Clas.Alarme 972 100235 101207 Total 18983 103798 122781

Erro I = 3.4% (Classificar como falha quando na verdade é

apenas alarme).

Erro II = 5.1% (Classificar como alarme quando na verdade

é uma falha).

(34)

Fase 5 no projeto de DM

Evaluation - Regras de Classificação:

Regras que caracterizam situações de falhas:

SE LOCAL = "XINGO MARGEM ESQUERD"

ENTÃO FALHA EM 41.45%, REPRESENTANDO 6.9% DA MASSA.

SE LOCAL = "ANGELIM (REPETIDORA)"

ENTÃO FALHA EM 38.35%, REPRESENTANDO 8.2% DA MASSA.

SE QTDWARNI = "DE 0 ATÉ 1"

(35)

Fase 5 no projeto de DM

Evaluation - Regras de Classificação:

Regras que caracterizam situações de alarmes:

SE LOCAL = "RECIFE - COS"

ENTÃO FALHA EM 00.95%, REPRESENTANDO 25.54% DA MASSA.

SE LOCAL = "USINA DE SOBRADINHO"

ENTÃO FALHA EM 01.58%, REPRESENTANDO 11.69% DA MASSA.

SE QTDMINOR = "DE 1 ATÉ 2"

(36)

Business understanding Data understanding Data preparation Modelling Evaluation Deployment

(37)

Fase 6 no projeto de DM

 Entrega do produto do projeto de mineração de dados.

• Software em produção (on-line)

• Software analítico (off-line)

• Relatório com um resumo das etapas do processo CRISP-DM.

• Treinamento e Apresentação para o Usuário

(38)

Resumo das Ferramentas Utilizadas

Nome Função Fabricante Fase

Excel Planilha Microsoft desempenhoAvaliação de

ORACLE DISCOVERY Data Warehouse ORACLE Entendendo os dados

Access Banco de Dados Microsoft Entendendo os dados

Word Editor de texto Microsoft Entendendo o negócio

Oxedit Manipulação de grandes arquivos texto. OX Entendendo os dados

NeuralScorer Mineração de Dados +Manipulação de dados NeuroTech Modelagem + Preparação dos dados

(39)

Resumo das Potenciais Ferramentas

 Business Understanding

• Ferramentas para Gerenciamento de Processos

- Microsoft Visio - Popkin • Editores de Texto - Microsoft Word - Tex - Acrobat Writer

• Ferramentas para Planejamento de projetos

- Project

(40)

Resumo das Potenciais Ferramentas

 Data Understanding e Data Preparation

• Banco de Dados - SQL Server - Oracle • Ferramentas de estatística - SPSS - STATISTICA - SAS - MINITAB • Planilhas Eletrônicas - Excel

(41)

Resumo das Potenciais Ferramentas

 Modeling e Evaluation

• Ferramentas Estatísticas

- SPSS, R-PROJECT, SAS, MINITAB, etc.

• Ferramentas de Inteligência Artificial

- Weka

- Tanagra

- Clementine (SPSS)

- Intelligent Miner (IBM)

- Enterprise Miner (SAS)

- Matlab

• Planilhas Eletrônicas

(42)

Resumo das Potenciais Ferramentas

 Deployment

• Ferramentas para Gerenciamento de Processos

- Microsoft Visio - Popkin • Editores de Texto - Microsoft Word - Tex - Acrobat Writer

• Desenvolvimento de Software Específico

(43)

Conclusões

 Necessidade de uma ferramenta de mineração de

dados completa.

 Apresentação metodologia CRISP-DM em um problema prático de mineração de dados.

• Formalização

• Replicação

 Bom poder de classificação da rede neural (poderia

ser colocado em produção)

 Regras extraem conhecimento para tomada de

(44)

Referências Bibliográficas

Han, J., Kamber M. (2006) Data Mining: Concepts and techniques.

Morgan Kaufman Publishers, San Francisco, CA.

Witten, I., Frank, E. (2005) Data Mining: Pratical Machine Learning

Tools and Techniques with Java Implementations. San Diego, California: Academic Press.

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data

mining to knowledge discovery: An overview : in Fayyad,

Piatetsky-Shapiro, Smyth and Uthurusamy, 1996.

REINARTZ, T.; WIRTH, R.; CLINTON, J.; KHABAZA, T.; HEJLESEN,

J.; CHAPMAN, P.; KERBER, R. The current CRISP-DM process model

for data mining. Berlin: Technical University., 1998.

(45)

Tarefas de Data Mining

 Descrição e Sumarização dos Dados

• Tabelas, Gráficos, Consultas OLAP

 Segmentação ou Agrupamento

• Clustering, Redes Neurais, Visualização

 Regressão

• Redes Neurais, Análise de Regressão, Séries Temporais,etc

 Classificação

• Análise Discriminante, Redes Neurais, Árvore de Decisão, etc

 Extração de regras ou Descrição

• Regras de Classificação, Regras de Associação

 Análise de Dependência

• Análise de Correlação

Referências

Documentos relacionados

a) Soluções aquosas de mesma molalidade de I e de IV apresentam praticamente a mesma temperatura de início de solidificação. b) O abaixamento da temperatura de

O disco lamelar POLIFAN Z SG POWER convence graças a uma performance de remoção de material agressiva e uma excelente vida útil, que permitem atingir a máxima rentabilidade.. É o

Utilizado para conectar o cabo de fibra óptica padrão Olympus nas Fontes de Luz Sigmed..

Segundo a Agência Internacional de Energia (2020), a oferta global de petróleo caiu 2,4 MMbbl/d em junho, para o menor volume dos últimos nove anos: 86,9 MMbbl/ d.. A

Para o autor, o conceito de carreira deve ser focado na experiência subjetiva de carreira do indivíduo, na forma como esse constrói sua carreira, nas relações que ele estabelece

O produto está pronto para uso, não deve ser diluído pois as propriedades não são garantidas.. Mantém o circuito de refrigeração em condições perfeitas por mais tempo que os

Se os critérios de Reabilitação Urbana, constantes no Regulamento da Zona Antiga do Fundão dentro do perímetro deste Regulamento e no Regulamento Municipal de Urbanização e

> 04 noites de hotel em Istambul com café da manhã em apartamento duplo (02 pessoas por apto); > 03 noites de hotel em Kathmandu com café da manhã em apartamento duplo