Knowledge Discovery
and
Data Mining
Introdução ao Processo de KDD
Daniel L. Silver (dsilver@mgmt.dal.ca)
Ph.D. Ciênc. Computação/Aprendizado de Máquina Dalhousie University
Fundador da CogNova Technologies (London, 1993) MBA6522 -1996
Esta introdução se baseou quase que integralmente nas transparências produzidas por:
“We are drowning(afogando) in
information, but starving (famintos) for
knowledge.”
John Naisbett
Introduzir os principais aspectos do Processo de Descoberta de Conhecimento
e teoria e aplicações de algumas tecnologias de Data Mining
Sumário
1. Introdução - Aula 1
Introdução
Um campo que está emergindo rapidamente...
• Também denominado:
Data dredging(“dragar”), Data harvesting(“colheita”), Data archeology(“arqueologia”)
• Um campo multidisciplinar:
– Bancos de Dados e data warehousing
– Dados e métodos visualização de modelos – Estatística e aprendizado de máquina
Introdução
Porque está se distinguindo agora?
• Abundância de dados do comércio e da industria
• Competividade - Administração do Conhecimento
• Computadores poderosos e baratos
• Forte fundamentação teórico/matemático
– aprendizado de máquina & inferência lógica
– estatística e sistemas dinâmicos
Introdução
O que é KDD?
Um Processo
• A seleção e processamento de dados para:
– a identificação de padrões novos, precisos e
úteis.
– A modelagem de fenômenos do mundo real.
• Data mining
é o maior componente do processo de
KDD - descoberta automática de padrões e o
desenvolvimento de modelos de previsão e de
explanação(explicação).
O Processo de KDD
Seleção e PreprocessamentoData Mining
Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados ConsolidadosIntrodução
Introdução
Introdução
KDD em Contexto
KDD em Contexto
C og No va T ec hnologi es 9 The KD D Process The KD D Process Selection a nd Preprocessing Data Mining Interpretation and Evaluation Data Consolidation K now ledge p(x) =0.02 W arehouse Data Sourc es Patterns & M odels Prepared Da ta Consolida ted Data Identificar o Problema ou Oportunidade Medir o Efeito da Ação Agir sobre o conhecimento“O ciclo
virtuoso”
Conhecimento
Resultados
Etratégia
Problema
Introdução
Marketing
Database Marketing Data Warehousing KDD & Data MiningKDD em Contexto
KDD em Contexto
Áreas de Aplicação e Oportunidades
• Marketing: segmentação, interesse dos clientes, ... • Finanças: apoio a investimentos
• Operações Bançárias & Segurança: aprovação de crédito e de apólice,
• Segurança: bomba, icebergue e detecção de fraudes • Ciência e medicina: descoberta de hipóteses,
previsão, classificação, diagnóstico,
• Produção: modelagem de processo, controle de qualidade, alocação de recursos,
• Engenharia: simulação e analise,
reconhecimento de padrões, processamento de sinal
O Processo de KDD
Problemas Principais & Abordagens
• Problemas:
– identificação dos dados relevantes – representação dos dados
– busca por padrões ou modelos válidos
• Abordagens:
– dedução top-down por especialista
– visualização interativa dos dados/modelos
– * indução
bottom-up a partir dos dados *
Probabilidade de venda renda idade Data Mining OLAP
O Processo de KDD
A Arquitetura de um sistema KDD
Interface Gráfica com Usuário
Consolidação dos dados Seleção e Preprocessamento Data
Mining Interpretaçãoe Avaliação
Warehouse Conhecimento
Fontes dos dados
Consolidação dos Dados &
Preparação
• A qualidade dos resultados está diretamente
relacionada à qualidade dos dados
• 50%-70% dos esforços do processo de KDD
serão gastos na consolidação e preparação dos
dados
• Principal justificativa para um “data warehouse”
cooperativa
Consolidação dos Dados
Das fontes de dados para os repositórios de
dados consolidados
RDBMS Legacy DBMS Flat FilesConsolidação
de Dados e
Limpeza
Warehouse
Objeto/Relação DBMS Objeto/Relação DBMS Multidimensional Multidimensional DBMS DBMS Bases de Dados DedutivasBases de Dados Dedutivas
Flat
Flat files files
Consolidação dos Dados
• Determinar lista preliminar de atributos
• Consolidar dados em bases de dados de trabalho
– Fontes Internas e Externas
• Eliminar ou estimar valores que faltam
• Remover outliers (exceções óbvias)
• Determinar probabilidades a priori de categorias e
tratar com volume bias
Opções de escolha para repositórios
“ warehouse”
•
Bases de dados OLTP - poucas ferramentas analíticas, lento.• ORDBMS - o melhor de relação e orientado a objeto: transações SQL + tipos de dados e métodos, classes de objetos, herança.
• Bases de Dados Dedutivas - extensão de RDBMS, insere lógica na base de dados (níveis de abstração).
• MDBMS - “ arrays” multidimensionais de muitas variáveis: rotacionar, selecionar intervalos, drill-down hierarquias. • Flat files - um lugar para começar, compatível com as
ferramentas de data mining atuais.
O Processo de KDD
Seleção e PreprocessamentoData Mining
Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados ConsolidadosSeleção e Preprocessamento
• Gerar um conjunto de exemplos
– escolher método de amostragem
– considerar a complexidade amostral – tratar com questões de volume bias
• Reduzir a dimensão dos atributos
– remover atributos redundantes e/ou correlacionados – combinar atributos (somar, multiplicar, diferença)
• Reduzir intervalo de variação dos atributos
– agrupar valores discretos simbólicos
– quantificar valores numéricos contínuos
• OLAP e ferramentas de visualização assumem um
papel importante
OLAP - Processamento Analítico ON-Line
Este termo refere-se ao tipo de processamento e ferramentas voltados para a análise de dados típica do apoio à decisão, onde os dados são apresentados através de uma
Seleção e Pre-processamento
• Transformar dados
– extrair correlações e normalizar valores
– mapear dados de series temporais para representação estática
• Codificar dados
– representação deve ser apropriada para a ferramenta de Data Mining que será usada
– continuar a reduzir a dimensão dos atributos, quando possível, sem perda de informação
• Ferramentas OLAP e de visualização e também
software de transformação e de codificação
O Processo de KDD
Seleção e PreprocessamentoData Mining
Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados ConsolidadosIntrodução
Alguns Métodos de Data Mining
• Exploração/Descoberta Automática
– ex. Descobrir novos segmentos de mercado
– Algoritmos de agrupamento(clustering) probabilísticos e de distancia
• Previsão/Classificação
– ex. previsão de venda dados os fatores atuais
– regressão, redes neurais, algoritmos genéticos
• Explanação/Descrição
– e.g.. Caracterizando clientes pela demografia e história de compra
– árvores de decisão indutiva, sistemas de regras de associação.
x1 x2 f(x) x if age > 35 and income < $35k then ...
Métodos de Data Mining
Exploração e Descoberta Automática
• Agrupamento(clustering) numérico baseado em
distância
– agrupamento métrico de exemplos(KNN) – visualização gráfica pode ser usada
• Agrupamento bayesiano
– buscar o número de classes que resulta em melhor ajuste de uma distribuição de probabilidade para os dados
– AutoClass (NASA) um dos melhores exemplosx2 x1
Métodos de Data Mining
Previsão e Classificação
• “Aprender” um modelo que faz previsão
• Classificação de um novo caso/exemplo
• Métodos:
– Redes Neurais Artificiais
– Árvores de decisão indutivas e sistema de regras – Algoritmos Genéticos
– Algoritmos de agrupamento Nearest neighbour – Estatística (paramétrica, e não-paramétrica)
Métodos de Data Mining
Generalização
• O objetivo da aprendizagem é encontrar boa
generalização
para novos casos.
• Generalização pode ser definida como uma
interpolação matemática ou regressão sobre um
conjunto de pontos de treinamento:
f(x)
Métodos de Data Mining
Detecção de Exceção/Desvio
• Gerar um modelo da atividade normal
• Desvios do modelo causam estado de alerta
• Métodos:
– Redes Neurais Artificiais
– Árvores de decisão indutiva e sistemas de regras – Métodos estatísticos
Métodos de Data Mining
Explanação e Descrição
• Aprender uma hipótese generalizada (modelo)
usando os dados selecionados
• Descrição/Interpretação do modelo fornece novos
conhecimentos
• Métodos:
– Árvores de decisão indutiva e sistemas de regras – Sistemas de regras de associação
O Processo de KDD
Seleção e PreprocessamentoData Mining
Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados ConsolidadosIntrodução
Interpretação e Avaliação
Avaliação
• Validação estatística e teste de significância • Revisão qualitativa por especialista do domínio
• Fazer estudos pilotos para avaliar a precisão do modelo
Interpretação
• Árvores indutivas e modelos de regras podem ser lidos diretamente
• Resultados de agrupamentos(clustering) podem ser colocados em gráficos e tabelas
• Códigos podem ser gerados automaticamente por alguns sistemas (ANNs, IDTs, Modelos de Regressão)
Interpretação e Avaliação
Ferramentas de visualização podem ser
muito úteis:
– análise de sensitividade (relacionamento E/S)
– histogramas da distribuição de valores
– gráficos de séries temporais e animação
– requer treino e pratica
Resposta
Velocidade
Benefícios do KDD
• Máxima utilidade a partir de dados corporativos
– descoberta de novos conhecimentos
– geração de modelos preditivos e exploratórios modelos
• “ feedback” importante para o esforço de “data
warehousing”
-
identificação de dados essenciais e irrelevantes• Redução de aplicação dev ’t backlog
– desenvolvimento de modelo e Desenvolvimento de software
• Efeito sobre a hierarquia das organizações
– vantagem competitiva, redução de custo, aumenta produtividade, evitar riscos, confiabilidade
Exigências e Custos do KDD
• Hardware
-
a intensidade computacional exige rapidez e processadores paralelos para grandes projetos• Software
-
sistema integrado de KDD é compostocomponentes dedutiva, indutiva e de visualização todas ligadas ao “data warehouse”.
• Recursos Humanos-
especialista em DB/DC , analistaspara seleção e pré-processamento, competência em
aprendizado de máquina e and estatística, conhecimento da aplicação, administração do projeto
• 70%
do esforço é gasto nas atividades de consolidação, seleção, e pré-processamento dos dados.O Estado Atual do KDD(1996)
• Metodologias atrasadas em relação as tecnologias
• Muitos produtos, poucos integrados a sistemas
KDD
• Os custos de Software subiram 600% no último
ano
• Muitos atores(players) sendo envolvidos
– a lever to sell proprietary hardware and software
• Cautela - principais atores ainda a serem
determinados
• Especialistas em KDD têm medo da propaganda
que está sendo gerada
Principais Tecnologias para KDD
• “Data warehousing” e bases de dados distribuídas
• Computadores Paralelos
• AI e sistemas especialistas
• Aprendizado de máquina e inferência estatística
• Visualização (incluindo VR)
Questões Atuais de Administração
• Propriedade dos dados e conhecimento
• Proteção para os dados dos clientes
• Responsabilidade de precisão nas
informações
Uma Lista de Ferramentas Disponíveis
Muitos atores
Approaching market from hardware, bases de dados,
estatística,aprendizado de máquina, educação,
financeiro/marketing, e logo ... Consultores de
administração:
IBM, NCR, SGI, Thinking Machines, Ultragem,
ZDM Scientific, Neuralware, SAS, SPSS,
Information Discovery, American Heuristics, Data
Distilleries, SuperInduction, GTE,
O Mini-Curso de Data Mining
CONTEÚDO
- Aprendizagem indutiva.
- Aprendizagem supervisionada e não supervisionada. - A teoria da aprendizagem por regras de decisão (paradigma simbólico).
- Apresentação do Software WizRule e de outros, como por exemplo C4.5, aplicado ao banco de dados do
vestibular.
- Apresentação de técnicas de avaliação quantitativa e qualitativa de regras.
- A teoria da aprendizagem por árvores de decisão(paradigma simbólico).
- Apresentação do algoritmo ID.3 e outros da mesma família.
- Apresentação de técnicas de avaliação de árvores de decisão.
- Introdução aos paradigmas conexionista, estatístico,