Knowledge Discovery and Data Mining Extensão-UFMS-DCT

(1)

Knowledge Discovery

and

Data Mining

(2)

Introdução ao Processo de KDD

Daniel L. Silver ([email protected])

Ph.D. Ciênc. Computação/Aprendizado de Máquina Dalhousie University

Fundador da CogNova Technologies (London, 1993) MBA6522 -1996

Esta introdução se baseou quase que integralmente nas transparências produzidas por:

(3)

“We are drowning(afogando) in

information, but starving (famintos) for

knowledge.”

John Naisbett

Introduzir os principais aspectos do Processo de Descoberta de Conhecimento

e teoria e aplicações de algumas tecnologias de Data Mining

(4)

Sumário

1. Introdução - Aula 1

(5)

Introdução

Um campo que está emergindo rapidamente...

• Também denominado:

Data dredging(“dragar”), Data harvesting(“colheita”), Data archeology(“arqueologia”)

• Um campo multidisciplinar:

– Bancos de Dados e data warehousing

– Dados e métodos visualização de modelos – Estatística e aprendizado de máquina

(6)

Introdução

Porque está se distinguindo agora?

• Abundância de dados do comércio e da industria

• Competividade - Administração do Conhecimento

• Computadores poderosos e baratos

• Forte fundamentação teórico/matemático

– aprendizado de máquina & inferência lógica

– estatística e sistemas dinâmicos

(7)

Introdução

O que é KDD?

Um Processo

• A seleção e processamento de dados para:

– a identificação de padrões novos, precisos e

úteis.

– A modelagem de fenômenos do mundo real.

• Data mining

é o maior componente do processo de

KDD - descoberta automática de padrões e o

desenvolvimento de modelos de previsão e de

explanação(explicação).

(8)

O Processo de KDD

Seleção e Preprocessamento

Data Mining

Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados Consolidados

Introdução

(9)

Introdução

KDD em Contexto

C og No va T ec hnologi es 9 The KD D Process The KD D Process Selection a nd Preprocessing Data Mining Interpretation and Evaluation Data Consolidation K now ledge p(x) =0.02 W arehouse Data Sourc es Patterns & M odels Prepared Da ta Consolida ted Data Identificar o Problema ou Oportunidade Medir o Efeito da Ação Agir sobre o conhecimento

“O ciclo

virtuoso”

Conhecimento

Resultados

Etratégia

Problema

(10)

Introdução

Marketing

Database Marketing Data Warehousing KDD & Data Mining

KDD em Contexto

(11)

Áreas de Aplicação e Oportunidades

• Marketing: segmentação, interesse dos clientes, ... • Finanças: apoio a investimentos

• Operações Bançárias & Segurança: aprovação de crédito e de apólice,

• Segurança: bomba, icebergue e detecção de fraudes • Ciência e medicina: descoberta de hipóteses,

previsão, classificação, diagnóstico,

• Produção: modelagem de processo, controle de qualidade, alocação de recursos,

• Engenharia: simulação e analise,

reconhecimento de padrões, processamento de sinal

(12)

O Processo de KDD

Problemas Principais & Abordagens

• Problemas:

– identificação dos dados relevantes – representação dos dados

– busca por padrões ou modelos válidos

• Abordagens:

– dedução top-down por especialista

– visualização interativa dos dados/modelos

– * indução

bottom-up a partir dos dados *

Probabilidade de venda renda idade Data Mining OLAP

(13)

O Processo de KDD

A Arquitetura de um sistema KDD

Interface Gráfica com Usuário

Consolidação dos dados Seleção e Preprocessamento Data

Mining Interpretaçãoe Avaliação

Warehouse _Conhecimento

Fontes dos dados

(14)

Consolidação dos Dados &

Preparação

• A qualidade dos resultados está diretamente

relacionada à qualidade dos dados

• 50%-70% dos esforços do processo de KDD

serão gastos na consolidação e preparação dos

dados

• Principal justificativa para um “data warehouse”

cooperativa

(15)

Consolidação dos Dados

Das fontes de dados para os repositórios de

dados consolidados

RDBMS Legacy DBMS Flat Files

Consolidação

de Dados e

Limpeza

Warehouse

Objeto/Relação DBMS Objeto/Relação DBMS Multidimensional Multidimensional DBMS DBMS Bases de Dados Dedutivas

Bases de Dados Dedutivas

Flat

Flat files files

(16)

Consolidação dos Dados

• Determinar lista preliminar de atributos

• Consolidar dados em bases de dados de trabalho

– Fontes Internas e Externas

• Eliminar ou estimar valores que faltam

• Remover outliers (exceções óbvias)

• Determinar probabilidades a priori de categorias e

tratar com volume bias

(17)

Opções de escolha para repositórios

“ warehouse”

•

Bases de dados OLTP - poucas ferramentas analíticas, lento.

• ORDBMS - o melhor de relação e orientado a objeto: transações SQL + tipos de dados e métodos, classes de objetos, herança.

• Bases de Dados Dedutivas - extensão de RDBMS, insere lógica na base de dados (níveis de abstração).

• MDBMS - “ arrays” multidimensionais de muitas variáveis: rotacionar, selecionar intervalos, drill-down hierarquias. • Flat files - um lugar para começar, compatível com as

ferramentas de data mining atuais.

(18)

O Processo de KDD

Data Mining

(19)

Seleção e Preprocessamento

• Gerar um conjunto de exemplos

– escolher método de amostragem

– considerar a complexidade amostral – tratar com questões de volume bias

• Reduzir a dimensão dos atributos

– remover atributos redundantes e/ou correlacionados – combinar atributos (somar, multiplicar, diferença)

• Reduzir intervalo de variação dos atributos

– agrupar valores discretos simbólicos

– quantificar valores numéricos contínuos

• OLAP e ferramentas de visualização assumem um

papel importante

(20)

OLAP - Processamento Analítico ON-Line

Este termo refere-se ao tipo de processamento e ferramentas voltados para a análise de dados típica do apoio à decisão, onde os dados são apresentados através de uma

(21)

Seleção e Pre-processamento

• Transformar dados

– extrair correlações e normalizar valores

– mapear dados de series temporais para representação estática

• Codificar dados

– representação deve ser apropriada para a ferramenta de Data Mining que será usada

– continuar a reduzir a dimensão dos atributos, quando possível, sem perda de informação

• Ferramentas OLAP e de visualização e também

software de transformação e de codificação

(22)

O Processo de KDD

Data Mining

Introdução

(23)

Alguns Métodos de Data Mining

• Exploração/Descoberta Automática

– ex. Descobrir novos segmentos de mercado

– Algoritmos de agrupamento(clustering) probabilísticos e de distancia

• Previsão/Classificação

– ex. previsão de venda dados os fatores atuais

– regressão, redes neurais, algoritmos genéticos

• Explanação/Descrição

– e.g.. Caracterizando clientes pela demografia e história de compra

– árvores de decisão indutiva, sistemas de regras de associação.

x1 x2 f(x) x if age > 35 and income < $35k then ...

(24)

Métodos de Data Mining

Exploração e Descoberta Automática

• Agrupamento(clustering) numérico baseado em

distância

– agrupamento métrico de exemplos(KNN) – visualização gráfica pode ser usada

• Agrupamento bayesiano

– buscar o número de classes que resulta em melhor ajuste de uma distribuição de probabilidade para os dados

– AutoClass (NASA) um dos melhores exemplosx2 x1

(25)

Métodos de Data Mining

Previsão e Classificação

• “Aprender” um modelo que faz previsão

• Classificação de um novo caso/exemplo

• Métodos:

– Redes Neurais Artificiais

– Árvores de decisão indutivas e sistema de regras – Algoritmos Genéticos

– Algoritmos de agrupamento Nearest neighbour – Estatística (paramétrica, e não-paramétrica)

(26)

Métodos de Data Mining

Generalização

• O objetivo da aprendizagem é encontrar boa

generalização

para novos casos.

• Generalização pode ser definida como uma

interpolação matemática ou regressão sobre um

conjunto de pontos de treinamento:

f(x)

(27)

Métodos de Data Mining

Detecção de Exceção/Desvio

• Gerar um modelo da atividade normal

• Desvios do modelo causam estado de alerta

• Métodos:

– Redes Neurais Artificiais

– Árvores de decisão indutiva e sistemas de regras – Métodos estatísticos

(28)

Métodos de Data Mining

Explanação e Descrição

• Aprender uma hipótese generalizada (modelo)

usando os dados selecionados

• Descrição/Interpretação do modelo fornece novos

conhecimentos

• Métodos:

– Árvores de decisão indutiva e sistemas de regras – Sistemas de regras de associação

(29)

O Processo de KDD

Data Mining

Introdução

(30)

Interpretação e Avaliação

Avaliação

• Validação estatística e teste de significância • Revisão qualitativa por especialista do domínio

• Fazer estudos pilotos para avaliar a precisão do modelo

Interpretação

• Árvores indutivas e modelos de regras podem ser lidos diretamente

• Resultados de agrupamentos(clustering) podem ser colocados em gráficos e tabelas

• Códigos podem ser gerados automaticamente por alguns sistemas (ANNs, IDTs, Modelos de Regressão)

(31)

Interpretação e Avaliação

Ferramentas de visualização podem ser

muito úteis:

– análise de sensitividade (relacionamento E/S)

– histogramas da distribuição de valores

– gráficos de séries temporais e animação

– requer treino e pratica

Resposta

Velocidade

(32)

Benefícios do KDD

• Máxima utilidade a partir de dados corporativos

– descoberta de novos conhecimentos

– geração de modelos preditivos e exploratórios modelos

• “ feedback” importante para o esforço de “data

warehousing”

-

identificação de dados essenciais e irrelevantes

• Redução de aplicação dev ’t backlog

– desenvolvimento de modelo e Desenvolvimento de software

• Efeito sobre a hierarquia das organizações

– vantagem competitiva, redução de custo, aumenta produtividade, evitar riscos, confiabilidade

(33)

Exigências e Custos do KDD

• Hardware

-

a intensidade computacional exige rapidez e processadores paralelos para grandes projetos

• Software

-

sistema integrado de KDD é composto

componentes dedutiva, indutiva e de visualização todas ligadas ao “data warehouse”.

• Recursos Humanos-

especialista em DB/DC , analistas

para seleção e pré-processamento, competência em

aprendizado de máquina e and estatística, conhecimento da aplicação, administração do projeto

• 70%

do esforço é gasto nas atividades de consolidação, seleção, e pré-processamento dos dados.

(34)

O Estado Atual do KDD(1996)

• Metodologias atrasadas em relação as tecnologias

• Muitos produtos, poucos integrados a sistemas

KDD

• Os custos de Software subiram 600% no último

ano

• Muitos atores(players) sendo envolvidos

– a lever to sell proprietary hardware and software

• Cautela - principais atores ainda a serem

determinados

• Especialistas em KDD têm medo da propaganda

que está sendo gerada

(35)

Principais Tecnologias para KDD

• “Data warehousing” e bases de dados distribuídas

• Computadores Paralelos

• AI e sistemas especialistas

• Aprendizado de máquina e inferência estatística

• Visualização (incluindo VR)

(36)

Questões Atuais de Administração

• Propriedade dos dados e conhecimento

• Proteção para os dados dos clientes

• Responsabilidade de precisão nas

informações

(37)

Uma Lista de Ferramentas Disponíveis

Muitos atores

Approaching market from hardware, bases de dados,

estatística,aprendizado de máquina, educação,

financeiro/marketing, e logo ... Consultores de

administração:

IBM, NCR, SGI, Thinking Machines, Ultragem,

ZDM Scientific, Neuralware, SAS, SPSS,

Information Discovery, American Heuristics, Data

Distilleries, SuperInduction, GTE,

(38)

O Mini-Curso de Data Mining

_CONTEÚDO

- Aprendizagem indutiva.

- Aprendizagem supervisionada e não supervisionada. - A teoria da aprendizagem por regras de decisão (paradigma simbólico).

- Apresentação do Software WizRule e de outros, como por exemplo C4.5, aplicado ao banco de dados do

vestibular.

- Apresentação de técnicas de avaliação quantitativa e qualitativa de regras.

- A teoria da aprendizagem por árvores de decisão(paradigma simbólico).

- Apresentação do algoritmo ID.3 e outros da mesma família.

- Apresentação de técnicas de avaliação de árvores de decisão.

- Introdução aos paradigmas conexionista, estatístico,