• Nenhum resultado encontrado

Knowledge Discovery and Data Mining Extensão-UFMS-DCT

N/A
N/A
Protected

Academic year: 2021

Share "Knowledge Discovery and Data Mining Extensão-UFMS-DCT"

Copied!
38
0
0
Mostrar mais ( páginas)

Texto

(1)

Knowledge Discovery

and

Data Mining

(2)

Introdução ao Processo de KDD

Daniel L. Silver (dsilver@mgmt.dal.ca)

Ph.D. Ciênc. Computação/Aprendizado de Máquina Dalhousie University

Fundador da CogNova Technologies (London, 1993) MBA6522 -1996

Esta introdução se baseou quase que integralmente nas transparências produzidas por:

(3)

“We are drowning(afogando) in

information, but starving (famintos) for

knowledge.”

John Naisbett

Introduzir os principais aspectos do Processo de Descoberta de Conhecimento

e teoria e aplicações de algumas tecnologias de Data Mining

(4)

Sumário

1. Introdução - Aula 1

(5)

Introdução

Um campo que está emergindo rapidamente...

• Também denominado:

Data dredging(“dragar”), Data harvesting(“colheita”), Data archeology(“arqueologia”)

• Um campo multidisciplinar:

– Bancos de Dados e data warehousing

– Dados e métodos visualização de modelos – Estatística e aprendizado de máquina

(6)

Introdução

Porque está se distinguindo agora?

• Abundância de dados do comércio e da industria

• Competividade - Administração do Conhecimento

• Computadores poderosos e baratos

• Forte fundamentação teórico/matemático

– aprendizado de máquina & inferência lógica

– estatística e sistemas dinâmicos

(7)

Introdução

O que é KDD?

Um Processo

• A seleção e processamento de dados para:

– a identificação de padrões novos, precisos e

úteis.

– A modelagem de fenômenos do mundo real.

• Data mining

é o maior componente do processo de

KDD - descoberta automática de padrões e o

desenvolvimento de modelos de previsão e de

explanação(explicação).

(8)

O Processo de KDD

Seleção e Preprocessamento

Data Mining

Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados Consolidados

Introdução

(9)

Introdução

Introdução

KDD em Contexto

KDD em Contexto

C og No va T ec hnologi es 9 The KD D Process The KD D Process Selection a nd Preprocessing Data Mining Interpretation and Evaluation Data Consolidation K now ledge p(x) =0.02 W arehouse Data Sourc es Patterns & M odels Prepared Da ta Consolida ted Data Identificar o Problema ou Oportunidade Medir o Efeito da Ação Agir sobre o conhecimento

“O ciclo

virtuoso”

Conhecimento

Resultados

Etratégia

Problema

(10)

Introdução

Marketing

Database Marketing Data Warehousing KDD & Data Mining

KDD em Contexto

KDD em Contexto

(11)

Áreas de Aplicação e Oportunidades

• Marketing: segmentação, interesse dos clientes, ... • Finanças: apoio a investimentos

• Operações Bançárias & Segurança: aprovação de crédito e de apólice,

• Segurança: bomba, icebergue e detecção de fraudes • Ciência e medicina: descoberta de hipóteses,

previsão, classificação, diagnóstico,

• Produção: modelagem de processo, controle de qualidade, alocação de recursos,

• Engenharia: simulação e analise,

reconhecimento de padrões, processamento de sinal

(12)

O Processo de KDD

Problemas Principais & Abordagens

• Problemas:

– identificação dos dados relevantes – representação dos dados

– busca por padrões ou modelos válidos

• Abordagens:

– dedução top-down por especialista

– visualização interativa dos dados/modelos

– * indução

bottom-up a partir dos dados *

Probabilidade de venda renda idade Data Mining OLAP

(13)

O Processo de KDD

A Arquitetura de um sistema KDD

Interface Gráfica com Usuário

Consolidação dos dados Seleção e Preprocessamento Data

Mining Interpretaçãoe Avaliação

Warehouse Conhecimento

Fontes dos dados

(14)

Consolidação dos Dados &

Preparação

• A qualidade dos resultados está diretamente

relacionada à qualidade dos dados

• 50%-70% dos esforços do processo de KDD

serão gastos na consolidação e preparação dos

dados

• Principal justificativa para um “data warehouse”

cooperativa

(15)

Consolidação dos Dados

Das fontes de dados para os repositórios de

dados consolidados

RDBMS Legacy DBMS Flat Files

Consolidação

de Dados e

Limpeza

Warehouse

Objeto/Relação DBMS Objeto/Relação DBMS Multidimensional Multidimensional DBMS DBMS Bases de Dados Dedutivas

Bases de Dados Dedutivas

Flat

Flat files files

(16)

Consolidação dos Dados

• Determinar lista preliminar de atributos

• Consolidar dados em bases de dados de trabalho

– Fontes Internas e Externas

• Eliminar ou estimar valores que faltam

• Remover outliers (exceções óbvias)

• Determinar probabilidades a priori de categorias e

tratar com volume bias

(17)

Opções de escolha para repositórios

“ warehouse”

Bases de dados OLTP - poucas ferramentas analíticas, lento.

• ORDBMS - o melhor de relação e orientado a objeto: transações SQL + tipos de dados e métodos, classes de objetos, herança.

• Bases de Dados Dedutivas - extensão de RDBMS, insere lógica na base de dados (níveis de abstração).

• MDBMS - “ arrays” multidimensionais de muitas variáveis: rotacionar, selecionar intervalos, drill-down hierarquias. • Flat files - um lugar para começar, compatível com as

ferramentas de data mining atuais.

(18)

O Processo de KDD

Seleção e Preprocessamento

Data Mining

Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados Consolidados

(19)

Seleção e Preprocessamento

• Gerar um conjunto de exemplos

– escolher método de amostragem

– considerar a complexidade amostral – tratar com questões de volume bias

• Reduzir a dimensão dos atributos

– remover atributos redundantes e/ou correlacionados – combinar atributos (somar, multiplicar, diferença)

• Reduzir intervalo de variação dos atributos

– agrupar valores discretos simbólicos

– quantificar valores numéricos contínuos

• OLAP e ferramentas de visualização assumem um

papel importante

(20)

OLAP - Processamento Analítico ON-Line

Este termo refere-se ao tipo de processamento e ferramentas voltados para a análise de dados típica do apoio à decisão, onde os dados são apresentados através de uma

(21)

Seleção e Pre-processamento

• Transformar dados

– extrair correlações e normalizar valores

– mapear dados de series temporais para representação estática

• Codificar dados

– representação deve ser apropriada para a ferramenta de Data Mining que será usada

– continuar a reduzir a dimensão dos atributos, quando possível, sem perda de informação

• Ferramentas OLAP e de visualização e também

software de transformação e de codificação

(22)

O Processo de KDD

Seleção e Preprocessamento

Data Mining

Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados Consolidados

Introdução

(23)

Alguns Métodos de Data Mining

• Exploração/Descoberta Automática

– ex. Descobrir novos segmentos de mercado

– Algoritmos de agrupamento(clustering) probabilísticos e de distancia

• Previsão/Classificação

– ex. previsão de venda dados os fatores atuais

– regressão, redes neurais, algoritmos genéticos

• Explanação/Descrição

– e.g.. Caracterizando clientes pela demografia e história de compra

– árvores de decisão indutiva, sistemas de regras de associação.

x1 x2 f(x) x if age > 35 and income < $35k then ...

(24)

Métodos de Data Mining

Exploração e Descoberta Automática

• Agrupamento(clustering) numérico baseado em

distância

– agrupamento métrico de exemplos(KNN) – visualização gráfica pode ser usada

• Agrupamento bayesiano

– buscar o número de classes que resulta em melhor ajuste de uma distribuição de probabilidade para os dados

– AutoClass (NASA) um dos melhores exemplosx2 x1

(25)

Métodos de Data Mining

Previsão e Classificação

• “Aprender” um modelo que faz previsão

• Classificação de um novo caso/exemplo

• Métodos:

– Redes Neurais Artificiais

– Árvores de decisão indutivas e sistema de regras – Algoritmos Genéticos

– Algoritmos de agrupamento Nearest neighbour – Estatística (paramétrica, e não-paramétrica)

(26)

Métodos de Data Mining

Generalização

• O objetivo da aprendizagem é encontrar boa

generalização

para novos casos.

• Generalização pode ser definida como uma

interpolação matemática ou regressão sobre um

conjunto de pontos de treinamento:

f(x)

(27)

Métodos de Data Mining

Detecção de Exceção/Desvio

• Gerar um modelo da atividade normal

• Desvios do modelo causam estado de alerta

• Métodos:

– Redes Neurais Artificiais

– Árvores de decisão indutiva e sistemas de regras – Métodos estatísticos

(28)

Métodos de Data Mining

Explanação e Descrição

• Aprender uma hipótese generalizada (modelo)

usando os dados selecionados

• Descrição/Interpretação do modelo fornece novos

conhecimentos

• Métodos:

– Árvores de decisão indutiva e sistemas de regras – Sistemas de regras de associação

(29)

O Processo de KDD

Seleção e Preprocessamento

Data Mining

Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados Padrões & Modelos Dados Preparados Dados Consolidados

Introdução

(30)

Interpretação e Avaliação

Avaliação

• Validação estatística e teste de significância • Revisão qualitativa por especialista do domínio

• Fazer estudos pilotos para avaliar a precisão do modelo

Interpretação

• Árvores indutivas e modelos de regras podem ser lidos diretamente

• Resultados de agrupamentos(clustering) podem ser colocados em gráficos e tabelas

• Códigos podem ser gerados automaticamente por alguns sistemas (ANNs, IDTs, Modelos de Regressão)

(31)

Interpretação e Avaliação

Ferramentas de visualização podem ser

muito úteis:

– análise de sensitividade (relacionamento E/S)

– histogramas da distribuição de valores

– gráficos de séries temporais e animação

– requer treino e pratica

Resposta

Velocidade

(32)

Benefícios do KDD

• Máxima utilidade a partir de dados corporativos

– descoberta de novos conhecimentos

– geração de modelos preditivos e exploratórios modelos

• “ feedback” importante para o esforço de “data

warehousing”

-

identificação de dados essenciais e irrelevantes

• Redução de aplicação dev ’t backlog

– desenvolvimento de modelo e Desenvolvimento de software

• Efeito sobre a hierarquia das organizações

– vantagem competitiva, redução de custo, aumenta produtividade, evitar riscos, confiabilidade

(33)

Exigências e Custos do KDD

• Hardware

-

a intensidade computacional exige rapidez e processadores paralelos para grandes projetos

• Software

-

sistema integrado de KDD é composto

componentes dedutiva, indutiva e de visualização todas ligadas ao “data warehouse”.

• Recursos Humanos-

especialista em DB/DC , analistas

para seleção e pré-processamento, competência em

aprendizado de máquina e and estatística, conhecimento da aplicação, administração do projeto

• 70%

do esforço é gasto nas atividades de consolidação, seleção, e pré-processamento dos dados.

(34)

O Estado Atual do KDD(1996)

• Metodologias atrasadas em relação as tecnologias

• Muitos produtos, poucos integrados a sistemas

KDD

• Os custos de Software subiram 600% no último

ano

• Muitos atores(players) sendo envolvidos

– a lever to sell proprietary hardware and software

• Cautela - principais atores ainda a serem

determinados

• Especialistas em KDD têm medo da propaganda

que está sendo gerada

(35)

Principais Tecnologias para KDD

• “Data warehousing” e bases de dados distribuídas

• Computadores Paralelos

• AI e sistemas especialistas

• Aprendizado de máquina e inferência estatística

• Visualização (incluindo VR)

(36)

Questões Atuais de Administração

• Propriedade dos dados e conhecimento

• Proteção para os dados dos clientes

• Responsabilidade de precisão nas

informações

(37)

Uma Lista de Ferramentas Disponíveis

Muitos atores

Approaching market from hardware, bases de dados,

estatística,aprendizado de máquina, educação,

financeiro/marketing, e logo ... Consultores de

administração:

IBM, NCR, SGI, Thinking Machines, Ultragem,

ZDM Scientific, Neuralware, SAS, SPSS,

Information Discovery, American Heuristics, Data

Distilleries, SuperInduction, GTE,

(38)

O Mini-Curso de Data Mining

CONTEÚDO

- Aprendizagem indutiva.

- Aprendizagem supervisionada e não supervisionada. - A teoria da aprendizagem por regras de decisão (paradigma simbólico).

- Apresentação do Software WizRule e de outros, como por exemplo C4.5, aplicado ao banco de dados do

vestibular.

- Apresentação de técnicas de avaliação quantitativa e qualitativa de regras.

- A teoria da aprendizagem por árvores de decisão(paradigma simbólico).

- Apresentação do algoritmo ID.3 e outros da mesma família.

- Apresentação de técnicas de avaliação de árvores de decisão.

- Introdução aos paradigmas conexionista, estatístico,

Referências

Documentos relacionados

O Data Warehouse (DW) e o Data Mart (DMT), são importantes para a organização de um Banco de Dados (BD), como foi visto. Vamos ver a relação do Data Mining (DM)

&gt; 04 noites de hotel em Istambul com café da manhã em apartamento duplo (02 pessoas por apto); &gt; 03 noites de hotel em Kathmandu com café da manhã em apartamento duplo

DATA MINING “KDD é o processo, não trivial, de extração de informações, implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados. armazenados em

a) A remuneração dos empregados com salário fixo será paga em dobro; para os comissionistas puros o cálculo dessa remuneração corresponderá ao pagamento do

9.1 - A não comunicação do evento no prazo de 90 dias, por culpa exclusiva das empresas, implicará para a empresa na obrigação do reembolso à gestora ou ao sindicato

Serão consideradas dispensas ao trabalho, sem prejuízo da remuneração, o atraso ou ausência do empregado quando para acompanhar filho menor de 16 (dezesseis) anos

A mineração de dados, que é uma das etapas do processo KDD, utiliza vastos repositórios de dados (data warehouse - DW) para tentar descobrir se há algum conhecimento

Keywords: Business Intelligence, Knowledge Discovery from Databases, Data Mining, Data Mining Standards, Data Mining Languages, Query-By-Example, Inductive

a) Soluções aquosas de mesma molalidade de I e de IV apresentam praticamente a mesma temperatura de início de solidificação. b) O abaixamento da temperatura de

Análise modal numérica da parte girante da bomba A figura 9 ilustra o modelo para a simulação numérica da parte girante superior da bomba hidráulica (induzido do mo- tor elétrico),

The data mining model used in this study is the Knowledge discovery in Database

Considerando os resultados deste estudo, sugerimos novas investigações acerca do conhecimento dos professores de musculação, já que, como demonstrado, há um

Appraising the outcome and complications of peritoneal dialysis patients in self-care peritoneal dialysis and assisted peritoneal dialysis: A 5-year review of a single Saudi center

Partindo da necessidade de se extrair conhecimento por meio da interpretação de dados, foi estudada a tecnologia de Data Mining. Foram estudadas suas funções,

The existing data mining methodology usually chains self-governing pattern discovery from data. a) KDD (Knowledge Discovery from Data). b) Elementary objectives of KDD are to

Desta forma, torna-se importante salientar a necessidade da reflexão docente acerca da prática de seu trabalho, a fim de abandonar a posição de passivo receptor e promover meios

No modo desativado o roteador transmitirá apenas sinal de conexão apenas via cabo UTP  SSID: insira um nome de sua escolha para a rede WI-FI..  Criptografia: insira uma senha para

Agent-driven knowledge discovery studies problems like multi-agent data mining infrastructure and architecture, multi-agent data mining process modeling and

Key words: Business Intelligence, Knowledge Discovery on Databases, Integration, Data Mining

c) descoberta de conhecimento (knowlegde discovery) e mineração de dados (data mining), para a identificação e extração de informações implícitas previamente descobertas

Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquerforina e ou quaisquer meios (eletrònico ou rnecdnico, incluindo Jotocòpia e gravaào) ou arquivada cm

Portanto, em relação ao quinto objetivo, foi possível através da fundamentação teórica e do estudo de caso, atingi-lo, e, cabe destacar que a metodologia aplicada contribuiu também