• Nenhum resultado encontrado

Introdução à Descoberta de Conhecimento e Mineração de Dados. Rodrigo Leite Durães.

N/A
N/A
Protected

Academic year: 2021

Share "Introdução à Descoberta de Conhecimento e Mineração de Dados. Rodrigo Leite Durães."

Copied!
37
0
0

Texto

(1)

1

Introdução à Descoberta de

Conhecimento e Mineração de

Dados

(2)

2

(3)

3

Introdução: por que Data Mining ?

O problema da explosão da quantidade de dados

(data explosion)

:

Ferramentas de armazenamento automático e a

maturidade da tecnologia de banco de dados

levaram à criação de imensas massas de dados

em data bases, data warehouses e em outros

repositórios.

(4)

4

Introdução: por que Data Mining ?

Estamos nos afogando em dados, mas

(5)

5

Introdução: por que Data Mining ?

A solução: data warehousing e data mining:

Data warehousing e on-line analytical processing

(OLAP);

Extração de conhecimentos interessantes (regras,

regularidades, padrões, restrições) a partir das

grandes bases de dados.

(6)

6

Introdução: evolução da tecnologia

dos BD

1960s: Coleta de dados, criação de bancos de dados,

IMS e DBMS em rede;

1970s: Modelo de dados relacional, implementação de

DBMS relacionais;

1980s: RDBMS, modelos de dados avançados

(relacional estendido, OO, dedutivo, etc.) e DBMS

orientados à aplicação (espaciais, científicos, para

engenharia, etc.)

1990s—2000s: Data mining and data warehousing,

DBMS multimídia e Web DB.

(7)

7

Introdução: o que é data mining ?

Data mining (descoberta de conhecimento em BD):

Extração de padrões de informação de interesse

(não-trivial, implícita, previamente desconhecida e

potencialmente útil) de grandes DBs.

Conceitos relacionados:

Descoberta de conhecimento em BD (KDD), extração de

conhecimento, análise de padrões em dados,

information harvesting, business intelligence, etc.

O que não é data mining?

Processamento dedutivo de consultas;

Sistemas especialistas e pequenos programas

estatísticos e de aprendizagem de máquina.

(8)

8

Introdução: potenciais aplicações

Análise de DB e suporte à decisão:

– Análise e gerenciamento de mercado:

• Marketing dirigido, gerenciamento de relações com consumidores, análise de cestas de mercado, vendas cruzadas, segmentação de mercado;

– Análise e gerenciamento de risco:

• Previsões, retenção de clientes, controle de qualidade, análise de competitividade;

– Análise e gerenciamento de fraudes.

Outras aplicações:

– Mineração de textos (documentos, emails, news) e Web mining.

(9)

9

Análise e gerenciamento de mercado

• Onde estão as fontes de dados para análise ?

– Transações com cartões de crédito, cartões de fidelidade, cupons de desconto, requisições de clientes e estudos sobre o estilo de vida dos clientes.

• Marketing dirigido:

– Encontra grupos de clientes “modelo” que compartilham as mesma características: interesses, salário, hábitos de consumo, etc.

• Determinação de padrões de compra ao longo do tempo:

– Conversão de conta simples para conjunta, casamento, etc. • Análise de vendas cruzadas:

– Associações e correlações entre vendas de produtos;

(10)

10

Análise e gerenciamento de mercado

• Perfil do consumidor:

data mining pode informar que tipos de consumidores compram quais

produtos (agrupamento ou classificação);

• Identificação dos requisitos dos clientes:

– Identifcação dos melhores produtos para os diferentes clientes;

– Uso de predição para encontrar quais fatores atrairão os consumidores;

• Fornecimento de informação sumarizada:

– Relatórios multidimensionais sumarizados;

– Informações estatísticas sumarizadas (tendência central e variação dos dados)

(11)

11

Análise corporativa e gerenciamento

de risco

• Planejamento financeiro e avaliação de crédito:

– Análise e previsão de fluxo de caixa;

– Análise contingente para avaliação de crédito;

– Análise seccional e temporal (razão financeira, análise de tendência, etc.)

• Planejamento de recursos:

– Sumarização e comparação de recursos e gastos; • Competição:

– Monitoramento de competidores e mercado;

– Agrupamento de clientes em classes e procedimentos de preços baseados em classes;

(12)

12

Detecção e gerenciamento de

fraudes

• Aplicações:

– Amplamente utilizado em serviços de cartões de crédito, telefonia celular, convênios de saúde, etc.

• Abordagem:

– Uso de dados históricos para construir modelos do

comportamento fraudulento e uso de data mining para identificar instâncias similares;

• Exemplos:

– Seguros de automóveis: detectar um grupo de pessoas que forjam acidentes para ganhar o seguro;

– Lavagem de dinheiro: detecção de transações suspeitas de

dinheiro (US Treasury's Financial Crimes Enforcement Network)

– Seguros médicos: detecção de pacientes”profissionais” e grupos de doutores coniventes.

(13)

13

Detecção e gerenciamento de

fraudes

• Detecção de tratamento médico inapropriado:

– A Australian Health Insurance Commission identificou que em muitos casos exames desnecessários eram solicitados

(economia de AD$1milhão /ano). • Detecção de fraudes telefônicas:

– Modelo de chamadas telefônicas: destino da chamada,

duração, horário e dia da semana; análise de padrões para detectar desvios;

– A British Telecom identificou grupos de clientes com chamadas freqüentes dentro do grupo, especialmente em telefones

celulares, e detectou uma fraude milionária. • Venda a varejo:

– Analistas estimam que 38% das perdas no varejo são devidas a empregados desonestos.

(14)

14

Outras aplicações

• Esportes:

– IBM Advanced Scout analisou as estatísticas dos jogos da NBA (cestas, bloqueios, assistências, faltas, etc) para auxiliar os times do New York Knicks e do Miami Heat;

• Astronomia:

– JPL e o Observatório do Monte Palomar descobriram 22 quasars com o auxílio de data mining;

• Ajuda o uso da Internet:

IBM Surf-Aid aplica algoritmos de data mining a logs de acessos Web à páginas de vendas, de forma a descobrir preferências e comportamentos dos clientes e efetuar análise da efetividade do Web marketing, melhorar a organização do site Web, etc.

(15)

15

(16)

16

KDD e Data Mining

Data mining é o coração

do processo KDD

Data Cleaning Data Integration Databases Data Warehouse Task-relevant Data Selection Data Mining Pattern Evaluation

(17)

17

Passos do processo de KDD

Estudo sobre o domínio de aplicação:

Conhecimento relevante a priori e metas da

aplicação;

Criação de um dataset alvo:

Seleção de dados;

Limpeza e pré-processamento dos dados:

Pode corresponder a 60 % do esforço;

Redução e transformação dos dados:

Encontrar atributos relevantes, redução de

(18)

18

Passos do processo de KDD

Escolha da função de data mining:

Sumarização, classificação, regressão,

associação, regressão, agrupamento...

Escolha do algoritmo de mineração:

Busca aos padrões de interesse;

Avaliação dos padrões e apresentação do

conhecimento:

Visualização, transformação, remoção de

redundâncias, etc.

(19)

19

Data Mining e Business Intelligence

Increasing potential to support

business decisions End User

Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA

Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts

Data Sources

(20)

20

Arquitetura de um sistema de DM típico

Data Warehouse

Data cleaning & data integration Filtering

Databases

Database or

data warehouse

server

Data mining engine

Pattern evaluation

Graphical user interface

Knowledge-base

(21)

21

DM: em que dados?

DB relacionais:

Data warehouses;

DB tradicionais;

DB de transações;

DB avançados e repositórios de informação;

DB Orientados a Objeto e DB Objeto-Relacionais;

DB espaciais;

Séries temporais e dados temporais;

DB legados e heterogêneos;

(22)

22

DM: funcionalidades

Descrição de conceitos: caracterização e

discriminação:

Generalização, sumarização, contraste das

características dos dados, e.g., regiões secas e

úmidas;

Associação

(

correlação e causalidade)

Associação multi-dimensional x uni-dimensional;

idade(X,“20..29”)^ganhos(X,“20..29K”)

=> compra (X, “PC”)

(23)

23

DM: funcionalidades

Classificação e predição:

Encontrar modelos (funções) que descrevem e

distinguem classes ou conceitos para futura

predição;

Ex: classificar países conforme o clima ou carros

conforme o consumo;

Apresentação: árvore de decisão, regra de

classificação, rede neural;

Predição: de valor numérico desconhecido ou

perdido;

(24)

24

DM: funcionalidades

Agrupamento (clustering):

O rótulo (nome) da classe é desconhecido:

deve-se agrupar os dados para formar clasdeve-ses;

Ex: agrupamento de casas para encontrar

padrões de distribuição;

O agrupamento é baseado na maximização da

similaridade intra-classe e minimização da

(25)

25

DM: funcionalidades

Análise de desvios (outlier analysis):

Desvio (outlier): objeto que não está em conformidade com o comportamento geral dos dados;

– Pode ser considerado como ruído ou exceção mas é útil no caso da detecção de fraudes, análise de eventos raros, etc.

Análise de tendências e evolução:

– Tendência e desvio: análise de regressão – DM seqüencial, análise de periodicidade; – Análise baseada em similaridade;

Outras análises estatísticas e de reconhecimento de

padrões.

(26)

26

Todos os padrões descobertos são

interessantes ?

Um sistema de DM pode gerar milhares de padrões,

nem todos interessantes;

– Abordagem sugerida: centrada no usuário, baseada em consultas, dirigindo a mineração;

Medidas do grau de interesse:

– Um padrão é interessante se for facilmente compreendido, válido no conjunto de dados novo / de teste com certo grau de certeza, potencialmente útil e anteriormente

desconhecido, ou validando alguma hipótese que se deseja confirmar;

(27)

27

Todos os padrões descobertos são

interessantes ?

Medidas de interesse objetivas e subjetivas:

– Objetivas: baseadas em estatísticas e na estrutura doa padrões, e.g., suporte, confiança;

– Subjetivas: baseadas na crença do usuário nos dados, e.g., novidade, não-expectativa, etc.

(28)

28

Todos os padrões interessantes são

encontrados ?

Completude: encontrar todos os padrões

interessantes:

– O sistema pode encontrar todos os padrões interessantes ?

– Associação x classificação x agrupamento.

Otimização: busca apenas dos padrões

interessantes:

– O sistema pode encontrar somente padrões interessantes ?

– Abordagens:

• Encontrar todos os padrões e descartar (filtrar) os não interessantes;

• Gerar apenas padrões interessantes: otimização de consultas de mineração.

(29)

29

DM: um campo multidisciplinar

Data Mining

Database

Technology

Statistics

Other

Disciplines

Information

Science

Machine

Learning

Visualization

(30)

30

DM: esquemas de classificação

Funcionalidade geral:

DM descritivo;

DM preditivo.

Visões diferentes, classificações diferentes:

Tipos de DB a serem minerados;

Tipos de conhecimentos a serem descobertos;

Técnicas a serem utilizadas;

(31)

31

Uma visão multidimensional da

classificação de DM

• DB a serem minerados:

– DB relacional, transacional, OO, OR, ativo, espacial, série-temporal, textual, multimídia, herdado, heterogêneo, Web... • Conhecimento a ser minerado:

– Caracterização, agrupamento, associação, classificação, discriminação, tendência, desvios...

– Funções integradas e mineração em níveis múltiplos; • Técnicas utilizadas:

– Orientada à DB, data warehouse (OLAP), aprendizagem de máquina (ML), estatística, visualização...

• Aplicações alvo:

(32)

32

OLAP mining: uma integração de data

warehousing e DM

Acoplamento dos sistemas de DM, DBMS e data warehouse;

– Sem acoplamento, fracamente acoplados, semi-acoplados, acoplados;

On-line analytical mining (OLAM):

– Integração das tecnologias de OLAP e DM; • Mineração interativa e conhecimento multi-níveis:

– Necessidade de minerar conhecimento e padrões em diferentes níveis de abstração utilizando drilling / rolling , etc.

• Integração de múltiplas funções de mineração:

– Classificação caracterizada, primeiro agrupamento e depois associação.

(33)

33

Uma arquitetura OLAM

Data Warehouse Meta Data

MDDB

OLAM

Engine

OLAP

Engine

User GUI API

Data Cube API

Database API Data cleaning Data integration Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Layer4 User Interface Filtering&Integration Filtering Databases

(34)

34

Pontos centrais em DM

• Metodologia de mineração e interação com o usuário:

– Mineração de diferentes tipos de conhecimento nas DB; – Mineração interativa em vários níveis de abstração;

Incorporação de conhecimento de fundo (background

knowledge);

– Linguagens de consulta para DM e DM ad-hoc;

– Visualização e apresentação dos resultados de DM; – Manuseio de dados incompletos e de ruídos;

– Avaliação dos padrões: o problema do interesse. • Performance e escalabilidade:

– Eficiência e escalabilidade dos algoritmos de DM; – Métodos de DM paralelo, distribuído e incremental.

(35)

35

Pontos centrais em DM

• Pontos relacionados à diversidade de tipos de dados:

– Manuseio de dados relacionais e complexos;

– Mineração de fluxos de informação de DB heterogêneas e de sistemas de informação globais (Web).

• Pontos relacionados às aplicações e impactos sociais:

– Aplicações de descoberta de conhecimento:

• Ferramentas de DM para domínios específicos;

• Resposta inteligente a consultas;

• Controle de processos e processo decisório.

– Integração do conhecimento descoberto ao conhecimento existente: o problema da fusão de conhecimentos;

(36)

36

Sumário

Data mining: descoberta de padrões interessantes em grandes

quantidades de dados;

DM é uma evolução natural da tecnologia de DB, com grande número de possíveis aplicações;

O processo de KDD inclui a limpeza, integração, seleção e

transformação dos dados, data mining, avaliação dos padrões e apresentação do conhecimento;

A mineração pode ser executada em vários repositórios de informação;

Funcionalidades do DM: caracterização, discriminação,

associação, classificação, agrupamento, desvios, análise de tendências, etc.

Classificação dos sistemas de DM;

(37)

37

Referências

P. Adriaans, D. Zantinge. Data Mining. Addison-Wesley, 1996.

• U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R.

Uthurusamy. Advances in Knowledge Discovery and Data

Mining. AAAI/MIT Press, 1996.

J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000.

A. Berson, S.J. Schimdt. Data Warehousing, Data Mining &

OLAP. McGraw-Hill, 1997.

• G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991.

Referências

Documentos relacionados

Análise modal numérica da parte girante da bomba A figura 9 ilustra o modelo para a simulação numérica da parte girante superior da bomba hidráulica (induzido do mo- tor elétrico),

No modo desativado o roteador transmitirá apenas sinal de conexão apenas via cabo UTP  SSID: insira um nome de sua escolha para a rede WI-FI..  Criptografia: insira uma senha para

Segundo Sigrist (2002), avaliando teores de acidez titulável e sólidos solúveis totais, em rúcula variedade “Folha Larga” minimamente processada e armazenada em diferentes tipos

Como o período de ventos mais intensos está relacionado aos eventos de estiagem, é no segundo semestre que a dinâmica morfológica interfere diretamente na dinâmica de uso e

[r]

Os empregadores se obrigam ao pagamento de um adicional por tempo de serviço prestado pelo empregado ao mesmo empregador, igual a 5% (cinco por cento), por biênio trabalhado,

a) A remuneração dos empregados com salário fixo será paga em dobro; para os comissionistas puros o cálculo dessa remuneração corresponderá ao pagamento do valor de mais 01

9.1 - A não comunicação do evento no prazo de 90 dias, por culpa exclusiva das empresas, implicará para a empresa na obrigação do reembolso à gestora ou ao sindicato