MINERAÇÃO DE DADOS 1

(1)

MINERAÇÃO DE

DADOS

(2)

CONCEITOS BÁSICOS

DADO INFORMAÇÃO CONHECIMENTO

(3)

Os dados são elementos brutos, sem significado, desvinculados da realidade. São, segundo Davenport (1998, p. 19), "observações sobre o estado do mundo".

São símbolos e imagens que não dissipam nossas incertezas. Eles constituem a matéria-prima da informação. Dados sem qualidade levam a informações e decisões da mesma natureza.

Sendo o dado considerado a matéria-prima para a informação: o que

DADOS

(4)

As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker apud Davenport, 1998, p.18).

Elas são o resultado do encontro de uma situação de decisão com um conjunto de dados, ou seja, são dados contextualizados que

visam a fornecer uma solução para determinada situação de decisão (MacDonough apud Lussato, 1991).

A informação pode assim ser considerada como dados processados e contextualizados, mas para Sveiby (1998) a

informação também é considerada como "desprovida de significado e de pouco valor", e Malhotra (1993) a considera como "a matéria-prima para se obter conhecimento".

INFORMAÇÕES

(5)

Para Davenport (1998, p.19), o "conhecimento é a informação mais valiosa (...) é valiosa precisamente porque alguém deu à informação um contexto, um significado, uma interpretação (...)".

O conhecimento pode então ser considerado como a informação processada pelos indivíduos. O valor agregado à informação

depende dos conhecimentos anteriores desses indivíduos.

Assim sendo, adquirimos conhecimento por meio do uso da informação nas nossas ações.

Desta forma, o conhecimento não pode ser desvinculado do indivíduo; ele está estritamente relacionado com a percepção do mesmo, que codifica, decodifica, distorce e usa a informação de

CONHECIMENTO

(6)

Um carro BMW, último tipo, conversível, zero quilômetro, totalmente destruído em um acidente no qual o motorista bateu em uma árvore

centenária derrubando-a pode ser codificado,

decodificado e distorcido das seguintes maneiras. Algumas pessoas serão levadas a decodificar as informações baseadas em seus valores

materiais: "Logo um carro tão caro! Será que ele está segurado?

Exemplo

(7)

Enquanto outras pessoas, com valores humanos mais aguçados, terão seu foco no ser humano:

"Será que o acidente resultou em feridos?"

Outras pessoas com interesses ecológicos ainda terão suas atenções voltadas ao destino da árvore centenária: "Logo nesta árvore! Não poderia ter sido em uma outra?".

Exemplo

(8)

MAIS UM INGREDIENTE

NA CONCEPÇÃO DA

UTILIZAÇÃO DA

INFORMAÇÃO

(9)

DADOS

DADOS CONTEXTO INFORMAÇÃO

INFORMAÇÃO EXPERIÊNCIA CONHECIMENTO

CONHECIMENTO HABILIDADE COMPETÊNCIA

(10)

TOMADA DE DECISÕES

Informação Conhecimento Competência Decisão Cadeia do Processo Decisório ERP , Sistemas Individuais BI : OLAP, CRM, DATAWAREHOUSE, DATA MINING, etc;

(11)

Era da Inteligência

Era das aplicações

Era dos bancos de dados

1980 1990 2000 2010

(12)

A IMPORTÂNCIA DA

INFORMAÇÃO

(13)

DUPLO PAGAMENTO

O consumidor paga duas vezes por cada compra: A primeira com dinheiro e a segunda ao fornecer informação que vale dinheiro.

Por exemplo, se o freguês pagar com cartão de crédito, é claro, que muita coisa é revelada. Agora o freguês também está fornecendo: (1) nome, (2) endereço e CEP, (3) informação sobre crédito, (4) base para inferir na renda familiar, e muitas coisas mais.

A pergunta essencial que paira no ar é: Quem possui os dados sobre o freguês ? E quando custa.

(14)

DUPLO PAGAMENTO

O consumidor paga duas vezes por cada compra: A primeira com dinheiro e a segunda ao fornecer informação que vale dinheiro.

Por exemplo, se o freguês pagar com cartão de crédito, é claro, que muita coisa é revelada. Agora o freguês também está fornecendo: (1) nome, (2) endereço e CEP, (3) informação sobre crédito, (4) base para inferir na renda familiar, e muitas coisas mais.

A pergunta essencial que paira no ar é: Quem possui os dados sobre o freguês ? E quando custa.

(15)

O PODER DA INFORMAÇÃO

O maior capital das empresas não são mais os seus colaboradores. Mas sim, as suas informações.

As informações passaram a ser os resultados de todas as ações operacionais que fazem a empresa funcionar.

(16)

OBTENDO INFORMAÇÕES

Quais informações poderíamos

obter em uma simples Nota Fiscal

e que cruzamentos poderíamos

fazer?

(17)

(18)

(19)

O QUE É MAIS IMPORTANTE ?

A

(20)

REFLEXÃO...

“ ADMINISTRAR BEM UM NEGÓCIO É ADMINISTRAR SEU FUTURO; E ADMINISTRAR

SEU FUTURO É ADMINISTRAR INFORMAÇÕES “

(21)

REFLEXÃO

“O mundo não está interessado

nas tempestades que você

enfrentou, quer apenas saber se

você trouxe o navio”

William Mac Fee

E como você acha que as

organizações pensam?

(22)

. . .

“Não estamos aqui para prever o

futuro ,mas sim para criar a

certeza de tê-lo”

Peter Ferdinand Drucker

(23)

ESPÉCIES DE ORGANIZAÇÕES

AS QUE FAZEM AS COISAS

ACONTECEREM.

AS QUE OBSERVAM AS COISAS

ACONTECEREM.

AS QUE PERGUNTAM O QUE

ACONTECEU.

(24)

REFLEXÃO

“DIGA-ME, POR FAVOR, QUE CAMINHO DEVO TOMAR PARA SAIR DAQUI ?”, perguntou Alice.

“ISTO DEPENDE DE PARA ONDE VOCÊ QUER IR”, disse o gato.

“NÃO FAZ DIFERENÇA PARA MIM”, retrucou Alice.

“ENTÃO, NÃO FAZ DIFERENÇA QUE CAMINHO VOCÊ TOMA”,

respondeu-lhe o gato.

(25)

...

(26)

NECESSIDADES

DE UM

(27)

•INFORMAÇÃO

•ANÁLISE

•DECISÃO

•AÇÃO

•VELOCIDADE

•RESULTADOS

NECESSIDADE DO GESTOR

(28)

Informação

NECESSIDADE DO GESTOR

QUANTO MAIOR A QUANTIDADE E QUALIDADE DAS INFORMAÇÕES DISPONÍVEIS, MAIS FÁCIL

ACHARMOS ONDE ATUAR PARA ALCANÇARMOS NOSSOS OBJETIVOS.

QUANTO MAIS FÁCIL PUDERMOS

MANIPULAR TAIS INFORMAÇÕES, PERMITINDO ESTUDAR CENÁRIOS POR DIFERENTES

PERSPECTIVAS, MAIS CLARAS, FÁCEIS E FIÉIS

SERÃO NOSSAS CONCLUSÕES.

(29)

Decisão

NECESSIDADE DO GESTOR

CONCLUSÕES EMBASADAS EM DADOS REAIS NOS LEVAM A TOMAR DECISÕES

ASSERTIVAS, NA DIREÇÃO EXATA DE NOSSOS OBJETIVOS.

Ação

TAIS DECISÕES DEVEM SER IMPLANTADAS DE MANEIRA RÁPIDA E ABRANGENTE, SENDO TRANSFORMADAS EM AÇÕES.

(30)

Velocidade

NECESSIDADE DO GESTOR

AÇÕES QUE POR SUA VEZ DEVEM SER

PROCESSADAS RAPIDAMENTE, COM QUALIDADE, EM QUANTIDADE E ABRANGÊNCIA.

Resultados

SÓ ASSIM CHEGAMOS AOS RESULTADOS POSITIVOS QUE BUSCAMOS.

NÃO POR “MÁGICA” E SIM COMO

CONSEQÜÊNCIA LÓGICA E NORMAL DE UM TRABALHO REALIZADO.

(31)

NECESSIDADES

DO

(32)

“Quero toda a

Informação..." Informação _Integrada

Medias Importantes Retorno Gerado

pelo Computador Experiência Análise Processo de Business in out

NECESSIDADES DO USUÁRIO

(33)

“INFORMAÇÃO NÃO É FONTE DE PODER,

É FONTE DE GESTÃO”

(34)

INFORMAÇÕES

CONHECIMENTO

Foco em Resultados Métrica dos objetivos Estratégicos NECESSIDADES CORPORATIVAS BASE DE

(35)

Data Mining

Mineração de Dados

(36)

(37)

Mineração de Dados - Justificativa

O volume de dados

duplica a cada ano !

(38)

DM - MOTIVAÇÃO

Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução e

velocidade da Tecnologia da Informação em busca de conhecimento.

“Morrendo de sede por conhecimento

em um oceano de dados”

(39)

DATA MINING

O que é?

Mineração de dados (descoberta de conhecimento em bases de dados):

Extração de informação interessante (não-trivial, implícita, previamente desconhecida e

potencialmente útil) dos dados armazenados em grandes massas de dados conhecimento para tomada de decisão.

(40)

DATA MINING

KDD

Knowledge Discovery in Database

(41)

DATA MINING

“KDD é o processo, não trivial, de extração de informações, implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados

armazenados em um banco de dados”

(42)

DATA MINING

Como identificar conhecimento em

uma grande massa de dados:

– Padrões (“X” acontece se...)

– Exceções (isto é diferente de... por causa de...) – Tendências (ao longo do tempo, “Y” deve

acontecer...)

– Correlações (se “M” acontece, “N” também deve acontecer)

(43)

DATA MINING

O que é?

Nomes alternativos:

Descoberta (mineração) de conhecimento em banco de dados (KDD - Knowledge Discovery in Database ), extração de conhecimento, análise de dados/padrões, business intelligence, etc.

O que não é data mining?

Processamento de consultas dedutivo.

(44)

DATA MINING - MOTIVAÇÃO

Problema da explosão de dados

Processo de tomada de decisão exige análise de grandes massas de dados

Solução: Data Warehousing e Data Mining

 Data warehousing: Visão multidimensional dos dados para processamento OLAP

 Data mining: Extração de conhecimento interessante (regras, padrões, restrições) dos dados em grandes bases de dados.

(45)

DATA MINING - APLICAÇÕES

Análise de dados e suporte a decisões

Análise de mercado

Marketing sob demanda, relação entre clientes, análise e segmentação de mercado, análise cruzada de dados, etc.

Análise de risco

Previsão, controle de qualidade, análise competitiva, análise de seguros

(46)

Quais são as fontes de dados para Análise de Mercado ?

Transações de cartões de crédito, cartões de fidelidade, cupons de desconto, serviços de televendas, estudos de comportamento (questionários públicos, web, etc.)

Marketing sob demanda

Descobrir grupos de “modelos” de clientes que compartilham as mesmas características: interesses, hábitos de compras, etc.

Determinar padrões de compras.

Análise cruzada de dados.

Associações/corelações entre vendas de produtos

(47)

DM – ANÁLISE DE MERCADO

Preferências do Cliente

Data mining pode mostrar que tipos de clientes compram que tipos de produtos (clustering ou classificação).

Identificação das necessidades dos clientes

Melhores produtos para diferentes clientes;

Modelos de predição para descobrir que fatores vão atrair novos clientes

(48)

Planejamento de finanças e orçamento

Análise e predição de fluxo de caixa

Análise de contingência para provisão de bens Análise de séries temporais

Planejamento de recursos:

Resume e compara os recursos e os gastos

Competição:

Monitorar concorrentes e direções de mercado

Agrupar clientes em classes e elaborar métodos para ajustar preços competitivos com os concorrentes do mercado

(49)

DM – DETECCÃO DE FRAUDES

Aplicações

Largamente usada em serviços de saúde, cartões de créditos, telecomunicações (fraude de ligações telefônicas), etc.

Técnicas

Dados históricos para construir modelos de comportamento

fraudulentos e usar mineração de dados para identificar instâncias similares

Exemplos

Seguro de automóveis: detecta um grupo de pessoas que são

(50)

DM – DETECCÃO DE FRAUDES

Detecção inapropriada de tratamento médico

Comissão de Seguro de Saúde da Austrália identificou que em muitos casos os tratamentos não eram necessários (economia de $1milhão/ano).

Detecção de fraudes telefônicas

Modelo de ligações telefônicas: destino da ligação,

duração, hora do dia, dia da semana. Análise de padrões que desviam do padrão esperado.

(51)

DM - DESCOBERTA DO CONHECIMENTO EM BD (KDD) FAYYAD 1996 ? CONHECIMENTO PADRÕES DADO TRANSFORMADO DATA MINING INTERPRETAÇÃO/ AVALIAÇÃO SELEÇÃO PRÉ-PROCESSAMENTO DADO DADO PROCESSADO TRANSFORMAÇÃO

(52)

DM - DESCOBERTA DO CONHECIMENTO EM BD (KDD) Conhecimento Dados Pré-processados Dados Transformados Regras e Padrões Dados Selecionados 1 1 - SELEÇÃO 2 - PRÉ-PROCESSAMENTO (Limpeza + Enriquecimento) 3 - TRANSFORMAÇÃO 4 - MINERAÇÃO 5 - INTERPRETAÇÃO 2 3 4 5

(53)

DM - ETAPAS DO PROCESSO DE KDD

Conhecer o domínio da aplicação.

Conhecimento relevante e metas da aplicação

Criar a base de dados alvo: seleção de dados

Limpeza dos dados e pré-processamento: (até 60% do esforço!)

Transformação dos dados:

Contemplar propriedades importantes e dimensões.

Escolha das funções do data mining

sumarização, classificação, associação, clustering.

Escolha dos algortimos de mineração

Data mining: busca dos padrões de interesse

Avaliação dos padrões descobertos e apresentação do conhecimento

(54)

DM - ETAPAS DO PROCESSO DE KDD Data Mining Descoberta Modelagem de Prognóstico Análise Prévia Lógica Condicional Afinidades e Associações Tendências e Variações Resultado do Prognóstico Previsão Detecção de Desvio

(55)

ARQUITETURA DE UM SISTEMA DE DATA MINING

Data cleaning &

Filtering

Database or data warehouse server

Data mining engine

Pattern evaluation

Graphical user interface

(56)

ALGUMAS TÉCNICAS

DE MINERAÇÃO

(57)



Classificação



Descoberta de Regras de Associação



Clustering

(58)

Mineração de Dados - Classificação

• Usamos o Indutor, como por exemplo uma Árvore de decisão (ID3, C4.5), para indicar classes para

estes dados. Assumimos que dados desconhecidos “próximos” de dados conhecidos terão a mesma

classe dos dados conhecidos.

• O processo pode ser avaliado se usarmos dados com classes conhecidas, fizermos a sua

classificação e compararmos os resultados previstos com os obtidos.

(59)

Classificação - REGRAS

Regras possuem:

antecedentes (condições) e conseqüentes (classe):

SE COND1 E COND2 E... ENTÃO CLASSE(A)

Condições relacionam valores dos atributos:

Atributos : Cliente, Data Vencimento, Pagamento, Valor,.... Relações: <, >, =,...

(60)

Classificação – REGRAS - Exemplo

SE

06:00hs<

hora_sinistro

< 08:30hs

E

oficina



oficinas_suspeitas

E

prêmio_seguro

< R$ 2300

E

registro_policial

= NÃO

E

. . . .

custo_sinistro

> 2,4 prêmio_seguro

Mineração de Dados - Classificação

(61)

Classificação - Exemplo

Sexo País Idade Comprar

M França 25 sim M Inglaterra 21 sim F Franca 23 sim F Inglaterra 34 sim F França 30 não M Alemanha 21 não M Alemanha 20 não F Alemanha 18 não

(62)

Classificação

SE (país = “Alemanha”) ENTÃO (comprar=“não”) Se (país = “Inglaterra”) ENTÃO (comprar = “sim”)

SE (país = “França” E idade  25) ENTÃO (comprar = “sim”) SE (país = “França” E idade > 25) ENTÃO (comprar = “não”)

(63)

Algoritmo ID3

[Quinlan 86]

Mineração de Dados - Classificação

Passos para construção de uma árvore de decisão:

1. Seleciona um atributo como sendo o nodo raiz ;

2. Arcos são criados para todos os diferentes valores do atributo selecionado no passo 1;

3. Se todos os exemplos de treinamento sobre uma folha pertencerem a uma mesma classe, esta folha recebe o nome da classe. Se todas as folhas possuem uma

classe, o algoritmo termina;

4. Senão, o nodo é determinado com um atributo que não ocorra no trajeto da raiz, e arcos são criados para todos

(64)

Mineração de Dados - Classificação

ID Salário Idade Tipo Emprego Classe 1 3.000 30 Autônomo B 2 4.000 35 Indústria B 3 7.000 50 Pesquisa C 4 6.000 45 Autônomo C 5 7.000 30 Pesquisa B 6 6.000 35 Indústria B 7 6.000 35 Autônomo A 8 7.000 30 Autônomo A 9 4.000 45 Indústria B Salário Idade T.Empr. B A C B  5.000  5.000  40  40 Ind.,Pesq. Autônomo Árvore de Decisão ou Árvore de Classificação (Sal  5.000)  Classe = B

(Sal  5.000)  (Idade  40)  Classe = C

(Sal  5.000)  (Idade  40)  (TEmpr = Autônomo)  Classe = A Regras de Classificação

(65)

Algoritmo ID3: restrições

Mineração de Dados - Classificação

O algoritmo ID3 não contempla todos os casos: • Quando atributos forem numéricos?

– Esquemas de discretização.

– Identificação de categorias discretas em atributos numéricos

(particionamento do atributo).

• Quando dados estiverem incompletos? – Usar classe “faltando”.

– Substituir valores inexistentes (pré-processamento).

• Complexidade da árvore resultante

(66)

Associação

(67)

Descoberta de Regras de Associação

Regras de associação ou regras associativas têm a forma

{X₁, X₂, ..., X_n}  Y

significando que se encontrarmos todos os itens X₁, X₂, ..., X_n numa transação, então temos uma boa chance de encontrar também Y.

(68)

Precisamos de métricas que indiquem:

• Significância em uma associação: ela pode existir mas ser muito rara em uma base de dados (ex. Compra cerveja e fraldas).

– Suporte X Λ Y : número de casos que contém X e Y dividido pelo número total de registros.

• Confiança em uma associação: o antecedente pode ocorrer várias vezes na base de dados mas nem sempre com o mesmo conseqüente associado.

– Confiança X Λ Y : número de registros que contém X e Y dividido pelo número de registros que contém X.

(69)

Descoberta de Regras de Associação

dada a regra de associação X Y

X implica Y se X então Y

se compra X então compra Y, define-se

suporte = Número de registros com X e Y

Número total de registros

Número de registros com X e Y

(70)

“ Tarefa é descobrir todas a regras de associação com suporte  ao suporte mínimo (minsup) e

confiança  confiança mínima (minconf) , definidas

pelo usuário”.

(71)

Descoberta de Regras de Associação

Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item.

num leite café cerveja pão manteiga arroz feijão 1 não sim não sim sim não não 2 sim não sim sim sim não não 3 não sim não sim sim não não 4 sim sim não sim sim não não 5 não não sim não não não não 6 não não não não sim não não 7 não não não sim não não não 8 não não não não não não sim

(72)

Descoberta de Regras de Associação

SE (café) ENTÃO (pão) sup=0.3 conf.=1 SE (café) ENTÃO (manteiga) sup=0.3 conf.=1 SE (pão) ENTÃO (manteiga) sup=0.4 conf.=0.8 SE (manteiga) ENTÃO (pão) sup=0.4 conf.=0.8 SE (café E pão) ENTÃO (manteiga) sup=0.3 conf.=1 SE (café E manteiga) ENTÃO (manteiga) sup=0.3 conf.=1 SE (café) ENTÃO (manteiga E manteiga) sup=0.3 conf.=1

(73)

Algoritmos de regras de Associação

AIS SETM

Apriori Apriori -TID Apriori-Hybrid Dense – Miner

MiRABIT

(74)

TÉCNICAS DE MINERAÇÃO DE DADOS

(1) Dado um limiar de suporte minsup, no primeiro passo encontre os itens que aparecem ao menos numa fração das transações igual a minsup. Este conjunto é chamado L₁, dos itens freqüentes.

(2)Os pares dos itens em L₁ se tornam pares candidatos C₂ para o segundo passo. Os pares em C₂ cuja contagem alcançar minsup são os pares freqüentes

L₂.

(3) As trincas candidatas C₃ são aqueles conjuntos {A, B, C} tais que todos os {A, B}, {A, C} e {B, C} estão em L₂. No terceiro passo, conte a ocorrência das trincas em C₃; aquelas cuja contagem alcançar minconf são as trincas freqüentes, L₃.

(4) Proceda da mesma forma para tuplas de ordem mais elevada, até os conjuntos se tornarem vazios. L_i são os conjuntos freqüentes de tamanho i;

C_i+1 é o conjunto de tamanho i+1 tal que cada subconjunto de tamanho i está

(75)

TÉCNICAS DE MINERAÇÃO DE DADOS

Algoritmo Apriori

Conjunto de itens suporte

{leite} 2 {café} 3 {cerveja} 2 {pão} 5 {manteiga} 5 {arroz} 2 {feijão} 2

Conjunto de itens suporte {café} 3

{pão} 5

C₁

L1 será os itens de C1 com suporte >= 3 (0,3)

(76)

TÉCNICAS DE MINERAÇÃO DE DADOS

Algoritmo Apriori

C₂, L₂

C₃, L₃

Conjunto de itens suporte {café, pão} 3 {café, manteiga} 3 {pão, manteiga} 4

Conjunto de itens suporte {café, pão, manteiga} 3

Os pares dos itens de L1 tornam-se

(77)

TÉCNICAS DE MINERAÇÃO DE DADOS

Algoritmo Apriori

Regras candidatas com dois itens com o seu grau de certeza(Confiança): Conjunto de itens: {café, pão}

Se café Então pão conf = 1,0

Se pão Então café conf = 0,6

Conjunto de itens: {café, manteiga}

Se café Então manteiga conf = 1,0

Se manteiga Então café conf = 0,6

(78)

TÉCNICAS DE MINERAÇÃO DE DADOS

Algoritmo Apriori

Regras candidatas com três itens com o seu valor de certeza: Conjunto de itens: {café, manteiga, pão}

Se café, manteiga Então pão conf = 1,0

Se café, pão Então manteiga conf = 1,0

Se manteiga, pão Então café conf = 0,75

Se café Então manteiga, pão conf = 1,0

Se manteiga Então café, pão conf = 0,6

(79)

Descoberta de Regras de Associação

Padrões descobertos, minsup = 0,3 e minconf = 0,8:

Se café Então pão conf = 1,0

Se café Então manteiga conf = 1,0

Se pão Então manteiga conf = 0,8

Se manteiga Então pão conf = 0,8

Se café, manteiga Então pão conf = 1,0

Se café, pão Então manteiga conf = 1,0

Se café Então manteiga, pão conf = 1,0

(80)

Clustering

Agrupamento

(81)

É o resultado da identificação de um conjunto finito de categorias (ou grupos - clusters) que contêm objetos

similares.

Grupos esses que não são previamente definidos.

Cluster

(82)

Análise de Cluster

“Esta técnica agrupa informações homogêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, permitindo, desta forma, que consigamos perceber a

característica de cada grupo.

Instintivamente as pessoas visualizam os dados

segmentados em grupos discretos, como por exemplo, tipos de plantas ou animais. Na criação desses grupos discretos pode-se notar a similaridade dos objetos em cada grupo”.

GTI (2002) - Deborah R. Carvalho

(83)

Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar

campanhas dirigidas;

Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite;

Seguros: identificação de grupos de assegurados com alto custo de sinistro;

Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica; Estudos sobre clientes: identificação dos tipos de

Análise de Cluster

(84)

Um bom método de agrupamento (clustering) deve produzir

clusters de qualidade com:

Alta similaridade intra-classe; Baixa similaridade inter-classes.

A qualidade do resultado de um processo de clustering

depende da medida de similaridade, do método utilizado e de sua implementação;

A qualidade um um processo de clustering também deve ser avaliada pela sua habilidade de descobrir alguns ou todos os

O que é bom Clustering:

(85)

Medida da qualidade do cluster

Métrica de similaridade / dissimilaridade: expressa em termos de função de distância d(i, j)

Existe uma função de “qualidade” que é uma medida da

“adequação” de um cluster;

Existem definições de funções de distância que são diferentes para variáveis intervalares, booleanas, categóricas e proporções;

Pesos devem ser associados às variáveis baseados na aplicação e na semântica dos dados;

(86)

Similaridade entre objetos: distâncias

q q p p q q j x i x j x i x j x i x j i d( , ) (| | | | ... | | ) 2 2 1 1       

Distância típica: de Minkowski;

Onde

i = (x

_i1

, x

_i2

, …, x

_ip

)

e

j = (x

_j1

, x

_j2

, …, x

_jp

)

são vetores p-dimensionais e q é um inteiro positivo.

(87)

Similaridade entre objetos: distâncias

q =1: distância de Manhattan:

q =2: distância euclidiana:

| | ... | | | | ) , ( 2 2 1 1 xj xi xj xip xjp i x j i d        ) | | ... | | | (| ) , ( 2 2 2 2 2 1 1 x j xi x j xip x jp i x j i d       

(88)

O método k-means (k-médias)

Dado k, o algoritmo k-means é implementado em quatro passos:

1. Partição dos objetos em k conjuntos não vazios; 2. Cálculo de pontos “semente” como os

centróides (médias) dos clusters das partições correntes;

3. Assinalação de cada objeto ao cluster

(centróide) mais próximo de acordo com a função de distância;

4. Retorno ao passo 2 até que não haja mais

alterações de assinalação.

(89)

O método k-means (k-médias) - Exemplo

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 3 4 5 6 7 8 9 10 3 4 5 6 7 8 9 10

(90)

Estudo de

Caso

Extração de conhecimento na

base de clientes da

(91)

Ferramentas Observadas

Estudo de Caso - OAM

 Bayesialab  KnowledgeMiner  Miner3D  Mineset 3.2  PolyAnalyst  Weka  WizRule  WizWhy  XpertRule

(92)

FAYYAD 1996 ? CONHECIMENTO PADRÕES DADO TRANSFORMADO DATA MINING INTERPRETAÇÃO/ AVALIAÇÃO DADOS SELEÇÃO PRÉ-PROCESSAMENTO DADO ANALISADO DADO PROCESSADO TRANSFORMAÇÃO

Estudo de Caso - OAM

Planilha EXCEL Filtros para os atributos: Cliente,Vencimento,Baixa, Valor

(93)

(94)

(95)

Estudo de Caso - OAM

(96)

(97)

Estudo de Caso - OAM

Histograma

Cliente X Clientes por quantidade de transações financeiras (Nº de Duplicatas) Cerca de 75% da carteira pagam até 21 dias de atraso

(98)

Estudo de Caso - OAM

(99)

Estudo de Caso - OAM

Dispersão

O cliente 105414 paga com mais de 360 dias de atraso e seu

volume é de R$717.544 – Requer providências imediatas.

(100)

Estudo de Caso - OAM

(101)

Estudo de Caso - OAM

(102)

Estudo de Caso - OAM

Classificação –

(103)

(104)

Estudo de Caso - OAM

(105)

Estudo de Caso - OAM

(106)

Estudo de Caso - OAM

(107)

Estudo de Caso - OAM

(108)

Estudo de Caso - OAM

(109)

Estudo de Caso - OAM

(110)