• Nenhum resultado encontrado

slides

N/A
N/A
Protected

Academic year: 2021

Share "slides"

Copied!
87
0
0

Texto

(1)
(2)

AGENDA

INTRODUÇÃO

PROCESSO MÍNIMO

TRATAMENTO DE DADOS

MODELOS PREDITIVOS

ANÁLISE DE ASSOCIAÇÕES

ANÁLISE DE AGRUPAMENTOS

DETECÇÃO DE ANOMALIAS

(3)

AGENDA

INTRODUÇÃO

PROCESSO MÍNIMO

TRATAMENTO DE DADOS

MODELOS PREDITIVOS

ANÁLISE DE ASSOCIAÇÕES

ANÁLISE DE AGRUPAMENTOS

DETECÇÃO DE ANOMALIAS

(4)

Introdução

(5)

INTRODUÇÃO

AMBOS PARECE UMA COLCHA DE

RETALHOS

(6)

INTRODUÇÃO

AMBOS PARECE UMA COLCHA DE

RETALHOS

(7)

INTRODUÇÃO

APESAR DE NÃO PARECER, PODEM SER

(8)

INTRODUÇÃO

CONTRARIANDO AS “EXPECTATIVAS”, OS

(9)

INTRODUÇÃO

MAS O QUE É DATA MINING?

É o processo de explorar grandes quantidades

de dados à procura de padrões consistentes,

como regras de associação ou sequências

temporais, para detectar relacionamentos

sistemáticos entre variáveis, detectando assim

novos subconjuntos de dados.(Wikipedia)

(10)

INTRODUÇÃO

(11)

INTRODUÇÃO

MODELAGEM PREDITIVA

CLASSIFICAÇÃO (

VARIÁVEIS DISCRETAS

):

EX: PREVER SE UM USUÁRIO WEB FARÁ UMA COMPRA

EM UMA LIVRARIA ONLINE

REGRESSÃO(

VARIÁVEIS CONTÍNUAS

):

(12)

INTRODUÇÃO

ANÁLISE DE ASSOCIAÇÃO

DESCOBRIR PADRÕES QUE DESCREVAM

CARACTERÍSTICAS ALTAMENTE ASSOCIADAS

DENTRO DOS DADOS.

EX: IDENTIFICAÇÃO DE PÁGINAS WEB QUE SEJAM

ACESSADAS JUNTAS .

(13)

INTRODUÇÃO

ANÁLISE DE AGRUPAMENTOS

PROCURA ENCONTRAR GRUPOS DE

OBSERVAÇÕES INTIMAMENTE RELACIONADAS

DE MODO QUE OBSERVAÇÕES QUE

PERTENÇAM AO MESMO GRUPO SEJAM MAIS

SEMELHANTES ENTRE SI DO QUE COM AS QUE

PERTENÇAM A OUTROS GRUPOS.

EX: JUNTAR CLIENTES COM COMPORTAMENTO SEMELHANTE

PARA CUSTORMIZAR OS PRODUTOS QUE SERÃO

(14)

INTRODUÇÃO

DETECÇÃO DE ANOMALIAS

TAREFA DE IDENTIFICAR OBSERVAÇÕES

CUJAS CARACTERÍSTICAS SEJAM

SIGNIFICATIVAMENTE DIFERENTES DO RESTO

DOS DADOS (ANOMALIAS).

EX: DETECÇÃO DE FRAUDE NO USO DE UMA CONTA A

(15)

AGENDA

INTRODUÇÃO

PROCESSO MÍNIMO

TRATAMENTO DE DADOS

MODELOS PREDITIVOS

ANÁLISE DE ASSOCIAÇÕES

ANÁLISE DE AGRUPAMENTOS

DETECÇÃO DE ANOMALIAS

(16)
(17)

PROCESSO MÍNIMO

ESCOLHA OS DADOS COM CUIDADO

CUIDADO COM A MALDIÇÃO DA

DIMENSIONALIDADE (PIOR QUE A

MALDIÇÃO DO PONEY MALDITO)

(18)

PROCESSO MÍNIMO

(19)

AGENDA

INTRODUÇÃO

PROCESSO MÍNIMO

TRATAMENTO DE DADOS

MODELOS PREDITIVOS

ANÁLISE DE ASSOCIAÇÕES

ANÁLISE DE AGRUPAMENTOS

DETECÇÃO DE ANOMALIAS

(20)

TRATAMENTO DE DADOS

FONTES DE DADOS PRECISAM SER

INTEGRADAS, LIMPAS, E PRECISAM ESTAR

DE ACORDO COM A “ENTRADA” DA

TÉCNICA A SER UTILIZADA

NO GERAL UMA ÚNICA TABELA COM OS

DADOS DESNORMALIZADOS É A ENTRADA

DESEJADA OU ALGUM OUTRO FORMATO

ESTRUTURADO OU SEMI-ESTRUTURADO.

(21)

TRATAMENTO DE DADOS

(22)

TRATAMENTO DE DADOS

http://pipes.yahoo.com/pipes/pipe.edit

http://code.google.com/p/google-refine/

(23)

TRATAMENTO DE DADOS

(24)

AGENDA

INTRODUÇÃO

PROCESSO MÍNIMO

TRATAMENTO DE DADOS

MODELOS PREDITIVOS

ANÁLISE DE ASSOCIAÇÕES

ANÁLISE DE AGRUPAMENTOS

DETECÇÃO DE ANOMALIAS

(25)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

CLASSIFICADOR BASEADO EM REGRAS

CLASSIFICADORES BAYESIANOS

REDE NEURAL

SUPPORT VECTOR MACHINE(SVN)

(26)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

None Reduced Yes Hypermetrope Pre-presbyopic None Normal Yes Hypermetrope Pre-presbyopic None Reduced No Myope Presbyopic None Normal No Myope Presbyopic None Reduced Yes Myope Presbyopic Hard Normal Yes Myope Presbyopic None Reduced No Hypermetrope Presbyopic Soft Normal No Hypermetrope Presbyopic None Reduced Yes Hypermetrope Presbyopic None Normal Yes Hypermetrope Presbyopic Soft Normal No Hypermetrope

Pre-presbyopic Hypermetrope No Reduced None Pre-presbyopic Myope Yes Normal Hard Pre-presbyopic Myope Yes Reduced None Pre-presbyopic Myope No Normal Soft Pre-presbyopic Myope No Reduced None Pre-presbyopicYoung Hypermetrope Yes Normal hard

None Reduced

Yes Hypermetrope

Young Hypermetrope No Normal Soft Young Hypermetrope No Reduced None Young Myope Yes Normal Hard Young Myope Yes Reduced None Young Myope No Normal Soft Young Myope No Reduced None Young Recommended lenses Tear production rate Astigmatism Spectacle prescription Age

(27)

MODELOS PREDITIVOS

(28)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

COMO CRIAR A ÁRVORE

COMO ESCOLHER CADA NÓ DA ÁRVORE

COMO SABER SE A ÁRVORE GERADA É

CORRETA? (EXISTEM “INFINITAS”

POSSIBILIDADES)

(29)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

DIVIDIR E CONQUISTAR

: CONSTRUINDO

(30)

MODELOS PREDITIVOS

(31)

MODELOS PREDITIVOS

(32)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

(33)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

[2,3] [4,0] [3,2] info([2,3]) = 0.971 bits Info([4,0]) = 0.0 bits Info([3,2]) = 0.971 bits

(34)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

[2,3] [4,0] [3,2]

info([2,3]) = 0.971 bits Info([4,0]) = 0.0 bits Info([3,2]) = 0.971 bits

info([2,3],[4,0],[3,2]) = (5/14)*0.971 + (4/14)*0.0 + (5/14)*0.971 = 0.693 bits

(35)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

[2,3] [4,0] [3,2]

info([2,3],[4,0],[3,2]) = (5/14)*0.971 + (4/14)*0.0 + (5/14)*0.971 = 0.693 bits

Em todo o conjunto 9 yes e 5 no

(36)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

[2,3] [4,0] [3,2]

info([2,3],[4,0],[3,2]) = (5/14)*0.971 + (4/14)*0.0 + (5/14)*0.971 = 0.693 bits Info([9,5]) = 0.940 bits

(37)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

gain= 0.247 bits gain=0.029 bits

gain=0.152 bits gain=0.048 bits

(38)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

(39)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

(40)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO

COMO CALCULAR O GANHO(ENTROPIA)

A entropia (do grego εντροπία, entropía) é uma grandeza termodinâmica

que aparece geralmente associada ao que se denomina, não em senso

comum, de

"grau de desordem"

de um sistema termodinâmico. Em

acordo com a segunda lei da termodinâmica, trabalho pode ser

completamente convertido em calor, mas calor não pode ser

completamente convertido em trabalho. Com a entropia procura-se

mensurar a parcela de energia que não pode mais ser transformada em

trabalho em transformações termodinâmicas.

(41)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO (WEKA)

(42)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO (WEKA)

(43)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO (WEKA)

EM CHOOSE: ESCOLHA TREE>>J48, depois clique com

botão direito na sua análise

CLICAR COM BOTÃO

DIREITO

(44)

MODELOS PREDITIVOS

ÁRVORES DE DECISÃO (WEKA)

(45)

MODELOS PREDITIVOS

CLASSIFICADOR BASEADO EM REGRAS

(46)

MODELOS PREDITIVOS

(47)

MODELOS PREDITIVOS

(48)

MODELOS PREDITIVOS

(49)

MODELOS PREDITIVOS

(50)

MODELOS PREDITIVOS

(51)

MODELOS PREDITIVOS

(52)

MODELOS PREDITIVOS

(53)

MODELOS PREDITIVOS

(54)

MODELOS PREDITIVOS

CLASSIFICADOR BASEADO EM REGRAS

DESCUBRAM COMO FAZER NO WEKA

(DICA: CHOOSE)

(55)

MODELOS PREDITIVOS

OUTROS MÉTODOS

DESCRITOS NO LIVRO DO KUMAR, MAS

ABAIXO UMA PALHINHA DE SVM

(56)

AGENDA

INTRODUÇÃO

PROCESSO MÍNIMO

TRATAMENTO DE DADOS

MODELOS PREDITIVOS

ANÁLISE DE ASSOCIAÇÕES

ANÁLISE DE AGRUPAMENTOS

DETECÇÃO DE ANOMALIAS

(57)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS

FREQUENTES

APRIORI

PADRÕES SEQUENCIAIS

PADRÕES EM SUBGRAFOS

(58)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS

FREQUENTES

(59)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

(60)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

THRESHOLD: 5 ITEM FREQU. BEER 10 BREAD 10 COLA 3 DIAPERS 4 MILK 10 EGGS 10 OBS: OS VALORES DE

FREQUENCIA SÃO APENAS ILUSTRATIVOS, NÃO

REPRESENTAM OS VALORES REAIS DA TABELA

(61)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

THRESHOLD: 5 ITEM FREQU. BEER 10 BREAD 10 COLA 3 DIAPERS 4 MILK 10 EGGS 10

(62)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

THRESHOLD: 5 ITEM FREQU. BEER 10 BREAD 10 MILK 10 EGGS 10

(63)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

THRESHOLD: 5 ITEM QTD BEER,BREAD 5 BEER,MILK 4 BEER,EGGS 6 BREAD,MILK 4 BREAD,EGGS 4 MILK,EGGS 4

(64)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

THRESHOLD: 5 ITEM QTD BEER,BREAD 5 BEER,MILK 4 BEER,EGGS 6 BREAD,MILK 4 BREAD,EGGS 4 MILK,EGGS 4

(65)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

THRESHOLD: 5

ITEM QTD

(66)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

(67)

ANÁLISE DE ASSOCIAÇÕES

GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES

APRIORI

(68)

AGENDA

INTRODUÇÃO

PROCESSO MÍNIMO

TRATAMENTO DE DADOS

MODELOS PREDITIVOS

ANÁLISE DE ASSOCIAÇÕES

ANÁLISE DE AGRUPAMENTOS

DETECÇÃO DE ANOMALIAS

(69)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

C-MEANS

AGRUPAMENTO HIERÁRQUICO

(70)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

(71)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

Num. Compras

(72)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

Num. Compras

Os pontos mais próximos dos K pontos pertecerão ao cluster daquele ponto

(73)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

Num. Compras

RECALCULO OS PONTOS CENTRAIS (centróides) a partir da média de todos os pontos do cluster

(74)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

Num. Compras

Refaço quem pertence ao agrupamento até que os pontos centrais não se movam “muito”

(75)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

Num. Compras

(76)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

1° - Como eu calculo distância, todos os agrupamentos vão ter formas globulares. Agrupamentos não globulares terão problemas

(77)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

(78)

ANÁLISE DE AGRUPAMENTOS

K-MEANS

(79)

ANÁLISE DE AGRUPAMENTOS

C-MEANS

Os elementos pertencem a todos os agrupamentos

com um GRAU específico.

(80)

ANÁLISE DE AGRUPAMENTOS

C-MEANS

Matriz de covariância: Linhas são os elementos e

as colunas os grupos

Grupo 1 Grupo 2 Elemento 1 0.4 0.6 Elemento 2 0.2 0.8 Elemento 3 0.5 0.5 ...

(81)

ANÁLISE DE AGRUPAMENTOS

C-MEANS

1 - Initialize U=[uij] matrix, U(0)

(82)

ANÁLISE DE AGRUPAMENTOS

C-MEANS

3 - Update U(k) , U(k+1)

(83)

ANÁLISE DE AGRUPAMENTOS

(84)

ANÁLISE DE AGRUPAMENTOS

P

Exercícios

Implemente em C ou Java ou Python ou Ruby o

algoritmo K-Means, recebendo como entrada um

arquivo (pontos com n-dimensões) separados por ;

(ponto e vírgula)

Ex arquivo : (1,2,3);(3,4,6);(9,0,1)

O Algoritmos terá como segunda entrada o número

K (número de agrupamentos).

A saída deverá apresentar os centróides e os

pontos dizendo a que grupo eles pertencem:

ex: centróide 1: (1,3,5)

centróide 2: (4,7,8)

(1,2,3): grupo 1

(85)

ANÁLISE DE AGRUPAMENTOS

P

Exercícios

Faça o mesmo para o C-Means

A saída deverá apresentar os centróides e a matriz

de covariância

O que acontece quando mudamos o valor de M

(86)

AGENDA

INTRODUÇÃO

PROCESSO MÍNIMO

TRATAMENTO DE DADOS

MODELOS PREDITIVOS

ANÁLISE DE ASSOCIAÇÕES

ANÁLISE DE AGRUPAMENTOS

DETECÇÃO DE ANOMALIAS

(87)

DETECÇÃO DE ANOMALIAS

ABORDAGEM ESTATÍSTICA

DETECÇÃO BASEADA EM PROXIMIDADE

DETECÇÃO BASEADA EM DENSIDADE

TÉCNICAS BASEADAS EM

Referências

Documentos relacionados