AGENDA
INTRODUÇÃO
PROCESSO MÍNIMO
TRATAMENTO DE DADOS
MODELOS PREDITIVOS
ANÁLISE DE ASSOCIAÇÕES
ANÁLISE DE AGRUPAMENTOS
DETECÇÃO DE ANOMALIAS
AGENDA
INTRODUÇÃO
PROCESSO MÍNIMO
TRATAMENTO DE DADOS
MODELOS PREDITIVOS
ANÁLISE DE ASSOCIAÇÕES
ANÁLISE DE AGRUPAMENTOS
DETECÇÃO DE ANOMALIAS
Introdução
INTRODUÇÃO
AMBOS PARECE UMA COLCHA DE
RETALHOS
INTRODUÇÃO
AMBOS PARECE UMA COLCHA DE
RETALHOS
INTRODUÇÃO
APESAR DE NÃO PARECER, PODEM SER
INTRODUÇÃO
CONTRARIANDO AS “EXPECTATIVAS”, OS
INTRODUÇÃO
MAS O QUE É DATA MINING?
É o processo de explorar grandes quantidades
de dados à procura de padrões consistentes,
como regras de associação ou sequências
temporais, para detectar relacionamentos
sistemáticos entre variáveis, detectando assim
novos subconjuntos de dados.(Wikipedia)
INTRODUÇÃO
INTRODUÇÃO
MODELAGEM PREDITIVA
CLASSIFICAÇÃO (
VARIÁVEIS DISCRETAS
):
EX: PREVER SE UM USUÁRIO WEB FARÁ UMA COMPRA
EM UMA LIVRARIA ONLINE
REGRESSÃO(
VARIÁVEIS CONTÍNUAS
):
INTRODUÇÃO
ANÁLISE DE ASSOCIAÇÃO
DESCOBRIR PADRÕES QUE DESCREVAM
CARACTERÍSTICAS ALTAMENTE ASSOCIADAS
DENTRO DOS DADOS.
EX: IDENTIFICAÇÃO DE PÁGINAS WEB QUE SEJAM
ACESSADAS JUNTAS .
INTRODUÇÃO
ANÁLISE DE AGRUPAMENTOS
PROCURA ENCONTRAR GRUPOS DE
OBSERVAÇÕES INTIMAMENTE RELACIONADAS
DE MODO QUE OBSERVAÇÕES QUE
PERTENÇAM AO MESMO GRUPO SEJAM MAIS
SEMELHANTES ENTRE SI DO QUE COM AS QUE
PERTENÇAM A OUTROS GRUPOS.
EX: JUNTAR CLIENTES COM COMPORTAMENTO SEMELHANTE
PARA CUSTORMIZAR OS PRODUTOS QUE SERÃO
INTRODUÇÃO
DETECÇÃO DE ANOMALIAS
TAREFA DE IDENTIFICAR OBSERVAÇÕES
CUJAS CARACTERÍSTICAS SEJAM
SIGNIFICATIVAMENTE DIFERENTES DO RESTO
DOS DADOS (ANOMALIAS).
EX: DETECÇÃO DE FRAUDE NO USO DE UMA CONTA A
AGENDA
INTRODUÇÃO
PROCESSO MÍNIMO
TRATAMENTO DE DADOS
MODELOS PREDITIVOS
ANÁLISE DE ASSOCIAÇÕES
ANÁLISE DE AGRUPAMENTOS
DETECÇÃO DE ANOMALIAS
PROCESSO MÍNIMO
ESCOLHA OS DADOS COM CUIDADO
CUIDADO COM A MALDIÇÃO DA
DIMENSIONALIDADE (PIOR QUE A
MALDIÇÃO DO PONEY MALDITO)
PROCESSO MÍNIMO
AGENDA
INTRODUÇÃO
PROCESSO MÍNIMO
TRATAMENTO DE DADOS
MODELOS PREDITIVOS
ANÁLISE DE ASSOCIAÇÕES
ANÁLISE DE AGRUPAMENTOS
DETECÇÃO DE ANOMALIAS
TRATAMENTO DE DADOS
FONTES DE DADOS PRECISAM SER
INTEGRADAS, LIMPAS, E PRECISAM ESTAR
DE ACORDO COM A “ENTRADA” DA
TÉCNICA A SER UTILIZADA
NO GERAL UMA ÚNICA TABELA COM OS
DADOS DESNORMALIZADOS É A ENTRADA
DESEJADA OU ALGUM OUTRO FORMATO
ESTRUTURADO OU SEMI-ESTRUTURADO.
TRATAMENTO DE DADOS
TRATAMENTO DE DADOS
http://pipes.yahoo.com/pipes/pipe.edit
http://code.google.com/p/google-refine/
TRATAMENTO DE DADOS
AGENDA
INTRODUÇÃO
PROCESSO MÍNIMO
TRATAMENTO DE DADOS
MODELOS PREDITIVOS
ANÁLISE DE ASSOCIAÇÕES
ANÁLISE DE AGRUPAMENTOS
DETECÇÃO DE ANOMALIAS
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
CLASSIFICADOR BASEADO EM REGRAS
CLASSIFICADORES BAYESIANOS
REDE NEURAL
SUPPORT VECTOR MACHINE(SVN)
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
None Reduced Yes Hypermetrope Pre-presbyopic None Normal Yes Hypermetrope Pre-presbyopic None Reduced No Myope Presbyopic None Normal No Myope Presbyopic None Reduced Yes Myope Presbyopic Hard Normal Yes Myope Presbyopic None Reduced No Hypermetrope Presbyopic Soft Normal No Hypermetrope Presbyopic None Reduced Yes Hypermetrope Presbyopic None Normal Yes Hypermetrope Presbyopic Soft Normal No HypermetropePre-presbyopic Hypermetrope No Reduced None Pre-presbyopic Myope Yes Normal Hard Pre-presbyopic Myope Yes Reduced None Pre-presbyopic Myope No Normal Soft Pre-presbyopic Myope No Reduced None Pre-presbyopicYoung Hypermetrope Yes Normal hard
None Reduced
Yes Hypermetrope
Young Hypermetrope No Normal Soft Young Hypermetrope No Reduced None Young Myope Yes Normal Hard Young Myope Yes Reduced None Young Myope No Normal Soft Young Myope No Reduced None Young Recommended lenses Tear production rate Astigmatism Spectacle prescription Age
MODELOS PREDITIVOS
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
COMO CRIAR A ÁRVORE
COMO ESCOLHER CADA NÓ DA ÁRVORE
COMO SABER SE A ÁRVORE GERADA É
CORRETA? (EXISTEM “INFINITAS”
POSSIBILIDADES)
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
DIVIDIR E CONQUISTAR
: CONSTRUINDO
MODELOS PREDITIVOS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
[2,3] [4,0] [3,2] info([2,3]) = 0.971 bits Info([4,0]) = 0.0 bits Info([3,2]) = 0.971 bitsMODELOS PREDITIVOS
ÁRVORES DE DECISÃO
[2,3] [4,0] [3,2]
info([2,3]) = 0.971 bits Info([4,0]) = 0.0 bits Info([3,2]) = 0.971 bits
info([2,3],[4,0],[3,2]) = (5/14)*0.971 + (4/14)*0.0 + (5/14)*0.971 = 0.693 bits
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
[2,3] [4,0] [3,2]
info([2,3],[4,0],[3,2]) = (5/14)*0.971 + (4/14)*0.0 + (5/14)*0.971 = 0.693 bits
Em todo o conjunto 9 yes e 5 no
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
[2,3] [4,0] [3,2]
info([2,3],[4,0],[3,2]) = (5/14)*0.971 + (4/14)*0.0 + (5/14)*0.971 = 0.693 bits Info([9,5]) = 0.940 bits
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
gain= 0.247 bits gain=0.029 bits
gain=0.152 bits gain=0.048 bits
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO
COMO CALCULAR O GANHO(ENTROPIA)
A entropia (do grego εντροπία, entropía) é uma grandeza termodinâmica
que aparece geralmente associada ao que se denomina, não em senso
comum, de
"grau de desordem"
de um sistema termodinâmico. Em
acordo com a segunda lei da termodinâmica, trabalho pode ser
completamente convertido em calor, mas calor não pode ser
completamente convertido em trabalho. Com a entropia procura-se
mensurar a parcela de energia que não pode mais ser transformada em
trabalho em transformações termodinâmicas.
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO (WEKA)
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO (WEKA)
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO (WEKA)
EM CHOOSE: ESCOLHA TREE>>J48, depois clique com
botão direito na sua análise
CLICAR COM BOTÃO
DIREITO
MODELOS PREDITIVOS
ÁRVORES DE DECISÃO (WEKA)
MODELOS PREDITIVOS
CLASSIFICADOR BASEADO EM REGRAS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
MODELOS PREDITIVOS
CLASSIFICADOR BASEADO EM REGRAS
DESCUBRAM COMO FAZER NO WEKA
(DICA: CHOOSE)
MODELOS PREDITIVOS
OUTROS MÉTODOS
DESCRITOS NO LIVRO DO KUMAR, MAS
ABAIXO UMA PALHINHA DE SVM
AGENDA
INTRODUÇÃO
PROCESSO MÍNIMO
TRATAMENTO DE DADOS
MODELOS PREDITIVOS
ANÁLISE DE ASSOCIAÇÕES
ANÁLISE DE AGRUPAMENTOS
DETECÇÃO DE ANOMALIAS
ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS
FREQUENTES
APRIORI
PADRÕES SEQUENCIAIS
PADRÕES EM SUBGRAFOS
ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS
FREQUENTES
ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
THRESHOLD: 5 ITEM FREQU. BEER 10 BREAD 10 COLA 3 DIAPERS 4 MILK 10 EGGS 10 OBS: OS VALORES DEFREQUENCIA SÃO APENAS ILUSTRATIVOS, NÃO
REPRESENTAM OS VALORES REAIS DA TABELA
ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
THRESHOLD: 5 ITEM FREQU. BEER 10 BREAD 10 COLA 3 DIAPERS 4 MILK 10 EGGS 10ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
THRESHOLD: 5 ITEM FREQU. BEER 10 BREAD 10 MILK 10 EGGS 10ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
THRESHOLD: 5 ITEM QTD BEER,BREAD 5 BEER,MILK 4 BEER,EGGS 6 BREAD,MILK 4 BREAD,EGGS 4 MILK,EGGS 4ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
THRESHOLD: 5 ITEM QTD BEER,BREAD 5 BEER,MILK 4 BEER,EGGS 6 BREAD,MILK 4 BREAD,EGGS 4 MILK,EGGS 4ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
THRESHOLD: 5
ITEM QTD
ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
ANÁLISE DE ASSOCIAÇÕES
GERAÇÃO DE CONJUNTOS DE ITENS FREQUENTES
APRIORI
AGENDA
INTRODUÇÃO
PROCESSO MÍNIMO
TRATAMENTO DE DADOS
MODELOS PREDITIVOS
ANÁLISE DE ASSOCIAÇÕES
ANÁLISE DE AGRUPAMENTOS
DETECÇÃO DE ANOMALIAS
ANÁLISE DE AGRUPAMENTOS
K-MEANS
C-MEANS
AGRUPAMENTO HIERÁRQUICO
ANÁLISE DE AGRUPAMENTOS
K-MEANS
ANÁLISE DE AGRUPAMENTOS
K-MEANS
Num. Compras
ANÁLISE DE AGRUPAMENTOS
K-MEANS
Num. Compras
Os pontos mais próximos dos K pontos pertecerão ao cluster daquele ponto
ANÁLISE DE AGRUPAMENTOS
K-MEANS
Num. Compras
RECALCULO OS PONTOS CENTRAIS (centróides) a partir da média de todos os pontos do cluster
ANÁLISE DE AGRUPAMENTOS
K-MEANS
Num. Compras
Refaço quem pertence ao agrupamento até que os pontos centrais não se movam “muito”
ANÁLISE DE AGRUPAMENTOS
K-MEANS
Num. Compras
ANÁLISE DE AGRUPAMENTOS
K-MEANS
1° - Como eu calculo distância, todos os agrupamentos vão ter formas globulares. Agrupamentos não globulares terão problemas
ANÁLISE DE AGRUPAMENTOS
K-MEANS
ANÁLISE DE AGRUPAMENTOS
K-MEANS
ANÁLISE DE AGRUPAMENTOS
C-MEANS
Os elementos pertencem a todos os agrupamentos
com um GRAU específico.
ANÁLISE DE AGRUPAMENTOS
C-MEANS
Matriz de covariância: Linhas são os elementos e
as colunas os grupos
Grupo 1 Grupo 2 Elemento 1 0.4 0.6 Elemento 2 0.2 0.8 Elemento 3 0.5 0.5 ...ANÁLISE DE AGRUPAMENTOS
C-MEANS
1 - Initialize U=[uij] matrix, U(0)
ANÁLISE DE AGRUPAMENTOS
C-MEANS
3 - Update U(k) , U(k+1)
ANÁLISE DE AGRUPAMENTOS
ANÁLISE DE AGRUPAMENTOS
P
Exercícios
Implemente em C ou Java ou Python ou Ruby o
algoritmo K-Means, recebendo como entrada um
arquivo (pontos com n-dimensões) separados por ;
(ponto e vírgula)
Ex arquivo : (1,2,3);(3,4,6);(9,0,1)
O Algoritmos terá como segunda entrada o número
K (número de agrupamentos).
A saída deverá apresentar os centróides e os
pontos dizendo a que grupo eles pertencem:
ex: centróide 1: (1,3,5)
centróide 2: (4,7,8)
(1,2,3): grupo 1
ANÁLISE DE AGRUPAMENTOS
P
Exercícios
Faça o mesmo para o C-Means
A saída deverá apresentar os centróides e a matriz
de covariância
O que acontece quando mudamos o valor de M
AGENDA
INTRODUÇÃO
PROCESSO MÍNIMO
TRATAMENTO DE DADOS
MODELOS PREDITIVOS
ANÁLISE DE ASSOCIAÇÕES
ANÁLISE DE AGRUPAMENTOS
DETECÇÃO DE ANOMALIAS
DETECÇÃO DE ANOMALIAS
ABORDAGEM ESTATÍSTICA
DETECÇÃO BASEADA EM PROXIMIDADE
DETECÇÃO BASEADA EM DENSIDADE