4.0. 4.0.4.0.
4.0. Ferramentas de Data Mining
4.1. 4.1. 4.1. 4.1. Análise de Clusters 4.2. 4.2. 4.2. 4.2. Regras de Associação
4. Ferramentas de Exploração
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre 2010/11
Ferramentas de Data Mining
2
ModeloModelo DescritivoModeloModelo DescritivoDescritivo::::Descritivo tem como principal objectivo aumentar o nível de compreensão sobre os dados e consequentemente um melhor entendimento sobre o que se passa “no mundo” que os dados reflectem;
ModeloModeloModeloModelo PrescritivoPrescritivoPrescritivoPrescritivo::::automatizar o processo de tomada de decisão através da construção de modelos capazes de executar previsões.
2
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Ferramentas de Data Mining
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
ModeloModelo DescritivoModeloModelo DescritivoDescritivo::::Descritivo tem como principal objectivo aumentar o nível de compreensão sobre os dados e consequentemente um melhor entendimento sobre o que se passa “no mundo” que os dados reflectem;
AnáliseAnáliseAnáliseAnálise dedede ClustersdeClustersClusters;;;;Clusters
RegrasRegrasRegrasRegras dededede AssociaçãoAssociaçãoAssociaçãoAssociação....
ModeloModeloModeloModelo PrescritivoPrescritivoPrescritivoPrescritivo::::automatizar o processo de tomada de decisão através da construção de modelos capazes de executar previsões.
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
3 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11… é o processo da divisãodivisãodivisão dodivisão dodo conjuntodo conjuntoconjunto deconjunto de dadosdede dadosdados emdados ememem subconjuntossubconjuntossubconjuntossubconjuntos (clusters), de tal modo que as observações presentes no mesmo cluster são, de acordo com algum critério, semelhantes; contudo, deverão ser diferentes das observações dos outros clusters.
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Conjunto Conjunto ConjuntoConjunto dededede objectosobjectosobjectosobjectos →→→→ GruposGruposGruposGrupos
ClassificaçãoClassificaçãoClassificaçãoClassificação supervisionadasupervisionadasupervisionada::::supervisionada classificação de objectos através da construção de um modelo preditivo;
ClassificaçãoClassificação nãoClassificaçãoClassificaçãonãonão supervisionadanãosupervisionadasupervisionadasupervisionada::::Análise de Clusters.
Análise de Clusters
5 Quantos Clusters? Quantos Clusters? Quantos Clusters? Quantos Clusters? Dois Clusters Quatro Clusters Seis Clusters4
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
AnáliseAnáliseAnáliseAnálise dedede ClustersdeClustersClustersClusters ParticionadaParticionadaParticionadaParticionada::::os objectos são divididos em grupos disjuntos, de tal forma que cada observação pertence a um e um só cluster;
AnáliseAnálise deAnáliseAnálisededede ClustersClustersClustersClusters HierárquicaHierárquicaHierárquicaHierárquica::::os grupos são organizados em forma de árvore hierárquica .
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
7 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11WellWellWellWell----separatedseparatedseparated clustersseparated clustersclustersclusters:::: cada observação está “mais perto” das observações do cluster a que pertence do que a qualquer observação de outro cluster ;
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
CenterCenterCenterCenter----basedbasedbasedbased clustersclustersclusters::::clusters cada observação está “mais perto” do centro do cluster a que pertence do que do centro de qualquer centro de outro cluster ;
Tipos de Clusters
Análise de Clusters
9
ContiguityContiguityContiguityContiguity----basedbasedbased clustersbased clustersclustersclusters:::: cada observação está “mais perto” de uma observação do cluster a que pertence do que a qualquer observação de outro cluster ;
6
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
DensityDensityDensityDensity----basedbasedbasedbased clustersclustersclustersclusters::::os clusters correspondem a regiões de densidade alta, separados por regiões de densidade baixa;
Tipos de Clusters
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
11 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11ConceptualConceptualConceptualConceptual clustersclustersclustersclusters:::: as observações de cada cluster partilham alguma característica ou representam um determinado conceito;
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
SemelhançaSemelhançaSemelhançaSemelhança entreentreentreentre doisdoisdois objectosdoisobjectosobjectosobjectos::::valor numérico que traduz o quanto os dois objectos são parecidos; em geral, esse valor varia entre 0 e 1, sendo próximo de 0 se os objectos não tem qualquer tipo de semelhança e próximo de 1 quando os dois objectos são quase idênticos.
Medidas de semelhança e distância
DissemelhançaDissemelhançaDissemelhançaDissemelhança entreentreentre doisentredoisdoisdois objectosobjectosobjectosobjectos::::valor numérico que traduz o quanto os dois objectos são diferentes; frequentemente, utiliza-se distância como sinónimo de dissemelhança.
Análise de Clusters
13
8
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11Matriz de dissemelhanças
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
15 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11Medidas de distância para
Variáveis
Variáveis
Variáveis
Variáveis Intervalares
Intervalares
Intervalares
Intervalares
Distância Euclidiana: Distância Euclidiana: Distância Euclidiana: Distância Euclidiana: Distância Distância Distância
Distância MinkowskiMinkowskiMinkowski::::Minkowski Distância Manhattan: Distância Manhattan: Distância Manhattan: Distância Manhattan:
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Medidas de distância para
Variáveis
Variáveis
Variáveis
Variáveis Binárias
Binárias
Binárias
Binárias
Análise de Clusters
17
Medidas de distância para
Variáveis
Variáveis
Variáveis
Variáveis Binárias
Binárias
Binárias
Binárias
Coeficiente de Coeficiente de Coeficiente de Coeficiente de JaccardJaccardJaccard::::Jaccard
Coeficiente de correspondência simples: Coeficiente de correspondência simples: Coeficiente de correspondência simples: Coeficiente de correspondência simples:
Exemplo: Exemplo: Exemplo: Exemplo:
10
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Medidas de distância para
Variáveis
Variáveis
Variáveis
Variáveis Nominais
Nominais
Nominais
Nominais
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
19 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Medidas de distância para
ObjectosObjectosObjectosObjectos comcomcom diferentescomdiferentes tiposdiferentesdiferentestipostipos detiposdedede atributosatributosatributosatributosAnálise de Clusters
21
Medidas de distância para
ObjectosObjectosObjectos comObjectoscomcom diferentescomdiferentes dediferentesdiferentesdede atributosdeatributosatributosatributos Pesos diferentes a atributos diferentes:Pesos diferentes a atributos diferentes: Pesos diferentes a atributos diferentes: Pesos diferentes a atributos diferentes:
12
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Hierárquica
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
DeDe agregaçãoDeDeagregaçãoagregação::::agregação no início cada objecto define um cluster e em cada iteração o par de clusters maismaismaismais próximopróximopróximopróximo é agregado.
É necessário uma medida de proximidade entre clusters.
DeDe divisãoDeDedivisãodivisãodivisão::::começa-se com um único cluster e em cada iteração divide-se um dos clusters até que cada objecto constitua um cluster.
É necessário decidir em cada iteração que cluster se deve dividir e de que forma.
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Hierárquica
23
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Hierárquica
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar?
MIN ( MIN ( MIN (
MIN (singlesinglesinglesingle link)link)link)link) MAX (complete link)MAX (complete link)MAX (complete link)MAX (complete link)
MÉDIA ( MÉDIA ( MÉDIA (
MÉDIA (groupgroupgroupgroup averageaverageaverage))))average
Análise de Clusters Hierárquica
25
Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar?
Método de Método de Método de Método de WardWardWardWard
Considera-se que a proximidade de dois clusters é definida pelo aumento no valor da medida de performance SSE (SumSumSum ofSumofofof thethethe squaredthesquaredsquared errorsquarederrorerrorerror) que a agregação desses dois clusters produz.
14
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Hierárquica
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Exemplo: Exemplo: Exemplo: Exemplo: Ponto Ponto Ponto
Ponto Coordenada xCoordenada xCoordenada xCoordenada x Coordenada yCoordenada yCoordenada yCoordenada y
P1 0,4 0,53 P2 0,22 0,38 P3 0,35 0,32 P4 0,26 0,19 P5 0,08 0,41 P6 0,45 0,3 P1 P2 P3 P4 P5 P6 0 0,1 0,2 0,3 0,4 0,5 0,6 0 0,1 0,2 0,3 0,4 0,5
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Hierárquica
27 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Exemplo: Exemplo: Exemplo: Exemplo:
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
K
K
K
K----means
means
means
means:
:
:
:
centro do cluster (centróidecentro do cluster (centro do cluster (centro do cluster (centróidecentróide) corresponde, em geral, à média das centróide) corresponde, em geral, à média das ) corresponde, em geral, à média das ) corresponde, em geral, à média das observações que constituem o grupo.observações que constituem o grupo. observações que constituem o grupo. observações que constituem o grupo.
Center CenterCenter
Center----basedbasedbasedbased clusters clusters clusters typeclusters typetypetype
K
K
K
K----medoids
medoids
medoids
medoids:
:
:
:
centro do cluster corresponde centro do centro do centro do cluster corresponde cluster corresponde cluster corresponde à observação mais representativa à observação mais representativa à observação mais representativa à observação mais representativa do grupo, ou seja, aquela cuja soma da distância às restantes do grupo é mínima. do grupo, ou seja, aquela cuja soma da distância às restantes do grupo é mínima. do grupo, ou seja, aquela cuja soma da distância às restantes do grupo é mínima. do grupo, ou seja, aquela cuja soma da distância às restantes do grupo é mínima.Análise de Clusters Particionada
29
Cada cluster tem associado um centro (centróidecentróidecentróidecentróide) Cada observação é afecta ao cluster que tiver o seu centro “mais próximo” dela O número de clusters, K, deverá ser especificado a prioriK K K K----meansmeansmeansmeans
16
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Geralmente, os centróides iniciais são escolhidos de forma aleatória.– Os resultados obtidos variam conforme a escolha inicial.
O centróide é (tipicamente) a média das observações que constituem o cluster. “Proximidade” é quantificada pela distância euclidiana, correlação, etc. Existe a garantia de convergência do algoritmo para as medidas de proximidade mais comuns Ao fim de poucas iterações é comum obter-se uma solução “muito próxima” da final, por isso a condição de paragem é substituída por:“até queaté queaté queaté que poucas observações alterem de clusters.” Observações: Observações: Observações: Observações: K K K K----meansmeansmeansmeans
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
31 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Dados originais Dados originais Dados originais Dados originais Clustering Clustering Clustering
Clustering óptimoóptimoóptimoóptimo ClusteringClusteringClusteringClustering subsubsubsub----óptimoóptimoóptimoóptimo
K K K K----meansmeansmeansmeans
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 K K K K----meansmeansmeansmeans
Análise de Clusters Particionada
33
A medida de avaliação mais comum de um processo de clustering é:– é observação do cluster e o elemento representativo desse cluster.
– Entre duas soluções escolhe-se a que apresentar SSE menor.
– É possível diminuir o SSE através do aumento do número de clusters, K. Avaliação do
Avaliação do Avaliação do
Avaliação do clusteringclusteringclustering::::clustering
K K K K----meansmeansmeansmeans
18
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
A escolha dos centróides iniciais é usualmente feita de forma aleatória.Escolha inicial dos Escolha inicial dos Escolha inicial dos
Escolha inicial dos centróidescentróidescentróidescentróides::::
MAS MAS MAS MAS Dados originais Dados originais Dados originais Dados originais K K K K----meansmeansmeansmeans
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
35
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Avaliar as soluções obtidas para inicializações diferentes. Para uma amostra das observações utilizar um modelo de clustering hierárquico e utilizar os clusters encontrados como centróides iniciais. Seleccionar aleatoriamente mais do K centróides e desses seleccionar os K mais “afastados”. Utilizar outras versões do K-means: p.ex. Bisecting K-means.Soluções para o problema da “Escolha inicial dos Soluções para o problema da “Escolha inicial dos Soluções para o problema da “Escolha inicial dos
Soluções para o problema da “Escolha inicial dos centróidescentróidescentróides”:centróides”:”:”:
K K K K----meansmeansmeansmeans
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Clusters sem observaçõesClusters sem observaçõesClusters sem observaçõesClusters sem observações– SoluçãoSolução: Substituir esse centróide.SoluçãoSolução
Por exemplo,
1. 1. 1.
1. Substitui-lo pela observação mais afastada de qualquer centróide;
2. 2. 2.
2. Substitui-lo por uma das observações do cluster que apresentar maior valor de SSE.
OutliersOutliersOutliersOutliersQuestões adicionais: Questões adicionais: Questões adicionais: Questões adicionais: K K K K----meansmeansmeansmeans
Análise de Clusters Particionada
37
É uma rede neuronal não supervisionadanão supervisionadanão supervisionadanão supervisionada com capacidade de organizar conjunto de dados. Da perspectiva das RN, é entendida como uma técnica de técnica de técnica de clusteringtécnica de clusteringclusteringclustering e de visualizaçãovisualizaçãovisualização
visualização dos dados.
O SOM tem como objectivo encontrar um conjunto de centróides (neurónios) e afectar cada observação do conjunto de dados ao centróide “mais próximo” (Best Matching Unit – BMU)Self Self Self
Self----OrganizingOrganizingOrganizing MapsOrganizingMapsMapsMaps (SOM)(SOM)(SOM)(SOM)
SOM SOM SOM SOM Center CenterCenter
20
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
É uma rede neuronal com uma camada de input e uma camada de output. O SOM impõe uma organização topográfica dos centróides; e portanto, a camada de output está organizada em forma de grelha e é em geral designada por “mapa topológico”. SOM SOM SOM SOMData
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
40
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
As observações são processadas uma de cada vez e de cada vez que é apresentada uma nova observação a BMU e os centróides vizinhos são actualizados (processamento on-line); Ao contrário do k-means, se uma observação mudar de cluster, o centróide do “antigo” cluster só será actualizado se ele for “vizinho” do centróide do novo cluster; O processamento das observações continua até que se atinja um limite pré-especificado ou que nenhum dos centróides se modifique.SOM SOM SOM SOM Funcionamento: Funcionamento: Funcionamento: Funcionamento:
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Uma vez que, o SOM produz um conjunto “ordenado” de centróides, sabemos que um centróide estará “mais próximo” dos seus centróides “vizinhos” no mapa topológico do que dos outros.SOM SOM SOM SOM
Análise de Clusters Particionada
42
SOM SOM SOM SOM
22
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM
InicializaçãoInicializaçãoInicializaçãoInicialização: p.ex. escolher aleatoriamente de entre o conjunto de valores possíveis o valor de cada componente de cada centróide; ou escolher de entre o conjunto de observações os centróides;Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
42 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM
Análise de Clusters Particionada
42
SOM SOM SOM SOM
24
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM http://blog.peltarion.com/2007/04/10/the http://blog.peltarion.com/2007/04/10/the http://blog.peltarion.com/2007/04/10/the
http://blog.peltarion.com/2007/04/10/the----selfselfselfself----organizedorganizedorganizedorganized----genegenegenegene----partpartpartpart----1/1/1/1/
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
44 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM Component Component Component Component PlanesPlanesPlanesPlanes
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise de Clusters Particionada
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM Matriz Matriz Matriz Matriz----UUUU
Análise de Clusters Particionada
44 SOM SOM SOM SOM Exemplo de Aplicação: Exemplo de Aplicação: Exemplo de Aplicação:
26
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise dos Resultados
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Exemplo: Exemplo: Exemplo: Exemplo:
Consider the following scenario. A baseball manager wants to identify players who are very similar with respect to several statistics of interest. The manager also wants to learn what differentiates players in one group from players in a different group.
Segment SegmentSegment Segment ProfileProfileProfileProfile
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise dos Resultados
46
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise dos Resultados
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Análise dos Resultados
47 Exemplo: Exemplo: Exemplo: Exemplo: 1 2 3 2763.08 2763.08 2763.08 2763.08 273.39273.39273.39273.39 747.69747.69747.69747.69 74.0974.0974.0974.09 347.61347.61347.61347.61 374.29374.29374.29374.29 5.93 5.93 5.93 5.93 106.92 106.92106.92 106.92 390.07390.07390.07390.07 39.8639.8639.8639.86 8.048.048.048.04 103.40103.40103.40103.40 11.1011.1011.1011.10 288.99288.99288.99288.99 49.3749.3749.3749.37 52.2252.2252.2252.22 7.687.687.687.68
28
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise dos Resultados
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise dos Resultados
48
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise dos Resultados
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Regras de Associação
50 Transaction Transaction TransactionTransaction IDIDIDID ItensItensItensItens 1 {Pão, Leite}
2 {Pão, Fraldas, Cerveja, Ovos} 3 {Leite, Fraldas, Cerveja, Cola} 4 {Pão, Leite, Fraldas, Cerveja} 5 {Pão, Leite, Fraldas, Cola}
Acções de Marketing Gestão de Stocks
CRM (Customer Relation Management)
{Fraldas} {Fraldas} {Fraldas}
30
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras de Associação
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Outras Aplicações: Outras Aplicações: Outras Aplicações: Outras Aplicações: Web Web Web Web MiningMiningMiningMining BioinformáticaBioinformática Bioinformática Bioinformática
Diagnósticos Médicos Diagnósticos MédicosDiagnósticos Médicos Diagnósticos Médicos Análise de dados Análise de dados Análise de dados Análise de dados
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras inexplicáveisRegras inexplicáveisRegras inexplicáveisRegras inexplicáveisRegras de Associação
52 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11Tipos de Regras de Associação Tipos de Regras de Associação Tipos de Regras de Associação Tipos de Regras de Associação
Regras úteisRegras úteisRegras úteisRegras úteisData
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras de Associação
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Qualidade das Regras de Associação: Qualidade das Regras de Associação: Qualidade das Regras de Associação: Qualidade das Regras de Associação:
Transaction TransactionTransaction
Transaction IDIDIDID ItensItensItensItens 1
11
1 {Pão, Leite} 2
22
2 {Pão, Fraldas, Cerveja, Ovos} 3
33
3 {Leite, Fraldas, Cerveja, Cola} 4
44
4 {Pão, Leite, Fraldas, Cerveja} 5
55
5 {Pão, Leite, Fraldas, Cola}
TID TID TID
TID PãoPãoPãoPão LeiteLeiteLeiteLeite FraldasFraldasFraldasFraldas CervejaCervejaCervejaCerveja OvosOvosOvosOvos ColaColaColaCola 1 1 1 1 1 1 0 0 0 0 2 2 2 2 1 0 1 1 1 0 3 3 3 3 0 1 1 1 0 1 4 4 4 4 1 1 1 1 0 0 5 5 5 5 1 1 1 0 0 1
Regras de Associação
54 TID TID TIDTID PãoPãoPãoPão LeiteLeiteLeiteLeite FraldasFraldasFraldasFraldas CervejaCervejaCervejaCerveja OvosOvosOvosOvos ColaColaColaCola Nº ItensNº ItensNº ItensNº Itens
1 11
1 1 1 0 0 0 0 2222 2222----itemsetitemsetitemsetitemset
2 22
2 1 0 1 1 1 0 4444 4444----itemsetitemsetitemsetitemset
3 33
3 0 1 1 1 0 1 4444 4444----itemsetitemsetitemsetitemset
4 44
4 1 1 1 1 0 0 4444 4444----itemsetitemsetitemsetitemset
5 55
32
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras de Associação
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11X
X
X
X
Y
Y
Y
Y
U
U
U
U
X→Y
X→Y
X→Y
X→Y
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras de Associação
56 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 {Leite, Fraldas} {Leite, Fraldas} {Leite, Fraldas}{Leite, Fraldas} ⇒⇒⇒ {Cerveja}⇒{Cerveja}{Cerveja}{Cerveja}
Suporte SuporteSuporte
Suporte = (nº de TID que contém {Leite, Fraldas, Cerveja})/ (nº total de TID) = 2/5 = 0.4
Confiança ConfiançaConfiança
Confiança = (nº de TID que contém {Leite, Fraldas, Cerveja})/ / (nº total de TID que contém {Leite, Fraldas}) = 2/3 = 0.67
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras de Associação
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 {Leite, Fraldas} {Leite, Fraldas} {Leite, Fraldas}{Leite, Fraldas} ⇒⇒⇒ {Cerveja}⇒{Cerveja}{Cerveja}{Cerveja}
Confiança esperada Confiança esperada Confiança esperada
Confiança esperada = (nº de TID que contém {Cerveja})/ (nº total de TID) = 3/5 = 0.6 Lift Lift Lift Lift = 0.67/0.6 = 1.13
Regras de Associação
58Uma regra credível regra credível regra credível regra credível deve possuir um bom nível de confiança, um elevado nível de suporte e um lift superior a 1.
Regras com um elevado nível de confiança mas com suporte baixo devem ser interpretadas com cuidado!
Exemplo Exemplo Exemplo Exemplo Não Não Não
Não SimSimSimSim TotalTotalTotalTotal Não Não Não Não 500 3500 4000 Sim Sim Sim Sim 1000 5000 6000 Total Total Total Total 1500 8500 10000 Conta à Ordem Conta à Ordem Conta à Ordem Conta à Ordem C o n ta a P ra zo C o n ta a P ra zo C o n ta a P ra zo C o n ta a P ra zo
34
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras de Associação
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11
Construção de Regras de Associação: Construção de Regras de Associação: Construção de Regras de Associação: Construção de Regras de Associação:
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras de Associação
60 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11Dados: cruciais para o sucesso
É preciso dispor de uma enorme quantidade de dados
O que se considera ser um item? pizza ou pizza 4 estações
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Regras de Associação
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Comida congelada Refeições congeladas Vegetais congelados Sobremesas congeladas Gelados Iogurte geladoMorango Chocolate Baunilha Caramelo
Marcas, embalagens e quantidades
G e ra l M a is d e ta lh e
Regras de Associação
6136
Data
Data
Data
Data
Data
Data
Data
Data Mining
Mining
Mining
Mining
Mining
Mining
Mining
Mining
Análise RFM e segmentação
Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11R
R
R
R---- Recency
Recency
Recency
Recency
Quem comprou há menos tempo tem maior probabilidade de voltar a comprar
F
F
F
F---- Frequency
Frequency
Frequency
Frequency
Quem comprou mais vezes durante um determinado período de tempo tem maior probabilidade de voltar a comprar
M
M
M
M---- Monetary
Monetary
Monetary Analysis
Monetary
Analysis
Analysis
Analysis
Quem gastou mais vezes durante um determinado período de tempo tem maior probabilidade de voltar a comprar