• Nenhum resultado encontrado

4.FerramentasDeExploracao

N/A
N/A
Protected

Academic year: 2021

Share "4.FerramentasDeExploracao"

Copied!
37
0
0

Texto

(1)

4.0. 4.0.4.0.

4.0. Ferramentas de Data Mining

4.1. 4.1. 4.1. 4.1. Análise de Clusters 4.2. 4.2. 4.2. 4.2. Regras de Associação

4. Ferramentas de Exploração

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre 2010/11

Ferramentas de Data Mining

2

 ModeloModelo DescritivoModeloModelo DescritivoDescritivo::::Descritivo tem como principal objectivo aumentar o nível de compreensão sobre os dados e consequentemente um melhor entendimento sobre o que se passa “no mundo” que os dados reflectem;

 ModeloModeloModeloModelo PrescritivoPrescritivoPrescritivoPrescritivo::::automatizar o processo de tomada de decisão através da construção de modelos capazes de executar previsões.

(2)

2

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Ferramentas de Data Mining

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

 ModeloModelo DescritivoModeloModelo DescritivoDescritivo::::Descritivo tem como principal objectivo aumentar o nível de compreensão sobre os dados e consequentemente um melhor entendimento sobre o que se passa “no mundo” que os dados reflectem;

 AnáliseAnáliseAnáliseAnálise dedede ClustersdeClustersClusters;;;;Clusters

 RegrasRegrasRegrasRegras dededede AssociaçãoAssociaçãoAssociaçãoAssociação....

 ModeloModeloModeloModelo PrescritivoPrescritivoPrescritivoPrescritivo::::automatizar o processo de tomada de decisão através da construção de modelos capazes de executar previsões.

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

3 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

… é o processo da divisãodivisãodivisão dodivisão dodo conjuntodo conjuntoconjunto deconjunto de dadosdede dadosdados emdados ememem subconjuntossubconjuntossubconjuntossubconjuntos (clusters), de tal modo que as observações presentes no mesmo cluster são, de acordo com algum critério, semelhantes; contudo, deverão ser diferentes das observações dos outros clusters.

(3)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Conjunto Conjunto Conjunto

Conjunto dededede objectosobjectosobjectosobjectos →→→→ GruposGruposGruposGrupos

 ClassificaçãoClassificaçãoClassificaçãoClassificação supervisionadasupervisionadasupervisionada::::supervisionada classificação de objectos através da construção de um modelo preditivo;

 ClassificaçãoClassificação nãoClassificaçãoClassificaçãonãonão supervisionadanãosupervisionadasupervisionadasupervisionada::::Análise de Clusters.

Análise de Clusters

5 Quantos Clusters? Quantos Clusters? Quantos Clusters? Quantos Clusters? Dois Clusters Quatro Clusters Seis Clusters

(4)

4

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

 AnáliseAnáliseAnáliseAnálise dedede ClustersdeClustersClustersClusters ParticionadaParticionadaParticionadaParticionada::::os objectos são divididos em grupos disjuntos, de tal forma que cada observação pertence a um e um só cluster;

 AnáliseAnálise deAnáliseAnálisededede ClustersClustersClustersClusters HierárquicaHierárquicaHierárquicaHierárquica::::os grupos são organizados em forma de árvore hierárquica .

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

7 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

 WellWellWellWell----separatedseparatedseparated clustersseparated clustersclustersclusters:::: cada observação está “mais perto” das observações do cluster a que pertence do que a qualquer observação de outro cluster ;

(5)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

 CenterCenterCenterCenter----basedbasedbasedbased clustersclustersclusters::::clusters cada observação está “mais perto” do centro do cluster a que pertence do que do centro de qualquer centro de outro cluster ;

Tipos de Clusters

Análise de Clusters

9

 ContiguityContiguityContiguityContiguity----basedbasedbased clustersbased clustersclustersclusters:::: cada observação está “mais perto” de uma observação do cluster a que pertence do que a qualquer observação de outro cluster ;

(6)

6

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

 DensityDensityDensityDensity----basedbasedbasedbased clustersclustersclustersclusters::::os clusters correspondem a regiões de densidade alta, separados por regiões de densidade baixa;

Tipos de Clusters

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

11 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

 ConceptualConceptualConceptualConceptual clustersclustersclustersclusters:::: as observações de cada cluster partilham alguma característica ou representam um determinado conceito;

(7)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

 SemelhançaSemelhançaSemelhançaSemelhança entreentreentreentre doisdoisdois objectosdoisobjectosobjectosobjectos::::valor numérico que traduz o quanto os dois objectos são parecidos; em geral, esse valor varia entre 0 e 1, sendo próximo de 0 se os objectos não tem qualquer tipo de semelhança e próximo de 1 quando os dois objectos são quase idênticos.

Medidas de semelhança e distância

 DissemelhançaDissemelhançaDissemelhançaDissemelhança entreentreentre doisentredoisdoisdois objectosobjectosobjectosobjectos::::valor numérico que traduz o quanto os dois objectos são diferentes; frequentemente, utiliza-se distância como sinónimo de dissemelhança.

Análise de Clusters

13

(8)

8

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Matriz de dissemelhanças

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

15 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Medidas de distância para

Variáveis

Variáveis

Variáveis

Variáveis Intervalares

Intervalares

Intervalares

Intervalares

Distância Euclidiana: Distância Euclidiana: Distância Euclidiana: Distância Euclidiana: Distância Distância Distância

Distância MinkowskiMinkowskiMinkowski::::Minkowski Distância Manhattan: Distância Manhattan: Distância Manhattan: Distância Manhattan:

(9)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Medidas de distância para

Variáveis

Variáveis

Variáveis

Variáveis Binárias

Binárias

Binárias

Binárias

Análise de Clusters

17

Medidas de distância para

Variáveis

Variáveis

Variáveis

Variáveis Binárias

Binárias

Binárias

Binárias

Coeficiente de Coeficiente de Coeficiente de Coeficiente de JaccardJaccardJaccard::::Jaccard

Coeficiente de correspondência simples: Coeficiente de correspondência simples: Coeficiente de correspondência simples: Coeficiente de correspondência simples:

Exemplo: Exemplo: Exemplo: Exemplo:

(10)

10

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Medidas de distância para

Variáveis

Variáveis

Variáveis

Variáveis Nominais

Nominais

Nominais

Nominais

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

19 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

(11)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Medidas de distância para

ObjectosObjectosObjectosObjectos comcomcom diferentescomdiferentes tiposdiferentesdiferentestipostipos detiposdedede atributosatributosatributosatributos

Análise de Clusters

21

Medidas de distância para

ObjectosObjectosObjectos comObjectoscomcom diferentescomdiferentes dediferentesdiferentesdede atributosdeatributosatributosatributos Pesos diferentes a atributos diferentes:

Pesos diferentes a atributos diferentes: Pesos diferentes a atributos diferentes: Pesos diferentes a atributos diferentes:

(12)

12

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Hierárquica

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

 DeDe agregaçãoDeDeagregaçãoagregação::::agregação no início cada objecto define um cluster e em cada iteração o par de clusters maismaismaismais próximopróximopróximopróximo é agregado.

É necessário uma medida de proximidade entre clusters.

 DeDe divisãoDeDedivisãodivisãodivisão::::começa-se com um único cluster e em cada iteração divide-se um dos clusters até que cada objecto constitua um cluster.

É necessário decidir em cada iteração que cluster se deve dividir e de que forma.

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Hierárquica

23

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

(13)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Hierárquica

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar?

MIN ( MIN ( MIN (

MIN (singlesinglesinglesingle link)link)link)link) MAX (complete link)MAX (complete link)MAX (complete link)MAX (complete link)

MÉDIA ( MÉDIA ( MÉDIA (

MÉDIA (groupgroupgroupgroup averageaverageaverage))))average

Análise de Clusters Hierárquica

25

Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar? Proximidade entre clusters: como determinar?

Método de Método de Método de Método de WardWardWardWard

Considera-se que a proximidade de dois clusters é definida pelo aumento no valor da medida de performance SSE (SumSumSum ofSumofofof thethethe squaredthesquaredsquared errorsquarederrorerrorerror) que a agregação desses dois clusters produz.

(14)

14

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Hierárquica

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Exemplo: Exemplo: Exemplo: Exemplo: Ponto Ponto Ponto

Ponto Coordenada xCoordenada xCoordenada xCoordenada x Coordenada yCoordenada yCoordenada yCoordenada y

P1 0,4 0,53 P2 0,22 0,38 P3 0,35 0,32 P4 0,26 0,19 P5 0,08 0,41 P6 0,45 0,3 P1 P2 P3 P4 P5 P6 0 0,1 0,2 0,3 0,4 0,5 0,6 0 0,1 0,2 0,3 0,4 0,5

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Hierárquica

27 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Exemplo: Exemplo: Exemplo: Exemplo:

(15)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

K

K

K

K----means

means

means

means:

:

:

:

centro do cluster (centróidecentro do cluster (centro do cluster (centro do cluster (centróidecentróide) corresponde, em geral, à média das centróide) corresponde, em geral, à média das ) corresponde, em geral, à média das ) corresponde, em geral, à média das observações que constituem o grupo.

observações que constituem o grupo. observações que constituem o grupo. observações que constituem o grupo.

Center CenterCenter

Center----basedbasedbasedbased clusters clusters clusters typeclusters typetypetype

K

K

K

K----medoids

medoids

medoids

medoids:

:

:

:

centro do cluster corresponde centro do centro do centro do cluster corresponde cluster corresponde cluster corresponde à observação mais representativa à observação mais representativa à observação mais representativa à observação mais representativa do grupo, ou seja, aquela cuja soma da distância às restantes do grupo é mínima. do grupo, ou seja, aquela cuja soma da distância às restantes do grupo é mínima. do grupo, ou seja, aquela cuja soma da distância às restantes do grupo é mínima. do grupo, ou seja, aquela cuja soma da distância às restantes do grupo é mínima.

Análise de Clusters Particionada

29



Cada cluster tem associado um centro (centróidecentróidecentróidecentróide)



Cada observação é afecta ao cluster que tiver o seu centro “mais próximo” dela



O número de clusters, K, deverá ser especificado a priori

K K K K----meansmeansmeansmeans

(16)

16

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11



Geralmente, os centróides iniciais são escolhidos de forma aleatória.

– Os resultados obtidos variam conforme a escolha inicial.



O centróide é (tipicamente) a média das observações que constituem o cluster.



“Proximidade” é quantificada pela distância euclidiana, correlação, etc.



Existe a garantia de convergência do algoritmo para as medidas de proximidade mais comuns



Ao fim de poucas iterações é comum obter-se uma solução “muito próxima” da final, por isso a condição de paragem é substituída por:

“até queaté queaté queaté que poucas observações alterem de clusters.” Observações: Observações: Observações: Observações: K K K K----meansmeansmeansmeans

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

31 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Dados originais Dados originais Dados originais Dados originais Clustering Clustering Clustering

Clustering óptimoóptimoóptimoóptimo ClusteringClusteringClusteringClustering subsubsubsub----óptimoóptimoóptimoóptimo

K K K K----meansmeansmeansmeans

(17)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 K K K K----meansmeansmeansmeans

Análise de Clusters Particionada

33



A medida de avaliação mais comum de um processo de clustering é:

– é observação do cluster e o elemento representativo desse cluster.

– Entre duas soluções escolhe-se a que apresentar SSE menor.

É possível diminuir o SSE através do aumento do número de clusters, K. Avaliação do

Avaliação do Avaliação do

Avaliação do clusteringclusteringclustering::::clustering

K K K K----meansmeansmeansmeans

(18)

18

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11



A escolha dos centróides iniciais é usualmente feita de forma aleatória.

Escolha inicial dos Escolha inicial dos Escolha inicial dos

Escolha inicial dos centróidescentróidescentróidescentróides::::

MAS MAS MAS MAS Dados originais Dados originais Dados originais Dados originais K K K K----meansmeansmeansmeans

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

35

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11



Avaliar as soluções obtidas para inicializações diferentes.



Para uma amostra das observações utilizar um modelo de clustering hierárquico e utilizar os clusters encontrados como centróides iniciais.



Seleccionar aleatoriamente mais do K centróides e desses seleccionar os K mais “afastados”.



Utilizar outras versões do K-means: p.ex. Bisecting K-means.

Soluções para o problema da “Escolha inicial dos Soluções para o problema da “Escolha inicial dos Soluções para o problema da “Escolha inicial dos

Soluções para o problema da “Escolha inicial dos centróidescentróidescentróides”:centróides”:”:”:

K K K K----meansmeansmeansmeans

(19)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11



Clusters sem observaçõesClusters sem observaçõesClusters sem observaçõesClusters sem observações

– SoluçãoSolução: Substituir esse centróide.SoluçãoSolução

Por exemplo,

1. 1. 1.

1. Substitui-lo pela observação mais afastada de qualquer centróide;

2. 2. 2.

2. Substitui-lo por uma das observações do cluster que apresentar maior valor de SSE.



OutliersOutliersOutliersOutliers

Questões adicionais: Questões adicionais: Questões adicionais: Questões adicionais: K K K K----meansmeansmeansmeans

Análise de Clusters Particionada

37



É uma rede neuronal não supervisionadanão supervisionadanão supervisionadanão supervisionada com capacidade de organizar conjunto de dados.



Da perspectiva das RN, é entendida como uma técnica de técnica de técnica de clusteringtécnica de clusteringclusteringclustering e de visualização

visualizaçãovisualização

visualização dos dados.



O SOM tem como objectivo encontrar um conjunto de centróides (neurónios) e afectar cada observação do conjunto de dados ao centróide “mais próximo” (Best Matching Unit – BMU)

Self Self Self

Self----OrganizingOrganizingOrganizing MapsOrganizingMapsMapsMaps (SOM)(SOM)(SOM)(SOM)

SOM SOM SOM SOM Center CenterCenter

(20)

20

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11



É uma rede neuronal com uma camada de input e uma camada de output. O SOM impõe uma organização topográfica dos centróides; e portanto, a camada de output está organizada em forma de grelha e é em geral designada por “mapa topológico”. SOM SOM SOM SOM

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

40

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11



As observações são processadas uma de cada vez e de cada vez que é apresentada uma nova observação a BMU e os centróides vizinhos são actualizados (processamento on-line);



Ao contrário do k-means, se uma observação mudar de cluster, o centróide do “antigo” cluster só será actualizado se ele for “vizinho” do centróide do novo cluster;



O processamento das observações continua até que se atinja um limite pré-especificado ou que nenhum dos centróides se modifique.

SOM SOM SOM SOM Funcionamento: Funcionamento: Funcionamento: Funcionamento:

(21)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11



Uma vez que, o SOM produz um conjunto “ordenado” de centróides, sabemos que um centróide estará “mais próximo” dos seus centróides “vizinhos” no mapa topológico do que dos outros.

SOM SOM SOM SOM

Análise de Clusters Particionada

42

SOM SOM SOM SOM

(22)

22

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM



InicializaçãoInicializaçãoInicializaçãoInicialização: p.ex. escolher aleatoriamente de entre o conjunto de valores possíveis o valor de cada componente de cada centróide; ou escolher de entre o conjunto de observações os centróides;

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

42 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM

(23)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM

Análise de Clusters Particionada

42

SOM SOM SOM SOM

(24)

24

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM http://blog.peltarion.com/2007/04/10/the http://blog.peltarion.com/2007/04/10/the http://blog.peltarion.com/2007/04/10/the

http://blog.peltarion.com/2007/04/10/the----selfselfselfself----organizedorganizedorganizedorganized----genegenegenegene----partpartpartpart----1/1/1/1/

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

44 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM Component Component Component Component PlanesPlanesPlanesPlanes

(25)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise de Clusters Particionada

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 SOM SOM SOM SOM Matriz Matriz Matriz Matriz----UUUU

Análise de Clusters Particionada

44 SOM SOM SOM SOM Exemplo de Aplicação: Exemplo de Aplicação: Exemplo de Aplicação:

(26)

26

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise dos Resultados

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Exemplo: Exemplo: Exemplo: Exemplo:

Consider the following scenario. A baseball manager wants to identify players who are very similar with respect to several statistics of interest. The manager also wants to learn what differentiates players in one group from players in a different group.

Segment SegmentSegment Segment ProfileProfileProfileProfile

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise dos Resultados

46

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

(27)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise dos Resultados

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Análise dos Resultados

47 Exemplo: Exemplo: Exemplo: Exemplo: 1 2 3 2763.08 2763.08 2763.08 2763.08 273.39273.39273.39273.39 747.69747.69747.69747.69 74.0974.0974.0974.09 347.61347.61347.61347.61 374.29374.29374.29374.29 5.93 5.93 5.93 5.93 106.92 106.92106.92 106.92 390.07390.07390.07390.07 39.8639.8639.8639.86 8.048.048.048.04 103.40103.40103.40103.40 11.1011.1011.1011.10 288.99288.99288.99288.99 49.3749.3749.3749.37 52.2252.2252.2252.22 7.687.687.687.68

(28)

28

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise dos Resultados

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise dos Resultados

48

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

(29)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise dos Resultados

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Regras de Associação

50 Transaction Transaction Transaction

Transaction IDIDIDID ItensItensItensItens 1 {Pão, Leite}

2 {Pão, Fraldas, Cerveja, Ovos} 3 {Leite, Fraldas, Cerveja, Cola} 4 {Pão, Leite, Fraldas, Cerveja} 5 {Pão, Leite, Fraldas, Cola}

 Acções de Marketing  Gestão de Stocks

 CRM (Customer Relation Management)

{Fraldas} {Fraldas} {Fraldas}

(30)

30

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Regras de Associação

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Outras Aplicações: Outras Aplicações: Outras Aplicações: Outras Aplicações: Web Web Web Web MiningMiningMiningMining Bioinformática

Bioinformática Bioinformática Bioinformática

Diagnósticos Médicos Diagnósticos MédicosDiagnósticos Médicos Diagnósticos Médicos Análise de dados Análise de dados Análise de dados Análise de dados

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining



Regras inexplicáveisRegras inexplicáveisRegras inexplicáveisRegras inexplicáveis

Regras de Associação

52 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Tipos de Regras de Associação Tipos de Regras de Associação Tipos de Regras de Associação Tipos de Regras de Associação



Regras úteisRegras úteisRegras úteisRegras úteis

(31)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Regras de Associação

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Qualidade das Regras de Associação: Qualidade das Regras de Associação: Qualidade das Regras de Associação: Qualidade das Regras de Associação:

Transaction TransactionTransaction

Transaction IDIDIDID ItensItensItensItens 1

11

1 {Pão, Leite} 2

22

2 {Pão, Fraldas, Cerveja, Ovos} 3

33

3 {Leite, Fraldas, Cerveja, Cola} 4

44

4 {Pão, Leite, Fraldas, Cerveja} 5

55

5 {Pão, Leite, Fraldas, Cola}

TID TID TID

TID PãoPãoPãoPão LeiteLeiteLeiteLeite FraldasFraldasFraldasFraldas CervejaCervejaCervejaCerveja OvosOvosOvosOvos ColaColaColaCola 1 1 1 1 1 1 0 0 0 0 2 2 2 2 1 0 1 1 1 0 3 3 3 3 0 1 1 1 0 1 4 4 4 4 1 1 1 1 0 0 5 5 5 5 1 1 1 0 0 1

Regras de Associação

54 TID TID TID

TID PãoPãoPãoPão LeiteLeiteLeiteLeite FraldasFraldasFraldasFraldas CervejaCervejaCervejaCerveja OvosOvosOvosOvos ColaColaColaCola Nº ItensNº ItensNº ItensNº Itens

1 11

1 1 1 0 0 0 0 2222 2222----itemsetitemsetitemsetitemset

2 22

2 1 0 1 1 1 0 4444 4444----itemsetitemsetitemsetitemset

3 33

3 0 1 1 1 0 1 4444 4444----itemsetitemsetitemsetitemset

4 44

4 1 1 1 1 0 0 4444 4444----itemsetitemsetitemsetitemset

5 55

(32)

32

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Regras de Associação

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

X

X

X

X

Y

Y

Y

Y

U

U

U

U

X→Y

X→Y

X→Y

X→Y

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Regras de Associação

56 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 {Leite, Fraldas} {Leite, Fraldas} {Leite, Fraldas}

{Leite, Fraldas} ⇒⇒⇒ {Cerveja}⇒{Cerveja}{Cerveja}{Cerveja}

Suporte SuporteSuporte

Suporte = (nº de TID que contém {Leite, Fraldas, Cerveja})/ (nº total de TID) = 2/5 = 0.4

Confiança ConfiançaConfiança

Confiança = (nº de TID que contém {Leite, Fraldas, Cerveja})/ / (nº total de TID que contém {Leite, Fraldas}) = 2/3 = 0.67

(33)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Regras de Associação

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 {Leite, Fraldas} {Leite, Fraldas} {Leite, Fraldas}

{Leite, Fraldas} ⇒⇒⇒ {Cerveja}⇒{Cerveja}{Cerveja}{Cerveja}

Confiança esperada Confiança esperada Confiança esperada

Confiança esperada = (nº de TID que contém {Cerveja})/ (nº total de TID) = 3/5 = 0.6 Lift Lift Lift Lift = 0.67/0.6 = 1.13

Regras de Associação

58

Uma regra credível regra credível regra credível regra credível deve possuir um bom nível de confiança, um elevado nível de suporte e um lift superior a 1.

Regras com um elevado nível de confiança mas com suporte baixo devem ser interpretadas com cuidado!

Exemplo Exemplo Exemplo Exemplo Não Não Não

Não SimSimSimSim TotalTotalTotalTotal Não Não Não Não 500 3500 4000 Sim Sim Sim Sim 1000 5000 6000 Total Total Total Total 1500 8500 10000 Conta à Ordem Conta à Ordem Conta à Ordem Conta à Ordem C o n ta a P ra zo C o n ta a P ra zo C o n ta a P ra zo C o n ta a P ra zo

(34)

34

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Regras de Associação

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Construção de Regras de Associação: Construção de Regras de Associação: Construção de Regras de Associação: Construção de Regras de Associação:

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Regras de Associação

60 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Dados: cruciais para o sucesso

É preciso dispor de uma enorme quantidade de dados

O que se considera ser um item? pizza ou pizza 4 estações

(35)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Regras de Associação

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Comida congelada Refeições congeladas Vegetais congelados Sobremesas congeladas Gelados Iogurte gelado

Morango Chocolate Baunilha Caramelo

Marcas, embalagens e quantidades

G e ra l M a is d e ta lh e

Regras de Associação

61

(36)

36

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise RFM e segmentação

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

R

R

R

R---- Recency

Recency

Recency

Recency

Quem comprou há menos tempo tem maior probabilidade de voltar a comprar

F

F

F

F---- Frequency

Frequency

Frequency

Frequency

Quem comprou mais vezes durante um determinado período de tempo tem maior probabilidade de voltar a comprar

M

M

M

M---- Monetary

Monetary

Monetary Analysis

Monetary

Analysis

Analysis

Analysis

Quem gastou mais vezes durante um determinado período de tempo tem maior probabilidade de voltar a comprar

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise RFM e segmentação

63 Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11 Base de dados 5 4 3 2 1

R

R

R

R

35 34 33 32 31

F

F

F

F

335 334 333 332 331

M

M

M

M

(37)

Data

Data

Data

Data

Data

Data

Data

Data Mining

Mining

Mining

Mining

Mining

Mining

Mining

Mining

Análise RFM e segmentação

Patrícia Xufre Patrícia Xufre Patrícia Xufre Patrícia Xufre - 2010/11

Análise RFM e segmentação

64



Técnica utilizada em Marketing há mais de 40 anos



Popularidade advém da simplicidade, baixo custo e

potencial para classificar os clientes com base no

comportamento



Possibilidade de proceder a testes em pequenos

grupos representativos de cada célula

Referências

Documentos relacionados

Rodrigues, Culau e Nunes (2007), afirmam que em relação ao sentimento do medo o profissional de enfermagem também muitas vezes enfrenta esse dilema por acreditar não

A força de atrito dinâmico tem intensidade de 30 N, determine a aceleração adquirida

Neste estudo, do total de amostras coletadas (196), 86,22% apresenta- ram alterações microscópicas, sen- do o restante representado por frag- mentos de fígado sem qualquer tipo

Lacado Branco Caixa: L=300 x H=400 mm P = 120 Caixas de Correio Alumínio

existência de equipe multiprofissional com capacidade para acolher possíveis casos ati- vados pela pesquisa; qualidade dos registros médicos em prontuários; condições adequa- das

Foram identificadas as condições de alinhamento das atividades logísticas internas (transporte, manutenção de estoques, processamento de pedidos, compras, embalagem,

O objetivo do presente trabalho foi estimar a condutividade térmica do solo (λ ) a partir do método da amplitude e posteriormente propor uma função que represente a contribuição

Após os 28 dias, os animais foram deixados em jejum por 24 horas e sacrificados com dióxido de carbono, por via inalatória, sendo o sangue coletado através de punção cardíaca.