aula6

(1)

REGRAS DE ASSOCIAÇÃO

Aprendizado de Máquinas (PPGCC - UFPA)

9 Novembro 2016 1 Aprendizado de Máquinas >> Regras de Associação >> Ronnie Alves

(2)

Frequent PaJern Mining

Frequent Pattern

Analysis

Clustering

Outlier Analysis

Classification

Frequent

Pattern-Based

Classification

(3)

Algoritmos de Data Mining (DM)

• _{Data mining (DM)}

– 

is a broad area that integrates techniques from

several ﬁelds including machine learning,

sta7s7cs, pa9ern recogni7on, ar7ﬁcial

intelligence, database system,…

C4.5

K-means

SVM

Apriori

EM

PageRank

AdaBoost

kNN

NaiveBayes

CART

Top-10 DM

Algorithms by

ICDM IEEE

(4)

Problema: Encontrar padrões de

associação

• Walmart DB

Ticket Data

• Ex:

1 1901,1881,199,901

2 901,1661

3 676,199,177,100

…..

…

120099 78,1881,199,8

• Exemplo de perguntas a

responder:

• Que produtos estão associadas

ao consumo de cerveja X ?

• Como podemos descrever a

população consumidora de

amendoins?

• Onde devem estar localizadas os

produtos de limpeza domés\ca ?

• Como se relacionam os produtos

1661 e 199 ?

Número da transacção

item

(5)

Como expressar a informação extraída ?

• Regras que relacionam produtos (items),

901 & 1661 à 67

Todas as regras ?

Como obter ?

Como seleccionar ?

Como organizar ?

Há um número explosivo de

potenciais regras que podem ser

derivadas!

Qual o procedimento

eficiente a aplicar?

Como discriminar regras

“boas” de “más” ?

Qualidade das regras

expressa por medidas

estatísticas.

(6)

A

B

C

D

AD

AC

AB

BC

BD

ABCD

ABD

ACD

ABC

CD

Set indica inclusão matemática

Itemset

Item

BCD

Espaço de pesquisa –

NP difícil

(7)

Medidas de Interesse

• A mais popular é o suporte (contagem) dos itemsets.

• As regras são qualiﬁcadas por uma métrica de interesse

(previsibilidade, solidez ou força da regra).

• Normalmente é usada a conﬁança (probabilidade

condicional)

• Assim, a regra de associação:

• Deve ser lida como:

a compra conjunta dos produtos 901, 707 e 1088

ocorre em 30% das transacções. Por outro lado, veriﬁca-se que 90% das

transacções que contêm 901 e 707 também contêm o produto 1088.

• Outra leitura:

90% da sub-população deﬁnida pelos produtos 901 e 707

consomem 1088.

901 & 707 à 1088 (sup=0.3,conf=0.9)

(8)

Aplicações

• _{Sistemas de recomendação,}

• _{Web adapta\vo}

– 

Amazon: o site recomenda novos interesses

usando os items visitados/comprados pelo

u\lizador.

• _{Proteômica – Interação de proteínas}

• _{Transcriptômica – Perﬁl de expressão gênica}

(9)

Sistemas de Recomendação - Web

index.html

A

B

C

D

E

A D

Obs.:

Rules:

A E à D

A D à F

A B

F

à D

A à D

(conf: 0,8)

(conf: 0,7)

(conf: 0,6)

(conf: 0,5)

Recommendations (top 2):

F

X

(0,6)

(0,4)

click stream

(10)

Geração de Regras

• Cálculo da conﬁança: conf(AàC) = s(A U C) / s(A).

• Noção de thresholds de conf e sup (minsup e minconf)

• Algoritmo “trivial”:

Tendo ABC,

testar, sabendo s(AB) e s(ABC),

se s(ABC) / s(AB) ≥ minconf

Fazer este procedimento para todos os

s∈{ABC} em que #s > 1.

(11)

Cálculo de Items Frequentes

(frequent itemsets)

• _{Algoritmo naive:}

Seja K = { items em DB},

Derivar o P(K) (power_set),

Percorrer DB para contar as ocorrências de P(K)

Filtrar os itemset em P(K) que não veriﬁcam minsup.

• Intractável!!!!!!!!

• Melhor: fazer uso da propriedade downward closure do

suporte

Se X ⊆ Y então s(X) ≥ s(Y)

(12)

Algoritmo Apriori [Agrawal & Srikant 94]

C

_k

: Candidate itemset of size k

L

_k

: frequent itemset of size k

L

₁

= {frequent items};

for

(k = 1; L

_k

!= ; k++)

do begin

C

_k+1

= candidates generated from L

_k

;

for each

transac\on t in database do

increment the count of all candidates in C

_k+1

that are

contained in t

L

_k+1

= candidates in C

_k+1

with min_support

end

return

_k

L

_k

;

(13)

Aplicação da Propriedade An\-monótona

A

B

C

D

AD

AC

AB

BC

BD

ABCD

ABD

ACD

ABC

CD

Infrequente

BCD

(14)

Apriori “em ação…”

Database TDB

1

st

_scan

C

₁

L

1

L

₂

C

₂

_C

2

nd

_scan

C

₃

rd

_scan

L

₃

Tid

Items

10 A, C, D

20 B, C, E

30 A, B, C, E

40 B, E

Itemset sup

{A}

2 {B}

3 {C}

3 {D}

1 {E}

3 Itemset sup

{A}

2 {B}

3 {C}

3 {E}

3 Itemset

{A, B}

{A, C}

{A, E}

{B, C}

{B, E}

{C, E}

Itemset sup

{A, B}

1 {A, C}

2 {A, E}

1 {B, C}

2 {B, E}

3 {C, E}

2 Itemset sup

{A, C}

2 {B, C}

2 {B, E}

3 {C, E}

2 Itemset

{B, C, E}

Itemset sup

{B, C, E}

2 Sup

_min

= 2

(15)

Tipos de Algoritmos para Cálculo de

termos frequentes (FIM)

• _Breath-First

Apriori

Par\\on

Dic

Sampling

• _Depth-First

FP-growth

Inverted Matrix

Eclat

(16)

16

{}

f:4

c:1

b:1

p:1

b:1

c:3

a:3

b:1

m:2

p:2 m:1

Header Table

Item frequency head

f 4

c 4

a 3

b 3

m 3

p 3

min_support = 3

TID

Items bought

(ordered) frequent items

100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}

200 {a, b, c, f, l, m, o}

{f, c, a, b, m}

300 {b, f, h, j, o, w}

{f, b}

400 {b, c, k, s, p}

{c, b, p}

500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}

1.  Scan DB uma vez, buscar

1-itemset

2.  Ordenar itenset

frequentes (descending

order, f-list)

3.  Scan DB outra vez, criar

FP-tree

f-list

= f-c-a-b-m-p

(17)

17

Algoritmo FP-Growth

• Começar pela tabela de itemset frequentes na FP-tree

• Percorrer a FP-tree através do link de cada item p

• Acumumular

transformed preﬁx paths

do item p para a formar p

’

_s

condi=onal pa>ern base

Conditional pattern bases

item cond. pattern base

c f:3

a fc:3

b fca:1, f:1, c:1

m fca:2, fcab:1

p fcam:2, cb:1

{}

f:4

c:1

b:1

p:1

b:1

c:3

a:3

b:1

m:2

p:2 m:1

Header Table

Item frequency head

f 4

c 4

a 3

b 3

m 3

p 3

(18)

18

Algoritmo FP-Growth

• Para cada pa9ern-base

– 

Acumular a contagem para cada item na pa9ern base

– 

Criar FP-tree para itemsets na pa9ern base

m-conditional pattern base:

fca:2, fcab:1

{}

f:3

c:3

a:3

m-conditional FP-tree

All frequent

patterns relate to m

m,

fm, cm, am,

fcm, fam, cam,

fcam

Ú

{}

f:4

c:1

b:1

p:1

b:1

c:3

a:3

b:1

m:2

p:2

m:1

Header Table

Item frequency head

f 4

c 4

a 3

b 3

m 3

p 3

(19)

Recursão: Algoritmo FP-Growth

{}

f:3

c:3

a:3

m-conditional FP-tree

Cond. pattern base of “am”: (fc:3)

{}

f:3

c:3

am-conditional FP-tree

Cond. pattern base of “cm”: (f:3)

{}

f:3

cm-conditional FP-tree

Cond. pattern base of “cam”: (f:3)

{}

f:3

cam-conditional FP-tree

(20)

(21)

Algoritmos: Representações

• _Horizontais

– 

Transacções são listas de items. Ex:

t12: 1,4,6,7,12,129,929

t15: 2,4,5,6,14,189,901

• _Ver\cais

– 

Representar a cobertura de cada item nas

transacções. Ex:

Tidlist(6) = [t12,t15,t24,t123,t300,…]

Tidlist(14)= [t15,t120,t541,…]

Tidlist(129)=[t12,t18,t45,…]

(22)

Representações Ver\cais

• Cover Lists

– 

Ideal para “sparse” data

– 

Tidlist(I) = [t4,t9,t12,t45,t312,…]

– 

sup(I) = #coverlist(I)

– 

Tidlist(A U B) = \dlist(A) ∩ \dlist(B)

• BitMaps

– 

Melhores resultados com “dense” data

– 

bitmap(I)= “0010011100011000”

– 

sup(I) = bitcount(bitmap(I))

– 

bitmap(A U B) = bitmap(A) & bitmap(B)

Bitwise logical and

Contar bits ligados

(23)

Representações Ver\cais (2)

• DiﬀSets (altamente escalável)

– 

Em vez de representar todo o \dlist, usar só as

“alterações” ao \dlist para calcular suporte.

– 

Diﬀset(A U B) = \dlist(A) – \dlist(B) (

elementos de A que não ocorrem em

B

)

– 

s(AB) = s(A) - #ds(AB)

– 

ds(ABC) = ds(AC) – ds(AB)

– 

s(ABC) = s(AB) - #ds(ABC)

• Exemplo:

– 

t(A) = [1,3,4,5], t(B)=[1,2,3,4,5,6], t(C)=[2,4,5,6].

– 

ds(AB)=[ ],ds(AC)=[1,3], ds(ABC)=[1,3],

– 

S(ABC)= 4 – 0 – 2 = 2.

• Inicialmente temos

diffsets < tidlists

• Ficam mais pequenos

conforme os itemsets se

tornam mais longos

(24)

Representações condensadas de

termos frequentes

• All itemsets frequentes (FIS)

• Itemsets máximos (MIS)

• Closed itemsets (CIS)

• Free-sets (FS)

Em certas aplicações é viável calcular versões

condensadas dos itemsets. Simpliﬁca-se o

cálculo e evita-se alguma redundância.

All Patterns Closed Patterns Maximal Patterns 9 Novembro 2016 24 Aprendizado de Máquinas >> Regras de Associação >> Ronnie Alves

(25)

Representações condensadas de

termos frequentes

(26)

Regras de Inferência de contagem

• Alguns algoritmos usam regras de inferência de

contagem (evitando algum esforço), derivando a

contagem de um itemset à custa das contagem dos

seus subconjuntos.

• Exemplos:

– 

(support lower bound)

Sejam X,Y,Z itemsets,

– 

(support inference)

Sejam X,Y,Z itemsets,

)

sup(

)

sup(

)

sup(

)

sup(

XYZ

≥

XY

+

XZ

−

X

)

sup(

)

sup(

)

sup(

)

sup(

XY

=

X

⇒

XYZ

=

XZ

(27)

Medidas de Interesse

• Li†

• Convic\on

• Leverage

• Χ

2

• Reliability

• etc

Teste de Χ

2 _{entre antecedente}

e consequente

)

(

)

(

)

(

C

s

C

A

conf

C

A

Lift

→

=

→

)

(

1 )

(

1 )

(

C

A

conf

C

s

C

A

conv

→

−

=

→

)

(

)

(

)

(

A

C

conf

A

C

s

C

R

→

=

→

−

)

(

*

)

(

)

(

)

(

A

C

s

A

C

s

A

s

C

leve

→

=

∪

−

(28)

Medidas de Interesse (2)

)

(

)

(

)

(

C

s

C

A

conf

C

A

Lift

→

=

→

)

(

)

(

)

(

A

s

C

A

s

C

A

conf

→

=

∪

Confiança:

• mede probabilidade condicional

P(C) dado A

• Tende a dar ênfase a regras não

correlacionadas (spurious rules).

Lift:

• Mede a distância para a independência

entre A e C

•  varia entre [0, +oo[

•  Valor 1 à independência,

•  Valores longe de 1 à indicam que a evidencia

de A fornece informação sobre C.

•  mede co-ocorrência (não implicação)

•  é simétrica!

(29)

Medidas de Interesse (3)

)

(

1 )

(

1 )

(

C

A

conf

C

s

C

A

conv

→

−

=

→

)

(

)

(

)

(

)

(

A

C

s

A

C

s

A

s

C

leve

→

=

∪

−

×

Conviction:

•  motivada pelas fraquezas de conf e lift

•  varia entre [0.5, +oo[

•  tenta capturar o grau de implicação entre A e C

•  é directional i.e. conv(A àC) ≠ conv(C à A)

•  valor 1 indica independência

•  motivação (implicação lógica): A à C ó ~A υ C ó ~(A

∩

~C)

•  medir quanto (A

∩

~C) se desvia da independência.

•  inverto o rácio entre s(A υ ~C) e s(A) x s(~C) para lidar com negação

•  excelente medida para classificação.

Leverage:

•  varia entre ]-0.25,0.25[

•  mede o número de casos extra obtidos

em relação ao esperado (à independência)

(30)

Problemas da métrica Conﬁança

)

(

)

(

)

(

A

C

s

A

s

C

s

∪

=

×

∑

−

=

Χ

n

r

_i _R

E

r

E

r

O

ε

[

]

])

[

)

(

2

2 A confiança pode não detectar independência. A

regra ovos à leite pode ter conf=80% mas

podemos saber que o consumo de ovos é

independente de leite.

Independência entre A e C:

Noutros casos podemos ter dependência positiva/negativa.

Podemos usar uma medida de X^2 para medir correlação

Entre antecedente e consequente.

Aplicar teste de X^2 com um valor de conf=95% e 1 grau de liberdade,

Se X^2 >= 3.84 rejeita-se a hipótese de independência.

(31)

Pruning nos itemsets

• Aplicar teste de X^2 durante a contagem de termos

frequentes.

• Problema: X^2 não sa\sfaz a propriedade downward closure.

Isto é, AC e BC podem não sa\sfazer o teste de X

2 _mas ABC

pode. Upward closure property:

– 

Se X

2

_{(AC) ≥ 3.84 então não necessariamente X}

2

_{(ABC) ≥ 3.84}

• Corre-se o risco de não gerar todas as regras possíveis.

Potencialmente incompleto!

(32)

Fraquezas do framework

suport-conﬁança

• Pode ser diŠcil deﬁnir um suporte mínimo ideal

• Certos problemas podem exigir suporte mínimos

extremamente baixos e.g. caviar à champagne

• Solução: procurar as k-op\mal rules (sendo óp\mas

em relação a uma medida especíﬁca)

• Suporte e conﬁança mínimas altas podem perder

regras interessantes

• Conﬁança pode atribuir alto interesse a regras não

correlacionadas (como vimos!)

• Outras medidas sofrem de problemas similares

(33)

Seleção e Pruning de Regras

• Um algoritmo de FIM (mesmo com ﬁltragem de suporte

conﬁança mínima) pode gerar milhões de regras. Podemos ter

#{regras} >> #{transacções} !!!

• Maioria das regras são geradas fruto do acaso (no sen\do

esta‹s\co). Noção de false discoveries

• Regras não correlacionadas (em que o antecedente e o

consequente são independentes)

• Aparecimento de regras redundantes. Regras contêm items

no antecedente que são explicados por outros items também

no antecedente. Ex

(

grávida => mulher

):

•  Grávida & mulher à retenção_de_liquidos

– 

Descartar regra redundante x à y se:

– 

Existe z ∈ x : s(x à y) = s(x - z à y)

(34)

Pruning de Regras

Problema de improvement nas regras

Conf = 0.300 oranges ß bananas & peaches

Conf = 0.315 oranges ß peaches

Noção de improvement:

uma regra mais especiﬁca tem de produzir uma mais valia em

termos de valor de medida de interesse.

met pode ser ={conf,li†,conv,X^2,etc}

Se o improvement > 0 dizemos que são regras produc7vas.

))

'

(

)

(

:

'

min(

)

(

A

C

A

met

A

C

met

A

C

imp

→

=

∀

⊂

→

−

→

(35)

“

from Tan et al SIGKDD’02”

Null-invariant &

Downward Closure

(36)

Discre\zação

• Supervisionada:

– 

Fayyad & Irani: Entropy oriented

– 

Class intervals (caren)

– 

Chi-Merge

• Não supervisionada:

– 

Equi-depth (intervalos de igual nº de elementos)

– 

Equi-width (intervalos de igual largura)

– 

Srikant (caren)

– 

K-means

(37)

Geração de Regras de Associação para

propriedades de interesse numéricas

Ideia geral: Ter regras em que o consequente é a

representação de uma propriedade numérica.

Exemplos:

Sex=female è Wage: mean=$7.9 (overall mean=$9.02)

non-smoker & wine-drinker è life-expectancy=85 (overall=80)

(38)

Regras de Associação com propriedades

numéricas (cont)

• Várias propostas

– 

Quan\ta\ve Associa\on Rules (Aumann &

Lindell99)

– 

Impact Rules (Webb 2001)

– 

Distribu\on Rules (Jorge & Azevedo 2006)

• Ideia comum a todas as propostas:

Gerar regras que representam o comportamento de uma

propriedade numérica numa sub população interessante. Diferentes

propostas de noção de regra interessante.

(39)

Modelos de Previsão

com Regras de Associação

• _{Ver um conjunto de regras seleccionadas}

como um modelo de previsão.

• _{Para fazer previsão sobre um caso, usar as}

previsões derivadas das regras que cobrem

esse caso.

• Usados em:

– 

Sistemas de recomendação

– 

Classiﬁcação

– 

Previsão numérica

(40)

BestRule Predic\on

• Para um novo caso:

– 

Produzir um rank com as regras que cobrem caso,

– 

Escolher a regra do topo do rank,

– 

A previsão é o consequente desta regra,

– 

Rank é produzido pela seguinte ordenação:

)

(

min

arg

)

(

rank

r

bestrule

x

F

r

x

=

_∈

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

2 1 2 1 2 1 2 1 2 1 2 1 2 1

R

ant

R

ant

R

sup

R

sup

R

meas

R

meas

or

R

sup

R

sup

R

meas

R

meas

or

R

meas

R

meas

if

R

<

∧

==

∧

==

>

∧

==

>

≺

(41)

Vo\ng

• _{Para um novo caso:}

– 

Seleccionar as regras que cobrem o caso,

– 

Cada regra vote na classe que representa

(consequente).

– 

A votação é ponderada pelo valor da medida de

interesse

– 

Alterna\vamente, a votação é uniforme

(42)

(43)

Sta\s\cal signiﬁcance

(44)

5/7

(45)

Mining Eﬃciency - GAA

Top-k

(46)

Classiﬁca\on Accuracy - GAA

(47)

gene-to-target

gene-to-gene

(48)

Regras de Associação

• _{Eﬁciência vs Aplicabilidade}

• _{Prac\cal AR/FIMI =}

– 

row-enumera\on + closed sets + free-support + biological metrics

• _{Integração de conhecimento no processo de}

descoberta de padrões associa\vos

7/7