Algoritmos para Gerar Itemsets Freq¨ uentes com Taxonomias

Taxonomias

Os algoritmos citados no Cap´ıtulo 2 geram Regras de Associa¸cão baseadas em con- juntos de itens nivelados (itens terminais na taxonomia). Nesta se¸cão são apresentados alguns algoritmos para encontrar os k-itemsets freqüentes aplicando taxonomias. Esses itemsets são utilizados na gera¸cão de Regras de Associa¸cão compostas por itens contidos nos vários n´ıveis das taxonomias.

3.2.1 Algoritmo B´asico para Gerar Itemsets Freq¨uentes com

Taxonomias

Em Regras de Associa¸cão que usam taxonomias, o problema de verificar se uma transa¸cão ti ∈ T suporta um itemset X ⊆ A, em que T e A são, respectivamente, conjunto

de transa¸c˜oes e itens, consiste em verificar se todo item xj ∈ X ou algum descendente de

xj est´a presente na transa¸c˜ao ti.

O algoritmo básico apresentado em Srikant & Agrawal (1997a) torna essa tarefa mais simples, uma vez que adiciona a T todos os ancestrais de cada item presente nas transa¸cões ti ∈ T . Esse conjunto de transa¸cões estendidas é chamado de T0. Assim, T suporta X se,

e somente se, T0 ´e um superconjunto de X.

Dessa maneira, os itemsets freqüentes usando taxonomias são gerados pela aplica¸cão de qualquer um dos algoritmos, citados no Cap´ıtulo 2, no conjunto de transa¸cões estendidas T0.

Embora o algoritmo básico seja simples, o mesmo apresenta o problema de gerar e ava- liar muitos itemsets candidatos redundantes, que contêm itens juntos com seus ancestrais. O algoritmo Cumulate, apresentado a seguir, tenta resolver esse problema acrescentando algumas melhorias ao algoritmo básico.

3.2.2 Algoritmo Cumulate

O algoritmo Cumulate é uma versão melhorada do algoritmo básico (Srikant & Agrawal 1997a). O nome Cumulate indica que o suporte é calculado para um conjunto contendo todos os k-itemsets candidatos de um determinado tamanho k, percorrendo a Base de Dados apenas uma vez. As melhorias acrescidas ao algoritmo básico são:

Filtrar os ancestrais adicionados as transa¸cões Não há necessidade de adicionar a uma transa¸cão ti todos os ancestrais dos itens contidos nessa transa¸cão. Pode-se

apenas adicionar ancestrais que estão em um (ou mais) itemsets candidatos ao qual será calculado o suporte no passo corrente do algoritmo. Além disso, se o item original não está em qualquer um dos itemsets candidatos, ele pode ser removido da transa¸cão.

Por exemplo, assume-se uma taxonomia em que roupas é pai de roupas leves, que por sua vez é pai de camisetas. Se o itemset candidato ao qual será calculado o suporte for {roupas, tênis}, então qualquer transa¸cão que contenha camisetas irá substitu´ı-la por roupas e não será necessário manter camisetas na transa¸cão e nem adicionar roupas leves a transa¸cão, uma vez que ambos os itens (camisetas e roupas leves) não estão contidos no itemset candidato {roupas, tênis}.

Pré-calcular os ancestrais Ao invés de calcular os ancestrais de cada item (percorrendo o grafo de taxonomias) para cada execu¸cão do algoritmo, pode-se pré-calcular os ancestrais de cada item e utilizá-los durante as execu¸cões do algoritmo.

Remover itemsets que contenham apenas um item e seu ancestral A remo¸c˜ao desses itemsets ´e justificada pelos dois lemas apresentados a seguir.

Lema 1 O suporte de um itemset X que contenha um item x e seu ancestral x ↑ ser´a o mesmo de um itemset X − x ↑.

Lema 2 Se Lk, o conjunto de k-itemsets freq¨uentes, n˜ao inclui qualquer itemset que

contenha um item e seu ancestral, o conjunto de itemsets candidatos Ck+1, gerado

pela fun¸cão apriori-gen da se¸cão 2.2.2, não apresentará qualquer itemset candidato que contenha um item e seu ancestral.

No primeiro lema é enunciado que não é necessário calcular o suporte de qualquer itemset que contenha um item e seu ancestral. Essa melhoria pode ser realizada removendo os 2-itemsets candidatos (itemsets candidatos de tamanho dois) consti- tu´ıdos de um item e seu ancestral. No segundo lema é mostrado que remover os

2-itemsets candidatos assegura que em passos subseqüentes do algoritmo nunca se- rão gerados itemsets candidatos que contenham um item e seu ancestral. As provas desses lemas são apresentadas em Srikant & Agrawal (1997b).

3.2.3 Algoritmo Stratify

Considerando uma ordena¸cão parcial induzida por uma taxonomia sobre um conjunto de itemsets, tem-se que os itemsets sem pai possuem altura 0. Para os outros itemsets, a altura de cada itemset X é definida como max{altura(X ↑) | X ↑ é pai de X} + 1.

O algoritmo Stratify apresentado em Srikant & Agrawal (1997a), primeiro calcula o suporte de todos os itemsets candidatos C0 de altura 0 e em seguida remove os itemsets

candidatos que s˜ao descendentes dos itemsets em C0 que n˜ao possuem suporte m´ınimo,

calculando em seguida o suporte dos itemsets restantes de altura 1. Depois, os itemsets candidatos que s˜ao descendentes dos itemsets em C1 que n˜ao possuem suporte m´ınimo

são removidos, sendo calculado em seguida o suporte dos itemsets restantes de altura 2, e assim sucessivamente até que não haja mais itemsets para calcular o suporte.

Por exemplo, com os itemsets candidatos {roupas, tênis}, {roupas leves, tênis} e {camisetas, tênis}, que são utilizados para o cálculo do suporte e considerando camisetas como filho de roupas leves e roupas leves como filho de roupas. Se {roupas, tênis} não possui suporte maior ou igual ao suporte m´ınimo, não é necessário calcular o suporte dos itemsets candidatos {roupas leves, tênis} e {camisetas, tênis}. Assim, ao invés de calcular o suporte de todos os itemsets candidatos de um determinado tamanho em um mesmo passo, como o algoritmo Cumulate, o algoritmo Stratify pode ser mais rápido calculando primeiro o suporte de {roupas, tênis} e só então calcular o suporte de {roupas leves, tênis} se {roupas, tênis} tem suporte maior ou igual ao suporte m´ınimo e finalmente calcular o suporte de {camisetas, tênis} se {roupas leves, tênis} também tem suporte maior ou igual ao suporte m´ınimo.

Porém, o custo extra de realizar vários passos sobre a Base de Dados durante o cálculo dos suportes pode ser maior do que os benef´ıcios. Ao invés de esperar que os itemsets candidatos, cujos os itens estão posicionados nos n´ıveis superiores da taxonomia, não tenham suporte m´ınimo resultando em não ter que calcular o suporte de seus itemsets candidatos descendentes, pode-se usar alguns exemplos da Base de Dados para estimar o suporte dos itemsets candidatos. Com o uso de exemplos para estimar o suporte, tanto os itemsets candidatos que são esperados ter suporte m´ınimo, quanto os itemsets candidatos que não são esperados ter suporte m´ınimo mas cujos pais têm ou é esperado que tenham suporte m´ınimo, são utilizados para o cálculo do suporte. Dessa maneira, é esperado que

não se tenha que calcular o suporte de nenhum dos descendentes dos itemsets candidatos que são esperados não ter suporte m´ınimo, mas se um itemset candidato que era esperado não ter suporte m´ınimo passa a ter, um passo extra deve ser realizado para calcular o suporte de seus descendentes. Os algoritmos Estimate e EstMerge, descritos em Srikant & Agrawal (1997a), utilizam-se de exemplos para estimar o valor do suporte.

Outros algoritmos que podem ser utilizados na gera¸cão de Regras de Associa¸cão com taxonomias são: Algoritmos da Fam´ılia ML-T* (Han & Fu 1995) APUD Weber (1998), Prutax (Hipp, Myka, Wirth, & Güntzer 1998) e Genex (Weber 1998).

No documento Generalização de regras de associação (páginas 66-69)