M08. Introdução a Técnicas de Data Mining DM

(1)

M08. Introdução a Técnicas

de Data Mining – DM

4 - REGRAS DE ASSOCIAÇÃO

5 - ANÁLISE DE AGRUPAMENTOS

LNCC/MCT - 18/01/2008

Custódio Gouvêa Lopes da Motta

custodio.motta@ufjf.edu.br www.dcc.ufjf.br

(2)

1.4. Mineração de Dados (Data Mining – DM)

Atividades e Tarefas

MINERAÇÃO DE DADOS

CLASSIFICAÇÃO REGRESSÃO REGRAS DE

ASSOCIAÇÃO SUMARIZAÇÃO ATIVIDADES PREDITIVAS ATIVIDADES DESCRITIVAS AGRUPAMENTO OUTRAS

(3)

4 – Regras de Associação

4.1. Mineração de Regras de Associação

4.2. Algoritmo Apriori

4.3. Tipos de Regras de Associação

4.4. Custos Críticos do Método Apriori

4.5. Melhoria da eficiência do Apriori

(4)

4.1. Mineração de Regras de Associação

4.1.1. Objetivo: encontrar padrões freqüentes, associações ou correlações entre conjuntos de itens ou

objetos, em bases de dados de transações, relacionais e outras.

4.1.2. Aplicações: análise de cestas de compras, venda

cruzada, projeto de catálogo, perfil de clientes, agrupamentos, classificação etc..

4.1.3. Formatos de Regras de Associação: considerando

A e B dois conjuntos de itens, tal que A ∩ B = ø:

• A → B [suporte, confiança]

• compra (X, A) → compra (X, B) [0.8%, 73%], onde X representa os consumidores.

• idade (X, “40...45”) e renda (X, “4500...6000”) → compra (X, “TV digital”) [0.3%, 65%]

(5)

4.1.4. Conceitos Básicos:

• Seja I = {i₁, i₂, ..., i_m} um conjunto de itens e D uma base de dados contendo o conjunto de transações, onde cada transação T é um conjunto de itens, tal que T ⊆ I.

• Sejam A e B dois conjuntos de itens. Diz-se que uma

transação T contém A se e somente se A ⊆ T.

• Uma regra de associação é uma implicação da forma:

A → B, onde A ⊂ I, B ⊂ I e A ∩ B = ø.

•A → B possui suporte S no conjunto de transações D, se S é a percentagem de transações que contêm A U B (ou A e

B) em relação ao total de transações de D. Isto é dado pela

probabilidade P (A U B). S identifica o quanto a associação (A U B) ocorre a ponto de se destacar de outras existentes

(6)

• O objetivo da mineração é encontrar todas as regras que associem a presença de um conjunto de itens (A) com qualquer outro conjunto de itens (B, C,...). Ex.: 64% das pessoas que compram microcomputador e impressora, fazem contrato de manutenção.

• Tipos de problemas que podem ser resolvidos:

? → “contrato de manutenção” (o que a loja deveria fazer para impulsionar a contratação de manutenção?).

•A → B possui confiança C no conjunto de transações D, se

C é a percentagem de transações que contêm A U B (ou A

e B) em relação a todas as transações de D que contêm A. Isto é dado pela probabilidade condicional P (B|A) (P (B|A) = P (A U B) / P (A)). C indica o quanto a ocorrência do antecedente (A) pode assegurar a ocorrência do conseqüente (B).

“microcomputador” → ? (que outros produtos devem

estar disponíveis na loja?

).

(7)

• Um conjunto de itens é chamado de um itemset.

• Um itemset freqüênte é aquele que satisfaz ao suporte mínimo, isto é, sua freqüência é maior ou igual ao produto do sup-min pelo total de transações de D.

• Um itemset com k itens é um k-itemset.

• A contagem, freqüência ou contagem de suporte de um

itemset é o número de transações que contêm este itemset.

• Regra de associação forte é aquela que satisfaz aos limites pré-estabelecidos (pelo usuário) de suporte mínimo (sup_min) e de confiança mínima (conf_min).

• O conjunto de k-itemsets freqüêntes é denotado por L_k.

• O suporte e a confiança são duas medidas de interessabilidade de uma regra de associação. Medidas de interessabilidade adicionais podem ser aplicadas, se desejado.

(8)

4.1.5. Processo de Mineração de Regras de Associação:

2. Gerar regras de associação fortes dos itemsets freqüentes

Realizado em dois passos:

1. Encontrar todos os itemsets freqüentes.

Obs.:

• O segundo passo é o mais fácil. O desempenho geral na mineração de regras de associação é determinado pelo primeiro passo.

• Para encontrar os itemsets freqüentes é usada a

propriedade Apriori: “todos os subconjuntos não-vazios de

(9)

4.1.5. Processo de Mineração de Regras de Associação: Exemplo: Trans.ID Itens 17 1 3 4 23 2 3 5 21 1 2 3 5 29 2 5

Passo 1: Seja encontrar todos os itemsets freqüentes na base de dados a seguir, considerando sup_min = 2

Base de Dados itemse t Sup. {1} 2 {2} 3 {3} 3 {4} 1 {5} 3 C₁ = 1-itemsets candidatos scan

(10)

itenset Sup. {1} 2 {2} 3 {3} 3 {5} 3 itenset Sup. {1} 2 {2} 3 {3} 3 {4} 1 {5} 3 C₁ = 1-itemsets candidatos poda L₁ = 1-itemsets

freqüentes itenset Sup.

{1 2} {1 3} {1 5} {2 3} {2 5} {3 5} 1 2 1 2 3 2 C₂ scan itenset Sup. {1 3} {2 3} {2 5} {3 5} 2 2 3 2 L₂ poda itenset Sup. {2 3 5} 2 C₃

scan itenset Sup.

{2 3 5} 2

L₃

(11)

Passo 2: Para gerar as regras de associação deve-se:

2.1. Para cada itemset freqüente l, gerar todos os subconjuntos não-vazios de l.

2.2. Para todo subconjunto não-vazio sc de l, produzir a regra “sc → (l – sc)”, que satisfaça a conf_min.

No exemplo, o itemset freqüente l = {2 3 5} possui os seguintes subconjuntos não-vazios: {2 3}, {2 5}, {3 5}, {2}, {3} e {5}. As regras de associação resultantes são mostradas abaixo, com suas respectivas confianças:

2 ^ 3 → 5, c = 2/2 = 100% 2 ^ 5 → 3, c = 2/3 = 67% 3 ^ 5 → 2, c = 2/2 = 100% 2 → 3 ^ 5, c = 2/3 = 67% 3 → 2 ^ 5, c = 2/3 = 67% 5 → 2 ^ 3, c = 2/3 = 67% Considerando conf_min = 80%, as regras fortes seriam:

2 ^ 3 → 5 [50%, 100%] 3 ^ 5 → 2 [50%, 100%]

(12)

4.2. Algoritmo Apriori

(Agrawal, R. e Srikant, R., 1994)

Objetivo: encontrar os itemsets freqüentes, usando

geração de candidatos.

Entradas: banco de dados de transações D; limite de

suporte mínimo (sup_min).

(13)

4.2. Algoritmo Apriori

(1) L₁ = acha_1-itemsets_freqüentes (D); (2) para (k = 2; L_k _-1 ≠ ø; k++){

(3) C_k = apriori_gen(L_k _-1, sup_min);

(4) para cada transação t ∈ D { // leitura de D para

// contagem

(5) C_t = subconjunto(C_k, t); // recebe os

// subconjuntos de t que // são candidatos

(6) para cada candidato c ∈ C_t (7) c.count++;

(8) }

(9) L_k = { c ∈ C_t | c.count ≥ sup_ min}; (10) }

(14)

procedimento apriori_gen(L_k _-1: (k-1)-itemsets freqüentes;

sup_ min: limite de suporte mínimo)

(1) para cada itemset l₁ ∈ L_k _-1

(2) para cada itemset l₂ ∈ L_k _-1

(3) se (l₁[1] = l₂[1]) ^ (l₁[2] = l₂[2]) ^ ... ^ (l₁[k-2] =

l₂[k-2]) ^ (l₁[k-1] < l₂[k-1])

então {

(4) c = l₁ x l₂; // passo de união: geração de

// candidatos

(5) se has_infrequent_subset (c; L_k _-1) então{

(6) exclui c; // passo de poda: remove

// candidato infreqüente (7) senão acrescente c a C_k;

(8) }

(15)

procedimento has_infrequent_subset (c: k-itemset

candidato; L_k _-1: (k -1)-itemsets freqüentes); // usa conhecimento anterior (1) para cada (k -1)-subconjunto s de c

(2) se s não pertence a L_k _-1 então (3) retorna VERDADEIRO; (4) retorna FALSO;

Obs.: O algoritmo Apriori minera itemsets frequentes de uma base de dados de transações para posterior geração de um conjunto de regras de associação booleanas, unidimensionais e de um único nível.

(16)

4.3. Tipos de Regras de Associação

Os três principais critérios para classificar regras de associação são:

4.3.1. Quanto aos valores manuseados:

• Regra de associação booleana: associa a presença ou ausência de itens. Ex.:

microcomputador, impressora → contrato de manutenção [3%, 64%]

• Regra de associação quantitativa: associa itens quantitativos ou atributos. Nestes casos, os valores quantitativos são discretizados. Ex.:

idade (X, “40...45”) e renda (X, “4500...6000”) → compra

(17)

4.3. Tipos de Regras de Associação

4.3.2. Quanto as dimensões dos dados envolvidos: cada

predicado distinto em uma regra é uma dimensão.

• Regra de associação unidimensional: usa somente um predicado. Ex.:

impressora → papel [8%, 97%] ou

compra (X, impressora) → compra (X, papel) [8%, 97%]

• Regra de associação multidimensional: usa mais de um predicado. Ex.:

(18)

4.3. Tipos de Regras de Associação

4.3.3. Quanto aos níveis de abstração envolvidos:

alguns métodos podem minerar conjuntos de regras de diferentes níveis de abstração.

• Conjunto de regras de associação de um único nível: Ex.:

microcomputador → impressora [0.7%, 53%] impressora → papel [0.4%, 97%]

• Conjunto de regras de associação multinível: Ex.:

(X, “TV”) [2.5%, 73%]

(19)

4.4. Custos Críticos do Método Apriori

• Geração de um número enorme de conjuntos

candidatos: por exemplo, se existem 104 1-itemsets

freqüentes, o algoritmo Apriori vai gerar mais de 107

1-itemsets candidatos, além de acumular e testar as

ocorrências de suas freqüências. Além disso, para descobrir um padrão freqüente de tamanho 100, como {a₁, ..., a₁₀₀}, ele deve gerar mais de 2100 _{≈ 10}30

candidatos no total.

• Necessidade de varrer repetidamente o banco de

dados e verificar um grande conjunto de candidatos de padrões semelhantes (caso especial na mineração

(20)

4.5. Melhoria da eficiência do Apriori

Algumas variações do algoritmo original com o objetivo de melhorar a eficiência são:

• Redução transações: transações que não contém nenhum k-itemset freqüente não podem conter nenhum

(k+1)-itemset freqüente. Essas transações são

dispensadas de leituras futuras para j-itemsets onde j > k. • Particionamento da base de dados: as transações de

D são subdivididas em n partições não-sobrepostas.

Qualquer itemset que é potencialmente freqüente em D, ocorre como um itemset freqüente em pelo menos uma das partições.

• Amostragem: busca encontrar itemsets freqüentes numa amostra randômica S de D.

(21)

4.5. Melhoria da eficiência do Apriori

• Redução de leitura : no algoritmo Apriori, C₃ é gerado baseado em L₂ x L₂. Seja C₃’ os 3-itemsets candidatos gerados de C₂ x C₂, em vez de L₂ x L₂. |C₃’| é maior que |C₃|. Mas, se C₂ e C₃’ puderem ser armazenados juntos em memória principal, pode-se encontrar L₂ e L₃ juntos na próxima varredura do banco de dados, economizando uma varredura. Usando esta estratégia, pode-se determinar todos os L_k’s com somente duas varreduras: uma inicial para determinar L₁ e uma final para todos os outros itemsets maiores.

• Análise por intervalos de tempo: transações

realizadas em intervalos de tempo definidos pelo usuário constituem subconjuntos do banco de dados.

(22)

4.6. Apresentação das Regras de Associação

• Softwares CBA e IAS:

( www.comp.nus.edu.sg/~dm2/p_download - Bing Liu)

Aplicação: Base de dados LIVROS (157 transações e 11 itens).

Freqüências (em ordem decrescente) dos itens:

(1) ChildBks{Discrete}: ;;0.586, 92 = Y (3) CookBks{Discrete}: ;;0.586, 92 = Y (5) DoltYBks{Discrete}: ;;0.414, 65 = Y (4) GeogBks{Discrete}: ;;0.382, 60 = Y (2) YouthBks{Discrete}: ;;0.344, 54 = Y (8) RefBks{Discrete}: ;;0.344, 54 = Y (9) ArtBks{Discrete}: ;;0.338, 53 = Y (7) Florence{Discrete}: ;;0.146, 23 = Y (6) ItalCook{Discrete}: ;;0.121, 19 = Y (11) ItalArt{Discrete}: ;;0.070, 11 = Y (10) ItalAtlas{Discrete}: ;;0.057, 9 = Y

(23)

Primeira execução para geração das regras:

Parâmetros:

Limite de regras: 80000

Número máximo de itens por regra: 6 Suporte mínimo = 0.5

Confiança mínima = 0

Resultados:

Foram geradas 13691 regras.

Cobertura variando entre 1.274% (correspondente a 2 ocorrências do antecedente da regra na BD) e 58.599% (correspondente a 92 ocorrências).

Confiança variando entre 2.17% e 100,00%.

Suporte entre 1.274% (2 transações) e 34.395% (54 transações).

4.6. Apresentação das Regras de Associação

(24)

Segunda execução para geração das regras:

Parâmetros:

Limite de regras: 80000

Número máximo de itens por regra: 6 Suporte mínimo = 30 Confiança mínima = 2 Regras Geradas: Rule 1: CookBks = Y -> ChildBks = Y (58.599% 58.70% 92 54 34.395%) Rule 2: ChildBks = Y -> CookBks = Y (58.599% 58.70% 92 54 34.395%) Rule 3: DoltYBks = Y -> ChildBks = Y (41.401% 75.38% 65 49 31.210%) Rule 4: ChildBks = Y -> DoltYBks = Y (58.599% 53.26% 92 49 31.210%)

4.6. Apresentação das Regras de Associação

(25)

4.6. Apresentação das Regras de Associação

(26)

4.6. Apresentação das Regras de Associação

• Visualização de Dados:

Permite ao pesquisador um dos mais importantes valores:

habilidade mental de processar e reconhecer padrões.

Objetivo: representar relações de ordem superior de

uma maneira a facilitar a identificação de informação oculta que em situação diferente seria obscurecida pelos resultados mais quantitativos.

HAIR, ANDERSON, TATHAM & BLACK, Análise

(27)

4.6. Apresentação das Regras de Associação

• Visualização usando gráfico plano (HAN & KAMBER, 2007):

(28)

4.6. Apresentação das Regras de Associação

• Visualização usando gráfico de regra (HAN & KAMBER, 2007):

(29)

4.6. Apresentação das Regras de Associação

• Visualização usando distância e agrupamento:

Fonte: HAO, DAYAL, HSU, SPRENGER & GROSS, Visualization of Directed Association in e-Commerce Transaction Data, in HP Labs 2000 Technical Report, 2000.

(30)

4.6. Apresentação das Regras de Associação

• Visualização de perfil de clientes

Fonte: HAO, DAYAL, HSU, SPRENGER & GROSS, Visualization of Directed Association in e-Commerce Transaction Data, in HP Labs 2000 Technical Report, 2000.

(31)

5 – Análise de Agrupamentos

5.1. Conceitos e Aplicações

5.2. Similaridade

/

Dissimilaridade

5.3. Principais Métodos de Agrupamento

5.4. Métodos de Partição

(32)

5.1. Conceitos e Aplicações

5.1.1. Grupo: é uma coleção de objetos de dados (tuplas

ou amostras) que são similares entre si e dissimilares aos objetos de outros grupos.

5.1.2. Agrupamento: é o processo de identificação de

conjuntos de objetos de dados similares, organizando-os em grupos (ou classes). É uma atividade descritiva de mineração de dados (classificação não supervisionada). As dissimilaridades (ou similaridades) são calculadas a partir dos valores dos atributos dos objetos e são representadas, freqüentemente, por medidas de distâncias.

5.1.3. Objetivos Gerais:

• Permitir uma visão geral da distribuição dos dados. • Como ferramenta de pré-processamento.

(33)

5.1.4. Qualidade do Método de Agrupamento:

• Um método com boa qualidade é aquele que produz grupos com alta similaridade intra-classe e baixa similaridade inter-classe.

• A qualidade do método depende tanto da medida de similaridade usada quanto de sua implementação.

• Outro indicador da qualidade de um método é a sua habilidade em descobrir alguns ou todos os padrões desconhecidos.

5.1.5. Características Necessárias do Método de Agrupamento: escalabilidade, lidar com diferentes tipos de

atributos, descobrir grupos com formas arbitrárias, usar um número mínimo de parâmetros de entrada, lidar com dados com ruídos e outliers, agrupamento incremental, alta dimensionalidade, insensibilidade à ordem das amostras, incorporação de restrições especificadas pelo usuário, interpretabilidade e usabilidade.

(34)

5.1.6. Aplicações Gerais:

• Reconhecimento de padrões. • Análise espacial de dados

• Processamento de imagens.

• Ciências econômicas (especialmente pesquisa de mercado).

• W W W (classificação de documentos e descoberta de grupos de padrão de acesso semelhante).

5.1.7. Exemplos de Aplicações:

• Marketing: descobrir grupos distintos de clientes para desenvolver programas de marketing direcionados.

• Uso da terra: identificar áreas de uso semelhante da terra em banco de dados de observação da superfície do planeta.

• Planejamento de cidades: identificar grupos de casas de acordo com tipo, valor e localização geográfica.

(35)

5.2. Similaridade / Dissimilaridade

5.2.1. Tipos de Dados

• Os objetos (pessoas, casas etc.) são descritos por variáveis (atributos) dos tipos escalar por intervalo, binário, categórico, ordinal, escalar proporcional ou uma combinação desses tipos de variáveis.

• A similaridade entre dois objetos i e j é expressada por uma função de distância, tipicamente métrica: d(i, j).

• Para objetos complexos (não estruturados, documentos etc.), usa-se similaridade não métrica.

• Como o tratamento dos valores das variáveis e as funções de distância são diferentes para cada tipo de dados e como o objetivo é apresentar uma visão geral de análise de agrupamento, passa-se a considerar somente variáveis do tipo escalar por intervalo.

(36)

5.2.2. Estruturas de Dados: algoritmos de agrupamento

geralmente usam uma das duas estruturas de dados a seguir:

• Matriz de dados (estrutura objeto por variável): é uma matriz de n objetos x p variáveis.

x₁₁ ... x_1f ... x_1p ... ... ... ... ...

x_i1 ... x_if ... x_ip ... ... ... ... ...

(37)

• Matriz de dissimilaridade (estrutura objeto por objeto): armazena o conjunto de distâncias calculadas para cada par dos n objetos (matriz n x n).

0

d(2, 1) 0

d(3, 1) d(3, 2) 0

... ... ... ...

d(n, 1) d(n, 2) ... d(n, n-1) 0

 d(i, j) é um número geralmente não negativo que representa a distância, diferença ou dissimilaridade entre os objetos i e j.

Se os objetos i e j são altamente similares (próximos),

d(i, j) tende a 0 e d(i, j) cresce quanto mais diferentes

eles forem.

(38)

5.2.3. Variáveis Escalares por Intervalo

• São medidas contínuas de uma escala linear limitada. Ex.: peso, altura, latitude, longitude, temperatura ambiente etc.

• A unidade de medida usada pode afetar de forma significativa a análise de agrupamentos. Para evitar este problema, pode-se usar o seguinte método de padronização dos valores de uma variável f:

1°) Calcular o desvio absoluto médio, s_f:

)

...

(

1

2 1f f f f nf f f

x

m

x

m

x

m

n

s

=

−

+

−

+

−

onde: x_1f, x_2f, ... , x_nf são os n valores da variável f e m_f a sua média aritmética.

(39)

2°) Calcular os valores padronizados para a variável ou escore-z: f f if if

s

m

x

z

=

−

Obs.:

• A padronização iguala os pesos de todas as variáveis.

• É particularmente útil quando não se tem um

conhecimento prévio sobre os dados.

• O desvio absoluto médio é mais robusto para outliers que o desvio padrão, isto é, o escore-z de outliers não fica muito pequeno e ele permanece detectável.

(40)

5.2.4. Cálculo da Dissimilaridade:

• Uma das funções de distância mais usuais é chamada

distância Minkowski, definida como:

q q jp ip q j i q j i

x

j

i

d

(

,

)

=

₁

−

₁

+

₂

−

₂

+

...

+

−

onde: i = (x_i₁, x_i₂, ... , x_ip) e j = (x_j₁, x_j₂, ... , x_jp) são dois objetos p-dimensionais e q é um inteiro positivo.

Obs.: pesos podem ser aplicados para diferenciar a importância das variáveis. Neste caso, a função ficaria da seguinte forma:

q q jp ip p q j i q j i

x

w

x

w

x

w

j

i

d

(

,

)

=

₁ ₁

−

₁

+

₂ ₂

−

₂

+

...

+

−

(41)

• Se q = 2, d é a distância Euclidiana (a mais usual):

(

) (

)

2

(

)

2 2 2 2 1 1

...

)

,

(

i

j

x

_i

x

_j

x

_i

x

_j

x

_ip

x

_jp

d

=

−

+

−

+

−

jp ip j i j i

x

j

i

d

(

,

)

=

₁

−

₁

+

₂

−

₂

+

...

+

−

• Se q = 1, d é a distância Manhattan: Propriedades:  d( i, j) ≥ 0  d( i, i) = 0  d( i, j) = d( j, i)  d( i, j) ≤ d( i, h) + d( h, i)

(42)

• Exemplo: Sejam os objetos p₁(1, 1) e p₂(4, 5), representados abaixo: 1 4 1 5 p₁ p₂ 3 4

Distância entre eles: Manhattan:

d(p₁, p₂) = 3 + 4 = 7

Euclidiana:

(43)

5.3. Principais Métodos de Agrupamento

• Métodos de partição: dado o número de grupos k, o método cria k partições iniciais e, em seguida, usa uma técnica de realocação iterativa, de forma a melhorar a posição dos objetos dentro da cada grupo.

• Métodos hierárquicos: criam uma decomposição

hierárquica de um conjunto de objetos, usando uma das abordagem: aglomerativa ou divisiva.

• Métodos baseados em densidade: criam pequenos grupos e fazem com que cada um deles continue crescendo, enquanto a densidade (número de objetos) da vizinhança for superior a um determinado limite. Os métodos baseados em densidade permitem a geração de grupos com formatos arbitrários (não somente esféricos).

(44)

• Métodos baseado em grade: dividem o espaço dos objetos em um número finito de células, formando uma estrutura de grade. Todas as operações de agrupamento são executadas sobre essa estrutura. A grande vantagem desses métodos é a rapidez de processamento que depende do número de células e não do número de objetos.

• Métodos baseado em modelo: criam um modelo para cada grupo e encontram o melhor ajuste dos dados para cada modelo. Os algoritmos baseados em modelo alocam os grupos construindo uma função de densidade que reflete a distribuição espacial dos objetos. Eles também permitem uma forma de determinação automática do número de grupos baseados em padrões estatísticos.

Obs.: Por serem os mais usuais, serão apresentados, a seguir, detalhes sobre os métodos de partição e hierárquicos.

(45)

5.4. Métodos de Partição

Dados um conjunto de dados D com n objetos e o número

k de grupos a serem formados, um algoritmo de partição

organiza os objetos em k partições (k ≤ n), onde cada partição representa um grupo que atende as seguintes condições:

1) Cada grupo deve conter pelo menos um objeto. 2) Cada objeto deve pertencer a somente um grupo.

O método k-means (técnica baseada em centróide):

• É um dos métodos de partição mais conhecido e mais usual.

• Cada grupo é representado pelo centro do grupo.

• A similaridade do grupo é medida em relação ao valor médio dos objetos do grupo. Este ponto médio é chamado centróide ou centro de gravidade.

(46)

O algoritmo k-means:

Entrada: D: um conjunto de dados com n objetos.

k: o número de grupos.

Saída: Um conjunto de k grupos. Algoritmo:

(1) “escolha arbitrariamente k objetos de D como os centros iniciais dos grupos”;

(2) repita

(3) “atribua cada objeto para o grupo que tenha o centro mais próximo do objeto”;

(4) “calcule os novos centros dos grupos (novo centro de um grupo = valor médio dos objetos do grupo)”;

(47)

(48)

(49)

(50)

(51)

(52)

(53)

(54)

(55)

(56)

(57)

(58)

(59)

Vantagens do método k-means:

• Relativamente escalável e eficiente para grandes conjuntos de dados. Complexidade do algoritmo é O(nkt), sendo n o n° de objetos, k o n° de grupos e t o n° iterações e normalmente, k << n e t << n.

• O método freqüentemente termina num local ótimo. Desvantagens do método k-means:

• Aplicado somente quando a média é definida. • Tem que fornecer o valor de k como parâmetro.

• Funciona bem somente para descobrir grupos com formatos convexos.

(60)

5.5. Métodos Hierárquicos

• Organiza os objetos em uma árvore (estrutura hierárquica) de grupos.

• Existem dois tipos de métodos hierárquicos:

1°) Aglomerativo (de baixo para cima): começa considerando cada objeto como um grupo unitário e passa a fundir os grupos em outros cada vez maiores, até que todos os objetos constituam um grupo único ou que uma determinada condição de terminação seja satisfeita.

2°) Divisivo (de cima para baixo): começa com todos os objetos num único grupo e passa a dividi-lo em grupos cada vez menores, até que cada objeto forme um grupo unitário ou que uma determinada condição de terminação seja satisfeita.

(61)

• Exemplo (AGlomerative NESting → AGNES e DIvisive ANAlysis → DIANA):

Step 0 Step 1 Step 2 Step 3 Step 4

b d c e a a b d e c d e a b c d e

Step 4 Step 3 Step 2 Step 1 Step 0

aglomerativo (AGNES)

divisivo (DIANA)

(62)

• Dendrograma: é uma estrutura de árvore comumente usada para representar o processo de agrupamento hierárquico, que mostra, passo a passo, como os objetos são agrupados Exemplo: nível a b c d e l = 0 l = 1 Escala de similaridade 1.0 0.8 0.6 0.4 0.2 0.0 l = 2 l = 3 l = 4

(63)

• Nos métodos hierárquicos, executado um passo na construção da árvore (fundir ou dividir grupos), ele não pode ser desfeito. Isso pode ser visto como vantagem (baixo custo computacional) ou desvantagem (impossibilidade de corrigir decisões erradas).

• O usuário não precisa especificar o número de grupos k como parâmetro de entrada, mas pode indicar o número de grupos desejado como condição de terminação do proceso.

(64)

Exemplo de dendrograma da base de dados Iris, gerado pelo software SIRIUS:

Scores Euclidian Dendrogram

Object Di ssi mi la ri ty Sm p 7 1 Sm p 5 9 Sm p 1 2 4 Sm p 1 3 8 Sm p 5 1 Sm p 1 3 9 Sm p 2 6 Sm p 1 8 Sm p 1 4 3 Sm p 7 8 Sm p 6 4 Sm p 1 2 5 Sm p 3 7 Sm p 6 Sm p 9 5 Sm p 1 0 6 Sm p 1 Sm p 4 0 Sm p 1 0 0 Sm p 1 3 5 Sm p 8 8 Sm p 1 1 2 Sm p 5 0 Sm p 1 3 6 Sm p 4 4 Sm p 9 7 Sm p 1 5 0 Sm p 1 0 9 Sm p 1 1 4 Sm p 9 0 Sm p 9 3 Sm p 1 3 3 Sm p 8 5 Sm p 9 9 Sm p 9 8 Sm p 1 2 0 Sm p 8 6 Sm p 3 0 Sm p 1 2 8 Sm p 1 0 5 Sm p 1 1 9 Sm p 6 5 Sm p 1 9 Sm p 1 2 1 Sm p 5 2 Sm p 8 2 Sm p 5 Sm p 6 2 Sm p 1 6 Sm p 1 2 Sm p 1 1 7 Sm p 1 3 7 Sm p 1 3 1 Sm p 5 7 Sm p 1 4 6 Sm p 1 1 3 Sm p 9 4 Sm p 2 9 Sm p 9 Sm p 9 2 Sm p 1 2 7 Sm p 8 1 Sm p 1 5 Sm p 1 7 Sm p 1 0 4 Sm p 1 1 0 Sm p 1 4 8 Sm p 2 7 Sm p 4 9 Sm p 7 4 Sm p 1 2 3 Sm p 7 7 Sm p 2 1 Sm p 8 9 Sm p 2 4 0.00 0.20 0.40 0.60 0.80 1.00 1.20