Vetor Quantização e Aglomeramento (Clustering)

(1)

MIT

Vetor Quantização e Aglomeramento

(Clustering)

• Introdução

• Aglomeramento de K-partes • Desafios do Aglomeramento • Aglomeramento Hierárquico

– Aglomeramento divisivo (top-down) – Aglomeramento inclusivo (bottom-up) • Aplicações para o reconhecimento da voz

(2)

MIT

Modelamento Acústico

• Representação do Sinal produz seqüência de vetor características, • Seqüências multi- dimensionais podem ser processadas por:

– Métodos que modelam diretamente espaço contínuo; – Quantização e modelamento de símbolos discretos; • Principais vantagens e desvantagens da quantização:

– Redução no armazenamento e nos custos computacionais; – Potencial perda de informação devido à quantização;

Representação do Sinal

Vetor Quantização

(3)

MIT

Vetor Quantização (VQ)

• Usado na compressão do sinal, codificação da voz e imagem.

• Transmissão da informação mais eficiente que a quantização escalar (pode obter menos que 1 bit/parâmetro).

• Usado para modelamento acústico discreto desde os primórdios dos anos 80.

• Baseado em algoritmos padrões de aglomeramento:

– Aglomerados individuais centralizados são denominados de

codewords.

– Um conjunto de aglomerados centralizados é denominado de

codebook.

– VQ básico é um aglomerado de K- partes.

– VQ binário é uma forma de aglomeramento top-down (usado para quantização eficiente).

(4)

MIT

VQ & Aglomeramento

• Aglomeramento é um exemplo de conhecimento não

supervisionado.

– Número e forma das classes {C_i} desconhecida.

– Amostras de dados disponíveis {x_i} não são classificadas.

– Útil para descobrir estrutura de dados antes da classificação ou adaptação dos classificadores.

(5)

(6)

MIT

Desafios do Aglomeramento

• O que define um aglomerado?

– Existe um protótipo representando cada aglomerado?

• Como é definido um membro associado a um determinado aglomerado?

– O que é a distância métrica, d(x; y)? • Quantos aglomerados existem?

– O número de aglomerados é escolhido antes do aglomeramento?

• Quanto bem os aglomerados representam dados não vistos? – Como um novo dado é atribuído para um dado aglomerado?

(7)

MIT

Aglomeramento de K-Partes

• Usado para agrupar dados em K aglomerados, {C₁,...,C_K}

• Cada aglomerado é representado por meio de dados atribuídos • O algoritmo converge de forma iterativa para um ótimo local:

– Seleciona K aglomerados médios iniciais , {µ_{1, …,}µ_K}.

– Calcula iterativamente até o critério de termino ser satisfeito:

1. Atribui cada amostra de dados para o aglomerado mais próximo.

x

∈

C_i; d(x;µ_i) ≤ d(x;µ_j); ∀i ≠j

1. Atualiza as K médias a partir das amostras atribuídas.

µ_i = E(x); x

∈

C_i; 1 ≤ i ≤ K

(8)

MIT

K-Partes Exemplo: K = 3

• Seleção aleatória 3 amostras de dados para medias iniciais. • Distância métrica Euclidiana entre médias e amostras.

(9)

MIT

Propriedades do K-Partes

• Geralmente usado com uma distância métrica Euclidiana

d(x;µ_i) = ||x - µ_i||2 _{= (x - µ}

i)t(x - µi)

• A distorção_{, D, é a soma do erro quadrático}

• D decresce entre a nth e n + 1st iteração

D(n + 1) ≤ D(n)

• Também conhecido como Isodata, ou algoritmo de Lloyd generalizado.

• Semelhanças com o algoritmo Maximização-Expectativa para conhecimento de parâmetros a partir de dados não classificados.

∑ ∑

= ∈ − = K i x C_i x D 1 2

µ

(10)

MIT

Aglomeramento K-Partes: Inicialização

• K-partes converge para um ótimo local . – Ótimo Global não é garantido.

– Escolha inicial pode influenciar o resultado final.

• K-partes inicial pode ser escolhido aleatoriamente.

– Aglomeramento pode ser repetido múltiplas vezes.

• Estratégias Hierárquicas são freqüentemente utilizadas para iniciar os aglomerados.

– Top-down (divisiva) (ex., binary VQ). – Bottom-up (inclusiva).

(11)

MIT

Aglomeramento K- Partes: Critério de Término

• Muitos critérios podem ser utilizados para terminar K-partes: – Não há mudança nas atribuições dos dados.

– Máximo número de iterações foi excedido.

– Mudança na distorção total, D, cai abaixo de um limiar.

(

)

( )

n

T

D

n

D

<

+

−

1

(12)

MIT

Exemplo de Aglomeramento Acústico

• 12 aglomerados, iniciados com aglomeramento inclusivo. • Representação Espectral baseada no modelo de audição.

(13)

MIT

Desafios do Aglomeramento:

Número de Aglomerados

• Em geral, o número de aglomerados é desconhecido.

• Depende do critério de aglomeramento, espaço, computação ou requisitos de distorção ou métricas de reconhecimento

(14)

MIT

Desafios do Aglomeramento:

Critério de Aglomeramento

• O critério utilizado em particionar os dados em aglomerados tem um papel importante na determinação do resultado final.

(15)

MIT

Desafios do Aglomeramento: Distância Métrica

• A distância métrica geralmente tem as seguintes propriedades: 1. 0 ≤ d(x; y) ≤ ∞

2. d(x; y) = 0 if x = y 3. d(x; y) = d(y; x)

4. d(x; y) ≤ d(x; z) + d(y; z)

5. d(x + z; y + z) = d(x; y) (invariante)

• Na prática,a distância métrica pode não seguir algumas destas propriedades mas são uma medida das dissimilaridades.

(16)

MIT

Desafios do Aglomeramento: Distância Métrica

• Distância métrica influencia fortemente a forma dos aglomerados:

• Produto escalar normalizado:

• Euclidiana: ||x - µ_i||2 _{= (x - µi)}t _{(x - µ} i)

• Euclidiana pesada: (x - µi)t_{W(x - µ}

i) (ex., W = ∑-1)

• Distância Mínima (cadeia): min d(x; x_i); x_i∈ C_i • Representação específica …....

y

x

y

(17)

MIT

Desafios do Aglomeramento:

Impacto da Escala

• A escala das dimensões do vetor característica pode influenciar significativamente os resultados do aglomeramento.

• A escala pode ser utilizada para normalizar dimensões e portanto uma simples distância métrica é um critério razoável para a similaridade.

(18)

MIT

Desafios do Aglomeramento:

Treinamento e Teste de Dados

• O desempenho do treinamento de dados pode ser arbitrariamente bom ex.,

• Teste independente dos dados é necessário para medir o desempenho.

• Desempenho pode ser medido pela distorção, D, ou alguma outra métrica de reconhecimento de voz relevante.

• Treinamento robusto irá degradar minimamente durante o teste

• Bons dados de treinamento casam bastante bem com as condições do teste.

• Dados de Desenvolvimento são freqüentemente utilizados para refinamentos, pois através testes iterativos podem implicitamente se tornar uma forma de dados de treinamento.

0 lim

=

∞

→ k

(19)

MIT

Critério de Avaliação Alternativo:

Exemplo LPC VQ

Autumn (Outono)

Autumn LPC

(20)

MIT

Aglomeramento Hierárquico

• Aglomere os dados em uma estrutura de classes hierárquicas. • Top-down (divisiva) ou bottom-up (inclusiva).

• Freqüentemente baseado na formulação stepwise-optimal, ou

greedy.

• Estrutura Hierárquica útil para supor classes.

• Usado para iniciar algoritmos de aglomeramento tais como K-partes.

(21)

MIT

Aglomeramento Divisivo

• Cria hierarquia dividindo sucessivamente os aglomerados em grupos menores.

• Em cada iteração, um ou mais dos existentes aglomerados são divididos para formar novos aglomerados.

• O processo é repetido até que um critério de término seja atingido. • Técnicas divisivas podem incorporar heurísticas de cortes e de

(22)

MIT

Exemplo de Aglomeramento

Divisivo Não-Uniforme

(23)

(24)

MIT

Desafios no Aglomeramento Divisivo

• Inicialização de novos aglomerados:

– Seleção Aleatória a partir de amostras de aglomerados; – Seleção de membros amostra distantes do centro;

– Perturba dimensão de máxima variância; – Perturba todas as dimensões ligeiramente. • Estruturas Árvore Uniforme ou não-uniforme.

• Corte de Aglomerados (devido a uma pobre expansão). • Atribuição de Aglomerado (distância métrica).

• Critério de Término:

– Decréscimo na taxa de distorção;

(25)

MIT

Exemplo de Aglomeramento Divisivo:

VQ Binário

• Freqüentemente usado para criar codebook de tamanho M = 2B _(B

bit codebook, codebook tamanho M).

• É utilizado o aglomeramento divisivo binário uniforme. • Em cada iteração cada aglomerado é dividido em dois:

• K-partes é utilizado para determinar o centróide do aglomerado. • Também conhecido como algoritmo LBG (Linde, Buzo, Gray).

• Uma versão mais eficiente faz K-partes somente entre cada divisão binária, e mantém a árvore para uma procura eficiente.

(

+

∈

)

=

+

₁

i i

µ

(

−

∈

)

=

−

₁

i i

µ

(26)

MIT

Aglomeramento Inclusivo

• Estruture N amostras ou inicie aglomerados em uma hierarquia;

• Em cada iteração, os aglomerados mais semelhantes são reunidos para formar um novo aglomerado;

• Após N -1 iterações, a hierarquia é completada;

• A estrutura é apresentada na forma de um dendrograma;

• Levando em consideração o grau de semelhança quando novos aglomerados são criados, o dendrograma pode freqüentemente fornecer ajuda no agrupamento natural dos dados.

(27)

(28)

MIT

Desafios com o Aglomeramento Inclusivo

• Medindo distâncias entre aglomerados C_i e C_j com número respectivo de tokens n_i e n_j.

• Distância média:

• Máxima distância (compacta):

• Mínima distância (cadeia):

• Distância entre dois vetores representativos de cada aglomerado tal como suas médias: d(µ;µ).

(

)

∑

ij j i j i

x

d

n

,

1 (

i j

)

ij

d

x

,

x

max

(

i j

)

ij

d

x

,

x

min

(29)

MIT

Aglomeramento Stepwise-Optimal

• Comum para minimizar o incremento na distorção total em cada interação de junção: stepwise-optimal ou greedy.

• A cada iteração, juntar os dois aglomerados que produzem o menor aumento na distorção.

• Distância métrica para minimizar a distorção, D, é:

• Tende a combinar pequenos aglomerados com grandes aglomerados antes de juntar aglomerados de tamanho similar.

j i j i j i

n

µ

+

(30)

(31)

MIT

Aglomeramento de pessoas falando

• 23 mulheres e 53 homens falando a partir do TIMIT corpus. • Vetor baseado na media de F1 e F2 para 9 vogais.

(32)

(33)

MIT

Velar Oclusiva Alofônica

(34)

MIT

Hierarquia Acústica - Fonética

• Aglomeramento das distribuições fonéticas ao longo de 12 aglomerados.

(35)

(36)

MIT

Aplicações VQ

• Normalmente usada para reduzir a computação. • Pode ser utilizada sozinha para a classificação.

• Usada em dynamic time warping (DTW) e discrete hidden Markov models (HMMs).

• Codebooks Multiplos são usados quando espaços são estatisticamente independentes (product codebooks).

• Codebooks Matrizes são às vezes utilizados para capturar a correlação entre quadros sucessivos.

• Usado para estimação semi-paramétrica da densidade (ex., misturas semi-contínuas).

(37)

MIT

Referências

• Huang, Acero, and Hon, Spoken Language Processing, Prentice-Hall, 2001.

• Duda, Hart and Stork, Pattern Classification, John Wiley & Sons, 2001.

• A. Gersho and R. Gray, Vector Quantization and Signal Compression, Kluwer Academic Press, 1992.

• R. Gray, Vector Quantization, IEEE ASSP Magazine, 1(2), 1984.

• A. Juang, D. Wang, A. Gray, Distortion Performance of Vector Quantization for LPC Voice Coding, IEEE Trans ASSP, 30(2), 1982. • J. Makhoul, S. Roucos, H. Gish, Vector Quantization in Speech

Coding, Proc. IEEE, 73(11), 1985.

• L. Rabiner and B. Juang, Fundamentals of Speech Recognition, Prentice-Hall, 1993.