Reconhecimento da voz baseado em segmento

(1)

MIT

Reconhecimento da voz baseado em segmento

• Introdução

• Pesquisando gráficos baseados no espaço de observações – Modelamento antifonema

– Modelamento Near -miss • Modelamento por marcas • Modelamento fonológico

(2)

MIT

Reconhecimento da voz baseado em segmento

(3)

MIT

Reconhecimento da voz baseado em segmento

• Modelamento acústico é feito sobre um inteiro segmento

• Segmentos tipicamente correspondem a unidades semelhantes a fonemas

• Vantagens potenciais :

– Melhor estrutura de modelamento conjunto tempo/espectro – Medidas acústicas baseadas em segmento ou marcas

– Desvantagens potenciais:

– Significante aumento no modelo e calculo na pesquisa

(4)

MIT

Modelamento Acústico-Fonético Hierárquico

• Medidas homogêneas podem comprometer o desempenho

– Consoantes nasais são mais bem classificadas com um janela de analise mais longa

– Consoantes de parada são mais bem classificadas com um janela de analise mais curta

(5)

MIT

Classificação fonética baseada em comissão

• Variação da base temporal afeta erro entre classes

– Suave variação da base co-seno é melhor para vogais que para nasais

– Divisão por partes de forma constante é melhor para fricativas e paradas

(6)

MIT

Experimentos de classificação de fonemas

(A. Halberstadt, 1998)

• TIMIT corpus acústico-fonético

– Somente classificação Independente do contexto

– 462 vozes de treinamento no corpus, 24 vozes de base no conjunto de testes

– Metodologia de avaliação padrão, 39 classes fonéticas comuns • Várias diferentes representações acústicas incorporadas

– Várias resoluções tempo-freqüência (Janela de Hamming10-30 ms) – Diferentes representações espectrais (MFCCs, PLPCCs, etc)

• Transformada co-seno vs Funções divisão por partes de forma constante • MAP hierárquico calculado é métodos baseados em comissão

(7)

MIT

Procedimento Estatístico Para RAV

• Dada à observação acústica, A, escolha uma seqüência, W*, que maximiza a probabilidade posteriori, P(W|A)

• A regra de Bayes é tipicamente utilizada para decompor P(W | A) e termos acústicos e lingüísticos

(

w

A

)

P

W

|

max

arg

*

₌

(

)

(

_{( )}

) ( )

A

P

W

P

W

A

P

A

W

P

|

=

|

(8)

MIT

Considerações Sobre a Procura no RAV

• Uma procura completa considera todas as possíveis segmentações, S, e unidades, U, para cada seqüência de palavras hipotizada, W

• Pode procurar pelo melhor caminho para simplificar a procura usando programação dinâmica (por ex., Viterbi)ou gráficos de busca (por ex., A*)

• A decomposição Bayesana modificada tem quatro termos:

• No HMM’ estes correspondem acústica, estado, e probabilidades do modelo de linguagem ou verossimilhança

(

)

=

_∑∑

(

)

= S U W w A WUS P A W P

W* argmax | argmax |

(

WUS

A

)

P

S

U

W

S U W

|

max

arg

,

, , * * *

_≈

(

)

(

) (

_{( )}

) (

) ( )

A P W P W U P UW S P SUW A P A WUS P | = | | |

(9)

MIT

Exemplo de procedimentos baseados em

segmento

• HMM

– Taxa variável de quadro (Ponting et al., 1991, Alwan et al., 2000)

– HMM baseado em segmento (Marcus, 1993) – HMM segmentado (Russell et al., 1993)

• Modelamento da trajetória

– Modelos estocásticos de segmento (Ostendorf et al., 1989) – Modelos de trajetória paramétricos (Ng, 1993)

– Modelos de trajetória Estatísticos (Goldenthal, 1994) • Baseado em características

– FEATURE (Cole et al., 1983) – SUMMIT (Zue et al., 1989) – LAFF (Stevens et al., 1992)

(10)

MIT

Modelamento baseado em segmento no MIT

• Modelamento básico baseado em segmento incorpora :

– Médias e derivadas de coeficientes espectrais (por ex., MFCCs)

– Normalização da dimensionalidade através da analise das principais componentes

– Estimação PDF via Mistura de Gaussianas

• Exemplo investigações modelamento acústico-fonético,

– Alternativa para classificadores probabilísticos (por ex.., Leung, Meng) – Medida de características conhecidas automaticamente (e.g., Phillips,

Muzumdar)

– Modelos estatística da trajetória (Goldenthal)

– Hierarquia de características probabilísticas (e.g., Chun, Halberstadt) – Modelamento Near-miss (Chang)

– Segmentação probabilística (Chang, Lee)

(11)

MIT

SUMMIT RAV Baseado em Segmento

• SUMMIT reconhecimento de voz é baseado em segmentos fonéticos:

– O instante de inicio e fim de fonemas explícitos são supostos durante a procura; – Difere dos métodos convencionais baseados em quadros (por ex., HMMs); – Possibilita modelamento acústico –fonético baseado em segmento;

– Medidas podem ser extraídas de marcas e segmentos.

• Reconhecimento é obtido pela pesquisa de um gráfico fonético:

– Gráficos podem ser determinados via critério acústico ou modelos probabilísticos;

– Segmentos que competem fazem uso de diferentes espaços de observações; – Decodificação probabilística deve ser considerada para gráficos baseados no

(12)

MIT

Reconhecimento de voz “Baseada em Quadro”

• Espaço de observações, A, corresponde a uma seqüência temporal de quadros acústicos (Por ex.,fatias espectrais).

• Cada segmento suposto, si, é representado por uma série de quadros calculados entre os instantes de início e fim do segmento. • A verossimilhança acústica, P(A|SW), é derivada a partir do mesmo

espaço de observações para todas as hipóteses sobre a palavra. P(a1 a2 a3 |SW) ⇔ P(a1 a2 a3 |SW) ⇔ P(a1 a₂ a3 |SW)

(13)

MIT

Reconhecimento da voz “Baseado em Características”

• Cada segmento, si, é representado por um único vetor característica, a_i

• Dada uma particular segmentação, S, A consiste de X, o vetor caracterÍstica associado com S, como também Y, o vetor caracterÍstica associado com segmentos não em S: A = X ∪ Y

(14)

MIT

Reconhecimento da voz “Gráficos de procura baseados no espaço de observações: O modelo Anti-fonema Baseado em Características”

• Crie uma unidade, , para modelar segmentos que não são fonemas • Para uma segmentação, S, atribua anti-fonema para segmentos extra

– Todos os segmentos são considerados estar no gráfico fonético

– Caminhos alternativos através do gráfico podem ser legitimamente comparados

• Caminhos verossímeis podem ser decompostos em dois termos:

1. A verossimolhança de todos os segmentos produzidos pelo antifonema (uma constante)

2. A razão do fonema para o anti-fonema verossímil de todos os segmentos de caminho

• Formulação MAP para a seqüência de palavras mais provável, W, dada por:

α

(x u ) _{) (} _{) ( )} P N_s _| * ₌

∏

(15)

MIT

Modelando unidades não–léxicas: O anti-fonema

• Dada uma particular segmentação, S, A consiste de X, os segmentos associados com S, como também Y, os segmentos não associados com S: P(A|SU) = P(XY|SU)

• Dada à segmentação S, atribua vetores característica em X a unidades válidas,e todos os outros em Y para o antifonema

• •Desde que P(XY| ) é uma constante, K, podemos escrever P(XY|SU) supondo independência entre X e Y

• Precisamos considerar somente segmentos em S durante cada procura:

(

)

(

)

(

) (

₍

)

₎

(

₍

)

₎

(

)

(

X

) (

P s u

) (

P U W

) ( )

P W P U X P W _i _i N i i i S U W s | | | | max arg , , *

C

_α

= α

(16)

(17)

MIT

Propriedades Básicas Anti-fonema

• Modele o espaço inteiro de observações, usando tanto os exemplos positivos como os negativos.

• As pontuações do log da verossimilhança são normalizadas pelo anti-fonema:

– Boas pontuações são positivas, pontuações ruins são negativa; – Todos os segmentos pobres tem pontuação negativa;

– Útil para eliminação e/ou rejeição;

– Anti-fonema não é utilizado para acesso léxico;

• Não são utilizadas probabilidades à priori ou posteriori durante a pesquisa:

– Permite cálculos sob demanda e/ou rápida equivalência;

– Subconjuntos de dados podem ser utilizados para treinamento; • Modelos independentes ou dependentes do contexto podem ser

utilizados.

(18)

MIT

Além dos anti-fonemas: Modelamento near-miss

• Modelamento anti-fonema particiona o espaço de observações em duas partes (ou seja dentro ou fora de uma segmentação hipotética).

• Modelamento near-miss particiona o espaço das observações em um conjunto de sub conjuntos mutuamente exclusivos.

– Um subconjunto near-miss pré-calculado para cada segmento no gráfico.

– Critério temporal pode garantir a geração apropriada de subconjuntos near-missed (por ex., segmento A é um near-miss de Base o ponto médio de A é estendido por B).

• Durante o reconhecimento, observações em um subconjunto near-miss são mapeadas em um modelo near-miss de um fonema hipotético.

• Modelos near-miss podem ser apenas um anti-fonema, mas podem potencialmente ser mais sofisticados (por ex., fonema dependente).

(19)

MIT

Criando subconjuntos near-miss

• Subconjuntos near-miss, A_i, associados com qualquer segmentação, S, devem ser mutuamente t exclusivos e exaustivos: A = U Ai ∀Ai ∈ S.

• Critério Temporal garante subconjuntos near-miss apropriados:

– Confinando segmentos em S estes são contabilizados uma única vez;

– Determinando todos os segmentos estendidos cria subconjuntos near-miss.

(20)

MIT

Modelando Marcas

• •Podemos também incorporar vetores característicos adicionais calculados em marcas hipotéticas ou contornos de fonemas.

• Toda segmentação considera todas as marcas:

– Algumas marcas serão a transição entre unidades léxicas; – Outras marcas serão consideradas internas a unidade.

• Tanto unidades independentes ou dependentes do contexto são possíveis • Modela efetivamente transições entre fonemas (por ex., difonemas).

• Modelos baseados em quadros podem ser usados para gerar grafo de segmento.

(21)

MIT

Modelando Marcas

• Medidas baseadas em quadros:

– Calculado a cada 5 mili segundos;

– Vetor característica de 14 Mel-Scala Coeficientes Cepstrais Coefficients (MFCCs).

• Medidas baseadas em marcas:

– Calcule a media de MFCCs sobre 8 regiões em torno da marca – 8 regiões X 14 MFCC médias = vetor de 112 dimensões.

– 112 dims Reduzidas para 50 usando analise de componente principal.

(22)

MIT

Segmentação Probabilística

• Use procura de Viterbi para frente inicialmente para achar o melhor caminho

(23)

MIT

Segmentação Probabilística (continuação)

• Em um Segundo passo use procura para A* para achar os N-melhores caminhos

• •O traço de Viterbi é usado como estimador da pontuação dos caminhos

(24)

MIT

Experimentos de reconhecimento fonético

• TIMIT corpus acústico-fonético:

– Corpus com 462 vozes de treinamento, 24 vozes fundamentais no conjunto de teste;

– Metodologia padrão de avaliação, 39 classes fonéticas comuns.

• Representações de segmentos e marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração.

• PCA usado para normalização de dados e redução.

• Modelos acústicos baseados na aglomeração de gaussianas misturadas. • Modelo de linguagem baseado em fonema bigrama.

(25)

MIT

Modelamento fonológico

• Palavras descritas por formas básicas fonéticas.

• Regras fonológicas expandem formas básicas em gráficos, por ex.: – Eliminação de rajadas de stop (por ex., laptop);

– Eliminação de /t/ em várias situações (por ex., intersection, destination, crafts);

– Geminação de fricativas e nasais (por ex., this side, in nome); – Assimilação de lugar (ex.: did you (/d ih jh uw/)).

• Probabilidades tais como, P(U|W), podem ser treinadas. • A maioria dos HM não tem componentes fonológicas.

(26)

MIT

Exemplo fonológico

• Exemplo de “what you” expandido no reconhecedor SUMMIT

– Final /t/ em “what” pode ser interpretado como released, unreleased, palatalized, ou stop glotal, ou flap.

(27)

MIT

Experimentos de reconhecimento de palavra

• Jupiter baseada em conversação telefônica, perguntas sobre meteorologia corpus. – Conjunto de 50.000 frases de treinamento, 1806 “no domínio”do conjunto de

frases testes.

• Modelos Acústicos baseados em Gaussianas misturadas.

– Representações de Segmento e Marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração.

– PCA usado para normalização de dados e redução. – 715classes de contorno dependentes do contexto.

– 935 tri-fonema, 1160 difonema, classes segmento dependentes do contexto. • Gráfico de pronuncia incorpora probabilidades de pronuncia.

• Modelo de linguagem baseado em classes bigrama e trigrama. • Melhor desempenho obtido pela combinação de modelos.

(28)

MIT

Resumo

• Algumas técnicas de reconhecimento baseadas em segmento transformam o espaço de observação de quadro para gráfico.

• Gráficos baseados no espaço de observação permitem uma ampla variedade de métodos de modelamento alternativos para procedimentos baseados em quadros.

• Anti-fonema e modelamento near-miss fornecem um mecanismo para pesquisar gráficos baseados no espaço de observações.

• Bons resultados tem sido alcançados para reconhecimento fonético • Muito trabalho resta a ser feito!

(29)

MIT

Referências

• J. Glass, “A Probabilistic Framework for Segment-Based Speech Recognition,” to appear in Computer, Speech & Language, 2003.

• D. Halberstadt, “Heterogeneous Acoustic Measurements and Multiple Classifiers for Speech Recognition,” Ph.D. Thesis, MIT, 1998.

• M. Ostendorf, et al., “From HMMs to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition,” Trans. Speech & Audio Proc., 4(5), 1996.