MIT
Reconhecimento da voz baseado em segmento
• Introdução
• Pesquisando gráficos baseados no espaço de observações – Modelamento antifonema
– Modelamento Near -miss • Modelamento por marcas • Modelamento fonológico
MIT
Reconhecimento da voz baseado em segmento
MIT
Reconhecimento da voz baseado em segmento
• Modelamento acústico é feito sobre um inteiro segmento
• Segmentos tipicamente correspondem a unidades semelhantes a fonemas
• Vantagens potenciais :
– Melhor estrutura de modelamento conjunto tempo/espectro – Medidas acústicas baseadas em segmento ou marcas
– Desvantagens potenciais:
– Significante aumento no modelo e calculo na pesquisa
MIT
Modelamento Acústico-Fonético Hierárquico
• Medidas homogêneas podem comprometer o desempenho
– Consoantes nasais são mais bem classificadas com um janela de analise mais longa
– Consoantes de parada são mais bem classificadas com um janela de analise mais curta
MIT
Classificação fonética baseada em comissão
• Variação da base temporal afeta erro entre classes
– Suave variação da base co-seno é melhor para vogais que para nasais
– Divisão por partes de forma constante é melhor para fricativas e paradas
MIT
Experimentos de classificação de fonemas
(A. Halberstadt, 1998)
• TIMIT corpus acústico-fonético
– Somente classificação Independente do contexto
– 462 vozes de treinamento no corpus, 24 vozes de base no conjunto de testes
– Metodologia de avaliação padrão, 39 classes fonéticas comuns • Várias diferentes representações acústicas incorporadas
– Várias resoluções tempo-freqüência (Janela de Hamming10-30 ms) – Diferentes representações espectrais (MFCCs, PLPCCs, etc)
• Transformada co-seno vs Funções divisão por partes de forma constante • MAP hierárquico calculado é métodos baseados em comissão
MIT
Procedimento Estatístico Para RAV
• Dada à observação acústica, A, escolha uma seqüência, W*, que maximiza a probabilidade posteriori, P(W|A)
• A regra de Bayes é tipicamente utilizada para decompor P(W | A) e termos acústicos e lingüísticos
(
w
A
)
P
W
W|
max
arg
*=
(
)
(
( )
) ( )
A
P
W
P
W
A
P
A
W
P
|
=
|
MIT
Considerações Sobre a Procura no RAV
• Uma procura completa considera todas as possíveis segmentações, S, e unidades, U, para cada seqüência de palavras hipotizada, W
• Pode procurar pelo melhor caminho para simplificar a procura usando programação dinâmica (por ex., Viterbi)ou gráficos de busca (por ex., A*)
• A decomposição Bayesana modificada tem quatro termos:
• No HMM’ estes correspondem acústica, estado, e probabilidades do modelo de linguagem ou verossimilhança
(
)
=∑∑
(
)
= S U W w A WUS P A W PW* argmax | argmax |
(
WUS
A
)
P
S
U
W
S U W|
max
arg
,
,
, , * * *≈
(
)
(
) (
( )
) (
) ( )
A P W P W U P UW S P SUW A P A WUS P | = | | |MIT
Exemplo de procedimentos baseados em
segmento
• HMM
– Taxa variável de quadro (Ponting et al., 1991, Alwan et al., 2000)
– HMM baseado em segmento (Marcus, 1993) – HMM segmentado (Russell et al., 1993)
• Modelamento da trajetória
– Modelos estocásticos de segmento (Ostendorf et al., 1989) – Modelos de trajetória paramétricos (Ng, 1993)
– Modelos de trajetória Estatísticos (Goldenthal, 1994) • Baseado em características
– FEATURE (Cole et al., 1983) – SUMMIT (Zue et al., 1989) – LAFF (Stevens et al., 1992)
MIT
Modelamento baseado em segmento no MIT
• Modelamento básico baseado em segmento incorpora :
– Médias e derivadas de coeficientes espectrais (por ex., MFCCs)
– Normalização da dimensionalidade através da analise das principais componentes
– Estimação PDF via Mistura de Gaussianas
• Exemplo investigações modelamento acústico-fonético,
– Alternativa para classificadores probabilísticos (por ex.., Leung, Meng) – Medida de características conhecidas automaticamente (e.g., Phillips,
Muzumdar)
– Modelos estatística da trajetória (Goldenthal)
– Hierarquia de características probabilísticas (e.g., Chun, Halberstadt) – Modelamento Near-miss (Chang)
– Segmentação probabilística (Chang, Lee)
MIT
SUMMIT RAV Baseado em Segmento
• SUMMIT reconhecimento de voz é baseado em segmentos fonéticos:
– O instante de inicio e fim de fonemas explícitos são supostos durante a procura; – Difere dos métodos convencionais baseados em quadros (por ex., HMMs); – Possibilita modelamento acústico –fonético baseado em segmento;
– Medidas podem ser extraídas de marcas e segmentos.
• Reconhecimento é obtido pela pesquisa de um gráfico fonético:
– Gráficos podem ser determinados via critério acústico ou modelos probabilísticos;
– Segmentos que competem fazem uso de diferentes espaços de observações; – Decodificação probabilística deve ser considerada para gráficos baseados no
MIT
Reconhecimento de voz “Baseada em Quadro”
• Espaço de observações, A, corresponde a uma seqüência temporal de quadros acústicos (Por ex.,fatias espectrais).
• Cada segmento suposto, si, é representado por uma série de quadros calculados entre os instantes de início e fim do segmento. • A verossimilhança acústica, P(A|SW), é derivada a partir do mesmo
espaço de observações para todas as hipóteses sobre a palavra. P(a1 a2 a3 |SW) ⇔ P(a1 a2 a3 |SW) ⇔ P(a1 a2 a3 |SW)
MIT
Reconhecimento da voz “Baseado em Características”
• Cada segmento, si, é representado por um único vetor característica, ai
• Dada uma particular segmentação, S, A consiste de X, o vetor caracterÍstica associado com S, como também Y, o vetor caracterÍstica associado com segmentos não em S: A = X ∪ Y
MIT
Reconhecimento da voz “Gráficos de procura baseados no espaço de observações: O modelo Anti-fonema Baseado em Características”• Crie uma unidade, , para modelar segmentos que não são fonemas • Para uma segmentação, S, atribua anti-fonema para segmentos extra
– Todos os segmentos são considerados estar no gráfico fonético
– Caminhos alternativos através do gráfico podem ser legitimamente comparados
• Caminhos verossímeis podem ser decompostos em dois termos:
1. A verossimolhança de todos os segmentos produzidos pelo antifonema (uma constante)
2. A razão do fonema para o anti-fonema verossímil de todos os segmentos de caminho
• Formulação MAP para a seqüência de palavras mais provável, W, dada por:
α
(x u ) ) ( ) ( ) P Ns | * =∏
MIT
Modelando unidades não–léxicas: O anti-fonema
• Dada uma particular segmentação, S, A consiste de X, os segmentos associados com S, como também Y, os segmentos não associados com S: P(A|SU) = P(XY|SU)
• Dada à segmentação S, atribua vetores característica em X a unidades válidas,e todos os outros em Y para o antifonema
• •Desde que P(XY| ) é uma constante, K, podemos escrever P(XY|SU) supondo independência entre X e Y
• Precisamos considerar somente segmentos em S durante cada procura:
(
)
(
)
(
) (
) (
(
)
)
(
(
)
)
α α α α | | | | | | | | X P U X P k X P X P Y P U X P U XY P SU XY P = = =(
)
(
X) (
P s u) (
P U W) ( )
P W P U X P W i i N i i i S U W s | | | | max arg , , *C
α
= αMIT
Propriedades Básicas Anti-fonema
• Modele o espaço inteiro de observações, usando tanto os exemplos positivos como os negativos.
• As pontuações do log da verossimilhança são normalizadas pelo anti-fonema:
– Boas pontuações são positivas, pontuações ruins são negativa; – Todos os segmentos pobres tem pontuação negativa;
– Útil para eliminação e/ou rejeição;
– Anti-fonema não é utilizado para acesso léxico;
• Não são utilizadas probabilidades à priori ou posteriori durante a pesquisa:
– Permite cálculos sob demanda e/ou rápida equivalência;
– Subconjuntos de dados podem ser utilizados para treinamento; • Modelos independentes ou dependentes do contexto podem ser
utilizados.
MIT
Além dos anti-fonemas: Modelamento near-miss
• Modelamento anti-fonema particiona o espaço de observações em duas partes (ou seja dentro ou fora de uma segmentação hipotética).
• Modelamento near-miss particiona o espaço das observações em um conjunto de sub conjuntos mutuamente exclusivos.
– Um subconjunto near-miss pré-calculado para cada segmento no gráfico.
– Critério temporal pode garantir a geração apropriada de subconjuntos near-missed (por ex., segmento A é um near-miss de Base o ponto médio de A é estendido por B).
• Durante o reconhecimento, observações em um subconjunto near-miss são mapeadas em um modelo near-miss de um fonema hipotético.
• Modelos near-miss podem ser apenas um anti-fonema, mas podem potencialmente ser mais sofisticados (por ex., fonema dependente).
MIT
Criando subconjuntos near-miss
• Subconjuntos near-miss, Ai, associados com qualquer segmentação, S, devem ser mutuamente t exclusivos e exaustivos: A = U Ai ∀Ai ∈ S.
• Critério Temporal garante subconjuntos near-miss apropriados:
– Confinando segmentos em S estes são contabilizados uma única vez;
– Determinando todos os segmentos estendidos cria subconjuntos near-miss.
MIT
Modelando Marcas
• •Podemos também incorporar vetores característicos adicionais calculados em marcas hipotéticas ou contornos de fonemas.
• Toda segmentação considera todas as marcas:
– Algumas marcas serão a transição entre unidades léxicas; – Outras marcas serão consideradas internas a unidade.
• Tanto unidades independentes ou dependentes do contexto são possíveis • Modela efetivamente transições entre fonemas (por ex., difonemas).
• Modelos baseados em quadros podem ser usados para gerar grafo de segmento.
MIT
Modelando Marcas
• Medidas baseadas em quadros:
– Calculado a cada 5 mili segundos;
– Vetor característica de 14 Mel-Scala Coeficientes Cepstrais Coefficients (MFCCs).
• Medidas baseadas em marcas:
– Calcule a media de MFCCs sobre 8 regiões em torno da marca – 8 regiões X 14 MFCC médias = vetor de 112 dimensões.
– 112 dims Reduzidas para 50 usando analise de componente principal.
MIT
Segmentação Probabilística
• Use procura de Viterbi para frente inicialmente para achar o melhor caminho
MIT
Segmentação Probabilística (continuação)
• Em um Segundo passo use procura para A* para achar os N-melhores caminhos
• •O traço de Viterbi é usado como estimador da pontuação dos caminhos
MIT
Experimentos de reconhecimento fonético
• TIMIT corpus acústico-fonético:
– Corpus com 462 vozes de treinamento, 24 vozes fundamentais no conjunto de teste;
– Metodologia padrão de avaliação, 39 classes fonéticas comuns.
• Representações de segmentos e marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração.
• PCA usado para normalização de dados e redução.
• Modelos acústicos baseados na aglomeração de gaussianas misturadas. • Modelo de linguagem baseado em fonema bigrama.
MIT
Modelamento fonológico
• Palavras descritas por formas básicas fonéticas.
• Regras fonológicas expandem formas básicas em gráficos, por ex.: – Eliminação de rajadas de stop (por ex., laptop);
– Eliminação de /t/ em várias situações (por ex., intersection, destination, crafts);
– Geminação de fricativas e nasais (por ex., this side, in nome); – Assimilação de lugar (ex.: did you (/d ih jh uw/)).
• Probabilidades tais como, P(U|W), podem ser treinadas. • A maioria dos HM não tem componentes fonológicas.
MIT
Exemplo fonológico
• Exemplo de “what you” expandido no reconhecedor SUMMIT
– Final /t/ em “what” pode ser interpretado como released, unreleased, palatalized, ou stop glotal, ou flap.
MIT
Experimentos de reconhecimento de palavra
• Jupiter baseada em conversação telefônica, perguntas sobre meteorologia corpus. – Conjunto de 50.000 frases de treinamento, 1806 “no domínio”do conjunto de
frases testes.
• Modelos Acústicos baseados em Gaussianas misturadas.
– Representações de Segmento e Marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração.
– PCA usado para normalização de dados e redução. – 715classes de contorno dependentes do contexto.
– 935 tri-fonema, 1160 difonema, classes segmento dependentes do contexto. • Gráfico de pronuncia incorpora probabilidades de pronuncia.
• Modelo de linguagem baseado em classes bigrama e trigrama. • Melhor desempenho obtido pela combinação de modelos.
MIT
Resumo
• Algumas técnicas de reconhecimento baseadas em segmento transformam o espaço de observação de quadro para gráfico.
• Gráficos baseados no espaço de observação permitem uma ampla variedade de métodos de modelamento alternativos para procedimentos baseados em quadros.
• Anti-fonema e modelamento near-miss fornecem um mecanismo para pesquisar gráficos baseados no espaço de observações.
• Bons resultados tem sido alcançados para reconhecimento fonético • Muito trabalho resta a ser feito!
MIT
Referências
• J. Glass, “A Probabilistic Framework for Segment-Based Speech Recognition,” to appear in Computer, Speech & Language, 2003.
• D. Halberstadt, “Heterogeneous Acoustic Measurements and Multiple Classifiers for Speech Recognition,” Ph.D. Thesis, MIT, 1998.
• M. Ostendorf, et al., “From HMMs to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition,” Trans. Speech & Audio Proc., 4(5), 1996.