• Nenhum resultado encontrado

Reconhecimento da voz baseado em segmento

N/A
N/A
Protected

Academic year: 2021

Share "Reconhecimento da voz baseado em segmento"

Copied!
29
0
0

Texto

(1)

MIT

Reconhecimento da voz baseado em segmento

• Introdução

• Pesquisando gráficos baseados no espaço de observações – Modelamento antifonema

– Modelamento Near -miss • Modelamento por marcas • Modelamento fonológico

(2)

MIT

Reconhecimento da voz baseado em segmento

(3)

MIT

Reconhecimento da voz baseado em segmento

• Modelamento acústico é feito sobre um inteiro segmento

• Segmentos tipicamente correspondem a unidades semelhantes a fonemas

• Vantagens potenciais :

– Melhor estrutura de modelamento conjunto tempo/espectro – Medidas acústicas baseadas em segmento ou marcas

– Desvantagens potenciais:

– Significante aumento no modelo e calculo na pesquisa

(4)

MIT

Modelamento Acústico-Fonético Hierárquico

• Medidas homogêneas podem comprometer o desempenho

– Consoantes nasais são mais bem classificadas com um janela de analise mais longa

– Consoantes de parada são mais bem classificadas com um janela de analise mais curta

(5)

MIT

Classificação fonética baseada em comissão

• Variação da base temporal afeta erro entre classes

– Suave variação da base co-seno é melhor para vogais que para nasais

– Divisão por partes de forma constante é melhor para fricativas e paradas

(6)

MIT

Experimentos de classificação de fonemas

(A. Halberstadt, 1998)

• TIMIT corpus acústico-fonético

– Somente classificação Independente do contexto

– 462 vozes de treinamento no corpus, 24 vozes de base no conjunto de testes

– Metodologia de avaliação padrão, 39 classes fonéticas comuns • Várias diferentes representações acústicas incorporadas

– Várias resoluções tempo-freqüência (Janela de Hamming10-30 ms) – Diferentes representações espectrais (MFCCs, PLPCCs, etc)

• Transformada co-seno vs Funções divisão por partes de forma constante • MAP hierárquico calculado é métodos baseados em comissão

(7)

MIT

Procedimento Estatístico Para RAV

• Dada à observação acústica, A, escolha uma seqüência, W*, que maximiza a probabilidade posteriori, P(W|A)

• A regra de Bayes é tipicamente utilizada para decompor P(W | A) e termos acústicos e lingüísticos

(

w

A

)

P

W

W

|

max

arg

*

=

(

)

(

( )

) ( )

A

P

W

P

W

A

P

A

W

P

|

=

|

(8)

MIT

Considerações Sobre a Procura no RAV

• Uma procura completa considera todas as possíveis segmentações, S, e unidades, U, para cada seqüência de palavras hipotizada, W

• Pode procurar pelo melhor caminho para simplificar a procura usando programação dinâmica (por ex., Viterbi)ou gráficos de busca (por ex., A*)

• A decomposição Bayesana modificada tem quatro termos:

• No HMM’ estes correspondem acústica, estado, e probabilidades do modelo de linguagem ou verossimilhança

(

)

=

∑∑

(

)

= S U W w A WUS P A W P

W* argmax | argmax |

(

WUS

A

)

P

S

U

W

S U W

|

max

arg

,

,

, , * * *

(

)

(

) (

( )

) (

) ( )

A P W P W U P UW S P SUW A P A WUS P | = | | |

(9)

MIT

Exemplo de procedimentos baseados em

segmento

• HMM

– Taxa variável de quadro (Ponting et al., 1991, Alwan et al., 2000)

– HMM baseado em segmento (Marcus, 1993) – HMM segmentado (Russell et al., 1993)

• Modelamento da trajetória

– Modelos estocásticos de segmento (Ostendorf et al., 1989) – Modelos de trajetória paramétricos (Ng, 1993)

– Modelos de trajetória Estatísticos (Goldenthal, 1994) • Baseado em características

– FEATURE (Cole et al., 1983) – SUMMIT (Zue et al., 1989) – LAFF (Stevens et al., 1992)

(10)

MIT

Modelamento baseado em segmento no MIT

• Modelamento básico baseado em segmento incorpora :

– Médias e derivadas de coeficientes espectrais (por ex., MFCCs)

– Normalização da dimensionalidade através da analise das principais componentes

– Estimação PDF via Mistura de Gaussianas

• Exemplo investigações modelamento acústico-fonético,

– Alternativa para classificadores probabilísticos (por ex.., Leung, Meng) – Medida de características conhecidas automaticamente (e.g., Phillips,

Muzumdar)

– Modelos estatística da trajetória (Goldenthal)

– Hierarquia de características probabilísticas (e.g., Chun, Halberstadt) – Modelamento Near-miss (Chang)

– Segmentação probabilística (Chang, Lee)

(11)

MIT

SUMMIT RAV Baseado em Segmento

• SUMMIT reconhecimento de voz é baseado em segmentos fonéticos:

– O instante de inicio e fim de fonemas explícitos são supostos durante a procura; – Difere dos métodos convencionais baseados em quadros (por ex., HMMs); – Possibilita modelamento acústico –fonético baseado em segmento;

– Medidas podem ser extraídas de marcas e segmentos.

• Reconhecimento é obtido pela pesquisa de um gráfico fonético:

– Gráficos podem ser determinados via critério acústico ou modelos probabilísticos;

– Segmentos que competem fazem uso de diferentes espaços de observações; – Decodificação probabilística deve ser considerada para gráficos baseados no

(12)

MIT

Reconhecimento de voz “Baseada em Quadro”

• Espaço de observações, A, corresponde a uma seqüência temporal de quadros acústicos (Por ex.,fatias espectrais).

• Cada segmento suposto, si, é representado por uma série de quadros calculados entre os instantes de início e fim do segmento. • A verossimilhança acústica, P(A|SW), é derivada a partir do mesmo

espaço de observações para todas as hipóteses sobre a palavra. P(a1 a2 a3 |SW) ⇔ P(a1 a2 a3 |SW) ⇔ P(a1 a2 a3 |SW)

(13)

MIT

Reconhecimento da voz “Baseado em Características”

• Cada segmento, si, é representado por um único vetor característica, ai

• Dada uma particular segmentação, S, A consiste de X, o vetor caracterÍstica associado com S, como também Y, o vetor caracterÍstica associado com segmentos não em S: A = X ∪ Y

(14)

MIT

Reconhecimento da voz “Gráficos de procura baseados no espaço de observações: O modelo Anti-fonema Baseado em Características”

• Crie uma unidade, , para modelar segmentos que não são fonemas • Para uma segmentação, S, atribua anti-fonema para segmentos extra

– Todos os segmentos são considerados estar no gráfico fonético

– Caminhos alternativos através do gráfico podem ser legitimamente comparados

• Caminhos verossímeis podem ser decompostos em dois termos:

1. A verossimolhança de todos os segmentos produzidos pelo antifonema (uma constante)

2. A razão do fonema para o anti-fonema verossímil de todos os segmentos de caminho

• Formulação MAP para a seqüência de palavras mais provável, W, dada por:

α

(x u ) ) ( ) ( ) P Ns | * =

(15)

MIT

Modelando unidades não–léxicas: O anti-fonema

• Dada uma particular segmentação, S, A consiste de X, os segmentos associados com S, como também Y, os segmentos não associados com S: P(A|SU) = P(XY|SU)

• Dada à segmentação S, atribua vetores característica em X a unidades válidas,e todos os outros em Y para o antifonema

• •Desde que P(XY| ) é uma constante, K, podemos escrever P(XY|SU) supondo independência entre X e Y

• Precisamos considerar somente segmentos em S durante cada procura:

(

)

(

)

(

) (

) (

(

)

)

(

(

)

)

α α α α | | | | | | | | X P U X P k X P X P Y P U X P U XY P SU XY P = = =

(

)

(

X

) (

P s u

) (

P U W

) ( )

P W P U X P W i i N i i i S U W s | | | | max arg , , *

C

α

= α

(16)
(17)

MIT

Propriedades Básicas Anti-fonema

• Modele o espaço inteiro de observações, usando tanto os exemplos positivos como os negativos.

• As pontuações do log da verossimilhança são normalizadas pelo anti-fonema:

– Boas pontuações são positivas, pontuações ruins são negativa; – Todos os segmentos pobres tem pontuação negativa;

– Útil para eliminação e/ou rejeição;

– Anti-fonema não é utilizado para acesso léxico;

• Não são utilizadas probabilidades à priori ou posteriori durante a pesquisa:

– Permite cálculos sob demanda e/ou rápida equivalência;

– Subconjuntos de dados podem ser utilizados para treinamento; • Modelos independentes ou dependentes do contexto podem ser

utilizados.

(18)

MIT

Além dos anti-fonemas: Modelamento near-miss

• Modelamento anti-fonema particiona o espaço de observações em duas partes (ou seja dentro ou fora de uma segmentação hipotética).

• Modelamento near-miss particiona o espaço das observações em um conjunto de sub conjuntos mutuamente exclusivos.

– Um subconjunto near-miss pré-calculado para cada segmento no gráfico.

– Critério temporal pode garantir a geração apropriada de subconjuntos near-missed (por ex., segmento A é um near-miss de Base o ponto médio de A é estendido por B).

• Durante o reconhecimento, observações em um subconjunto near-miss são mapeadas em um modelo near-miss de um fonema hipotético.

• Modelos near-miss podem ser apenas um anti-fonema, mas podem potencialmente ser mais sofisticados (por ex., fonema dependente).

(19)

MIT

Criando subconjuntos near-miss

• Subconjuntos near-miss, Ai, associados com qualquer segmentação, S, devem ser mutuamente t exclusivos e exaustivos: A = U Ai ∀Ai ∈ S.

• Critério Temporal garante subconjuntos near-miss apropriados:

– Confinando segmentos em S estes são contabilizados uma única vez;

– Determinando todos os segmentos estendidos cria subconjuntos near-miss.

(20)

MIT

Modelando Marcas

• •Podemos também incorporar vetores característicos adicionais calculados em marcas hipotéticas ou contornos de fonemas.

• Toda segmentação considera todas as marcas:

– Algumas marcas serão a transição entre unidades léxicas; – Outras marcas serão consideradas internas a unidade.

• Tanto unidades independentes ou dependentes do contexto são possíveis • Modela efetivamente transições entre fonemas (por ex., difonemas).

• Modelos baseados em quadros podem ser usados para gerar grafo de segmento.

(21)

MIT

Modelando Marcas

• Medidas baseadas em quadros:

– Calculado a cada 5 mili segundos;

– Vetor característica de 14 Mel-Scala Coeficientes Cepstrais Coefficients (MFCCs).

• Medidas baseadas em marcas:

– Calcule a media de MFCCs sobre 8 regiões em torno da marca – 8 regiões X 14 MFCC médias = vetor de 112 dimensões.

– 112 dims Reduzidas para 50 usando analise de componente principal.

(22)

MIT

Segmentação Probabilística

• Use procura de Viterbi para frente inicialmente para achar o melhor caminho

(23)

MIT

Segmentação Probabilística (continuação)

• Em um Segundo passo use procura para A* para achar os N-melhores caminhos

• •O traço de Viterbi é usado como estimador da pontuação dos caminhos

(24)

MIT

Experimentos de reconhecimento fonético

• TIMIT corpus acústico-fonético:

– Corpus com 462 vozes de treinamento, 24 vozes fundamentais no conjunto de teste;

– Metodologia padrão de avaliação, 39 classes fonéticas comuns.

• Representações de segmentos e marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração.

• PCA usado para normalização de dados e redução.

• Modelos acústicos baseados na aglomeração de gaussianas misturadas. • Modelo de linguagem baseado em fonema bigrama.

(25)

MIT

Modelamento fonológico

• Palavras descritas por formas básicas fonéticas.

• Regras fonológicas expandem formas básicas em gráficos, por ex.: – Eliminação de rajadas de stop (por ex., laptop);

– Eliminação de /t/ em várias situações (por ex., intersection, destination, crafts);

– Geminação de fricativas e nasais (por ex., this side, in nome); – Assimilação de lugar (ex.: did you (/d ih jh uw/)).

• Probabilidades tais como, P(U|W), podem ser treinadas. • A maioria dos HM não tem componentes fonológicas.

(26)

MIT

Exemplo fonológico

• Exemplo de “what you” expandido no reconhecedor SUMMIT

– Final /t/ em “what” pode ser interpretado como released, unreleased, palatalized, ou stop glotal, ou flap.

(27)

MIT

Experimentos de reconhecimento de palavra

• Jupiter baseada em conversação telefônica, perguntas sobre meteorologia corpus. – Conjunto de 50.000 frases de treinamento, 1806 “no domínio”do conjunto de

frases testes.

• Modelos Acústicos baseados em Gaussianas misturadas.

– Representações de Segmento e Marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração.

– PCA usado para normalização de dados e redução. – 715classes de contorno dependentes do contexto.

– 935 tri-fonema, 1160 difonema, classes segmento dependentes do contexto. • Gráfico de pronuncia incorpora probabilidades de pronuncia.

• Modelo de linguagem baseado em classes bigrama e trigrama. • Melhor desempenho obtido pela combinação de modelos.

(28)

MIT

Resumo

• Algumas técnicas de reconhecimento baseadas em segmento transformam o espaço de observação de quadro para gráfico.

• Gráficos baseados no espaço de observação permitem uma ampla variedade de métodos de modelamento alternativos para procedimentos baseados em quadros.

• Anti-fonema e modelamento near-miss fornecem um mecanismo para pesquisar gráficos baseados no espaço de observações.

• Bons resultados tem sido alcançados para reconhecimento fonético • Muito trabalho resta a ser feito!

(29)

MIT

Referências

• J. Glass, “A Probabilistic Framework for Segment-Based Speech Recognition,” to appear in Computer, Speech & Language, 2003.

• D. Halberstadt, “Heterogeneous Acoustic Measurements and Multiple Classifiers for Speech Recognition,” Ph.D. Thesis, MIT, 1998.

• M. Ostendorf, et al., “From HMMs to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition,” Trans. Speech & Audio Proc., 4(5), 1996.

Referências

Documentos relacionados

O professor que ensina Matemática nos anos iniciais do Ensino Fundamental deve propiciar ao aluno atividades que possibilitem a construção de noções geométricas, que

Resumidamente a forma de comercialização dos apartamentos FLAT e operação de locação dos apartamentos do HOTEL para uma bandeira hoteleira proposta a seguir objetiva a

Jayme Leão, 63 anos, nasceu em Recife, mudou-se para o Rio de Janeiro ainda criança e, passados vinte e cinco anos, chegou a São Paulo, onde permanece até hoje.. Não

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

3.2.3.1. cópia de comprovante de endereço em nome do candidato. cópia de comprovante de rendimentos ou declaração firmada do pelo candidato da sua condição de carente. O candidato

De todo modo, essas intercomparações permitiram inferir que variações sincrônicas de paleopluviosidade de norte a sul do Nordeste brasileiro são coincidentes aos

O potencial de uso de pós magnéticos, está ligado a revelação de impressões digitais latentes frágeis, onde estes pós são aplicados com o uso de um pincel magnético..