Adaptação da Voz. Adaptação da Voz Sistema de Reconhecimento de Voz

(1)

MIT

Adaptação da Voz

Professor: T. J. Hazen • Revisão

• Métodos de Adaptação

– Normalização do comprimento do trato vocal – Adaptação Bayesana

– Adaptação de Transformação – Pesando a voz de Referência – Vozes Próprias

– Adaptação Estrutural

– Aglomeramento Hierárquico de Vozes – Pesando o aglomerado de vozes

(2)

MIT

Típica Gravação Digital da Voz

Repercussão na Sala

(3)

MIT

Considerando a Variabilidade

• Reconhecedores devem levar em conta a variabilidade nas vozes

• Procedimento Padrão: Treinamento independente de quem fala (Speaker Independent - SI)

– Dados de Treinamento pegos de muitas diferentes vozes • Problemas com procedimentos de modelamento primários:

– Modelos são heterogêneos e de alta variância

– Muitos parâmetros são requeridos para construir modelos precisos

– Modelos não fornecem qualquer restrição à voz

– Novos dados podem ainda não ser similares aos dados de treinamento

(4)

MIT

Fornecendo Restrições

• Reconhecedores deveriam também fornecer restrições:

– Fontes de variação tipicamente permanecem fixas durante as sentenças

– Mesma voz, microfone, canal, ambiente • Possíveis soluções:

– Dados de entrada normalizados para casar modelos (ou seja Normalização.)

– Adaptar modelos para casar dados de entrada (ou seja ., Adequação)

• Idéias chave:

– Fontes de variabilidade são freqüentemente sistemáticas e consistentes

– Uns poucos parâmetros podem descrever grandes variações sistemáticas

(5)

MIT

Embasamento Probabilístico

• Modelo Acústico prediz a probabilidade de observações acústicas dado que unidades fonéticas ocorreram:

• Uma suposição de independência é tipicamente requerida para tornar o modelamento possível:

• Esta suposição de independência pode ser perigosa!

– Correlações acústicas entre eventos fonéticos são ignoradas – Não é fornecida nenhuma restrição a partir das observações

(

A

U

) (

P

a

_N

u

_N

)

P

|

=

r

₁

,

r

₂

,...,

r

|

₁

,

₂

,...,

(

)

_∑

(

)

=

N i i

U

a

P

U

A

P

1

|

r

(6)

MIT

Variabilidade e Correlação

• Plotagem de contornos isométrico prováveis para os fonemas [i] e [e].

• Um modelo SI e dois modelos dependentes de quem fala (SD).

• Contornos SD são mais próximos e correlacionados uns aos outros do que os

(7)

MIT

Normalização do Comprimento do Trato Vocal

• O comprimento do trato vocal afeta a freqüência dos formantes: – tratos vocais curtos ⇒ formantes com freqüências maiores – tratos vocais longos ⇒ formantes com freqüência menores

• Normalização do trato vocal (vocal tract length normalization -TLN) tenta ajustar a voz de entrada para ter um comprimento de trato vocal “médio”.

(8)

MIT

Normalização do Comprimento do Trato Vocal

(continuação)

• Ilustração: segundo formante para [e] e [i] • Espectros alterados para todas as vozes

para melhor acompanhar o modelo SI

• Modelos SI tem uma grande sobreposição (região de erro)

• Treina o modelo VTLN-SI l

• Modelos SD têm uma menor variância & região de erro

• Teste da alteração das vozes para casar com o modelo VTLN-SI

(9)

MIT

Normalização do Trato Vocal

• Durante o procedimento de teste ML determina-se o fator de alteração:

• O fator de alteração é encontrado utilizando na procura força bruta – Conjunto discreto de fatores de alteração testados em uma faixa

possível. • Referências:

– Andreou, Kamm, and Cohen, 1994 – Lee and Rose, 1998

(

X

VTLN

)

p

Θ

=

arg

max

γ

|

γ

(10)

MIT

Reconhecimento Dependente de Quem Fala

• Condições do experimento:

– DARPA tarefa de Gerenciamento de Recursos (vocabulário de 1000 palavras). – SUMMIT reconhecedor baseado em segmento usando gramática de pares de

palavras.

– Modelos de Gaussianas misturadas para 60 unidades independentes do contexto:

– Conjunto de treinamento para dependência de quem fala:

• 12 vozes com / 600 sentenças de treinamento e 100 sentenças de teste por voz.

• ~80.000 parâmetros em cada conjunto de modelo acústico SD. – Conjunto de teste para independência de quem fala:

• 149 vozes com / 40 sentenças de treinamento por voz (5.960 sentenças no total).

• ~400.000 parâmetros no conjunto de modelos acústicos SI.

• •Resultados da Taxa de erro de palavras (Word error rate -WER) no conjunto de testes SD :

– Reconhecedor SI tem 7,4% WER.

– Reconhecedor SD médio tem 3.4% WER.

(11)

MIT

Definições Utilizadas na Adaptação

• Modelos dependentes de quem fala não existem para os novos usuários. • Sistemas devem conhecer as características dos novos usuários.

• Tipos de adaptação:

– Registrada vs instantânea.

• É um conjunto de dados pré- gravados de dados de adaptação utilizados ou são dados de teste utilizados como dados de adaptação?

– Supervisionado vs não supervisionado.

• É ortografia de dados de adaptação conhecidos ou não conhecidos?

– Batch vs on-line.

– É dado de adaptação apresentado tudo de uma vez ou um a cada instante?

(12)

MIT

Definições Utilizadas na Adaptação

(continuação)

• Objetivo: Ajustar parâmetros do modelo para casar dados de entrada.

• Definições:

– X é um conjunto de dados de adaptação

– Λ é um conjunto de parâmetros de adaptação, tais que:

• Gênero e taxa da voz

• Vetores média de unidades fonéticas • Matriz de Transformação global

– Θ é um conjunto de parâmetros do modelo acústico utilizado pelo reconhecedor.

• Método:

– Λ é estimado a partir de X – Θ é ajustado com base em Λ

(13)

MIT

Definições Utilizadas na Adaptação

(continuação)

• Obter Λ é um problema de estimação:

– Poucos pontos de dados de adaptação ⇒ pequeno # (número) de parâmetros em Λ

– Muitos pontos de dados de adaptação ⇒ maior # de parâmetros em Λ

• Exemplo:

– Suponha que Λ contém somente um único parâmetro λ

– Suponha que λ represente a probabilidade da voz ser masculina – λ é estimado a partir do dado de adaptação X

– O modelo adaptado da voz poderia ser representado como:

(

a

_sa

)

P

(

a

_masculino

) (

)

P

(

a

_fe _ino

)

P

r

|

Θ

=

λ

r

|

Θ

+

1 −

λ

r

|

Θ

_min

(14)

MIT

Adaptação Bayesana

• Um método para adaptação direta dos parâmetros do modelo • Muito útil com grande volume de dados de adaptação

• A.k.a adaptação probabilidade máxima a posteriori (MAP)

• Expressão geral da adaptação MAP do vetor media de uma única função densidade Gaussiana:

• Aplicando a regra de Bayes:

(

X

)

p

(

x

_N

)

p

r

r r

|

arg

max

|

,...,

max

arg

µ

₁

µ

µ µ

=

(15)

MIT

Adaptação de Bayes

(continuação)

• Suponha observações independentes:

• Funções de verossimilhança modeladas com Gaussianas:

• Parâmetros de adaptação são determinados a partir de X:

(

) (

)

_∏

(

)

= = = N n n N p x x x p X p 1 1,..., | | | µr r r µr r µr

( )

N

(

_ap

S

_ap

)

p

µ

r =

µ

r

;

(

x

)

N

(

S

)

p

r

|

µ

r

=

µ

r

;

∑

= = N n n ml x N 1 1 _r r

µ

{

µ

r

_ml

,

N

}

=

Λ

(16)

MIT

Adaptação Bayesana

(continuação)

• O estimador MAP de um vetor média é dado por:

• O estimador MAP é uma interpolação do estimador ML da média e uma média a posteriori:

– Se N é pequeno: – Se N é grande:

• Adaptação MAP pode ser expandida para manejar todos os parâmetros de Gaussianas misturadas.

– Referência: Gauvain and Lee, 1994

ap map

µ

r

≈

r

(

ap

)

ap ap

(

ap

)

ml map S NS S

µ

NS NS S

µ

r ₌ ₊ −1 r ₊ ₊ −1 r ml map

µ

r

≈

r

(17)

MIT

Adaptação Bayesana

(continuação)

• Vantagens do MAP:

– Baseado em sólidos fundamentos matemáticos

– Converge no limite ao modelo dependente de quem fala • Desvantagens do MAP:

– Adaptação é muito lenta devida á suposição de independência – É sensível a erros durante adaptação não supervisiona

• A interpolação do modelo de adaptação se aproxima ao MAP – Não requer um modelo à priori

– Também no limite converge para o modelo dependente de quem fala

– Expresso como:

(

x u

)

N p

(

x u

)

K p

(

x u

)

(18)

MIT

Adaptação Bayesana

(continuação)

• Adaptação supervisionada conjunto de teste SD Gerenciamento de Recursos.

(19)

MIT

Adaptação Por Transformação

• Técnicas de Transformação são as formas mais comuns de adaptação sendo usadas atualmente!

• Idéia: Ajustar parâmetros do modelo usando uma transformação compartilhada globalmente ou através de diferentes unidades dentro de uma classe.

• Translação Global vetor média:

= adapta vetores média de todos os modelos fonéticos. = vetor translação compartilhado.

• Escala do vetor média global, rotação e translação R =matriz de escala e rotação compartilhada

p

∀

p

∀

vr

v

si p sa p

r

₌

_µ

₊

µ

(20)

MIT

Adaptação Por Transformação

(continuação)

• O modelo SI é rotacionado, escalonado e transladado para casar com o modelo SD:

(21)

MIT

Adaptação Por Rotação

(continuação)

• Parâmetros da transformação achados usando ML:

• Vantagens:

– Modelos de unidades sem dados de adaptação são adaptados. baseando-se em observações feitas em outras unidades.

– Não requer um modelo à priori (Isto pode ser também uma fraqueza!) • Desvantagens:

– Atua pobremente (pior que o MAP) para pequenas quantidades de dados.

– Supõe que todas as unidades deveriam ser adaptadas da mesma forma.

[ ]

R

v

p

(

X

R

v

)

v R

r

|

,

max

arg

,

=

(22)

MIT

Pesando a Voz de Referência

• Interpolação de modelos a partir de “vozes de referência”

– Usa a vantagem do relacionamento fonético entre vozes.

• Exemplo,usando vetores médios a partir de vozes de treinamento: – Dados de treinamento contêm R vozes de referência.

– Reconhecedor contém P modelos fonéticos.

– Uma média é treinada para cada modelo p e cada voz r: r p, µr

– Uma matriz de vetores voz é criada a partir das médias treinadas:

r p,

(23)

MIT

Pesando a Voz de Referência

(continuação)

• O objetivo é achar o vetor voz mais provável para as novas vozes. • Ache a combinação de pesos para os vetores de voz de referência:

• •Estimação de máxima verossimilhança dos pesos dos vetores:

• Vetor peso global é robusto a erros introduzidos durante a datarão não supervisionada.

• Métodos iterativos podem ser usados para achar o peso dos

w

M

m

r =

_sa

r

(

X

M

w

)

p

w

r

₌

_arg

_max

_|

_,

(24)

MIT

Pesando a Voz de Referência

(continuação)

• •Vetor de adaptação media com uma única sentença de adaptação:

Não existe a, o, u na sentença de

(25)

MIT

Arquitetura da Adaptação Não Supervisionada

• Arquitetura de sistemas de adaptação não supervisionada:

• Em modo off-line , modelos adaptados usados para reconhecer. novamente a forma de onda original.

(26)

MIT

Experimento de Adaptação Não

Supervisionada

• Adaptação não supervisionada instantânea. – Adaptação e teste na mesma sentença.

– Não supervisionado ⇒ erros de reconhecimento afetam a adaptação.

– Instantânea ⇒ erros de reconhecimento são reforçados.

• RSW é mais robusta para erros que o MAP.

– Estimação RSW é “global” ⇒ usa a inteira sentença.

(27)

MIT

Voz Principal

• Voz Principal estende as idéias do peso da voz de referência.

– Referência: Kuhn, 2000

• Objetivo é conhecer características não correlacionadas do espaço de vozes.

• Começa criando uma matriz de vozes.

• Executa a análise das componentes principais em M.

– Cada autovetor representa uma dimensão independente (ortogonal) no espaço de vozes.

(28)

MIT

Voz Principal

(continuação)

• Determine R autovetores:

• Novo vetor voz é a combinação dos N autovetores de topo:

{

e

_R

}

(29)

MIT

Voz Principal

(continuação)

• Procedimento de adaptação é muito similar ao RSW:

• Adaptação vetor principal pode ser muito rápida.

– Uns poucos autovetores podem ser generalizados para muitos tipos de voz.

– Somente um pequeno número de observações fonéticas são requeridas para obter ganho significativo.

(

X

E

w

)

p

w

r

|

,

max

arg

=

(30)

MIT

Adaptação Estrutural

• Parâmetros de adaptação organizados em estrutura em árvore. – Nó raiz é a adaptação global.

– Nós ramificados fazem a adaptação compartilhada entre classes de modelos.

– Nos folha fazem adaptação em modelos específicos.

∑

• Parâmetros de adaptação conhecidos para cada nó na árvore.

• Cada nó tem um peso: w_node • Pesos baseados na

disponibilidade dos dados de adaptação.

• Cada caminho do nó para a folha obedece a esta restrição: