MIT
Adaptação da Voz
Professor: T. J. Hazen • Revisão
• Métodos de Adaptação
– Normalização do comprimento do trato vocal – Adaptação Bayesana
– Adaptação de Transformação – Pesando a voz de Referência – Vozes Próprias
– Adaptação Estrutural
– Aglomeramento Hierárquico de Vozes – Pesando o aglomerado de vozes
MIT
Típica Gravação Digital da Voz
Repercussão na Sala
MIT
Considerando a Variabilidade
• Reconhecedores devem levar em conta a variabilidade nas vozes
• Procedimento Padrão: Treinamento independente de quem fala (Speaker Independent - SI)
– Dados de Treinamento pegos de muitas diferentes vozes • Problemas com procedimentos de modelamento primários:
– Modelos são heterogêneos e de alta variância
– Muitos parâmetros são requeridos para construir modelos precisos
– Modelos não fornecem qualquer restrição à voz
– Novos dados podem ainda não ser similares aos dados de treinamento
MIT
Fornecendo Restrições
• Reconhecedores deveriam também fornecer restrições:
– Fontes de variação tipicamente permanecem fixas durante as sentenças
– Mesma voz, microfone, canal, ambiente • Possíveis soluções:
– Dados de entrada normalizados para casar modelos (ou seja Normalização.)
– Adaptar modelos para casar dados de entrada (ou seja ., Adequação)
• Idéias chave:
– Fontes de variabilidade são freqüentemente sistemáticas e consistentes
– Uns poucos parâmetros podem descrever grandes variações sistemáticas
MIT
Embasamento Probabilístico
• Modelo Acústico prediz a probabilidade de observações acústicas dado que unidades fonéticas ocorreram:
• Uma suposição de independência é tipicamente requerida para tornar o modelamento possível:
• Esta suposição de independência pode ser perigosa!
– Correlações acústicas entre eventos fonéticos são ignoradas – Não é fornecida nenhuma restrição a partir das observações
(
A
U
) (
P
a
a
a
Nu
u
u
N)
P
|
=
r
1,
r
2,...,
r
|
1,
2,...,
(
)
∑
(
)
==
N i iU
a
P
U
A
P
1|
|
r
MIT
Variabilidade e Correlação
• Plotagem de contornos isométrico prováveis para os fonemas [i] e [e].
• Um modelo SI e dois modelos dependentes de quem fala (SD).
• Contornos SD são mais próximos e correlacionados uns aos outros do que os
MIT
Normalização do Comprimento do Trato Vocal
• O comprimento do trato vocal afeta a freqüência dos formantes: – tratos vocais curtos ⇒ formantes com freqüências maiores – tratos vocais longos ⇒ formantes com freqüência menores
• Normalização do trato vocal (vocal tract length normalization -TLN) tenta ajustar a voz de entrada para ter um comprimento de trato vocal “médio”.
MIT
Normalização do Comprimento do Trato Vocal
(continuação)
• Ilustração: segundo formante para [e] e [i] • Espectros alterados para todas as vozes
para melhor acompanhar o modelo SI
• Modelos SI tem uma grande sobreposição (região de erro)
• Treina o modelo VTLN-SI l
• Modelos SD têm uma menor variância & região de erro
• Teste da alteração das vozes para casar com o modelo VTLN-SI
MIT
Normalização do Trato Vocal
• Durante o procedimento de teste ML determina-se o fator de alteração:
• O fator de alteração é encontrado utilizando na procura força bruta – Conjunto discreto de fatores de alteração testados em uma faixa
possível. • Referências:
– Andreou, Kamm, and Cohen, 1994 – Lee and Rose, 1998
(
X
VTLN)
p
Θ
=
arg
max
γ|
γMIT
Reconhecimento Dependente de Quem Fala
• Condições do experimento:
– DARPA tarefa de Gerenciamento de Recursos (vocabulário de 1000 palavras). – SUMMIT reconhecedor baseado em segmento usando gramática de pares de
palavras.
– Modelos de Gaussianas misturadas para 60 unidades independentes do contexto:
– Conjunto de treinamento para dependência de quem fala:
• 12 vozes com / 600 sentenças de treinamento e 100 sentenças de teste por voz.
• ~80.000 parâmetros em cada conjunto de modelo acústico SD. – Conjunto de teste para independência de quem fala:
• 149 vozes com / 40 sentenças de treinamento por voz (5.960 sentenças no total).
• ~400.000 parâmetros no conjunto de modelos acústicos SI.
• •Resultados da Taxa de erro de palavras (Word error rate -WER) no conjunto de testes SD :
– Reconhecedor SI tem 7,4% WER.
– Reconhecedor SD médio tem 3.4% WER.
MIT
Definições Utilizadas na Adaptação
• Modelos dependentes de quem fala não existem para os novos usuários. • Sistemas devem conhecer as características dos novos usuários.
• Tipos de adaptação:
– Registrada vs instantânea.
• É um conjunto de dados pré- gravados de dados de adaptação utilizados ou são dados de teste utilizados como dados de adaptação?
– Supervisionado vs não supervisionado.
• É ortografia de dados de adaptação conhecidos ou não conhecidos?
– Batch vs on-line.
– É dado de adaptação apresentado tudo de uma vez ou um a cada instante?
MIT
Definições Utilizadas na Adaptação
(continuação)• Objetivo: Ajustar parâmetros do modelo para casar dados de entrada.
• Definições:
– X é um conjunto de dados de adaptação
– Λ é um conjunto de parâmetros de adaptação, tais que:
• Gênero e taxa da voz
• Vetores média de unidades fonéticas • Matriz de Transformação global
– Θ é um conjunto de parâmetros do modelo acústico utilizado pelo reconhecedor.
• Método:
– Λ é estimado a partir de X – Θ é ajustado com base em Λ
MIT
Definições Utilizadas na Adaptação
(continuação)• Obter Λ é um problema de estimação:
– Poucos pontos de dados de adaptação ⇒ pequeno # (número) de parâmetros em Λ
– Muitos pontos de dados de adaptação ⇒ maior # de parâmetros em Λ
• Exemplo:
– Suponha que Λ contém somente um único parâmetro λ
– Suponha que λ represente a probabilidade da voz ser masculina – λ é estimado a partir do dado de adaptação X
– O modelo adaptado da voz poderia ser representado como:
(
a
sa)
P
(
a
masculino) (
)
P
(
a
fe ino)
P
r
|
Θ
=
λ
r
|
Θ
+
1
−
λ
r
|
Θ
minMIT
Adaptação Bayesana
• Um método para adaptação direta dos parâmetros do modelo • Muito útil com grande volume de dados de adaptação
• A.k.a adaptação probabilidade máxima a posteriori (MAP)
• Expressão geral da adaptação MAP do vetor media de uma única função densidade Gaussiana:
• Aplicando a regra de Bayes:
(
X
)
p
(
x
x
N)
p
r
r
r
r
r
r r|
arg
max
|
,...,
max
arg
µ
µ
1µ
µ µ=
=
MIT
Adaptação de Bayes
(continuação)• Suponha observações independentes:
• Funções de verossimilhança modeladas com Gaussianas:
• Parâmetros de adaptação são determinados a partir de X:
(
) (
)
∏
(
)
= = = N n n N p x x x p X p 1 1,..., | | | µr r r µr r µr( )
N
(
apS
ap)
p
µ
r =
µ
r
;
(
x
)
N
(
S
)
p
r
|
µ
r
=
µ
r
;
∑
= = N n n ml x N 1 1 r rµ
{
µ
r
ml,
N
}
=
Λ
MIT
Adaptação Bayesana
(continuação)• O estimador MAP de um vetor média é dado por:
• O estimador MAP é uma interpolação do estimador ML da média e uma média a posteriori:
– Se N é pequeno: – Se N é grande:
• Adaptação MAP pode ser expandida para manejar todos os parâmetros de Gaussianas misturadas.
– Referência: Gauvain and Lee, 1994
ap map
µ
µ
r
≈
r
(
ap)
ap ap(
ap)
ml map S NS Sµ
NS NS Sµ
µ
r = + −1 r + + −1 r ml mapµ
µ
r
≈
r
MIT
Adaptação Bayesana
(continuação)• Vantagens do MAP:
– Baseado em sólidos fundamentos matemáticos
– Converge no limite ao modelo dependente de quem fala • Desvantagens do MAP:
– Adaptação é muito lenta devida á suposição de independência – É sensível a erros durante adaptação não supervisiona
• A interpolação do modelo de adaptação se aproxima ao MAP – Não requer um modelo à priori
– Também no limite converge para o modelo dependente de quem fala
– Expresso como:
(
x u)
N p(
x u)
K p(
x u)
MIT
Adaptação Bayesana
(continuação)• Adaptação supervisionada conjunto de teste SD Gerenciamento de Recursos.
MIT
Adaptação Por Transformação
• Técnicas de Transformação são as formas mais comuns de adaptação sendo usadas atualmente!
• Idéia: Ajustar parâmetros do modelo usando uma transformação compartilhada globalmente ou através de diferentes unidades dentro de uma classe.
• Translação Global vetor média:
= adapta vetores média de todos os modelos fonéticos. = vetor translação compartilhado.
• Escala do vetor média global, rotação e translação R =matriz de escala e rotação compartilhada
p
∀
p
∀
vr
v
si p sa pr
r
r
=
µ
+
µ
MIT
Adaptação Por Transformação
(continuação)• O modelo SI é rotacionado, escalonado e transladado para casar com o modelo SD:
MIT
Adaptação Por Rotação
(continuação)• Parâmetros da transformação achados usando ML:
• Vantagens:
– Modelos de unidades sem dados de adaptação são adaptados. baseando-se em observações feitas em outras unidades.
– Não requer um modelo à priori (Isto pode ser também uma fraqueza!) • Desvantagens:
– Atua pobremente (pior que o MAP) para pequenas quantidades de dados.
– Supõe que todas as unidades deveriam ser adaptadas da mesma forma.
[ ]
R
v
p
(
X
R
v
)
v Rr
r
r|
,
max
arg
,
,=
MIT
Pesando a Voz de Referência
• Interpolação de modelos a partir de “vozes de referência”
– Usa a vantagem do relacionamento fonético entre vozes.
• Exemplo,usando vetores médios a partir de vozes de treinamento: – Dados de treinamento contêm R vozes de referência.
– Reconhecedor contém P modelos fonéticos.
– Uma média é treinada para cada modelo p e cada voz r: r p, µr
– Uma matriz de vetores voz é criada a partir das médias treinadas:
r p,
MIT
Pesando a Voz de Referência
(continuação)• O objetivo é achar o vetor voz mais provável para as novas vozes. • Ache a combinação de pesos para os vetores de voz de referência:
• •Estimação de máxima verossimilhança dos pesos dos vetores:
• Vetor peso global é robusto a erros introduzidos durante a datarão não supervisionada.
• Métodos iterativos podem ser usados para achar o peso dos
w
M
m
r =
sar
(
X
M
w
)
p
w
wr
r
=
arg
max
|
,
MIT
Pesando a Voz de Referência
(continuação)• •Vetor de adaptação media com uma única sentença de adaptação:
Não existe a, o, u na sentença de
MIT
Arquitetura da Adaptação Não Supervisionada
• Arquitetura de sistemas de adaptação não supervisionada:
• Em modo off-line , modelos adaptados usados para reconhecer. novamente a forma de onda original.
MIT
Experimento de Adaptação Não
Supervisionada
• Adaptação não supervisionada instantânea. – Adaptação e teste na mesma sentença.
– Não supervisionado ⇒ erros de reconhecimento afetam a adaptação.
– Instantânea ⇒ erros de reconhecimento são reforçados.
• RSW é mais robusta para erros que o MAP.
– Estimação RSW é “global” ⇒ usa a inteira sentença.
MIT
Voz Principal
• Voz Principal estende as idéias do peso da voz de referência.
– Referência: Kuhn, 2000
• Objetivo é conhecer características não correlacionadas do espaço de vozes.
• Começa criando uma matriz de vozes.
• Executa a análise das componentes principais em M.
– Cada autovetor representa uma dimensão independente (ortogonal) no espaço de vozes.
MIT
Voz Principal
(continuação)• Determine R autovetores:
• Novo vetor voz é a combinação dos N autovetores de topo:
{
e
e
e
R}
MIT
Voz Principal
(continuação)• Procedimento de adaptação é muito similar ao RSW:
• Adaptação vetor principal pode ser muito rápida.
– Uns poucos autovetores podem ser generalizados para muitos tipos de voz.
– Somente um pequeno número de observações fonéticas são requeridas para obter ganho significativo.
(
X
E
w
)
p
w
wr
r
r|
,
max
arg
=
MIT
Adaptação Estrutural
• Parâmetros de adaptação organizados em estrutura em árvore. – Nó raiz é a adaptação global.
– Nós ramificados fazem a adaptação compartilhada entre classes de modelos.
– Nos folha fazem adaptação em modelos específicos.
∑
• Parâmetros de adaptação conhecidos para cada nó na árvore.
• Cada nó tem um peso: wnode • Pesos baseados na
disponibilidade dos dados de adaptação.
• Cada caminho do nó para a folha obedece a esta restrição: