• Nenhum resultado encontrado

2.5 Modelagem dos locutores

2.5.5 Modelagem GMM-SVM

2.5.5.2 Kernel de produto interno L 2

Essa função de kernel é baseada no produto interno no espaço de funções. Suponha, novamente, dois GMMs gerados pela adaptação MAP do UBM utilizando as locuções A e B, ga e gb, com dimensão RD. O produto interno padrão no espaço de funções é definido como:

k(ga, gb) =

Z

RD

ga(x)gb(x)dx. (2.60)

Uma fórmula fechada para a integral acima pode ser encontrada. Utilizando a notação anterior dos GMMs com M misturas, obtém-se:

k(ga, gb) = M X i=1 M X j=1 ωiωj Z RD N (x; µa,i, Σi) × N (x; µb,j, Σj)dx (2.61) = M X i=1 M X j=1 ωiωjN (µa,i− µb,j; 0, Σi+ Σj), (2.62)

onde 0 é o vetor nulo e N (x; µ, Σ) é a distribuição normal multivariada. Os autores ainda utilizaram uma aproximação computacionalmente conveniente ao assumir que as médias

Capítulo 2. Verificação automática de locutores independente de texto 68 de diferentes misturas são distantes. Tal suposição faz com que os termos i 6= j sejam pequenos. A função de kernel resultante utilizada é:

k(ga, gb) = M

X

i=1

ωi2N (µa,i− µb,i; 0; 2Σi). (2.63)

Apesar da proposta de ambas as funções de kernel, os experimentos realizados por Campbell et al. mostraram a superioridade do kernel linear para supervetores GMM. Esse kernel se tornou a função padrão utilizada na modelagem GMM-SVM. De fato, em trabalhos posteriores (CAMPBELL et al., 2006; STURIM et al., 2009; KINNUNEN e LI, 2010), apenas essa função é levada em consideração.

69

3 Técnicas de compensação de ruído

Na Seção 1.5.5, são mencionados os principais desafios enfrentados ao se desen- volver sistemas de reconhecimento de locutores. O principal deles consiste das chamadas incompatibilidades apresentadas entre os sinais de voz utilizados para cadastrar (e estimar o modelo do locutor) e aqueles utilizados para a autenticação. Muitas são as possíveis fontes de incompatibilidade, como a utilização de diferentes tipos de microfones, o ruído acústico presente no ambiente ou a qualidade do canal de comunicação por onde o áudio é transmitido. Tais fatores impactam na geração do sinal de voz, produzindo distorções que dificultam o reconhecimento. O desafio se concentra no desenvolvimento de sistemas que sejam capazes de operar sobre os mais diversos contextos submetidos às mais diversas fontes de incompatibilidade. O conjunto de técnicas propostas para suavizar tais influências são chamadas de técnicas de compensação.

Devido ao grande interesse comercial no desenvolvimento de sistemas que operassem sobre telefonia, muito esforço foi direcionado ao desenvolvimento de técnicas de compensa- ção que suavizassem a influência do tipo de microfone utilizado e do ruído proveniente do canal de comunicação por onde o sinal é transmitido. Tais técnicas são chamadas de técnicas de compensação de canal.

Ainda sob a motivação de aplicações que operem sobre telefonia, principalmente móvel, tem-se aumentado a necessidade de desenvolver técnicas de compensação voltadas para a suavização das distorções causadas pelo ruído acústico do ambiente onde a locução é gerada (TOGNERI e PULLELLA, 2011; FURUI, 1997; KINNUNEN e LI, 2010; MING; STEWART; VASEGHI, 2005). Tais distorções são referenciada como incompatibilidade de fundo ou de ambiente.

De maneira geral, uma determinada distorção pode ser descrita a partir da relação entre o sinal de voz produzido pelo locutor e um sinal de ruído que o distorce. Portanto, um determinado sinal distorcido, x(t), pode ser definido como:

x(t) = F (s(t), n(t)), (3.1)

onde s(t) é o sinal de voz puro, n(t) é o sinal de ruído e F é uma função de distorção. Um sistema robusto deve ser capaz de operar sobre os mais diversos tipos de distorções, sem conhecimento a priori da função F (·). Claramente, não há uma fórmula analítica para tal função e a abordagem mais intuitiva para suavizar tais distorções consiste em aproximar a função de distorção para algum tipo específico. Para distorções de canal, geralmente a função é aproximada para uma relação convolucional:

Capítulo 3. Técnicas de compensação de ruído 70 No domínio espectral da variável z (OPPENHEIM et al., 1989), o sinal distorcido é obtido pela multiplicação dos sinais:

X(z) = S(z)N (z), (3.3)

onde X(z) é a magnitude do espectro do sinal.

Se tomarmos como referência as operações realizadas no cálculo dos coeficientes MFCC (Seção 2.4.1.2), a magnitude do sinal X(z) é submetida a um banco de filtros espaçados na escala Mel e o logaritmo da energia resultante de cada um dos filtros é calculada. Pela modelagem do sinal distorcido apresentada acima, o logaritmo da resposta de um determinado filtro, k, do banco apresenta uma relação linear:

log10Xk(z) = log10Sk(z) + log10Nk(z). (3.4)

Essa relação linear geralmente é assumida por técnicas de compensação de canal. Tal suposição se mostra suficiente para esse tipo de distorção, porém, o mesmo não ocorre para distorções de ambiente. Nesse caso, a relação entre os sinais temporais é aditiva:

Fambiente = s(t) + n(t), (3.5)

de modo que a relação final torna-se não-linear: log10Xk(z) = log10

h

Sk(z) + Nk(z)

i

. (3.6)

Além das distorções tomarem formas não lineares, um fenômeno que geralmente ocorre quando há bastante ruído de ambiente consiste no chamado Efeito Lombard (JR et al., 1989; JUNQUA, 1993). Esse efeito é definido pelo aumento do tom de voz naturalmente praticado quando as pessoas estão em ambientes com alto grau de ruído. O aumento natural do tom de voz acarreta em uma maior pressão exercida sobre as cordas vocais, provocando distorções sobre a locução produzida.

Apesar de as técnicas propostas para compensação de canal apresentarem boa sua- vização das distorções convolucionais, tais técnicas não apresentam o mesmo desempenho para distorções aditivas. Isso ocorre porque a suposição sobre a linearidade espectral da distorção não suprime ruídos aditivos de alta potência.

As próximas sub-seções descrevem os principais métodos propostos para suavização de ruído. A maioria delas foram propostas como técnicas de compensação de canal, apesar de na prática também serem utilizadas para suavização de ruídos de ambiente. Tais técnicas podem ser divididas em três grupos, de acordo com o domínio onde a suavização ocorre: • Técnicas de compensação de características, que se concentram na remoção dos efeitos do ruído sobre o processo de extração das características do sinal de voz;

Capítulo 3. Técnicas de compensação de ruído 71 • Técnicas de compensação de scores, que tentam remover a distorção produzida

pelo ruído no score calculado a partir do modelo do locutor;

• Técnicas de compensação de modelo, que se propõem a construir modelos de locutores capazes de reconhecer características extraídas de sinais distorcidos sem perder o poder de discriminação diante de diferentes locutores.