• Nenhum resultado encontrado

2.4 MODELAGEM DOS LOCUTORES

2.4.1 Modelos de Misturas Gaussianas

Em um sistema de verificação de locutores baseado no teste da razão das verossimilhanças (Equação 2.3), as hipóteses nula e alternativa devem ser modeladas de alguma maneira. Isto é, modelos matemáticos devem ser estimados e associados às hipóteses, a fim de que seja possível a discriminação entre elas a partir da locução de teste. A maneira como a discriminação entre as hipóteses é realizada é o que define o tipo de modelagem imposta às hipóteses. A abordagem mais direta consiste na estimação de distribuições de proba- bilidade que são utilizadas para o cálculo explícito das verossimilhanças associadas às hipóteses 𝐻0 e 𝐻1 para a uma determinada locução de teste X. A escolha da distribuição

de probabilidade dos modelos claramente depende tanto das características extraídas das locuções quanto das especificações do sistema. Para sistemas de verificação independente de texto, onde não há nenhum conhecimento prévio a respeito do que será dito pelo lo- cutor, as funções de verossimilhança mais bem sucedidas tem sido aquelas definidas por Modelos de Misturas Gaussianas (GMMs).

GMMs foram primeiramente propostos para reconhecimento de locutores por Douglas Reynolds em 1995 (REYNOLDS; ROSE, 1995; REYNOLDS, 1995) e desde então vêm sendo utilizados na modelagem das características dos locutores em sistemas de verificação/iden- tificação independentes de texto. O sucesso da utilização de GMMs para a modelagem das características de um determinado locutor se deve ao fato de serem capazes de modelar funções de densidade de probabilidade arbitrárias. Além disso, a estimação de seus parâ-

metros é realizada por técnicas bem fundamentadas sob o ponto de vista estatístico. Outra vantagem está no baixo custo computacional associado ao cálculo das probabilidades.

A função de densidade de probabilidade de um GMM é definida pela soma ponderada de distribuições normais multivariadas. Portanto, para um GMM, 𝜆, com 𝑀 componentes de dimensão 𝐷, sua função de densidade de probabilidade é definida por

𝑝(𝑥|𝜆) =

𝑀

∑︁

𝑚=1

𝜔𝑖𝑁 (𝑥; 𝜇𝑖, Σ𝑖), (2.29)

onde 𝑥 é um vetor de dimensão 𝐷 e 𝜔𝑖, 𝑖 = 1, ..., 𝑀 , são os pesos associados a cada uma das componentes e satisfazem ∑︀𝑀

𝑖=1𝜔𝑖 = 1, 𝜇𝑖 ∈ R𝐷×1 e Σ𝑖 ∈ R𝐷×𝐷 são o vetor de média e a matriz de covariância da componente 𝑖, respectivamente. As funções 𝑁 (𝑥; 𝜇𝑖, Σ𝑖) são as densidades de probabilidade correspondentes a cada componente e seguem a função de densidade de probabilidade normal:

𝑁 (𝑥; 𝜇𝑖, Σ𝑖) = 1 (2𝜋)𝐷/2 𝑖|1/2 exp [︂ − 1 2(𝑥 − 𝜇𝑖) 𝑡Σ−1 𝑖 (𝑥 − 𝜇𝑖) ]︂ . (2.30)

Geralmente, matrizes de covariância diagonais são utilizadas,

Σ𝑖 = diag(𝜎12, 𝜎 2 2, ..., 𝜎

2

𝐷), (2.31)

ao invés de matrizes de covariância completas. Isso é uma aproximação usualmente justi- ficada pelo fato de os extratores de características geralmente produzirem características com baixa correlação matemática, como é o caso dos coeficientes MFCCs. Além de dimi- nuir consideravelmente a quantidade de parâmetros a serem estimados, há muita redução no custo computacional. Em termos mais precisos, mostrou-se que a utilização de ma- trizes de covariância diagonal apresenta resultados semelhantes aos apresentados com a utilização de matrizes completas (REYNOLDS; QUATIERI; DUNN, 2000;REYNOLDS; ROSE, 1995).

Um GMM é definido, portanto, pelos pesos, vetores de média e matrizes de covariância associados a cada uma de suas 𝑀 componentes:

𝜆 = {𝜔𝑖, 𝜇𝑖, Σ𝑖}, 𝑖 = 1, ..., 𝑀. (2.32)

Tais parâmetros são estimados via maximização de verossimilhança (Maximum like-

lihood - ML) dos dados disponíveis para a caracterização de cada uma das hipóteses

(Figura 4). Para um GMM, a definição desse problema pode ser sumarizada como a se- guir: dado um conjunto de vetores 𝑋 = {𝑥1, ..., 𝑥𝑁}, definir 𝜆 (Equação 2.32), de modo a maximizar a verossimilhança de 𝜆 com respeito a 𝑋. Basicamente, espera-se encontrar 𝜆 de modo que o GMM seja capaz de modelar bem os vetores utilizados na estimação. Além disso, também se espera certa capacidade de generalização, isto é, que o modelo seja capaz de apresentar altas verossimilhanças para vetores similares aos que foram apresentados no momento da estimação.

Como mencionado anteriormente, uma das razões do sucesso dos GMMs é a existên- cia de um paradigma poderoso e versátil para estimação de parâmetros. Tal paradigma consiste do algoritmo de Maximização de Expectativa (Expectation-Maximization - EM) (DEMPSTER; LAIRD; RUBIN, 1977;BILMES et al., 1998). O algoritmo EM é a técnica mais utilizada para estimar parâmetros de distribuições de probabilidades maximizando a ve- rossimilhança das distribuições com respeito a um conjunto de dados observados. Ele é um algoritmo iterativo e garante uma convergência monotônica a cada iteração. Uma descrição detalhada do algoritmo EM é apresentada no Apêndice A.

2.4.2 Modelo Universal de Fundo

Como visto anteriormente, os sistemas de verificação de locutores mais bem sucedidos modelam as hipóteses nula e alternativa explicitamente através de distribuições de proba- bilidade. O modelo responsável pela hipótese nula deve modelar a função de densidade de probabilidade correspondente ao fato de a locução ser produzida pelo locutor em questão,

𝑆. Portanto, na fase de treinamento, as locuções desse locutor específico devem ser utiliza-

das para estimar essa função. Esse modelo é bem definido, no sentido que o universo que deve ser modelado é bem conhecido. Por outro lado, o modelo responsável pela hipótese alternativa não é bem definido, uma vez que, teoricamente, ele deve estimar todo o espaço dos locutores que não são 𝑆. Dessa maneira, tal modelo, denominado de modelo de fundo, deve ser genérico o bastante para modelar uma grande variabilidade de locutores. Diante dessa dificuldade, duas são as principais abordagens utilizadas na sua estimação.

A primeira abordagem consiste em utilizar um conjunto de modelos de diferentes lo- cutores. Em diversos contextos, esse conjunto tem sido chamado de conjuntos de razão de verossimilhança (likelihood ratio sets) (HIGGINS; BAHLER; PORTER, 1991), cohorts (RO- SENBERG et al., 1992) ou então de locutores de fundo (background speakers) (REYNOLDS, 1995). Dado um conjunto de 𝑁 modelos de locutores de fundo, {𝜆1, 𝜆2, ..., 𝜆𝑁}, e um vetor

𝑥, a verossimilhança da hipótese alternativa (𝐻1), com respeito a 𝑥, é definida como: 𝑝(𝑥|𝐻1) = 𝐹 [𝑝(𝑥|𝜆1), 𝑝(𝑥|𝜆2), ..., 𝑝(𝑥|𝜆𝑁)], (2.33) onde 𝐹 é uma função de combinação (como média ou máximo) dos valores das verossi- milhanças dos modelos de locutores de fundo. A seleção, o tamanho ou a combinação dos locutores de fundo não se mostraram definitivas em (REYNOLDS, 1995). Mas, no geral, constatou-se que para obter o melhor desempenho dessa abordagem, os modelos de fundo devem ser estimados utilizando locuções apenas de outros locutores e não do locutor em questão. Esse fato é desvantajoso em sistemas onde há um grande número de locutores, uma vez que cada um deles deverá possuir o seu próprio modelo de fundo.

A segunda abordagem (e a mais utilizada) consiste em criar apenas um modelo de fundo, independente de locutor, que é estimado utilizando locuções de vários locutores di- ferentes. Esse modelo único é geralmente chamado de Modelo Universal de Fundo (UBM)

e representa a distribuição dos vetores de características independente do locutor que as produziu. Geralmente, dezenas ou até centenas de horas de gravações são utilizadas para gerar o UBM, que consiste basicamente de um GMM cujos parâmetros são estimados utilizando o algoritmo EM. Por causa da grande quantidade de dados, geralmente um nú- mero elevado de misturas é utilizado, como 1024 ou 2048. É possível, ainda, a combinação de vários UBMs para a produção de um único modelo. Na prática, uma abordagem bas- tante utilizada consiste em construir um UBM para cada gênero (masculino e feminino) utilizando locuções produzidas por locutores de cada gênero. Os dois UBMs são, então, combinados para a produção de um único modelo UBM. Essa combinação é realizada da maneira mais simples: para dois UBMs com 𝑀 e 𝑁 componentes, cria-se o modelo final com as 𝑀 + 𝑁 componentes e utiliza-se a metade dos valores dos pesos das distribuições.