• Nenhum resultado encontrado

3.3 Técnicas de compensação de modelo

3.3.3 Projeção de atributos indesejáveis

As técnicas SMS e FM apresentadas anteriormente foram muito importantes para a consolidação da ideia de que compensações no domínio dos modelos dos locutores podem trazer ganhos de desempenhos significativos quando distorções são apresentadas na fase de

Capítulo 3. Técnicas de compensação de ruído 87 teste dos sistemas. Como pôde-se observar, tais técnicas foram propostas para a modelagem GMM-UBM, que até então era a modelagem mais utilizada para verificação de locutores independente de texto. Porém, um ponto importante a respeito de tais técnicas é que elas necessitam de algumas informações a respeito das locuções utilizadas na fase de treinamento, como o tipo de microfone utilizado, por exemplo. Além disso, até então essas técnicas foram propostas exclusivamente para lidar com distorções provenientes da utilização de diferentes tipos de microfones nas fases de treinamento e teste. Observou-se, então, que a modelagem GMM-SVM seria uma alternativa para lidar com mais naturalidade com esses tipos de distorções. Como cada locução produz um vetor (supervetor GMM), a própria máquina de aprendizagem (SVM) seria capaz de lidar com diferentes tipos de distorções, devido à sua própria capacidade de generalização (KINNUNEN e LI, 2010). Por essa razão, a modelagem GMM-SVM se tornou uma tendência de pesquisa nos últimos anos e muitos esforços começaram a ser realizados no desenvolvimento de métodos de compensação sobre a modelagem GMM-SVM. Tais métodos não se limitaram apenas às incompatibilidades de canal, mas se propuseram a suavizar as incompatibilidades de sessão (Seção 1.5.5) de uma maneira geral.

A principal técnica de compensação aplicada diretamente à modelagem GMM- SVM utilizando supervetores GMM foi proposta inicialmente para compensação de canal em (SOLOMONOFF; QUILLEN; CAMPBELL, 2004) e (SOLOMONOFF; CAMPBELL; BOARDMAN, 2005). Esse método é referenciado como uma técnica de projeção de atributos indesejáveis15 (NAP). Ela é a técnica aplicada a GMM-SVM mais bem sucedida

até o momento e, apesar de ter sido proposta inicialmente para compensação de canal, atualmente ela é utilizada como método de compensação de sessão, de maneira geral (CAMPBELL et al., 2006).

A ideia básica da técnica NAP é remover do espaço original formado pelos su- pervetores GMM o sub-espaço onde as informações foram distorcidas pelas fontes de incompatibilidade. Tais informações distorcidas são encontradas ao analisar as diferenças entre os supervetores gerados para um mesmo locutor. Através dessa análise, a técnica tenta definir o sub-espaço que apresenta tais informações e construir uma matriz de transformação que remova tal sub-espaço. Tanto o treinamento do classificador quanto a classificação de um determinado supervetor GMM são realizados nesse novo espaço. O cálculo da matriz de transformação entre os espaços é definido como segue.

Suponha que na fase de treinamento estejam disponíveis supervetores GMM16,

provenientes de L locutores e que, para cada locutor, si, 1 ≤ i ≤ L, há li supervetores. O conjunto total de supervetores, S, pode ser visto como:

S = nΦ(1, s1), ..., Φ(l1, s1), Φ(1, s2), ..., Φ(l2, s2), ..., Φ(1, sL), ..., Φ(lL, sL)

o

. (3.25)

15 Nuisance Attribute Projection.

Capítulo 3. Técnicas de compensação de ruído 88 O primeiro passo é calcular a variabilidade intra-locutor do conjunto S. Para cada um dos locutores, si, computa-se primeiro o supervetor médio,

¯ Φsi = 1 li li X j=1 Φ(j, si), (3.26)

e, para cada supervetor presente em S, subtrai-se o supervetor médio do locutor que o produziu:

˜

Φ(k, si) = Φ(k, si) − ¯Φsi, 1 ≤ k ≤ li, 1 ≤ i ≤ L. (3.27)

Em seguida, uma matriz, M , é utilizada para representar todas as variações intra- locutores presente no conjunto S. Tal matriz é definida pela concatenação dos supervetores subtraídos do supervetor médio do locutor correspondente:

M =hΦ(1, s˜ 1)... ˜Φ(l1, s1) ˜Φ(1, s2)... ˜Φ(l2, s2)... ˜Φ(1, sL)... ˜Φ(lL, sL)

i

. (3.28)

Nota-se que tal matriz possui dimensão E × V , onde E é a dimensão inicial dos supervetores e V = PL

i=1li. Como ela representa as variações intra-locutores presentes nos supervetores, ela possui as informações das distorções entre as sessões onde foram produzidas as locuções. O próximo passo da técnica é identificar um sub-espaço de dimensão K que maximiza as variações presentes em M . Para isso, são calculados os K auto-vetores associados aos K maiores auto-valores da matriz de covariância M Mt. Esse processo é idêntico à análise dos componentes principais17 (PCA) (WOLD; ESBENSEN; GELADI,

1987; JOLLIFFE, 2005), um método estatístico bastante conhecido em aprendizagem de máquina e que é utilizado para os mais diversos fins, entre eles, redução de dimensionalidade. Como a matriz de covariância utilizada possui dimensão geralmente altíssima, E × E, métodos robustos de decomposição de valor singular18 (SVD) (GOLUB e REINSCH, 1970) devem ser utilizados para a aproximação do cálculo da matriz inversa exigida pelo PCA.

Os K auto-vetores resultantes são ortogonais e formam a base do sub-espaço onde as variações entre as sessões são mais nítidas. A concatenação desses vetores produz uma matriz W de dimensão E × K. Tal matriz é utilizada para projetar um determinado supervetor GMM do espaço original para um novo espaço onde o sub-espaço encontrado é eliminado. Basicamente a matriz de transformação é definida por:

T = I − W Wt, (3.29)

onde I é a matriz identidade de dimensão E × E. A projeção, então, é realizada por: ˆ

Φ = T Φ, (3.30)

17 Principal component analysis. 18 Singular value decomposition.

Capítulo 3. Técnicas de compensação de ruído 89 onde ˆΦ é o supervetor projetado no novo espaço e Φ é supervetor original. Além disso, como W Wt possui dimensão E × E, essa projeção pode ser realizada de uma maneira mais eficiente:

ˆ

Φ = Φ − W (WtΦ). (3.31)

Nota-se que não há diminuição de dimensionalidade sobre os supervetores GMM, apenas é eliminado do espaço original o sub-espaço de distorções encontrado nas locuções de treinamento. Os supervetores projetados são utilizados tanto para o treinamento dos SVMs dos locutores quanto para a classificação de um determinado supervetor, seguindo a mesma modelagem GMM-SVM convencional. Além disso, a técnica NAP não depende da função de kernel utilizada e pode ser aplicada de uma maneira geral. Em (CAMPBELL et al., 2006) os autores utilizaram a função de kernel padrão, o Kernel linear para supervetores GMM (Seção 2.5.5). Além disso, os autores fixaram o valor de K em 64. Geralmente, K é fixado nesse valor quando o método NAP é aplicado à modelagem GMM-SVM.