• Nenhum resultado encontrado

Em verificação de locutores, o sistema computa um score correspondente à hipótese de que uma determinada locução foi produzida por um determinado locutor. Na modelagem GMM-UBM, por exemplo, esse score é definido pelo logaritmo da razão das verossimi- lhanças do modelo do locutor e do UBM (Equação 2.43). Por outro lado, na modelagem GMM-SVM, o score corresponde ao resultado do cálculo da função de classificação do SVM (Equação B.9). Com a modelagem PLDA, com i-vectors ou x-vectors, por exemplo, o score é definido pela Equação 2.76. Para a realização da tarefa, o score é comparado a um limiar de aceitação, que, para a autenticação da locução, deve ser inferior ao score calculado.

Como discutido anteriormente na Seção 1.3.1, a escolha do limiar de aceitação de- termina o ponto de operação do sistema. Para o desenvolvimento prático de sistemas de verificação de locutores, a escolha do ponto de operação é uma tarefa essencial, uma vez que ele determina as taxas de falsa aceitação (FAR) e falsa rejeição (FRR) esperadas do sistema. Além disso, é desejável que tanto o ponto de operação quanto o limiar de aceitação sejam independentes de locutor. Isto é, deseja-se utilizar um único limiar de aceitação para qualquer locutor cadastrado no sistema. Ao contrário, seria necessária a estimação de diferentes limiares de aceitação (um para cada locutor) de modo que o ponto de operação desejado fosse alcançado para qualquer processo de verificação.

Para a escolha do limiar de aceitação de um determinado locutor, 𝑆, por exemplo, utilizam-se as distribuições dos scores produzidos por locuções produzidas por 𝑆 e por locuções produzidas por outros locutores, chamados de impostores. Obviamente, tais lo- cuções não podem ter sido utilizadas para a estimação dos modelos do sistema, senão tais distribuições seriam enviesadas. Figura 22 ilustra um exemplo dessas distribuições. Para cada ponto de operação, as taxas de FAR e FRR são calculadas levando em consideração um determinado limiar de aceitação. O ponto de operação pode então ser definido a partir das taxas de erro satisfatórias.

A Figura 22 mostra possíveis distribuições de scores que podem ser encontradas no de- senvolvimento de um sistema de verificação para um determinado locutor. Porém, espera- se que diferentes distribuições de scores sejam encontradas para diferentes locutores. Tal fato dificulta a escolha de um único ponto de operação independente de locutor. Outra maneira de analisar essa situação consiste em observar que um determinado sistema gera diferentes curvas ROC (Figura 2) para diferentes locutores.

score

p(scor

e) Impostores

S

Figura 22 – Ilustrações de distribuições de scores utilizando locuções de um determinado locutor, 𝑆 e locuções dos impostores.

os scores produzidos por diferentes locutores para intervalos semelhantes, de modo que seja possível encontrar um único limiar de aceitação satisfatório para todos os locuto- res cadastrados (AUCKENTHALER; CAREY; LLOYD-THOMAS, 2000). A mais bem sucedida

abordagem para realizar tal mapeamento consiste em normalizar os scores. Por essa razão, técnicas de compensação de scores são comumente referenciadas como técnicas de nor- malização de scores. Tal normalização deve ser eficaz na eliminação de possíveis desvios encontrados nas distribuições produzidas por um determinado locutor.

Dado um determinado score, 𝑠, produzido por um sistema, a ideia básica desse tipo de compensação é realizar uma normalização da forma:

^

𝑠 = 𝑠 − 𝜇𝑛𝑜𝑟𝑚 𝜎𝑛𝑜𝑟𝑚

, (2.93)

onde ^𝑠 é o score normalizado. Os parâmetros 𝜇𝑛𝑜𝑟𝑚 e 𝜎𝑛𝑜𝑟𝑚 são a média e o desvio-padrão de uma determinada distribuição de scores. Para geração do conjunto de scores dos quais as estatísticas serão calculadas, geralmente consideram-se scores gerados por impostores. Nesse contexto, dependendo do método, esses scores podem ser produzidos utilizando tanto locuções de impostores quanto modelos de impostores. Esses conjuntos de modelos de locutores são comumente referenciados como cohorts (Seção 2.4.2).

As próximas seções descrevem os principais métodos de normalização utilizados em sistemas de verificação de locutores.

2.6.1 Normalização zero

A normalização zero (Z-norm) (REYNOLDS, 1997) foi uma das primeiras a serem ampla-

mente utilizadas e possui a vantagem de computar os parâmetros 𝜇𝑛𝑜𝑟𝑚 e 𝜎𝑛𝑜𝑟𝑚 na fase de cadastramento, de modo que há pouco impacto no tempo de autenticação de uma

determinada locução. O conjunto de scores levado em consideração para calcular tais es- tatísticas é formado pelos scores produzidos pela tentativa de autenticação de impostores. Basicamente, produzem-se os scores utilizando locuções de vários locutores diferentes do locutor cadastrado. Geralmente, o mesmo conjunto de locuções é utilizado para todos os locutores cadastrados. Isso é feito produzindo um conjunto de locuções que provém de locutores que não estão cadastrados no sistema. Na prática, às vezes isso é inviável e, para um determinado locutor cadastrado 𝑆, utilizam-se locuções de outros locutores cadastrados, 𝑆̸= 𝑆, para compor tal conjunto.

2.6.2 Normalização de teste

A normalização de teste (T-norm) (AUCKENTHALER; CAREY; LLOYD-THOMAS, 2000) é bem similar à Z-norm e também utiliza um conjunto de scores de impostores para o cálculo das estatísticas de média e desvio-padrão. Porém, esse processo é realizado no momento da verificação e considera os scores produzidos pela locução de teste utilizando modelos de outros locutores, chamados de modelos dos impostores. Suponha a verificação de uma determinada locução, 𝑋, com respeito a um determinado locutor 𝑆. O método então calcula o score produzido pelo modelo do locutor 𝑆 e o normaliza levando em consideração os scores produzidos pelos modelos de outros locutores 𝑆̸= 𝑆.

Apesar de apresentar maior custo computacional na verificação, a normalização rea- lizada é mais eficaz quando há incompatibilidades nas locuções utilizadas para gerar os modelos dos locutores. Nesse caso, tais distorções impactam mais o método Z-norm, uma vez que o score produzido no teste será abaixo do esperado na distribuição estimada na fase de treinamento. Já no método T-norm, o score produzido no teste será abaixo do esperado em todos os modelos utilizados na normalização, mas espera-se que, ainda assim, o score produzido no modelo do locutor se sobressaia diante dos scores produzidos nos modelos dos impostores.

2.6.3 Normalização simétrica

Em (VOGT; BAKER; SRIDHARAN, 2005) foi proposta a combinação entre os métodos Z-

norm e T-norm, onde eles eram executados em série. Na modelagem JFA, esse tipo de normalização foi bastante importante, mostrando ganhos de desempenho consideráveis (KENNY et al., 2008), passando a ser considerada uma parte essencial no desenvolvimento dos sistemas. Esse método é conhecido como ZT-norm. Em (KENNY, 2010), Kenny obser- vou que a não-simetria do método o tornava inadequado para modelagens como o G-PLDA e HT-PLDA, onde o score compara duas representações e as hipóteses envolvidas no teste estatístico claramente impõem uma relação simétrica na comparação das representações. Ele então propôs uma mudança simples para manter a simetria dos conjuntos de scores,

onde o score final é definido por: ^ 𝑠 = 1 2 (︂𝑠 − 𝜇 𝑧𝑛𝑜𝑟𝑚 𝜎𝑧𝑛𝑜𝑟𝑚 + 𝑠 − 𝜇𝑡𝑛𝑜𝑟𝑚 𝜎𝑡𝑛𝑜𝑟𝑚 )︂ . (2.94)

Esse método é referenciado como normalização simétrica (S-norm).

2.6.4 Normalização simétrica adaptativa

Em (STURIM; REYNOLDS, 2005), os autores propuseram uma seleção adaptativa dos mo- delos de impostores utilizados para compor o conjunto de scores dos impostores. Nesse método, o intuito é selecionar os modelos de impostores mais semelhantes ao cadastrado. Os autores propuseram essa abordagem e aplicaram para a normalização T-norm, e por essa razão esse método ficou conhecido como T-norm adaptativo. Apesar disso, a mesma abordagem pode ser realizada para qualquer um dos métodos descritos anteriormente, apenas considerando um conjunto de cohorts diferente para cada um dos locutores cadas- trados. Nessa abordagem, utiliza-se tanto um conjunto de modelos de impostores quanto um conjunto de locuções de impostores. Cada modelo de impostor é caracterizado pelo ve- tor produzido pela concatenação dos scores produzidos pelas locuções, que foram geradas por locutores distintos daqueles dos modelos. A mesma caracterização é realizada para os modelos cadastrados e então os vetores de características dos modelos cadastrados e dos impostores são comparados (por distância city block, por exemplo). Para cada modelo cadastrado, selecionam-se os 𝐾 modelos de impostores mais semelhantes. No momento da verificação, as estatísticas utilizadas nas normalizações são computadas desse conjunto de 𝐾 modelos de impostores mais semelhantes do modelo cadastrado correspondente à alegação. Nos últimos anos, a abordagem mais utilizada consiste na abordagem adapta- tiva da normalização simétrica (S-norm adaptativo). Ela é considera atualmente a técnica padrão para normalização de scores (NAUTSCH et al., 2014; SNYDER et al., 2017; SNYDER et al., 2018;VILLALBA et al., 2019).