Lista de abreviaturas e siglas
Capítulo 4 – Ambientes e ferramentas de processamento
4.5 Software Biometrics
O Biometrics é um software que processa os resultados dispostos nas matrizes de
scores (pontuações) ou distâncias, geradas pelo iVocalise, de modo a produzir
estatísticas e parâmetros globais de qualidade dos dados processados, de distâncias entre oradores, ou de razões de verosimilhança (Likelihood Ratios – LR). Para que isto seja possível, é necessário um conjunto de pontuações alcançadas a partir da confrontação de características obtidas de diferentes gravações, mas com origem no mesmo orador, assim como um conjunto de pontuações adquiridas da comparação de características extraídas de gravações com falantes distintos [52]. Segundo Drygailo et al. [64], a metodologia utilizada para obter os resultados divide-se em dois momentos. No primeiro, a tarefa consiste em usar os feature vectors, os modelos do orador (i-vector PLDA, nesta investigação) e calcular os scores decorrentes quer das distâncias entre diferentes gravações pertencentes ao mesmo orador, quer das distâncias entre gravações pertencentes a oradores distintos. A segunda parte do processo estrutura os scores obtidos em duas distribuições univariadas, a primeira consistindo na função de
densidade de probabilidade das pontuações comparando gravações do mesmo orador, representada por H0, e a segunda consistindo na função de densidade de probabilidade das pontuações comparando gravações entre diferentes oradores, representada por H1. O Likelihood Ratio é obtido com base na pontuação da evidência, que representamos por E, da comparação entre o modelo de orador resultante de uma gravação de fala de um indivíduo desconhecido (i.e. em forte ligação com um crime) e o modelo do orador resultante de uma gravação de fala de um indivíduo suspeito e conhecido. A Figura 25 ilustra o método de obtenção do LR. Neste exemplo, a evidence
score é E=58. Dividindo a probabilidade de E resultar da distribuição H0 (ver Secção 2.3.4) pela probabilidade de E resultar da distribuição H1, perfaz LR=25. Assim, verifica-se que é 25 vezes mais provável de observar a evidence score (E) dada a H0, ou seja, a amostra do orador suspeito e a amostra do orador desconhecido terem a mesma voz, do que observar E dada a H1, i.e. as amostras conterem registos de voz diferentes, na medida em que o orador não é o mesmo [64].
Genericamente, a análise e visualização de resultados produzidos pelo software
iVocalise, pode ser conseguida recorrendo aos seis tipos de gráficos que o Biometrics
utiliza [52]. No âmbito do nosso trabalho, ilustram-se, apenas, os três primeiros que derivaram da obtenção dos resultados especialmente significativos:
• Likelihood ratio plot (LR plot) – Figura 26; • Equal Error Graph – Figura 27;
• Detection Error Trade-off (DET plot) – Figura 28; • Receiver Operating Characteristic plot (ROC plot); • Zoo plot;
Figura 25 - Representação do método de obtenção do Likelihood Ratio [64].
A Figura 26 ilustra o LR Plot do software Biometrics e facilita o cálculo do rácio LR de modo idêntico à situação já ilustrada no gráfico da Figura 25. Estima, portanto, em função da distribuição H0, relativa às comparações entre o mesmo orador, e a distribuição H1, relativa às comparações entre diferentes oradores, qual o rácio LR para um caso em que a pontuação da evidência é E=4.44. No caso ilustrado, esse valor é LR=55.1.
Figura 26 - Resultados do iVocalise no LR Plot [90].
A Figura 27 ilustra o Equal Error Graph (EEG) a partir dos conceitos de False
Acceptance Rate (FAR) e de False Rejection Rate (FRR). Estes conceitos decorrem da
integração das curvas de distribuição H0 e H1, para um dado limiar que seja definido para a pontuação (score) que conduz à afirmação de que um dado valor de evidência E exprime um resultado de mesmo orador – caso E seja superior a esse limiar –, ou que conduz à afirmação de que um valor de E exprime um resultado de orador diferente – caso E seja inferior a esse limiar. O FAR decorre da integração da distribuição H1 para valores superiores ao limiar e mede a probabilidade acumulada de o sistema errar na conclusão de mesmo-orador. O FRR decorre da integração da distribuição H0 para valores inferiores ao limiar e mede a probabilidade de o sistema errar na conclusão de orador-diferente. O ponto em que as curvas se cruzam é o EER. Este é um parâmetro global de desempenho ou eficácia de um sistema de reconhecimento de orador. A Figura 27 ilustra as curvas FAR e FRR para três situações de distribuição H0 e H1.
Intuitivamente, é compreensível que quanto mais baixo for o limiar menos exigente o sistema será na correta identificação, pelo que o FAR tenderá a ser alto. Ao invés, quanto mais alto for o limiar mais exigente o sistema será na correta identificação, pelo que o FRR tenderá a ser alto.
Figura 27 - Resultados do iVocalise no EEG [90].
Assim, dado que a um aumento da FAR decorre uma diminuição da FRR, é útil a representação gráfica de uma em função da outra, fazendo abstração do limiar. Esta representação é dada pelo gráfico DET Plot como se ilustra na Figura 28.
Figura 28 - Resultados do iVocalise no DET Plot [90].
O DET Plot indica assim qual o desempenho do sistema ao traçar os false match
rate contra os false non-match rate numa gama para os valores do limiar. Tem especial
interesse a sinalização neste gráfico do ponto EER, que se verifica quando o false match
rate (FAR) equivale ao false non-match rate (FRR). Normalmente, os eixos do DET Plot encontram-se numa escala logarítmica, mas também podem ser encontradas escalas
lineares [90]. O sistema de classificação é mais preciso quanto menor for o valor do EER, o que conduz a que os dois tipos de erros enunciados sejam de baixa ocorrência [52] [88]. O EER é assim um parâmetro holístico de desempenho que é muito útil para comparar diferentes sistemas de classificação de orador.
A versão do software Biometrics utilizada foi a 1.5.0.637.