Software iVocalise - – Ambientes e ferramentas de processamento

Lista de abreviaturas e siglas

Capítulo 4 – Ambientes e ferramentas de processamento

4.4 Software iVocalise

Este software foi desenvolvido pela empresa Oxford Wave Research e tem como propósito ser um sistema de reconhecimento automático de orador que oferece ferramentas de análise de sinal de fala, extração de características fonéticas (e.g. frequências formantes) e espetrais (e.g. coeficientes MFCC), modelização estatística, criação de modelos de orador e cálculo de distâncias entre modelos de orador. Permite, assim, ao perito, emitir um parecer fundamentado, objetiva e quantitativamente, sobre a plausibilidade da voz de determinado falante – um suspeito – corresponder, ou não, à voz gravada de um orador desconhecido e implicado, por exemplo, numa situação de crime.

O software foi desenvolvido de acordo com um sistema openbox, ou seja, o foneticista forense tem a possibilidade de escolher os parâmetros sobre os quais quer basear a análise e modelo de orador. Ilustra-se, na Figura 24, a principal interface do

iVocalise.

Para além de permitir avaliar a distância entre modelos de dois oradores distintos, isto é, efetuar a comparação de um-para-um, permite também efetuar a comparação de um-para-muitos, que é a circunstância ilustrada na Figura 24 em que as várias distâncias são apresentadas numa lista e têm o valor numérico assinalado na coluna de scores. No caso mais ambicioso, em termos práticos, permite também a comparação de muitos-para-muitos em que os vários scores, ou pontuações, são apresentados numa matriz que é, posteriormente, fornecida a um outro software, o

Biometrics (ver Secção 4.5), para análise de resultados e representação gráfica. Esta

modalidade de comparação de distâncias entre gravações de um grupo de oradores, e um outro grupo de oradores, que pode ter um número diferente do primeiro14, é especialmente importante para definir estatisticamente o perfil de pontuações correspondentes a comparações entre diferentes registos de fala mas pertencentes ao mesmo orador, e o perfil de pontuações correspondentes a comparações entre registos

14_{Se o número de oradores do primeiro grupo (grupo de análise) e do segundo (grupo de comparação) for}

de fala de oradores diferentes (ver Secção 4.5) [65] [87]. É esta caracterização estatística que permite estabelecer a gama dinâmica das pontuações (entre a situação de mesmo orador e a situação de orador diferente) e que permite também calcular os rácios de verosimilhança (Likelihood ratios), como se detalhará na Secção 4.5.

Figura 24 - Interface do iVocalise [91].

Os algoritmos de classificação utilizados pelo iVocalise e necessários para o cálculo de distâncias entre modelos de orador são o Gaussian Mixture Model (GMM) com ou sem adaptação Maximum a Posteriori (MAP), o i-vector com Probabilistic

Linear Discriminant Analysis (PLDA) e o i-vector usando a comparação da distância do

cosseno, independentemente de existir ou não o método Linear Discriminant Analysis (LDA). Na nossa investigação, foi utilizado o i-vector PLDA, na medida em que é um método de modelização e classificação mais recente e que produziu melhores resultados em estudos prévios [52].

Para a análise no iVocalise, utilizou-se uma das sessões do modo Spectral (que a empresa produtora assegura que é a alternativa mais eficaz). Os parâmetros espectrais são extraídos, automaticamente, de uma amostra de fala e estão relacionadas com atributos do sinal no domínio da frequência, num pequeno intervalo de tempo [52]. Esta abordagem de parametrização é bastante popular já que o seu uso é bastante recorrente nas tarefas de reconhecimento de fala e de orador [89].

De acordo com Pinto [52], o iVocalise suporta características espectrais flexíveis (MFCCs) já que i) a seleção da banda de frequência é ajustável, ii) os coeficientes de energia, delta e delta-delta são facultativos e iii) são admitidas técnicas de normalização de características, tais como a Mean Subtraction e Mean Variance Normalization.

Em particular, o modo Spectral suporta três sessões, nomeadamente: i) 2016A-Adaptable-1024-D-CMS;

ii) 2016A-Fixed-1024-D-CMS;

iii) SREPRISM_27k_2016C_TEL_1024DD-AnilBuild.

Uma vez que os resultados das duas primeiras sessões não diferem muito, optou- se por utilizar a primeira para ser exequível uma comparação de resultados com a terceira sessão SREPRISM_27k_2016C_TEL_1024DD-AnilBuild, em especial, porque possibilita uma melhor adaptação do UBM às amostras da base de dados (ver Secções 2.3 e 2.3.4) [52].

A grande diferença entre a sessão 2016A-Adaptable-1024-D-CMS e a SREPRISM_27k_2016C_TEL_1024DD-AnilBuild está relacionada com o acréscimo do conjunto de dados de treino dos modelos internos de orador, e no uso de coeficientes

delta-delta por parte da terceira sessão, sendo que a primeira, a 2016A-Adaptable-1024-

D-CMS, só utiliza coeficientes delta [52].

Outra função importante no iVocalise é a Voice Activity Detection (VAD), que permite que se eliminem, automaticamente, momentos de silêncio ou de baixa energia no sinal em análise [52] [89]. Este aspeto será retomado na Secção 6.2. De realçar outra funcionalidade, uma ferramenta 3D que possibilita ao perito a observação do

posicionamento relativo dos oradores no espaço i-vector reduzido às primeiras três dimensões, o que é útil nos casos em que existem poucos oradores e é necessário verificar a distância entre eles, no espaço [52] [29].

Em suma, o iVocalise só avalia, numericamente, a distância entre modelos de orador extraídos de registos de voz, produzindo um resultado que exprime a distância entre o orador A e o orador B. Esta avaliação pode ser executada entre dois oradores, entre um orador e vários oradores e entre vários oradores. Consequentemente, torna-se pertinente estudar as distâncias entre os oradores gémeos, entre eles e o familiar e entre os gémeos e todos os outros oradores voluntários. Este estudo particular foi iniciado no trabalho de dissertação anterior [52] mas não foi aprofundado na presente investigação devido à ampliação dos cenários de teste envolvendo múltiplas condições de canal, tal como se reporta no Capítulo 6.

Na nossa investigação recorreu-se à versão 2.4.0.1532 do software iVocalise.

No documento Alterações acústicas e percetivas introduzidas nas vozes de indivíduos gémeos e devidas ao canal telefónico - uma discussão de impacto na análise forense (páginas 95-98)