• Nenhum resultado encontrado

Lista de abreviaturas e siglas

Capítulo 6 – Estudos com base no reconhecimento automático de orador

6.3 Resultados previamente consolidados

O trabalho de investigação realizado no âmbito desta dissertação e com base no

software iVocalise beneficiou de uma colaboração com um trabalho de dissertação de

durante o segundo semestre do ano letivo 2016-2017 [52]. Este trabalho faz uso da base de dados constituída no âmbito da presente dissertação, como se descreve no Capítulo 3. A colaboração consistiu numa familiarização conjunta com o software iVocalise e consistiu na partilha do trabalho manual de remoção do segundo orador em todas as gravações de voz telefónica, como reportado na Secção 3.6.3.

Na presente Secção, descrevemos os principais resultados de investigação alcançados por aquela dissertação de mestrado e que tomamos como ponto de partida para os novos resultados que apresentaremos nas secções seguintes.

Um primeiro conjunto de resultados muito relevante refere-se ao impacto no desempenho automático de orador em consequência da frequência de amostragem do registo de voz, em resultado da remoção, ou não, do segundo orador, e em resultado da utilização, ou não, do pré-condicionamento VAD a que aludimos na secção anterior.

Por um lado, estudou-se o impacto de reduzir a frequência de amostragem original de todas as gravações na nossa base de dados, de 22050 Hz, para a frequência de amostragem de voz telefónica, de 8000 Hz, que é a que é recomendada na utilização do software iVocalise. Verificou-se que para as várias combinações das outras condições (remoção ou não do segundo orador e inclusão ou não de VAD), o impacto era negligenciável. Não sendo um resultado esperado, já que a expectativa era de obter melhor desempenho quando a representação de sinal acomoda uma maior largura de banda (o que é a circunstância da frequência de amostragem de 22050 Hz), concluiu-se posteriormente que o software iVocalise realiza internamente uma conversão da frequência de amostragem se a fornecida não for 8000 Hz. Compreende-se, deste modo, que o desempenho resulte essencialmente inalterado.

Por outro lado, considerando todos os registos de todos os 37 oradores que compreendem a nossa base de dados, estudou-se o desempenho na classificação de orador, através do parâmetro EER discutido na Secção 4.5, quando se consideram, ou não, os outros dois fatores: pré-processamento VAD e remoção do segundo orador. Os resultados encontram-se ilustrados na Figura 62.

Figura 62 - Resultados de desempenho na identificação de orador, para cada uma das

seis situações de teste, quando se inclui, ou não, pré-processamento VAD, e quando se considera, ou não, a remoção do segundo orador (situação em que os ficheiros são modificados).

Esta figura representa resultados individualizados para cada uma das seis combinações de comparação entre tipos de registos: GSM_HQ versus VOI_HQ, GSM_HQ versus GSM_TL, GSM_HQ versus VOI_TL, VOI_HQ versus VOI_TL, VOI_HQ versus GSM_TL e, finalmente, VOI_TL versus GSM_TL. Estas alternativas correspondem às seis células que figuram ou acima da diagonal principal da matriz representada na Figura 17, ou, equivalentemente, abaixo dessa diagonal.

Excetuando a combinação GSM_HQ versus VOI_HQ em que os desempenhos são próximo do ideal para qualquer situação, as restantes combinações permitem extrair as seguintes conclusões genéricas:

• a remoção do segundo orador, o que se assinala na Figura 62 através de ‘ficheiros modificados’, é sempre benéfica, podendo a melhoria no desempenho EER, em termos absolutos, ultrapassar mesmo os 5%,

• a inclusão do pré-processamento VAD é sempre benéfica podendo a melhoria no desempenho EER, em termos absolutos, atingir até cerca de 5%.

Esta tendência verificou-se também quando nas comparações se consideram só os registos de oradores femininos, ou quando se considera toda a base de dados, com ambos os géneros.

Assim, apresentam-se na Tabela 13 os melhores resultados alcançados quando a frequência de amostragem é 8000 Hz, quando se usa pré-processamento VAD e quando o segundo orador é removido de todas as gravações. Para além de se indicarem os resultados para cada uma das seis combinações de comparação acima referidas, discriminam-se também os resultados quando se consideram só oradores masculinos, quando se consideram oradores femininos, ou quando se consideram ambos.

Tabela 13 - Melhores resultados de desempenho EER alcançados em [52] para cada

uma das combinações de teste e para cada cenário de género de oradores: FEM, MAL e FEM & MAL.

COMBINAÇÕES FEM & MAL FEM MAL

GSM_HQ vs VOI_HQ 0,11% 0,00% 0,00% GSM_HQ vs GSM_TL 8,11% 10,13% 5,88% GSM_HQ vs VOI_TL 8,07% 1,18% 0,74% VOI_HQ vs VOI_TL 5,37% 0,92% 1,10% VOI_HQ vs GSM_TL 8,33% 15,00% 7,35% VOI_TL vs GSM_TL 8,15% 11,05% 11,76%

Nesta tabela, os resultados indicados para FEM&MAL são os mesmo assinalados na Figura 62 com as barras com valores de EER mais baixos (e representadas a amarelo).

Deste modo, a Tabela 13 representa os resultados de referência para os novos resultados de investigação a apresentar nas secções seguintes. Deve-se assinalar que por indicação da empresa que produziu o software iVocalise, valores de EER até cerca de 6% são considerados aceitáveis e normais para dados reais de algumas dezenas de

oradores diferentes, enquanto que valores de ERR acima deste limiar são indicativos de que pode haver margem, por exemplo ao nível de condicionamento adicional dos registos de voz, para se melhorar o desempenho.

É oportuno retirarem-se algumas conclusões da Tabela 13 que são relevantes para os novos testes a apresentar nas seções seguintes. Em primeiro lugar, é notório que os resultados são, em média, melhores no caso dos testes realizados com os oradores MAL do que os realizados com os oradores FEM. Isto poderá ser uma consequência da maior dificuldade de modelização dos oradores FEM atendendo, nomeadamente, a que a sua frequência fundamental é tipicamente uma oitava mais elevada do que a dos oradores MAL, o que provoca maior indefinição na captação das frequências formantes. Por outro lado, há dois conjuntos de resultados que causam alguma perplexidade. Um conjunto envolve as combinações de teste GSM_HQ versus VOI_TL e VOI_HQ

versus VOI_TL. De facto, nestes casos e para o cenário de oradores FEM & MAL, o

desempenho EER é significativamente pior do que o desempenho separadamente obtido para FEM ou MAL. O facto destas combinações implicarem registos VOI_TL poderá sugerir que há uma dificuldade particular na modelização deste tipo de registos, o que merece esclarecimento adicional. Uma perplexidade em sentido oposto decorre da combinação de teste VOI_TL versus GSM_TL. De facto, neste caso, o desempenho EER é significativamente melhor do que desempenho separadamente obtido para FEM ou MAL, o que é intrigante porque corresponde à circunstância de teste mais exigente porquanto estão implicados registos telefónicos em que a degradação de sinal (por exemplo, devidos a distorções e interferência várias) é maior. É algo que se procurará também esclarecer.