• Nenhum resultado encontrado

Lista de abreviaturas e siglas

Capítulo 6 – Estudos com base no reconhecimento automático de orador

6.4 Segmentação e recomposição da base de dados

A segmentação de todas as gravações constantes da nossa base de dados foi executada como descrevemos na Secção 3.6.4. Como aí se refere, a sua necessidade decorre de a organização inicial da base de dados não permitir combinações de registos de voz mutuamente exclusivos (i.e. que não contenham o mesmo sinal de fala), o que é

especialmente verdade para as comparações segundo a diagonal principal da Figura 17, em que os registos em comparação e para o mesmo orador são exatamente os mesmos, e o que é também verdade para as combinações assinaladas na Figura 17 a sombreado ligeiro, em que os registos em comparação e para o mesmo orador provêm exatamente da mesma conversação, sendo um deles simplesmente a versão modificada pelo canal telefónico.

Como se descreve na Secção 3.6.4, a segmentação consistiu em subdividir cada gravação inicial em duas metades, mantendo-se em cada uma delas a mesma estrutura de exercício de voz, isto é, uma parte de diálogo e uma parte de leitura. A oportunidade para esta subdivisão decorre da possibilidade de cada metade poder ter, ainda assim, uma duração na ordem ou superior a cerca 20 segundos, que é a duração mínima para que seja possível construir um modelo de orador.

Deste modo e tal como se ilustra na Figura 19, organizando por exemplo os registos da primeira metade segundo a vertical e organizando os registos da segunda metade segundo a horizontal, assegura-se sempre mútua exclusividade dos registos de voz em comparação, mesmo quando pertencem ao mesmo orador. Este é o enquadramento dos resultados que se apresentam na Secção 6.6. Na Secção 6.5 avalia- se o impacto, em relação aos resultados de referência da Tabela 13, de realizar as mesmas comparações que esta traduz, mas na situação em que os registos de voz têm metade da duração.

Por último, observando-se ainda o requisito de mútua exclusividade entre os registos de voz em comparação, pretendeu-se estudar o desempenho na identificação de orador quando os seus modelos são construídos recompondo os registos de voz através da junção, para cada orador, de várias metades dos registos originais de forma a refletir diferentes condições de canal. Esta lógica de recomposição dos registos foi já apresentada na Secção 3.6.4, concretamente através da Figura 20. Os resultados destes estudos apresentam-se nas Secções 6.7 e 6.8 e permitem concluir sobre o impacto da diversidade de condições de canal na construção do modelo de orador.

6.5 Testes 1h-1h + 2h-2h

Nesta secção apresentam-se os resultados no desempenho na identificação de orador, avaliado através do parâmetro EER, em resultado da comparação, através do

software iVocalise, entre os registos que consistem nas primeiras metades após

segmentação, isto é, dos registos com etiqueta ‘1h’, e também, separadamente, entre os registos que consistem nas segundas metades após segmentação, isto é, dos registos com etiqueta ‘2h’. Nesta circunstância, os dados não são mutuamente exclusivos e está- se, por isso, a replicar a circunstância que conduziu aos resultados de referência, apresentados na Secção 6.3. Contudo, isto é deliberado para se aferir a degradação que ocorre quando se comparam registos que têm metade da duração dos registos originais. Dado que as comparações ‘1h-1h’ e ‘2h-2h’ produzem resultados semelhantes para as mesmas condições de teste, apresenta-se só a média destes resultados.

A Tabela 14 permite comparar, para os 20 oradores do género feminino, os resultados de referência relativos aos registos com a duração original e já apresentados na Tabela 13, com a média dos resultados obtidos quando se comparam as primeiras metades e, separadamente, quando se comparam as segundas metades.

Tabela 14 - Resultados de desempenho EER (em %) obtidos para cada uma das

combinações de comparação de registos dos (20) oradores do género FEM. A tabela à esquerda representa os resultados de referência já apresentados na Tabela 13 para os registos com a duração. A tabela à direita representa a média dos resultados obtidos para os dois conjuntos de registos com metade da duração.

FEM GSM_HQ GSM_TL VOI_HQ FEM

GSM_HQ GSM_TL VOI_HQ GSM_TL 10,13 GSM_TL 10,46 VOI_HQ 0,00 15,00 VOI_HQ 0,13 17,57 VOI_TL 1,18 11,05 0,92 VOI_TL 4,54 16,91 0,53

Exceto para a combinação de comparação VOI_TL versus VOI_HQ, verifica-se que há sempre uma ligeira degradação quando se comparam registos que têm metade da

versus GSM_HQ (em que o EER aumenta de 1.18% para 4.54%), e para a combinação

VOI_TL versus GSM_TL (em que o EER aumenta de 11.05% para 16.91%). Não é clara a razão para esta tendência, observa-se contudo que os registos VOI_TL estão implicados nesta constatação, tal como já se havia notado na Secção 6.3 em relação a resultados que aí causaram alguma estranheza.

A Tabela 15 apresenta o mesmo tipo de resultados dos apresentados na tabela anterior, desta vez, porém, para os 17 oradores do género masculino.

Tabela 15 - Resultados de desempenho EER (em %) obtidos para cada uma das

combinações de comparação de registos dos (17) oradores do género MAL. A tabela à esquerda representa os resultados de referência já apresentados na Tabela 13 para os registos com a duração original. A tabela à direita representa a média dos resultados obtidos para os dois conjuntos de registos com metade da duração.

MAL MAL GSM_HQ GSM_TL VOI_HQ GSM_HQ GSM_TL VOI_HQ GSM_TL 5,88 GSM_TL 6,07 VOI_HQ 0,00 7,35 VOI_HQ 0,10 8,73 VOI_TL 0,74 11,76 1,10 VOI_TL 5,61 17,28 0,83

Verifica-se, aqui também, o mesmo tipo de conclusões que atrás extraímos para a tabela anterior. Concretamente, para além da exceção associada à combinação VOI_TL versus VOI_HQ, em todos os restantes casos verifica-se uma degradação no valor de EER, sendo especialmente expressiva para a combinação VOI_TL versus GSM_HQ (em que o EER aumenta de 0.74% para 5.61%), e para a combinação VOI_TL versus GSM_TL (em que o EER aumenta de 11.76% para 17.28%). Mais uma vez, parece confirmar-se que os registos VOI_TL são particularmente problemáticos.

A Tabela 16 apresenta o mesmo tipo de resultados dos apresentados nas duas tabelas anteriores, desta vez para o total de 37 oradores abrangendo ambos os géneros.

Tabela 16 - Resultados de desempenho EER (em %) obtidos para cada uma das combinações de comparação de registos de todos os (37) oradores dos dois géneros. A tabela à esquerda representa os resultados de referência já apresentados na Tabela 13 para os registos com a duração original. A tabela à direita representa a média dos resultados obtidos para os dois conjuntos de registos com metade da duração.