4.1.1 Base de dados
A base de dados de oradores é constituída por gravações feitas a partir de canais de televisão, a maior parte em ambiente de estúdio de baixo ruído, sendo a grande maioria dos oradores jornalistas e figuras públicas. Para ter uma boa representação estatística na base de dados, cada orador deve ter associado um discurso de pelo menos 2 minutos (o que corresponde a um discurso efectivo de 1 minuto de fala vozeada – ver secção 3.3.2). A base de dados é neste momento formada por 67 oradores, dos quais 17 são do sexo
feminino.
4.1.2 Nomenclatura utilizada
De modo a simplificar a definição dos tipos de erros, usou-se a seguinte nomenclatura : ovelha - é um orador de teste que está registado na base de dados
lobo - é um orador de teste que não está registado na base de dados Foram definidos 3 tipos de erros :
• Erro Tipo I - quando um lobo é identificado como uma ovelha
• Erro Tipo II - quando uma ovelha obtém a classificação de Rejeitado
• Erro Tipo III - quando uma ovelha é confundida com outra
Para facilitar a apresentação de resultados usou-se também a seguinte nomenclatura:
• TA – Tempo de aprendizagem: tempo correspondente ao registo do orador na base de
dados (ficheiro .ref)
• TT – Tempo de teste: duração de cada ficheiro de teste
• p – ordem da análise LPC
4.1.3 Resultados dos testes
Os discursos de teste têm a duração máxima de 10 segundos e podem pertencer a oradores que não estejam na base de dados. A maior parte dos ficheiros de teste foram extraídos a partir da mesma sessão de gravação que o ficheiro de referência correspondente, tendo por isso o mesmo ambiente de gravação e mesma data.
O número total de testes neste momento é de 372, dos quais 76 são de oradores que não pertencem à base de dados.
Para determinar os erros de identificação, utilizou-se uma interface gráfica (Figura 4.1) em que se pode visualizar :
• Número de erros de cada tipo. • Número total de erros.
• Número de ovelhas e lobos.
• Percentagem de lobos cuja classificação é diferente de Rejeitado - “lobos felizes” • Percentagem de ovelhas mal classificadas(rejeitadas e confundidas) - “ovelhas tristes” • Identificação dos oradores de teste que originaram erros.
• Tabela com todas as combinações de oradores de teste / oradores de referência e respectivas distâncias. Para cada orador de teste é também indicada a classificação, menor distância e os oradores de referência que mais se aproximaram dentro da mesma classe de distância.
Figura 4.1 – Interface gráfico de testes
4.1.3.1 Tempos de teste e aprendizagem variáveis para várias combinações parâmetro / operador de distância
As tabelas seguintes mostram os resultados de várias experiências com tempos de teste e aprendizagem variáveis a partir de um conjunto de 372 ficheiros de teste dos quais 77
Parâmetro distância Tipo de Tipo I Erro Tipo II Erro Tipo III Erro Total de Erros % Lobos J % Ovelhas L Divergência 9 21 1 31 (8.33%) 11.69% 7.46% LSP Bhattacharyya 10 16 1 27 (7.26%) 12.99% 5.76% Divergência 2 12 1 15 (4.03%) 2.60% 4.41% Cepstro Bhattacharyya 3 10 0 13 (3.49%) 3.90% 3.39%
Tabela 4.1 - TA = 2 minutos , TT = 10 segundos, p=10
Parâmetro distância Tipo de Tipo I Erro Tipo II Erro Tipo III Erro Total de Erros % Lobos J % Ovelhas L Divergência 13 24 8 45 (12.10%) 16.88% 10.85% LSP Bhattacharyya 14 17 8 39 (10.48%) 18.18% 8.47%
Divergência 5 14 1 20 (5.38%) 6.49% 5.08% Cepstro Bhattacharyya 3 17 0 20 (5.38%) 3.90% 5.76%
Tabela 4.2 - TA = 1 minuto , TT = 10 segundos, p=10
Parâmetro distância Tipo de Tipo I Erro Tipo II Erro Tipo III Erro Total de Erros % Lobos J % Ovelhas L Divergência 16 38 13 67 (18.01%) 20.78% 17.29% LSP Bhattacharyya 15 35 13 63 (16.94%) 19.48% 16.27% Divergência 10 20 2 32 (8.60%) 12.99% 7.46% Cepstro Bhattacharyya 6 22 1 29 (7.80%) 7.79% 7.80%
Tabela 4.3 - TA = 30 segundos , TT = 10 segundos, p=10
Parâmetro distância Tipo de Tipo I Erro Tipo II Erro Tipo III Erro Total de Erros % Lobos J % Ovelhas L Divergência 16 48 15 79 (21.24%) 20.78% 21.36% LSP Bhattacharyya 16 44 15 75 (20.16%) 20.78% 20.00% Divergência 7 23 4 34 (9.14%) 9.09% 9.15% Cepstro Bhattacharyya 6 23 2 31 (8.33%) 7.79% 8.47%
Tabela 4.4 - TA = 2 minutos , TT = 5 segundos, p=10
4.1.3.2 Variação da ordem da análise LPC
Embora se tenha optado por uma análise LPC de ordem 10, depois de análise da literatura e tendo em conta que se pretendia que o sistema funcionasse em tempo real, fez-se análises com ordens 6 e 14 para avaliar a sensibilidade do método.
Os resultados apresentados na Tabela 4.1 à Tabela 4.4 são para uma análise LPC de ordem 10. A seguir estão apresentadas duas tabelas que correspondem a uma análise LPC de
Parâmetro distância Tipo de Tipo I Erro Tipo II Erro Tipo III Erro Total de Erros % Lobos J % Ovelhas L Divergência 16 64 25 105 (28.30%) 21.05% 30.17% LSP Bhattacharyya 17 60 26 103 (27.76%) 22.37% 29.15% Divergência 20 28 8 56 (15.09%) 26.32% 12.20% Cepstro Bhattacharyya 20 23 8 51 (13.75%) 26.32% 10.51%
Tabela 4.5 - TA = 2 minutos , TT = 10 segundos , p=6
Parâmetro distância Tipo de Tipo I Erro Tipo II Erro Tipo III Erro Total de Erros % Lobos J % Ovelhas L Divergência 6 20 0 26 (7.01%) 7.89% 6.78% LSP Bhattacharyya 5 20 0 25 (6.74%) 6.58% 6.78%
Divergência 1 7 1 9 (2.43%) 1.32% 2.71%
Cepstro Bhattacharyya 1 6 1 8 (2.10%) 1.32% 2.37%
Tabela 4.6 - TA = 2 minutos , TT = 10 segundos , p=14
Parâmetro distância Tipo de Tipo I Erro Tipo II Erro Tipo III Erro Total de Erros % Lobos J % Ovelhas L Divergência 3 19 0 22 (5.93%) 3.95% 6.44% LSP Bhattacharyya 3 19 0 22 (5.93%) 3.95% 6.44% Divergência 3 7 0 10 (2.70%) 3.95% 2.37% Cepstro Bhattacharyya 2 8 0 10 (2.70%) 2.63% 2.71%
Tabela 4.7 - TA = 2 minutos , TT = 10 segundos , p=16
4.1.3.3 Introdução de artefactos nos ficheiros de teste
De forma a testar a robustez do algoritmo desenvolvido introduziram-se uma série de artefactos num ficheiro de teste de 10 segundos pertencente a um orador existente na base de dados e comparou-se este ficheiro com a referência desse orador na mesma base de dados. Os artefactos introduzidos foram os seguintes:
• ruído branco
• ambiente de café (introdução de várias vozes de fundo sobre a voz do orador) • eco
• mudança de pitch
• amplificação do sinal original
Teve-se o cuidado de normalizar as potências dos sinais introduzidos de forma a poder fazer uma comparação entre as várias perturbações. Desta forma o sinal de ruído branco introduzido tem a mesma potência que o sinal de ruído do tipo “café” introduzido. Todos os ficheiros iniciais (ruído branco, ruído “café” e orador de teste) tinham a mesma potência. Na Tabela 4.8 e Tabela 4.9 estão indicadas as relações de potência Sinal/Ruído (S/N) em dBs para cada mistura. As distâncias foram calculadas usando a combinação coeficientes cepstrais (análise LPC de ordem 14) / distância de Bhattacharyya e são calculadas em relação ao registo na base de dados do orador de teste:
S/N (dBs) 34.0 26.0 20.0 16.5 14.0
Distância 1.60 2.71 4.10 4.92 5.49
Erro Sem erro Com erro Com erro Com erro Com erro
S/N (dBs) 20.0 16.5 14.0 10.4 8.0 4.4 1.9
Distância 1.21 1.24 1.25 1.37 1.45 1.76 2.00
Erro Sem Erro Sem Erro Sem Erro Sem Erro Sem Erro Sem Erro Com erro
Tabela 4.9 – Resultados da adição de ruído do tipo “café” ao ficheiro de teste de um orador
Eco tipo auditório Eco tipo igreja Aumento do pitch (+10%) Diminuição de pitch (-10%)
Distância 1.51 1.32 3.63 5.28
Erro Sem Erro Sem Erro Com erro Com erro
Tabela 4.10 – Resultados de outras alterações ao ficheiro de teste de um orador
Amplificação (dB) -15 -10 -5 +5 +10 +15 +20
% Vozeada 16% 38% 49% 55% 57% 59% 61%
Distância 2.39 1.32 1.22 1.11 1.42 1.91 2.68
Erro Com erro Sem Erro Sem Erro Sem Erro Sem Erro Sem Erro Com erro
Tabela 4.11 - Resultados de amplificar o sinal do ficheiro de teste de um orador
Como o ficheiro de teste original já estava normalizado pela amplitude, os valores de amplificação positiva (em dBs) na Tabela 4.11 correspondem a sinais que apresentam algum nível de saturação, tanto maior quanto maior for a amplificação. Como os segmentos vozeados são aqueles que estão modelizados com a maior energia (ver secção 2.2), ao descer o nível de amplificação a distância destes segmentos ao segmento modelo para a fala vozeada vai aumentar, diminuindo assim o número de segmentos classificados como vozeados e o tempo efectivo de teste.
O teste com um só orador não pode ser conclusivo, mas uma forma de avaliar a sensib ilidade do método a condições deficientes de captação de sinal.