Reconhecimento do orador - Reconhecimento do Orador

4.1.1 Base de dados

A base de dados de oradores é constituída por gravações feitas a partir de canais de televisão, a maior parte em ambiente de estúdio de baixo ruído, sendo a grande maioria dos oradores jornalistas e figuras públicas. Para ter uma boa representação estatística na base de dados, cada orador deve ter associado um discurso de pelo menos 2 minutos (o que corresponde a um discurso efectivo de 1 minuto de fala vozeada – ver secção 3.3.2). A base de dados é neste momento formada por 67 oradores, dos quais 17 são do sexo

feminino.

4.1.2 Nomenclatura utilizada

De modo a simplificar a definição dos tipos de erros, usou-se a seguinte nomenclatura : ovelha - é um orador de teste que está registado na base de dados

lobo - é um orador de teste que não está registado na base de dados Foram definidos 3 tipos de erros :

• Erro Tipo I - quando um lobo é identificado como uma ovelha

• Erro Tipo II - quando uma ovelha obtém a classificação de Rejeitado

• Erro Tipo III - quando uma ovelha é confundida com outra

Para facilitar a apresentação de resultados usou-se também a seguinte nomenclatura:

• TA – Tempo de aprendizagem: tempo correspondente ao registo do orador na base de

dados (ficheiro .ref)

• TT – Tempo de teste: duração de cada ficheiro de teste

• p – ordem da análise LPC

4.1.3 Resultados dos testes

Os discursos de teste têm a duração máxima de 10 segundos e podem pertencer a oradores que não estejam na base de dados. A maior parte dos ficheiros de teste foram extraídos a partir da mesma sessão de gravação que o ficheiro de referência correspondente, tendo por isso o mesmo ambiente de gravação e mesma data.

O número total de testes neste momento é de 372, dos quais 76 são de oradores que não pertencem à base de dados.

Para determinar os erros de identificação, utilizou-se uma interface gráfica (Figura 4.1) em que se pode visualizar :

• Número de erros de cada tipo. • Número total de erros.

• Número de ovelhas e lobos.

• Percentagem de lobos cuja classificação é diferente de Rejeitado - “lobos felizes” • Percentagem de ovelhas mal classificadas(rejeitadas e confundidas) - “ovelhas tristes” • Identificação dos oradores de teste que originaram erros.

• Tabela com todas as combinações de oradores de teste / oradores de referência e respectivas distâncias. Para cada orador de teste é também indicada a classificação, menor distância e os oradores de referência que mais se aproximaram dentro da mesma classe de distância.

Figura 4.1 – Interface gráfico de testes

4.1.3.1 Tempos de teste e aprendizagem variáveis para várias combinações parâmetro / operador de distância

As tabelas seguintes mostram os resultados de várias experiências com tempos de teste e aprendizagem variáveis a partir de um conjunto de 372 ficheiros de teste dos quais 77

Parâmetro _distância^{Tipo de} _{Tipo I}Êrro _{Tipo II}Êrro _{Tipo III}Êrro Total de Erros % Lobos J % Ovelhas L Divergência 9 21 1 31 (8.33%) 11.69% 7.46% LSP _{Bhattacharyya} ₁₀ ₁₆ ₁ _{27 (7.26%)} _12.99% _5.76% Divergência 2 12 1 15 (4.03%) 2.60% 4.41% Cepstro _{Bhattacharyya} ₃ ₁₀ ₀ _{13 (3.49%)} _3.90% _3.39%

Tabela 4.1 - TA = 2 minutos , TT = 10 segundos, p=10

Parâmetro _distância^{Tipo de} _{Tipo I}Êrro _{Tipo II}Êrro _{Tipo III}Êrro Total de Erros % Lobos J % Ovelhas L Divergência 13 24 8 45 (12.10%) 16.88% 10.85% LSP _{Bhattacharyya} ₁₄ ₁₇ ₈ _{39 (10.48%)} _18.18% _8.47%

Divergência 5 14 1 20 (5.38%) 6.49% 5.08% Cepstro _{Bhattacharyya} ₃ ₁₇ ₀ _{20 (5.38%)} _3.90% _5.76%

Tabela 4.2 - TA = 1 minuto , TT = 10 segundos, p=10

Parâmetro _distância^{Tipo de} _{Tipo I}Êrro _{Tipo II}Êrro _{Tipo III}Êrro Total de Erros % Lobos J % Ovelhas L Divergência 16 38 13 67 (18.01%) 20.78% 17.29% LSP _{Bhattacharyya} ₁₅ ₃₅ ₁₃ _{63 (16.94%)} _19.48% _16.27% Divergência 10 20 2 32 (8.60%) 12.99% 7.46% Cepstro _{Bhattacharyya} ₆ ₂₂ ₁ _{29 (7.80%)} _7.79% _7.80%

Tabela 4.3 - TA = 30 segundos , TT = 10 segundos, p=10

Parâmetro _distância^{Tipo de} _{Tipo I}Êrro _{Tipo II}Êrro _{Tipo III}Êrro Total de Erros % Lobos J % Ovelhas L Divergência 16 48 15 79 (21.24%) 20.78% 21.36% LSP _{Bhattacharyya} ₁₆ ₄₄ ₁₅ _{75 (20.16%)} _20.78% _20.00% Divergência 7 23 4 34 (9.14%) 9.09% 9.15% Cepstro _{Bhattacharyya} ₆ ₂₃ ₂ _{31 (8.33%)} _7.79% _8.47%

Tabela 4.4 - TA = 2 minutos , TT = 5 segundos, p=10

4.1.3.2 Variação da ordem da análise LPC

Embora se tenha optado por uma análise LPC de ordem 10, depois de análise da literatura e tendo em conta que se pretendia que o sistema funcionasse em tempo real, fez-se análises com ordens 6 e 14 para avaliar a sensibilidade do método.

Os resultados apresentados na Tabela 4.1 à Tabela 4.4 são para uma análise LPC de ordem 10. A seguir estão apresentadas duas tabelas que correspondem a uma análise LPC de

Parâmetro _distância^{Tipo de} _{Tipo I}Êrro _{Tipo II}Êrro _{Tipo III}Êrro Total de Erros % Lobos J % Ovelhas L Divergência 16 64 25 105 (28.30%) 21.05% 30.17% LSP _{Bhattacharyya} ₁₇ ₆₀ ₂₆ _{103 (27.76%)} _22.37% _29.15% Divergência 20 28 8 56 (15.09%) 26.32% 12.20% Cepstro _{Bhattacharyya} ₂₀ ₂₃ ₈ _{51 (13.75%)} _26.32% _10.51%

Tabela 4.5 - TA = 2 minutos , TT = 10 segundos , p=6

Parâmetro _distância^{Tipo de} _{Tipo I}Êrro _{Tipo II}Êrro _{Tipo III}Êrro Total de Erros % Lobos J % Ovelhas L Divergência 6 20 0 26 (7.01%) 7.89% 6.78% LSP _{Bhattacharyya} ₅ ₂₀ ₀ _{25 (6.74%)} _6.58% _6.78%

Divergência 1 7 1 9 (2.43%) 1.32% 2.71%

Cepstro _{Bhattacharyya} ₁ ₆ ₁ _{8 (2.10%)} _1.32% _2.37%

Tabela 4.6 - TA = 2 minutos , TT = 10 segundos , p=14

Parâmetro _distância^{Tipo de} _{Tipo I}Êrro _{Tipo II}Êrro _{Tipo III}Êrro Total de Erros % Lobos J % Ovelhas L Divergência 3 19 0 22 (5.93%) 3.95% 6.44% LSP _{Bhattacharyya} ₃ ₁₉ ₀ _{22 (5.93%)} _3.95% _6.44% Divergência 3 7 0 10 (2.70%) 3.95% 2.37% Cepstro _{Bhattacharyya} ₂ ₈ ₀ _{10 (2.70%)} _2.63% _2.71%

Tabela 4.7 - TA = 2 minutos , TT = 10 segundos , p=16

4.1.3.3 Introdução de artefactos nos ficheiros de teste

De forma a testar a robustez do algoritmo desenvolvido introduziram-se uma série de artefactos num ficheiro de teste de 10 segundos pertencente a um orador existente na base de dados e comparou-se este ficheiro com a referência desse orador na mesma base de dados. Os artefactos introduzidos foram os seguintes:

• ruído branco

• ambiente de café (introdução de várias vozes de fundo sobre a voz do orador) • eco

• mudança de pitch

• amplificação do sinal original

Teve-se o cuidado de normalizar as potências dos sinais introduzidos de forma a poder fazer uma comparação entre as várias perturbações. Desta forma o sinal de ruído branco introduzido tem a mesma potência que o sinal de ruído do tipo “café” introduzido. Todos os ficheiros iniciais (ruído branco, ruído “café” e orador de teste) tinham a mesma potência. Na Tabela 4.8 e Tabela 4.9 estão indicadas as relações de potência Sinal/Ruído (S/N) em dBs para cada mistura. As distâncias foram calculadas usando a combinação coeficientes cepstrais (análise LPC de ordem 14) / distância de Bhattacharyya e são calculadas em relação ao registo na base de dados do orador de teste:

S/N (dBs) 34.0 26.0 20.0 16.5 14.0

Distância 1.60 2.71 4.10 4.92 5.49

Erro Sem erro Com erro Com erro Com erro Com erro

S/N (dBs) 20.0 16.5 14.0 10.4 8.0 4.4 1.9

Distância 1.21 1.24 1.25 1.37 1.45 1.76 2.00

Erro Sem Erro Sem Erro Sem Erro Sem Erro Sem Erro Sem Erro Com erro

Tabela 4.9 – Resultados da adição de ruído do tipo “café” ao ficheiro de teste de um orador

Eco tipo auditório Eco tipo igreja ^{Aumento do}_{pitch (+10%)} ^{Diminuição de}_{pitch (-10%)}

Distância 1.51 1.32 3.63 5.28

Erro Sem Erro Sem Erro Com erro Com erro

Tabela 4.10 – Resultados de outras alterações ao ficheiro de teste de um orador

Amplificação (dB) -15 -10 -5 +5 +10 +15 +20

% Vozeada 16% 38% 49% 55% 57% 59% 61%

Distância 2.39 1.32 1.22 1.11 1.42 1.91 2.68

Erro Com erro Sem Erro Sem Erro Sem Erro Sem Erro Sem Erro Com erro

Tabela 4.11 - Resultados de amplificar o sinal do ficheiro de teste de um orador

Como o ficheiro de teste original já estava normalizado pela amplitude, os valores de amplificação positiva (em dBs) na Tabela 4.11 correspondem a sinais que apresentam algum nível de saturação, tanto maior quanto maior for a amplificação. Como os segmentos vozeados são aqueles que estão modelizados com a maior energia (ver secção 2.2), ao descer o nível de amplificação a distância destes segmentos ao segmento modelo para a fala vozeada vai aumentar, diminuindo assim o número de segmentos classificados como vozeados e o tempo efectivo de teste.

O teste com um só orador não pode ser conclusivo, mas uma forma de avaliar a sensib ilidade do método a condições deficientes de captação de sinal.

No documento Reconhecimento do Orador (páginas 30-34)