• Nenhum resultado encontrado

4.2 Adapta¸c˜ ao do c´ odigo para palavras

4.2.2 Resultados para o m´ etodo de divis˜ ao do sinal em trechos vozeados

O m´etodo de divis˜ao do sinal em trechos vozeados e n˜ao vozeados apresentou melhores re- sultados que o m´etodo de recorte do sinal. Os testes realizados utilizando vetores h´ıbridos

de observ´aveis com MFCCs, jitter, dH12 e HRF obtiveram menos erros de falso positivo e falso negativo do que os testes que usam apenas MFCCs como vetor de observ´aveis.

Para se chegar nesses resultados foi necess´ario realizar diversos testes devido ao ru´ıdo de na grava¸c˜ao e pelo tamanho dos ´audios que variavam entre si.

Inicialmente foi realizada a divis˜ao manual das janelas para diferenciar os trechos vozeados e n˜ao vozeados. Para isso foi necess´ario analisar alguns dos sinais glotais de

cada locutor e, com isso, foi notado que alguns sinais n˜ao possu´ıam praticamente nenhum trechos n˜ao vozeados, tendo amplitudes quase constantes. Ap´os a realiza¸c˜ao dos primeiros

sinal glotal “bom”, a quantidades de erros na decis˜ao era maior. A primeira ideia foi que

possivelmente o ´audio estava repleto de ru´ıdo, por´em, mesmo ouvindo o ´audio n˜ao era poss´ıvel identific´a-lo. Para confirmar a teoria foi necess´ario analisar os sinais de voz ao

inv´es do sinal glotal, que mostrou um n´ıvel de ru´ıdo muito alto nos momentos de silˆencio. Um dos casos identificados nos testes foi o fato de a retirada dos momentos de

silˆencio estarem tamb´em retirando as amostras dos trechos n˜ao vozeados do sinal. Devido ao fato de o algoritmo usado anteriormente relacionar a energia do sinal de fala e a taxa

de cruzamento de zeros num curto intervalo de tempo, cada sinal era alterado de forma diferente fazendo com que o janelamento do primeiro ´audio fosse muito incompat´ıvel com

os outros ´audios. Esse fato tamb´em foi identificado ao se realizar novos testes. A solu¸c˜ao foi criar um novo algoritmo para a retirada do momento de silˆencio, conforme descrito na

Se¸c˜ao 3.4.2.

O ´ultimo problema detetado nos testes foi em rela¸c˜ao aos ´audios que possu´ıam um

n´umero de amostras diferentes entre eles. Como o janelamento foi feito apenas no primeiro ´

audio, os pr´oximos ´audios tentavam aplicar o mesmo janelamento sendo que em alguns

casos o ´audio era menor do que o primeiro, fazendo com que o programa tentasse acessar uma amostra inexistente. Para resolver esse problema foi aplicado o “zero padding”, ou

preenchimento de zeros, no final do vetor.

Ap´os todos os testes ocorrerem sem nenhum erro, foram obtidos os resultados que

ser˜ao apresentados nessa se¸c˜ao que ser˜ao analisados de maneira similar a apresentada para a sequˆencia de vogais. Para isso foram utilizados os resultados obtidos anteriormente em

rela¸c˜ao ao coeficiente L1, ou seja, os testes com palavras foram feitos com os conjuntos de

parˆametros de tempo que apresentaram os melhores resultados nos testes com a sequˆencia

aui e, assim, realizar uma compara¸c˜ao entre vetor contendo apenas MFCCs e vetores de observ´aveis h´ıbridos.

A compara¸c˜ao dos resultados pode ser feita atrav´es do c´alculo da quantidade de erros e, para isso, foram utilizados ´audios de dois locutores de interesse para treinamento

do modelo estoc´astico da voz, masculino e feminino com 22 e 24 anos, respectivamente e sete locutores impostores de diferentes idades e sexo: locutor 1 - 27 anos e mulher; locutor

2 - 26 anos e mulher; locutor 3 - 50 anos e mulher; locutor 4 - 26 anos e homem; locutor 5 - 66 anos e homem; locutor 6 - 60 anos e homem; locutor 7 - 22 anos e homem. Para

interesse foram utilizados 40 para teste, totalizando 250 ´audios.

Como pode ser observado no gr´afico da Fig. 4.14, h´a uma diminui¸c˜ao significativa na taxa de erros.

Figura 4.14: Erros em rela¸c˜ao a base treinada para o locutor de interesse masculino.

Essa melhoria pode ser observada em todos os limiares, onde as verifica¸c˜oes usando

apenas os MFCCs como observ´aveis tiveram mais erros do que usando MFCCs com a adi¸c˜ao dos parˆametros de frequˆencia. Especialmente no caso do limiar 1, os valores de

taxa de erro com a adi¸c˜ao destes parˆametros s˜ao quase nulos, o que mostra a melhoria na verifica¸c˜ao de locutor ao adicionar tais parˆametros.

Outro ponto interessante, como mencionado anteriormente, ´e que o locutor de interesse masculino tem alto grau de parentesco com um dos locutores impostores, num

rela¸c˜ao de pai e filho. Por esse motivo muitos erros s˜ao obtidos nos testes realizados, devido a uma grande similaridade entre os ´audios dos locutores em quest˜ao.

Conforme mostra a Fig. 4.15, ´e poss´ıvel perceber que, no caso da base treinada para o locutor feminino, a adi¸c˜ao dos parˆametros de jitter e de frequˆencia ao MFCC

contribu´ıram para a diminui¸c˜ao da taxa de erro do programa, conforme ocorreu para o locutor de interesse masculino.

Ao utilizar o limiar 1 obtivemos os melhores resultados, tendo um percentual de erro de 0%. Portanto, ao analisarmos os resultados de ambos os locutres de interesse,

podemos concluir que o uso dos parˆametros de jitter e frequˆencia melhorou de forma significativa o desempenho do c´odigo, mostrando que ´e poss´ıvel realizar a verifica¸c˜ao com

Figura 4.15: Erros em rela¸c˜ao a base treinada para o locutor de interesse feminino.

Ap´os realizar os testes com parˆametros de frequˆencia e observar que houve uma

melhora no algoritmo de verifica¸c˜ao foram realizados novos testes com a adi¸c˜ao dos pa- rˆametros de tempo que deram melhores resultados ao serem testados com os ´audios da

sequˆencia de vogais aui, nas Figs. 4.16 e 4.17 podemos ver esses resultados.

Figura 4.16: Erros em rela¸c˜ao a base treinada para o locutor de interesse masculino com

adi¸c˜ao dos parˆametros de tempo.

Na Figura 4.16, onde a base foi treinada com o locutor de interesse do sexo mas-

culino, pode-se observar que a adi¸c˜ao dos parˆametros de tempo OQa e QOQ melhoraram o algoritmo de verifica¸c˜ao em rela¸c˜ao a todos os limiares, ou seja, diminu´ıram significati-

vamente a taxa de erro em rela¸c˜ao ao que foi observado utilizando apenas os MFCCs, em especial a combina¸c˜ao do limiar 2 com o parˆametro OQa retornou uma taxa de erro igual

Ao analisar os resultados mostrados na Fig. 4.17, onde o locutor de interesse ´e

do sexo feminino, pode-se observar tamb´em que a adi¸c˜ao do parˆametro de tempo OQa melhorou o algoritmo de verifica¸c˜ao em rela¸c˜ao a todos os limiares e o parˆametro QOQ ao

ser adicionado diminuiu as taxas de erro relacionadas aos limiares 1 e 3 em compara¸c˜ao com a taxa obtida utilizando apenas os MFCCs. O melhor resultado obtido aqui e que

tamb´em foi observado no caso do locutor de interesse masculino foi a combina¸c˜ao da adi¸c˜ao do parˆametro OQa com o crit´erio do limiar 2.

Figura 4.17: Erros em rela¸c˜ao a base treinada para o locutor de interesse feminino com

adi¸c˜ao dos parˆametros de tempo.

A partir da an´alise realizada neste cap´ıtulo sobre os testes com palavras contendo

vogais e consoantes, podemos resumir algumas observa¸c˜oes importantes. Em rela¸c˜ao ao crit´erio dos limiares, foi observado que os parˆametros de tempo contribu´ıram para

uma melhora significativa no desempenho do programa, diminuindo a taxa de erro para valores muito menores se comparados com a utiliza¸c˜ao apenas dos MFCCs, chegando a ser

nulas em alguns casos. Podemos destacar os seguintes resultados obtidos: (i) o locutor de interesse masculino apresentou uma melhora com a combina¸c˜ao MFCC, jitter, parˆametros

de frequˆencia e OQa nos limiares 1 e 2, e tamb´em MFCC, jitter, parˆametros de frequˆencia e QOQ em rela¸c˜ao ao limiar 2; e (ii) o locutor de interesse feminino apresentou uma

melhora com a combina¸c˜ao MFCC, jitter, parˆametros de frequˆencia e OQa nos limiares 1 e 2, e tamb´em MFCC, jitter, parˆametros de frequˆencia e QOQ em rela¸c˜ao ao limiar 1.

Documentos relacionados