Divis˜ ao do ´ audio em trechos vozeados e n˜ ao vozeados

3.4 Adapta¸c˜ ao do c´ odigo para utiliza¸c˜ ao de palavras

3.4.2 Divis˜ ao do ´ audio em trechos vozeados e n˜ ao vozeados

Com o resultado negativo do recorte dos trechos n˜ao vozeados, foi adotada uma nova

prática para realizar o reconhecimento com palavras que evitasse a perda de informa¸cão. A nova solu¸cão ainda teria que tratar de alguma forma os trechos não vozeados, mas sem

descartar nenhuma parte do áudio. A ideia proposta seria manter esses trechos que seriam recortados e, para os parâmetros que não são poss´ıveis calcular nos trechos não vozeados,

seria posto um valor nulo. Para isso seria necessário, portanto, dividir o áudio. Como o programa calcula os parâmetros por janelas, a divisão foi feita em janelas vozeadas

e n˜ao vozeadas, de forma que ele retornasse um valor nulo para as janelas que fossem identificadas como n˜ao vozeadas.

Sabemos que a base de áudios do projeto é bem diversificada, porém foi observado que um mesmo locutor carrega uma similaridade nos seus áudios gravados de uma mesma

palavra, gerando um padrão para nossa análise. Por esse motivo foi decidido realizar uma divisão manual no primeiro áudio em 8 janelas e aplicar essa mesma divisão para todos

os outros áudios de um mesmo locutor. Dessa forma seria poss´ıvel implementar o novo método de maneira rápida para testar se ele seria efetivo ou não.

Uma necessidade notada ao se realizar a divis˜ao manual foi a de retirar o momento de silˆencio usando algum outro algoritmo. O algoritmo antigo, baseado na quantidade de

energia dos cruzamentos de zeros, estava retirando muitos trechos do sinal, incluindo os trechos n˜ao vozeados, devido a grande varia¸c˜ao das amplitudes para uma palavra com-

pleta. Devido a isso, o padrão observado era perdido e o fato de aplicar o janelamento do primeiro áudio aos outros não estava sendo eficiente. Para preservar o padrão era neces-

sário criar uma estratégia para retirar apenas o momento de silêncio no in´ıcio do áudio. A estratégia elaborada levou em conta três caracter´ısticas importantes: o momento de

silêncio apresenta apenas um ru´ıdo de amplitude muito baixa; o sinal glotal tem uma caracter´ıstica periódica; e para acontecer o reconhecimento é necessário que o ru´ıdo seja bem

menor do que a amplitude do sinal. Por isso a amplitude se tornou o crit´erio usado, onde todas as amostras iniciais que apresentarem uma amplitude muito baixa eram retiradas

do sinal.

O resultado de todo esse processo de divis˜ao em janelas e retirada do momento de

silêncio está ilustrado na Fig. 3.6. Vale lembrar que esse janelamento foi aplicado tanto no sinal de voz quanto no sinal glotal para manter a coerência no modelo.

Como dito anteriormente, ao aplicar o janelamento para o primeiro ´audio, o mesmo

era repetido para todos os outros áudios do mesmo locutor, onde cada locutor tinha um janelamento diferente mas igual dentro dos seus próprios áudios. Esse método apresentou

um bom resultado, porém foi necessário levar em conta que nem todos os áudios apre- sentavam o mesmo tamanho, o que fazia com que a última janela variasse de tamanho e,

em alguns casos, acontecia de o áudio ser pequeno ao ponto de não existirem amostras na última janela. Para contornar essa situa¸cão foi feito um preenchimento de zeros no

sinal para que a ´ultima janela mantivesse um tamanho constante e, caso ocorresse de uma janela ser constitu´ıda apenas por zeros, o programa retornava todos os parˆametros do

sinal glotal como zero.

Figura 3.6: Sinal de voz dividido em janelas, demarcadas atrav´es dos pontos vermelhos.

A implementa¸cão no código da divisão do sinal em janelas foi dada pela cria¸cão

de dois vetores de controle, onde o primeiro continha a amostra inicial e final de cada janela, e o outro era um vetor bin´ario que representava se a janela era vozeada ou n˜ao.

Essas variáveis são passadas para a fun¸cão parametros onde são usadas para realizar o janelamento e para controle no cálculo dos parâmetros, onde nos trechos vozeados são

extra´ıdos os MFCCs e os parâmetros do sinal glotal e nos trechos não vozeados eram extra´ıdos apenas os MFCCs e os parâmetros do sinal glotal retornavam com valor nulo.

´e poss´ıvel alcan¸car um bom resultado para palavras completas usando no modelo quanti-

dades de parâmetros diferentes para cada tipo de trecho no sinal. Uma das preocupa¸cões ao se implementar esse método era se o modelo iria apresentar um bom comportamento

ao se substituir os parâmetros por zeros nos trechos não vozeados. Isso poderia resultar em problemas com indetermina¸cões pois muitos dos coeficientes do modelo são calculados

utilizando divisão e recursividade, conforme mostrado na Se¸cão 2.3. Como esses casos não aconteceram durante os testes realizados, podemos afirmar que esse método apresentou

Cap´ıtulo 4

An´alise dos Resultados

Neste cap´ıtulo, ser˜ao apresentados e discutidos os resultados dos testes realizados neste

trabalho e serão divididos em duas partes: (i) adi¸cão dos parâmetros de tempo com a sequência aui e (ii) adapta¸cão do código para palavras e teste com a palavra automatico

utilizando os mesmos parâmetros da sequência aui. Na primeira parte será analisado se e quais parâmetros de tempo resultaram em uma melhora no desempenho do programa

de verifica¸cão do locutor, em rela¸cão a taxa de erro, quando comparados aos parâmetros de frequência e MFCCs. Na segunda parte, serão mostrados os resultados referentes ao

algoritmo que foi adaptado para palavras e concluir se os parâmetros de frequência e os mesmos parâmetros de tempo utilizados para sequências de vogais retornaram um melhor

resultado.

O algoritmo de verifica¸c˜ao ´e dividido em treinamento e teste. Primeiro foram

gravados áudios através de um microfone e feita a sua leitura no MATLAB. Depois, com o algoritmo IAIF obtém-se o sinal glotal e, finalmente, são extra´ıdos os parâmetros do

sinal glotal que serão utilizados como entradas dos Modelos Ocultos de Markov (HMM), gerando modelos estocásticos da voz do locutor de interesse. Para o teste, são utilizados

audios de locutores impostores, que não geraram o modelo treinado e, também, do próprio locutor de interesse, fazendo os mesmos procedimentos explicados anteriormente. Porém,

os parˆametros do sinal glotal s˜ao utilizados como entrada para o modelo do locutor de interesse e assim, conseguimos obter a medida chamada verossimilhan¸ca, para finalmente

descobrir se o áudio pertence ao locutor que treinou a base, usando os critérios baseados em limiares de aceita¸cão.

Na Fig.4.1 est´a ilustrado o funcionamento do algoritmo de verifica¸c˜ao.

Figura 4.1: Vis˜ao geral do algoritmo de verifica¸c˜ao do locutor.

4.1 Adi¸cão de parâmetros de tempo para a sequência

de vogais

Para realizar esses testes foram utilizados ´audios de dois locutores de interesse masculinos

e dois locutores de interesse femininos e média de idade em torno de 22 anos, com a sequência de vogais aui. A partir dos modelos treinados, foram utilizados áudios desses

pr´oprios locutores e ´audios de quatro locutores impostores de diferentes idades e sexo: locutor 1 - 26 anos e homem; locutor 2 - 24 anos e homem; locutor 3 - 28 anos e mulher;

locutor 4 - 20 anos e mulher. Para cada locutor impostor foram gravados 30 áudios e com rela¸cão aos áudios do locutor de interesse, foram utilizados 40 para teste, totalizando

160 áudios. Foram usados como entrada do modelo os parâmetros de tempo, citados na Se¸cão 2.1.2, com o jitter, com os parâmetros de frequência(dH12 e HRF) e com os

MFCCs, já testados no trabalho anterior [3], para verificar quais desses apresenta um melhor resultado. A seguir, serão discutidos os resultados para diferentes critérios de

No documento Desenvolvimento de um programa de verificação de locutor usando como entrada para HMMs parâmetros extraı́dos do sinal de voz e do sinal glotal na emissão de palavras contendo conjuntamente sons vozeados e não-vozeados (páginas 56-61)