Desenvolvimento de um programa de verificação de locutor usando como entrada para HMMs parâmetros extraı́dos do sinal de voz e do sinal glotal na emissão de palavras contendo conjuntamente sons vozeados e não-vozeados

(1)

Escola de Engenharia

Curso de Gradua¸

c˜

ao em Engenharia de

Telecomunica¸

c˜

oes

Raiane Lima dos Santos

Renato Ramos d’Oliveira

Desenvolvimento de um programa de verifica¸c˜

ao de

locutor usando como entrada para HMMs parˆ

ametros

extra´ıdos do sinal de voz e do sinal glotal na emiss˜

ao

de palavras contendo conjuntamente sons vozeados e

n˜

ao-vozeados

Niter´

oi – RJ

2018

(2)

Raiane Lima dos Santos

Renato Ramos d’Oliveira

Desenvolvimento de um programa de verifica¸cão de locutor usando como entrada para HMMs parâmetros extra´ıdos do sinal de voz e do sinal glotal na emissão de palavras

contendo conjuntamente sons vozeados e n˜ao-vozeados

Trabalho de Conclus˜ao de Curso apresentado ao Curso de Gradua¸c˜ao em Engenharia de

Teleco-munica¸c˜oes da Universidade Federal Fluminense, como requisito parcial para obten¸c˜ao do Grau de

Engenheiro de Telecomunica¸c˜oes.

Orientador: Edson Luiz Cataldo Ferreira

Niter´oi – RJ

(3)

.

(4)

Raiane Lima dos Santos

Renato Ramos d’Oliveira

Desenvolvimento de um programa de verifica¸cão de locutor usando como entrada para HMMs parâmetros extra´ıdos do sinal de voz e do sinal glotal na emissão de palavras

contendo conjuntamente sons vozeados e n˜ao-vozeados

Trabalho de Conclus˜ao de Curso apresentado ao Curso de Gradua¸c˜ao em Engenharia de

Teleco-munica¸c˜oes da Universidade Federal Fluminense, como requisito parcial para obten¸c˜ao do Grau de

Engenheiro de Telecomunica¸c˜oes.

Aprovada em 21 de novembro de 2018.

BANCA EXAMINADORA

Prof. Edson Luiz Cataldo Ferreira - Orientador Universidade Federal Fluminese - UFF

Prof. Murilo Bresciani de Carvalho Universidade Federal Fluminese - UFF

Prof. Tadeu Nagashima Ferreira Universidade Federal Fluminese - UFF

Niter´oi – RJ

(5)

Resumo

Pode-se dizer que a fala ´e o principal meio de comunica¸c˜ao do ser humano, e cada

in-div´ıduo apresenta caracter´ısticas ´unicas no seu sinal de voz, tornando-a uma assinatura. Dessa forma, a voz pode ser usada como meio de autentica¸c˜ao, por exemplo, para acesso

a sistemas de seguran¸ca. Neste trabalho, será apresentado o aperfei¸coamento de um pro-grama de verifica¸cão de locutor que usa parâmetros do sinal de voz, como os coeficientes

cepstrais de frequência Mel (Mel Frequency Cepstrum Coefficients, MFCCs) e, também, parâmetros de tempo e de frequência do sinal glotal (sinal obtido imediatamente após a

passagem do ar pelas cordas vocais). Esses parâmetros são entradas para HMMs (Mode-los Ocultos de Markov-Hidden Markov Models) permitindo a constru¸cão de um modelo

estocástico para a voz do locutor. Duas grandes contribui¸cões são obtidas com esse traba-lho: a adi¸cão de novos parâmetros de tempo extra´ıdos do sinal glotal e, principalmente,

a utiliza¸cão de palavras completas, considerando sons vozeados e não vozeados na mesma palavra. Os resultados obtidos com a adi¸cão dos novos parâmetros de tempo mostraram

melhora no sistema de verifica¸cão e a adapta¸cão do programa para palavras completas mostram ser poss´ıvel a considera¸cão dos parâmetros do sinal glotal para a melhora do

sistema de verifica¸cão, não apenas para sons vozeados, como anteriormente, mas também para sons não-vozeados, considerado como o grande diferencial do trabalho.

Palavras-chave: sinal glotal, MFCC, HMM, sinal de voz, verifica¸c˜ao de locutor,

(6)

Abstract

One can say that speech is the main means of communication of human beings and the

voice of each person has particular characteristics which turns it into a signature. Con-sequently, voice signals can be used as authentication, for example, to access security

systems. In this work, the improvement of a speaker verification system is presented using parameters extracted from the voice signal, as the MFCCs (Mel Frequency

Ceps-trum Coefficients) and also time and frequency parameters extracted from the glottal signal (signal obtained immediately after airflow passing through the vocal folds). These

parameters are inputs for HMMs (Hidden Markov Models) allowing the construction of a stochastic model of the speaker voice. Two great contributions are obtained with this

work: the additon of new time parameters extracted from the glottal signal and, mainly, the use of complete words, considering voiced and unvoiced sounds in the same word. The

results obtained with the adding of the new parameters showed improvement in the veri-fication system. The adaptation of the program for complete words showed it is possible

to consider the glottal signal parameters to improve the system, not only voiced sounds, as previously done, but also unvoiced sounds, considered the greater differential of the

work.

Keywords: glottal signal, MFCC, HMM, voice signal, speaker verification, complete words.

(7)

Dedicamos esse trabalho a Deus e aos nossos

(8)

Agradecimentos

A Deus por ter me amparado e me mantido firme no meu prop´osito.

Aos meus pais, Kátia e Francisco, que são os responsáveis diretos pelo meu sucesso e sempre me deram todo o suporte necessário durante a minha jornada na faculdade. Sem

vocˆes tenho a plena certeza de que n˜ao estaria aqui hoje.

Ao meu noivo, Ramiro, que me acompanhou durante toda essa jornada sendo meu

melhor amigo, companheiro e incentivador, aconselhando-me sempre que o desˆanimo batia e entendendo a minha ausˆencia devido aos estudos.

Ao meu orientador, Edson, que sempre esteve dispon´ıvel para tirar as d´uvidas e soube nos conduzir muito bem na produ¸c˜ao desse trabalho, dando todo o suporte

neces-s´ario.

Aos professores queridos, Tadeu, Murilo, Leni, Ricardo, Nat´alia, Jacqueline, Pedro,

Tarc´ısio e René que sempre estiveram dispostos a ensinar e compartilhar o seu conheci-mento, e que sem dúvida foram fundamentais na minha forma¸cão. Vocês são inspira¸cões

que vou levar para o resto da vida.

Ao meu amigo, Renato, pela parceria e horas de dedica¸c˜ao nesse trabalho.

Agra-de¸co pela confian¸ca, paciˆencia e oportunidade de termos essa troca de conhecimentos. Aos meus amigos e familiares, que me apoiaram durante toda essa trajet´oria e

dividiram comigo os sucessos e derrotas, pois sempre estavam torcendo por mim.

Ao CNPQ e `a FAPERJ, pela ajuda financeira, atrav´es de bolsa, durante o per´ıodo

da inicia¸c˜ao cient´ıfica.

(9)

Aos meus pais, Denise e S´ergio, por me educarem e me ampararem durante toda

a minha vida e terem possibilitado que eu me tornasse a pessoa que sou hoje. Agrade¸co a imensa paciˆencia, o carinho e ternura que dedicaram a mim todo esse tempo.

Aos meus familiares que me apoiaram durante toda a minha trajet´oria de vida. Ao meu orientador e professor, Edson, que me possibilitou ingressar nessa pesquisa

e me orientou durante todo o processo de elabora¸c˜ao desse trabalho.

Aos professores dessa faculdade que colaboraram na minha forma¸c˜ao acadˆemica e

me ajudaram a abrir novos horizontes.

Aos diversos amigos que me acompanharam durante a faculdade, em especial a

Raiane, pelo empenho e dedica¸c˜ao na realiza¸c˜ao desse trabalho. A Deus por estar sempre olhando por mim.

(10)

Lista de Figuras

2.1 Aparelho Fonador[4] . . . 4

2.2 Sinal glotal (fluxo glotal). [5] . . . 5

2.3 Diagrama de blocos do algoritmo IAIF [5]. . . 6

2.4 Espectro de um pulso glotal [5]. . . 9

2.5 Rela¸c˜ao entre a escala Mel e a de frequˆencias em Hertz. . . 12

2.6 Obten¸c˜ao dos coeficientes MFCC a partir de um banco de filtros [10]. . . 14

3.1 Locutor impostor a esquerda e locutor de interesse a direita . . . 31

3.2 Determina¸cão do limiar pela interse¸cão dos gráficos da densidade de pro-babilidade dos logaritmos das verossimilhan¸cas [3]. . . 32

3.3 Curva de FAR e FRR para a determina¸c˜ao do limiar 3. [3] . . . 34

3.4 L´ogica sequencial para o algoritmo. . . 35

3.5 Sinal glotal com palavra, contendo trechos n˜ao vozeados. . . 38

3.6 Sinal de voz dividido em janelas, demarcadas através dos pontos vermelhos. 42 4.1 Visão geral do algoritmo de verifica¸cão do locutor. . . 45

4.2 Curva de referˆencia do primeiro locutor de interesse em azul e curva de teste do locutor impostor 3 em vermelho. . . 47

4.3 Curva de referˆencia do primeiro locutor de interesse masculino em azul e curva de teste do primeiro locutor de interesse masculino em vermelho. . . 47

4.4 Curva de referˆencia do segundo locutor de interesse masculino em azul e curva de teste do locutor impostor 2 em vermelho. . . 48

4.5 Curva de referˆencia do segundo locutor de interesse masculino em azul e curva de teste do segundo locutor de interesse em vermelho. . . 48

4.6 Curva de referˆencia do segundo locutor de interesse feminino em azul e curva de teste do quarto locutor de interesse em vermelho. . . 50

(11)

4.7 Curva de referˆencia do segundo locutor de interesse feminino em azul e

curva de teste do segundo locutor de interesse feminino em vermelho. . . . 50 4.8 Curva de referˆencia do segundo locutor de interesse feminino em azul e

curva de teste do segundo locutor de interesse feminino em vermelho. . . . 51 4.9 Taxas de erro em rela¸c˜ao `a base treinada para o primeiro locutor de interesse

masculino. . . 52 4.10 Taxas de erro em rela¸c˜ao a base treinada para o segundo locutor de interesse

masculino . . . 53 4.11 Taxas de erro em rela¸c˜ao a base treinada para o primero locutor de interesse

feminino . . . 54 4.12 Taxas de erro em rela¸c˜ao a base treinada para o segundo locutor de interesse

feminino . . . 54 4.13 Erros percentuais usando o m´etodo de recorte dos trechos n˜ao vozeados. . . 57

4.14 Erros em rela¸c˜ao a base treinada para o locutor de interesse masculino. . . 59 4.15 Erros em rela¸c˜ao a base treinada para o locutor de interesse feminino. . . . 60

4.16 Erros em rela¸cão a base treinada para o locutor de interesse masculino com adi¸cão dos parâmetros de tempo. . . 60

4.17 Erros em rela¸cão a base treinada para o locutor de interesse feminino com adi¸cão dos parâmetros de tempo. . . 61

4.18 Erros em rela¸c˜ao a base treinada para o segundo locutor de interesse mas-culino para a sequˆencia de vogais “aui‘”. . . 63

4.19 Erros em rela¸c˜ao a base treinada para o primeiro locutor de interesse femi-nino para a sequˆencia de vogais “aui‘”. . . 63

4.20 Erros em rela¸c˜ao a base treinada para o primeiro locutor de interesse femi-nino para a palavra autom´atico. . . 64

4.21 Erros em rela¸c˜ao a base treinada para o primeiro locutor de interesse femi-nino para a palavra autom´atico. . . 64

(12)

Lista de Tabelas

4.1 Coeficiente L1 para o primeiro locutor de interesse masculino de acordo

com a combina¸c˜ao de parˆametros. . . 46 4.2 Coeficiente L1para o segundo locutor de interesse masculino de acordo com

a combina¸c˜ao de parˆametros. . . 46 4.3 Coeficiente L1 para o primeiro locutor de interesse feminino de acordo com

a combina¸c˜ao de parˆametros. . . 49 4.4 Coeficiente L1 para o segundo locutor de interesse feminino de acordo com

(13)

Sum´

ario

Resumo iv Abstract v Agradecimentos vii Lista de Figuras x Lista de Tabelas xi 1 Introdu¸c˜ao 1 1.1 Objetivos . . . 3

2 Aspectos te´oricos 4 2.1 O aparelho fonador humano . . . 4

2.1.1 O sinal glotal . . . 5

2.1.2 Parˆametros no dom´ınio do tempo e da amplitude . . . 7

2.1.3 Parˆametros no dom´ınio da frequˆencia . . . 9

2.1.4 Parˆametros extra´ıdos do sinal de voz . . . 10

2.2 Coeficientes Mel cepstrais (MFCCs) . . . 12

2.2.1 Escala Mel . . . 12

2.2.2 C´alculos dos MFCCs . . . 13

2.3 Modelos ocultos de Markov (HMMs) . . . 14

2.3.1 Cadeias de Markov . . . 15

2.3.2 Defini¸c˜ao . . . 16

2.3.3 Terminologia . . . 16

2.3.4 Trˆes problemas fundamentais . . . 17

(14)

2.3.5 Calculando P (O|λ) . . . 17

2.3.6 Decodificando estados escondidos . . . 19

2.3.7 Ajuste dos parˆametros do modelo . . . 22

3 Metodologia e implementa¸c˜ao 27 3.1 Estrutura geral do c´odigo . . . 28

3.2 Crit´erios de decis˜ao . . . 30

3.2.1 Coeficiente L1 . . . 31

3.2.2 Limiar 1 . . . 32

3.2.3 Limiar 2 . . . 32

3.2.4 Limiar 3 . . . 33

3.3 Parˆametros de tempo em sequˆencia de vogais . . . 33

3.3.1 Melhoria na implementa¸c˜ao do fxrapt . . . 34

3.3.2 Ajustes no c´odigo . . . 36

3.3.3 C´alculo dos instantes de tempo . . . 36

3.3.4 C´alculo dos parˆametros . . . 37

3.4 Adapta¸cão do código para utiliza¸cão de palavras . . . 38

3.4.1 Recorte de trechos n˜ao vozeados . . . 39

3.4.2 Divisão do áudio em trechos vozeados e não vozeados . . . 41

4 Análise dos Resultados 44 4.1 Adi¸cão de parâmetros de tempo para a sequência de vogais . . . 45

4.1.1 Crit´erio do coeficiente L1 . . . 46

4.1.2 Crit´erio dos limiares de decis˜ao . . . 52

4.2 Adapta¸c˜ao do c´odigo para palavras . . . 55

4.2.1 Testes com m´etodo de recorte . . . 56

4.2.2 Resultados para o método de divisão do sinal em trechos vozeados e não vozeados . . . 57

4.3 Resumo dos melhores resultados . . . 62

5 Conclus˜oes e trabalhos futuros 65

(15)

(16)

Cap´ıtulo 1

Introdu¸

c˜

ao

O processo de produ¸c˜ao da voz ´e fascinante e ao mesmo tempo muito complexo, pois

envolve vários órgãos do aparelho fonador humano. É através da pronúncia das palavras que o ser humano se comunica com o mundo e expressa seus sentimentos e desejos. Por

isso, existe uma grande área de pesquisa com a finalidade de estudar e caracterizar a fala humana, ela contém muitas informa¸cões sobre o locutor que, para a finalidade do nosso

trabalho fazem toda a diferen¸ca. Um estudo completo sobre o processo de produ¸cão de voz, desde a anatomia do aparelho fonador até a dete¸cão de patologias, pode ser encontrado

em Principles of Voice Production [1].

Um sinal de voz possui caracter´ısticas tais que um modelo determin´ıstico ´e

insufi-ciente para model´a-lo adequadamente. Contudo a partir de um conjunto de sequˆencias de ´

audio obtidas de diferentes locu¸cões é poss´ıvel construir um modelo estocástico que pode

ser usado para o desenvolvimento de algoritmos de identifica¸c˜ao de locutor. O aparelho fonador humano ´e composto de uma anatomia complexa que transforma o fluxo de ar

que sai do pulmão em ondas sonoras. Gra¸cas a esse processo, às dimensões e às densida-des das estruturas anatômicas, o sinal de voz carrega muitas informa¸cões únicas sobre o

seu locutor que permitir˜ao que o modelo diferencie um locutor de interesse de locutores impostores.

A procura por novos meios de autentica¸cão de usuários em computadores e dis-positivos móveis fez surgir diversas maneiras de se verificar a identidade de uma pessoa

sem a utiliza¸cão de senhas, como por exemplo, o uso da biometria para verifica¸cão por impressões digitais. Nesse contexto, o uso da voz para verifica¸cão se faz bastante

(17)

certas caracter´ısticas da pessoa, podendo usar os pr´oprios microfones j´a embutidos nos

aparelhos atualmente.

Além da verifica¸cão de locutor, existem muitas aplica¸cões que utilizam a voz devido

`

as suas caracter´ısticas e à sua importância. Podemos citar, por exemplo, a cria¸cão digital da voz, o reconhecimento de locutor, a identifica¸cão de patologias relacionadas aos orgãos

fonadores, a comunica¸c˜ao homem-m´aquina, entre outros.

Os primeiros trabalhos sobre m´aquinas capazes de reconhecer caracter´ısticas da

voz com certo sucesso surgiram na década de 50 [2], mas este campo de pesquisa evoluiu bastante nas décadas seguintes gra¸cas às ferramentas mais robustas desenvolvidas em

computadores digitais. Pode-se dizer que a análise de sinais acústicos digitalizados é a precursora das outras modalidades de processamento digital de sinais como processamento

de v´ıdeo, existindo uma vasta literatura a respeito das t´ecnicas envolvidas.

O HMM ´e um modelo usado para reconhecer padr˜oes com caracter´ısticas

esto-cásticas por meio de alguns parâmetros observáveis que influenciam de forma indireta o modelo. Os observáveis comumente usados no modelo e vistos na literatura são os

coefici-entes cepstrais de frequência mel (Mel Frequency Cepstral Coefficients - MFCC) que são obtidos por meio das amplitudes do espectro de potência janelado por filtros triangulares.

Esses sinais carregam caracter´ısticas essenciais do sinal de voz e são a base do modelo de reconhecimento usado. Busca-se implementar um método matemático estocástico capaz

de obter as caracter´ısticas únicas do locutor e realizar a verifica¸cão, baseado no uso de algoritmos para implementa¸cão do Modelo Oculto de Markov (Hidden Markov Model

-HMM).

No Cap´ıtulo 1 é feita uma introdu¸cão ao tema e são descritos os objetivos deste

trabalho. Em seguida, no Cap´ıtulo 2, são apresentados os fundamentos teóricos tais como: (i) a produ¸cão do sinal de voz; (ii) obten¸cão do sinal glotal e extra¸cão dos seus

parâmetros; (iii) fundamentos e cálculo dos MFCCs e (iv) defini¸cão de HMMs e seus problemas fundamentais. Nos Cap´ıtulos 3 e 4, é discutida a metodologia utilizada e os

resultados obtidos ao aplicar tal metodologia. No Cap´ıtulo 5, são feitas as conclusões sobre tudo que foi desenvolvido na realiza¸cão do trabalho e também sugeridos trabalhos

(18)

1.1 Objetivos

Esse trabalho é uma continua¸cão do trabalho de conclusão de curso desenvolvido por

Carla Schueler Florentino e Filipe Moreira da Silva, orientado pelo prof. Edson Cataldo[3]. Naquele trabalho, a verifica¸c˜ao de locutor foi realizada usando apenas sequˆencias de vogais

e foi mostrado que a verifica¸cão de locutor melhora consideravelmente quando parâmetros do sinal glotal são incorporados aos vetores de entrada dos HMMs.

Neste trabalho, o estudo é estendido do seguinte modo: (i) aumentando o número de parâmetros extra´ıdos do sinal glotal, (ii) adicionando outros parâmetros obtidos a

partir do sinal de voz e do sinal glotal e, principalmente, (iii) considerando o caso de palavras, misturando vogais e consoantes. Para isso s˜ao utilizados alguns observ´aveis

adicionais para o HMM, buscando diminuir o erro percentual de verifica¸cão. Para alcan¸car os objetivos descritos foram realizadas também algumas contribui¸cões para o trabalho,

entre elas a melhoria do algoritmo fxrapt para an´alise completa do sinal, o desenvolvimento de algoritmos para c´alculo de instantes de tempo do sinal glotal e o desenvolvimento do

(19)

Cap´ıtulo 2

Aspectos te´

oricos

2.1 O aparelho fonador humano

Para a realiza¸c˜ao deste trabalho foi muito importante entender e aprender como ocorre

o processo de produ¸cão da voz. Além de tudo, entender que para cada ser humano esse mesmo processo ocorre de maneira única e, por isso, é poss´ıvel distinguir um locutor de

interesse dos impostores. O aparelho fonador humano é o conjunto de órgãos responsáveis pela produ¸cão de voz e pode ser dividido em três partes: (i) pulmões, brônquios e traquéia,

´

orgãos respiratórios que fornecem a corrente de ar para a fona¸cão; (ii) laringe, onde se localizam as cordas vocais, que produzem a energia sonora utilizada na fona¸cão; (iii)

faringe, boca e fossas nasais que funcionam como caixas de ressonˆancia (Fig. 2.1).

Figura 2.1: Aparelho Fonador[4]

O fluxo de ar proveniente dos pulm˜oes, ap´os passar pela laringe, produz um sinal

(quase) periódico chamado sinal glotal e, ao passar pela faringe, pela l´ıngua, pelos dentes, pelos lábios e pelas fossas nasais, esse sinal é filtrado e amplificado, gerando o som da fala.

(20)

Um dos órgãos de maior importância para a produ¸cão de voz é a laringe, onde estão

localizadas as cordas vocais. Ao falar, as cordas vocais fazem um movimento de “abre-e-fecha” em uma frequˆencia fundamental que produz uma onda sonora quase peri´odica. Esse

movimento não acontece ao assobiar, por exemplo, que produz um fluxo de ar irregular de várias frequências, chamado som de banda larga. Assim, podemos dividir a fala em

sonora, quando as cordas vibram, e n˜ao-sonora.

Os ´org˜aos do aparelho fonador por onde passa o sinal glotal funcionam como uma

caixa de ressonância, ou seja, alteram a quantidade de energia em fun¸cão da frequência do sinal, permitindo que algumas frequências sejam enfatizadas enquanto outras são

atenu-adas. Portanto, a fun¸c˜ao resposta em frequˆencia do filtro (trato vocal) depende da vogal a ser produzida.

2.1.1 O sinal glotal

Dado que o processo da fala se baseia na filtragem do sinal glotal para formar as ondas sonoras, suas caracter´ısticas passam a ser de extrema importˆancia para o estudo da voz.

O trecho de um sinal glotal est´a representado na Fig. 2.2.

Figura 2.2: Sinal glotal (fluxo glotal). [5]

Como já foi dito, o sinal glotal é um sinal (quase) periódico com uma frequência

fundamental chamada, comumente, de f0. Ao se mover em dire¸c˜ao `a boca, o sinal encontra

certas obstru¸cões que podemos modelar como impedâncias que causam ressonâncias em

certos harmônicos do sinal glotal. Como os parâmetros das impedâncias variam de acordo com o movimento da l´ıngua e dos dentes, por exemplo, eles se tornam importantes para

(21)

determinar certas caracter´ısticas do locutor.

Para determinar os parˆametros relacionados ao locutor, ´e preciso, primeiramente, recuperar o sinal glotal[6]. Inicialmente, tenta-se remover os efeitos da filtragem causada

pelo aparelho fonador no sinal de voz. Para realizar a filtragem inversa, utiliza-se o algoritmo IAIF (Iterative Adaptive Inverse Filtering) que ´e um m´etodo de filtragem inversa

semi-automático e que utiliza um sinal de pressão de fala como entrada, gerando uma estimativa do sinal glotal correspondente. O procedimento tem três partes fundamentais:

análise, filtragem e integra¸cão. A contribui¸cão glotal para o espectro de fala é inicialmente estimada usando uma estrutura iterativa. Esta contribui¸cão é anulada e, então, a resposta

em frequência do trato vocal é constru´ıda. Finalmente, a excita¸cão glotal é estimada anulando os efeitos do trato vocal (usando filtragem inversa) e a radia¸cão labial (por

integra¸c˜ao). Um esquema do modelo de filtragem inversa utilizado nesta abordagem ´e mostrado na Fig. 2.3.

Figura 2.3: Diagrama de blocos do algoritmo IAIF [5].

O algoritmo foi alterado, posteriormente, substituindo a análise preditiva linear convencional (LPC) pelo método discreto de modela¸cão de todos os pólos (DAP)[7][8],

(22)

porém nesse trabalho, ainda utilizamos o modelo de predi¸cão linear. Na Figura 2.3, é

poss´ıvel observar o diagrama de blocos desse modelo com suas respectivas etapas.

Primeiramente, o sinal de fala é janelado e, então, é utilizado um filtro passa-altas

de resposta ao impulso finita de fase linear (FIR) com uma frequência de corte de 60 Hz para eliminar flutua¸cões de baixa frequência e polariza¸cão de corrente cont´ınua. Esse sinal

filtrado de alta frequência é utilizado como entrada para os próximos estágios. No bloco 1, o ajuste LPC de ordem 1 é utilizado para calcular a contribui¸cão do pulso glotal para o

sinal da fala. No bloco 2, este coeficiente de ordem LPC 1 que simboliza a for¸ca do pulso glotal no sinal ´e utilizado para construir um filtro inverso que ´e aplicado para anular o

efeito glotal do sinal de fala original. Assim, a entrada para o bloco 3 representa o sinal de fala com a componente de fluxo glotal filtrada. Em seguida, no bloco 3, o ajuste de LPC

12 é utilizado para capturar o efeito do filtro de trato vocal em termos de coeficientes de filtro. A ordem 12 é escolhida de acordo com o número de frequências formantes, maior

que o número duplo de formantes considerado para a análise. No bloco 4, o efeito do filtro do trato vocal é removido do sinal de voz original, por filtragem inversa. O efeito

deste bloco consiste no efeito do fluxo glotal e do efeito da radia¸cão labial. Assim, para limpar a questão da radia¸cão, é utilizado, no bloco 5, um integrador com fuga (com um

valor de coeficiente superior a 0,9 e menor que 1), que remove o efeito de radia¸cão labial do fluxo obtido após o bloco 4. A sa´ıda do bloco 5 é a primeira estimativa do pulso glotal.

A segunda repeti¸cão funciona de forma análoga. A sa´ıda do bloco 10 é a estimativa do pulso glotal do sinal de voz original[5].

2.1.2 Parˆ

ametros no dom´ınio do tempo e da amplitude

Os parâmetros do sinal glotal trazem muitas informa¸cões para serem utilizadas em aplica-¸cões médicas. Eles podem ser divididos em três partes: parâmetros no dom´ınio do tempo

e amplitude, parâmetros no dom´ınio da frequência e parâmetros de deriva¸cão do sinal glotal (LF).

Os parˆametros no dom´ınio do tempo e da amplitude do sinal glotal s˜ao extra´ıdos (calculados) a partir de amostras em alguns instantes de tempo. Esses instantes podem

ser especificados usando o sinal glotal e sua derivada. Esses instantes s˜ao:

(23)

• tmax - Instante de tempo em que ocorre o valor m´aximo do sinal glotal;

• tmin - Instante de tempo em que ocorre o valor m´ınimo do sinal glotal;

• Aac - Diferen¸ca entre a amplitude m´axima e m´ınima do sinal glotal;

• tc- Instante de fechamento de duas cordas vocais. Pode ser definido como o instante

de tempo em que a primeira derivada do pulso glotal cruza o zero depois de um ponto

de m´ınimo;

• to1 e to2 - Instantes de abertura. Para calcular to1, primeiro considere o instante de

tempo em que a amplitude ´e 10% ao lado esquerdo do instante tmax. Ainda ao lado

esquerdo desse ponto, procure o instante em que o pulso glotal derivativo cruzar o zero no sentido positivo. Esse ´e o ponto to1. Para obter to2, marque o instante de

tempo que ´e 5% maior que to1 e procure o valor m´aximo positivo do segundo pulso

glotal derivativo. Esse ´e o instante to2;

• tqc e tqo - Instantes de tempo em que a amplitude do sinal ´e 50% da amplitude pico

a pico Aac.

Todos os instantes acima s˜ao calculados com base no valor de tmax. E baseados

nesses instantes, podemos calcular alguns parˆametros importantes:

• OQ (Open Quotient) - Mede o tempo de abertura com rela¸c˜ao ao per´ıodo do pulso. Pode ser dividido em OQ1 e OQ2:

OQ1 = (tc− to1) T ; (2.1) OQ2 = (tc− to2) T . (2.2)

• SQ (Speed Quotient) - Mede a rela¸c˜ao entre o instante de abertura e o instante de fechamento. Pode ser divido em SQ1 e SQ2:

SQ1 = (tmax− to1) (tc− tmax) ; (2.3) SQ2 = (tmax− to2) (tc− tmax) . (2.4)

• CIQ (Closing Quotient) - ´E a raz˜ao entre o per´ıodo de fechamento e o per´ıodo T: CIQ = (tc− tmax)

(24)

• AQ (Amplitude Quotient) - ´E a raz˜ao entre o valor pico a pico do pulso glotal e a amplitude m´ınima do pulso glotal derivativo:

AQ = Aac Admin

. (2.6)

• NAQ (Normalized Amplitude Quotient) - ´E o valor de AQ normalizado que pode ser calculado dividindo o valor de AQ pelo per´ıodo T:

N AQ = AQ

T . (2.7)

• QOQ (Quasiopen Quotient) - É o mesmo que OQ, porém é calculado por meio de tqc e tqo em rela¸cão a dura¸cão do per´ıodo:

QOQ = (tqc− tqo)

T . (2.8)

• OQa - ´E o equivalente de OQ para amplitudes:

OQa= Aac( π Admax + 1 Admin )fo. (2.9)

2.1.3 Parˆ

ametros no dom´ınio da frequˆ

encia

Para estimar os parâmetros no dom´ınio da frequência do sinal glotal, é preciso considerar a densidade espectral de potência do pulso glotal, como na Fig.2.4.

Figura 2.4: Espectro de um pulso glotal [5].

Existem dois desses parâmetros do pulso glotal que interessam para o nosso estudo. O primeiro é H1− H2 ou dH12 que é a diferen¸ca entre o primeiro e o segundo harmônicos

(25)

da forma de onda da densidade espectral de frequˆencia do sinal glotal, em decibel, e

o segundo é o fator de riqueza harmônico (HRF), conforme é mostrado na Eq. 2.10, que é definido como a razão entre as somas das amplitudes dos harmônicos acima da

frequência fundamental e a magnitude da frequência fundamental ou o primeiro harmônico em decibéis: HRF = P r≥2Hr H1 . (2.10)

2.1.4 Parˆ

ametros extra´ıdos do sinal de voz

Para analisar o sinal glotal, é necessário aplicar vários algoritmos para extrair seus parˆ a-metros a cada ciclo glotal:

• Fun¸cão de autocorrela¸cão determin´ıstica: é uma fun¸cão no dom´ınio do tempo que testa a similaridade entre quadros do sinal de voz após um certo per´ıodo de tempo.

Dado um sinal de voz s(n) com uma janela de comprimento N e números de quadros igual a m, podemos definir a fun¸cão de autocorrela¸cão para o m-ésimo quadro por:

r(m) = 1 2N + 1 N X n=−N s(n)s(n + m). (2.11)

Quando m = 0, então a fun¸cão de autocorrela¸cão passa a ser fun¸cão de s2_{(n), ou}

seja, representa a energia do sinal de voz. Quando a autocorrela¸cão for 1, significa que o sinal do m-ésimo quadro é idêntico ao quadro atual.

• Rela¸cão de harmônicos e ru´ıdo (HNR): é a diferen¸ca de energia entre a parte pe-riódica do sinal de voz e o ru´ıdo em decibéis. Quando o HNR é 0 dB, então a

intensidade da voz e do ru´ıdo ´e a mesma.

• Rela¸cão de ru´ıdo nos harmônicos (NHR): é uma média em rela¸cão às componen-tes de energia do ru´ıdo e às componentes de energia dos harmônicos na banda de frequências do sinal de voz. O NHR mede a quantidade de ru´ıdo na voz.

• Energia de tempo curto (STE): é definido como a energia de um pequeno segmento ou quadro do sinal de voz. É usado para diferenciar segmentos sonoros e não-sonoros

da voz. Dado um sinal s(n), uma janela w(n) e m variando de 0, N, 2N, 3N, ... n, ent˜ao:

(26)

ST E = X

n

[s(n)w(n − m)]2. (2.12)

• Entropia de energia (EE - Entropy Energy): mede as varia¸c˜oes abruptas na energia. ´

E usado para diferenciar regiões de silêncio e de fala no sinal. Para calculá-la,

primeiramente dividimos um quadro em K subquadros. Dado que ei seja a energia

de cada subquadro, ent˜ao:

EE = −

K−1

X

i=0

e2_ilog2(e2i). (2.13)

• Taxa de cruzamento de zero (ZCR - Zero Crossing Ratio): é um parâmetro no dom´ınio do tempo de um sinal de voz e é o número de vezes que o sinal cruza o eixo por segundo num determinado quadro. O valor final do ZCR é calculado como uma

m´edia de todos os valores de ZCR de cada quadro.

• Centroide espectral (SC): é usado para determinar o centro de massa do espectro do sinal de voz. É a frequência com mais peso num quadro, onde o peso é a energia normalizada de cada componente de frequência num determinado quadro. Pode ser

dada por: SC = PN −1 n=0 f (n)x(n) PN −1 n=0 x(n) , (2.14)

onde x(n) representa a frequência com maior peso em um quadrado de número n e f (n) representa a frequência central naquele quadro.

• Fluxo espectral (SF - Spectral Flow): mede quão rapidamente o espectro de potência varia ao longo do tempo. É a varia¸cão do espectro de um quadro para o outro. É

dado por:

SF = 1

(N − 1)(K − 1)[logF (n, k) − logF (n − 1, k)]

2_, _(2.15)

onde F (n, k) é a FFT do n-ésimo frame do sinal de voz. N é o número total de frames e K é a ordem da FFT.

(27)

• Jitter: é a medida da flutua¸cão periódica em torno da frequência fundamental. É afetado principalmente pela falta de controle na vibra¸cão das cordas vocais. O Jitter pode ser medido como absoluto, relativo, perturba¸cões médias e quociente de

perturba¸c˜ao de 5 pontos por per´ıodo (ppq5).

• Shimmer: é a medida da varia¸cão periódica de amplitude do sinal de voz. É afetado principalmente pela redu¸cão da tensão das cordas vocais. Pode ser medido como

absoluto, relativo, perturba¸cão de 3 pontos na amplitude (apq3), perturba¸cão de 5 pontos na amplitude (apq5) e perturba¸cão de 11 pontos na amplitude (apq11).

2.2 Coeficientes Mel cepstrais (MFCCs)

Os coeficientes cepstrais de frequˆencia mel (MFCC - Mel Frequency Cepstrum Coeficients)

são muito utilizados nas áreas de estudos que estão relacionadas ao reconhecimento de locutor e, atualmente, muitos sistemas funcionam bem com esses coeficientes, criando

robustez na presen¸ca de ru´ıdo de fundo. O uso dos MFCCs nas técnicas de reconhecimento surgiu devido aos estudos da percep¸cão auditiva humana, mostrando que a percep¸cão das

frequˆencias de tons puros ou de sinais de voz n˜ao seguem uma escala linear, estimulando, assim, a ideia de criar uma escala (logar´ıtmica), denominada Mel.

2.2.1 Escala Mel

A escala Mel procura aproximar caracter´ısticas da sensibilidade do ouvido humano, pois verificou-se que a percep¸c˜ao de intensidade sonora humana de frequˆencias de tons puros

ou de sinais de voz n˜ao seguem uma escala linear, conforme mostra a Fig. 2.5.

Figura 2.5: Rela¸c˜ao entre a escala Mel e a de frequˆencias em Hertz.

(28)

valor medido na escala Mel. O Mel ´e uma unidade de medida de frequˆencia. Como

referência, foi definida a frequência de 1 kHz, com potência 40 dB acima do limiar m´ınimo da audi¸cão do ouvido humano, equivalendo a 1000 mels.

A convers˜ao da frequˆencia em escala linear para a escala Mel ocorre de acordo com a Eq. 2.16: Fmel = 1127ln 1 + Flinear(Hz) 700 . (2.16)

2.2.2 C´

alculos dos MFCCs

O primeiro passo para o cálculo dos MFCCs é a pré-enfase que é uma filtragem realizada para enfatizar as frequências mais altas do sinal de voz, eliminando os efeitos causados

pela varia¸cão da glote e da impedância de radia¸cão, causados pelos lábios no processo de produ¸cão da voz. Matematicamente esse filtro é uma transforma¸cão linear aplicada

ao sinal de voz. Considerando x[n] o sinal de voz discretizado e y[n] a sa´ıda do filtro de pr´e-ˆenfase, temos a Eq. 2.17:

y[n] = x[n] − αx[n − 1]. (2.17)

A fun¸cão de transferência do filtro de pré-ênfase, no dom´ınio da transformada Z, é

dada pela Eq. 2.18, sendo α o fator de pr´e-ˆenfase, que usualmente apresenta valores entre 0,9 e 1,0 [9]:

H(z) = 1 − αz−1. (2.18)

Após a filtragem de pré-enfase, é feita a divisão do sinal de voz em intervalos de tempo curtos (10 a 45 ms), pois podemos considerar esses trechos como estacionários [9],

com superposi¸cão de 50%. A divisão em trechos é feita a partir da multiplica¸cão do sinal de voz por uma janela no dom´ınio do tempo. As medidas realizadas serão extra´ıdas para

cada um desses trechos. Ao recortar o sinal, multiplicando o sinal por uma janela, temos efeitos prejudiciais no dom´ınio da frequˆencia, como o derramamento(leakage), que ´e o

aparecimento de componentes espectrais resultantes da convolu¸cão no espectro entre a DFT (Discrete Fourier Transform) do sinal de voz e a fun¸cão de transferência da janela.

(29)

ser aproximada pelas suas amostras(DFT). Dessa maneira utilizamos o janelamento de

Hanning, pois ´e um janelamento especial que minimiza estes efeitos. Este janelamento ´e dado pela Eq. 2.19.

h(n) =    0.56 − 0.46cos(_{N −1}2πn), 0 ≤ n ≤ N − 1 0, c.c. (2.19)

Por último, é preciso dividir o espectro em faixas (bandas) cujas frequências cen-trais são linearmente espa¸cadas na escala Mel, determinando como a energia do sinal

vocal está distribu´ıda nestas bandas. Na Figura 2.6, é descrito o processo de obten¸cão dos coeficientes mel-cepstrais utilizando um banco de filtros.

Figura 2.6: Obten¸c˜ao dos coeficientes MFCC a partir de um banco de filtros [10].

Antes de extrair esses coeficientes, o sinal de voz passa por uma etapa de pr´

e-processamento, que já foi descrita anteriormente. Após essa etapa, é calculado o qua-drado do módulo da FFT (Fast Fourier Transform). Posteriormente, os espectros dos

segmentos s˜ao submetidos ao banco de filtros triangulares. Em seguida, calcula-se o loga-ritmo da energia resultante da sa´ıda dos filtros, com a aplica¸c˜ao da DCT (Discrete Cosine

Transform) sobre os valores obtidos do c´alculo do logaritmo e chegamos aos valores dos coeficientes Mel-cepstrais.

2.3 Modelos ocultos de Markov (HMMs)

Reconhecimento de padr˜oes, incluindo o reconhecimento de voz, que obedecem as pro-priedades de Markov, podem ser descritos como processos Markovianos. Como citado

anteriormente, o modelo que iremos utilizar para a verifica¸cão de locutor é conhecido como Modelo Oculto de Markov (Hidden Markov Model - HMM). Este modelo é uma

varia¸c˜ao das Cadeias de Markov (Markov Chains - MC) e se aplica melhor ao processo de reconhecimento de voz devido ao fato de que os estados do modelo s˜ao ocultos, conforme

(30)

será explicado nesta se¸cão. Portanto, para entender o modelo é necessário compreender

as defini¸c˜oes b´asicas de uma Cadeia de Markov e de um processo Markoviano.

2.3.1 Cadeias de Markov

Uma Cadeia de Markov é uma forma de modelagem que se aplica a fenômenos estocásticos

que evoluem ao longo do tempo, assumindo estados dentro de um conjunto de estados, onde a probabilidade de transi¸c˜ao para o estado seguinte segue uma distribui¸c˜ao de

pro-babilidade que n˜ao depende da probabilidade de transi¸c˜ao dos estados imediatamente anteriores, conforme mostrado pela Eq. 2.21.

Considere uma sequência de variáveis aleatórias X0, X1, ..., Xt, onde 0 ≤ t ≤ T ,

que representa uma ordena¸c˜ao discreta no tempo, definidas para um mesmo espa¸co de

estados discreto e finito. A probabilidade conjunta dessas variáveis aleatórias é:

P (X0, X1, ..., XT) =Q_t=0T P (Xt|X0, X1, ..., Xt−1)

= P (X0)P (X1|X0)P (X2|X0, X1)...P (XT|X0, X1, X2...XT −1).

(2.20)

Um processo estoc´astico ´e dito Markoviano de grau 1 se satisfaz a seguinte

propri-edade:

P (XT|X0, X1, X2, ..., XT −1) = P (XT|XT −1). (2.21)

Para processos Markovianos(de grau 1) temos que:

P (X0, X1, ..., XT) = P (X0)P (X1|X0)P (X2|X1)P (X3|X2)...P (XT|XT −1). (2.22)

Definimos assim os processos Markovianos como aqueles para os quais a

proprie-dade de Markov é satisfeita, ou seja, a distribui¸cão de probabilidade do próximo estado depende unicamente do estado atual do sistema. Processos estocásticos Markovianos em

espa¸cos de estados discretos s˜ao chamados Cadeias de Markov, podendo esses processos ser tanto de tempo discreto como cont´ınuo.

(31)

2.3.2 Defini¸

c˜

ao

Um modelo oculto de Markov consiste em par de processos estoc´asticos[11]: uma cadeia

de Markov conforme definida na se¸cão anterior, porém agora oculta de modo que não é poss´ıvel saber diretamente em que estado espec´ıfico ela se encontra em cada instante de

tempo, e um segundo processo, que consiste em uma sequência de s´ımbolos observáveis de sa´ıda associados aos estados da cadeia oculta, através de um conjunto de distribui¸cões

de probabilidade de emissão de observáveis para cada estado, que podem ser discretas ou cont´ınuas, ou seja, os observáveis são variáveis aleatórias com dom´ınio nos estados da

cadeia de Markov.

Para exemplificar melhor o modelo pode-se fazer um paralelo com o modelo de

previsão do tempo. Nesse modelo seria como se estivéssemos presos em um quarto sem janelas e a única forma de termos conhecimento do tempo do lado de fora é através de uma

pessoa que vem todo dia vigiar para que não se saia do local. Essa informa¸cão do tempo vem através do porte, ou não, de um guarda chuva pelo vigia. Nesse caso, os estados

seriam as condi¸cões climáticas(ensolarado, chuvoso, nublado) e os observáveis seriam o vigia portar, ou não, um guarda chuva [3].

2.3.3 Terminologia

A nota¸cão usada é um dos aspectos mais importantes em HMMs, por isso vamos intro-duzir as nota¸cões utilizadas no decorrer do trabalho:

• N ´e o n´umero de estados no modelo;

• S = (s1, s2, s3, ..., sN) ´e o espa¸co de estados;

• M é o número de s´ımbolos de observa¸cão;

• Y = (y1, y2, y3, .., yM) ´e o conjunto de observ´aveis;

• T é o tamanho da sequência de observa¸cão do processo de Markov;

• Q = (q1, q2, q3, .., qT) é a variável aleatória que irá assumir valores do espa¸co de

(32)

• O = (o1, o2, o3, .., oT) é a variável aleatória que irá assumir valores do conjunto de

observ´aveis Y em diferentes instantes de tempo;

• Π = πi, tal que πi = P (q1 = si) ´e a matriz de probabilidade inicial de cada estado;

• A = aij, tal que aij = P (qt= sj|qt−1= si) ´e a matriz de probabilidade de transi¸c˜ao

entre estados;

• B = bij(k), tal que bij(k) = P (Ot= yk|qt−1 = si, qt = sj) ´e a matriz de probabilidade

de observa¸c˜ao associada a transi¸c˜oes do estado si para o estado sj ;

Para satisfazer a defini¸c˜ao de distribui¸c˜ao de probabilidade para cada estado, as matrizes A e B devem ser tais que a soma de suas linhas seja igual a um.

O modelo é definido por λ = (A, B, Π). São chamados parâmetros do modelo o conjunto de valores que o definem, onde Π é o vetor de probabilidade inicial de cada estado

da cadeia de Markov oculta, A é a matriz que define as probabilidades de transi¸cão entre esses estados e B é a matriz de probabilidade de emissão de observáveis.

2.3.4 Trˆ

es problemas fundamentais

Existem trˆes problemas fundamentais que aparecem naturalmente com os HMMs:

• Calcular a probabilidade de uma sequˆencia de observa¸c˜ao.

• Encontrar uma sequência de estado ideal, dada uma sequência de observa¸cão e o modelo.

• Ajustar os parˆametros do modelo.

Devido à importância de cada um dos problemas, faz-se necessária uma análise detalhada para a compreensão do processo. A seguir serão mostradas as solu¸cões para

cada um desses problemas.

2.3.5 Calculando P (O|λ)

O primeiro problema fundamental nos HMMs ´e calcular a probabilidade, P (O|λ), de uma

sequência observada O, dado o modelo λ. Ou seja, dado o modelo λ = (A, B, Π) e uma sequência de observa¸cões O, avaliar o quão bem o modelo prediz a sequência de observa¸cão

(33)

dada. Quando estamos no dom´ınio discreto de observa¸c˜oes essa probabilidade pode ser

chamada de verossimilhan¸ca, pois representa a probabilidade a posteriori da sequˆencia observada ter sido gerada pelo modelo.

Solu¸cão: Dada uma sequência Q = (q1, q2, ..., qT) espec´ıfica de estados é poss´ıvel

calcular a probabilidade P (Q|λ) do modelo evoluir conforme Q segundo a Eq. 2.23.

P (Q|λ) = πq1aq1q2aq2q3, ..., aqT −1qT. (2.23)

A probabilidade de O para esta sequˆencia Q ´e dada por:

P (O|Q, λ) = P (o1|q1, λ)P (o2|q2, λ), ..., P (oT|qT, λ), (2.24)

onde P (ot|qt, λ) = bqt(ot) pois os observ´aveis subsequentes s˜ao assumidos como indepen-dentes, logo temos que:

P (O|Q, λ) = bq1(o1)bq2(o2), ..., bqT(oT). (2.25)

De acordo com o teorema de Bayes,

P (O, Q|λ) = P (O|Q, λ)P (Q|λ). (2.26)

A verossimilhan¸ca com rela¸cão a O e λ será então a soma das probabilidades conjuntas de O e Q dado λ para todas as poss´ıveis sequências Q:

P (O|λ) =X

∀Q

P (O|Q, λ)P (Q|λ). (2.27)

Esse é o resultado de P (O|λ), porém esse cálculo fica computacionalmente dif´ıcil para cadeias com muitos estados. Uma solu¸cão melhor é utilizar o algoritmo foward, que

calcula a probabilidade de observa¸c˜oes parciais o1, o2, ...ot e estado qi at´e o tempo t. A

(34)

αt(i) = P (o1o2...ot, xt = qi|λ). (2.28)

E o algoritmo foward pode ser calculado recursivamente, como pode ser visto a

seguir: 1. Inicializa¸cão: α1(i) = πibi(o1), 1 ≤ i ≤ N. (2.29) 2. Indu¸cão: αt+1(j) = " _N X i=1 αt(i)aij # bj(ot+1), 1 ≤ t ≤ T − 1 e 1 ≤ j ≤ N. (2.30) 3. Finaliza¸cão: P (O|λ) = N X i=1 αT(i). (2.31)

2.3.6 Decodificando estados escondidos

O alvo desse problema é descobrir a sequência de estados escondidos que são mais prováveis de terem produzido a sequência de observa¸cão dada. Isto é, dado o modelo λ = (A, B, Π)

e a sequência de observa¸cão O, encontrar a sequência de estados ótima. Há duas maneiras de calcular essa solu¸cão: o algoritmo foward-backward e o algoritmo de Viterbi. Que serão

explicados a seguir:

Solu¸c˜ao 1: O algoritmo foward-backward encontra o estado mais prov´avel para

qualquer ponto no tempo e é análogo ao algoritmo foward mas come¸ca no último instante de tempo. Portanto, a variável de probabilidade foward pode ser definida como:

(35)

E o algoritmo backward pode ser calculado recursivamente, como pode ser visto a

seguir: 1. Inicializa¸c˜ao:

βT(i) = 1, 1 ≤ i ≤ N. (2.33) 2. Indu¸c˜ao: βt(j) = N X j=1 βt+1(j)aijbj(ot+1), T − 1 ≤ t ≤ 1 e 1 ≤ j ≤ N. (2.34) 3. Finaliza¸c˜ao: γt(i) = P (qt= si|O, λ) = αt(i)βt(i) P (O|λ) (2.35)

que nos d´a a probabilidade de come¸car em cada estado no tempo t.

Para entender γt(i) esta probabilidade inclui as probabilidades diretas cobrindo

to-dos os eventos até o momento t, bem como as probabilidades de atraso que incluem todos os eventos futuros: αt(i)βt(i). Então, dividimos pela probabilidade total da sequência de

observa¸cão, P (O|λ), para normalizar esse valor e extrair apenas a probabilidade de que qt = si. Sendo assim, pela defini¸cão de γt(i), podemos ver que o estado mais provável

no tempo t é o estado si para o qual γt(i) é máximo. Isto é, escolhemos o s´ımbolo mais

prov´avel em cada posi¸c˜ao.

Solu¸cão 2: O algoritmo de Viterbi foi proposto em 1967 e desde então é utilizado

em diversas aplica¸cões, é uma solu¸cão ótima recursiva para o problema de estimar a sequência de estados de um processo Markoviano de estado finito e tempo discreto.

Esse algoritmo calcula todas as sequências de estados poss´ıveis e opta pela mais pro-vável. Para isso, é preciso achar a sequência de estados mais provável, Q = (q1, q2, ..., qT),

dada a sequˆencia de observa¸c˜ao O = (o1, o2, ..., OT) , ou mais formalmente, maximizar

P (Q|O, λ) que ´e equivalente a maximizar P (Q, O|λ), pois ambas as opera¸c˜oes de

maxi-miza¸cão vão devolver a sequência de estados mais provável. Vamos definir agora a variável δt(i) da forma:

(36)

δt(i) = max q1,q2,...,qt−1

P [q1q2...qt−1, qt= si, o1o2, ..., ot|λ]. (2.36)

ou seja, δt(i) guarda a probabilidade do caminho (ou sequˆencia de estados) mais

prov´avel que leva ao estado si no instante t, gerando os primeiros t observ´aveis.

Por indu¸c˜ao temos:

δt+1(j) = [max

i δt(i)aij]bj(ot+1). (2.37)

Para encontrar a sequˆencia de estados ´e preciso determinar o argumento que ma-ximiza a Eq. 2.37 para cada t e j e, para isso, utiliza-se o vetor ψt(i). O procedimento

completo ´e mostrado a seguir:

1. Inicializa¸cão: δ1(i) = πibi(o1) 1 ≤ i ≤ N. (2.38) ψ1(i) = 0. (2.39) 2. Indu¸cão: δt(j) = max 1≤i≤N[δt−1(i)aij]bj(ot) 2 ≤ i ≤ N e 1 ≤ j ≤ N. (2.40) ψt(j) = [arg max 1≤i≤Nδt−1(i)aij] 2 ≤ i ≤ N e 1 ≤ j ≤ N. (2.41) 3. Finaliza¸cão: P∗ = max 1≤i≤N[δT(i)] (2.42)

(37)

q∗_T = arg max

1≤i≤N[δT(i)] (2.43)

4. Recria¸c˜ao do caminho (sequˆencia de estados):

q_t∗ = ψt+1(qt+1∗ ), t = T − 1, T − 2, ..., 1. (2.44)

2.3.7 Ajuste dos parˆ

ametros do modelo

Esse problema consiste em como ajustar os parâmetros HMM dado o conjunto de obser-va¸cões O, usando a probabilidade máxima como critério de otimiza¸cão. Isto é, reestimar

o modelo λ = (A, B, Π) inicial para encontrar um que maximize P (O|λ).

No intuito de encontrar o modelo que melhor se adequa a uma sequˆencia de

obser-va¸cão dada, para isso usaremos o algoritmo de Baum Welch, que é usado para determinar os parâmetros desconhecidos de um HMM maximizando a probabilidade da sequência de

observa¸cão dada. É importante saber que o algoritmo Baum-Welch possui um máximo local para P (O|λ), mas não garante um máximo global.

Esse algoritmo faz uso do algoritmo foward-backward, explicado anteriormente, junto com as seguintes vari´aveis temporais:

1. γt(i, j) ´e a probabilidade de estar no estado si no instante t e no estado sj no

instante t+1:

γt(i, j) = P (qt= si, qt+1= sj|O, λ) =

αt(i)aijbj(ot+1)βt+1(j)

P (O|λ) (2.45)

A soma de γt(i, j) em t pode ser interpretado como o n´umero esperado de transi¸c˜oes

do estado si para o estado sj dado os parâmetros do modelo e a sequência de observa¸cões

O.

2. γt(i), que j´a foi definido anteriormente:

γt(i) = P (qt= si|O, λ) =

αt(i)βt(i)

(38)

A soma de γt(i) em t pode ser interpretado como o n´umero esperado de vezes em

que o estado si foi visitado ou o n´umero esperado de transi¸c˜oes que tiveram origem no

estado si dado os parâmetros do modelo e a sequência de observa¸cão O.

Então, usando essas duas variáveis, nós reestimamos os parâmetros do modelo usando as seguintes defini¸cões:

1. Para i=1,...,N, temos

πi = γ1(i) (2.47)

2. Para i=1,...,N e j=1,...,N temos

aij = PT −1 t=1 γt(i, j) PT −1 t=1 γt(i) (2.48) 3. Para j=1,...,N e k=1,...,M temos bj(k) = P t∈(1,...,T ),Ot=kγt(i, j) PT t=1γt(i) (2.49)

Ent˜ao, podemos definir a reestima¸c˜ao como um processo iterativo:

1. Inicializar λ = (A, B, Π). Se n˜ao houver uma estimativa razo´avel dispon´ıvel, podemos escolher esses valores: πi ≈ 1/N, aij ≈ 1/N e bj(k) ≈ 1/M .

2. Computar αti, βt(i), γt(i, j)eγt(i).

3. Reestimar o modelo λ = (A, B, Π).

4. Se P (O|λ) crescer, repita a partir do 2 com os parˆametros novos reestimados.

Ao trabalhar com sequências extensas de observa¸cão, o processo de reestimativa explicado anteriormente não pode ser implementado do mesmo jeito, é necessário que se

fa¸ca a normaliza¸c˜ao.

A normaliza¸cão é necessária, pois αt(i) consiste na soma de um grande número

de termos, cada um dos quais envolvendo produtos de probabilidades. Como todos esses termos s˜ao inferiores a um, quando t aumenta cada termo de αt(i) come¸ca a diminuir

(39)

exponencialmente para zero, o que poderia causar problema de underflow no momento

em que a m´aquina fosse calcular esses valores.

Normaliza¸c˜ao: O procedimento de normaliza¸c˜ao consiste em multiplicar αt(i) por um

coeficiente de normaliza¸c˜ao, dependente do tempo(independente de i) e, tamb´em, fazer o

mesmo com βt(i). Para entender melhor o procedimento de normaliza¸c˜ao, vamos

consi-derar a f´ormula de reestima¸c˜ao do coeficiente aij:

aij = PT −1 t=1 γt(i, j) PT −1 t=1 γt(i) = PT −1 t=1 αt(i)aijbj(ot+1)βt+1(j) PT −1 t=1 PN j=1αt(i)aijbj(ot+1)βt+1(j) (2.50)

Considerando o c´alculo de αt(i), para cada t, primeiro calcula-se o αt(i) e depois

normaliza-se cada termo multiplicando pelo coeficiente de normaliza¸c˜ao

ct=

1 PN

i=1αt(i)

(2.51)

Ent˜ao, para um valor fixo de t, calculamos

αt(i) = N

X

j=1

( ˆαt−1(j)aij)bj(ot) (2.52)

O coeficiente normalizado ˆαt(i) ´e calculado como

ˆ αt(i) = PN j=1αˆt−1(j)aijbj(ot) PN i=1 PN j=1αˆt−1(j)aijbj(ot) (2.53)

Por indu¸c˜ao, podemos escrever ˆαt−1(j) como

ˆ αt−1(j) = ( t−1 Y T =1 cT)αt−1(j) (2.54)

(40)

ˆ αt(i) = αt(i) PN i=1αt(i) (2.55)

Uma vez que temos αt(i) normalizado, normalizamos βt(i) usando o mesmo fator de escala

para cada instante t. Consequentemente,

ˆ

βt(i) = ctβt(i) (2.56)

Então, usando os valores normalizados, a fórmula de reestima¸cão do aij torna-se

aij = PT −1 t=1 αˆt(i)aijbj(ot+1) ˆβt+1(j) PT −1 t=1 PN j=1αˆt(i)aijbj(ot+1) ˆβt+1(j) (2.57)

Mas sabendo que ˆαt(i) e ˆβt+1(j) podem ser escritos como

ˆ αt(i) = [ t Y k=1 ck]αt(i) = Ctαt(i), (2.58) ˆ βt+1(j) = [ T Y k=t+1 ck]βt+1(j) = Dt+1βt+1(j) (2.59)

A f´ormula de reestima¸c˜ao pode ser escrita como

aij = PT −1 t=1 Ctαt(i)aijbj(ot+1)Dt+1βt+1(j) PT −1 t=1 PN j=1Ctαt(i)aijbj(ot+1)Dt+1βt+1(j) (2.60)

J´a que o termo CtDt+1 ´e independente de t(CtDt+1 = CT), ele pode ser cancelado

na fórmula acima, e obteremos a mesma fórmula de reestima¸cão antes de fazer a nor-maliza¸cão. Sendo assim, todas as fórmulas de reestima¸cão permanecem válidas usando o

procedimento de normaliza¸c˜ao descrito.

A mudan¸ca mais importante é a maneira de calcular P (O|λ) quando usamos os valores normalizados. Como ˆαt(i) está normalizado, não podemos somar seus termos

para calcular P (O|λ), pois seriam obtidos valores maiores do que um. Nesse caso vamos considerar a seguinte propriedade:

(41)

T Y t=1 ct N X i=1 αT(i) = CT N X i=1 αT(i) = 1 (2.61)

Ent˜ao, temos

T Y t=1 ctP (O|λ) = 1 (2.62) e P (O|λ) = 1 T Y t=1 ct (2.63)

para evitar o underflow, usamos log[P (O|λ)] = −PT

t=1log ct.

Portanto, a medida log[P (O|λ)] = PT

t=1log ct, que ´e o logaritmo da verossimilhan¸ca da

sequência O com rela¸cão ao modelo λ, é calculável e torna-se uma medida extremamente importante para se avaliar a semelhan¸ca da sequência com o modelo.

(42)

Cap´ıtulo 3

Metodologia e implementa¸

c˜

ao

Todo o processo implementado em c´odigo neste trabalho apresenta uma metodologia para

a realiza¸cão da verifica¸cão de um locutor. Essa metodologia se mantém para qualquer altera¸cão realizada no trabalho com o fim de melhorar o desempenho no programa. Ela

apresenta três etapas básicas: a aquisi¸cão de dados a partir dos áudios do locutor; o treinamento de um modelo para o locutor de interesse; e a realiza¸cão de testes para

verifica¸c˜ao da autenticidade do locutor.

Para o primeiro passo, ´e necess´ario que o locutor de interesse possua uma base de

´

audios contendo a pronúncia de uma certa palavra-chave que será usada para a verifica¸cão. Desses áudios, serão extra´ıdos alguns dados que são caracter´ısticos do locutor de interesse

de forma a diferenciá-lo de um poss´ıvel locutor impostor. Esses dados podem ser divididos em coeficientes cepstrais na escala Mel (MFCC), parâmetros de frequência extra´ıdos do

sinal glotal e parâmetros de tempo extra´ıdos do sinal glotal. Como citado anteriormente, os MFCCs são os coeficientes mais usados na análise da voz e são os parâmetros base do

trabalho proposto. Será mostrado a melhora nos resultados ao se adicionar os parâmetros relativos ao tempo do sinal glotal para melhorar a verifica¸cão, pois os parâmetros de

frequˆencia j´a haviam sido explorados no trabalho anterior [3].

Após coletar os dados relativos aos áudios, é necessário treinar um modelo para

o locutor de interesse. A modelagem estocástica seguiu os Modelos Ocultos de Markov (HMMs), pois eles se adaptam bem ao processo de verifica¸cão de locutor. Conforme já

apresentado no Cap´ıtulo 2, o HMM é uma Cadeia de Markov onde os estados do modelo são ocultos. Dessa forma, o modelo é constru´ıdo a partir dos observáveis que, no caso

(43)

ser os MFCCs, os parâmetros de frequência e os parâmetros de tempo. Dessa forma, o

algoritmo utilizado para encontrar uma HMM espec´ıfica considera esses observ´aveis e, a cada conjunto deles, converge para um modelo espec´ıfico para o locutor de interesse.

Quanto mais diversas forem as situa¸cões em que os áudios forem gravados, melhor será a verifica¸cão. Isso se deve ao fato de que se os áudios apresentarem variadas situa¸cões

em que o locutor se encontra, o modelo conseguirá distinguir quais caracter´ısticas são intr´ınsecas ao locutor e quais são variáveis dependendo da situa¸cão.

Após ter obtido o modelo com o treinamento, é poss´ıvel realizar a verifica¸cão, ou seja, é poss´ıvel decidir se um novo áudio pertence ao locutor de interesse ou pertence a

um locutor impostor. Para esse novo locutor, também são extra´ıdos os mesmos dados usados para o treinamento do modelo. A partir desses dados e do modelo já treinado,

é usado o algoritmo para o cálculo do logaritmo da verossimilhan¸ca (definido na Eq. 2.27) que é uma medida do quão próximo esses novos dados estão do modelo treinado.

Quanto maior a verossimilhan¸ca, mais pr´oximo eles est˜ao do modelo, indicando que o ´

audio provavelmente pertence ao locutor de interesse. Caso contr´ario, indicar´a que o

´

audio pertence a um locutor impostor. Como o valor de verossimilhan¸ca geralmente é muito pequeno, a análise é feita a partir do seu logaritmo e o critério de decisão é baseado

em um limiar preestabelecido que servirá como referência para a decisão. Caso o logaritmo da verossimilhan¸ca seja maior do que o limiar, o programa verificará que o áudio testado

realmente pertence ao locutor de interesse, e caso o contr´ario, ele ser´a do locutor impostor.

3.1 Estrutura geral do c´

odigo

Como este trabalho consiste na continua¸cão de um trabalho anterior [3], é necessário

enfatizar as mudan¸cas realizadas neste projeto em compara¸c˜ao com o que j´a foi feito. ´

E importante explicar a estrutura geral do c´odigo de onde foi iniciado o projeto para

entendermos as mudan¸cas aplicadas que geraram os avan¸cos na verifica¸cão do locutor. Seguindo a lógica apresentada no in´ıcio do cap´ıtulo, o código inicialmente foi dividido em

algumas partes: leitura dos áudios e extra¸cão dos dados referentes ao locutor de interesse; treinamento do modelo HMM e testes com os áudios do locutor de interesse; leitura e

extra¸cão dos dados referente aos áudios dos locutores impostores; e testes com os áudios dos locutores impostores. Essa se¸cão, portanto, destina-se a explicar essa estrutura do

(44)

c´odigo e, para isso, ´e importante dizer que todos os algoritmos foram implementados em

MATLAB[12]. Os códigos estão disponibilizados no Apêndice.

A parte de leitura dos ´audios referentes ao locutor de interesse ´e realizada a partir

de um processo iterativo onde cada itera¸cão irá considerar um áudio do locutor de interesse e extrair seus parâmetros. No caso desse trabalho, foram lidos 200 áudios, onde 160 são

para o treinamento do HMM e 40 para os testes referentes ao locutor de interesse. No in´ıcio de cada itera¸cão, é criado um vetor com as caracter´ısticas extra´ıdas. Em seguida, é

feito um recorte dos momentos de silêncio do sinal, pois o silêncio não carrega informa¸cão e aumenta a carga computacional. Esses momentos de silêncio são os trechos no in´ıcio e no

fim do áudio onde o locutor permanece um tempo sem emitir nenhum som e consistem no instante em que é iniciada a grava¸cão e demora um tempo até come¸car a fala propriamente

dita e, depois, quando ela termina at´e encerrar a grava¸c˜ao. O algoritmo usado nessa parte relaciona a energia do sinal de fala e a taxa de cruzamento de zeros num curto intervalo

de tempo [9] [13].

A extra¸cão dos parâmetros é toda realizada através de uma mesma fun¸cão e tem

como sa´ıda um vetor contendo os parˆametros. A primeira parte do vetor corresponde aos MFCCs extra´ıdos. Em seguida, o sinal glotal ´e obtido do sinal de voz, por filtragem

inversa(IAIF) e, então, parâmetros são extra´ıdos do sinal glotal para completar o vetor. O pacote voicebox do MATLAB é usado para extrair a frequência fundamental do sinal,

através da fun¸cão fxrapt [14]. Com a frequência fundamental de cada ciclo, o per´ıodo pode ser determinado através da rela¸cão:

T = 1

f0

, (3.1)

onde f0é a frequência fundamental e T é o per´ıodo do ciclo. Dado o per´ıodo

funda-mental, o programa calcula os parâmetros de jitter, shimmer e parâmetros de frequência, conforme são mostrados nas se¸cões 2.1.2 e 2.1.4. Para calcular esses parâmetros, o sinal

de voz e o sinal glotal são divididos em trechos que serão analisados individualmente. Se o código utilizar um conjunto de N parâmetros, o resultado da análise será um vetor de

comprimento N, onde cada elemento ´e o valor de um parˆametro.

Ao término do cálculo, os parâmetros são incorporados a uma matriz denominada

dados. Essa matriz contém todos os dados calculados de todos os áudios e é passada para o HMM que utiliza o algoritmo de Baum-Welch e é implementado pelo Hidden Markov

(45)

Model (HMM) Toolbox for Matlab [15]. Para cada ´audio, s˜ao calculados os logaritmos

da verossimilhan¸ca a partir da fun¸cão denominada de mhmm logprob e são armazenados em um vetor chamado de alllog. Esse é o vetor referente às probabilidades do locutor

de interesse. Cerca de 80% dos áudios são usados para treino do modelo e 20% para testes, conforme dito anteriormente. As porcentagens foram decididas após vários testes

de acordo com o trabalho anterior [3].

Para os testes com os ´audios dos locutores impostores, repetimos o mesmo

procedi-mento. Primeiramente, é implementada uma estrutura de repeti¸cão onde cada repeti¸cão analisa um áudio individualmente. Cada áudio é convertido em um vetor a ser passado

para a fun¸cão parametros para o cálculo dos MFCCs e dos outros parâmetros. A partir desses dados, é calculado o logaritmo da verossimilhan¸ca. Para análise dos resultados,

calcula-se o coeficiente L1(distˆancia entre as fun¸c˜oes densidade de probabilidade) a partir

das fun¸c˜oes densidade de probabilidade dos logaritmos das verossimilhan¸cas. O c´alculo

do coeficiente L1 será melhor explicado na próxima se¸cão.

Por último, calculam-se os limiares e a decisão sobre a autenticidade do áudio.

Neste código, são calculados 3 limiares distintos que terão seus desempenhos analisados para decidir qual está mais próximo do limiar de decisão ideal e seus cálculos também serão

apresentados na próxima se¸cão. Tendo o valor desses limiares, o código realiza a decisão. Para todos os áudios analisados, o programa nos diz a quantidade de falsos positivos

e falsos negativos que ficam armazenados em duas matrizes de dados denominadas de ErroFP e ErroFN. Esses valores de erros ser˜ao a base para a an´alise dos resultados que

ser´a apresentada no Cap´ıtulo 4.

3.2 Crit´

erios de decis˜

ao

Para a verifica¸c˜ao do locutor, deve ser tomada uma decis˜ao sobre a sua identidade, a

partir de algum critério. Este é baseado em um limiar de verossimilhan¸ca de forma que se o resultado obtido for maior ou menor do que o limiar obtido na análise, o programa

decidirá se o indiv´ıduo é o locutor de interesse ou um locutor impostor. Portanto, quando o áudio analisado for do locutor de interesse, o valor do logaritmo da verossimilhan¸ca

tende a ser mais alto, e quando o ´audio analisado for de um locutor impostor, o valor tende a ser mais baixo. Isso ocorre pois o logaritmo da verossimilhan¸ca ´e a medida que

(46)

determina o quão próxima uma sequência de observáveis está do modelo e é necessário que

seja escolhido um limiar adequado para o problema apresentado. Intuitivamente, o limiar deveria ser um valor menor do que a verossimilhan¸ca dos ´audios do locutor de interesse

e maior do a verossimilhan¸ca dos áudios dos locutores impostores. O grande desafio deste problema é que os resultados não são determin´ısticos, podendo ser influenciados por

diversas caracter´ısticas e fatores. Portanto, é essencial que o melhor limiar seja escolhido para que possa ser feita a verifica¸cão de forma a minimizar os erros de decisão. Nesta se¸cão,

serão apresentados os cálculos dos três limiares utilizados no trabalho e um coeficiente que nos auxiliará na avalia¸cão dos resultados. Esses limiares foram utilizados por Schueler e

Silveira[3] no caso de vogais e, agora, conseguimos mostrar sua validade para palavras.

3.2.1 Coeficiente L

1

O critério do coeficiente L1 é usado essencialmente para a avalia¸cão de resultados com uma grande quantidade de áudios para determinar seu valor de forma coerente. Ele baseia-se

no uso direto da curva de referência e das curvas de teste dos locutores impostores e do locutor de interesse. Essas curvas são as fun¸cões densidade de probabilidade ajustadas

pelas medidas de logaritmo de verossimilhan¸ca de diversos ´audios de testes do locutor de

interesse e dos locutores impostores.

Figura 3.1: Locutor impostor a esquerda e locutor de interesse a direita

Seu valor é dado pelo cálculo da integral do módulo diferen¸ca das fun¸cões, ou seja,

a distˆancia entre elas, conforme mostra a Eq. 3.2.

L1 = 1 2 Z ∞ −∞ |fX1 − fX2| dx 0 ≤ L1 ≤ 1, (3.2)

onde fX1 e fX2 são as fun¸cões densidade de probabilidade dos logaritmos das ve-rossimilhan¸cas. Quanto maior o coeficiente sabemos que menos parecido o áudio teste é

(47)

em rela¸c˜ao ao verdadeiro locutor. Pode ser observado na Fig. 3.1, como exemplo, onde a

curva azul representa o locutor de teste e a vermelha o locutor que gerou a base.

3.2.2 Limiar 1

O cálculo do limiar 1 é feito através da curva de referência, gerada pelos áudios do locutor

que treinou a base, o de interesse, e da curva de teste, feita através dos áudios do locutor impostor. Essa curva de teste, diferentemente das curvas de teste tratadas até aqui,

é gerada a partir de um conjunto de áudios-teste pertencentes a um grupo misto de locutores impostores. O seu valor é escolhido como a abscissa do ponto onde as curvas se

encontram, entre os seus m´aximos, como mostrado na Fig. 3.2.

Figura 3.2: Determina¸cão do limiar pela interse¸cão dos gráficos da densidade de probabi-lidade dos logaritmos das verossimilhan¸cas [3].

Como o limiar 1 se encontra no eixo das abscissas em rela¸cão à área de interse¸cão sob as curvas, é intuitivo que ele tenda a equilibrar a quantidade de resultados falsos

po-sitivos e falsos negativos, ou seja, o resultado de aceita¸cão do áudio sendo ele do locutor impostor e resultado de rejei¸cão do áudio sendo ele do locutor de interesse,

respectiva-mente. Por causa disso, para aplica¸c˜oes mais cr´ıticas em que a taxa de falsos positivos tem que ser baixa, o limiar 1 talvez n˜ao seja a melhor escolha. Esse limiar foi criado pela

Schueler e Silveira [3].

3.2.3 Limiar 2

O limiar 2 [16] se baseia em estat´ısticas para buscar um melhor resultado na decis˜ao. Seu

(48)

referência e a curva de teste. Para o cálculo é usado os valores de média e o desvio padrão

dos dados. Esse limiar ´e calculado segundo a Eq. 3.3:

Limiar 2 = σ1µ2− σ2µ1 σ1σ2

, (3.3)

onde σ1 e µ1 s˜ao, respectivamente, a m´edia e o desvio do grupo de medidas que

geraram a curva de referência, enquanto σ2 e µ2 são, respectivamente, a média e o desvio

do grupo de medidas que geraram a curva de teste.

3.2.4 Limiar 3

Para calcular o limiar 3 [17] serão utilizados três parâmetros, são eles a taxa de falsa

aceita¸c˜ao (False Acceptance Rate - FAR), a taxa de falsa rejei¸c˜ao (False Rejection Rate - FRR) e o valor de igualdade de erro (Equal Error Rate - EER). O FAR mede a

por-centagem de áudios dos locutores impostores que são aceitos como se fossem do locutor de interesse que treinou a base, já o FRR mede a porcentagem de áudios do locutor de

interesse que s˜ao recusados pelo mesmo sistema.

Para calcular essas medidas primeiramente ´e feita uma sugest˜ao de faixa de valores

poss´ıveis para o limiar e para esse valores calcula-se o FAR e o FRR, dados pelas Eq. 3.4 e 3.5. O valor do limiar 3 é definido através da abscissa do ponto de interse¸cão das curvas,

ponto EER, mostrado na Fig. 3.3. Dessa forma, ´e escolhido o valor que garante o menor par de FAR e FRR.

F AR = N ´umero de ´audios dos locutores impostores aceitos

N úmero de tentativa de acesso dos impostores × 100% (3.4) F RR = N úmero de áudios dos locutor de interesse recusados

N ´umero de acessos do locutor de interesse × 100% (3.5)

3.3 Parˆ

ametros de tempo em sequˆ

encia de vogais

A primeira altera¸cão feita para aperfei¸coar o código e melhorar a verifica¸cão de locutor

foi a inser¸cão de parâmetros de tempo para áudios que são sequências de vogais. Dando continua¸cão ao trabalho anterior que já realizava a verifica¸cão com base em sequência

de vogais, foi decidido implementar mais observáveis ao modelo para tentar melhorar o reconhecimento, ou seja, causar uma diminui¸cão nos erros de decisão.