• Nenhum resultado encontrado

Considerações sobre a escolha do método de estimativa de pitch

4.3 ESTIMAÇÃO DA FREQUENCIA FUNDAMENTAL

4.3.1 Considerações sobre a escolha do método de estimativa de pitch

Dentre os algoritmos de detecção de pitch no domínio do tempo, os que foram estudados neste trabalho são baseados na função de autocorrelação do sinal. Exploram o fato de que valores mais altos da função de autocorrelação indicam a presença de segmentos vozeados (ou sonoros), onde ocorre uma maior concentração de energia, com predominância das baixas frequências. Nos sons surdos e nos ruídos de fundo, a função de autocorrelação possui valores menores.

A energia do sinal é um parâmetro muito utilizado para decisão se um segmento é ou não sonoro. Por outro lado, a função de autocorrelação pode ser igualmente utilizada para descartar os segmentos de silêncio. Os limiares que definem se uma janela é ou não sonora, normalmente são escolhidos ajustando-se os seus valores em função do ruído ambiental e da qualidade do microfone, durante a captação do sinal de voz. Ou seja, grava-se um trecho de voz no ambiente de aplicação e identificam-se os quadros de silêncio, sonoros e surdos. Calcula-se a média de várias medidas nestes trechos (energia, autocorrelação e taxa de cruzamento por zeros, entre outros) e estabelecem-se os limiares.

Os sinais vozeados tem uma periodicidade que se traduz por uma “discretização” no domínio da frequência, em harmônicas da frequência fundamental. Os métodos mais utilizados no domínio da frequência baseiam-se na quebra do sinal vozeado em pequenos segmentos, constituindo-se em um janelamento e aplicando-se a transformada rápida de Fourier (STFT) (SONDHI, 1968). Se o sinal é periódico, a transformada de Fourier mostrará picos nos múltiplos da frequência fundamental. O cepstrum é definido como a transformada inversa de Fourier do espectro do sinal, na forma logarítmica. Ou seja, ao sinal original no tempo é aplicada a transformada de Fourier e, em seguida, o espectro é convertido para uma escala logarítmica. Por último, é aplicada a transformada inversa de Fourier.

O cepstrum contém harmônicos da frequência fundamental. Valores baixos de

quefrequecy representam a forma do trato vocal e valores altos representam a excitação, que

são os sons vozeados. Como na autocorrelação, o cepstrum é utilizado em janelas consideradas estacionárias. Após a determinação do valor dos coeficientes do cepstrum, o pitch da janela é extraído, por meio de uma comparação com um valor limiar (NOLL, 1967). Se o valor do pico do cepstrum calculado exceder ao valor limiar, o sinal é definido como vozeado e o valor do período de pitch é dado pela posição do pico. Caso contrário, o sinal é definido como não vozeado.

Neste trabalho, foram avaliados quatro algoritmos para estimativa da frequência fundamental. Na Tabela 4.3 são apresentados os resultados desta avaliação. Os sinais testados são sinais de voz gravados através do microfone do notebook. Também foram captados sinais senoidais puros para aferição e testes dos algoritmos, utilizando-se um gerador de sinais conectado à entrada de áudio do notebook. Nestes testes, foram captados dois segundos do sinal, gravados em arquivo.

Os algoritmos foram utilizados em todos os arquivos. O método1 utiliza autocorrelação, o método2 utiliza a estimação pelo cepstrum, o método3 utiliza a autocorrelação do sinal resídual da LPC e o método 4 utiliza a função NCCF. Além dos valores da estimativa de pitch, foi calculado também o tempo de resposta de cada algoritmo. 

O primeiro método (método1) para estimativa de pitch é o de autocorrelação com

center-clipping. Este método é uma variação do método de autocorrelação comum no domínio

do tempo, onde se estabelece um valor limiar para o vetor de autocorrelação, objetivando classificar se o segmento se é ou não vozeado (SONDHI, 1968). Se vozeado, o valor do pitch do segmento é estimado por meio da localizado da posição do valor máximo (LOIZOU, 2007).

O segundo método (método2), cepstrum, contém harmônicos da frequência fundamental. Os valores menores representam a forma do trato vocal e os valores maiores representam a excitação. Se o valor de pico do cepstrum exceder a um limiar, o segmento é considerado vozeado e o período de pitch é determinado pela localização deste pico (NOLL, 1967). Os dois primeiros métodos citados estão implementados na ferramenta COLEA (LOIZOU, 2003), de domínio público, disponível para ambiente Matlab®.

O terceiro método (método3) utiliza os coeficientes da função de autocorrelação do resíduo do erro da análise LPC do sinal. Este método também utiliza a avaliação da energia segmental para auxiliar na identificação dos segmentos vozeados (MARKEL, 1976; DURBIN, 1959).

O quarto método (método4) implementa a função conhecida como NCCF (Normalised Cross-correlation Function) (RAGHRAM, 2002). Trata-se de um método similar ao primeiro, porém, mais preciso, embora com um custo computacional mais elevado.

Para cada voluntário, foram gravados 3s do sinal de voz captando-se a pronúncia da vogal sustentada “a” e outros 3s do sinal de voz onde o voluntário pronunciava a frase “Brasil, o país do futebol”. A Tabela 4.3 apresenta o resultado dos testes dos algoritmos. Na coluna 1 é apresentado o nome de cada arquivo testado. Os nomes com final “a” referem-se aos arquivos decorrentes da gravação de 3s do sinal de voz da vogal sustentada “a”. Os nomes com final “b” referem-se à gravação da sentença. O número que aparece no nome do arquivo refere-se à idade da pessoa. Pelos resultados da estimativa dos valores de pitch, podemos identificar o sexo da pessoa, no caso de adulto. Para cada método são apresentados o valor da estimativa da frequência fundamental e o tempo de processamento.

Após avaliação dos resultados comparativos entre as performances dos métodos utilizados, o quarto método foi o primeiro a ser descartado, considerando-se principalmente que o mesmo apresentou o maior tempo de processamento. O primeiro método foi descartado por possuir a maior taxa de erro de estimativa. A escolha final ficou entre os métodos 2 e 3. O método 2 é mais rápido, porém possui maior taxa de erro de estimativa, em particular para frequências mais altas.

A escolha, então, recaiu sobre o método 3, que é baseado em DELLER et al. (1993; 2000) e Markel (1972; 1976), onde a estimativa de pitch é obtida por meio da filtragem inversa do sinal do erro de predição de LPC (RIBEIRO, 2005).



Tabela43Algoritmosavaliadosparaextraçãodepitch

Arquivo sinal método1 método2 método3 método4 Hz s Hz s Hz s Hz s

104Hz Tom senoidal 208 0,79 103,5 0,28 103,8 2,33 104 12,11

205hz Tom senoidal 408,3 0,59 203,2 0,24 204,2 2,24 205,1 10,52

306hz Tom senoidal 604,1 0,56 302,1 0,22 304,1 2,22 306,3 10,41

430hz Tom senoidal 428,2 0,58 213 0,23 428,2 2,19 432,4 10,56

adri-26a Vogal “a” 114 0,82 113,7 0,33 114 3,38 114,2 17,19

adri-26b sentença 137,4 0,82 118,2 0,33 149,2 3,37 127,1 15,74

alan-25a Vogal “a” 113,4 0,83 113,1 0,34 113,2 3,38 113,7 15,8

alan-25b sentença 135,7 0,84 118,5 0,33 139,3 3,36 129,3 16,22

alana-22a Vogal “a” 239,7 0,88 237,1 0,35 239,7 3,33 241 15,5

alana-22b sentença 241 0,86 169,6 0,37 231,5 3,49 219,4 15,54

camila-21a Vogal “a” 179,3 0,83 178,5 0,34 179,3 3,35 180 16,48

camila-21b sentença 171,6 0,86 126,7 0,35 183 3,37 156,4 15,77

cam1-23a Vogal “a” 190,9 0,83 190,1 0,33 190,9 3,36 191,7 15,96

cam1-23b sentença 190,1 0,82 178,5 0,33 202,3 3,36 197,8 15,76

crist-26a Vogal “a” 96,1 0,81 95,1 0,33 95,7 3,36 95,7 15,7

crist-26b sentença 109,2 0,82 109,4 0,35 108,9 3,34 104,9 15,85

eline-26a Vogal “a” 212 0,82 212 0,34 213 3,34 214,1 17,43

eline-26b sentença 215,1 0,84 91,1 0,33 198,7 3,37 67,8 15,39

eloa-22a Vogal “a” 190,1 0,82 189,3 0,34 190,1 3,35 190,9 15,65

eloa-22b sentença 209 0,83 120,8 0,33 202,3 3,34 213 16,13

georg-28a Vogal “a” 216,2 0,87 215,1 0,35 216,2 3,34 217,2 15,85

georg-28b sentença 206,1 0,83 179,3 0,33 209,5 3,33 206,1 16,73

guri-23a Vogal “a” 134 0,86 133,6 0,36 134,5 3,35 134,5 15,95

guri-23b sentença 441 0,82 128,6 0,33 182,4 3,34 141,8 16,21

ilam-23a Vogal “a” 61,2 0,85 180 0,35 181,5 3,34 181,5 15,97

ilam-23b sentença 203,2 0,83 111,4 0,33 196,9 3,36 202,8 15,58

ilton-51a Vogal “a” 86,1 0,82 85,8 0,35 86 3,35 86,1 16,21

ilton-51b sentença 122 0,81 101,1 0,33 119,2 3,36 97,2 15,73

jerre-20a Vogal “a” 130,5 0,81 131,6 0,34 132,8 3,35 132,8 18,05

jerre-20b sentença 141,1 0,86 125,3 0,35 188,4 3,33 128,2 16,33 manu-18a Vogal “a” 102,3 0,86 196,9 0,36 198,6 3,34 198,6 15,89

manu-18b sentença 208 0,77 95,2 0,33 69,9 3,37 60,2 15,36

prisc-21a Vogal “a” 79,6 0,84 187,7 0,34 202,3 3,39 202,3 15,93

prisc-21b sentença 196 0,83 138,7 0,34 173,6 3,36 164,9 15,8

robs-27a Vogal “a” 98,2 0,87 97,8 0,35 98 3,34 98 15,41

robs-27b sentença 125,6 0,83 118,5 0,33 147,5 3,35 123 16,57

sabi-43a Vogal “a” 109,7 0,87 109,2 0,35 110 3,34 110 15,78

sabi-43b sentença 119,5 0,83 119,2 0,33 122,3 3,36 119,5 15,58

sula1-31a Vogal “a” 214,1 0,83 214,1 0,33 215,1 3,35 216,2 15,7

sula1-31b sentença 187,3 0,84 187,7 0,33 188,5 3,37 154,2 15,88

thais-20a Vogal “a” 69,6 0,84 205,1 0,34 408,3 3,43 208 17,39

thais-20b sentença 132,8 0,82 197,8 0,33 222,2 3,34 111,6 15,6

thiago_25a Vogal “a” 98,2 0,78 98,4 0,33 98,2 3,34 98,3 16,19

thiago_25b sentença 173,4 0,82 100,9 0,33 237,7 3,35 102,1 15,51

tom-20a Vogal “a” 109,7 0,82 109,4 0,34 109,7 3,36 110 15,71