• Nenhum resultado encontrado

CAPÍTULO 2 Processamento Digital de Sinais de Voz

2.5 Pré-processamento Digital de sinais de voz

Após a aquisição e digitalização do sinal de voz, é realizado o pré-processamento nas amostras, a fim de prepará-las para a extração de seus parâmetros e/ou características. Tais parâmetros e/ou características são utilizados no algoritmo de reconhecimento de padrões. O pré-processamento, realizado neste trabalho, inclui as etapas de pré-ênfase, segmentação e janelamento.

2.5.1 Pré-ênfase

Conforme discussão apresentada na Seção 2.2, a voz produzida pelo aparelho fonador humano sofre perdas durante sua passagem pelo trato vocal, inclusive na sua radiação através dos lábios. A distorção provocada pelos lábios produz uma queda na envoltória espectral de, aproximadamente, 6dB/oitava. Uma vez que o sinal de voz apresenta baixas amplitudes nas altas freqüências, essa tendência as torna especialmente vulneráveis ao ruído, comprometendo o processo de reconhecimento.

Para solucionar esse problema é aplicado um filtro, de resposta aproximadamente +6dB/oitava, que ocasiona um nivelamento no espectro [Petry 2000]. A esse processo de tratamento do sinal de voz, dá-se o nome de pré-ênfase.

A função de transferência da pré-ênfase consiste de um sistema de primeira ordem fixo, cuja função é dada por:

H(z) = 1 − a.z−1 , 0 ≤ a ≤ 1 (2.3)

Neste caso, a saída da pré-ênfase sp(n) está relacionada à entrada s(n) pela equação

diferença [Petry 2000]: sp(n) = s(n) – α.s(n-1) (2.4) Sendo: sp(n) – amostra pré-enfatizada; s(n) – amostra original; α – fator de pré-ênfase, 0,9 ≤ α ≤ 1.

Um valor típico usado é α = 0.95, o que significa 20 dB de amplificação para as mais altas freqüências [Da Cunha 2003]. Na Figura 2.8, é ilustrado o processo de pré-ênfase para a palavra “aplausos”.

Figura 2.8 – Palavra "aplausos" – (a) Antes da Pré-ênfase e (b) seu espectro (c) após a Pré-Ênfase e (d) seu espectro.

Analisando-se a Figura 2.8, é possível observar que, após a pré-ênfase, as amostras de

freqüências mais baixas sofrem uma atenuação, enquanto as de freqüências mais altas, especialmente acima de 4 kHz, têm um ganho de amplitude.

Quando a porção do sinal analisado corresponde a um som fricativo como, por exemplo, /s/ ou /f/, a pré-ênfase produz um sinal que se aproxima, geralmente, do som original com uma distorção muito pequena. Isto ocorre, devido ao fato desses sons apresentarem, basicamente, componentes de alta freqüência. Por outro lado, muitos fonemas não possuem uma concentração significativa de energia nas altas freqüências [Shaughnessy 1995]. A característica básica desses tipos de fonemas é a posição das três primeiras formantes, geralmente abaixo de 4 kHz. Considerando que a pré-ênfase reforça as amostras de alta freqüência, um aumento excessivo da energia acima de 6 kHz pode introduzir uma alteração nos parâmetros espectrais, o que pode comprometer a taxa de reconhecimento [Shaughnessy 1995].

2.5.2 Segmentação e Janelamento

Um sinal é dito estacionário quando suas características estatísticas não variam com o tempo [Lathi 1998]. A segmentação consiste em particionar o sinal de voz em segmentos, selecionados por janelas ou quadros (frames) de duração perfeitamente definida. O tamanho desses segmentos é escolhido dentro dos limites de estacionariedade do sinal (duração média de 16 a 32 ms) [Rabiner 1978, Shaughnessy 2000].

Os tipos de janelas normalmente utilizados são [Rabiner 1978, Deller 1993, Shaughnessy 2000]:

• Janela Retangular – o sinal é simplesmente particionado em blocos consecutivos de mesmo tamanho. Sua equação é dada por:

{

1 , 0 ≤ n ≤ NA – 1

0 , caso contrário J(n) =

• Janela de Hamming – proporciona a manutenção das características espectrais do centro do quadro e a eliminação das transições abruptas das extremidades. Sua equação é dada por:

{

0,54 – 0,46cos[2πn/(NA - 1)] , 0 ≤ n ≤ NA – 1

0 , caso contrário J(n) =

• Janela de Hanning – assemelha-se à janela de Hamming, porém gera um reforço menor nas amostras do centro e uma suavização maior nas amostras da

{

2acos[πn/NA] + b , 0 ≤ n ≤ NA – 1

0 , caso contrário J(n) =

Sendo 2a + b = 1 (0 ≤ a ≤ 0,25 , 0,5 ≤ b ≤ 1)

Na Figura 2.9, são apresentadas as janelas Retangular, de Hanning e de Hamming e suas respectivas respostas em freqüência. Como se pode observar, o lobo principal da janela retangular é aproximadamente a metade do lobo principal das janelas de Hamming e Hanning, enquanto os lobos secundários dessas últimas são bem menores que os da retangular. O primeiro lobo secundário da janela de Hanning é aproximadamente 20 dB maior do que o da de Hamming, mas os lobos seguintes diminuem mais rapidamente do que os da janela de

Hamming.

Figura 2.9 – Janelas de Hamming, Hanning e Retangular com suas respostas em freqüência [Lee 2005].

A escolha da janela a ser utilizada é uma questão de avaliação da relação custo- benefício entre um lobo principal estreito e lobos secundários pequenos. Um lobo principal

estreito melhora a resolução da freqüência, o que permite que componentes estreitos muito próximos sejam separados. No caso da janela retangular, no entanto, esse lobo principal estreito vem seguido de lobos secundários altos, o que adiciona uma aparência ruidosa ao sinal, devido à interferência de harmônicos adjacentes, dificultando a discriminação de componentes de baixa amplitude. Já nas janelas de Hamming e Hanning os lobos secundários menores permitem uma melhor detecção desses componentes.

A janela de Hamming apresenta, porém, uma característica nem sempre desejável, que corresponde à atribuição de um peso muito baixo às amostras da extremidade. Entretanto, estas amostras podem representar eventos importantes de curta duração do sinal de voz e multiplicá-las por um peso baixo representa pouca atenção no processamento subseqüente realizado no nível de blocos. Para assegurar que a tais eventos seja dado o peso necessário, blocos adjacentes são sobrepostos de modo que um evento seja “coberto” por outros blocos. Muitos trabalhos utilizam uma sobreposição de 50% [Dias 2000, Andreao 2001]. Outra justificativa para a sobreposição das janelas é que esta proporciona uma variação mais gradual dos parâmetros entre janelas sucessivas [Petry 2000, Picone 1993].

Para o contexto da produção da voz, as características apresentadas, referentes ao janelamento de Hamming, mostram que este tipo de janela é, portanto, mais eficiente, quando comparada às janelas Retangular e de Hanning, com uma boa aproximação da janela ideal. Assim sendo, essa foi a janela utilizada neste trabalho. Na Figura 2.10, é ilustrado o resultado das funções de pré-ênfase e janelamento na palavra “bola”.

(a) (b)

(c)

Documentos relacionados