• Nenhum resultado encontrado

Elementos Importantes na Aquisição do Sinal de Fala 1 Câmara Insonorizada

RECOLHA DO SINAL DE FALA

3.2 Elementos Importantes na Aquisição do Sinal de Fala 1 Câmara Insonorizada

Para evitar fenómenos de outras fontes de ruído e de reverberação o sinal deve ser recolhido numa câmara insonorizada. Esta câmara deve ter o menor número possível de pontos de contacto com o exterior, uma só porta isolada acusticamente que se deve manter fechada durante a aquisição. A câmara deve ser revestida de materiais que absorvem as ondas sonoras evitando assim a reflexão das ondas acústicas, que provocaria modificação das formas de onda recolhidas.

3.2.2 Microfone

Apesar dos cuidados a ter com a câmara insonorizada para que não apareçam reverberações, estas podem estar presentes por alguma deficiência da câmara por algum elemento no interior desta que reflicta as ondas sonoras ou ainda pelo facto de as ondas sonoras não serem completamente absorvidas pelo material que reveste a câmara. Assim será de grande importância que o microfone usado seja tanto quanto possível unidireccional, isto é, que a atenuação das ondas sonoras vindas da frente do microfone seja mínima e a atenuação das ondas que aparecem pelos lados e por trás do microfone seja grande. Neste caso acentua-se a importância de o falante se colocar numa posição estável em frente do microfone. É ainda essencial que o microfone tenha características de linearidade na gama de frequências desde sensivelmente os 20 Hz até aos 20 Khz para que não haja distorção de nenhuma componente espectral do sinal.

3.2.3 Pré-amplificador

Este elemento também necessário no sistema de recolha deverá ter uma característica também linear na mesma gama de frequências do microfone pelas mesmas razões. Será desejável também uma relação sinal ruído não inferior a 55 dB.

3.2.4 Filtro Anti-Aliasing

Na conversão do sinal analógico com valores contínuos no tempo para sinal digital com valores discretos no tempo por processo de amostragem é necessário evitar fenómenos de aliasing.

O teorema da amostragem diz-nos que se deve amostrar o sinal a uma frequência (Fs) superior a duas vezes a maior componente espectral do sinal para evitar o fenómeno de aliasing que se caracteriza pela distorção do sinal original pela dobragem das componentes espectrais do sinal superiores a metade da frequência de amostragem (frequência de Nyquist Fn) em componentes inferiores a esta frequência.

Por exemplo um sinal amostrado com Fs=10 Khz sendo Fn=5 Khz deve ter componentes espectrais nulas acima de Fn, porque por exemplo, uma componente de 6 Khz aparece sobreposta à componente de 4 Khz, a componente de 7 Khz sobrepõem-se à componente de 3 Khz acontecendo o mesmo para todas as componentes acima de Fn.

Este fenómeno pode-se evitar por dois procedimentos diferentes:

- Aumentando a frequência de amostragem para o dobro da maior componente espectral do sinal a amostrar.

- Passando o sinal por um filtro anti-aliasing. Este é um filtro passa baixo com uma frequência de corte igual à frequência de Nyquist. Esta deve ser a máxima frequência do sinal que interessa preservar.

O primeiro processo é inconveniente por não ser conhecido à partida a máxima componente espectral do sinal. Por outro lado pode levar a frequências de amostragem muito elevadas obrigando a um número exagerado de amostras tornando demasiado extenso o seu armazenamento e preservando componentes espectrais por vezes não desejadas. O segundo processo é normalmente o escolhido obrigando a que o filtro possua características de linearidade na banda passante, um pequeno "overshoot", uma pendente de corte acentuada e uma atenuação elevada na banda de rejeição.

3.2.5 Frequência de Amostragem

Como acaba de ser dito a frequência de amostragem, usando o filtro anti-aliasing, deve ser superior ao dobro da máxima componente espectral com interesse, sendo ajustada a frequência de corte do filtro para a máxima componente espectral.

Para os diversos modelos de sinais de fala, as frequências de interesse vão desde os 60 Hz até aos 4 a 10 Khz, sendo então utilizada uma frequência de amostragem com valores entre os 8 e 20 Khz. Valores abaixo dos 8 Khz cortam componentes espectrais com interesse. Valores acima dos 20 Khz aumentam desnecessariamente a área de

3.2.6 Número de Bits

Quanto maior o número de bits usados melhor a resolução do sinal. O número de níveis diferentes disponíveis com n bits é de 2n. Para este tipo de análise é bom ter a melhor resolução possível no entanto não interessa ter uma resolução tão pequena (melhor resolução, n maior) de modo que o nível de ruído exceda esta resolução. A desvantagem de ter um grande número de bits é o aumento da área de armazenamento. Ter um número baixo de bits pode levar a uma resolução tão má que não permita distinguir diferentes níveis importantes do sinal.

Para se tirar o melhor partido do número de bits usado é importante ajustar o nível máximo do sinal para o valor fim de escala do conversor A/D.

Para os sinais de fala são usados habitualmente entre 10 a 16 bits.

3.2.7 Falante

O sujeito falante, também chamado o informante, que produz a fala a ser recolhida deve ser bem identificado quanto aos elementos que podem ser determinantes na análise da fala [Martins 92]. Assim, deve-se especificar o seu local de nascimento e locais onde viveu, é importante quanto à sua variação dialectal, a idade, o sexo, habilitações académicas, nível sociocultural e o seu eventual conhecimento prévio dos objectivos da gravação que realiza.

Devem-se criar condições para que o informante esteja confortável e não se sinta num ambiente estranho.

Quando se pretende analisar a fala e não o falante, como é o caso, o texto deve ser reproduzido por mais que um falante.

3.2.8 Texto

O texto a ser recolhido deve ser criteriosamente seleccionado de modo a que haja nesse texto uma grande riqueza das situações que se pretendem estudar. Assim, quando se pretende analisar uma vogal esta deve ser reproduzida continuamente no tempo. Se a prosódia é o objecto de estudo o texto deve ser composto por frases de diversos tamanhos do tipo que se pretenda: declarativo, interrogativo ou exclamativo. No caso interrogativo é ainda diferenciada a existência ou não de palavra interrogativa (exp.: quanto, onde, quem, etc.). Quando se realiza uma análise com objectivo de síntese por difones, em que é importante a junção de todos os fonemas com todos, o texto pode ser escolhido sob a forma de vocábulos, palavras ou frases de modo que se reunam todas as junções de fonemas pretendidas. Pretendendo-se a análise da fala vocalizada deve-se escolher uma vogal contínua, um conjunto de vogais, uma palavra com todos os sons vocalizados ou mesmo uma frase apenas com esses sons. Muitas outras situações se poderiam referir no entanto torna-se desnecessário já que estes exemplos esclarecem eficientemente a escolha criteriosa do texto a reproduzir.

Uma medida metódica importante na recolha do sinal de fala é catalogar/etiquetar convenientemente cada trecho de fala gravada para facilitar a consulta desses elementos, caso contrário esta pode-se tornar complicada quando o número de trechos gravados é grande.

O processo de catalogação/etiquetagem é diferente conforme os sistemas em que se armazena o sinal. No armazenamento em fita magnética é desejável que o início de cada trecho seja colocada uma marca numerada e criar uma lista com essas marcas e o correspondente texto do trecho. Assim com um gravador que permita o rápido acesso a essas marcas será fácil aceder ao texto desejado. Quando o sinal é armazenado digitalmente em ficheiros, o nome destes deve ser indiciador do trecho ou do texto que contém.

3.3 Condições em que Decorreu a Recolha/Aquisição dos Sinais de Fala