• Nenhum resultado encontrado

3 AQUISIÇÃO E ANÁLISE FONOLÓGICA

4.2 Coleta de Dados

4.3.1 Análise Acústica

As vogais foram segmentadas no programa PRAAT versão 5.2.25 (Boersma & Weenink, 2011). Os pontos de início e fim das vogais considerados foram o primeiro e último vale do pulso periódico na onda que contivesse amplitude considerável, que se assemelhasse ao período vocálico, e que apresentassem formantes estáveis no espectrograma. O objetivo principal da inserção das vogais entre oclusivas surdas foi justamente o de facilitar a identificação dos pulsos iniciais e finais nas ondas das vogais para medição acurada da duração. A figura 4.1 ilustra a segmentação da vogal [] em ‗pat‘ produzida pelo participante cH01, do grupo controle. À esquerda da marcação, é possível ver o VOT (voice onset time) e os formantes de transição, que foram ignorados na segmentação das vogais.

Após a segmentação das vogais de todos os participantes, foi utilizado o script de extração de duração desenvolvido por Arantes (2008a) e que está disponível no apêndice D.

Além da duração, foram extraídos os valores de F0, F1, F2 e F3 das vogais. Os valores de F0 e F3 foram extraídos para o simples fim de documentação. Como este estudo não é sobre questões prosódicas, F0 não foi utilizado nas discussões dos dados. Semelhantemente, como F3 é mais importante na identificação de vogais seguidas de sons róticos, algumas consoantes, ou na identificação de características individuais dos falantes, esse valor também não foi incluído nas discussões.

O valor de F0 foi extraído com o script criado por Arantes (2008b), e que está disponível no apêndice E, e a extração dos formantes F1 a F3 será explicada a seguir.

Um dos métodos mais comumente utilizados para extração dos formantes é o LPC (Linear Predictive Coding), que é um algoritmo preditivo que, baseado em uma pequena duração do sinal acústico, o decompõe fazendo uma estimativa das ressonâncias geradas no trato vocálico, i.e. capturando as funções de filtro do trato vocálico. Ele produz um espectro do sinal com as frequências das ressonâncias que têm picos de energia/amplitude, i.e. os formantes. O espectro gerado pela análise de LPC também mostra as larguras de banda de cada formante. Todavia, a análise automática de LPC é criticada (e.g. WEMPE; BOERSMA, 2003; VALLABHA; TULLER, 2002) porque o pesquisador deve definir de antemão parâmetros de análise, como a ordem do LPC, i.e. a quantidade de formantes a ser encontrada, e a frequência máxima para os formantes. A escolha da quantidade de formantes a ser encontrada normalmente é feita com base na frequência máxima a ser considerada, no caso dos homens geralmente 5000 Hz e no das mulheres 5500Hz, com o padrão de cinco formantes a serem encontrados. O problema é que estabelecer parâmetros para análises automáticas introduz erros sistemáticos na estimativa dos formantes, com o LPC estimando picos que não existem ou deixando de estimar picos que existem. Outra limitação do LPC, que não se aplica a este estudo, é que ele se baseia exclusivamente nos picos, ignorando os vales e, portanto, não sendo adequado para análise de vogais nasais, consoantes laterais e algumas fricativas.

Uma solução é, em vez de utilizar uma análise de LPC automática, conferir vogal por vogal o ajuste do LPC ao espectro de FFT, que é obtido pelo cálculo do algoritmo Fast

Fourier Transform, cujo objetivo é decompor uma onda complexa nas suas diversas ondas

senoidais. Essa conferência vogal por vogal, apesar de consumir mais tempo e ser mais trabalhosa, permite ajustar, quando necessário, a frequência máxima ou a ordem do LPC. É exatamente isso que permitem os scripts utilizados para a extração de F1, F2 e F3 nesta pesquisa (ARANTES, 2010 e 2011), que estão no apêndice F. A figura a seguir mostra uma

análise apropriada de LPC no espectro de FFT. Essa é uma das produções de [] da participante cM01, do grupo controle, com o LPC buscando cinco formantes na frequência máxima de 5500 Hz, que é o mais comumente utilizado para mulheres. A frequência máxima mais comumente utilizada para homens é 5000Hz, menor que a das mulheres devido ao trato vocálico maior dos homens, que faz com que suas ondas sonoras viagem em frequências menores. O eixo y é a amplitude em decibéis, o eixo x é a frequência em Hz, as linhas vermelhas são os picos de ressonância, i.e. os formantes, e as colunas cinzas são as larguras de banda, que estão pequenas e bem separadas nesse exemplo.

Figura 4.2: Exemplo de análise de LPC apropriada.

A figura 4.3 mostra à esquerda a análise de LPC no espectro FFT de uma das produções de [] da mesma falante, cM01, com os mesmos parâmetros, cinco formantes na frequência máxima de 5500 Hz, porém com uma estimativa de formantes não acurada, com larguras de banda que se sobrepõem e que até extravasam o quadro de análise. Ao trocar a frequência máxima para 5750Hz, obtemos a análise de LPC da direita, muito mais acurada.

Figura 4.3: Exemplo de erro na análise automática de LPC e de correção da análise com a troca de um

Esse foi, portanto, o processo utilizado na extração de F1, F2 e F3. O ajuste do LPC no espectro FFT foi conferido vogal por vogal, com mudanças em algum parâmetro realizadas quando necessárias a fim de obter valores de formantes mais acurados e, portanto, levando em consideração as peculiaridades de cada produção de cada participante. O ponto utilizado para extração dos formantes foi o ponto central da vogal, que é o ponto mais estável. O script utilizado extrai os formantes de uma janela de 120ms ao redor do ponto escolhido (centro da vogal) e o algoritmo de extração de formantes produz em torno de 12 estimativas de formantes, uma para cada 10ms de som da janela, e o valor extraído e computado foi o da estimativa central da janela.

Os valores de F1 e F2 dos participantes foram normalizados pelo método de Watt e Fabricius (2002). As técnicas de normalização de vogais foram desenvolvidas porque as pessoas têm bocas e tratos vocais de tamanhos diferentes e, consequentemente, produzem vogais com frequências de formantes diferentes. A normalização das vogais é uma técnica matemática que permite a comparação de vogais entre indivíduos. Entre as várias técnicas de normalização de vogais (revisadas em Hindle, 1978; Disner, 1980; Miller, 1989; Adank, Smits e van Hout, 2004, por exemplo), foi escolhida a de Watt e Fabricius (2002) por, primeiramente, ser uma técnica que retira o viés fisiológico dos valores dos formantes, porém retendo diferenças sociolinguísticas, e também por ser o método que mais se aproxima da normalização conduzida por Rauber (2006), permitindo, portanto, uma comparação de seu estudo com este e contribuindo para a formação de uma base de dados obtidos com metodologias similares.

Resumidamente, a normalização de Watt e Fabricius (2002) utiliza as médias de F1 e F2 das vogais extremas para criar um triângulo vocálico no qual as outras vogais serão normalizadas para comparação. As médias dos valores de F1 e F2 das vogais com maior e menor F1 e F2, neste caso [] [] e [], são utilizadas para estabelecer os valores máximos e mínimos de F1 e F2. Esses valores são utilizados em uma equação que calcula uma ―transformação S‖74, que depois é utilizada para dividir a média de F1 e F2 de cada vogal a ser normalizada.

A normalização das vogais, assim como as plotagens de seus espaços vocálicos no plano F1 x F2, foram realizadas com o pacote ―vowels‖ (KENDALL; THOMAS, 2010) para o programa R versão 2.15.1 (R CORE TEAM, 2012), que também foi o programa utilizado para todos os testes estatísticos descritos no próximo capítulo.

74 S(F1) = ([i]F1 + [ae]F1 + [u]F1)/3