ANÁLISE DE PARÂMETROS ESPECTRAIS DA VOZ EM CRIANÇAS SAUDÁVEIS DE 4 A 8 ANOS

(1)

Flávia Viegas de Andrade

ANÁLISE DE PARÂMETROS ESPECTRAIS DA VOZ EM

CRIANÇAS SAUDÁVEIS DE 4 A 8 ANOS

Dissertação apresentada ao curso de pós-graduação em Fonoaudiologia da Universidade Veiga de Almeida, como requisito parcial para a obtenção do grau de Mestre.

Orientadora: Profª Dra. Heidi Elisabeth Baeck

Rio de Janeiro 2009

(2)

Tel.: (21) 2574-8845 Fax.: (21) 2574-8891

FICHA CATALOGRÁFICA FICHA CATALOGRÁFICA

A553a Andrade, Flávia Viegas de

Análise de parâmetros espectrais da voz em crianças saudáveis de 4 a 8 anos/ Flávia Viegas de Andrade, 2009.

71p. ; 30 cm.

Dissertação (Mestrado) – Universidade Veiga de Almeida, Mestrado em Fonoaudiologia, Rio de

Janeiro, 2009.

Orientação: Heidi Elisabeth Baeck

1. Crianças - voz. 2. Acústica da fala. I. Baeck, Heidi Elisabeth. (orientador). II. Universidade Veiga de

Almeida, Mestrado em Fonoaudiologia. III. Título. CDD – 616.855 DeCS

(3)

ii

DE 4 A 8 ANOS.

Dissertação apresentada ao curso de pós-graduação em Fonoaudiologia da Universidade Veiga de Almeida, como requisito parcial para a obtenção do grau de Mestre.

Aprovada em 07 de agosto de 2009.

BANCA EXAMINADORA

Profa. Heidi Elisabeth Baeck, D. Sc. Universidade Veiga de Almeida – UVA/RJ

Prof. Ciríaco Cristovão Tavares Atherino, D. Sc. Universidade Veiga de Almeida – UVA/RJ

Prof. Domingos Sávio Ferreira de Oliveira, D. Sc. Universidade Veiga de Almeida – UVA/RJ

Profa. Zuleica Antonia de Camargo, D. Sc. Pontifícia Universidade Católica de São Paulo - PUC/SP

(4)

iii

Esta pesquisa não poderia ter sido realizada se não a colaboração e amor incondicionais de meus queridos pais, irmã gêmea e noivo.

(5)

iv

A Deus e a todos os espíritos de luz que me acompanham, por me darem saúde e força para

realização deste estudo.

Aos meus amados pais, Norma e Hélio, que estão sempre presentes e, cuja formação que me

proporcionaram, ajudou a trilhar meu caminho até aqui.

À minha querida irmã gêmea e fonoaudióloga, Danieli, por estar sempre ao meu lado e

trilhar sua trajetória dentro da fonoaudiologia junto comigo.

Ao meu querido noivo, Marcos, pelo amor incondicional e paciência nas diversas horas em

que estive ausente.

À Profa. Dra. Heidi Elisabeth Baeck por me incentivar com seus conhecimentos de

engenharia aplicados à análise acústica de voz e por todo apoio, dedicação e disposição em toda

trajetória de elaboração deste trabalho.

Ao Prof. Dr. Ciríaco Cristovão Tavares Atherino por todo carinho e disposição em todos os

momentos.

Agradeço com imenso carinho

À Profa. Dra. Sílvia Maria Rebelo Pinho, por ter me conquistado desde sua primeira aula e,

pelo incentivo constante em basear meu raciocínio clínico na fisiologia vocal.

À Profa. Dra. Zuleica Camargo, por me ajudar a percorrer o fascinante mundo da análise

(6)

v

qualificação deste trabalho e ao professor Dr. John Van Borsel pelo auxílio na documentação da

viagem até a Universidade de Ghent, na Bélgica, durante o curso de mestrado.

À toda equipe da Policlínica Maria Cristina Roma Paugartten e às equipes de professores e

direção das escolas pelo encaminhamento das crianças e grande parceria formada.

Às amigas da turma de mestrado pelo companheirismo, apoio e entusiasmo com que me

acompanharam por todo o curso.

(7)

vi

“Um cientista precisa manter a veneração pelo desconhecido. Se perder esse frescor, vai com ele a flexibilidade que faz a criação científica”.

(8)

vii

RESUMO

A presente pesquisa teve como objetivo investigar parâmetros espectrais descritivos da

voz de crianças saudáveis entre quatro e oito anos. Foram selecionadas 207 crianças sem

transtornos da expressão oral, de ambos os sexos, divididas por faixa etária. Os sinais de fala

foram obtidos a partir das gravações de sentenças-veículo. Foram selecionados segmentos das

sete vogais orais do português falado no Brasil em posição tônica para a estimação das medidas

de frequência fundamental (f0) e frequências dos formantes (F1, F2 e F3). Foi ainda estimada a

largura de banda de F1 da vogal [i]. O recorte e processamento dos sinais foram realizados com o

auxílio do software Praat. Os achados mostraram valores médios de cada parâmetro investigado, sendo observado um decréscimo na frequência fundamental e nas frequências dos formantes com

o aumento da idade. A idade de seis anos foi apontada como determinante para as mudanças

acústicas das vocalizações infantis. Diferenças de gênero, no qual o sexo feminino tende a

mostrar freqüências mais elevadas também foram apontadas. O presente estudo refere-se a uma

investigação ampla, diferenciada em termos número de vogais investigadas e número de crianças

participantes e, portanto, os valores paramétricos apontados consistem em uma importante

contribuição para a língua portuguesa falada no Brasil.

(9)

viii

ABSTRACT

The aim of this study was to investigate spectral parameters on voices of healthy children

between four and eight years old. Two hundred and seven children of both genders without

speech or voice disorders were selected and separated by age groups. Recordings were obtained

from carrier phrases and segments of the seven oral vowels of Brazilian Portuguese in the

stressed syllable were selected to estimate the fundamental frequency (f0) and the frequencies of

the first three formants (F1, F2 e F3), and also the bandwidth of F1 of vowel [i]. Software Praat

was used to cut and process these recordings. Our findings showed medium values for each

parameter investigated and we observed that the formant frequency and fundamental frequency

values decreased as age increased. We pointed out that acoustical changes on voice of children

can be determinate at the age of six years old. We found gender differences which females

presented higher frequencies in these parameters. The present study refers to a wide investigation

which differs from others in number of vowels investigated and number of subjects. For this

reason, these parametric values consist in an important contribution to the Portuguese language

spoken in Brazil

(10)

ix

1. INTRODUÇÃO, p.11

2. OBJETIVO, p.15

3. FUNDAMENTOS TEÓRICOS, p.16

3.1 PROCESSAMENTO DIGITAL DO SINAL, p.16

3.2 PARÂMETROS DESCRITIVOS DA VOZ, p.17

3.2.1 Frequência fundamental e frequências dos formantes, p.17

3.2.2 Largura de banda, p.18

3.3 TRATO VOCAL INFANTIL, p.19

4. REVISÃO DA LITERATURA, p.20

4.1 A VOZ ENQUANTO OBJETO DE PESQUISA, p. 20

4.2 A VOZ INFANTIL, p.22

4.3 O ESTADO DA ARTE, p.27

5. METODOLOGIA, p.31

5.1 CASUÍSTICA, p.31

5.2 MATERIAIS, p.32

5.2.1 Materiais de seleção de participantes, p.32

(11)

x 5.3.2 Aquisição de Dados, p.33 5.3.3 Processamento de Sinais, p.34 5.3.4 Análise estatística, p.35 6. RESULTADOS, p.36 7. DISCUSSÃO, p.49

7.1 MEDIDAS DOS PARÂMETROS ESPECTRAIS, p.49

7.2 DIFERENÇAS ENTRE FAIXAS ETÁRIAS E GÊNEROS, p.54

8. CONCLUSÃO, p.61

REFERÊNCIAS BIBLIOGRÁFICAS, p.62

ANEXO, p.67

(A) Escala RASATI, p.67

APÊNDICES, p.64

(A) Termo de Consentimento Livre e Esclarecido, p.68

(12)

1. INTRODUÇÃO

A voz sempre exerceu fascínio em seus estudiosos, sendo por vezes, considerada um

mistério a ser desvendado. Assim como comumente ocorre na ciência, avanços tecnológicos

representaram marcos na evolução da pesquisa de voz. Em 1877 Thomas Edison fez o que é

mundialmente reconhecida como a primeira gravação da voz humana, embora, recentemente,

já se discuta a possibilidade deste feito ter sido realizado 17 anos antes (em abril de 1860), por

um parisiense pouco conhecido, Édouard-Léon Scott de Martinville (The New York Times,

Nov 2008). A possibilidade de registrar vozes e produzi-las tantas vezes quanto necessário

introduziu um importante fator de confiabilidade aos resultados obtidos na pesquisa da voz

humana.

O século XX marca o período moderno da avaliação da voz. Avaliações vocais que

eram realizadas com base exclusivamente na percepção auditiva do avaliador, passaram a

contar com o auxílio de equipamentos capazes de relacionar diferentes características do som.

Os oscilógrafos, a partir da década de 1920, possibilitaram observar a amplitude do som em

função do tempo, enquanto os espectrógrafos analógicos, a partir de 1940, auxiliaram a

determinar a composição de frequências do som (BEHLAU e col., 2001). Ambos

contribuíram significativamente para o desenvolvimento da avaliação do som da voz, porém

tornaram-se obsoletos após o surgimento da avaliação computadorizada (JOTZ e col., 2001).

Um dos mais importantes avanços ocorreu em 1970, com a introdução do processamento

(13)

implementados através de sistemas digitais de tempo discreto (MITRA, 2001). Os

computadores passaram a produzir espectrogramas semelhantes aos espectrógrafos, porém

com diversas vantagens, tais como a visualização do gráfico na tela do computador e o

armazenamento digital, além do significativo incremento na velocidade e confiabilidade de

obtenção dos parâmetros acústicos (BEHLAU e col., 2001).

Atualmente a avaliação da voz é basicamente realizada de duas formas: avaliação

auditiva e avaliação espectrográfica computadorizada. A avaliação

perceptivo-auditiva, por vezes denominada análise psicoacústica (JOTZ e col., 2001), se caracteriza por

não utilizar qualquer ferramenta além da sensibilidade auditiva. Capaz de avaliar detalhes de

sonoridade, em termos metodológicos, a subjetividade inerente a este tipo de avaliação vocal

pode ser considerada uma desvantagem. A avaliação perceptivo-auditiva é amplamente

utilizada na prática clínica fonoaudiológica e é base para seleção de amostras em diversas

pesquisas relativamente recentes (DORNELLES e col.; 2001; CARRARA-DE-ANGELIS e

col.; 2001; BENETON e col.; 2004; CORAZZA e col.; 2004; NEMR e col.; 2005). A análise

espectrográfica tem relevância e aplicabilidade indiscutíveis, porém não deixa de impor certo

grau de subjetividade à avaliação vocal, uma vez que a leitura dos espectrogramas depende do

avaliador que, necessariamente, deve apresentar um considerável grau de conhecimento

específico (CARRARA-DE-ANGELIS e col., 2001).

A partir de 1980, além do método matemático de estimação espectral que gera o

espectrograma (Short Time Fourier Transformer STFT / Fast Fourier Transformer FFT),

outros estimadores espectrais (como o Linear Predictive Coding - LPC) e diversos algoritmos

de extração de parâmetros acústicos (KENT e READ, 1996) ampliaram a análise acústica da

voz. Abriu-se, portanto, a possibilidade de realizar análises vocais exclusivamente

quantitativas, resultando em valores numéricos promediados. A objetividade concedida por

(14)

reconhecimento automático de padrões vocais (BAECK e SOUZA, 2003; 2004). Sistemas

estes, que consistem na base do desenvolvimento de ferramentas de auxílio diagnóstico e

terapêutico.

Apesar da diversidade nas formas de avaliação vocal e da extensa possibilidade de

aplicação das mesmas, pode ser observada na literatura uma tendência de se investigar

parâmetros espectrográficos em uma população predominantemente adulta (PETERSON e

BARNEY, 1952; BEHLAU, 1984; BEHLAU e col.; 1988; ANDRIANOPOULOS e col.,

2001; NEMR e col.; 2005; GELFER e MIKOS, 2005). A população infantil é pesquisada de

forma mais restrita, tanto no que se refere à quantidade de pesquisas, quanto à diversidade de

parâmetros acústicos investigados.

Dentre as pesquisas que investigaram a voz infantil observa-se um número maior de

publicações que mostram achados referentes à fonte glótica, tais como medidas de frequência

fundamental e intensidade, com seus valores absolutos e/ou índices de perturbação

(NIEDZIELSKA, 2001; NIEDZIELSKA e col., 2001; WERTZNER e col., 2005,

NICOLLAS e col., 2008; CAPPELLARI e CIELO, 2008, BRAGA e col., 2009; SCHOTT e

col. 2009). Em número menor, algumas pesquisas apontam parâmetros descritivos do trato

vocal infantil (frequências dos formantes) (BEHLAU, 1984; BEHLAU e col.; 1988; BUSBY

e PLANT, 1995; HUBER e col., 1999). A amplitude dos formantes é pouco descrita na

literatura de vozes infantis (HUBER e col., 1999) enquanto que medidas de banda dos

formantes não foram encontradas nesta população.

A relevância de se buscar a padronização de parâmetros acústicos da voz infantil pode

ser apontada, no mínimo, em duas direções. A primeira refere-se ao potencial de aplicação

dos padrões em questão, no campo do auxílio diagnóstico de patologias vocais na infância. A

segunda está associada ao estudo das emissões orais (choro/vocalizações) em bebês. A

(15)

relação entre o comportamento evolutivo das oralizações de bebês e o desenvolvimento dos

movimentos articulatórios na criança, tem sido apontada por grupos desta linha de pesquisa

(ROTHGÄNGER, 2003; BAECK e SOUZA, 2007).

Parece evidente a importância de se realizar pesquisas que contemplem as

características acústicas da voz infantil de forma ampla, gerando resultados cada vez mais

consistentes, que possam contribuir para a compreensão global do comportamento evolutivo

(16)

2. OBJETIVO

Aplicando métodos de processamento digital de sinais, o presente estudo teve como

objetivo investigar as medidas de parâmetros espectrais (frequência fundamental, frequência

dos três primeiros formantes e largura de banda de F1 da vogal [i]) descritivos da voz de

crianças saudáveis entre quatro e oito anos. Com amostras significativamente mais

consistentes do que aquelas até então apresentadas na literatura, pretendeu-se contribuir para a

(17)

3. FUNDAMENTOS TEÓRICOS

Os conceitos relacionados ao processamento digital do sinal, parâmetros descritivos da

voz e particularidades anatômicas do trato vocal infantil consistem em pontos importantes

para a compreensão do conteúdo global deste trabalho. Desta forma, tais conceitos serão

adequadamente abordados neste capítulo.

3.1 PROCESSAMENTO DIGITAL DO SINAL

Podem ser encontradas, na literatura da engenharia elétrica, diversas ferramentas

matemáticas essencialmente de tempo contínuo, como as transformadas de Laplace e de

Fourier (RABINER, 1978). Porém o advento da tecnologia digital gerou a necessidade de

obter ferramentas equivalentes no tempo discreto, como as Transformada Z e a Transformada

Discreta de Fourier. Os conhecimentos em torno destas e de diversas outras ferramentas

foram agrupados sob o nome de Processamento Digital de Sinais (Digital Signal Processing -

DSP) (NEBEKER, 1998).

São relativamente numerosos os métodos de estimação espectral e algoritmos de

extração de parâmetros (processados no tempo ou na frequência), aplicáveis à análise vocal.

Em geral, os nomes são associados aos procedimentos do método em si ou ao pesquisador que

os desenvolveu (como a Função de Autocorrelação para extração de f0 ou o algoritmo de

(18)

3.2 PARÂMETROS DESCRITIVOS DA VOZ

Os parâmetros capazes de descrever uma voz consistem nas características físicas do

som desta voz. Tais características são domínio da área de conhecimento da física acústica,

motivo pelo qual os parâmetros descritivos da voz são comumente denominados de

“parâmetros acústicos”. Da mesma forma, a análise que envolve obtenção de parâmetros

acústicos foi particularmente denominada de “análise acústica”, termo unânime na literatura

correlata.

É grande o número de parâmetros acústicos que podem ser estimados de um segmento

vocal, porém, a busca é sempre no caminho de definir quais parâmetros, associados ou

isolados, carregam informações a respeito da voz investigada. Os parâmetros temporais

(processados exclusivamente no domínio do tempo) estão associados à duração, de parte ou

de todo o segmento analisado, enquanto os espectrais (processados no domínio da frequência)

estão associados aos componentes da onda complexa (espectro da voz). A seguir serão

comentados os parâmetros investigados no presente trabalho.

3.2.1 Frequência Fundamental (f0) e Frequência dos Formantes (Fn)

É amplamente conhecido que a voz é resultante do som produzido na glote a partir da

vibração das pregas vocais, acrescido de modificações nas cavidades de ressonância, que

funcionam como um filtro atenuando e enfatizando faixas de frequências

(CARRARA-DE-ANGELIS e col., 2001; PINHO, 2003). A frequência fundamental (f0) e as frequências dos

formantes são parâmetros clássicos que caracterizam a fonte glótica e o filtro ressonantal,

respectivamente. Mais especificamente, a frequência fundamental corresponde ao

componente periódico mais baixo (grave) do som produzido na glote (GOLDFIELD, 2000) e

as faixas de frequência que apresentam picos de energia (determinados pelo filtro) são

denominadas de formantes (Fn) (CARRARA-DE-ANGELIS e col., 2001; PINHO, 2003;

(19)

Em geral, os três primeiros formantes são os mais relevantes para os estudos da voz,

contudo, os dois primeiros, F1 e F2, são os que apresentam uma associação clara com a

geometria do trato vocal, conferindo identidade fonética às vogais. (PINHO e CAMARGO,

2001; GREGIO, 2006; LIMA e col., 2007; MAGRI e col., 2007). A frequência do primeiro

formante está relacionada ao deslocamento da língua no plano vertical (altura da língua) e

com a abertura da mandíbula e a frequência do segundo formante relaciona-se ao

deslocamento ântero-posterior da língua (plano horizontal) (GREGIO, 2006). O terceiro

formante (F3) possui relação com as duas cavidades formadas pela posição da língua, ou seja,

uma cavidade atrás e outra à frente da constrição da língua (LIMA e col., 2007). No entanto,

correlações com os órgãos fonoarticulatórios ainda geram controvérsia na literatura.

A qualidade vocal de um indivíduo sofre influência da fonte sonora e do filtro, no

entanto, frequentemente a avaliação da fonte sonora é mais contemplada pelos pesquisadores

(STEFFEN e MOSCHETTI, 1997; NIEDZIELSKA, 2001; NIEDZIELSKA e col., 2001;

JOTZ e col., 2001; WERTZNER e col., 2005; FELIPPE e col., 2006; BRAGA e col., 2009,

SCHOTT e col., 2009).

3.2.2 Largura de Banda

A largura de banda do formante, simplesmente denominada de largura de banda ou

banda de formante consiste na extensão da faixa de frequência efetiva de resposta do

ressoador (MAGRI e col., 2009). Uma vez que a banda é variável em função da magnitude do

formante, em uma relação inversamente proporcional, os métodos de estimação da largura de

banda têm como base o intervalo entre dois pontos na envoltória espectral, que antecedem e

sucedem o pico, determinados por cortes onde a intensidade decresce 3 dB em relação à

(20)

3.3 TRATO VOCAL INFANTIL

As bases anatômicas e fisiológicas da laringe infantil são relativamente pouco

conhecidas se comparadas às bases da laringe adulta. No entanto, sabe-se que a laringe

infantil não corresponde a uma miniatura da laringe do adulto, uma vez que existem diversas

diferenças entre elas (HERSAN, 2003).

O tamanho e o formato do trato vocal são fatores determinantes nas características do

som a ser emitido e dependem diretamente da idade e gênero. O trato vocal infantil é mais

curto que o trato vocal do adulto e, assim como nos adultos, observa-se uma diferença nas

medidas de comprimento se considerado o gênero da criança. Tendo como referência o trato

vocal adulto masculino, o trato infantil (oito anos) apresenta, em média, medidas 25% e 42%

menores, para meninos e meninas, respectivamente. Desta forma, as frequências dos

formantes são mais agudas em crianças do que em adultos, e mais agudas em meninas do que

nos meninos (BEHLAU e col., 2001).

Assim como o comprimento do trato vocal, o comprimento das pregas vocais infantis

também mostra suas particularidades. Hersan (2003) especifica que as medidas de

comprimento das pregas vocais mantêm-se bastante próximas, para ambos os gêneros, até a

(21)

4. REVISÃO DA LITERATURA

4.1 A VOZ ENQUANTO OBJETO DE PESQUISA

As primeiras pesquisas de voz baseavam-se na percepção auditiva da mesma. As

avaliações da qualidade vocal eram realizadas através de julgadores treinados que, na maioria

das vezes, se concentravam nos aspectos glóticos e no campo das alterações vocais

(CAMARGO e MADUREIRA, 2004).

Embora a pesquisa sobre as alterações vocais exigisse grupos controle, ou seja,

indivíduos com as estruturas laríngeas saudáveis, a investigação da voz normal era

relativamente pouco enfocada. Com o surgimento de novas tecnologias de avaliação vocal

(análise acústica computadorizada) a possibilidade de investigar a voz patológica com um

conjunto de parâmetros sistemáticos, gerou a necessidade de se definir padrões paramétricos

de normalidade, motivando diversos pesquisadores a desenvolverem estudos focados na

produção da voz de indivíduos saudáveis (BUSBY e PLANT, 1995; HUBER e col., 1999;

CORAZZA e col., 2004; FELLIPE e col., 2006; BAECK e SOUZA, 2007, NICOLLAS e

col.; 2008, CAPPELLARI e CIELO, 2008, BRAGA e col., 2009, SCHOTT e col., 2009).

O uso da espectrografia na pesquisa da voz rendeu à literatura algumas publicações

fundamentais que deram luz a diversos estudos que se seguiram ao longo do tempo. Em 1952,

Peterson e Barney (citados em Behlau e col.,1988) investigaram parâmetros supraglóticos, ou

seja, as frequências dos três primeiros formantes de dez vogais do inglês americano em uma

(22)

autores elaboraram o polígono acústico das vogais do inglês e formam historicamente

reconhecidos por tal contribuição. No entanto, quatro anos antes, 1948, Delattre (citado em

Behlau e col.,1988) já havia apresentado um triângulo acústico das vogais do francês,

elaborado com frequências dos dois primeiros formantes. Além do polígono vocálico francês,

Delattre desenvolveu um trabalho notável sobre a interpretação fisiológica dos

espectrogramas, relacionando as frequências dos três primeiros formantes com seus locais de

configuração no trato vocal (Delattre,1951).

As frequências dos dois primeiros formantes das vogais do português de Portugal

foram pesquisadas por Martins, em 1971 (citado em Behlau e col.,1988) a partir das vozes

normais de oito adultos do sexo masculino. Os achados de um estudo envolvendo o

português do Brasil, falado na cidade de São Paulo, foram publicados em 1984 (BEHLAU,

1984).

Com diversos objetivos específicos, vozes normais e/ou patológicas, aspectos glóticos

e/ou supraglóticos, a partir da década de 80, cresceu o número de publicações que utilizaram a

espectrografia computadorizada como ferramenta de avaliação da voz (GLAZE e col., 1988;

1990; BUSBY e PLANT, 1995; ANDRIANOPOULOS e col.; 2001; NEMR e col.; 2005). E,

a partir da década de 90, surgem os trabalhos com base na estimação de parâmetros

quantitativos com processamento digital de sinais e estimadores espectrais diferentes dos

implementados no espectrograma (HUBER e col., 1999, BAECK e SOUZA, 2004; 2007;

MAGRI e col., 2007, LIMA e col., 2007). Estas ferramentas vêm motivando pesquisadores

que apresentam um interesse especial pelo caráter objetivo proporcionado por essa

(23)

4.2 A VOZ INFANTIL

A voz infantil foi investigada de forma mais restrita em relação ao adulto. Os

primeiros estudos nesta população foram desenvolvidos na linha de estabelecer análises

comparativas com a voz adulta.

Já citados, Peterson e Barney, em 1952, desenvolveram um estudo que possivelmente

represente um dos pioneiros no que se refere à investigação da voz infantil (amostra de 61

adultos e 15 crianças). Além da análise perceptivo-auditiva com 76 julgadores, as frequências

dos três primeiros formantes das vogais da língua inglesa [a], [i], [u], [æ] foram analisadas a

partir do espectrograma. A amostra de falantes infantis foi composta por 15 crianças de ambos

os sexos na faixa etária de nove anos. Os resultados apontaram que as frequências dos

formantes diferiram substancialmente entre os indivíduos analisados de acordo com o sexo.

Eguchi e Hirsh (1969), citados em Busby e Plant (1995), pesquisaram através de análise

espectrográfica, as frequências dos dois primeiros formantes de vozes de 84 crianças entre

três e treze anos e adultos falantes do inglês americano. As vogais pesquisadas foram as

mesmas do estudo anterior, no entanto foram utilizadas sentenças no lugar de monossílabos.

O estudo mostrou decréscimo nas frequências dos formantes à medida que a idade da criança

aumentou e que estas mudanças foram mais significativas para crianças menores de cinco

anos e também para crianças de seis a treze anos.

Os estudos que se seguiram ao longo das décadas de 80 e 90 confirmaram, em linhas

gerais, tais achados, mostrando particularidades apenas nas faixas etárias. Behlau (1984)

investigou as frequências dos três primeiros formantes das sete vogais orais e cinco nasais do

português brasileiro a partir de espectrogramas gerados com tecnologia analógica. As vogais

foram emitidas de forma isolada e sustentada por 30 crianças entre oito e doze anos e 60

adultos entre 18 a 45 anos, todos pareados por sexo. A autora apontou que não foi possível o

(24)

emissões e apontou ainda que as relações entre as frequências de F2 e F1 foram praticamente

constantes para todas as vogais nos dois grupos de falantes. Segundo a autora, a constância

desta relação é que preserva a identidade fonética das vogais, mesmo que os valores absolutos

dos formantes sejam muito diferentes entre as idades e sexo. Os valores absolutos das

frequências dos formantes mostraram-se significativamente mais altos em crianças, em

relação aos 60 adultos. A diferença entre os formantes apresentados por crianças e adultos foi

atribuída às diferenças no tamanho do trato vocal destas populações. A autora não mencionou

ter investigado, nas crianças, diferenças nos parâmetros em função do gênero. Behlau refere

ter estimado também a frequência fundamental nessa mesma população, no entanto, somente

da vogal [a].

Glaze e col. (1988) investigaram os efeitos da idade, sexo, estatura e peso sobre a

produção vocal de 121 crianças com idades entre cinco e onze anos. A frequência

fundamental, jitter, shimmer e proporção harmônico-ruído foram estimados da vogal [a]

sustentada. Os autores obtiveram significância estatística na correlação entre frequência

fundamental e sexo, com valores maiores para as meninas. Num estudo semelhante,

envolvendo os mesmos parâmetros e faixa etária dos participantes, porém incluindo a vogal

[i] e três intensidades diferentes na emissão das vogais: fraca, normal e forte, os mesmos

autores investigaram uma amostra de 97 crianças (GLAZE e col., 1990). Os resultados

mostraram diferenças estatisticamente significantes com o aumento da intensidade, para os

quatro parâmetros investigados.

Em uma abordagem que incluiu vozes patológicas, Steffen e Moschetti (1997)

investigaram as medidas de jitter e shimmer em 131 crianças saudáveis e 117 disfônicas, entre

seis e dez anos. Os autores concluíram que estes parâmetros não foram eficazes para

determinar normalidade ou patologia vocal nestas crianças. Niedzielska e col. (2001), em

(25)

frequência fundamental (f0), tremor da frequência fundamental e proporção harmônico-ruído,

se revelaram parâmetros relevantes na tarefa de diferenciar vozes normais e patológicas.

Neste estudo foram investigadas 46 crianças entre quatro e quatorze anos, nas condições pré e

pós-tratamento de nódulos vocais. No mesmo ano, a autora investigou os mesmos parâmetros

em desordens orgânicas e funcionais da voz, comparando 112 crianças portadoras de

diferentes distúrbios do aparelho fonador e 31 crianças sem alterações vocais (grupo

controle), com idades entre três e dezesseis anos (NIEDZIELSKA, 2001). Divergindo de suas

próprias conclusões, apontadas no trabalho anterior (NIEDZIELSKA e col., 2001), os achados

deste trabalho confirmaram diferença estatisticamente significante apenas para a proporção

harmônico-ruído.

Entre os trabalhos que priorizaram a investigação dos parâmetros acústicos

supraglóticos, as autoras chinesas Yang e Mu (1989) investigaram a frequência do terceiro

formante (F3) da vogal [a] em indivíduos saudáveis, sendo 209 crianças entre três e doze anos

(104 meninos e 105 meninas) e 40 adultos pareados por sexo. Contrariamente aos conceitos

tradicionais consagrados pela literatura, os resultados deste estudo mostraram que existe uma

significante diferença na frequência do terceiro formante da vogal [a] entre crianças do sexo

masculino e feminino. De acordo com as autoras, esta diferença começa a se desenvolver aos

três anos e se torna substancial aos seis anos de idade.

Em 1995, Busby e Plant estimaram a frequência fundamental e as frequências dos três

primeiros formantes do inglês australiano das vozes de 40 crianças divididas em quatro

grupos: cinco, sete, nove e onze anos, sendo cinco meninos e cinco meninas em cada grupo.

Os resultados mostraram que os valores da frequência fundamental decresceram com o

aumento da idade, porém não foram encontradas diferenças significativas deste parâmetro

entre os sexos. As frequências dos três primeiros formantes, da mesma forma, mostraram um

(26)

faixas de cinco a sete anos e nove a onze anos. Frequências mais altas para meninas

(diferenças entre sexos) foram observadas em F1, para vogais [æ], [a] e [u], e em F2 para quase

todas as vogais.

Gilbert e col. (1997) inovaram no que se refere à faixa etária e ao delineamento

longitudinal da pesquisa. Foram investigadas as frequências dos dois primeiros formantes em

vocalizações espontâneas de quatro meninos entre 15 e 36 meses de vida. As gravações foram

realizadas em cinco momentos: aos 15, 18, 21, 24 e 36 meses de vida. Os resultados

indicaram que tanto o F1 quanto o F2 permaneceram relativamente imutáveis antes dos 24

meses de vida, porém passaram a assumir um comportamento descendente entre o 24º e 36º

mês.

Huber e col. (1999) desenvolveram um estudo abrangente envolvendo a f0 e as

frequências e amplitudes dos três primeiros formantes em vozes de crianças e adultos falantes

do inglês norte americano. Cento e oitenta indivíduos foram pareados por sexo e dispostos em

grupos de 20 participantes cada, nas seguintes faixas etárias: 4,6,8,10,12,14,16,18 anos e 20 a

30 anos (adultos). A vogal [a] foi produzida três vezes por cada sujeito e as frequências dos

formantes foram obtidas através da análise de LPC (Linear Predictive Coding). As amplitudes

dos formantes foram medidas pela mais alta amplitude harmônica na área de cada formante.

Os resultados mostraram que a frequência do primeiro formante aumenta com a intensidade e

muda em função da idade e do sexo. As frequências de F2 e F3 mudam em função da idade e

do sexo. As amplitudes dos formantes seguiram as tendências das diferenças de níveis de

pressão sonora e não apresentaram mudanças em função do sexo e idade. A f0 diminuiu com o

aumento da idade.

Lee e col. (1999) analisaram a variabilidade da duração, da frequência fundamental,

das frequências dos formantes e do envelope espectral em função do sexo e idade.

(27)

(com idades entre 25 e 50 anos), falantes do inglês americano. Para obtenção das medidas, foi

utilizada uma sentença-veículo, porém para as crianças de cinco e seis anos foram utilizadas

repetições de palavras isoladas. As crianças foram divididas em grupos com intervalo de faixa

etária de um ano. Os resultados mostraram que a redução na variabilidade intra-sujeito dos

aspectos acústicos (temporais e espectrais) com a idade, é a maior tendência associada ao

desenvolvimento da fala/voz em crianças normais. Os autores ainda referiram que a

diferenciação entre a frequência fundamental masculina e feminina e entre os padrões de

frequências dos formantes, inicia-se aos onze anos e se torna totalmente estabelecida aos

quinze anos. Durante este período de tempo, as mudanças nas frequências dos formantes de

falantes masculinos mantêm uma relação aproximadamente linear com a idade, enquanto que

tal tendência é menos óbvia nos falantes do sexo feminino.

Perry e col. (2001) analisaram as medidas de frequência fundamental e frequência dos

três primeiros formantes de 80 crianças com idades de quatro a dezesseis anos. Os

participantes foram divididos em quatro grupos, nas seguintes faixas etárias: 4,8,12 e 16 anos,

sendo 20 em cada grupo, pareados por sexo. Os objetivos do estudo foram examinar estas

medidas acústicas e a habilidade de ouvintes em identificar os gêneros das vozes. Foram

analisadas sete vogais do inglês americano, sendo que as amostras vocais foram coletadas a

partir de uma sentença-veículo, na qual foram completados vocábulos com estas vogais. Num

segundo momento, 20 adultos tiveram a tarefa de identificar os gêneros das vozes gravadas.

Os resultados mostraram que a análise das frequências dos formantes pôde diferenciar os

gêneros, mesmo em crianças muito jovens (faixa etária de quatro anos), enquanto que a

(28)

4.3 O ESTADO DA ARTE

Nos últimos anos cresceu consideravelmente o número de publicações que

investigaram a voz infantil, sob seu aspecto patológico (BENETTON e col., 2004;

WERTZNER e col.; 2005; MOURA e col., 2008; HAMDAN e col., 2009; ANDRADE, 2009)

ou, em condições de normalidade (VANZELLA, 2006; FUCHS e col., 2007; NICOLLAS e

col., 2008; BAKER e col., 2008; CAPPELLARI e CIELO, 2008; SCHOTT e col., 2009;

BRAGA e col., 2009), mostrando que o estudo dessa população é uma tendência atual. Os

métodos utilizados para avaliar as vozes das crianças nestes estudos mostram-se

diversificados.

Benetton e col. (2004) investigaram os efeitos da rinite alérgica sobre a qualidade da

voz de 40 crianças alérgicas entre sete e doze anos, baseados exclusivamente em parâmetros

psicoacústicos. A análise comparativa com o grupo controle não confirmou diferenças

estatisticamente significantes para nenhum parâmetro investigado. Wertzner e col. (2005)

avaliaram 20 crianças com transtorno fonológico e 20 crianças sem o transtorno entre quatro e dez anos, a partir das emissões isoladas e sustentadas das vogais [a], [ε] e [i]. A frequência fundamental da vogal [ε] e as médias de intensidade vocal apresentaram-se menores no grupo com transtorno fonológico em relação ao grupo controle. Andrade (2009) investigou a f0 e as

frequências de F1, F2 e F3 das vogais [a], [i] e [u] em 50 crianças respiradoras orais de cinco a

dez anos e comparou ao grupo controle. A autora encontrou diferenças estatísticas na f0 das

vogais [i] e [u], no entanto diferenças estatísticas nas frequências dos formantes não foram

encontradas entre os dois grupos.

Os parâmetros acústicos e psicoacústicos das vozes de crianças portadoras da

síndrome de Down (MOURA e col., 2008) e síndrome de déficit de atenção e hiperatividade

(HAMDAN e col., 2009) apontaram uma frequência fundamental mais grave para as crianças

(29)

observada na frequência fundamental, a pesquisa que envolveu crianças com síndrome de

Down, ainda apontou diferenças significativas nas frequências de F1 e F2, sendo que a relação

entre as frequências de F1 e F2 revelou um prejuízo na distinção das vogais no grupo com a

síndrome, refletindo uma diminuição na inteligibilidade da fala.

Entre os autores que contribuíram para a compreensão das características da voz em

crianças normais, encontra-se Vanzella (2006), que investigou 182 crianças entre sete a dez

anos, de ambos os gêneros, frequentadores de escolas públicas e particulares de São Carlos

(SP). A partir de uma análise acústica computadorizada da vogal sustentada [a], a autora

referiu ter obtido, entre outros parâmetros pouco descritos na literatura, uma frequência

fundamental média de 237 Hz para os participantes.

Fuchs e col. (2007) analisaram vozes de 21 meninos que cantavam profissionalmente

em um coral, com objetivo de verificar o potencial da análise acústica para estimar o início da

muda vocal. Com um delineamento longitudinal, a mesma criança teve sua voz falada gravada

mensalmente, durante um período de três anos, entre nove e doze anos, e reavaliada uma vez

entre treze e quinze anos. Os resultados mostraram mudanças significativas nas medidas de

irregularidade da frequência fundamental e intensidade (jitter e shimmer, repectivamente) em

torno de seis meses antes da muda vocal, levando os autores a concluírem pela efetividade

destes parâmetros acústicos na detecção do início da muda vocal.

Nicollas e col. (2008) investigaram as vozes de 212 crianças entre seis e doze anos

com o objetivo de investigar mudanças nas vozes de crianças normais antes da muda vocal.

Além da estimação da frequência fundamental (f0), do jitter e do shimmer, foram estimados

outros parâmetros pouco descritos na literatura. Os participantes foram divididos nas

seguintes faixas etárias: seis anos (9 crianças); sete anos (24 crianças); oito anos (18 crianças);

nove anos (24 crianças); dez anos (27 crianças); onze anos (55 crianças); doze anos (54

(30)

sustentada da vogal [a]. Os resultados mostraram que a f0 decresceu de 268 Hz para 234 Hz

em meninos e 260 Hz para 239 Hz em meninas e que as medidas de jitter e shimmer não

variaram significantemente com o sexo e a idade. Os autores concluíram que a f0 diminuiu

com a idade e foi menor para os meninos em relação às meninas mesmo antes do período de

mutação da voz.

Baker e col. (2008) investigaram a influência do tipo de tarefa vocal na medida da

frequência fundamental (f0), em 48 crianças saudáveis falantes do inglês americano, com

idades entre cinco anos e sete anos e onze meses. A frequência fundamental da vogal [a] foi

estimada em quatro situações vocais diferenciadas: a) sustentada por cinco segundos; b)

sustentada dentro de uma palavra, no final de uma frase; c) repetição de uma frase e d)

contagem de um até dez. Cada criança foi avaliada por dois julgadores treinados, sendo que os

resultados revelaram uma significante diferença neste parâmetro entre as tarefas. A contagem

apontou valores maiores de f0 quando comparada com a sustentação da vogal no final da frase

e a repetição da frase, no entanto, não foram observados efeitos significativos das tarefas em

relação à idade e ao sexo. Os autores não mencionaram comparação com a vogal sustentada.

No mesmo ano, Cappellari e Cielo realizaram uma pesquisa que analisou medidas

acústicas de vozes saudáveis de 23 crianças brasileiras, dividas em três faixas etárias: 4,0 a

4,11 (n=7), 5,0 a 5,11 (n=11), 6,0 a 6,8 (n=5). Foram analisadas as medidas de f0, proporção

harmônico-ruído (PHR), índice de turbulência vocal e medidas de perturbação da intensidade

e f0, a partir da vogal [a] sustentada por no mínimo três segundos. Para seleção das crianças,

as autoras utilizaram questionário com os pais, triagem auditiva e avaliação

perceptivo-auditiva (Escala RASAT). Os resultados das médias mínimas e máximas para determinação

do intervalo de normalidade da frequência fundamental, por faixa etária, foram: 4 anos, sexo

masculino (M): 266 Hz a 375 Hz; 4 anos, sexo feminino (F): 285 Hz a 355 Hz; 5 anos, sexo

(31)

anos, sexo F: 247 a 315 Hz. Os resultados mostraram ainda que no grupo de quatro anos de

idade, a f0 foi discretamente menor em relação à literatura, o índice de variação da f0 foi maior

em relação aos outros grupos e que houve significante diferença na PHR entre esse grupo e os

demais.

Um estudo realizado no estado do Rio de Janeiro (SCHOTT e col., 2009) avaliou a

frequência fundamental de 122 crianças normais de seis a oito anos, de ambos os sexos.

Foram realizadas análise perceptivo-auditiva, através da escala RASAT e análise acústica

computadorizada. Foi investigada a frequência fundamental da vogal [ε] sustentada. Os resultados mostraram que a média da f0 foi 239 Hz para as meninas e 237 Hz para os meninos,

obtendo-se desta forma, uma média geral de 238 Hz. O estudo também contemplou valores de

moda de f0, sendo 237 Hz no sexo feminino e 233 Hz no sexo masculino, obtendo-se a média

da moda de 235 Hz.

BRAGA e col. (2009) analisaram a frequência fundamental da vogal [ε] do português

brasileiro em 100 crianças, na faixa etária de seis a oito anos, pareadas por sexo. Os

participantes passaram por uma triagem vocal realizada através de avaliação

perceptivo-auditiva (escala RASAT) e a investigação da f0 foi realizada a partir de análise

computadorizada (com o auxílio do programa Voxmetria). Os resultados mostraram uma f0

média de 249 Hz, com tendência significantemente decrescente à medida que a idade da

criança aumentou. Os autores ainda apontaram para diferenças estatísticas entre os sexos, de

forma que, aos seis anos, observaram-se valores de f0 mais elevados nos meninos. A tendência

decrescente de f0, frente ao aumento da idade, mostrou-se mais significativa nos meninos, do

(32)

5. METODOLOGIA

O projeto deste trabalho foi aprovado pelo Comitê de Ética em Pesquisa da Secretaria

Municipal de Saúde da Prefeitura do Rio de Janeiro sob número: 180/2008, com necessidade

de assinatura do Termo de Consentimento Livre e Esclarecido (apêndice A). O estudo foi

realizado pela autora em uma sala do setor de fonoaudiologia da Policlínica Maria Cristina

Roma Paugartten (SMS - CAP. 3.1).

5.1 CASUÍSTICA

A amostra do presente trabalho foi constituída por segmentos vocais de crianças de

quatro a oito anos. Obteve-se uma amostra de 1.449 segmentos vocais de 207 crianças

divididas por sexo e idade. Esses segmentos geraram 13.041 valores numéricos relativos aos

parâmetros investigados.

As crianças foram pré-selecionadas nos setores de pediatria e odontologia da

Policlínica Maria Cristina Roma Paugartten e em duas escolas. A pré-seleção foi realizada

pelos profissionais de saúde e educação destas unidades, respeitando os critérios: condições

de expressão oral e saúde geral dentro dos padrões de normalidade, idade entre quatro e oito

anos.

Uma vez pré-selecionadas, as crianças foram encaminhadas para o setor de

(33)

procedimentos de seleção (item 5.3.1). Foram selecionadas crianças cuja expressão oral e

qualidade vocal apresentaram-se dentro dos padrões de normalidade.

5.2 MATERIAIS

5.2.1 Materiais de seleção de participantes

- Escala RASATI (anexo A): Consiste em um protocolo de avaliação perceptivo-auditiva da

fonte glótica proposto por Pinho e Pontes (2008);

- Roteiro de avaliação do sistema ressonantal (apêndice B): Consiste em uma adaptação do

roteiro de avaliação perceptivo-auditiva do som nas cavidades supraglóticas proposto por

Pinho (2003).

5.2.2 Materiais de aquisição e análise de dados

- Um notebook, marca HP, modelo DV 1000, com sistema operacional Windows XP;

- Software de análise acústica Praat versão 5008 disponível on line no site:

http://www.fon.hum.uva.nl/praat/

- Microfone marca SHURE, modelo SM 58.

- Software aplicativo de análise estatística SAS versão 6.04

5.3 PROCEDIMENTOS

5.3.1 Procedimentos de seleção dos participantes

Assim como descrito na casuística, as crianças da presente pesquisa foram incluídas

mediante procedimentos de seleção. Neste item serão descritos os procedimentos realizados

após a pré-seleção e encaminhamento ao setor de fonoaudiologia.

No setor citado as crianças foram recebidas, juntamente com seus pais ou

responsáveis, em uma entrevista individual com a fonoaudióloga autora da presente pesquisa,

onde foram submetidas a uma triagem da expressão oral através do exame fonético REALFA.

(34)

adequado à faixa etária. Concomitantemente, a fala espontânea e as sentenças-veículo foram

gravadas com objetivo de dar suporte à posterior análise perceptivo-auditiva, fase de

prosseguimento seletivo, caso a criança não tivesse sido excluída por inadequação da

expressão oral. Os pais ou responsáveis assinaram o Termo de Consentimento Livre e

Esclarecido durante a entrevista.

A análise perceptivo-auditiva foi realizada por duas fonoaudiólogas especialistas em

voz com aplicação da Escala RASATI e roteiro de avaliação do sistema ressonantal (item

5.2.1). Foram incluídas as crianças que apresentaram resultados dentro dos padrões de

normalidade em ambas as avaliações. Foram consideradas normais na avaliação da fonte

glótica crianças que apresentaram: grau 0 nos seis itens avaliados, com exceção do item

soprosidade que poderia apresentar grau 0 ou 1. Esta tolerância foi permitida uma vez que a

população infantil pode apresentar soprosidade em grau 1 (discreto) como padrão de

normalidade (Behlau e col., 2001). Foram consideradas normais na avaliação de ressonância

as crianças que apresentaram ressonância equilibrada.

5.3.2 Aquisição de Dados

O protocolo de aquisição especificado a seguir é semelhante ao aplicado nos estudos

de Jorge e col. (2004); Lima e col. (2007) e Magri e col. (2007).

Os sinais de fala dos quais foram extraídos os segmentos analisados foram obtidos a

partir das gravações de sentenças-veículo (“Fale____ para mim”), que foram preenchidas com

os vocábulos “pápa”, “pépe”, “pêpe”, “pípi”, “pópo”, “pôpo” e “púpu”, de forma que estes

estímulos fossem registrados por meio de repetições destas frases. Foram selecionados

segmentos das sete vogais orais em posição tônica para a estimação das medidas de

frequência fundamental (f0), frequência dos formantes (F1, F2 e F3) e largura de banda de F1

(35)

As emissões foram gravadas em uma sala silenciosa, em mono canal, com uma taxa de

amostragem de 22.050 Hz, em formato “.wav”, através do software Praat versão 5008 em um

notebook com sistema operacional Windows XP, com um microfone da marca SHURE,

modelo SM 58, posicionado a distância de 10 cm dos lábios da criança.

5.3.3 Processamento de sinais

Os dados foram submetidos a procedimentos de pré-processamento (recorte dos

segmentos vocálicos), processamento (estimação de parâmetros acústicos) e análise

estatística. O pré-processamento e processamento foram realizados com auxílio do software

Praat (item 5.2.2.), enquanto que a análise estatística foi realizada com o software SAS 6.04

(SAS Institute, Inc., Cary, North Carolina)

O recorte das vogais foi realizado de forma manual, porém houve a preocupação em

definir e seguir critérios de recorte passíveis de serem implementados em um futuro sistema

de recorte automático. O marco inicial foi definido no trecho do sinal onde a energia

apresentava-se acima de 20% da energia máxima. Da mesma forma, o marco final foi

estabelecido onde a energia apresentava-se abaixo de 20% da mesma. Tal porcentagem foi

estabelecida empiricamente com base em investigação experimental. Este procedimento é

conservador no sentido de reduzir a probabilidade de obtenção de trechos não estacionários.

Foram estimados os parâmetros espectrais clássicos: frequência fundamental e

frequência dos três primeiros formantes, representantes da fonte glótica e de ressonância,

respectivamente. Além destes, foi estimada a largura de banda do primeiro formante da vogal

[i]. Esta análise não foi estendida aos demais segmentos vocálicos pesquisados por se tratar de

uma investigação complementar de caráter exploratório. A vogal [i] foi definida, em especial,

devido ao afastamento característico dos dois primeiros formantes observado na envoltória

(36)

Devido ao grande número de estimações envolvidas, foi utilizado um script

(ferramenta que extrai automaticamente, de forma padronizada, as medidas paramétricas)

criado pelos autores, que viabilizou a otimização do tempo de processamento e evitou

possíveis erros de manuseio na sequência dos procedimentos de estimação.

5.3.4 Análise estatística

A análise estatística foi composta pelos seguintes métodos:

Para comparação das medidas de frequência fundamental e frequência dos formantes

entre os sexos foi utilizado o teste de Mann-Whitney e para comparação entre as quatro faixas

etárias foi realizada a análise de variância de Kruskal-Wallis e o teste de comparações

múltiplas de Duncan. Foi usado teste não paramétrico, pois a maioria das medidas de

frequências não apresentou distribuição normal (Gaussiana), devido à dispersão dos dados,

falta de simetria da distribuição e pela rejeição da hipótese de normalidade segundo o teste de

Shapiro-Wilk (W). O critério de determinação de significância adotado foi o nível de 5%, ou seja, valor de p menor ou igual a 0,05.

(37)

6. RESULTADOS

Os achados da presente pesquisa encontram-se sumarizados nas tabelas expostas a

seguir. Além da descrição dos dados, testes estatísticos foram aplicados com o objetivo de

verificar a existência de diferenças estatisticamente significantes entre os valores paramétricos

obtidos para os sexos masculino e feminino, assim como para as quatro diferentes faixas

etárias investigadas.

São expostos os valores referentes à análise espectral, sendo que todos os valores

expostos referem-se à estimação de médias. A opção por expor diretamente valores médios

deu-se em função do grande número de estimações obtidas neste trabalho, um total de 13.041

valores numéricos. Pelo mesmo motivo, os achados referentes aos parâmetros acústicos foram

divididos em 23 tabelas, de acordo com cada vogal, para facilitar a visualização direta do

comportamento do parâmetro acústico ao longo do desenvolvimento infantil.

Tabela I - Distribuição dos informantes por faixa etária e sexo.

4-5 anos 5-6 anos 6-7 anos 7-8 anos

Masculino n = 22 n = 28 n = 24 n = 24

(38)

A seguir encontram-se expostos os valores referentes à análise da frequência

fundamental (f0) e das frequências dos três primeiros formantes das sete vogais orais do

português e os achados referentes aos testes de diferença estatística (Tabelas II a XXIIII).

Tabela II - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,

Segundo e Terceiro Formantes da vogal [a]

Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 270 26,1 259 24,5 258 25,3 243 22,4 f0 (Hz) fem 259 24,1 247 22,1 256 27,5 246 28,0 masc 1093 193,9 1010 219,8 984 88,5 870 195,4 F1 (Hz) fem 1187 163,3 1256 154,3 1131 175,6 1048 132,1 masc 2003 156,4 1889 180,5 1814 157,6 1668 201,3 F2 (Hz) fem 2157 190,0 2141 143,8 2063 174,8 1914 187,2 masc 3593 408,7 3536 404,2 3480 224,0 3326 211,8 F3 (Hz) fem 3661 357,7 3528 310,5 3476 316,9 3402 276,0

Tabela III - Teste de Diferença Estatística para a Variável Sexo na Vogal [a]

Parâmetros p valor

[a] f0 0,099

[a] F1 0,0001*

[a] F2 0,0001*

[a] F3 0,24

(39)

Tabela IV - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [a]

Comparações Múltiplas de Duncan

Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4

[a] f0 0,001* * * *

[a] F1 0,0001* * * *

[a] F2 0,0001* * * * *

[a] F3 0,001* * * *

p=nível descritivo da ANOVA de Kruskal-Wallis; *expressa diferença significativa (nível de 5%);

G1=4 a 5 anos; G2=5 a 6 anos ; G3=6 a 7 anos; G4=7 a 8 anos.

Tabela V - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,

Segundo e Terceiro Formantes da vogal [ε]

(40)

Tabela VI - Teste de Diferença Estatística para a Variável Sexo na Vogal [ε] Parâmetros p valor [ε] f0 0,092 [ε] F1 0,048* [ε] F2 0,0001* [ε] F3 0,007*

p=nível descritivo do teste de Mann-Whitney; *expressa diferença significativa (nível de 5%).

Tabela VII - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [ε]

[ε] f0 0,0003* * * *

[ε] F1 0,15

[ε] F2 0,0001* * * * *

[ε] F3 0,0005* * * *

(41)

Tabela VIII - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,

Segundo e Terceiro Formantes da vogal [e]

Tabela IX - Teste de Diferença Estatística para a Variável Sexo na Vogal [e]

[e] f0 0,038*

[e] F1 0,24

[e] F2 0,0001*

[e] F3 0,048*

(42)

Tabela X - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [e]

[e] f0 0,0001* * * * *

[e] F1 0,0001* * * * *

[e] F2 0,0001* * * * * *

[e] F3 0,0001* * * * *

Tabela XI - Média e Desvio Padrão de Frequência Fundamental, Frequências do Primeiro,

Segundo e Terceiro Formantes e Largura de Banda de F1 da vogal [i]

Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 301 30,8 279 30,6 288 24,1 275 34,0 f0 (Hz) fem 287 30,2 276 22,7 282 27,3 272 37,3 masc 354 46,3 363 57,2 325 28,1 319 26,4 F1 (Hz) fem 375 64,6 351 61,7 355 52,4 360 60,9 masc 3094 208,6 3073 167,0 3014 209,7 2999 172,3 F2 (Hz) fem 3233 142,8 3176 208,1 3105 257,3 3036 130,0 3868 294,4 3849 285,7 3665 246,3 3738 250,6 F3 (Hz) masc fem 4077 341,8 3945 308,2 3856 271,6 3760 258,5 masc _{85 52,7 66 37,7 69 32,9 68 32,4} Larg. Banda fem 73 46,8 80 40,9 90 45,1 76 38,5

(43)

Tabela XII - Teste de Diferença Estatística para a Variável Sexo na Vogal [i] Parâmetros p valor [i] f0 0,081 [i] F1 0,050* [i] F2 0,002* [i] F3 0,003*

[i] Larg Banda 0,12

Tabela XIII - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [i]

Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4 [i] f0 0,003* * * [i] F1 0,080 [i] F2 0,0004* * * * [i] F3 0,0008* * * * * Larg Banda 0,78

(44)

Tabela XIV - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,

Segundo e Terceiro Formantes da vogal []

Tabela XV - Teste de Diferença Estatística para a Variável Sexo na Vogal []

[] f0 _0,013*

[] F1 _0,46

[] F2 _0,010*

[] F3 _0,001*

(45)

Tabela XVI - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal []

[] f0 _0,050* * *

[] F1 _0,43

[] F2 _0,10

[] F3 _0,004* _* _*

G1=4 a 5 anos; G2=5 a 6 anos; G3=6 a 7 anos; G4=7 a 8 anos.

Tabela XVII - Média e Desvio Padrão de Frequência Fundamental e Frequências do

Primeiro, Segundo e Terceiro Formantes da vogal [o]

(46)

Tabela XVIII - Teste de Diferença Estatística para a Variável Sexo na Vogal [o] Parâmetros p valor [o] f0 0,046* [o] F1 0,99 [o] F2 0,12 [o] F3 0,005*

Tabela XIX - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [o]

[o] f0 0,008* *

[o] F1 0,001* * *

[o] F2 0,0001* * * *

[o] F3 0,038* * *

(47)

Tabela XX - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,

Segundo e Terceiro Formantes da vogal [u]

Tabela XXI - Teste de Diferença Estatística para a Variável Sexo na Vogal [u]

[u] f0 0,42

[u] F1 0,24

[u] F2 0,90

[u] F3 0,066

(48)

Tabela XXII - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [u]

[u] f0 0,008* *

[u] F1 0,052* * * *

[u] F2 0,90

[u] F3 0,33

Embora os valores de diferença estatística já tenham sido expostos, a tabela XXIII

mostra uma visão global de tais achados para todos os parâmetros e vogais investigados no

(49)

Tabela XXIII – Análise Comparativa entre os Sexos e entre as Faixas Etárias

das Medidas de f0 e Frequências dos Formantes para todas as Vogais Investigadas

e Largura de Banda de F1 da vogal [i]

Sexo Fx etárias Comparações Múltiplas de Duncan

Parâm. p valora p valorb G1 x G2 G1 x G3 G1 x G4 G2 x G3 G2 x G4 G3 x G4

[a] f0 0,099 0,001* * * * [a] F1 0,0001* 0,0001* * * * [a] F2 0,0001* 0,0001* * * * * [a] F3 0,24 0,001* * * * [ε] f0 0,092 0,0003* * * * [ε] F1 0,048* 0,15 [ε] F2 0,0001* 0,0001* * * * * [ε] F3 0,007* 0,0005* * * * [e] f0 0,038* 0,0001* * * * * [e] F1 0,24 0,0001* * * * * [e] F2 0,0001* 0,0001* * * * * * [e] F3 0,048* 0,0001* * * * * [i] f0 0,081 0,003* * * [i] F1 0,050* 0,080 [i] F2 0,002* 0,0004* * * * [i] F3 0,003* 0,0008* * * * * Larg Bd 0,12 0,78 [] f0 0,013* 0,050* * * [] F1 0,46 0,43 [] F2 0,010* 0,10 [] F3 0,001* 0,004* * * [o] f0 0,046* 0,008* * [o] F1 0,99 0,001* * * [o] F2 0,12 0,0001* * * * [o] F3 0,005* 0,038* * * [u] f0 0,42 0,008* * [u] F1 0,24 0,052* * * * [u] F2 0,90 0,90 [u] F3 0,066 0,33 a_{nível descritivo do teste de Mann-Whitney;}b_{nível descritivo da ANOVA de Kruskal-Wallis; *: expressa}

(50)

7. DISCUSSÃO

A presente discussão foi desenhada de forma a contemplar dois itens principais: a

discussão sobre as medidas dos parâmetros espectrais da voz infantil e a discussão sobre a

hipótese da existência de diferenças paramétricas atribuídas à faixa etária e ao gênero da

criança.

7.1 MEDIDAS DOS PARÂMETROS ESPECTRAIS

Os parâmetros espectrais investigados no presente trabalho, frequência fundamental,

formantes e largura de banda serão comentados isoladamente, nesta sequência.

Frequência Fundamental

As medidas da frequência fundamental estimadas no presente estudo mostraram

valores que variam em torno de: vogal [a]: 243 a 270 Hz (média: 254 Hz), vogal [ε] 245 a 266

Hz (média: 253 Hz), vogal [e] 247 a 275 Hz (média: 260 Hz), vogal [i] 272 a 301 Hz (média:

282 Hz), vogal [] 250 a 271 Hz (média: 257 Hz), vogal [o] 253 a 281 Hz (média: 262 Hz) e vogal [u] 277 a 313 Hz (média: 290 Hz). A literatura que investiga a voz infantil saudável

(51)

vogal [ε]. De forma geral, os valores obtidos para a vogal [a] e [ε] no presente trabalho

corroboram aqueles descritos na literatura.

Cappellari e Cielo (2008) investigaram a frequência fundamental exclusivamente da

vogal [a] da voz de crianças de quatro a seis anos e oito meses falantes do português e

apontaram uma média de f0 na amostra de 252 Hz. Além da convergência no que se refere ao

valor médio da f0 de [a], podem ser observados valores semelhantes ao comparar os achados

das duas pesquisas, divididos por faixa etária e gênero. Enquanto os autores da literatura

mostraram intervalos de: 266-375 Hz e 285-355 Hz (4 anos); 247-350 Hz e 247-355 Hz (5

anos); 247-325 Hz e 247-315 Hz (6 anos) para os sexos masculino e feminino,

respectivamente, os dados do presente estudo mostraram valores médios de: 270 Hz e 259 Hz

(4 anos); 259 Hz e 247 Hz (5 anos); 258 Hz e 256 Hz (6 anos) masculino e feminino,

respectivamente.

Os resultados apresentados para a vogal [a] por Behlau (1984) mostram uma

frequência fundamental média mais grave, 235 Hz. Uma vez que a faixa etária investigada

pela autora, de oito a doze anos, não corresponde à faixa etária investigada no presente

trabalho, não é possível afirmar que os dois trabalhos não se corroboram entre si.

Autores internacionais também investigaram a frequência fundamental da vogal [a].

Ao contemplar vozes de crianças de seis a doze anos, Nicollas e col. (2008) observaram que a

f0 decresceu de 268 Hz para 234 Hz em meninos e 260 Hz para 239 Hz em meninas. É

interessante observar que os valores iniciais, que correspondem à faixa etária mais próxima de

6 anos, encontram-se próximos aos resultados apontados no presente trabalho e os valores

finais correspondentes à faixa de 12 anos, corroboram os valores obtidos por Behlau (1984).

Busby e Plant (1995) investigaram a f0 em crianças de cinco a onze anos em diversas vogais

do inglês e os resultados apontaram valores de frequência fundamental decrescentes com o

(52)

(2008) encontraram uma média de 240 Hz na emissão sustentada em crianças de cinco a oito

anos, sendo este valor proximal à estimação mais baixa de f0 para a vogal [a] obtida no

presente trabalho. Huber e col. (1999) apontaram valores médios de f0 para ambos os sexos,

masculino e feminino, de: 266 Hz e 256 Hz (4 a 6 anos); 246 Hz e 261 Hz (6 a 8 anos). Se os

valores do presente trabalho forem agrupados com as mesmas faixas etárias poderão ser

observados achados basicamente convergentes: 263 Hz e 253 Hz (4 e 6 anos); 250 e 251 Hz

(6 e 8 anos), sendo o valor correspondente ao sexo feminino na faixa de 6 a 8 anos, sutilmente

mais elevado nos achados dos autores comentados.

Assim como a vogal [a], a medida de f0 da vogal [ε] da voz infantil também foi

apresentada na literatura. Schott e col. (2009) investigaram valores de f0 da vogal [ε] em

crianças de seis a oito anos. Os valores apontados variam entre: 233 Hz e 251 Hz, com média

de 238 Hz. Em estudo semelhante em termos de faixa etária e vogal analisada, Braga e col.

(2009) obtiveram variações de f0 entre 226 Hz e 277 Hz, com média de 249 Hz. Os resultados

para a vogal [ε] do presente trabalho foram: 245 a 266 Hz, com média de 253 Hz. Os valores

apontados pelos dois autores da literatura não convergem entre si, sendo que o primeiro grupo

de autores citado mostra valores mais baixos. A outra pesquisa mostra um valor médio de f0

semelhante ao valor apontado no presente estudo, porém apresenta uma faixa dinâmica

consideravelmente mais larga, tanto no que se refere à frequência fundamental mínima quanto

à máxima. Os trabalhos em questão apresentam algumas diferenças referentes ao tamanho da

amostra e metodologia de estimação da frequência fundamental.

Frequência de Formantes

As médias das frequências dos três primeiros formantes estimadas no presente estudo