Flávia Viegas de Andrade
ANÁLISE DE PARÂMETROS ESPECTRAIS DA VOZ EM
CRIANÇAS SAUDÁVEIS DE 4 A 8 ANOS
Dissertação apresentada ao curso de pós-graduação em Fonoaudiologia da Universidade Veiga de Almeida, como requisito parcial para a obtenção do grau de Mestre.
Orientadora: Profª Dra. Heidi Elisabeth Baeck
Rio de Janeiro 2009
Tel.: (21) 2574-8845 Fax.: (21) 2574-8891
FICHA CATALOGRÁFICA FICHA CATALOGRÁFICA
A553a Andrade, Flávia Viegas de
Análise de parâmetros espectrais da voz em crianças saudáveis de 4 a 8 anos/ Flávia Viegas de Andrade, 2009.
71p. ; 30 cm.
Dissertação (Mestrado) – Universidade Veiga de Almeida, Mestrado em Fonoaudiologia, Rio de
Janeiro, 2009.
Orientação: Heidi Elisabeth Baeck
1. Crianças - voz. 2. Acústica da fala. I. Baeck, Heidi Elisabeth. (orientador). II. Universidade Veiga de
Almeida, Mestrado em Fonoaudiologia. III. Título. CDD – 616.855 DeCS
ii
DE 4 A 8 ANOS.
Dissertação apresentada ao curso de pós-graduação em Fonoaudiologia da Universidade Veiga de Almeida, como requisito parcial para a obtenção do grau de Mestre.
Aprovada em 07 de agosto de 2009.
BANCA EXAMINADORA
Profa. Heidi Elisabeth Baeck, D. Sc. Universidade Veiga de Almeida – UVA/RJ
Prof. Ciríaco Cristovão Tavares Atherino, D. Sc. Universidade Veiga de Almeida – UVA/RJ
Prof. Domingos Sávio Ferreira de Oliveira, D. Sc. Universidade Veiga de Almeida – UVA/RJ
Profa. Zuleica Antonia de Camargo, D. Sc. Pontifícia Universidade Católica de São Paulo - PUC/SP
iii
Esta pesquisa não poderia ter sido realizada se não a colaboração e amor incondicionais de meus queridos pais, irmã gêmea e noivo.
iv
A Deus e a todos os espíritos de luz que me acompanham, por me darem saúde e força para
realização deste estudo.
Aos meus amados pais, Norma e Hélio, que estão sempre presentes e, cuja formação que me
proporcionaram, ajudou a trilhar meu caminho até aqui.
À minha querida irmã gêmea e fonoaudióloga, Danieli, por estar sempre ao meu lado e
trilhar sua trajetória dentro da fonoaudiologia junto comigo.
Ao meu querido noivo, Marcos, pelo amor incondicional e paciência nas diversas horas em
que estive ausente.
À Profa. Dra. Heidi Elisabeth Baeck por me incentivar com seus conhecimentos de
engenharia aplicados à análise acústica de voz e por todo apoio, dedicação e disposição em toda
trajetória de elaboração deste trabalho.
Ao Prof. Dr. Ciríaco Cristovão Tavares Atherino por todo carinho e disposição em todos os
momentos.
Agradeço com imenso carinho
À Profa. Dra. Sílvia Maria Rebelo Pinho, por ter me conquistado desde sua primeira aula e,
pelo incentivo constante em basear meu raciocínio clínico na fisiologia vocal.
À Profa. Dra. Zuleica Camargo, por me ajudar a percorrer o fascinante mundo da análise
v
qualificação deste trabalho e ao professor Dr. John Van Borsel pelo auxílio na documentação da
viagem até a Universidade de Ghent, na Bélgica, durante o curso de mestrado.
À toda equipe da Policlínica Maria Cristina Roma Paugartten e às equipes de professores e
direção das escolas pelo encaminhamento das crianças e grande parceria formada.
Às amigas da turma de mestrado pelo companheirismo, apoio e entusiasmo com que me
acompanharam por todo o curso.
vi
“Um cientista precisa manter a veneração pelo desconhecido. Se perder esse frescor, vai com ele a flexibilidade que faz a criação científica”.
vii
RESUMO
A presente pesquisa teve como objetivo investigar parâmetros espectrais descritivos da
voz de crianças saudáveis entre quatro e oito anos. Foram selecionadas 207 crianças sem
transtornos da expressão oral, de ambos os sexos, divididas por faixa etária. Os sinais de fala
foram obtidos a partir das gravações de sentenças-veículo. Foram selecionados segmentos das
sete vogais orais do português falado no Brasil em posição tônica para a estimação das medidas
de frequência fundamental (f0) e frequências dos formantes (F1, F2 e F3). Foi ainda estimada a
largura de banda de F1 da vogal [i]. O recorte e processamento dos sinais foram realizados com o
auxílio do software Praat. Os achados mostraram valores médios de cada parâmetro investigado, sendo observado um decréscimo na frequência fundamental e nas frequências dos formantes com
o aumento da idade. A idade de seis anos foi apontada como determinante para as mudanças
acústicas das vocalizações infantis. Diferenças de gênero, no qual o sexo feminino tende a
mostrar freqüências mais elevadas também foram apontadas. O presente estudo refere-se a uma
investigação ampla, diferenciada em termos número de vogais investigadas e número de crianças
participantes e, portanto, os valores paramétricos apontados consistem em uma importante
contribuição para a língua portuguesa falada no Brasil.
viii
ABSTRACT
The aim of this study was to investigate spectral parameters on voices of healthy children
between four and eight years old. Two hundred and seven children of both genders without
speech or voice disorders were selected and separated by age groups. Recordings were obtained
from carrier phrases and segments of the seven oral vowels of Brazilian Portuguese in the
stressed syllable were selected to estimate the fundamental frequency (f0) and the frequencies of
the first three formants (F1, F2 e F3), and also the bandwidth of F1 of vowel [i]. Software Praat
was used to cut and process these recordings. Our findings showed medium values for each
parameter investigated and we observed that the formant frequency and fundamental frequency
values decreased as age increased. We pointed out that acoustical changes on voice of children
can be determinate at the age of six years old. We found gender differences which females
presented higher frequencies in these parameters. The present study refers to a wide investigation
which differs from others in number of vowels investigated and number of subjects. For this
reason, these parametric values consist in an important contribution to the Portuguese language
spoken in Brazil
ix
1. INTRODUÇÃO, p.11
2. OBJETIVO, p.15
3. FUNDAMENTOS TEÓRICOS, p.16
3.1 PROCESSAMENTO DIGITAL DO SINAL, p.16
3.2 PARÂMETROS DESCRITIVOS DA VOZ, p.17
3.2.1 Frequência fundamental e frequências dos formantes, p.17
3.2.2 Largura de banda, p.18
3.3 TRATO VOCAL INFANTIL, p.19
4. REVISÃO DA LITERATURA, p.20
4.1 A VOZ ENQUANTO OBJETO DE PESQUISA, p. 20
4.2 A VOZ INFANTIL, p.22
4.3 O ESTADO DA ARTE, p.27
5. METODOLOGIA, p.31
5.1 CASUÍSTICA, p.31
5.2 MATERIAIS, p.32
5.2.1 Materiais de seleção de participantes, p.32
x 5.3.2 Aquisição de Dados, p.33 5.3.3 Processamento de Sinais, p.34 5.3.4 Análise estatística, p.35 6. RESULTADOS, p.36 7. DISCUSSÃO, p.49
7.1 MEDIDAS DOS PARÂMETROS ESPECTRAIS, p.49
7.2 DIFERENÇAS ENTRE FAIXAS ETÁRIAS E GÊNEROS, p.54
8. CONCLUSÃO, p.61
REFERÊNCIAS BIBLIOGRÁFICAS, p.62
ANEXO, p.67
(A) Escala RASATI, p.67
APÊNDICES, p.64
(A) Termo de Consentimento Livre e Esclarecido, p.68
1. INTRODUÇÃO
A voz sempre exerceu fascínio em seus estudiosos, sendo por vezes, considerada um
mistério a ser desvendado. Assim como comumente ocorre na ciência, avanços tecnológicos
representaram marcos na evolução da pesquisa de voz. Em 1877 Thomas Edison fez o que é
mundialmente reconhecida como a primeira gravação da voz humana, embora, recentemente,
já se discuta a possibilidade deste feito ter sido realizado 17 anos antes (em abril de 1860), por
um parisiense pouco conhecido, Édouard-Léon Scott de Martinville (The New York Times,
Nov 2008). A possibilidade de registrar vozes e produzi-las tantas vezes quanto necessário
introduziu um importante fator de confiabilidade aos resultados obtidos na pesquisa da voz
humana.
O século XX marca o período moderno da avaliação da voz. Avaliações vocais que
eram realizadas com base exclusivamente na percepção auditiva do avaliador, passaram a
contar com o auxílio de equipamentos capazes de relacionar diferentes características do som.
Os oscilógrafos, a partir da década de 1920, possibilitaram observar a amplitude do som em
função do tempo, enquanto os espectrógrafos analógicos, a partir de 1940, auxiliaram a
determinar a composição de frequências do som (BEHLAU e col., 2001). Ambos
contribuíram significativamente para o desenvolvimento da avaliação do som da voz, porém
tornaram-se obsoletos após o surgimento da avaliação computadorizada (JOTZ e col., 2001).
Um dos mais importantes avanços ocorreu em 1970, com a introdução do processamento
implementados através de sistemas digitais de tempo discreto (MITRA, 2001). Os
computadores passaram a produzir espectrogramas semelhantes aos espectrógrafos, porém
com diversas vantagens, tais como a visualização do gráfico na tela do computador e o
armazenamento digital, além do significativo incremento na velocidade e confiabilidade de
obtenção dos parâmetros acústicos (BEHLAU e col., 2001).
Atualmente a avaliação da voz é basicamente realizada de duas formas: avaliação
auditiva e avaliação espectrográfica computadorizada. A avaliação
perceptivo-auditiva, por vezes denominada análise psicoacústica (JOTZ e col., 2001), se caracteriza por
não utilizar qualquer ferramenta além da sensibilidade auditiva. Capaz de avaliar detalhes de
sonoridade, em termos metodológicos, a subjetividade inerente a este tipo de avaliação vocal
pode ser considerada uma desvantagem. A avaliação perceptivo-auditiva é amplamente
utilizada na prática clínica fonoaudiológica e é base para seleção de amostras em diversas
pesquisas relativamente recentes (DORNELLES e col.; 2001; CARRARA-DE-ANGELIS e
col.; 2001; BENETON e col.; 2004; CORAZZA e col.; 2004; NEMR e col.; 2005). A análise
espectrográfica tem relevância e aplicabilidade indiscutíveis, porém não deixa de impor certo
grau de subjetividade à avaliação vocal, uma vez que a leitura dos espectrogramas depende do
avaliador que, necessariamente, deve apresentar um considerável grau de conhecimento
específico (CARRARA-DE-ANGELIS e col., 2001).
A partir de 1980, além do método matemático de estimação espectral que gera o
espectrograma (Short Time Fourier Transformer STFT / Fast Fourier Transformer FFT),
outros estimadores espectrais (como o Linear Predictive Coding - LPC) e diversos algoritmos
de extração de parâmetros acústicos (KENT e READ, 1996) ampliaram a análise acústica da
voz. Abriu-se, portanto, a possibilidade de realizar análises vocais exclusivamente
quantitativas, resultando em valores numéricos promediados. A objetividade concedida por
reconhecimento automático de padrões vocais (BAECK e SOUZA, 2003; 2004). Sistemas
estes, que consistem na base do desenvolvimento de ferramentas de auxílio diagnóstico e
terapêutico.
Apesar da diversidade nas formas de avaliação vocal e da extensa possibilidade de
aplicação das mesmas, pode ser observada na literatura uma tendência de se investigar
parâmetros espectrográficos em uma população predominantemente adulta (PETERSON e
BARNEY, 1952; BEHLAU, 1984; BEHLAU e col.; 1988; ANDRIANOPOULOS e col.,
2001; NEMR e col.; 2005; GELFER e MIKOS, 2005). A população infantil é pesquisada de
forma mais restrita, tanto no que se refere à quantidade de pesquisas, quanto à diversidade de
parâmetros acústicos investigados.
Dentre as pesquisas que investigaram a voz infantil observa-se um número maior de
publicações que mostram achados referentes à fonte glótica, tais como medidas de frequência
fundamental e intensidade, com seus valores absolutos e/ou índices de perturbação
(NIEDZIELSKA, 2001; NIEDZIELSKA e col., 2001; WERTZNER e col., 2005,
NICOLLAS e col., 2008; CAPPELLARI e CIELO, 2008, BRAGA e col., 2009; SCHOTT e
col. 2009). Em número menor, algumas pesquisas apontam parâmetros descritivos do trato
vocal infantil (frequências dos formantes) (BEHLAU, 1984; BEHLAU e col.; 1988; BUSBY
e PLANT, 1995; HUBER e col., 1999). A amplitude dos formantes é pouco descrita na
literatura de vozes infantis (HUBER e col., 1999) enquanto que medidas de banda dos
formantes não foram encontradas nesta população.
A relevância de se buscar a padronização de parâmetros acústicos da voz infantil pode
ser apontada, no mínimo, em duas direções. A primeira refere-se ao potencial de aplicação
dos padrões em questão, no campo do auxílio diagnóstico de patologias vocais na infância. A
segunda está associada ao estudo das emissões orais (choro/vocalizações) em bebês. A
relação entre o comportamento evolutivo das oralizações de bebês e o desenvolvimento dos
movimentos articulatórios na criança, tem sido apontada por grupos desta linha de pesquisa
(ROTHGÄNGER, 2003; BAECK e SOUZA, 2007).
Parece evidente a importância de se realizar pesquisas que contemplem as
características acústicas da voz infantil de forma ampla, gerando resultados cada vez mais
consistentes, que possam contribuir para a compreensão global do comportamento evolutivo
2. OBJETIVO
Aplicando métodos de processamento digital de sinais, o presente estudo teve como
objetivo investigar as medidas de parâmetros espectrais (frequência fundamental, frequência
dos três primeiros formantes e largura de banda de F1 da vogal [i]) descritivos da voz de
crianças saudáveis entre quatro e oito anos. Com amostras significativamente mais
consistentes do que aquelas até então apresentadas na literatura, pretendeu-se contribuir para a
3. FUNDAMENTOS TEÓRICOS
Os conceitos relacionados ao processamento digital do sinal, parâmetros descritivos da
voz e particularidades anatômicas do trato vocal infantil consistem em pontos importantes
para a compreensão do conteúdo global deste trabalho. Desta forma, tais conceitos serão
adequadamente abordados neste capítulo.
3.1 PROCESSAMENTO DIGITAL DO SINAL
Podem ser encontradas, na literatura da engenharia elétrica, diversas ferramentas
matemáticas essencialmente de tempo contínuo, como as transformadas de Laplace e de
Fourier (RABINER, 1978). Porém o advento da tecnologia digital gerou a necessidade de
obter ferramentas equivalentes no tempo discreto, como as Transformada Z e a Transformada
Discreta de Fourier. Os conhecimentos em torno destas e de diversas outras ferramentas
foram agrupados sob o nome de Processamento Digital de Sinais (Digital Signal Processing -
DSP) (NEBEKER, 1998).
São relativamente numerosos os métodos de estimação espectral e algoritmos de
extração de parâmetros (processados no tempo ou na frequência), aplicáveis à análise vocal.
Em geral, os nomes são associados aos procedimentos do método em si ou ao pesquisador que
os desenvolveu (como a Função de Autocorrelação para extração de f0 ou o algoritmo de
3.2 PARÂMETROS DESCRITIVOS DA VOZ
Os parâmetros capazes de descrever uma voz consistem nas características físicas do
som desta voz. Tais características são domínio da área de conhecimento da física acústica,
motivo pelo qual os parâmetros descritivos da voz são comumente denominados de
“parâmetros acústicos”. Da mesma forma, a análise que envolve obtenção de parâmetros
acústicos foi particularmente denominada de “análise acústica”, termo unânime na literatura
correlata.
É grande o número de parâmetros acústicos que podem ser estimados de um segmento
vocal, porém, a busca é sempre no caminho de definir quais parâmetros, associados ou
isolados, carregam informações a respeito da voz investigada. Os parâmetros temporais
(processados exclusivamente no domínio do tempo) estão associados à duração, de parte ou
de todo o segmento analisado, enquanto os espectrais (processados no domínio da frequência)
estão associados aos componentes da onda complexa (espectro da voz). A seguir serão
comentados os parâmetros investigados no presente trabalho.
3.2.1 Frequência Fundamental (f0) e Frequência dos Formantes (Fn)
É amplamente conhecido que a voz é resultante do som produzido na glote a partir da
vibração das pregas vocais, acrescido de modificações nas cavidades de ressonância, que
funcionam como um filtro atenuando e enfatizando faixas de frequências
(CARRARA-DE-ANGELIS e col., 2001; PINHO, 2003). A frequência fundamental (f0) e as frequências dos
formantes são parâmetros clássicos que caracterizam a fonte glótica e o filtro ressonantal,
respectivamente. Mais especificamente, a frequência fundamental corresponde ao
componente periódico mais baixo (grave) do som produzido na glote (GOLDFIELD, 2000) e
as faixas de frequência que apresentam picos de energia (determinados pelo filtro) são
denominadas de formantes (Fn) (CARRARA-DE-ANGELIS e col., 2001; PINHO, 2003;
Em geral, os três primeiros formantes são os mais relevantes para os estudos da voz,
contudo, os dois primeiros, F1 e F2, são os que apresentam uma associação clara com a
geometria do trato vocal, conferindo identidade fonética às vogais. (PINHO e CAMARGO,
2001; GREGIO, 2006; LIMA e col., 2007; MAGRI e col., 2007). A frequência do primeiro
formante está relacionada ao deslocamento da língua no plano vertical (altura da língua) e
com a abertura da mandíbula e a frequência do segundo formante relaciona-se ao
deslocamento ântero-posterior da língua (plano horizontal) (GREGIO, 2006). O terceiro
formante (F3) possui relação com as duas cavidades formadas pela posição da língua, ou seja,
uma cavidade atrás e outra à frente da constrição da língua (LIMA e col., 2007). No entanto,
correlações com os órgãos fonoarticulatórios ainda geram controvérsia na literatura.
A qualidade vocal de um indivíduo sofre influência da fonte sonora e do filtro, no
entanto, frequentemente a avaliação da fonte sonora é mais contemplada pelos pesquisadores
(STEFFEN e MOSCHETTI, 1997; NIEDZIELSKA, 2001; NIEDZIELSKA e col., 2001;
JOTZ e col., 2001; WERTZNER e col., 2005; FELIPPE e col., 2006; BRAGA e col., 2009,
SCHOTT e col., 2009).
3.2.2 Largura de Banda
A largura de banda do formante, simplesmente denominada de largura de banda ou
banda de formante consiste na extensão da faixa de frequência efetiva de resposta do
ressoador (MAGRI e col., 2009). Uma vez que a banda é variável em função da magnitude do
formante, em uma relação inversamente proporcional, os métodos de estimação da largura de
banda têm como base o intervalo entre dois pontos na envoltória espectral, que antecedem e
sucedem o pico, determinados por cortes onde a intensidade decresce 3 dB em relação à
3.3 TRATO VOCAL INFANTIL
As bases anatômicas e fisiológicas da laringe infantil são relativamente pouco
conhecidas se comparadas às bases da laringe adulta. No entanto, sabe-se que a laringe
infantil não corresponde a uma miniatura da laringe do adulto, uma vez que existem diversas
diferenças entre elas (HERSAN, 2003).
O tamanho e o formato do trato vocal são fatores determinantes nas características do
som a ser emitido e dependem diretamente da idade e gênero. O trato vocal infantil é mais
curto que o trato vocal do adulto e, assim como nos adultos, observa-se uma diferença nas
medidas de comprimento se considerado o gênero da criança. Tendo como referência o trato
vocal adulto masculino, o trato infantil (oito anos) apresenta, em média, medidas 25% e 42%
menores, para meninos e meninas, respectivamente. Desta forma, as frequências dos
formantes são mais agudas em crianças do que em adultos, e mais agudas em meninas do que
nos meninos (BEHLAU e col., 2001).
Assim como o comprimento do trato vocal, o comprimento das pregas vocais infantis
também mostra suas particularidades. Hersan (2003) especifica que as medidas de
comprimento das pregas vocais mantêm-se bastante próximas, para ambos os gêneros, até a
4. REVISÃO DA LITERATURA
4.1 A VOZ ENQUANTO OBJETO DE PESQUISA
As primeiras pesquisas de voz baseavam-se na percepção auditiva da mesma. As
avaliações da qualidade vocal eram realizadas através de julgadores treinados que, na maioria
das vezes, se concentravam nos aspectos glóticos e no campo das alterações vocais
(CAMARGO e MADUREIRA, 2004).
Embora a pesquisa sobre as alterações vocais exigisse grupos controle, ou seja,
indivíduos com as estruturas laríngeas saudáveis, a investigação da voz normal era
relativamente pouco enfocada. Com o surgimento de novas tecnologias de avaliação vocal
(análise acústica computadorizada) a possibilidade de investigar a voz patológica com um
conjunto de parâmetros sistemáticos, gerou a necessidade de se definir padrões paramétricos
de normalidade, motivando diversos pesquisadores a desenvolverem estudos focados na
produção da voz de indivíduos saudáveis (BUSBY e PLANT, 1995; HUBER e col., 1999;
CORAZZA e col., 2004; FELLIPE e col., 2006; BAECK e SOUZA, 2007, NICOLLAS e
col.; 2008, CAPPELLARI e CIELO, 2008, BRAGA e col., 2009, SCHOTT e col., 2009).
O uso da espectrografia na pesquisa da voz rendeu à literatura algumas publicações
fundamentais que deram luz a diversos estudos que se seguiram ao longo do tempo. Em 1952,
Peterson e Barney (citados em Behlau e col.,1988) investigaram parâmetros supraglóticos, ou
seja, as frequências dos três primeiros formantes de dez vogais do inglês americano em uma
autores elaboraram o polígono acústico das vogais do inglês e formam historicamente
reconhecidos por tal contribuição. No entanto, quatro anos antes, 1948, Delattre (citado em
Behlau e col.,1988) já havia apresentado um triângulo acústico das vogais do francês,
elaborado com frequências dos dois primeiros formantes. Além do polígono vocálico francês,
Delattre desenvolveu um trabalho notável sobre a interpretação fisiológica dos
espectrogramas, relacionando as frequências dos três primeiros formantes com seus locais de
configuração no trato vocal (Delattre,1951).
As frequências dos dois primeiros formantes das vogais do português de Portugal
foram pesquisadas por Martins, em 1971 (citado em Behlau e col.,1988) a partir das vozes
normais de oito adultos do sexo masculino. Os achados de um estudo envolvendo o
português do Brasil, falado na cidade de São Paulo, foram publicados em 1984 (BEHLAU,
1984).
Com diversos objetivos específicos, vozes normais e/ou patológicas, aspectos glóticos
e/ou supraglóticos, a partir da década de 80, cresceu o número de publicações que utilizaram a
espectrografia computadorizada como ferramenta de avaliação da voz (GLAZE e col., 1988;
1990; BUSBY e PLANT, 1995; ANDRIANOPOULOS e col.; 2001; NEMR e col.; 2005). E,
a partir da década de 90, surgem os trabalhos com base na estimação de parâmetros
quantitativos com processamento digital de sinais e estimadores espectrais diferentes dos
implementados no espectrograma (HUBER e col., 1999, BAECK e SOUZA, 2004; 2007;
MAGRI e col., 2007, LIMA e col., 2007). Estas ferramentas vêm motivando pesquisadores
que apresentam um interesse especial pelo caráter objetivo proporcionado por essa
4.2 A VOZ INFANTIL
A voz infantil foi investigada de forma mais restrita em relação ao adulto. Os
primeiros estudos nesta população foram desenvolvidos na linha de estabelecer análises
comparativas com a voz adulta.
Já citados, Peterson e Barney, em 1952, desenvolveram um estudo que possivelmente
represente um dos pioneiros no que se refere à investigação da voz infantil (amostra de 61
adultos e 15 crianças). Além da análise perceptivo-auditiva com 76 julgadores, as frequências
dos três primeiros formantes das vogais da língua inglesa [a], [i], [u], [æ] foram analisadas a
partir do espectrograma. A amostra de falantes infantis foi composta por 15 crianças de ambos
os sexos na faixa etária de nove anos. Os resultados apontaram que as frequências dos
formantes diferiram substancialmente entre os indivíduos analisados de acordo com o sexo.
Eguchi e Hirsh (1969), citados em Busby e Plant (1995), pesquisaram através de análise
espectrográfica, as frequências dos dois primeiros formantes de vozes de 84 crianças entre
três e treze anos e adultos falantes do inglês americano. As vogais pesquisadas foram as
mesmas do estudo anterior, no entanto foram utilizadas sentenças no lugar de monossílabos.
O estudo mostrou decréscimo nas frequências dos formantes à medida que a idade da criança
aumentou e que estas mudanças foram mais significativas para crianças menores de cinco
anos e também para crianças de seis a treze anos.
Os estudos que se seguiram ao longo das décadas de 80 e 90 confirmaram, em linhas
gerais, tais achados, mostrando particularidades apenas nas faixas etárias. Behlau (1984)
investigou as frequências dos três primeiros formantes das sete vogais orais e cinco nasais do
português brasileiro a partir de espectrogramas gerados com tecnologia analógica. As vogais
foram emitidas de forma isolada e sustentada por 30 crianças entre oito e doze anos e 60
adultos entre 18 a 45 anos, todos pareados por sexo. A autora apontou que não foi possível o
emissões e apontou ainda que as relações entre as frequências de F2 e F1 foram praticamente
constantes para todas as vogais nos dois grupos de falantes. Segundo a autora, a constância
desta relação é que preserva a identidade fonética das vogais, mesmo que os valores absolutos
dos formantes sejam muito diferentes entre as idades e sexo. Os valores absolutos das
frequências dos formantes mostraram-se significativamente mais altos em crianças, em
relação aos 60 adultos. A diferença entre os formantes apresentados por crianças e adultos foi
atribuída às diferenças no tamanho do trato vocal destas populações. A autora não mencionou
ter investigado, nas crianças, diferenças nos parâmetros em função do gênero. Behlau refere
ter estimado também a frequência fundamental nessa mesma população, no entanto, somente
da vogal [a].
Glaze e col. (1988) investigaram os efeitos da idade, sexo, estatura e peso sobre a
produção vocal de 121 crianças com idades entre cinco e onze anos. A frequência
fundamental, jitter, shimmer e proporção harmônico-ruído foram estimados da vogal [a]
sustentada. Os autores obtiveram significância estatística na correlação entre frequência
fundamental e sexo, com valores maiores para as meninas. Num estudo semelhante,
envolvendo os mesmos parâmetros e faixa etária dos participantes, porém incluindo a vogal
[i] e três intensidades diferentes na emissão das vogais: fraca, normal e forte, os mesmos
autores investigaram uma amostra de 97 crianças (GLAZE e col., 1990). Os resultados
mostraram diferenças estatisticamente significantes com o aumento da intensidade, para os
quatro parâmetros investigados.
Em uma abordagem que incluiu vozes patológicas, Steffen e Moschetti (1997)
investigaram as medidas de jitter e shimmer em 131 crianças saudáveis e 117 disfônicas, entre
seis e dez anos. Os autores concluíram que estes parâmetros não foram eficazes para
determinar normalidade ou patologia vocal nestas crianças. Niedzielska e col. (2001), em
frequência fundamental (f0), tremor da frequência fundamental e proporção harmônico-ruído,
se revelaram parâmetros relevantes na tarefa de diferenciar vozes normais e patológicas.
Neste estudo foram investigadas 46 crianças entre quatro e quatorze anos, nas condições pré e
pós-tratamento de nódulos vocais. No mesmo ano, a autora investigou os mesmos parâmetros
em desordens orgânicas e funcionais da voz, comparando 112 crianças portadoras de
diferentes distúrbios do aparelho fonador e 31 crianças sem alterações vocais (grupo
controle), com idades entre três e dezesseis anos (NIEDZIELSKA, 2001). Divergindo de suas
próprias conclusões, apontadas no trabalho anterior (NIEDZIELSKA e col., 2001), os achados
deste trabalho confirmaram diferença estatisticamente significante apenas para a proporção
harmônico-ruído.
Entre os trabalhos que priorizaram a investigação dos parâmetros acústicos
supraglóticos, as autoras chinesas Yang e Mu (1989) investigaram a frequência do terceiro
formante (F3) da vogal [a] em indivíduos saudáveis, sendo 209 crianças entre três e doze anos
(104 meninos e 105 meninas) e 40 adultos pareados por sexo. Contrariamente aos conceitos
tradicionais consagrados pela literatura, os resultados deste estudo mostraram que existe uma
significante diferença na frequência do terceiro formante da vogal [a] entre crianças do sexo
masculino e feminino. De acordo com as autoras, esta diferença começa a se desenvolver aos
três anos e se torna substancial aos seis anos de idade.
Em 1995, Busby e Plant estimaram a frequência fundamental e as frequências dos três
primeiros formantes do inglês australiano das vozes de 40 crianças divididas em quatro
grupos: cinco, sete, nove e onze anos, sendo cinco meninos e cinco meninas em cada grupo.
Os resultados mostraram que os valores da frequência fundamental decresceram com o
aumento da idade, porém não foram encontradas diferenças significativas deste parâmetro
entre os sexos. As frequências dos três primeiros formantes, da mesma forma, mostraram um
faixas de cinco a sete anos e nove a onze anos. Frequências mais altas para meninas
(diferenças entre sexos) foram observadas em F1, para vogais [æ], [a] e [u], e em F2 para quase
todas as vogais.
Gilbert e col. (1997) inovaram no que se refere à faixa etária e ao delineamento
longitudinal da pesquisa. Foram investigadas as frequências dos dois primeiros formantes em
vocalizações espontâneas de quatro meninos entre 15 e 36 meses de vida. As gravações foram
realizadas em cinco momentos: aos 15, 18, 21, 24 e 36 meses de vida. Os resultados
indicaram que tanto o F1 quanto o F2 permaneceram relativamente imutáveis antes dos 24
meses de vida, porém passaram a assumir um comportamento descendente entre o 24º e 36º
mês.
Huber e col. (1999) desenvolveram um estudo abrangente envolvendo a f0 e as
frequências e amplitudes dos três primeiros formantes em vozes de crianças e adultos falantes
do inglês norte americano. Cento e oitenta indivíduos foram pareados por sexo e dispostos em
grupos de 20 participantes cada, nas seguintes faixas etárias: 4,6,8,10,12,14,16,18 anos e 20 a
30 anos (adultos). A vogal [a] foi produzida três vezes por cada sujeito e as frequências dos
formantes foram obtidas através da análise de LPC (Linear Predictive Coding). As amplitudes
dos formantes foram medidas pela mais alta amplitude harmônica na área de cada formante.
Os resultados mostraram que a frequência do primeiro formante aumenta com a intensidade e
muda em função da idade e do sexo. As frequências de F2 e F3 mudam em função da idade e
do sexo. As amplitudes dos formantes seguiram as tendências das diferenças de níveis de
pressão sonora e não apresentaram mudanças em função do sexo e idade. A f0 diminuiu com o
aumento da idade.
Lee e col. (1999) analisaram a variabilidade da duração, da frequência fundamental,
das frequências dos formantes e do envelope espectral em função do sexo e idade.
(com idades entre 25 e 50 anos), falantes do inglês americano. Para obtenção das medidas, foi
utilizada uma sentença-veículo, porém para as crianças de cinco e seis anos foram utilizadas
repetições de palavras isoladas. As crianças foram divididas em grupos com intervalo de faixa
etária de um ano. Os resultados mostraram que a redução na variabilidade intra-sujeito dos
aspectos acústicos (temporais e espectrais) com a idade, é a maior tendência associada ao
desenvolvimento da fala/voz em crianças normais. Os autores ainda referiram que a
diferenciação entre a frequência fundamental masculina e feminina e entre os padrões de
frequências dos formantes, inicia-se aos onze anos e se torna totalmente estabelecida aos
quinze anos. Durante este período de tempo, as mudanças nas frequências dos formantes de
falantes masculinos mantêm uma relação aproximadamente linear com a idade, enquanto que
tal tendência é menos óbvia nos falantes do sexo feminino.
Perry e col. (2001) analisaram as medidas de frequência fundamental e frequência dos
três primeiros formantes de 80 crianças com idades de quatro a dezesseis anos. Os
participantes foram divididos em quatro grupos, nas seguintes faixas etárias: 4,8,12 e 16 anos,
sendo 20 em cada grupo, pareados por sexo. Os objetivos do estudo foram examinar estas
medidas acústicas e a habilidade de ouvintes em identificar os gêneros das vozes. Foram
analisadas sete vogais do inglês americano, sendo que as amostras vocais foram coletadas a
partir de uma sentença-veículo, na qual foram completados vocábulos com estas vogais. Num
segundo momento, 20 adultos tiveram a tarefa de identificar os gêneros das vozes gravadas.
Os resultados mostraram que a análise das frequências dos formantes pôde diferenciar os
gêneros, mesmo em crianças muito jovens (faixa etária de quatro anos), enquanto que a
4.3 O ESTADO DA ARTE
Nos últimos anos cresceu consideravelmente o número de publicações que
investigaram a voz infantil, sob seu aspecto patológico (BENETTON e col., 2004;
WERTZNER e col.; 2005; MOURA e col., 2008; HAMDAN e col., 2009; ANDRADE, 2009)
ou, em condições de normalidade (VANZELLA, 2006; FUCHS e col., 2007; NICOLLAS e
col., 2008; BAKER e col., 2008; CAPPELLARI e CIELO, 2008; SCHOTT e col., 2009;
BRAGA e col., 2009), mostrando que o estudo dessa população é uma tendência atual. Os
métodos utilizados para avaliar as vozes das crianças nestes estudos mostram-se
diversificados.
Benetton e col. (2004) investigaram os efeitos da rinite alérgica sobre a qualidade da
voz de 40 crianças alérgicas entre sete e doze anos, baseados exclusivamente em parâmetros
psicoacústicos. A análise comparativa com o grupo controle não confirmou diferenças
estatisticamente significantes para nenhum parâmetro investigado. Wertzner e col. (2005)
avaliaram 20 crianças com transtorno fonológico e 20 crianças sem o transtorno entre quatro e dez anos, a partir das emissões isoladas e sustentadas das vogais [a], [ε] e [i]. A frequência fundamental da vogal [ε] e as médias de intensidade vocal apresentaram-se menores no grupo com transtorno fonológico em relação ao grupo controle. Andrade (2009) investigou a f0 e as
frequências de F1, F2 e F3 das vogais [a], [i] e [u] em 50 crianças respiradoras orais de cinco a
dez anos e comparou ao grupo controle. A autora encontrou diferenças estatísticas na f0 das
vogais [i] e [u], no entanto diferenças estatísticas nas frequências dos formantes não foram
encontradas entre os dois grupos.
Os parâmetros acústicos e psicoacústicos das vozes de crianças portadoras da
síndrome de Down (MOURA e col., 2008) e síndrome de déficit de atenção e hiperatividade
(HAMDAN e col., 2009) apontaram uma frequência fundamental mais grave para as crianças
observada na frequência fundamental, a pesquisa que envolveu crianças com síndrome de
Down, ainda apontou diferenças significativas nas frequências de F1 e F2, sendo que a relação
entre as frequências de F1 e F2 revelou um prejuízo na distinção das vogais no grupo com a
síndrome, refletindo uma diminuição na inteligibilidade da fala.
Entre os autores que contribuíram para a compreensão das características da voz em
crianças normais, encontra-se Vanzella (2006), que investigou 182 crianças entre sete a dez
anos, de ambos os gêneros, frequentadores de escolas públicas e particulares de São Carlos
(SP). A partir de uma análise acústica computadorizada da vogal sustentada [a], a autora
referiu ter obtido, entre outros parâmetros pouco descritos na literatura, uma frequência
fundamental média de 237 Hz para os participantes.
Fuchs e col. (2007) analisaram vozes de 21 meninos que cantavam profissionalmente
em um coral, com objetivo de verificar o potencial da análise acústica para estimar o início da
muda vocal. Com um delineamento longitudinal, a mesma criança teve sua voz falada gravada
mensalmente, durante um período de três anos, entre nove e doze anos, e reavaliada uma vez
entre treze e quinze anos. Os resultados mostraram mudanças significativas nas medidas de
irregularidade da frequência fundamental e intensidade (jitter e shimmer, repectivamente) em
torno de seis meses antes da muda vocal, levando os autores a concluírem pela efetividade
destes parâmetros acústicos na detecção do início da muda vocal.
Nicollas e col. (2008) investigaram as vozes de 212 crianças entre seis e doze anos
com o objetivo de investigar mudanças nas vozes de crianças normais antes da muda vocal.
Além da estimação da frequência fundamental (f0), do jitter e do shimmer, foram estimados
outros parâmetros pouco descritos na literatura. Os participantes foram divididos nas
seguintes faixas etárias: seis anos (9 crianças); sete anos (24 crianças); oito anos (18 crianças);
nove anos (24 crianças); dez anos (27 crianças); onze anos (55 crianças); doze anos (54
sustentada da vogal [a]. Os resultados mostraram que a f0 decresceu de 268 Hz para 234 Hz
em meninos e 260 Hz para 239 Hz em meninas e que as medidas de jitter e shimmer não
variaram significantemente com o sexo e a idade. Os autores concluíram que a f0 diminuiu
com a idade e foi menor para os meninos em relação às meninas mesmo antes do período de
mutação da voz.
Baker e col. (2008) investigaram a influência do tipo de tarefa vocal na medida da
frequência fundamental (f0), em 48 crianças saudáveis falantes do inglês americano, com
idades entre cinco anos e sete anos e onze meses. A frequência fundamental da vogal [a] foi
estimada em quatro situações vocais diferenciadas: a) sustentada por cinco segundos; b)
sustentada dentro de uma palavra, no final de uma frase; c) repetição de uma frase e d)
contagem de um até dez. Cada criança foi avaliada por dois julgadores treinados, sendo que os
resultados revelaram uma significante diferença neste parâmetro entre as tarefas. A contagem
apontou valores maiores de f0 quando comparada com a sustentação da vogal no final da frase
e a repetição da frase, no entanto, não foram observados efeitos significativos das tarefas em
relação à idade e ao sexo. Os autores não mencionaram comparação com a vogal sustentada.
No mesmo ano, Cappellari e Cielo realizaram uma pesquisa que analisou medidas
acústicas de vozes saudáveis de 23 crianças brasileiras, dividas em três faixas etárias: 4,0 a
4,11 (n=7), 5,0 a 5,11 (n=11), 6,0 a 6,8 (n=5). Foram analisadas as medidas de f0, proporção
harmônico-ruído (PHR), índice de turbulência vocal e medidas de perturbação da intensidade
e f0, a partir da vogal [a] sustentada por no mínimo três segundos. Para seleção das crianças,
as autoras utilizaram questionário com os pais, triagem auditiva e avaliação
perceptivo-auditiva (Escala RASAT). Os resultados das médias mínimas e máximas para determinação
do intervalo de normalidade da frequência fundamental, por faixa etária, foram: 4 anos, sexo
masculino (M): 266 Hz a 375 Hz; 4 anos, sexo feminino (F): 285 Hz a 355 Hz; 5 anos, sexo
anos, sexo F: 247 a 315 Hz. Os resultados mostraram ainda que no grupo de quatro anos de
idade, a f0 foi discretamente menor em relação à literatura, o índice de variação da f0 foi maior
em relação aos outros grupos e que houve significante diferença na PHR entre esse grupo e os
demais.
Um estudo realizado no estado do Rio de Janeiro (SCHOTT e col., 2009) avaliou a
frequência fundamental de 122 crianças normais de seis a oito anos, de ambos os sexos.
Foram realizadas análise perceptivo-auditiva, através da escala RASAT e análise acústica
computadorizada. Foi investigada a frequência fundamental da vogal [ε] sustentada. Os resultados mostraram que a média da f0 foi 239 Hz para as meninas e 237 Hz para os meninos,
obtendo-se desta forma, uma média geral de 238 Hz. O estudo também contemplou valores de
moda de f0, sendo 237 Hz no sexo feminino e 233 Hz no sexo masculino, obtendo-se a média
da moda de 235 Hz.
BRAGA e col. (2009) analisaram a frequência fundamental da vogal [ε] do português
brasileiro em 100 crianças, na faixa etária de seis a oito anos, pareadas por sexo. Os
participantes passaram por uma triagem vocal realizada através de avaliação
perceptivo-auditiva (escala RASAT) e a investigação da f0 foi realizada a partir de análise
computadorizada (com o auxílio do programa Voxmetria). Os resultados mostraram uma f0
média de 249 Hz, com tendência significantemente decrescente à medida que a idade da
criança aumentou. Os autores ainda apontaram para diferenças estatísticas entre os sexos, de
forma que, aos seis anos, observaram-se valores de f0 mais elevados nos meninos. A tendência
decrescente de f0, frente ao aumento da idade, mostrou-se mais significativa nos meninos, do
5. METODOLOGIA
O projeto deste trabalho foi aprovado pelo Comitê de Ética em Pesquisa da Secretaria
Municipal de Saúde da Prefeitura do Rio de Janeiro sob número: 180/2008, com necessidade
de assinatura do Termo de Consentimento Livre e Esclarecido (apêndice A). O estudo foi
realizado pela autora em uma sala do setor de fonoaudiologia da Policlínica Maria Cristina
Roma Paugartten (SMS - CAP. 3.1).
5.1 CASUÍSTICA
A amostra do presente trabalho foi constituída por segmentos vocais de crianças de
quatro a oito anos. Obteve-se uma amostra de 1.449 segmentos vocais de 207 crianças
divididas por sexo e idade. Esses segmentos geraram 13.041 valores numéricos relativos aos
parâmetros investigados.
As crianças foram pré-selecionadas nos setores de pediatria e odontologia da
Policlínica Maria Cristina Roma Paugartten e em duas escolas. A pré-seleção foi realizada
pelos profissionais de saúde e educação destas unidades, respeitando os critérios: condições
de expressão oral e saúde geral dentro dos padrões de normalidade, idade entre quatro e oito
anos.
Uma vez pré-selecionadas, as crianças foram encaminhadas para o setor de
procedimentos de seleção (item 5.3.1). Foram selecionadas crianças cuja expressão oral e
qualidade vocal apresentaram-se dentro dos padrões de normalidade.
5.2 MATERIAIS
5.2.1 Materiais de seleção de participantes
- Escala RASATI (anexo A): Consiste em um protocolo de avaliação perceptivo-auditiva da
fonte glótica proposto por Pinho e Pontes (2008);
- Roteiro de avaliação do sistema ressonantal (apêndice B): Consiste em uma adaptação do
roteiro de avaliação perceptivo-auditiva do som nas cavidades supraglóticas proposto por
Pinho (2003).
5.2.2 Materiais de aquisição e análise de dados
- Um notebook, marca HP, modelo DV 1000, com sistema operacional Windows XP;
- Software de análise acústica Praat versão 5008 disponível on line no site:
http://www.fon.hum.uva.nl/praat/
- Microfone marca SHURE, modelo SM 58.
- Software aplicativo de análise estatística SAS versão 6.04
5.3 PROCEDIMENTOS
5.3.1 Procedimentos de seleção dos participantes
Assim como descrito na casuística, as crianças da presente pesquisa foram incluídas
mediante procedimentos de seleção. Neste item serão descritos os procedimentos realizados
após a pré-seleção e encaminhamento ao setor de fonoaudiologia.
No setor citado as crianças foram recebidas, juntamente com seus pais ou
responsáveis, em uma entrevista individual com a fonoaudióloga autora da presente pesquisa,
onde foram submetidas a uma triagem da expressão oral através do exame fonético REALFA.
adequado à faixa etária. Concomitantemente, a fala espontânea e as sentenças-veículo foram
gravadas com objetivo de dar suporte à posterior análise perceptivo-auditiva, fase de
prosseguimento seletivo, caso a criança não tivesse sido excluída por inadequação da
expressão oral. Os pais ou responsáveis assinaram o Termo de Consentimento Livre e
Esclarecido durante a entrevista.
A análise perceptivo-auditiva foi realizada por duas fonoaudiólogas especialistas em
voz com aplicação da Escala RASATI e roteiro de avaliação do sistema ressonantal (item
5.2.1). Foram incluídas as crianças que apresentaram resultados dentro dos padrões de
normalidade em ambas as avaliações. Foram consideradas normais na avaliação da fonte
glótica crianças que apresentaram: grau 0 nos seis itens avaliados, com exceção do item
soprosidade que poderia apresentar grau 0 ou 1. Esta tolerância foi permitida uma vez que a
população infantil pode apresentar soprosidade em grau 1 (discreto) como padrão de
normalidade (Behlau e col., 2001). Foram consideradas normais na avaliação de ressonância
as crianças que apresentaram ressonância equilibrada.
5.3.2 Aquisição de Dados
O protocolo de aquisição especificado a seguir é semelhante ao aplicado nos estudos
de Jorge e col. (2004); Lima e col. (2007) e Magri e col. (2007).
Os sinais de fala dos quais foram extraídos os segmentos analisados foram obtidos a
partir das gravações de sentenças-veículo (“Fale____ para mim”), que foram preenchidas com
os vocábulos “pápa”, “pépe”, “pêpe”, “pípi”, “pópo”, “pôpo” e “púpu”, de forma que estes
estímulos fossem registrados por meio de repetições destas frases. Foram selecionados
segmentos das sete vogais orais em posição tônica para a estimação das medidas de
frequência fundamental (f0), frequência dos formantes (F1, F2 e F3) e largura de banda de F1
As emissões foram gravadas em uma sala silenciosa, em mono canal, com uma taxa de
amostragem de 22.050 Hz, em formato “.wav”, através do software Praat versão 5008 em um
notebook com sistema operacional Windows XP, com um microfone da marca SHURE,
modelo SM 58, posicionado a distância de 10 cm dos lábios da criança.
5.3.3 Processamento de sinais
Os dados foram submetidos a procedimentos de pré-processamento (recorte dos
segmentos vocálicos), processamento (estimação de parâmetros acústicos) e análise
estatística. O pré-processamento e processamento foram realizados com auxílio do software
Praat (item 5.2.2.), enquanto que a análise estatística foi realizada com o software SAS 6.04
(SAS Institute, Inc., Cary, North Carolina)
O recorte das vogais foi realizado de forma manual, porém houve a preocupação em
definir e seguir critérios de recorte passíveis de serem implementados em um futuro sistema
de recorte automático. O marco inicial foi definido no trecho do sinal onde a energia
apresentava-se acima de 20% da energia máxima. Da mesma forma, o marco final foi
estabelecido onde a energia apresentava-se abaixo de 20% da mesma. Tal porcentagem foi
estabelecida empiricamente com base em investigação experimental. Este procedimento é
conservador no sentido de reduzir a probabilidade de obtenção de trechos não estacionários.
Foram estimados os parâmetros espectrais clássicos: frequência fundamental e
frequência dos três primeiros formantes, representantes da fonte glótica e de ressonância,
respectivamente. Além destes, foi estimada a largura de banda do primeiro formante da vogal
[i]. Esta análise não foi estendida aos demais segmentos vocálicos pesquisados por se tratar de
uma investigação complementar de caráter exploratório. A vogal [i] foi definida, em especial,
devido ao afastamento característico dos dois primeiros formantes observado na envoltória
Devido ao grande número de estimações envolvidas, foi utilizado um script
(ferramenta que extrai automaticamente, de forma padronizada, as medidas paramétricas)
criado pelos autores, que viabilizou a otimização do tempo de processamento e evitou
possíveis erros de manuseio na sequência dos procedimentos de estimação.
5.3.4 Análise estatística
A análise estatística foi composta pelos seguintes métodos:
Para comparação das medidas de frequência fundamental e frequência dos formantes
entre os sexos foi utilizado o teste de Mann-Whitney e para comparação entre as quatro faixas
etárias foi realizada a análise de variância de Kruskal-Wallis e o teste de comparações
múltiplas de Duncan. Foi usado teste não paramétrico, pois a maioria das medidas de
frequências não apresentou distribuição normal (Gaussiana), devido à dispersão dos dados,
falta de simetria da distribuição e pela rejeição da hipótese de normalidade segundo o teste de
Shapiro-Wilk (W). O critério de determinação de significância adotado foi o nível de 5%, ou seja, valor de p menor ou igual a 0,05.
6. RESULTADOS
Os achados da presente pesquisa encontram-se sumarizados nas tabelas expostas a
seguir. Além da descrição dos dados, testes estatísticos foram aplicados com o objetivo de
verificar a existência de diferenças estatisticamente significantes entre os valores paramétricos
obtidos para os sexos masculino e feminino, assim como para as quatro diferentes faixas
etárias investigadas.
São expostos os valores referentes à análise espectral, sendo que todos os valores
expostos referem-se à estimação de médias. A opção por expor diretamente valores médios
deu-se em função do grande número de estimações obtidas neste trabalho, um total de 13.041
valores numéricos. Pelo mesmo motivo, os achados referentes aos parâmetros acústicos foram
divididos em 23 tabelas, de acordo com cada vogal, para facilitar a visualização direta do
comportamento do parâmetro acústico ao longo do desenvolvimento infantil.
Tabela I - Distribuição dos informantes por faixa etária e sexo.
4-5 anos 5-6 anos 6-7 anos 7-8 anos
Masculino n = 22 n = 28 n = 24 n = 24
A seguir encontram-se expostos os valores referentes à análise da frequência
fundamental (f0) e das frequências dos três primeiros formantes das sete vogais orais do
português e os achados referentes aos testes de diferença estatística (Tabelas II a XXIIII).
Tabela II - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,
Segundo e Terceiro Formantes da vogal [a]
4-5 anos 5-6 anos 6-7 anos 7-8 anos
Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 270 26,1 259 24,5 258 25,3 243 22,4 f0 (Hz) fem 259 24,1 247 22,1 256 27,5 246 28,0 masc 1093 193,9 1010 219,8 984 88,5 870 195,4 F1 (Hz) fem 1187 163,3 1256 154,3 1131 175,6 1048 132,1 masc 2003 156,4 1889 180,5 1814 157,6 1668 201,3 F2 (Hz) fem 2157 190,0 2141 143,8 2063 174,8 1914 187,2 masc 3593 408,7 3536 404,2 3480 224,0 3326 211,8 F3 (Hz) fem 3661 357,7 3528 310,5 3476 316,9 3402 276,0
Tabela III - Teste de Diferença Estatística para a Variável Sexo na Vogal [a]
Parâmetros p valor
[a] f0 0,099
[a] F1 0,0001*
[a] F2 0,0001*
[a] F3 0,24
Tabela IV - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [a]
Comparações Múltiplas de Duncan
Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4
[a] f0 0,001* * * *
[a] F1 0,0001* * * *
[a] F2 0,0001* * * * *
[a] F3 0,001* * * *
p=nível descritivo da ANOVA de Kruskal-Wallis; *expressa diferença significativa (nível de 5%);
G1=4 a 5 anos; G2=5 a 6 anos ; G3=6 a 7 anos; G4=7 a 8 anos.
Tabela V - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,
Segundo e Terceiro Formantes da vogal [ε]
4-5 anos 5-6 anos 6-7 anos 7-8 anos
Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 266 21,5 248 34,2 266 21,9 245 23,5 f0 (Hz) fem 258 19,1 250 19,1 252 23,9 246 29,0 masc 719 106,6 666 125,6 735 86,0 656 108,4 F1 (Hz) fem 735 134,9 734 91,1 728 94,7 713 105,8 masc 2688 205,4 2659 157,2 2585 187,5 2521 187,8 F2 (Hz) fem 2850 128,0 2851 183,1 2721 233,3 2647 135,6 masc 3652 329,8 3656 278,3 3641 255,6 3519 268,1 F3 (Hz) fem 3824 357,8 3790 246,7 3678 240,6 3579 168,2
Tabela VI - Teste de Diferença Estatística para a Variável Sexo na Vogal [ε] Parâmetros p valor [ε] f0 0,092 [ε] F1 0,048* [ε] F2 0,0001* [ε] F3 0,007*
p=nível descritivo do teste de Mann-Whitney; *expressa diferença significativa (nível de 5%).
Tabela VII - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [ε]
Comparações Múltiplas de Duncan
Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4
[ε] f0 0,0003* * * *
[ε] F1 0,15
[ε] F2 0,0001* * * * *
[ε] F3 0,0005* * * *
p=nível descritivo da ANOVA de Kruskal-Wallis; *expressa diferença significativa (nível de 5%);
Tabela VIII - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,
Segundo e Terceiro Formantes da vogal [e]
4-5 anos 5-6 anos 6-7 anos 7-8 anos
Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 275 24,5 258 25,3 271 20,9 252 25,1 f0 (Hz) fem 267 15,1 252 18,3 260 24,1 247 27,3 masc 534 52,7 496 55,4 530 46,0 493 54,1 F1 (Hz) fem 528 43,0 496 45,2 515 58,1 482 62,9 masc 2929 167,4 2924 184,1 2830 212,0 2739 164,6 F2 (Hz) fem 3043 162,6 3096 187,6 2913 226,9 2832 179,6 masc 3814 273,4 3806 213,6 3656 228,0 3553 232,0 F3 (Hz) fem 3837 256,8 3844 272,6 3728 236,5 3665 195,9
Tabela IX - Teste de Diferença Estatística para a Variável Sexo na Vogal [e]
Parâmetros p valor
[e] f0 0,038*
[e] F1 0,24
[e] F2 0,0001*
[e] F3 0,048*
Tabela X - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [e]
Comparações Múltiplas de Duncan
Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4
[e] f0 0,0001* * * * *
[e] F1 0,0001* * * * *
[e] F2 0,0001* * * * * *
[e] F3 0,0001* * * * *
p=nível descritivo da ANOVA de Kruskal-Wallis; *expressa diferença significativa (nível de 5%);
G1=4 a 5 anos; G2=5 a 6 anos ; G3=6 a 7 anos; G4=7 a 8 anos.
Tabela XI - Média e Desvio Padrão de Frequência Fundamental, Frequências do Primeiro,
Segundo e Terceiro Formantes e Largura de Banda de F1 da vogal [i]
4-5 anos 5-6 anos 6-7 anos 7-8 anos
Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 301 30,8 279 30,6 288 24,1 275 34,0 f0 (Hz) fem 287 30,2 276 22,7 282 27,3 272 37,3 masc 354 46,3 363 57,2 325 28,1 319 26,4 F1 (Hz) fem 375 64,6 351 61,7 355 52,4 360 60,9 masc 3094 208,6 3073 167,0 3014 209,7 2999 172,3 F2 (Hz) fem 3233 142,8 3176 208,1 3105 257,3 3036 130,0 3868 294,4 3849 285,7 3665 246,3 3738 250,6 F3 (Hz) masc fem 4077 341,8 3945 308,2 3856 271,6 3760 258,5 masc 85 52,7 66 37,7 69 32,9 68 32,4 Larg. Banda fem 73 46,8 80 40,9 90 45,1 76 38,5
Tabela XII - Teste de Diferença Estatística para a Variável Sexo na Vogal [i] Parâmetros p valor [i] f0 0,081 [i] F1 0,050* [i] F2 0,002* [i] F3 0,003*
[i] Larg Banda 0,12
p=nível descritivo do teste de Mann-Whitney; *expressa diferença significativa (nível de 5%).
Tabela XIII - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [i]
Comparações Múltiplas de Duncan
Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4 [i] f0 0,003* * * [i] F1 0,080 [i] F2 0,0004* * * * [i] F3 0,0008* * * * * Larg Banda 0,78
p=nível descritivo da ANOVA de Kruskal-Wallis; *expressa diferença significativa (nível de 5%);
Tabela XIV - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,
Segundo e Terceiro Formantes da vogal []
4-5 anos 5-6 anos 6-7 anos 7-8 anos
Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 271 24,2 254 26,4 263 19,9 256 26,1 f0 (Hz) fem 256 24,2 250 18,0 255 25,6 251 26,7 masc 733 117,4 691 112,1 753 107,0 755 140,5 F1 (Hz) fem 696 140,2 766 130,3 752 108,6 741 119,7 masc 1285 146,7 1158 162,0 1180 135,4 1177 157,8 F2 (Hz) fem 1255 170,1 1277 138,8 1246 143,2 1214 168,6 masc 3581 395,3 3528 413,7 3565 207,1 3512 308,2 F3 (Hz) fem 3843 276,7 3760 329,1 3659 278,1 3475 211,2
Tabela XV - Teste de Diferença Estatística para a Variável Sexo na Vogal []
Parâmetros p valor
[] f0 0,013*
[] F1 0,46
[] F2 0,010*
[] F3 0,001*
Tabela XVI - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal []
Comparações Múltiplas de Duncan
Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4
[] f0 0,050* * *
[] F1 0,43
[] F2 0,10
[] F3 0,004* * *
p=nível descritivo da ANOVA de Kruskal-Wallis; *expressa diferença significativa (nível de 5%);
G1=4 a 5 anos; G2=5 a 6 anos; G3=6 a 7 anos; G4=7 a 8 anos.
Tabela XVII - Média e Desvio Padrão de Frequência Fundamental e Frequências do
Primeiro, Segundo e Terceiro Formantes da vogal [o]
4-5 anos 5-6 anos 6-7 anos 7-8 anos
Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 281 26,3 261 22,7 267 22,4 257 23,8 f0 (Hz) fem 259 40,5 260 21,0 260 23,2 253 30,4 masc 572 65,6 532 59,8 552 55,8 512 83,2 F1 (Hz) fem 543 53,7 534 74,6 568 85,8 518 63,6 masc 1129 129,9 953 124,0 1049 126,0 1029 203,9 F2 (Hz) fem 1126 113,8 1040 124,1 1064 151,1 1022 141,9 masc 3652 314,7 3651 295,0 3578 251,8 3583 259,7 F3 (Hz) fem 3829 297,8 3778 282,1 3714 336,9 3592 248,0
Tabela XVIII - Teste de Diferença Estatística para a Variável Sexo na Vogal [o] Parâmetros p valor [o] f0 0,046* [o] F1 0,99 [o] F2 0,12 [o] F3 0,005*
p=nível descritivo do teste de Mann-Whitney; *expressa diferença significativa (nível de 5%).
Tabela XIX - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [o]
Comparações Múltiplas de Duncan
Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4
[o] f0 0,008* *
[o] F1 0,001* * *
[o] F2 0,0001* * * *
[o] F3 0,038* * *
p=nível descritivo da ANOVA de Kruskal-Wallis; *expressa diferença significativa (nível de 5%);
Tabela XX - Média e Desvio Padrão de Frequência Fundamental e Frequências do Primeiro,
Segundo e Terceiro Formantes da vogal [u]
4-5 anos 5-6 anos 6-7 anos 7-8 anos
Parâmetros Sexo ME (±DP) ME (±DP) ME (±DP) ME (±DP) masc 313 35,5 282 40,4 299 34,8 279 26,5 f0 (Hz) fem 295 25,9 298 39,9 284 27,8 277 40,7 masc 474 79,2 482 71,8 462 76,4 433 80,0 F1 (Hz) fem 476 65,3 478 97,5 495 57,8 453 59,0 masc 1515 905,8 1580 1015,7 1604 1053,8 1630 1078,1 F2 (Hz) fem 1596 880,1 1539 965,3 1771 1061,4 1583 1043,8 masc 3815 495,5 3850 513,4 3797 511,3 3708 439,9 F3 (Hz) fem 3808 347,4 3948 472,6 3976 457,0 3796 469,0
Tabela XXI - Teste de Diferença Estatística para a Variável Sexo na Vogal [u]
Parâmetros p valor
[u] f0 0,42
[u] F1 0,24
[u] F2 0,90
[u] F3 0,066
Tabela XXII - Teste de Diferença Estatística para a Variável Faixa Etária (Gn) na Vogal [u]
Comparações Múltiplas de Duncan
Parâmetros p valor G1/G2 G1/G3 G1/G4 G2/G3 G2/G4 G3/G4
[u] f0 0,008* *
[u] F1 0,052* * * *
[u] F2 0,90
[u] F3 0,33
p=nível descritivo da ANOVA de Kruskal-Wallis; *expressa diferença significativa (nível de 5%);
G1=4 a 5 anos; G2=5 a 6 anos ; G3=6 a 7 anos; G4=7 a 8 anos.
Embora os valores de diferença estatística já tenham sido expostos, a tabela XXIII
mostra uma visão global de tais achados para todos os parâmetros e vogais investigados no
Tabela XXIII – Análise Comparativa entre os Sexos e entre as Faixas Etárias
das Medidas de f0 e Frequências dos Formantes para todas as Vogais Investigadas
e Largura de Banda de F1 da vogal [i]
Sexo Fx etárias Comparações Múltiplas de Duncan
Parâm. p valora p valorb G1 x G2 G1 x G3 G1 x G4 G2 x G3 G2 x G4 G3 x G4
[a] f0 0,099 0,001* * * * [a] F1 0,0001* 0,0001* * * * [a] F2 0,0001* 0,0001* * * * * [a] F3 0,24 0,001* * * * [ε] f0 0,092 0,0003* * * * [ε] F1 0,048* 0,15 [ε] F2 0,0001* 0,0001* * * * * [ε] F3 0,007* 0,0005* * * * [e] f0 0,038* 0,0001* * * * * [e] F1 0,24 0,0001* * * * * [e] F2 0,0001* 0,0001* * * * * * [e] F3 0,048* 0,0001* * * * * [i] f0 0,081 0,003* * * [i] F1 0,050* 0,080 [i] F2 0,002* 0,0004* * * * [i] F3 0,003* 0,0008* * * * * Larg Bd 0,12 0,78 [] f0 0,013* 0,050* * * [] F1 0,46 0,43 [] F2 0,010* 0,10 [] F3 0,001* 0,004* * * [o] f0 0,046* 0,008* * [o] F1 0,99 0,001* * * [o] F2 0,12 0,0001* * * * [o] F3 0,005* 0,038* * * [u] f0 0,42 0,008* * [u] F1 0,24 0,052* * * * [u] F2 0,90 0,90 [u] F3 0,066 0,33 a nível descritivo do teste de Mann-Whitney; b nível descritivo da ANOVA de Kruskal-Wallis; *: expressa
7. DISCUSSÃO
A presente discussão foi desenhada de forma a contemplar dois itens principais: a
discussão sobre as medidas dos parâmetros espectrais da voz infantil e a discussão sobre a
hipótese da existência de diferenças paramétricas atribuídas à faixa etária e ao gênero da
criança.
7.1 MEDIDAS DOS PARÂMETROS ESPECTRAIS
Os parâmetros espectrais investigados no presente trabalho, frequência fundamental,
formantes e largura de banda serão comentados isoladamente, nesta sequência.
Frequência Fundamental
As medidas da frequência fundamental estimadas no presente estudo mostraram
valores que variam em torno de: vogal [a]: 243 a 270 Hz (média: 254 Hz), vogal [ε] 245 a 266
Hz (média: 253 Hz), vogal [e] 247 a 275 Hz (média: 260 Hz), vogal [i] 272 a 301 Hz (média:
282 Hz), vogal [] 250 a 271 Hz (média: 257 Hz), vogal [o] 253 a 281 Hz (média: 262 Hz) e vogal [u] 277 a 313 Hz (média: 290 Hz). A literatura que investiga a voz infantil saudável
vogal [ε]. De forma geral, os valores obtidos para a vogal [a] e [ε] no presente trabalho
corroboram aqueles descritos na literatura.
Cappellari e Cielo (2008) investigaram a frequência fundamental exclusivamente da
vogal [a] da voz de crianças de quatro a seis anos e oito meses falantes do português e
apontaram uma média de f0 na amostra de 252 Hz. Além da convergência no que se refere ao
valor médio da f0 de [a], podem ser observados valores semelhantes ao comparar os achados
das duas pesquisas, divididos por faixa etária e gênero. Enquanto os autores da literatura
mostraram intervalos de: 266-375 Hz e 285-355 Hz (4 anos); 247-350 Hz e 247-355 Hz (5
anos); 247-325 Hz e 247-315 Hz (6 anos) para os sexos masculino e feminino,
respectivamente, os dados do presente estudo mostraram valores médios de: 270 Hz e 259 Hz
(4 anos); 259 Hz e 247 Hz (5 anos); 258 Hz e 256 Hz (6 anos) masculino e feminino,
respectivamente.
Os resultados apresentados para a vogal [a] por Behlau (1984) mostram uma
frequência fundamental média mais grave, 235 Hz. Uma vez que a faixa etária investigada
pela autora, de oito a doze anos, não corresponde à faixa etária investigada no presente
trabalho, não é possível afirmar que os dois trabalhos não se corroboram entre si.
Autores internacionais também investigaram a frequência fundamental da vogal [a].
Ao contemplar vozes de crianças de seis a doze anos, Nicollas e col. (2008) observaram que a
f0 decresceu de 268 Hz para 234 Hz em meninos e 260 Hz para 239 Hz em meninas. É
interessante observar que os valores iniciais, que correspondem à faixa etária mais próxima de
6 anos, encontram-se próximos aos resultados apontados no presente trabalho e os valores
finais correspondentes à faixa de 12 anos, corroboram os valores obtidos por Behlau (1984).
Busby e Plant (1995) investigaram a f0 em crianças de cinco a onze anos em diversas vogais
do inglês e os resultados apontaram valores de frequência fundamental decrescentes com o
(2008) encontraram uma média de 240 Hz na emissão sustentada em crianças de cinco a oito
anos, sendo este valor proximal à estimação mais baixa de f0 para a vogal [a] obtida no
presente trabalho. Huber e col. (1999) apontaram valores médios de f0 para ambos os sexos,
masculino e feminino, de: 266 Hz e 256 Hz (4 a 6 anos); 246 Hz e 261 Hz (6 a 8 anos). Se os
valores do presente trabalho forem agrupados com as mesmas faixas etárias poderão ser
observados achados basicamente convergentes: 263 Hz e 253 Hz (4 e 6 anos); 250 e 251 Hz
(6 e 8 anos), sendo o valor correspondente ao sexo feminino na faixa de 6 a 8 anos, sutilmente
mais elevado nos achados dos autores comentados.
Assim como a vogal [a], a medida de f0 da vogal [ε] da voz infantil também foi
apresentada na literatura. Schott e col. (2009) investigaram valores de f0 da vogal [ε] em
crianças de seis a oito anos. Os valores apontados variam entre: 233 Hz e 251 Hz, com média
de 238 Hz. Em estudo semelhante em termos de faixa etária e vogal analisada, Braga e col.
(2009) obtiveram variações de f0 entre 226 Hz e 277 Hz, com média de 249 Hz. Os resultados
para a vogal [ε] do presente trabalho foram: 245 a 266 Hz, com média de 253 Hz. Os valores
apontados pelos dois autores da literatura não convergem entre si, sendo que o primeiro grupo
de autores citado mostra valores mais baixos. A outra pesquisa mostra um valor médio de f0
semelhante ao valor apontado no presente estudo, porém apresenta uma faixa dinâmica
consideravelmente mais larga, tanto no que se refere à frequência fundamental mínima quanto
à máxima. Os trabalhos em questão apresentam algumas diferenças referentes ao tamanho da
amostra e metodologia de estimação da frequência fundamental.
Frequência de Formantes
As médias das frequências dos três primeiros formantes estimadas no presente estudo