“GRBASH – Scale for Evaluating the Hoarse Voice tradução, ad

(1)

MÓNICA ESGUEIRA DOS SANTOS

“GRBASH – Scale for Evaluating the Hoarse Voice:

tradução, adaptação e análise psicométrica para o

Português Europeu”

Universidade Fernando Pessoa

(2)

(3)

iii

“GRBASH – Scale for Evaluating the Hoarse Voice:

tradução, adaptação e análise psicométrica para o

Português Europeu”

Universidade Fernando Pessoa

(4)

iv

“GRBASH – Scale for Evaluating the Hoarse Voice:

tradução, adaptação e análise psicométrica para o

Português Europeu”

(Assinatura da aluna de Mestrado em Terapêutica da Fala)

(5)

v

RESUMO

Introdução: A necessidade de se dispor de escalas padronizadas e adaptadas aos diversos meios socioculturais e linguísticos assume-se fundamental no contexto de avaliação em terapia da fala. A avaliação percetivo-auditiva da voz necessita de se transformar numa avaliação objetiva, com dados padronizados. Assim sendo, e dada a escassez de escalas e testes para avaliar percetivamente a qualidade vocal em Portugal, foi levado a cabo o presente estudo que teve como objetivo traduzir e adaptar a escala GRBASH – Scale for Evaluating the Hoarse Voice para o Português Europeu, analisar as propriedades psicométricas da escala e, por último, identificar associações entre avaliação percetivo-auditiva, medidas acústicas e variáveis atributo: sociodemográficas, clínicas e comportamentais.

Participantes e métodos: Realizou-se um estudo do tipo quantitativo-descritivo

transversal, com a tradução e retroversão da escala GRBASH – Scale for Evaluating the

Hoarse Voice por tradutores independentes. A escala GRBASH na versão final foi

aplicada a 80 amostras vocais de 80 sujeitos de ambos os sexos, com média de 51,5 (DP=14,7) anos de idade. A amostra vocal é composta pela sustentação da vogal /a/ em intensidade e altura confortáveis ao sujeito, sendo posteriormente submetidas a uma avaliação percetivo-auditiva pelo painel de peritos e extração dos parâmetros acústicos (F0 média, jitter, shimmer e HNR). Para testar as características da escala foi usada a análise das componentes principais e análise da consistência interna.

Resultados: No que diz respeito à distribuição das variáveis em estudo pela idade dos indivíduos, verifica-se que os que consomem outros medicamentos para além daqueles usados para a voz apresentam uma maior representatividade nos mais velhos (38,2 vs. 61,7; p=0,049); nos indivíduos com consumo de álcool (33,3 vs. 67,7; p=0,022) e nos que referem alterações hormonais (30,0 vs. 70,0; p=0,015). Estas conclusões obtiveram diferenças estatisticamente significativas para as variáveis em estudo.

(6)

vi

CP1 e CP2. A consistência interna das duas componentes confirmam que a escala é um instrumento homogéneo para avaliar a disfonia.

No que diz respeito à distribuição dos scores pelas variáveis sociodemográficas, variáveis clínicas e comportamentais, não se verificaram quaisquer diferenças estatisticamente significativas dos scores da componente principal 1. Relativamente à componente principal 2 verificou-se que os indivíduos com consumo de outra medicação (32,7 vs. 24,2; p=0,031) sem consumo de álcool (34,2 vs. 23,1; p= 0,004) e hábitos tabágicos (22,9 vs. 33,0; p=0,005) apresentam uma média de scores superior.

No que diz respeito à avaliação da validade do critério, comparando as diferenças de médias obtidas na qualidade da voz (CP1 e CP2) pela avaliação acústica, verifica-se que de uma forma geral não existe uma relação entre a qualidade percetiva da voz e a F0 em ambos os sexos. No entanto, apesar de não terem sido realizadas inferências estatísticas, as mulheres apresentam uma média superior de F0. Por outro lado, para as variáveis

jitter (CP1 p=0,002; CP2 p= 0,019), shimmer (CP1 p<0,001; CP2 p=0,008) e HNR

(CP1 p<0,001; CP2 p=0,001) verificaram-se diferenças estatisticamente significativas, para ambas as componentes da escala.

(7)

vii

variável jitter, verificou-se que quem consome álcool possui uma média significativamente menor (0,6 vs. 1,0; p=0,024).

Conclusão: Os resultados deste estudo permitem comprovar as hipóteses teóricas levantadas e demonstraram que a escala GRBASH – Escala para Avaliação da Disfonia é um instrumento com boas propriedades psicométricas para ser usado na população portuguesa.

Palavras-chave: voz, disfonia, avaliação, percetivo-auditiva, acústica, análise

(8)

viii

ABSTRACT

Introduction: The need to have standardised scales adapted to various sociocultural and linguistic environments becomes crucial in the context of evaluation in speech therapy. The auditory-perceptual evaluation of voice needs to become an objective assessment with standardised data. Therefore, given the scarcity of scales and tests to perceptively evaluate voice quality in Portugal, this study was conducted, which aimed to translate and adapt the GRBASH – Scale for Evaluating the Hoarse Voice to European Portuguese, analyse the psychometric properties of the scale and, finally, identify associations between auditory-perceptual evaluation, acoustic measurements and sociodemographic, clinical and behavioural attribute variables.

Participants and methods: We conducted a quantitative/descriptive cross-sectional

study, with translation and reverse translation of the GRBASH – Scale for Evaluating the Hoarse Voice scale performed by freelance translators. The final version of the GRBASH scale was administered to 80 voice samples of 80 subjects of both sexes, with a mean of 51.5 (SD = 14.7) years of age. The vocal sample consists of the maintenance of the vowel /a/ at an intensity and volume comfortable to the subject, which is subsequently subjected to perceptual-auditory evaluation by the panel of experts and extraction of acoustic parameters (mean F0, jitter, shimmer and HNR). To test the characteristics of the scale, analysis of the principal components and analysis of internal consistency were used.

Results: In relation to the distribution of the variables studied by the age of the subjects, it appears that those taking medicines other than those used for the voice are more prevalent among older subjects (38.2 vs. 61.7, p=0.049); in subjects who consume alcohol (33.3 vs. 67.7, p=0.022) and in those who report hormonal changes (30.0 vs. 70.0; p=0.015). These findings resulted in statistically significant differences for the variables under study.

(9)

ix

CP2 respectively. The internal consistency of the two components confirms that the scale is a uniform instrument for evaluating dysphonia.

With regard to the distribution of the scores by sociodemographic, clinical and behavioural variables, there were no statistically significant differences in the scores of principal component 1. Regarding principal component 2, it was found that subjects taking other medicines (32.7 vs. 24.2, p=0.031) who do not consume alcohol (34.2 vs. 23.1, p=0.004) or smoke (22.9 vs. 33.0, p=0.005) showed higher mean scores.

As regards the assessment of the validity of the criterion, comparing the differences in the averages obtained in voice quality (CP1 and CP2) by acoustic evaluation, it is found that, in general, there is no relationship between perceptive quality of the voice and F0 in both sexes. However, despite statistical inference not having been applied, women have a higher average F0. On the other hand, the variables jitter (CP1 p=0.002; CP2 p=0.019), shimmer (CP1 p<0.001; CP2 p=0.008) and HNR (CP1 p<0.001; CP2 p=0.001) demonstrate statistically significant differences for both components of the scale.

(10)

x

Conclusion: The results of this study allow us to confirm the theoretical hypotheses raised and demonstrate that the GRBASH Scale for the Evaluation of Dysphonia is an instrument with good psychometric properties for use among the Portuguese population.

Keywords: voice, dysphonia, evaluation, auditory-perceptual, acoustic, psychometric

(11)

xi

Aos meus queridos pais, pelo apoio incondicional que me deram em todas as minhas decisões e pelo carinho e compreensão demonstrado ao longo do meu percurso académico.

À minha irmã Liliana Esgueira dos Santos, por me ajudar mutuamente na conclusão de mais uma etapa. Sempre juntas na vida pessoal e profissional. Obrigada mana!

(12)

xii

AGRADECIMENTOS

À Doutora Susana Vaz Freitas, minha Profª e orientadora, agradeço a colaboração e a disponibilidade por me ter ajudado a concretizar este projeto.

À Doutora Rute Meneses, pelos sábios conhecimentos que me foi dando ao longo da elaboração da dissertação.

À Diretora de Serviço Otorrinolaringologia do Hospital Geral Santo António (Centro Hospitalar do Porto), Dr.ª Cecília Almeida e Sousa e à Dr.ª Isabel Carvalho pelos sábios conhecimentos transmitidos ao longo do período de recolha de dados.

(13)

xiii

ÍNDICE

Página

I. INTRODUÇÃO ………...1

II. ENQUADRAMENTO TEÓRICO……….4

1. Avaliação Multidimensional da voz e suas associações ………...…………4

i. Qualidade vocal e disfonia ………...4

ii. Avaliação da fisiologia laríngea ………...8

iii. Avaliação acústica da voz ………..12

iv. Avaliação percetivo-auditiva da voz ………...21

2. Associações entre avaliação percetivo-auditiva, medidas acústicas e variáveis atributo: sociodemográficas, clínicas e comportamentais ………..32

III. MATERIAIS E MÉTODOS……….44

1. Objetivos do estudo ………..44

2. Tipo de estudo ………..44

3. Participantes ……….45

4. Materiais ………...46

5. Procedimentos ………..…48

i. Tradução da escala GRBASH – Scale for Evaluating the Hoarse Voice ……48

ii. Análise do painel de peritos ………...48

iii. Pré-teste ………...49

iv. Recolha de dados da amostra ………...50

v. Procedimentos de análise estatística ………...51

(14)

xiv

1. Tradução e adaptação da GRBASH ……….55

2. Propriedades psicométricas do instrumento ……….56

i. Análise da consistência interna ………58

ii. Análise da validade de conteúdo, do construto e do critério …………59

3. Associações entre a avaliação perceptivo-auditiva, medidas acústicas e variáveis atributo ………..………...63

V. DISCUSSÃO ……….67

VI. CONCLUSÃO ………..78

VII. BIBLIOGRAFIA ………..80

VIII. ANEXOS ………..………..

Anexo A. Autorização dos autores da escala original GRBASH

Anexo B. Parecer da Comissão Ética da Universidade Fernando Pessoa

Anexo C. GRBASH – Scale for Evaluating the Hoarse Voice – versão original

Anexo D. Termo de consentimento informado ao participante

Anexo E. Questionário de caracterização do perfil profissional do painel de peritos

Anexo F. Questionário de adaptabilidade da GRBASH à população portuguesa

Anexo G. Questionário de opinião da escala GRBASH ao painel de peritos

Anexo H. Questionário de recolha de dados da amostra

Anexo I. Informação de confidencialidade do conteúdo do CD

Anexo J. GRBASH – Escala para Avaliação da Disfonia (versão final)

Anexo K. Versão traduzida para o Português Europeu da escala GRBASH – Scale for Evaluating the Hoarse Voice

(15)

xv

ÍNDICE DE FIGURAS

Página

Figura 1. Imagem ilustrativa de uma laringoscopia indireta………9

Figura 2. Imagem ilustrativa de uma endoscopia rígida………...9

Figura 3. Imagem ilustrativa de uma endoscopia flexível………..10

(16)

xvi

ÍNDICE DE TABELAS

Página

Tabela 1. Classificação do uso profissional de acordo com Koug«fman e Isaacson

(1991) citados por Stemple (1993) (Guimarães, 2007)………...41

Tabela 2. Caracterização da amostra por sexo e idade ………...45

Tabela 3. Caracterização do painel de peritos……….49

Tabela 4. Caracterização da amostra do pré-teste pela idade e sexo………..50

Tabela 5. Resultados da aplicação do questionário de opinião ao painel de peritos…...56

Tabela 6. Distribuição das variáveis sociodemográficas, clínicas e comportamentais pela idade dos indivíduos………57

Tabela 7. Análise das componentes principais. Variância explicada: 76,41%...59

Tabela 8. Distribuição dos scores da amostra pelas componentes principais………….59

Tabela 9. Distribuição dos scores da componente principal 1 e da componente principal 2 pelas variáveis sociodemográficas, clínicas e comportamentais pela idade dos indivíduos………60

Tabela 10. Distribuição da frequência fundamental média pelas componentes principais……….62

Tabela 11. Distribuição dos parâmetros acústicos (jitter, shimmer e HNR) pelas componentes principais da escala………62

Tabela 12. Distribuição da frequência fundamental média pelas variáveis sociodemográficas, clínicas e comportamentais………..64

(17)

xvii

ÍNDICE DE GRÁFICOS

(18)

xviii

LISTA DE ABREVIATURAS

CHP – Centro Hospitalar do Porto HGSA – Hospital Geral Santo António UFP – Universidade Fernando Pessoa ORL – Otorrinolaringologia

EGG – Eletroglotografia

Hz – Hertz

dB - Decibéis DP – Desvio padrão

F0 – Frequência fundamental média PHR – Proporção harmónico – ruído

HNR – Harmonic to noise ratio

NNE – Normalized noise energy

(19)

1

I. Introdução

O conceito de avaliação reúne diversos domínios, que podem variar de uma avaliação subjetiva até uma pesquisa avaliativa (Suchman, 1967; Weiss, 1972 cit. in Silva e Formigli, 1994) que tem como objetivo responder a questões semelhantes, recorrendo a métodos e técnicas de maior objetividade. A implementação da avaliação como prática sistemática nos diferentes níveis dos serviços de saúde poderá potenciar aos seus profissionais informações pertinentes para a definição de estratégias de intervenção (Silva e Formigli, 1994).

É fundamental, para que uma medição seja precisa, que calcule o que se pretende realmente medir e não outro aspeto diferente ou parecido (validade) e, segundo, que quando seja repetida, nas mesmas condições, com os mesmos testes, o resultado encontrado seja idêntico (fidelidade) (Ribeiro, 2010).

Após uma pesquisa bibliográfica sobre protocolos de avaliação percetivo-auditiva da voz em Português, conclui-se que há uma escassez de escalas e protocolos de avaliação vocal traduzidos, adaptados e validados para o Português Europeu limitando, por vezes, a realização de estudos nesta área sem recorrer a escalas de outras línguas, nomeadamente na língua inglesa como a GRBAS – Scale for Evaluating the Hoarse

Voice, publicada por Hirano (1981).

Para além desta escassez, a escolha deste tema de estudo baseou-se no interesse e gosto pessoal da investigadora em aprofundar conhecimentos na área da voz e contribuir, fornecendo aos Terapeutas da Fala e outros profissionais da área, uma escala de avaliação percetivo-auditiva da disfonia amplamente difundida em toda a investigação mundial da área, traduzida e adaptada para o Português Europeu.

(20)

2

As hipóteses teóricas da investigação são que a qualidade vocal: piora com a idade, com a presença de patologia laríngea, com a presença de abusos vocais, com o consumo de medicamentos, com a presença de doença respiratória aguda, com o consumo de álcool, com o consumo de tabaco, com a presença de refluxo faringo-laríngeo, com alterações hormonais, com o uso profissional da voz e melhora com a medicação para a voz.

A dissertação de mestrado encontra-se subdividida em capítulos. No primeiro – INTRODUÇÃO – apresentam-se os objetivos do estudo e as motivações da autora. No segundo capítulo - ENQUADRAMENTO TEÓRICO – expõem-se os conceitos inerentes ao tema do estudo: qualidade vocal e disfonia, avaliação fisiológica da laringe, medidas acústicas e avaliação percetivo-auditiva da voz humana. Neste capítulo apresentam-se os estudos das associações entre a avaliação percetivo-auditiva, medidas

acústicas e variáveis atributo: sociodemográficas, clínicas e comportamentais. No terceiro capítulo - MATERIAIS E MÉTODOS - é descrita a metodologia de investigação usada, os objetivos e tipo de estudo adotado, método de recolha de dados, materiais usados e procedimentos de tradução e adaptação da escala GRBASH e a análise estatística dos dados. No quarto capítulo – RESULTADOS - são apresentados os resultados do estudo no que diz respeito à tradução e adaptação da escala GRBASH, da análise das propriedades psicométricas da escala (consistência interna, validade de conteúdo, construto e de critério) e das associações entre avaliação percetivo-auditiva, medidas acústicas e variáveis atributo: sociodemográficas, clínicas e comportamentais. Por último, no quinto capítulo – CONCLUSÃO – apresentam-se as conclusões e reflexões acerca dos resultados e perspectivam-se estudos futuros com o uso da GRBASH – Escala para Avaliação da Disfonia. A dissertação finaliza com as referências bibliográficas que serviram de suporte para a realização do estudo e os anexos.

(21)

3

adaptação linguística e cultural por um painel de especialistas na área da voz obtendo

-se, assim, a versão final da escala GRBASH para a língua portuguesa, traduzida e adaptada. A versão final foi aplicada numa amostra de 80 indivíduos de ambos os sexos, com uma média de idades de 51,5 anos (DP= 14,7) aos quais foi gravada a sustentação da vogal /a/, em altura e intensidade “confortáveis” para o participante. Estas amostras vocais foram, posteriormente, analisadas percetiva e acusticamente. Na consulta de especialidade de Otorrinolaringologia (ORL), na instituição hospitalar onde se procedeu à recolha da amostra, foram obtidos os diagnósticos laríngeos e registados em folha própria construída para o efeito. A escala foi submetida a análise psicométrica, onde se analisou a consistência interna, a validade do conteúdo, construto e de critério. Foram identificadas associações entre a avaliação percetivo-auditiva, medidas acústicas e

variáveis atributo – sociodemográficas, clínicas e comportamentais. Os participantes preencheram o termo de consentimento livre e informado.

Uma das limitações deste estudo é o facto da avaliação percetivo-auditiva ser um tema de investigação científica controverso, devido às divergências na fiabilidade intra e inter-avaliador. No entanto, é de salientar o facto de os especialistas que compõem o painel de peritos do presente estudo terem experiência na área da voz, exercendo a sua atividade em serviços de ORL de hospitais de referência em Portugal. Outra limitação do estudo refere-se à dimensão da amostra ser reduzida e obtida por conveniência (não probabilístico). O uso de vogais sustentadas é a amostra vocal mais usada para a obtenção de dados sobre a qualidade vocal, pois são mais ou menos estáveis e não possuem variações de entoação e efeitos de coarticulação, sendo também vantajosas para a obtenção de jitter (Askenfelt e Hammarberg, 1986; Laver et al., 1992; Scherer et al., 1995 cit. in Guimarães 2007). No entanto, têm a desvantagem de não serem representativas da comunicação verbal, podendo “mascarar” os efeitos da disfonia (Guimarães, 2007).

Com a realização do presente estudo obteve-se uma escala de avaliação percetivo

(22)

4

II. ENQUADRAMENTO TEÓRICO

1. Avaliação Multidimensional da voz e suas associações

De acordo com Dejonckere et al. (2001) e Verdonck-de Leeuw et al. (1999) cit. in Uloza et al. (2013), a avaliação da disfonia e o diagnóstico das doenças laríngeas incluem, por norma, queixas do paciente, história clínica, avaliação percetivo-auditiva da qualidade da voz e avaliação da fisiologia laríngea através do uso de exames de visualização laríngea.

Gerrat, Till, Rosenbek, Wertz e Boysen (1991) cit. in Kreiman e Gerrat (2000) afirmam que o estudo da validade das escalas tradicionais para avaliar a qualidade vocal é fundamental, uma vez que são usadas na prática clínica para avaliar percetivamente as perturbações vocais. Maryn et al. (2009b) afirma que a avaliação clínica da disfonia depende, muitas vezes, de uma combinação de técnicas de avaliação percetivo-auditiva e acústica.

Segundo Kreiman e Gerratt (2000) as características das escalas de avaliação percetiva permanecem de uma forma constante, entre os ouvintes e as vozes, de forma a que diferentes ouvintes possam usar as escalas e, a avaliação das vozes seja comparada de forma significativa.

i.Qualidade vocal e disfonia

De acordo com Hirano e Bless (1993), Borden et al. (1994) e Stemple et al. (1995) cit. in Guimarães (2007), a fonação é um processo que resulta de uma modificação dinâmica de forças diversas, que requer conhecimento das seguintes teorias: (a) o padrão histológico da prega vocal (teoria do corpo e revestimento de Hirano, 1981); (b) a combinação das forças aerodinâmicas (pressão pulmonar e efeito de Bernoulli1_{; e (c)}

as propriedades elásticas dos tecidos (teoria mioelástica-aerodinâmica de Van den Berg,

(23)

5

1958). O equilíbrio entre as forças deve ser o mais harmónico possível, para que todo o ar que passe pela laringe seja sonorizado e que todo o som tenha a quantidade de ar suficiente para o fim desejado (Behlau e Pontes, 1989).

A fonação envolve a vibração das pregas vocais e a produção de um fluxo aéreo pela glote, não sendo exactamente os mesmos de ciclo a ciclo, originando instabilidades mecânicas e acústicas. Alguns níveis de instabilidade são considerados normais, no entanto, níveis mais elevados levam a qualidades vocais alteradas, podendo reflectir alterações laríngeas (Lieberman, 1963 cit. in Gama e Behlau, 2009).

Na definição de “voz normal” está subjacente o conceito de qualidade vocal e adequação, sendo que a qualidade está relacionada com a noção de “normalidade” e, em geral, identifica-se através de preceitos fisiológicos, percetivos e acústicos. O conceito

de adequação vocal pode configurar a situação de “desvio/variação” e “estilo”, sem que haja alteração da qualidade vocal (Guimarães, 2007).

Segundo Fourcin (2000) cit. in Guimarães (2007) o conceito de normalidade pode ser parcialmente subjetivo, determinado culturalmente, ou pode existir simplesmente no ouvido de quem ouve a voz.

De acordo com Soyama et al. (2005), a qualidade vocal relaciona-se com a ação conjunta da laringe com as estruturas supra-laríngeas, admitindo-se que a qualidade vocal resulta da combinação de ajustes laríngeos e supralaríngeos que ocorrem de forma constante, ao longo do tempo em que o indivíduo fala. Lima et al. (2005), Melo et al. (2003), Bele (2005), Hirano e Bless (2004) cit. in Braga et al. (2009) afirmam que a voz

é um das formas de comunicação com o exterior, sendo exclusiva dos seres humanos. Possui características individuais que variam de acordo com o sexo, faixa etária, para além de refletir o estado e o comportamento laríngeo, caracterizando a qualidade vocal.

(24)

6

padrão básico da emissão que o identifica (Behlau e Pontes, 1990). Kent (1996), afirma que a qualidade vocal é um complexo multidimensional de atributos correlacionados e que ainda há muito a ser investigado, de forma a definir os seus parâmetros acústicos e, analisar as formas como a experiência do avaliador influencia as avaliações da qualidade vocal.

A qualidade vocal ultrapassa a fronteira da normalidade e resulta em disfonia quando: a altura tonal, a sensação de intensidade e/ou a qualidade vocal são desagradáveis ou inadequadas para a idade e sexo do falante e inaceitáveis do ponto de vista social e/ou profissional (Pollow e Kaplan, 1980; Enderby e Emerson, 1995); o falante refere desconforto ou dor ao falar ou cantar; origina preocupação no próprio que necessita de ser resolvida (Verdolini e Ramig, 2001); o indivíduo apresenta história de queixas vocais e os clínicos observam sinais evidentes de disfonia (Verdolini, 1994) (Guimarães, 2007).

(25)

7

De acordo com Tsuji et al. (2011), a disfonia observa-se quando há uma rigidez na mucosa das pregas vocais, provocando uma diminuição dos harmónicos da voz, em que a sua qualidade se torna áspera e, quando durante a vibração não ocorre um encerramento completo, evidencia-se um escape de ar para o trato supraglótico, originando um ruído de fundo e uma voz soprada. O encerramento incompleto pode ser decorrente de uma lesão que, por efeito de massa, modifica a coaptação das pregas vocais.

Segundo Greene (1989), a disfonia pode ser causada por infeções do trato respiratório, devido ao mau uso vocal originando o esforço vocal, alterações estruturais que podem ser congénitas ou adquiridas, alterações do sistema de ressonância, lesões neuromusculares, perturbações neuróticas e psicogénicas e efeitos de terapia medicamentosa. O abuso vocal é uma das causas mais comuns da disfonia, estando a prevalência relacionada com o uso profissional da voz. As pessoas que usam a voz durante a atividade laboral são as mais suscetíveis a desenvolverem uma disfonia (Tsuji et al., 2011).

A disfonia pode estar relacionada com a interação complexa entre a existência ou não de patologia laríngea (padrão histológico, localização, tamanho da lesão, extensão e grau), a atividade laríngea (competência glótica, simetria, massa e tensão de ambas as pregas vocais e comportamentos compensatórios), bem como com o balanço entre fatores mecânicos e aerodinâmicos da fonação (Hirano, 1981; Laver, 1991; Hirano e Bless, 1993; Colton e Casper, 1996; Milutinovic, 1996) (Guimarães, 2007).

A terminologia usada na classificação da qualidade vocal varia muito e, por vezes, é ambígua. Os profissionais da voz usam termos pouco padronizados e, geralmente, adjetivos relacionados com os órgãos dos sentidos, como por exemplo: voz clara, rugosa, forçada, escura, vibrante, pálida, entre outros. Torna-se fundamental a padronização dos termos em uso na classificação da qualidade vocal (Pontes et al., 2002).

(26)

8

análise percetivo-auditiva. Muitos autores evitam estudar a qualidade vocal como um todo, e optam por estudá-la em dimensões ou aspetos específicos da qualidade vocal, como por exemplo, soprosidade, aspereza ou tensão.

A avaliação em terapia da fala revela-se como um instrumento eficaz para a verificação do sucesso terapêutico e cirúrgico. Da avaliação, deve constar o uso de testes subjetivos e objetivos que correspondem, respetivamente, à análise percetivo-auditiva vocal e a análise acústica do sinal sonoro (Behlau et al., 2001 cit. in Costa et al., 2008). Deve-se sempre correlacionar os dados acústicos com a história do indivíduo e com a avaliação percetivo-auditiva e a análise fisiológica da laringe, uma vez que, os dados isolados, não fornecem base consistente para o esclarecimento do diagnóstico, elaboração de um plano terapêutico adequado e análise pós-intervenções (Costa et al., 2008).

De seguida, abordar-se-ão os diversos exames laríngeos, medidas acústicas e avaliação percetivo-auditiva, nomeadamente, o uso da escala GRBASH – Scale for Evaluating the

Hoarse Voice.

ii. Avaliação da fisiologia laríngea

O diagnóstico preciso de uma alteração vocal exige um conhecimento amplo de aspetos funcionais e morfológicos da laringe, bem como o conhecimento das condições sociais e ambientais que envolvem o indivíduo com queixa de alteração da qualidade vocal (Vieira et al., 2006).

(27)

9

et al. (2005), a laringoscopia indireta assume-se como um método muito útil na deteção inicial (screening) de doenças da laringe. No entanto, podem ocorrer mais dificuldades na deteção de alterações mínimas. A laringoscopia indireta permite excluir a presença de doenças graves que, inicialmente podem cursar com a ausência de alterações vocais.

Esta técnica de visualização laríngea fornece informação essencial para delinear o plano terapêutico, incluindo a avaliação da saúde da laringe e estruturas subjacentes, o grau de laringite e a deglutição, bem como os movimentos das pregas vocais em posição de fonação (Greene, 1989).

Figura 1. Laringoscopia indireta (imagem retirada de Guimarães, 2007)

Outra técnica muito usada é a endoscopia rígida (Figura 2). Usa a via oral para a visualização da laringe, através de um endoscópio rígido de luz fria com 70 a 90º de angulação. As imagens são amplas, estáveis e nítidas (Yanigasawa et al., 1987 cit. in Guimarães, 2007). Tem como desvantagem o uso de uma vogal sustentada para a observação e o facto de ser uma técnica pouco tolerante ao reflexo de vómito anteriorizado. Os endoscópios podem estar conectados a um monitor, permitindo a impressão ou arquivo de imagem, sendo esta uma vantagem (Guimarães, 2007).

(28)

10

A endoscopia flexível ou fibroscopia laríngea (Figura 3) é uma técnica que usa um fibroscópio flexível introduzido por via nasal. Tem a vantagem, quando comparada com as técnicas descritas anteriormente, de permitir a observação das fossas nasais, da rinofaringe, da orofaringe e da laringe; da fonação em diferentes tarefas vocais como vogais sustentadas, fala e canto (Hirano e Bless, 1993; Stemple et al., 1995; Baken e Orlikoff, 2000 cit. in Guimarães, 2007). De acordo com Sataloff (2005) este exame permite a visualização das pregas vocais em pacientes que seja difícil a visualização de uma forma indireta. Possibilita observar o mecanismo vocal com uma postura mais natural que no exame laríngeo indireto permitindo, assim, uma avaliação adequada da dinâmica vocal.

Figura 3. Endoscopia flexível (imagem retirada de Guimarães, 2007)

(29)

11

De acordo com Martin e Lockhart (2010) o exame estroboscópico fornece informações precisas acerca das pregas vocais em diferentes fases do ciclo vibratório. A videoestroboscopia permite ao avaliador realizar um registo permanente dos padrões vibratórios das pregas vocais que podem ser usados para monitorizar o progresso do tratamento. No entanto, e apesar da estroboscopia oferecer um registo factual, a interpretação é subjetiva, por isso os médicos podem interpretar a mesma informação de forma diferente. Hirano e Bless (1993), Sataloff (2005), Woo (2010) e Mehta e Hillman (2012) cit. in Uloza et al. (2013) afirmam que, a laringoestroboscopia é o exame mais usado, na prática clínica para a visualização laríngea e a vibração das pregas vocais. É usado, assim, para detetar a causa da disfonia, aumentando a precisão do diagnóstico em 68,3%, de acordo com Paul et al. (2013) cit. in Uloza et al. (2013). Segundo Verdonck

-de Leeuw et al. (1999), Dejonckere et al. (2001) cit. in Uloza et al. (2013) e Sataloff (2005), este exame é uma ferramenta de imagem clinicamente viável e também usado para avaliar os resultados do tratamento de doenças laríngeas, bem como, os resultados funcionais de intervenções cirúrgicas. No entanto, para estes autores, o valor real deste exame para o diagnóstico, ainda necessita de mais evidência científica.

A eletroglotografia (EGG) é uma técnica não invasiva muito importante para avaliar a função laríngea. Baseia-se no princípio de que o tecido humano é um condutor de corrente eléctrica. Usando um circuito eléctrico, é possível analisar as alterações da transmissão da corrente, provenientes da mobilidade das estruturas, como as pregas vocais (Guimarães, 2007). Segundo Epstein (2011), a eletroglotografia é um exame não invasivo que permite a visualização das pregas vocais durante a fonação.

A videoquimografia é um método de avaliação laríngea realizada em tempo real, no qual os movimentos isolados na linha horizontal das imagens da onda mucosa são somados, representando a vibração das pregas vocais, num determinado ponto (simulando um corte). Este exame é pouco usado devido ao alto custo e à dificuldade de realização (Koishi et al., 2003 cit. in Fujita et al., 2004). Segundo Svec e Schutte (1996)

cit. in Fujita et al. (2004), esta técnica avalia de forma objetiva e possibilita a

(30)

12

vibração, a duração do encerramento glótico durante a fonação, assimetria das pregas vocais durante a fonação e analisa a origem da rouquidão ao nível da prega vocal.

Existem outras técnicas para examinar a vibração das pregas vocais incluindo o vídeo de alta-velocidade (digital ou analógico), electromiografia laríngea, foto

-electroglotografia e a glotografia por ultrassonografia (Sataloff, 2005; Xu e Han, 2011

cit. in Ma e Yiu, 2011).

Os diversos exames laríngeos que sejam confiáveis e válidos, são extremamente importantes e essenciais para a compreensão do exame físico da laringe. A familiaridade com alguns tipos de avaliação e o conhecimento dos avanços tecnológicos, tornam-se extremamente úteis e eficazes na prática clínica (Sataloff, 2005).

De acordo com a classificação de Verdolini (2006), as perturbações laríngeas agrupam

-se em nove grandes grupos: doenças estruturais da laringe, inflamações laríngeas, trauma ou lesão da laringe, condições sistémicas que afetam a voz, perturbações aerodigestivas não laríngeas, perturbações psiquiátricas e psicológicas, perturbações neurológicas e outras perturbações que afetam a voz, de causa não diagnosticada ou não especificada de outra forma.

Existem vários exames usados como diagnóstico das perturbações fisiológicas. A avaliação vocal inicialmente era realizada de forma subjectiva, através da análise percetivo-auditiva (Teixeira et al., 2011). Com a falta de consenso nesta avaliação por parte dos especialistas, tornou-se necessária a pesquisa de um tipo de avaliação objetiva, de forma a analisar a voz através de aparelhos que são capazes de medir vários parâmetros acústicos. Existe uma grande variedade de patologias laríngeas que causam mudanças significativas nos padrões vibratórios, alterando a qualidade da produção vocal (Teixeira et al., 2011).

iii. Análise acústica da voz

(31)

13

com e sem alterações, o que pode influenciar nos processos de diagnóstico e, consequentemente, na intervenção terapêutica (Camargo e Madureira, 2010).

A análise acústica resultou da evolução instrumental e assume-se como outro método de avaliar a voz de uma forma objetiva. Reflete-se no aumento da precisão do diagnóstico, identificação e documentação da eficácia do tratamento a curto e a longo prazo, fornecendo um “feedback visual” ao paciente (Carrara et al., 2001 cit. in Nemr et al., 2005). Fornece uma grande variedade de parâmetros acústicos e dados gráficos e numéricos, objetivos, da qualidade vocal (Vogel, 2011).

A análise informatizada multidimensional do sinal acústico da voz permite que se obtenham informações visuais e numéricas sobre a voz analisada. Tais programas de análise vocal têm como objetivo fornecer dados complementares à avaliação subjetiva da voz (Gama e Behlau, 2009; Petrovic-Lazic, et al., 2011; Teixeira et al., 2011). Os métodos de avaliação objetiva têm sido direcionados para o uso de sustentação de vogais, de modo a obter os parâmetros acústicos (Fourcin, 2000). Segundo Pinho (2001), para a análise da voz podem usar-se emissões prolongadas de vogais, nomeadamente a vogal /a/, na qual se deve eliminar o início e o fim da emissão onde ocorre instabilidade fonatória, de forma a obter dados mais fidedignos. É um método que se mostra útil em avaliações vocais e, no decorrer do tratamento vocal, no pré e pós

-operatório e na investigação científica (Pontes et al., 2002).

A análise acústica do sinal de fala representa uma ferramenta importante para a Terapia da Fala, de forma a permitir traçar estimativas do processo de produção sonora, sem a necessidade de técnicas invasivas ao aparelho fonador (Camargo e Madureira, 2010).

(32)

14

A análise acústica da fala pode ser usada para pesquisas, promovendo uma melhor compreensão da voz “normal” e patológica e avaliar a eficácia do tratamento (Choi et al., 2012). Este tipo de análise pode melhorar a capacidade de fornecer dados clínicos objetivos a vozes com lesões de massa laríngeas (Jiang et al., 2009). Este procedimento de análise permite instituir correlações entre aspetos percetivo-auditivos e fisiológicos da produção da fala, o que possibilita analisar o papel dos diversos segmentos do aparelho fonador (Camargo et al., 2004 cit. in Morais et al., 2013).

O processamento de sinais e respetivos algoritmos possibilita obter o traçado do formato da onda sonora, análise da F0, intensidade, medidas de perturbação como o

jitter e shimmer, e medidas de ruído, permitindo caracterizar a voz humana. Os

parâmetros acústicos vocais mais referenciados na literatura e usados na prática clínica são os valores de harmónico-ruído, F0 média e os índices de perturbação – jitter e

shimmer (Petrovic-Lazic et al., 2011 e Morais et al., 2013).

As medidas acústicas são geralmente obtidas de amostras de vogais sustentadas e não de fala encadeada. Segundo Parsa e Jamieson (2001), Murry e Doherty (1980) e Askenfelt e Hammarberg (1986) cit. in Maryn et al. (2010) afirmam que vários fatores têm

contribuído para esta preferência. A vogal sustentada comparativamente à fala encadeada não apresenta alterações rápidas de frequência devido a mecanismos glotais e supraglóticos; a vogal sustentada não contém segmentos de voz não vozeada, flutuações de frequência, amplitude e prosódia; as vogais não são afectadas pela velocidade de fala, pausas vocais, fenómenos de coarticulação; as vogais sustentadas podem ser produzidas com menos esforço e de uma forma mais uniforme do que a fala encadeada; e, por último, as vogais não são influenciadas por regionalismos e dialetos (Zraick et al., 2005; Maryn, De Bodt e Roy, 2010).

Eadie e Baylor (2006) e Parsa e Jamieson (2001) cit. in Maryn et al. (2010) afirmam

(33)

15

Frequência fundamental média

Os sons da fala são constituídos por ondas sonoras complexas. As vogais são ondas sonoras complexas periódicas, pois são constituídas pela combinação de ondas sonoras simples. A vibração das pregas vocais é a principal fonte sonora da fala, originando ondas sonoras periódicas complexas, ou tons. A frequência mais baixa de uma onda sonora complexa designa-se por frequência fundamental (F0) (Mateus et al., 2005 e Morais et al., 2013).

A frequência de uma onda é calculada pelo número de vezes que um ciclo completo de vibração se repete, durante um segundo, e é expressa em hertz (Hz) (Mateus et al., 2005). De acordo com Guimarães (2007), as unidades de medida usadas podem ser os ciclos por segundo (cps), o hertz (Hz), os semitons (ST) e/ou as oitavas, sendo que as medidas mais usadas na literatura são a média, a moda, o desvio padrão e a extensão da F0, a 90% e 95% (Guimarães, 2007). A frequência fundamental vocal (F0) ou frequência fundamental da fala é o conceito usado para mencionar o parâmetro físico que resulta da vibração das pregas vocais por unidade de tempo no comportamento vocal sustentado, ou em fala encadeada. Refere-se à eficiência do sistema fonatório, à biomecânica laríngea e à sua interação com a aerodinâmica (Guimarães, 2007). A frequência fundamental é também designada por pitch2_{(Shipley e McAfee, 2009).}

As pregas vocais humanas, num adulto, podem produzir valores de frequência fundamental (F0) que podem variar entre 50 a 500 Hz. A gama de variação de F0 de cada indivíduo depende de fatores físicos, como por exemplo a idade e o sexo. Sendo assim, a variação média de uma voz feminina encontra-se entre os 150 a 350 Hz e a da voz masculina entre 80 a 200 Hz (Mateus et al., 2005). Num estudo realizado por Braga et al. (2009), com o objetivo de determinar a F0 média de 50 meninos e 50 meninas, entre os seis e oito anos de idade, obtiveram um valor de 249,71 Hz. De acordo com Stone e Sharf, (1973), Preter e Swift, (1984) e Gordon, (1986) (citado por Freemam e Fawcus, 2004), a frequência vocal alterada é considerada como um importante aspeto da voz disfónica.

(34)

16

Segundo Murry e Brown, (1982) citados por Ryan, (1988), Fitch, (1990), Britto e Doyle, (1990), a frequência fundamental é relativamente mais alta em vogais sustentadas do que na leitura e no discurso espontâneo. Uma explicação para este facto pode ser o ajuste laríngeo que é relativamente estático durante a fonação sustentada, e que se associa à tendência para ser usado um tom mais elevado, comparativamente à fonação encadeada. Outra justificação poderá ser a atitude do sujeito quando lhe é pedido para produzir um som sustentado. Caso a duração do som seja demasiado curta, pode acontecer que o indivíduo não encontre a sua altura tonal habitual ou existirem interferências do volume respiratório (Murry et al., 1995) (Guimarães, 2007).

Num estudo realizado por Cerceau et al. (2009), com 96 idosos do sexo feminino, com idades compreendidas entre os 60 e os 103 anos de idade sem queixa de alterações laríngeas, obtiveram uma frequência fundamental média de 193,81 Hz (60-69A), 195,71Hz (70-79) e 187,60 Hz com mais de 80 anos de idade, para a sustentação da vogal /a/.

Santos (2005) cit. in Cerceau et al. (2009) caracterizou os parâmetros acústicos da voz de 180 sujeitos sem alteração laríngea, com média de idades de 62,35 anos, do sexo feminino, com o uso de sustentação da vogal /a/, tendo-se verificado uma frequência fundamental de 186,95Hz.

Dehqan et al. (2010) com o objetivo de determinar valores normativos de falantes iranianos, analisou numa amostra de 90 vozes (45 homens e 45 mulheres com idades compreendidas entre os 20 e 50 anos), através do software Dr. Speech (versão 4.0) com recurso a vogais sustentadas. Na vogal sustentada /a/, nas mulheres, obteve-se F0 de 214,64 Hz (DP=1,16) e, nos homens, 112,8 Hz (DP=1,49).

Jitter

(35)

17

A obtenção dos valores de “jitter“ pode ser realizada através de medidas absolutas ou relativas. As medidas absolutas ignoram a F0 do indivíduo. São obtidas através do fator de perturbação ou do fator de perturbação direcional. Os resultados são apresentados em segundos, milissegundos ou microssegundos (Jackson-Menaldi, 1992; Baken e Orlikoff, 2000 cit. in Guimarães, 2007).

Para a obtenção do jitter existem diversos algoritmos, tais como: jitter local, jitter local absoluto, jitter (RAP) e o jitter (PPQ5) (Cobeta e Núnez, 2013). De acordo com Boersma e Weenink (2003) (citados por Guimarães, 2007), o jitter local representa a diferença média absoluta entre 2 períodos consecutivos, divididos pelo próprio período médio. Designa-se a esse parâmetro jitt, e tem 0,040% como limite para detetar patologias.

Para uma boa precisão da medição de jitter é fundamental ter em atenção alguns pressupostos de natureza instrumental e processual: que seja medido apenas em vogais sustentadas; deve ser indicada qual a vogal usada para esta medição, uma vez que cada vogal apresenta valores próprios intrínsecos de frequência fundamental; ter em atenção que variações ao nível da intensidade podem ter consequências na obtenção do jitter; a F0 relaciona-se com as medidas relativas de jitter; gravações que apresentem ruído de fundo ou interferências invalidam a análise do jitter; a forma como se capta o sinal é fundamental; a frequência de amostragem e a dimensão da amostra (Guimarães, 2007).

A variabilidade do “jitter“ nas diferentes vogais, no adulto, continua a ser uma questão polémica na investigação científica. Nos estudos realizados não se observa que esta medida seja influenciada pelo tipo de vogal (Guimarães, 2007). Os dados do “jitter“ são úteis para a avaliação e validação da qualidade percetiva da disfonia, no entanto, não deve representar o único critério de diagnóstico das perturbações da voz (Lieberman, 1961, 1963; Iwata e von Leden, 1970; Hecker e Kreul, 1971; Horii, 1979; Rontal et al., 1983; Murry e Doherty, 1980; Heiberger e Horii, 1982; Askenfelt e Hammarberg, 1980, 1986; Hertrich e Ackermann, 1995; Yiu et al., 2000 cit. in Guimarães, 2007).

(36)

18

adultos. O jitter varia com a ausência de controlo de vibração das pregas vocais. As vozes de pacientes com patologias apresentam, frequentemente, uma maior percentagem de jitter (Guimarães 2007). Dehqan et al. (2010) não verificaram diferenças estatisticamente significativas na média do shimmer e jitter entre os dois sexos (amostra de 90 indivíduos entre 20 e 50 anos de idade) de falantes iranianos, com vozes normais.

Shimmer

O parâmetro acústico “shimmer“ é a medida que quantifica as alterações mínimas da amplitude do sinal, com base em cada ciclo fonatório (Baken e Orlikoff, 2000; Pinho et al., 2006; Dejonckere, 2010; Cobeta e Núnez, 2013 e Morais et al., 2013). Os estudos científicos sugerem que o “shimmer” é inversamente proporcional à intensidade vocal média, isto é, quanto maior a intensidade menor é o valor de “shimmer”, e vice-versa. Pode ser medido em dB (decibéis), como valor percentual (Hecker e Kreul, 1971) e como índice de variabilidade (Deal e Emanuel, 1978) (cit. in Guimarães, 2007). Segundo Cobeta e Núnez (2013) o valor médio de shimmer é de 7%, não havendo

diferenças relativamente ao género.

O shimmer é uma medida de irregularidade percentual na amplitude da nota vocal. É,

por vezes, referida como a perturbação da amplitude. Mede a variação da intensidade de ciclos glóticos adjacentes e altera-se com a diminuição da resistência glótica e lesões de massa nas pregas vocais, estando correlacionado com a presença de ruído à emissão e com a soprosidade (Teixeira et al., 2011).

De acordo com Boersma e Weenink (2003), existem diversas medidas para determinar o

shimmer, tais como o shimmer local (%), shimmer local (dB), shimmer (APQ3) e o

shimmer (APQ5). O shimmer local representa a diferença média absoluta entre as

amplitudes de 2 períodos consecutivos, dividida pela amplitude média. Designa-se a este parâmetro shim e tem 3,810% como limite para detetar patologias.

Segundo Murphy e Akande (2005) cit. in Teixeira et al. (2011) os valores normativos de

(37)

19

é considerado normal quando superior a 7dB, para ambos os sexos, na vogal sustentada /a/.

Bielamowicz et al. (1996), Kannell (1991) e Jones et al. (2001) cit. in Olszewski, et al. (2011), afirmam a existência de instabilidade vocal nos segmentos iniciais e finais da amostra vocal. Segundo Yu et al. (2001), Brockmann et al. (2008) cit. in Olszewski, et al. (2011) e Munoz et al. (2003), estes segmentos de onda são extremamente complexos devido às mudanças nos parâmetros aerodinâmicos e musculares presentes na emissão vocal. Segundo MacCallum et al. (2010), Jiang et al. (2009) e Scherer et al. (1988) cit. in Olszewski, et al. (2011), estas mudanças resultam em instabilidade nos valores de

shimmer, devido às alterações rápidas da F0, podendo levar a diagnósticos falsos e

impedindo um plano terapêutico adequado. Consequentemente, o segmento médio da emissão é, muitas vezes, o mais estável e, por isso, o mais selecionado para a análise acústica.

Titze (1995) cit. in Olszewski, et al. (2011), afirma que as medidas de jitter e shimmer permitem a deteção de alterações de massa e tensão nas pregas vocais. Os baixos valores destes dois parâmetros acústicos estão associados com a capacidade de manter a vibração periódica. Um elevado valor de jitter, e de shimmer, implica uma voz menos periódica e, geralmente, encontra-se associada à aspereza e/ou rouquidão.

Harmonic-to-Noise Ratio (HNR) ou Proporção harmónico-ruído (PHR)

O índice sinal-ruído relaciona a componente harmónica versus a componente de ruído da onda acústica (Cobeta e Núnez, 2013). Yumoto et al. (1982 citado por Baken e Orlikoff, 2000) consideram que a média do sinal-ruído é de 11,9 dB (DP=2,32). De acordo com Cobeta e Núnez (2013) o valor normativo é de 25,6 em indivíduos adultos. Segundo Behlau (1997) cit. in Guimarães (2007), a designação proporção harmónico

(38)

20

Num estudo realizado por Uloza et al. (2005) com o objetivo de investigar os parâmetros acústicos de qualidade vocal de indivíduos saudáveis (n=88) e de indivíduos com diversas patologias laríngeas, correlacionando as medidas objetivas com as subjetivas, de forma a comparar a qualidade vocal antes e após microcirurgia endolaríngea concluíram que nos indivíduos saudáveis, os valores acústicos para o sexo feminino: jitter (%) - 0,19 (DP=0,05), shimmer (%) - 1,80 (DP=0,52) e F0 (Hz) - 228,06 (DP=28,26). Para o sexo masculino: jitter (%) - 0,21 (DP=0,08), shimmer (%) - 1,58 (DP= 0,88) e F0 (Hz) - 123,50 (DP=20,50).

A análise acústica da voz com base nas medidas de perturbação tem sido objeto de estudo científico na área. A questão chave é a validade, nomeadamente a validade de critério, tendo a avaliação percetiva como o ponto de referência para a avaliação da qualidade vocal (Maryn et al., 2009a). A análise acústica fornece uma análise numérica que capta o grau de severidade da disfonia, permitindo o acompanhamento dos resultados do tratamento, e fornecendo um meio de comunicação relativamente acessível aos investigadores e/ou especialistas na área (Smits et al., 2005 cit. in Maryn et al. 2009a). No entanto, o argumento mais forte para o uso da análise acústica é a consistência, ou o facto de, para uma dada amostra vocal, o resultado permanecer inalterado. Dada esta vantagem, a investigação científica na área aborda os algoritmos da análise acústica e analisa a relação entre esta e a avaliação percetivo-auditiva da qualidade da voz (Maryn et al. 2009a).

Os instrumentos objetivos de avaliação da voz permitem aos clínicos o estudo dos parâmetros acústicos do sinal. Os instrumentos usados actualmente e disponibilizados comercialmente fornecem dados essenciais e fundamentais da qualidade vocal, como as medidas de perturbação da frequência fundamental (jitter), da amplitude (shimmer) e o ruído glótico – Noise-Normalized-Energy (NNE) (Gelfer, 1995; Huang et al., 1995;

Bough et al., 1996; Jones et al., 2001 cit. in Uloza et al., 2005). Valores elevados de

jitter, shimmer e NNE revelam associações com a presença de disfonia e patologias

laríngeas (Vieira et al. 2002; Baken e Orlikoff, 1992; Hartl et al. 2002 cit. in Uloza et al., 2005).

(39)

21

que os resultados normativos são fundamentais para a análise acústica. Esta avaliação da voz, incluindo da F0, jitter, shimmer, NNE e tempo máximo de fonação (TMF), são facilmente gravados e analisados por um computador. Entre os parâmetros acústicos, a F0 revelou ser a mais uniforme quando considerada em diferentes sistemas de análise acústica, e o menos sensível a características de gravação (Zeitels et al., 1997; Naufel et al., 2006 cit. in Dehqan et al., 2010). As medidas de variação de amplitude e ciclo a ciclo, jitter e shimmer, respetivamente, durante a sustentação de vogais, provaram ser úteis na determinação de valores normativos das características vocais e vozes disfónicas relacionados, respetivamente, com a rouquidão e a aspereza (Morais et al., 2013).

iv. Avaliação percetivo-auditiva da voz

A terminologia “avaliação percetiva”, em detrimento da “avaliação psicoacústica”, foi proposta por Fex (1992) e recomendada como terminologia standard pelo Comité de Voz da International Association of Logopedics and Phoniatrics (IALP) (Bless e Baken,

1992 cit.in Guimarães, 2007).

A avaliação percetivo-auditiva da função vocal iniciou-se no século XIX, com a aferição subjetiva da voz, exigindo somente o ouvido humano como instrumento de avaliação. Esta prática tem sido usada, atualmente, para detetar alterações, procurando um equilíbrio do que se vê e se ouve do sujeito, para análise e interpretação dos resultados, compreendendo a dinâmica individual de cada um com a sua própria voz e as suas características de comunicação (Ferreira et al., 1998 cit. in Nemr, et al., 2005). É um método subjetivo que pode variar de acordo com os avaliadores, dos seus conceitos pessoais acerca da qualidade vocal, competências de perceção, discriminação e experiência (Pontes et al., 2002).

(40)

22

Muitos protocolos – com o objetivo de avaliar as vozes patológicas – incluem a avaliação da qualidade vocal, nomeadamente a escala GRBAS (Hirano, 1981), a Wilson

Voice Profile (Wilson, 1977), a GIRBAS (Grade, Instability, Roughness, Breathiness,

Asteny e Strain) (Dejonckere et al., 1996), o Laver’s Voice Profile Analysis (Wirz e

Beck, 1995), o (I)INFVo (Impression, Intelligibility, Noise, Fluency, Voicing)

(Moerman et al., 2006; a,b), a RASAT (Rouquidão, Aspereza,Soprosidade, Astenia,

Tensão) (Pinho e Pontes, 2002), a RASATI (Rouquidão, Aspereza,Soprosidade, Astenia, Tensão, Instabilidade) (Pinho e Pontes, 2008), o CAPE-V (Consensus Auditory Perceptual Evaluation of Voice) e GRBASH (Grade,Roughness, Breathiness, Asteny, Strain, Harshness) (Nemr e Lehn, 2010). Algumas escalas de avaliação percetiva

analisam apenas o nível laríngeo (fonte) como por exemplo a escala GRBAS, de Hirano (1981). No entanto, o número de parâmetros de avaliação pode variar entre cinco, no caso da GRBAS, 12 no Buffalo II BVP (Buffalo III – Voice Screening Profile) (Wilson, 1987) e 31, no VPA (Voice Profile Analysis, de Laver) (Guimarães, 2007).

As escalas usadas divergem entre categóricas, como por exemplo a GRBAS (Hirano, 1981), visuais analógicas, intervalares, de estimativa direta, de magnitude e de comparação de pares (Verdonck-de-Leeuw, 1998; Carding et al., 2000 cit. in Guimarães, 2007).

O tipo de amostra vocal usada na avaliação percetivo-auditiva é uma questão fundamental e tem sido investigada por vários autores (Maryn et al., 2010). Krom (1994) e Revis (1999) cit. in Maryn et al. (2010) observaram que existe uma diferença significativa entre as avaliações de uma vogal sustentada e a fala encadeada. Wolfe et al. (1995) ratificaram estes achados.

Zraick et al. (2005) investigou o efeito da fala na avaliação percetivo-auditiva da disfonia, com as tarefas de vogal /a/ sustentada, leitura oral e fala encadeada. O estudo revelou diferenças estatisticamente significativas entre a fala encadeada e a sustentação da vogal, não se obtendo diferenças na leitura oral e fala encadeada. Hammarberg et al. (1980) e Yiu et al. (2000) cit. in Zraick et al. (2005) afirmam que os estudos da

(41)

23

padronizada, porque são fonações relativamente estáveis e menos influenciadas pela articulação e interferências dialectais. No entanto, a fala encadeada é mais representativa da qualidade vocal. Segundo Hammarberg, et al. (1980) cit. in Maryn, De

Bodt e Roy (2010), a inclusão de diversas tarefas, como por exemplo a fala encadeada e a vogal sustentada, são fundamentais uma vez que as inconsistências típicas verificadas na fala encadeada não se observam na vogal sustentada, como é o caso de modulações prosódicas e quebras de sonoridade, que podem ser decisivas na avaliação percetivo-auditiva da voz. Yiu, et al. (2000) cit. in Maryn, De Bodt e Roy (2010), consideram que

os sintomas da disfonia emergem da tarefa de conversação e não da sustentação de vogais (exceto na voz cantada), e são normalmente reveladas pelos pacientes como dificuldades na fala.

Patel e Shrivastav (2007), Hakkesteegt et al. (2008) e Chan (2011) referem que a abordagem na avaliação percetivo-auditiva da voz, normalmente, varia em quatro aspetos: na terminologia usada para descrever os parâmetros percetivo-auditivos da qualidade vocal, o tipo de escalas usada na avaliação e, material de voz analisado, no tipo de referenciais internos e treino auditivo do avaliador. Estas variações influenciam a consistência da avaliação vocal e, reforçam a dificuldade de comparar resultados clínicos e científicos.

Segundo Fex (1992) cit. in Guimarães (2007), as diferenças qualitativas e quantitativas existentes entre os diferentes avaliadores resultam do facto de não existir uma definição universal e standardizada de voz “normal”. Esta pode ser definida de acordo com características estruturais e funcionais, enquanto outros podem dar ênfase a aspetos linguísticos e estéticos. A não existência de protocolos percetivo-auditivos estandardizados dificulta a comparação de resultados científicos (Sataloff, 2005).

(42)

24

Num estudo realizado por Silva et al. (2012) com o objetivo de analisar o impacto do treino auditivo na avaliação percetivo-auditiva da voz, em estudantes de terapia da fala, concluíram que o treino auditivo potencializa as competências iniciais dos alunos para a realização da avaliação. Alguns autores referem que, mesmo entre os terapeutas da fala com treino específico para realizar esta avaliação verifica-se que, na comparação de diferentes formas de diagnóstico, a avaliação percetivo-auditiva apresenta baixa capacidade discriminatória e baixa confiabilidade, ao estabelecer condições de normalidade ou de alteração vocal (Dornelles et al., 2001 cit. in Nemr, 2005; Silva et al., 2012).

Buekers (1998b) cit. in Guimarães (2007) observou que as avaliações percetivas de profissionais experientes (terapeutas da fala e especialistas em voz) e não experientes (estudantes de terapia da fala), não eram significativamente diferentes. No entanto, verifica-se uma variabilidade menor em profissionais experientes comparativamente com os estudantes de terapia da fala. De acordo com Bassich e Ludlow (1986) cit. in Guimarães, (2007) observam-se valores muito diferentes de fiabilidade intrajuízes (0,78 para terapeutas da fala e 0,40 para estudantes inexperientes).

A avaliação percetivo-auditiva requer que o ouvinte julgue a amostra de voz de acordo com vários parâmetros da qualidade vocal. De acordo com Fex (1992) cit. in Guimarães (2007), o ouvinte realiza uma comparação entre um número de qualidades que é capaz de ouvir na voz do falante e aquelas que, na sua opinião, devem ser consideradas como normais.

A avaliação percetivo-auditiva apresenta limitações: a confiabilidade intra e interavaliadores (Ludlow, 1981); não proporciona medidas objetivas (Liss e Weismer, 1992); e, não existe um conjunto de escalas percetivas de aceitação comum (Yumoto et al., 1982) (Freemam e Fawcus, 2004). Segundo Hakkesteegt et al. (2008), a avaliação percetivo-auditiva é a forma mais simples de descrever o som da voz, sendo útil na prática clínica, no entanto, tem limitações como a precisão da avaliação, ser uma avaliação de difícil comparação de resultados.

(43)

25

especialistas da área. A voz é medida, principalmente, através da avaliação percetiva, que pode ser definida como uma interação entre um estímulo de voz e o ouvinte. Esta avaliação tem sido referenciada como o padrão-ouro, para relacionar a qualidade vocal e medidas acústicas. Frequentemente, a perceção da qualidade de voz é o que leva o sujeito a procurar tratamento. Embora seja a avaliação mais usada, a comunidade científica sugere que existe pouca confiabilidade na perceção da voz (Sofranko e Prosek, 2012).

Shrivastav et al. (2005) cit. in Sofranko e Prosek (2012), referem que a avaliação percetivo-auditiva da qualidade vocal pode estar influenciada pelo grau de experiência do avaliador. Aumentando os anos de experiência, os avaliadores são capazes de usar recursos adicionais e/ou diferentes recursos dentro do sinal acústico para classificar a voz, podendo este dado explicar as diferenças encontradas entre avaliadores experientes e inexperientes. Como amostra, analisaram 18 amostras da vogal sustentada /a/ com voz normal, 18 amostras de vogal sustentada /a/ com uma voz soprada e 18 amostras da vogal sustentada com presença de rouquidão. As vozes foram classificadas como normais ou patológicas pelos autores. As classificações de soprosidade e rouquidão foram também determinadas pelos autores, bem como através de medidas acústicas relacionadas com a proporção harmónico-ruído (NHR) para a qualidade de voz soprosa; e medições de jitter e de shimmer, para a rouquidão. Os resultados mostraram que, a proporção harmónico-ruído tem-se revelado correlacionada com a perceção da qualidade da voz soprosa e, o jitter e shimmer com a perceção da qualidade rouca.

(44)

26

Num estudo realizado por Webb et al. (2004), com o objetivo de avaliar a confiabilidade de três escalas de avaliação percetiva vocal – Buffalo Voice Profile, Vocal Profile

Analysis Scheme (VPA) e a GRBAS – concluiram que a escala GRBAS é a que fornece

maior confiabilidade para o uso clínico.

Bassich e Ludlow (1986), Kingholz (1990) sugerem o uso de fala encadeada em vez de vogais sustentadas, sendo a prova de fala encadeada a mais complexa e que contém mais aspetos de desvio da qualidade vocal. Shipley e McAfee (1992) cit. in Guimarães (2007) salientam a importância de um corpus representativo da performance do indivíduo e propõem a conversação, a descrição de imagens, narrativas através de imagens ou a leitura. No entanto, e segundo Mary et al. (2010), para melhorar a validade da avaliação percetivo-auditiva, devem incluir-se vogais sustentadas e fala

encadeada, demonstrando a utilidade destas duas provas, tanto na avaliação percetivo

-auditiva como na análise acústica.

No Consensus Auditory-Perceptual Evaluation of Voice (CAPE_V) Kempster et al.

(2009) cit. in Law et al. (2012) recomendam o uso de sustentação de vogais, leitura de frases e a tarefa de conversação como tarefas de fonação para a obtenção da amostra de voz. É consensual, na investigação científica, o uso de amostras vocais para a avaliação percetiva composta por sustentação de vogais, tarefas de leitura e de conversação, sendo estas as mais frequentes (Law et al., 2012).

(45)

27

GRBASH – Scale for Evaluating the Hoarse Voice

O Comité dos Testes de Função Fonatória da Sociedade Japonesa de Logopedia e Foniatria propôs, em 1969, a "GRBAS" – Scale for Evaluating the Hoarse Voice tendo sido publicada em 1981, por Hirano. Esta é composta por cinco parâmetros: G-grade;

R-rough; B-breathy; A-asthenic e S-strain. O parâmetro G – grade representa o grau de

disfonia ou voz “anormal”. Os restantes 4 parâmetros referem-se a diferentes aspetos da qualidade vocal. O parâmetro R- rough relaciona-se com uma sensação psico-acústica

de rugosidade ou irregularidade de vibração das pregas vocais, que corresponde às flutuações irregulares na frequência fundamental e/ou na amplitude do sinal de fonte glótica. O parâmetro B – breathy refere-se a uma sensação psico-acústica de escape de ar através da glote. O parâmetro A- asthenic revela fraqueza ou falta de projeção vocal.

Está relacionado a uma fraca intensidade do som e/ou falta de harmónicos superiores. O parâmetro S- strained representa uma sensação psico-acústica de um estado

hiperfuncional de fonação. Está, normalmente, relacionado com as altas frequências, ruído na faixa de alta frequência e/ou riqueza em harmónicos de alta frequência. As vozes disfónicas podem ser avaliadas com o uso desta escala. A classificação de 4 pontos é usada para cada parâmetro: 0-não rouca ou normal, 1-alterações ligeiras, 2

-moderadas, 3-severas. O Comité considera que a avaliação psico-acústica usando a escala GRBAS não é um método absoluto, mas que precisa de ser melhorado (Hirano, 1981).

(46)

28

Behlau e Pontes (1995) cit. in Guimarães (2007) traduziram e adaptaram a GRBAS, originando a RSATIN (rouquidão, soprosidade, astenia, tensão, instabilidade e nasalidade). Nesta adaptação, adicionaram o parâmetro de nasalidade, que não existia na escala original.

Posteriormente, Dejonckere et al. (1996) e Piccirillo et al. (1998) cit. in Guimarães (2007) consideraram importante incluir o parâmetro instabilidade, dando origem à GRBASI. Pinho (2002) cit. in Guimarães (2007), adota no Brasil a sigla RASAT (rouquidão, aspereza, soprosidade, astenia e tensão). Em Portugal, usa-se a sigla da escala original – GRBAS, pois não é comum fazer-se a tradução de siglas, permitindo uma identificação mais fácil com a literatura internacional ou a escala RASAT. Nos estudos realizados por Dejonckere et al. (1993); De Bodt et al. (1997); Oates (2009); Gould et al. (2012) e Moers et al. (2012), verificou-se uma fraca reprodutibilidade dos parâmetros de “instabilidade”, “tensão” e “astenia” tendo estes sido retirados do protocolo de avaliação da função vocal da European Laryngological Society (Dejonckere et al., 2001) e do protocolo de avaliação vocal Alemão (German RBH

evaluationscheme).

A GRBAS é um instrumento de avaliação útil para o despiste e/ou diagnóstico diferencial das perturbações da voz, no entanto, é extremamente limitada para o âmbito da intervenção terapêutica e/ou (re)educação vocal, pois não inclui aspetos supralaríngeos (trato vocal) ou outros que surgem, como por exemplo no Buffalo II

Voice Screening Profile (Wilson, 1987) e no Vocal Profile Analysis Protocol – VPA, de

Laver (1991) (Guimarães, 2007). No entanto, Hartl et al. (2003) cit. in Hakkesteegt, et al. (2008), afirmam que a escala GRBAS carece de estudos de análise de sensibilidade e especificidade, revelando-se um instrumento com lacunas. Na prática clínica, a GRBAS e escalas similares são as mais usadas, considerando-se eficientes para a avaliação percetivo-auditiva da voz. De Bodt et al. (1997) e Dejonckere et al. (1996), concluíram

que os parâmetros “soprosidade” e “rouquidão” apresentam uma boa consistência inter

e intra-avaliador. A análise da confiabilidade da escala GRBAS revelou boas evidências de que é uma medida simples e confiável para o uso clínico (Webb et al., 2004 cit. in

Dejonckere, 2010). Os parâmetros “astenia” e “tensão” revelaram ser menos