!!!!!!!!!!!!!!! Relatório Final - PDI!

(1)

!

Faculdade De Engenharia da Universidade do Porto!

Mestrado Integrado em Engenharia Electrotécnica e de Computadores! Preparação da Dissertação - 2013/14!

!

Relatório Final - PDI!

!

Monitorização Preventiva de Voz Falada ou Cantada!

!

Hugo Daniel Alves Martins de Carvalho! 200800581!

!

(2)

!

(3)

INDÍCE!

!

Introdução!

6!

1.1 Contexto! 6! 1.2 Motivação! 6! 1.3 Objetivos! 7! 1.4 Estrutura! 7!

Estado da arte!

7!

2.1 A voz! 7!

2.1.1 Sistema produtor de voz! 7!

2.1.2 A avaliação da voz! 8! 2.1.2.1 A avaliação acústica ! 8! 2.1.2.2 A avaliação percetiva ! 9! 2.1.3 Modelo Acústico-Preceptivo! 10! 2.2 Mecanismos existentes! 11! 2.2.1 Praat! 12! 2.2.2 VoiceStudio! 13! 2.2.2 Masterpitch! 14!

Caraterização detalhada dos problemas a tratar!

14!

3.1 Cenários Experimentais! 15! 3.2 Descrição da aplicação! 15! 3.2.1 Funcionalidades! 15! 3.2.2 Hardware/Software! 15!

Plano de trabalho!

16!

REFERENCIAS BILIOGRÁFICAS!

17!

(4)

LISTA ABREVIATURAS!

!

ARTTS - Assistive Real-Time Technology in Singing!

FEUP - Faculdade de Engenharia da Universidade do Porto!

!

FCT - Fundação para a Ciência e Tecnologia!

!

RASATI - Escala de avaliação perceptiva utilizada!

!

HNR - Harmonic-to-Noise Ratio, proposta por Yumoto et al., 1982! F0 - Frequência Fundamental!

!

(5)

!

LISTA DE FIGURAS E TABELAS!

!

Figura 1 - Sistema produtor de voz!

8!

Tabela 1 - Fonetograma!

10!

Figura 2 - Espectograma!

11!

Figura 3 - Fonetograma!

11!

Figura 4 -Plano das Vogais!

12!

Figura 5 - Espectograma!

12!

Figura 6 - Plano das Vogais!

12!

(6)

!

Capítulo 1!

!

Introdução!

!

1.1 Contexto!

!

A voz humana, enquanto ferramenta fundamental de comunicação, tem sido motivo de um vasto número de estudos, nos vários quadrantes da investigação. O aparelho fonatório - responsável pela produção de sons inteligíveis - é um sistema complexo, cujo funcionamento assenta na articulação de vários órgãos, podendo assim manifestar perturbações médicas de natureza física, psicológica e até de postura.!

!

Esta investigação surge com uma preocupação médica e fisiológica, complementando o projeto ARTTS - Tecnologia de Apoio em Tempo-Real ao Canto, financiado pela FCT, que, além da monitorização preventiva de voz, tem como objetivo o desenvolvimento de tecnologias de apoio ao ensino e aprendizagem de canto, materializando-se através da sinergia entre várias entidades, ligadas à engenharia, música, medicina e terapia da fala.!

!

Em suma, este trabalho prevê uma discussão estruturada em torno da análise critica das características acústicas e perceptivas da voz na sua reprodução cantada e falada, bem como da produção de mecanismos que se assumam ferramentas de estudo da relação destas matérias.!

!

1.2 Motivação!

!

O tema desta dissertação: “Monitorização preventiva de voz falada ou cantada” visa o desenvolvimento de uma aplicação que suporte, em tempo-real, funcionalidades de monitorização de voz falada ou cantada.!

!

Mostra-se interessante segundo duas vertentes: a médica e a tecnológica. Na primeira, com o propósito de reconhecimento e sinalização de fatores de risco que, previamente detetados, podem prevenir afonias, disfonias ou patologias vocais; imprimindo na segunda uma tónica de inovação e desafio na produção de mecanismos.!

!

(7)

!

1.3 Objetivos!

!

Esta fase de desenvolvimento do ARTTS compreende a o estudo e implementação algorítmica da relação entre as características subjetivas e parâmetros acústicos da voz que constitui o modelo de avaliação perceptiva da mesma.!

!

Na prossecução dos objetivos propostos, prevêem-se as seguintes fases de desenvolvimento:!

• Analisar soluções similares existentes no mercado;! • Familiarização com trabalhos de investigação anteriores!

• Colaboração com membros da equipa do ARTTS na identificação e levantamento de dados para o desenvolvimento do projeto!

!

• Implementar uma aplicação multimédia em C++ com funcionalidades de medição dos parâmetros acústico-perceptivos da voz, em tempo real!

!

1.4 Estrutura

!

Este documento está organizado da seguinte forma: No Capítulo 2 apresenta-se o estado da arte. O Capítulo 3 providencia a metodologia a seguir para atingir os objetivos deste trabalho. No Capítulo 4 é descrito o plano de trabalhos da dissertação. Finalmente, o Capítulo 5 apresenta as conclusões obtidas.!

!

Capítulo 2!

!

Estado da arte!

!

2.1 A voz!

!

A disposição deste capítulo prende-se com a necessidade de um enquadramento fisiológico, acústico e perceptivo do que é o aparelho fonador e da sua ação enquanto órgão reprodutor da voz.!

!

2.1.1 Sistema produtor de voz!

(8)

No campo fisiológico, a voz é o resultado de um conjunto de processos biomecânicos e acústicos que ocorrem no aparelho produtor de voz. Basicamente, este sistema é composto por dois tipos de estruturas: as que produzem fluxo de ar e o moldam em padrões audíveis, e as que têm a função de ressonância e amplificação, de regiões espectrais específicas da voz [Probst2006]. !

Figura 1 - Sistema produtor de voz!

!

Ainda, para além destas estruturas essenciais para a produção da voz, encontram-se os órgãos da articulação, responsáveis pela modificação do tracto vocal, com o fim de produzir e de tornar possível a coordenação dos diversos sons [Kent2004]. Na Figura 1 são apresentadas as estruturas mais relevantes que integram o aparelho de produção da voz.!

A fisiologia do sistema produtor de voz é analisada com o objectivo de introduzir conceitos importantes para a compreensão dos modelos e dos fenómenos inerentes à diversidade acústica da voz.!

!

2.1.2 A avaliação da voz!

!

A voz pode ser caraterizada, em cada vertente, com recurso a parâmetros. Estes parâmetros serão definidos de forma a integrar e unificar as definições existentes na literatura, pelo que analisaremos as vertentes: Acústica e Perceptiva; para posterior estabelecimento de relações entre as duas.!

2.1.2.1 A avaliação acústica !

O método acústico propicia as designadas medidas objetivas, ou seja, dados que são extraídos através de um processamento computacional adequado. !

(9)

Permite a especificação detalhada do processo de geração do sinal sonoro, fornecendo uma estimativa indireta dos padrões vibratórios das pregas vocais, bem como dos

formatos do trato vocal supraglótico e das respetivas modificações (Hirano & Bless,1997; Vogel, 2011).!

Frequência Fundamental - corresponde à velocidade na qual uma forma de onda se repete por unidade de tempo, no comportamento vocal sustentado ou em fala encadeada (Buder, 2000; Behlau, 2001). Assim, reflete o número de ciclos vibratórios produzidos pelas pregas vocais, num segundo (Pinho, 2003; Seikel et al., 2010).!

Jitter - é uma medida de curto termo (ciclo a ciclo), de variabilidade não voluntária na F0 ou período (Titze, 1995; Baken & Orlikoff, 2000; Pinho et al., 2006; Mora et al., 2009; Dejonckere, 2010; Manfredi et al., 2012). Não deve ser confundida com a medida do grau de oscilação de baixa frequência que forma a base do vibrato ou do tremor (índices de perturbação da frequência a longo prazo). !

Shimmer - quantifica as alterações mínimas da amplitude do sinal, a curto prazo, com base em cada ciclo fonatório (Baken & Orlikoff, 2000; Buder, 2000; Pinho et al., 2006; Dejonckere, 2010). Se o sistema fonador fosse completamente estável ele seria zero. O shimmer indica a pequena variabilidade entre os sucessivos ciclos glóticos.!

HNR - é uma avaliação objetiva, isto é, de base matemática, que relaciona a componente periódica e aperiódica (Guimarães, 2007) que compõem um segmento de fala sustentada, estimada com base na análise de pelo menos 50 ciclos glotais consecutivos (Yumoto, 1983; Yumoto et al. 1984).!

!

2.1.2.2 A avaliação percetiva !

É um teste subjetivo fundamentado, essencialmente, na impressão do avaliador sobre a voz do utente. Desta forma, o seu resultado materializa-se sob influencia do nível de experiência do avaliador, pelo material de voz analisado, pela sua qualidade, pelo grau de desvio da qualidade vocal e pela escala utilizada na tarefa.!

!

Para este tipo de avaliação, recorre-se normalmente à escala RASATI, uma adaptação para o português da escala GRBASI, elaborada pela Sociedade Japonesa Logopedia e Foniatria e divulgada por Hirano, no ano de 1981. Pinho e Pontes (2002) adaptaram esta escala, de forma a adequar e facilitar o processo de triagem vocal percetiva ao nível glótico, pois, na tradução fiel, alguns termos não contemplavam o aspeto percetivo específico (Mendonça 2007). A escala RASATI, avalia os parâmetros de rouquidão (R), aspereza (A), soprosidade (S), astenia (A), tensão (T) e instabilidade (I).!

!

Rouquidão - irregularidade da vibração da mucosa causada por presença de uma fenda glótica ou por alteração orgânica da mucosa. Apresenta-se em casos como a presença de nódulos e edemas. A rouquidão surge em casos de excesso de muco [Boone2003] ou por perda de adução das pregas vocais [Lehto2007]. Muitas vezes é referida como uma combinação de soprosidade e aspereza [Boone2003]. !

!

Aspereza - elevado nível de aperiodicidade na vibração. Uma possível causa desta característica consiste na compressão excessiva ou hiperfunção adutora das pregas vocais [Laver80]. A causa mais frequente é a rigidez da mucosa que conduz a uma vibração irregular das pregas vocais e também à origem de uma fenda glótica que

(10)

provoca uma perda rápida de ar [Pinho2008]. Da mesma forma que a rouquidão, a aspereza está associada aos fenómenos de ruído que ocorrem na produção da voz, no entanto, a aspereza está associada as perturbações de frequência e a ruído com uma tonalidade aguda [Pinho2008]. !

!

Soprosidade - vibração não eficiente associada ao escape de ar entre as pregas vocais, muitas vezes causado por um encerramento incompleto (fenda glótica) [Laver80]. Tal facto permite inferir que as vozes soprosas caracterizam-se por valores baixos de frequência fundamental. A soprosidade está perceptivamente associada ao ruído de fundo. A voz soprosa tem um som semelhante a um suspiro ou pode ser considerada como uma mistura de vozeamento com expiração [Laver80]. !

!

Astenia - mau desempenho das estruturas com função adutoras e à baixa energia de emissão sonora [Pinho2008]. Manifesta-se em vozes de intensidade baixa (presença reduzida de harmónicos).!

!

Tensão - excesso da adução glótica associada ao esforço vocal, aumento da actividade dos músculos extrínsecos da laringe ou pela elevação da laringe [Oates98]. Este excesso muscular pode incluir estruturas supra-glóticas na laringe como as pregas ventriculares.!

!

Instabilidade - relacionada com a alteração de frequência fundamental ou qualidade vocal, com oscilações de ligeiras a evidentes ou quebras. A instabilidade na emissão de uma vogal prolongada pode indicar desde falta de treino vocal, alterações emocionais ou manifestação de doenças neurológicas.!

!

2.1.3 Modelo Acústico-Preceptivo!

!

Importa, para o desenvolvimento sustentado deste projeto, estudar de que forma se relaciona a avaliação perceptiva dos peritos com a que é matemática e computacionalmente fundamentada. Assim, no âmbito da cooperação com a terapia da fala, desenhou-se o que iremos utilizar enquanto quadro de correlação dos parâmetros de avaliação vocal, para que se se possa implementar um mecanismo que contemple esta análise em tempo real, como é pretendido neste trabalho de dissertação.!

O relatório feito pela terapeuta da fala em colaboração com o ARTTS compreende um estudo sobre esta relação baseado no Coeficiente de Correlação Spearman Rank, que obtém as seguintes correlações:!

!

Tabela 1 - Fonetograma!

!

Desvio-Padrão F0 Shimmer Jitter HNR

Rouquidão x

Aspereza x x

Soprosidade x x x

(11)

Após a repetição deste processo pelo teste estatístico de Kruskal-Wallis, o relatório conclui o disposto na relação estabelecida na Tabela 1, o que a materializa na base de trabalho para a construção dos critérios de avaliação da aplicação.!

!

Ainda assim, o mesmo relatório explana a necessidade de uma investigação na matéria da correspondência entre estes parâmetros, o que pode, certamente, comprometer a acuidade científica desta investigação.!

!

2.2 Mecanismos existentes!

!

Atualmente existe uma série de programas de captação de áudio que poderão servir de base de trabalho no cumprimento dos objetivos traçados. Ainda assim, numa ótica de maior detalhe e evolução, convém-nos estudar ferramentas que, aliadas a esta componente da captação tenham também robustez no tratamento de sinal, nomeadamente no cálculo dos parâmetros acústicos.!

De entre os métodos software fidedignos de análise acústica da voz destacam-se: o Espectograma (informação de ressonância do tracto vocal), o Fonetograma (intensidade da voz em dB) e o Plano das Vogais (visualização gráfica das duas primeiras frequências formantes).!

Figura 2 - Espectograma!

(12)

Figura 4 -Plano das Vogais!

!

Desta forma, e do ponto de vista da integração de funcionalidades acima referida, parece-me pertinente o estudo de três programas: Praat, VoiceStudio e MasterPitch.!

!

2.2.1 Praat!

!

O Praat é um software open source que integra várias funcionalidades de análise de sinais de voz, proporcionando um vasto número de métodos de medição: perturbação da frequência fundamental, amplitude, ruído, e ainda análise espectral. !

Figura 5 - Espectograma!

Figura 6 - Plano das Vogais!

!

Este software é essencialmente orientado para as áreas de análise acústica de sinais de voz disfónica, como a Terapia da Fala.!

!

(13)

!

2.2.2 VoiceStudio!

!

Desenhado pela empresa SEEGNAL, o VoiceStudio é um ambiente poderoso de análise e processamento de sinais, especialmente vocacionado para a análise e diagnóstico de sinais de voz.!

Como indicado na descrição do programa, o VoiceStudio suporta, entre outras, a funcionalidade de “…reprodução selectiva de cada região vozeada e a obtenção dos principais parâmetros objectivos de qualidade da voz, nomeadamente frequência fundamental (F0), perturbação de frequência (jitter), perturbação de amplitude (shimmer), relação harmónicos-ruído (HNR) e energia,”.!

Figura 7 - VoiceStudio!

(14)

!

_!

!

_!!

2.2.2 Masterpitch!

!

O MasterPitch é um assistente inovador desenvolvido pela SEEGNAL para apoio no tratamento da fluência oratória em indivíduos com problemas de gaguez, ou para apoio no controlo da tonalidade da voz. Trata-se de uma aplicação importante para o estudo em curso dado que tem uma componente dinâmica (tempo-real) muito interessante.!

Figura 8 - VoiceStudio!

!

Capítulo 3!

!

Caraterização detalhada dos

problemas a tratar!

!

Este capítulo apresenta a metodologia prosposta bem como a descrição dos passos a seguir durante o desenvolvimento deste estudo científico.!

Após a revisão do estado da arte e o estudo de algumas matérias relevantes para o tratamento do problema, podemos perspectivá-lo no âmbito da sua implementação e

(15)

final. Desta forma, comecemos por conceber o cenário experimental da aplicação para que possamos avançar para o desenho das suas funcionalidades.!

!

3.1 Cenários Experimentais!

!

Para efeitos de teste do produto final, podemos considerar uma amostra significativa de pessoas cujos registos de voz, serão avaliados em vários regimes, de forma dinâmica e interativa, com o intuito do resultado refletir as tendências fisiológicas do aparelho vocal em questão e, didaticamente, encaminhar a utilização da voz da pessoa no sentido da sua preservação e prevenção de problemas.!

!

3.2 Descrição da aplicação!

!

O produto final será, como já foi explicado, uma aplicação de suporte windows, que, em tempo real, mostre medições dos parâmetros acústicos (F0, Jitter, Shimmer, HNR) e avaliações perceptivas da voz que está a ser medida, de forma dinâmica.!

!

3.2.1 Funcionalidades!

!

A aplicação deverá então contemplar funcionalidades de captura e análise de sinal, cuja implementação constitui, na perspectiva dinâmica da aplicação, um grande desafio. Teremos que priorizar, a montante de qualquer análise, o critério de segmentação de sinal - uma forma de seletividade das partes da voz (e do próprio sinal) que têm interesse. É também importante a validação dos algoritmos, colocando-os a prova em relação a dados que tenhamos de vozes alteradas, blindando a algorítmica das suas implicações diretas no resultado científico dos testes.!

!

3.2.2 Hardware/Software!

!

Dadas as caraterísticas do projeto, srão necessários equipamentos informáticos de captura de som: PC, microfones e placa de som.!

!

A aplicação será desenvolvida em C++, no programa Visual Studio, que confere a implementação do ambiente gráfico e respetiva programação lógica. Serão utilizadas bibliotecas do Qt para a interface gráfica e os plugins: Qwt - para desenho gráfico matemático - e RTaudio - captura de som.!

!

(16)

Capítulo 4!

!

Plano de trabalho!

!

Neste capítulo será apresentado o plano de trabalhos a desenvolver durante o próximo semestre para que todos os objetivos definidos no Capítulo 1 sejam alcançados.!

!

O plano, bem como o número de semanas estimado para a realização de cada tarefa, é o seguinte:!

• 23/02 a 8/03 Planeamento das experiências e abordagem aos mecanismos já desenvolvidos - 2 semanas;!

• 09/03 a 22/03 Implementação: Captação e segmentação automática do som- 2 semanas;!

• 22/03 a 29/03 Implementação: Cálculo de parâmetros + Interface Gráfica, Análise de resultados - 1 semana;!

• 29/03 a 19/04 Implementação: Valores dos parâmetros em tempo real - 3 semanas;! • 19/04 a 19/05 Análise de resultados e correção de bugs - 2 semanas;!

• 19/05 a 20/06 Produção escrita do relatório final - 4 semanas.!

!

(17)

REFERENCIAS BILIOGRÁFICAS!

!

Probst, 2006 Probst R, Grevers G, Iro H. Basic otorhinolaryngology. Stuttgart: Thieme; 2006.!

!

Kent, 2004 Kent R. The MIT encyclopedia of communication disorders. MIT Press; 2004.! Hirano & Bless,1997; Hirano, M. and Bless, D.M. 1997. Exame Videoestroboscópico da laringe. Porto Alegre: Artes Médicas.!

!

Vogel, 2011 Vogel, A.P. 2011. “Multidimensional Analysis of Voice: Computerized Speech Lab.” In Handbook of Voice Assessments. Ma, E. and Yiu, E. San Diego: Singular Publishing Inc..!

!

Buder, E.H. 2000. “Acoustic Analysis of Voice Quality: A Tabulation of Algorithms 1902-1990.” In Voice Quality Measurements, Kent, R.D. and Ball, M.J.. San Diego: Singular Publishing Inc..!

!

Behlau, M. (Org). 2001. Voz. O Livro do Especialista. Rio de Janeiro: Livraria e Editora Revinter, Lda. Volume 1. !

!

Pinho, S.M.R. 2003. Fundamentos em Fonoaudiologia. Tratando os Distúrbios da Voz, 2a Edição. Rio de Janeiro: Editora Guanabara Kooogan.!

!

Seikel et al., 2010 J.A.; King, D.W. and Drumright, D.G. 2010. Anatomy and Physiology for Speech, Language and Hearing. 4th Edition. New York: Delmar.!

!

Titze, I.R. and Liang, H. 1993. Comparison of F0 extraction methods for high-precision voice perturbation measurements. Journal of Speech and Hearing Research. 36(6): 1120-1133.!

!

Titze, I.R. 1995. Summary Statement. Workshop on Acoustic Voice Analysis. ! Denver, C.O.: The National Center for Voice and Speech.!

Baken, R.J. and Orlikoff, R.J. 2000. Clinical Measurement of Speech and Voice. 2nd Edition. San Diego: Singular Publishing. !

!

Pinho, S.; Tsuji, D. and Bohadana, S. 2006. Fundamentos em Laringologia e Voz. Rio de Janeiro: Editora Guanabara Koogan, S.A..!

!

Mora, R.; Jankowska, B.; Mora, F.; Crippa, B.; Dellepiane, M. and Salami, A. 2009. Effects of tonsillectomy on speech spectrum in children. Journal of Voice. 23: 614-618.!

!

Dejonckere, P.H. 2010. “Assessment of Voice and Respiratory Function.” In Surgery of Larynx and Trachea, Remacle, M. and Eckel, H.E. (Eds.). Berlin: Springer-Verlag. !

!

Dejonckere, P.H.; Giordano, A.; Schoentgen, J.; Frag, S.; Bocchi, L. and Manfredi, C. 2012. To what degree of voice perturbation are jitter measurements valid? A !

novel approach with synthesized vowels and visuo-perceptual pattern!

recognition. Computer Methods and Programs in Biomedicine Journal. 7: 37-42.!

!

Yumoto, E.; Gould, W.J. and Baer, T. 1982. Harmonics-to-noise ratio as anindex of the degree of hoarseness. Journal of the Acoustic Society of America. 71(6): 1544-1549.!

(18)

!

Guimarães, I. 2007. A Ciência e a Arte da Voz Humana. Alcoitão: ESSA – Escola Superior de Saúde de Alcoitão.!

!

Yumoto, E. 1983. The quantitative evaluation of hoarseness. Archives of! otolaryngology - head & neck surgery. 109(1): 48-52.!

!

Yumoto, E.; Sasaki, Y. and Okamura, H. 1984. Harmonics-to-noise ratio and psychological measurement of the degree of harshness. Journal of Speech and Hearing Research. 27(1): 2-6.!