!
Faculdade De Engenharia da Universidade do Porto!
Mestrado Integrado em Engenharia Electrotécnica e de Computadores! Preparação da Dissertação - 2013/14!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
Relatório Final - PDI!
!
!
Monitorização Preventiva de Voz Falada ou Cantada!
!
!
Hugo Daniel Alves Martins de Carvalho! 200800581!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
INDÍCE!
!
Introdução!
6!
1.1 Contexto! 6! 1.2 Motivação! 6! 1.3 Objetivos! 7! 1.4 Estrutura! 7!Estado da arte!
7!
2.1 A voz! 7!2.1.1 Sistema produtor de voz! 7!
2.1.2 A avaliação da voz! 8! 2.1.2.1 A avaliação acústica ! 8! 2.1.2.2 A avaliação percetiva ! 9! 2.1.3 Modelo Acústico-Preceptivo! 10! 2.2 Mecanismos existentes! 11! 2.2.1 Praat! 12! 2.2.2 VoiceStudio! 13! 2.2.2 Masterpitch! 14!
Caraterização detalhada dos problemas a tratar!
14!
3.1 Cenários Experimentais! 15! 3.2 Descrição da aplicação! 15! 3.2.1 Funcionalidades! 15! 3.2.2 Hardware/Software! 15!
Plano de trabalho!
16!
REFERENCIAS BILIOGRÁFICAS!
17!
LISTA ABREVIATURAS!
!
!
ARTTS - Assistive Real-Time Technology in Singing!
FEUP - Faculdade de Engenharia da Universidade do Porto!
!
FCT - Fundação para a Ciência e Tecnologia!
!
RASATI - Escala de avaliação perceptiva utilizada!
!
HNR - Harmonic-to-Noise Ratio, proposta por Yumoto et al., 1982! F0 - Frequência Fundamental!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
LISTA DE FIGURAS E TABELAS!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
Figura 1 - Sistema produtor de voz!
8!
Tabela 1 - Fonetograma!
10!
Figura 2 - Espectograma!
11!
Figura 3 - Fonetograma!
11!
Figura 4 -Plano das Vogais!
12!
Figura 5 - Espectograma!
12!
Figura 6 - Plano das Vogais!
12!
!
Capítulo 1!
!
Introdução!
!
!
1.1 Contexto!
!
A voz humana, enquanto ferramenta fundamental de comunicação, tem sido motivo de um vasto número de estudos, nos vários quadrantes da investigação. O aparelho fonatório - responsável pela produção de sons inteligíveis - é um sistema complexo, cujo funcionamento assenta na articulação de vários órgãos, podendo assim manifestar perturbações médicas de natureza física, psicológica e até de postura.!
!
Esta investigação surge com uma preocupação médica e fisiológica, complementando o projeto ARTTS - Tecnologia de Apoio em Tempo-Real ao Canto, financiado pela FCT, que, além da monitorização preventiva de voz, tem como objetivo o desenvolvimento de tecnologias de apoio ao ensino e aprendizagem de canto, materializando-se através da sinergia entre várias entidades, ligadas à engenharia, música, medicina e terapia da fala.!
!
Em suma, este trabalho prevê uma discussão estruturada em torno da análise critica das características acústicas e perceptivas da voz na sua reprodução cantada e falada, bem como da produção de mecanismos que se assumam ferramentas de estudo da relação destas matérias.!
!
!
!
1.2 Motivação!
!
O tema desta dissertação: “Monitorização preventiva de voz falada ou cantada” visa o desenvolvimento de uma aplicação que suporte, em tempo-real, funcionalidades de monitorização de voz falada ou cantada.!
!
Mostra-se interessante segundo duas vertentes: a médica e a tecnológica. Na primeira, com o propósito de reconhecimento e sinalização de fatores de risco que, previamente detetados, podem prevenir afonias, disfonias ou patologias vocais; imprimindo na segunda uma tónica de inovação e desafio na produção de mecanismos.!
!
!
!
!
!
!
!
1.3 Objetivos!
!
Esta fase de desenvolvimento do ARTTS compreende a o estudo e implementação algorítmica da relação entre as características subjetivas e parâmetros acústicos da voz que constitui o modelo de avaliação perceptiva da mesma.!
!
Na prossecução dos objetivos propostos, prevêem-se as seguintes fases de desenvolvimento:!
• Analisar soluções similares existentes no mercado;! • Familiarização com trabalhos de investigação anteriores!
• Colaboração com membros da equipa do ARTTS na identificação e levantamento de dados para o desenvolvimento do projeto!
!
• Implementar uma aplicação multimédia em C++ com funcionalidades de medição dos parâmetros acústico-perceptivos da voz, em tempo real!
!
1.4 Estrutura
!
Este documento está organizado da seguinte forma: No Capítulo 2 apresenta-se o estado da arte. O Capítulo 3 providencia a metodologia a seguir para atingir os objetivos deste trabalho. No Capítulo 4 é descrito o plano de trabalhos da dissertação. Finalmente, o Capítulo 5 apresenta as conclusões obtidas.!
!
!
Capítulo 2!
!
Estado da arte!
!
!
2.1 A voz!
!
A disposição deste capítulo prende-se com a necessidade de um enquadramento fisiológico, acústico e perceptivo do que é o aparelho fonador e da sua ação enquanto órgão reprodutor da voz.!
!
2.1.1 Sistema produtor de voz!
No campo fisiológico, a voz é o resultado de um conjunto de processos biomecânicos e acústicos que ocorrem no aparelho produtor de voz. Basicamente, este sistema é composto por dois tipos de estruturas: as que produzem fluxo de ar e o moldam em padrões audíveis, e as que têm a função de ressonância e amplificação, de regiões espectrais específicas da voz [Probst2006]. !
Figura 1 - Sistema produtor de voz!
!
Ainda, para além destas estruturas essenciais para a produção da voz, encontram-se os órgãos da articulação, responsáveis pela modificação do tracto vocal, com o fim de produzir e de tornar possível a coordenação dos diversos sons [Kent2004]. Na Figura 1 são apresentadas as estruturas mais relevantes que integram o aparelho de produção da voz.!
A fisiologia do sistema produtor de voz é analisada com o objectivo de introduzir conceitos importantes para a compreensão dos modelos e dos fenómenos inerentes à diversidade acústica da voz.!
!
!
2.1.2 A avaliação da voz!
!
A voz pode ser caraterizada, em cada vertente, com recurso a parâmetros. Estes parâmetros serão definidos de forma a integrar e unificar as definições existentes na literatura, pelo que analisaremos as vertentes: Acústica e Perceptiva; para posterior estabelecimento de relações entre as duas.!
2.1.2.1 A avaliação acústica !
O método acústico propicia as designadas medidas objetivas, ou seja, dados que são extraídos através de um processamento computacional adequado. !
Permite a especificação detalhada do processo de geração do sinal sonoro, fornecendo uma estimativa indireta dos padrões vibratórios das pregas vocais, bem como dos
formatos do trato vocal supraglótico e das respetivas modificações (Hirano & Bless,1997; Vogel, 2011).!
Frequência Fundamental - corresponde à velocidade na qual uma forma de onda se repete por unidade de tempo, no comportamento vocal sustentado ou em fala encadeada (Buder, 2000; Behlau, 2001). Assim, reflete o número de ciclos vibratórios produzidos pelas pregas vocais, num segundo (Pinho, 2003; Seikel et al., 2010).!
Jitter - é uma medida de curto termo (ciclo a ciclo), de variabilidade não voluntária na F0 ou período (Titze, 1995; Baken & Orlikoff, 2000; Pinho et al., 2006; Mora et al., 2009; Dejonckere, 2010; Manfredi et al., 2012). Não deve ser confundida com a medida do grau de oscilação de baixa frequência que forma a base do vibrato ou do tremor (índices de perturbação da frequência a longo prazo). !
Shimmer - quantifica as alterações mínimas da amplitude do sinal, a curto prazo, com base em cada ciclo fonatório (Baken & Orlikoff, 2000; Buder, 2000; Pinho et al., 2006; Dejonckere, 2010). Se o sistema fonador fosse completamente estável ele seria zero. O shimmer indica a pequena variabilidade entre os sucessivos ciclos glóticos.!
HNR - é uma avaliação objetiva, isto é, de base matemática, que relaciona a componente periódica e aperiódica (Guimarães, 2007) que compõem um segmento de fala sustentada, estimada com base na análise de pelo menos 50 ciclos glotais consecutivos (Yumoto, 1983; Yumoto et al. 1984).!
!
2.1.2.2 A avaliação percetiva !
É um teste subjetivo fundamentado, essencialmente, na impressão do avaliador sobre a voz do utente. Desta forma, o seu resultado materializa-se sob influencia do nível de experiência do avaliador, pelo material de voz analisado, pela sua qualidade, pelo grau de desvio da qualidade vocal e pela escala utilizada na tarefa.!
!
Para este tipo de avaliação, recorre-se normalmente à escala RASATI, uma adaptação para o português da escala GRBASI, elaborada pela Sociedade Japonesa Logopedia e Foniatria e divulgada por Hirano, no ano de 1981. Pinho e Pontes (2002) adaptaram esta escala, de forma a adequar e facilitar o processo de triagem vocal percetiva ao nível glótico, pois, na tradução fiel, alguns termos não contemplavam o aspeto percetivo específico (Mendonça 2007). A escala RASATI, avalia os parâmetros de rouquidão (R), aspereza (A), soprosidade (S), astenia (A), tensão (T) e instabilidade (I).!
!
Rouquidão - irregularidade da vibração da mucosa causada por presença de uma fenda glótica ou por alteração orgânica da mucosa. Apresenta-se em casos como a presença de nódulos e edemas. A rouquidão surge em casos de excesso de muco [Boone2003] ou por perda de adução das pregas vocais [Lehto2007]. Muitas vezes é referida como uma combinação de soprosidade e aspereza [Boone2003]. !
!
Aspereza - elevado nível de aperiodicidade na vibração. Uma possível causa desta característica consiste na compressão excessiva ou hiperfunção adutora das pregas vocais [Laver80]. A causa mais frequente é a rigidez da mucosa que conduz a uma vibração irregular das pregas vocais e também à origem de uma fenda glótica que
provoca uma perda rápida de ar [Pinho2008]. Da mesma forma que a rouquidão, a aspereza está associada aos fenómenos de ruído que ocorrem na produção da voz, no entanto, a aspereza está associada as perturbações de frequência e a ruído com uma tonalidade aguda [Pinho2008]. !
!
Soprosidade - vibração não eficiente associada ao escape de ar entre as pregas vocais, muitas vezes causado por um encerramento incompleto (fenda glótica) [Laver80]. Tal facto permite inferir que as vozes soprosas caracterizam-se por valores baixos de frequência fundamental. A soprosidade está perceptivamente associada ao ruído de fundo. A voz soprosa tem um som semelhante a um suspiro ou pode ser considerada como uma mistura de vozeamento com expiração [Laver80]. !
!
Astenia - mau desempenho das estruturas com função adutoras e à baixa energia de emissão sonora [Pinho2008]. Manifesta-se em vozes de intensidade baixa (presença reduzida de harmónicos).!
!
Tensão - excesso da adução glótica associada ao esforço vocal, aumento da actividade dos músculos extrínsecos da laringe ou pela elevação da laringe [Oates98]. Este excesso muscular pode incluir estruturas supra-glóticas na laringe como as pregas ventriculares.!
!
Instabilidade - relacionada com a alteração de frequência fundamental ou qualidade vocal, com oscilações de ligeiras a evidentes ou quebras. A instabilidade na emissão de uma vogal prolongada pode indicar desde falta de treino vocal, alterações emocionais ou manifestação de doenças neurológicas.!
!
2.1.3 Modelo Acústico-Preceptivo!
!
Importa, para o desenvolvimento sustentado deste projeto, estudar de que forma se relaciona a avaliação perceptiva dos peritos com a que é matemática e computacionalmente fundamentada. Assim, no âmbito da cooperação com a terapia da fala, desenhou-se o que iremos utilizar enquanto quadro de correlação dos parâmetros de avaliação vocal, para que se se possa implementar um mecanismo que contemple esta análise em tempo real, como é pretendido neste trabalho de dissertação.!
O relatório feito pela terapeuta da fala em colaboração com o ARTTS compreende um estudo sobre esta relação baseado no Coeficiente de Correlação Spearman Rank, que obtém as seguintes correlações:!
!
Tabela 1 - Fonetograma!
!
Desvio-Padrão F0 Shimmer Jitter HNR
Rouquidão x
Aspereza x x
Soprosidade x x x
Após a repetição deste processo pelo teste estatístico de Kruskal-Wallis, o relatório conclui o disposto na relação estabelecida na Tabela 1, o que a materializa na base de trabalho para a construção dos critérios de avaliação da aplicação.!
!
Ainda assim, o mesmo relatório explana a necessidade de uma investigação na matéria da correspondência entre estes parâmetros, o que pode, certamente, comprometer a acuidade científica desta investigação.!
!
2.2 Mecanismos existentes!
!
Atualmente existe uma série de programas de captação de áudio que poderão servir de base de trabalho no cumprimento dos objetivos traçados. Ainda assim, numa ótica de maior detalhe e evolução, convém-nos estudar ferramentas que, aliadas a esta componente da captação tenham também robustez no tratamento de sinal, nomeadamente no cálculo dos parâmetros acústicos.!
De entre os métodos software fidedignos de análise acústica da voz destacam-se: o Espectograma (informação de ressonância do tracto vocal), o Fonetograma (intensidade da voz em dB) e o Plano das Vogais (visualização gráfica das duas primeiras frequências formantes).!
Figura 2 - Espectograma!
Figura 4 -Plano das Vogais!
!
!
Desta forma, e do ponto de vista da integração de funcionalidades acima referida, parece-me pertinente o estudo de três programas: Praat, VoiceStudio e MasterPitch.!
!
2.2.1 Praat!
!
O Praat é um software open source que integra várias funcionalidades de análise de sinais de voz, proporcionando um vasto número de métodos de medição: perturbação da frequência fundamental, amplitude, ruído, e ainda análise espectral. !
Figura 5 - Espectograma!
Figura 6 - Plano das Vogais!
!
Este software é essencialmente orientado para as áreas de análise acústica de sinais de voz disfónica, como a Terapia da Fala.!
!
!
!
!
2.2.2 VoiceStudio!
!
Desenhado pela empresa SEEGNAL, o VoiceStudio é um ambiente poderoso de análise e processamento de sinais, especialmente vocacionado para a análise e diagnóstico de sinais de voz.!
Como indicado na descrição do programa, o VoiceStudio suporta, entre outras, a funcionalidade de “…reprodução selectiva de cada região vozeada e a obtenção dos principais parâmetros objectivos de qualidade da voz, nomeadamente frequência fundamental (F0), perturbação de frequência (jitter), perturbação de amplitude (shimmer), relação harmónicos-ruído (HNR) e energia,”.!
Figura 7 - VoiceStudio!
!
!
!
!!
2.2.2 Masterpitch!
!
O MasterPitch é um assistente inovador desenvolvido pela SEEGNAL para apoio no tratamento da fluência oratória em indivíduos com problemas de gaguez, ou para apoio no controlo da tonalidade da voz. Trata-se de uma aplicação importante para o estudo em curso dado que tem uma componente dinâmica (tempo-real) muito interessante.!
Figura 8 - VoiceStudio!
!
!
!
!
Capítulo 3!
!
Caraterização detalhada dos
problemas a tratar!
!
!
Este capítulo apresenta a metodologia prosposta bem como a descrição dos passos a seguir durante o desenvolvimento deste estudo científico.!
Após a revisão do estado da arte e o estudo de algumas matérias relevantes para o tratamento do problema, podemos perspectivá-lo no âmbito da sua implementação e
final. Desta forma, comecemos por conceber o cenário experimental da aplicação para que possamos avançar para o desenho das suas funcionalidades.!
!
3.1 Cenários Experimentais!
!
Para efeitos de teste do produto final, podemos considerar uma amostra significativa de pessoas cujos registos de voz, serão avaliados em vários regimes, de forma dinâmica e interativa, com o intuito do resultado refletir as tendências fisiológicas do aparelho vocal em questão e, didaticamente, encaminhar a utilização da voz da pessoa no sentido da sua preservação e prevenção de problemas.!
!
!
3.2 Descrição da aplicação!
!
O produto final será, como já foi explicado, uma aplicação de suporte windows, que, em tempo real, mostre medições dos parâmetros acústicos (F0, Jitter, Shimmer, HNR) e avaliações perceptivas da voz que está a ser medida, de forma dinâmica.!
!
!
3.2.1 Funcionalidades!
!
A aplicação deverá então contemplar funcionalidades de captura e análise de sinal, cuja implementação constitui, na perspectiva dinâmica da aplicação, um grande desafio. Teremos que priorizar, a montante de qualquer análise, o critério de segmentação de sinal - uma forma de seletividade das partes da voz (e do próprio sinal) que têm interesse. É também importante a validação dos algoritmos, colocando-os a prova em relação a dados que tenhamos de vozes alteradas, blindando a algorítmica das suas implicações diretas no resultado científico dos testes.!
!
!
!
3.2.2 Hardware/Software!
!
Dadas as caraterísticas do projeto, srão necessários equipamentos informáticos de captura de som: PC, microfones e placa de som.!
!
A aplicação será desenvolvida em C++, no programa Visual Studio, que confere a implementação do ambiente gráfico e respetiva programação lógica. Serão utilizadas bibliotecas do Qt para a interface gráfica e os plugins: Qwt - para desenho gráfico matemático - e RTaudio - captura de som.!
!
!
!
!
!
Capítulo 4!
!
Plano de trabalho!
!
Neste capítulo será apresentado o plano de trabalhos a desenvolver durante o próximo semestre para que todos os objetivos definidos no Capítulo 1 sejam alcançados.!
!
O plano, bem como o número de semanas estimado para a realização de cada tarefa, é o seguinte:!
• 23/02 a 8/03 Planeamento das experiências e abordagem aos mecanismos já desenvolvidos - 2 semanas;!
• 09/03 a 22/03 Implementação: Captação e segmentação automática do som- 2 semanas;!
• 22/03 a 29/03 Implementação: Cálculo de parâmetros + Interface Gráfica, Análise de resultados - 1 semana;!
• 29/03 a 19/04 Implementação: Valores dos parâmetros em tempo real - 3 semanas;! • 19/04 a 19/05 Análise de resultados e correção de bugs - 2 semanas;!
• 19/05 a 20/06 Produção escrita do relatório final - 4 semanas.!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
REFERENCIAS BILIOGRÁFICAS!
!
!
Probst, 2006 Probst R, Grevers G, Iro H. Basic otorhinolaryngology. Stuttgart: Thieme; 2006.!
!
Kent, 2004 Kent R. The MIT encyclopedia of communication disorders. MIT Press; 2004.! Hirano & Bless,1997; Hirano, M. and Bless, D.M. 1997. Exame Videoestroboscópico da laringe. Porto Alegre: Artes Médicas.!
!
Vogel, 2011 Vogel, A.P. 2011. “Multidimensional Analysis of Voice: Computerized Speech Lab.” In Handbook of Voice Assessments. Ma, E. and Yiu, E. San Diego: Singular Publishing Inc..!
!
Buder, E.H. 2000. “Acoustic Analysis of Voice Quality: A Tabulation of Algorithms 1902-1990.” In Voice Quality Measurements, Kent, R.D. and Ball, M.J.. San Diego: Singular Publishing Inc..!
!
Behlau, M. (Org). 2001. Voz. O Livro do Especialista. Rio de Janeiro: Livraria e Editora Revinter, Lda. Volume 1. !
!
Pinho, S.M.R. 2003. Fundamentos em Fonoaudiologia. Tratando os Distúrbios da Voz, 2a Edição. Rio de Janeiro: Editora Guanabara Kooogan.!
!
Seikel et al., 2010 J.A.; King, D.W. and Drumright, D.G. 2010. Anatomy and Physiology for Speech, Language and Hearing. 4th Edition. New York: Delmar.!
!
Titze, I.R. and Liang, H. 1993. Comparison of F0 extraction methods for high-precision voice perturbation measurements. Journal of Speech and Hearing Research. 36(6): 1120-1133.!
!
Titze, I.R. 1995. Summary Statement. Workshop on Acoustic Voice Analysis. ! Denver, C.O.: The National Center for Voice and Speech.!
Baken, R.J. and Orlikoff, R.J. 2000. Clinical Measurement of Speech and Voice. 2nd Edition. San Diego: Singular Publishing. !
!
Pinho, S.; Tsuji, D. and Bohadana, S. 2006. Fundamentos em Laringologia e Voz. Rio de Janeiro: Editora Guanabara Koogan, S.A..!
!
Mora, R.; Jankowska, B.; Mora, F.; Crippa, B.; Dellepiane, M. and Salami, A. 2009. Effects of tonsillectomy on speech spectrum in children. Journal of Voice. 23: 614-618.!
!
Dejonckere, P.H. 2010. “Assessment of Voice and Respiratory Function.” In Surgery of Larynx and Trachea, Remacle, M. and Eckel, H.E. (Eds.). Berlin: Springer-Verlag. !
!
Dejonckere, P.H.; Giordano, A.; Schoentgen, J.; Frag, S.; Bocchi, L. and Manfredi, C. 2012. To what degree of voice perturbation are jitter measurements valid? A !
novel approach with synthesized vowels and visuo-perceptual pattern!
recognition. Computer Methods and Programs in Biomedicine Journal. 7: 37-42.!
!
Yumoto, E.; Gould, W.J. and Baer, T. 1982. Harmonics-to-noise ratio as anindex of the degree of hoarseness. Journal of the Acoustic Society of America. 71(6): 1544-1549.!
!
Guimarães, I. 2007. A Ciência e a Arte da Voz Humana. Alcoitão: ESSA – Escola Superior de Saúde de Alcoitão.!
!
Yumoto, E. 1983. The quantitative evaluation of hoarseness. Archives of! otolaryngology - head & neck surgery. 109(1): 48-52.!
!
Yumoto, E.; Sasaki, Y. and Okamura, H. 1984. Harmonics-to-noise ratio and psychological measurement of the degree of harshness. Journal of Speech and Hearing Research. 27(1): 2-6.!