• Nenhum resultado encontrado

Detecção de desvios vocais utilizando modelos auto regressivos e o algoritmo KNN

N/A
N/A
Protected

Academic year: 2021

Share "Detecção de desvios vocais utilizando modelos auto regressivos e o algoritmo KNN"

Copied!
80
0
0

Texto

(1)UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE. U NIVERSIDADE F EDERAL DO R IO G RANDE DO N ORTE C ENTRO DE T ECNOLOGIA P ROGRAMA DE P ÓS -G RADUAÇÃO EM E NGENHARIA E LÉTRICA E DA C OMPUTAÇÃO. Detecção de Desvios Vocais Utilizando Modelos Auto Regressivos e o Algoritmo KNN. Winnie de Lima Torres. Orientador: Prof. Dr. Aldayr Dantas de Araújo Co-orientador: Prof. Dr. Allan de Medeiros Martins. Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica e da Computação da UFRN (área de concentração: Automação e Sistemas) como parte dos requisitos para obtenção do título de Mestre em Ciências.. Número de ordem: M519 Natal, RN, janeiro de 2018.

(2) UFRN / Biblioteca Central Zila Mamede Catalogação da publicação na fonte. Torres, Winnie de Lima. Detecção de desvios vocais utilizando modelos auto regressivos e o algoritmo KNN / Winnie de Lima Torres - Natal, 2018 59 f. : il. Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte. Centro de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica. Orientador: Prof. Dr. Aldayr Dantas de Araújo. Co-orientador: Allan de Medeiros Martins. 1. Detecção de desvios vocais – Dissertação. 2. Modelos auto regressivos Dissertação. 3. K-Nearest Neighbor - Dissertação. I. Araújo, Aldayr Dantas de. II. Martins, Allan de Medeiros. III. Título. RN/UF/BCZM. CDU 628.147.25.

(3) Detecção de Desvios Vocais Utilizando Modelos Auto Regressivos e o Algoritmo KNN. Winnie de Lima Torres.

(4) À minha família, com todo meu amor e gratidão, por serem meus exemplos e fazerem tudo por mim ao longo dessa caminhada..

(5) Agradecimentos. À Deus, pela saúde, paz e sabedoria necessária para o desenvolvimento dos meus planos e na tomada das decisões que surgiram ao longo do meu caminho. Aos meus pais, Raimundo da Costa Torres e Maria Celi de Lima Torres pelo amor, compreensão, paciência, proteção, apoio, ensinamentos, por confiarem e acreditarem em mim e não medirem esforços durante minha jornada. Ao meu orientador, professor Aldayr Dantas de Araújo, sou grata pela oportunidade, paciência, empenho em me ajudar nos momentos que precisei, pela compreensão em relação às adversidades ou surpresas que surgiram na minha caminhada e pelo compartilhamento de conhecimentos. À minha irmã, Rayza Torres, pelo apoio dado e torcida durante esses anos. Ao meu namorado, Ícaro Bezerra, pelo estímulo e incentivo para que eu cursasse o mestrado na UFRN, carinho, pelas trocas de conhecimentos, sugestões, conversas, enorme paciência e compreensão no decorrer dessa etapa. Ao professor, Allan Martins, pelo auxílio prestado e pelos sábios conselhos durante a realização deste trabalho. Ao professor, Ademar Costa, pela amizade e ensinamentos proporcionados ao longo dos anos. Aos amigos e colegas pelos momentos de descontração e pela ajuda durante o mestrado. Aos meus familiares por torcerem pelo meu sucesso..

(6) Resumo. Alguns campos da ciência propõem-se a estudar distúrbios no trato vocal a partir de análises sobre padrões de vibração da voz. Em geral, a importância dessas pesquisas está na identificação, em uma fase mais específica, de doenças de maior ou menor gravidade, a serem sanadas com terapia vocal ou que requerem maior atenção, gerando inclusive a necessidade de procedimentos cirúrgicos para o seu controle. Embora, já exista na literatura indicações de que o processamento digital de sinais permite diagnosticar, de um modo não invasivo, patologias laríngeas, como doenças vocais que ocasionem edema, nódulo e paralisia, não existe definição do método mais indicado e das características, ou parâmetros, mais adequados para detectar a presença de desvios vocais. Sendo assim, neste trabalho é proposto um algoritmo para detecção de desvios vocais por meio da análise de sinais de voz. Para a realização deste trabalho, utilizou-se dados constantes no banco de dados Disordered Voice Database, desenvolvido pelo Massachusetts Eye and Ear Infirmary (MEEI), devido sua utilização em pesquisas na área acústica de voz. Foram utilizados 166 sinais contidos nessa base de dados, com sinais de vozes saudáveis e de vozes patológicas afetadas por edema, por nódulo e por paralisia nas pregas vocais. A partir dos sinais de voz, foram gerados modelos Auto Regressivos (AR e ARMA) para representação desses sinais e, utilizando os parâmetros dos modelos obtidos, foi utilizado o algoritmo K-Nearest Neighbors (KNN) para a classificação dos sinais analisados. Com o intuito de analisar a eficiência do algoritmo proposto neste estudo, os resultados obtidos desse algoritmo foram comparados com um método de detecção considerando apenas distância euclidiana entre os sinais. Os resultados encontrados apontam que o método proposto neste trabalho apresenta um bom resultado, gerando uma taxa de acerto na classificação acima de 71% (maior que os 31% a partir do uso da distância euclidiana). Além disso, o método utilizado é de fácil implementação, podendo ser utilizado em hardwares mais simples. Logo, essa pesquisa tem potencial para gerar um classificador barato e acessível para a utilização em larga escala por profissionais de saúde, como uma alternativa de pré análise não invasiva para detecção de patologias otorrinolaringológicas que afetem a voz. Palavras-chave: Detecção de desvios vocais, modelos auto regressivos, k-nearest neighbor..

(7) Abstract. Some fields in Science propose to study vocal tract disorders from an analysis about voice vibration patterns. Generally, the weight of those researches is given by the identification – in a more specific level – of diseases in different stages of severity, which would be redressed through voice therapy or means that require more attention, hence generating the need of surgical procedures for its control. Although there are evidences in literature that the Digital Signal Processing allows a non-invasive diagnosis of laryngeal pathologies, such as vocal cord disorders, which provoke swelling, nodules, and paralyses, there is no definition of any most indicated method, and characteristics or appropriated parameters to detect voice deviations. Thus, the present paper proposes an algorithm to detect vocal deviances through the Voice Signal Analysis. In order to complete this study, it had been used data from the Disordered Voice Database, developed by the Massachusetts Eye and Ear Infirmary (MEEI) due to their wide use in researches regarding the voice and speech. A total of 166 signals from this database were used, including healthy voices and pathologic voices affected by swelling, nodule, and vocal fold paralysis. From the voice signals, autoregressive processes of order (AR and ARMA) were generated for a representation of those signals, and – by using the models’ parameters obtained – it had been used the KNN algorithm for a classification of the signals analyzed. Seeking an analysis of the efficiency of the algorithm proposed in this study, the results obtained from this algorithm were compared to a detection method, which only considers the Euclidian distance between the signals. The results found point that the propositioned method in this work presents a satisfactory result, generating a hit rate on the classification above 71% (more than the 31% from the use of the Euclidian distance). Moreover, the method used is easy to implement, so that it can be used along with simpler hardware. Consequently, this research has the potential to generate a cheap and accessible sorter for wide-scale use by health care professionals as a non-invasive pre-analysis to detect otorhinolaryngological pathologies that affect the voice. Keywords: Detection of vocal deviations, auto regressive models, k-nearest neighbor..

(8) Sumário. Sumário. i. Lista de Figuras. iii. Lista de Tabelas. iv. Lista de Abreviaturas e Siglas 1. Introdução 1.1 Justificativa . . . . . . . . . 1.2 Objetivos . . . . . . . . . . 1.2.1 Objetivo Geral . . . 1.2.2 Objetivos Específicos 1.3 Organização do Trabalho . .. 2. Estado da Arte. 3. Análise da Voz 3.1 Processo de Produção da Voz 3.2 Patologias da Laringe . . . . 3.2.1 Edema de Reinke . . 3.2.2 Nódulos Vocais . . . 3.2.3 Paralisia . . . . . . .. 4. 5. viii. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 1 2 3 3 3 3 5. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 13 13 15 15 16 17. Identificação de Sistemas 4.1 Modelagem e Identificação de Sistemas . . . . . . . 4.2 Modelos de Representações de Equações e Sistemas . 4.3 Modelos Auto Regressivos ou Séries Temporais . . . 4.4 Método dos Mínimos Quadrados . . . . . . . . . . . 4.5 Classificação de Dados . . . . . . . . . . . . . . . . 4.5.1 Metodologia KNN . . . . . . . . . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 19 19 22 23 26 27 28. Metodologia 5.1 Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Análise Inicial dos Sinais de Voz . . . . . . . . . . . . . . . . . . . . . . 5.3 Algoritmos de Identificação . . . . . . . . . . . . . . . . . . . . . . . . .. 30 30 30 32. . . . . .. . . . . .. . . . . .. i. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . ..

(9) 6. Resultados 6.1 Resultados da Análise Inicial dos Sinais de Voz . . . . . . . . . . . . . . 6.2 Resultados da Identificação . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Resultados da Classificação Utilizando o KNN . . . . . . . . . . . . . .. 35 35 37 38. 7. Considerações Finais e Perspectivas. 44. Referências. 46. A Resultados das Análises dos Sinais de Voz A.1 Resultados da Classificação Utilizando a Distância Euclidiana . . . . . . A.2 Resultados da Classificação KNN com os Sinais Identificados . . . . . .. 52 52 52. B Resultados dos Sinais Normais Versus Patológicos B.1 Resultados da Classificação Utilizando a Distância Euclidiana . . . . . . B.2 Resultados da Classificação KNN com os Sinais Identificados . . . . . .. 59 59 59.

(10) Lista de Figuras. 3.1 3.2 3.3 3.4 3.5 3.6. Sistemas envolvidos na produção do sinal de voz. . . . . Modelo simplificado do mecanismo de produção da fala. Edema nas pregas vocais. . . . . . . . . . . . . . . . . . Nódulo nas pregas vocais. . . . . . . . . . . . . . . . . Paralisia unilateral. . . . . . . . . . . . . . . . . . . . . Paralisia bilateral. . . . . . . . . . . . . . . . . . . . . .. . . . . . .. 14 14 16 16 17 18. 4.1 4.2 4.3. Princípios para a construção de um modelo matemático. . . . . . . . . . . Diagrama com procedimento de identificação. . . . . . . . . . . . . . . . Dinâmica do KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20 21 28. 5.1 5.2. Gráfico de dispersão dos modelos de sinais no plano α1 x α2 . . . . . . . Gráfico de dispersão dos modelos de sinais no plano α1 x α2 x α3 . . . .. 33 34. iii. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . ..

(11) Lista de Tabelas. 5.1. Média dos erros médios quadráticos das estimações . . . . . . . . . . . .. 32. 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 6.16 6.17 6.18 6.19 6.20 6.21 6.22. Distância euclidiana dos sinais normais do grupo de controle. . . . . . . . Distância euclidiana dos sinais com edema do grupo de controle. . . . . . Distância euclidiana dos sinais com nódulo do grupo de controle. . . . . . Distância euclidiana dos sinais com paralisia do grupo de controle. . . . . Matriz de confusão dos sinais analisados pela distância euclidiana. . . . . Parâmetros estimados para os sinais normais do grupo de controle. . . . . Parâmetros estimados para os sinais com edema do grupo de controle. . . Parâmetros estimados para os sinais com nódulo do grupo de controle. . . Parâmetros estimados para os sinais com paralisia do grupo de controle. . Matriz de confusão do KNN com K = 1 para o modelo AR de 1a ordem. . Matriz de confusão do KNN com K = 1 para o modelo AR 2a ordem. . . Matriz de confusão do KNN com K = 1 para o modelo ARMA de 1a ordem. Matriz de confusão do KNN com K = 1 para o modelo ARMA de 3a ordem. Matriz de confusão do KNN com K = 3 para o modelo AR de 1a ordem. . Matriz de confusão do KNN com K = 3 para o modelo AR de 2a ordem. . Matriz de confusão do KNN com K = 3 para o modelo ARMA de 1a ordem. Matriz de confusão do KNN com K = 3 para o modelo ARMA de 3a ordem. Matriz de confusão do KNN com K = 5 para o modelo AR de 1a ordem. . Matriz de confusão do KNN com K = 5 para o modelo AR de 2a ordem. . Matriz de confusão do KNN com K = 5 para o modelo ARMA de 1a ordem. Matriz de confusão do KNN com K = 5 para o modelo ARMA de 2a ordem. Classificação de sinais Normais versus Patológicos utilizando a distância euclidiana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classificação de sinais Normais versus Patológicos para o modelo AR de ordem 2 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classificação de sinais Normais versus Patológicos para o modelo ARMA de ordem 1 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classificação de sinais Normais versus Patológicos para o modelo AR de ordem 2 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classificação de sinais Normais versus Patológicos para o modelo ARMA de ordem 1 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classificação de sinais Normais versus Patológicos para o modelo AR de ordem 2 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Classificação de sinais Normais versus Patológicos para o modelo ARMA de ordem 1 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35 35 36 36 36 37 38 38 38 39 39 40 40 40 40 40 41 41 41 41 42. 6.23 6.24 6.25 6.26 6.27 6.28. iv. 42 43 43 43 43 43 43.

(12) A.1 A.2 A.3 A.4 A.5 A.6 A.7 A.8 A.9 A.10 A.11 A.12 A.13 A.14 A.15 A.16 A.17 A.18 A.19 A.20 A.21 A.22 A.23 A.24 A.25 A.26 A.27 A.28 A.29 A.30 A.31. Matriz de confusão dos sinais analisados pela distância euclidiana. . . . . Matriz de confusão do KNN com K = 1 para o modelo AR de 1a ordem. . Matriz de confusão do KNN com K = 1 para o modelo AR de 2a ordem. . Matriz de confusão do KNN com K = 1 para o modelo AR de 3a ordem. . Matriz de confusão do KNN com K = 1 para o modelo AR de 4a ordem. . Matriz de confusão do KNN com K = 1 para o modelo AR de 5a ordem. . Matriz de confusão do KNN com K = 1 para o modelo ARMA de 1a ordem. Matriz de confusão do KNN com K = 1 para o modelo ARMA de 2a ordem. Matriz de confusão do KNN com K = 1 para o modelo ARMA de 3a ordem. Matriz de confusão do KNN com K = 1 para o modelo ARMA de 4a ordem. Matriz de confusão do KNN com K = 1 para o modelo ARMA de 5a ordem. Matriz de confusão do KNN com K = 3 para o modelo AR de 1a ordem. . Matriz de confusão do KNN com K = 3 para o modelo AR de 2a ordem. . Matriz de confusão do KNN com K = 3 para o modelo AR de 3a ordem. . Matriz de confusão do KNN com K = 3 para o modelo AR de 4a ordem. . Matriz de confusão do KNN com K = 3 para o modelo AR de 5a ordem. . Matriz de confusão do KNN com K = 3 para o modelo ARMA de 1a ordem. Matriz de confusão do KNN com K = 3 para o modelo ARMA de 2a ordem. Matriz de confusão do KNN com K = 3 para o modelo ARMA de 3a ordem. Matriz de confusão do KNN com K = 3 para o modelo ARMA de 4a ordem. Matriz de confusão do KNN com K = 3 para o modelo ARMA de 5a ordem. Matriz de confusão do KNN com K = 5 para o modelo AR de 1a ordem. . Matriz de confusão do KNN com K = 5 para o modelo AR de 2a ordem. . Matriz de confusão do KNN com K = 5 para o modelo AR de 3a ordem. . Matriz de confusão do KNN com K = 5 para o modelo AR de 4a ordem. . Matriz de confusão do KNN com K = 5 para o modelo AR de 5a ordem. . Matriz de confusão do KNN com K = 5 para o modelo ARMA de 1a ordem. Matriz de confusão do KNN com K = 5 para o modelo ARMA de 2a ordem. Matriz de confusão do KNN com K = 5 para o modelo ARMA de 3a ordem. Matriz de confusão do KNN com K = 5 para o modelo ARMA de 4a ordem. Matriz de confusão do KNN com K = 5 para o modelo ARMA de 5a ordem.. B.1 Classificação dos sinais Normais versus Patológicos utilizando a distância euclidiana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 1 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 2 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.4 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 3 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.5 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 4 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.6 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 5 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 52 52 53 53 53 53 53 54 54 54 54 54 55 55 55 55 55 56 56 56 56 56 57 57 57 57 57 58 58 58 58 59 59 60 60 60 60.

(13) B.7 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 1 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.8 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 2 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.9 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 3 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.10 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 4 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.11 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 5 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.12 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 1 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.13 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 2 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.14 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 3 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.15 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 4 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.16 Classificação dos sinais Normais versus Patológicos para o modelo AR de ordem 5 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.17 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 1 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.18 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 2 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.19 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 3 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.20 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 4 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.21 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 5 com K=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.22 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 1 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.23 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 2 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.24 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 3 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.25 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 4 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.26 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 5 com K=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.27 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 1 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.28 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 2 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 60 60 61 61 61 61 61 61 62 62 62 62 62 62 63 63 63 63 63 63 64 64.

(14) B.29 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 3 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.30 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 4 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.31 Classificação dos sinais Normais versus Patológicos para o modelo ARMA de ordem 5 com K=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 64 64 64.

(15) Lista de Abreviaturas e Siglas. AR. AutoRegressive. ARIMA Auto-Regressive Integrated Moving Average ARMA. Auto-Regressive Moving Average. ARMAX Auto-Regressive Moving Average with Exogenous Input ARX. Auto-Regressive with Exogenous Input. BBA. Best Basis. DWT-db Daubechies’ discrete Wavelet Transform ECG. Eletroglotografias. EM. Estimation Maximization. ESPC. Enhanced Spectral Pathology Component. GNE. Glotal to Noise Excitation Rate. HMM. Hidden Markov Models. KNN. K-Nearest Neighbors. LOO. Leave-One-Out. LPC. Linear Prediction Coefficients. LS-SVM Least Squares Support Vector Machines MAVP. Mean Area Peak Value. MCV. Multiple Cross Validation. MEEI. Massachusetts Eye and Ear Infirmary. ML. Maximum Likelihood. MLP. MultiLayer Perceptron. NARMA Nonlinear AutoRegressive Moving Average viii.

(16) NARMAX Nonlinear AutoRegressive Moving Average with eXogenous input OE. Output Error. RBF. Radial Basis Function. SVM. Support Vector Machine. TDNN. Time Delay Neural Network. VFC. Variabilidade da Frequência Cardíaca. WPT. Wavelet PackeT. WSLOPE Weighted Slope.

(17) Capítulo 1 Introdução. A fala humana é o meio de comunicação e expressão mais importante para o ser humano, sendo um objeto de estudo atrativo em diferentes campos da ciência. Empregada em trabalhos de codificação de dados, síntese e reconhecimento da voz, destacando aplicações em telecomunicações e multimídia, são discutidos conceitos sobre a fisiologia do processo de produção e de percepção da fala, e a utilização de técnicas capazes de realizar a análise de doenças no trato vocal. As doenças no trato vocal provocam mudanças nos padrões de vibração da voz, além de afetarem significativamente a emissão e o entendimento da informação a ser transmitida. Em Davis (1979) é evidenciado que algumas dessas mudanças estão relacionadas às patologias do trato vocal, mas que alterações neurológicas que afetam a voz, geralmente, são acompanhadas de alterações na fala. Entretanto, embora essas doenças atinjam diversas faixas etárias, dificilmente os ouvintes conseguem detectá-las, sendo necessária uma análise acústica desse sinal para a identificação dos problemas relacionados. De acordo com Martinez e Rufiner (2000), os problemas na produção da voz podem surgir devido a dois fatores: (i) uma desordem funcional causada pelo abuso, ou uso incorreto, do sistema vocal, podendo ser corrigidos por meio de terapia vocal; (ii) por patologias laríngeas, como nódulos nas pregas vocais, pólipos, úlceras, carcinomas e paralisia do nervo laríngeo, que podem ser corrigidos por meio de terapia vocal, cirurgia e, em alguns casos, radioterapia. A detecção de patologias na laringe tem ocorrido, basicamente, por meio de diagnósticos médicos, apoiados em exames clínicos invasivos e que causam desconforto ao paciente (SOUZA, 2010). Comumente, é realizado um exame inicial de audição da voz pelos otorrinolaringologistas, juntamente com a anamnese e, posteriormente, exames físicos e visuais da laringe, tais como: a videolaringoscopia direta e a videoestroboscopia (PARRAGA, 2002). Esses exames são realizados por meio de solicitação médica e, na maioria das vezes, só ocorrem quando as alterações na fala já são marcantes ou estão causando dor ao indivíduo. Nesse ponto, a doença já está em um grau avançado, dificultando o tratamento (SOUZA, 2010). Diversos métodos têm sido propostos para avaliar a presença de desvios vocais e quantificar o grau dos distúrbios. Entretanto, a definição do melhor método e das características, ou parâmetros adequados para detectar a existência, bem como o grau dos desvios, ou a presença de patologias laríngeas, ainda é objeto de estudo (PINHO, 2017)..

(18) CAPÍTULO 1. INTRODUÇÃO. 1.1. 2. Justificativa. O conceito principal para a análise de sinais de voz evidencia a dependência da estrutura do sistema vocálico, ou seja, qualquer distúrbio que ocorra na laringe é refletido no sinal. Diversas técnicas de processamento digital de sinais têm sido utilizadas ao longo dos anos como uma eficiente ferramenta não invasiva para diagnosticar as alterações na produção dos sons provocados por patologias da laringe, classificação de doenças da voz e sua pré-detecção, auxiliando, dessa forma, no desenvolvimento do processo terapêutico (COSTA et al., 2007). A maioria das pesquisas realizadas até o momento baseiam-se em três metodologias: acústica, paramétrica e não paramétrica ou em métodos estatísticos. Os recursos utilizados na análise acústica identificam a patologia baseada no funcionamento e na condição de vários órgãos da fala (SELVAKUMARI; RADHA, 2017). A análise acústica permite avaliar os principais parâmetros acústicos utilizados atualmente na detecção de patologias, tais como: a frequência fundamental, definida como o número de vibrações por segundo produzidas pelas cordas vocais; as medidas de perturbação da frequência, o jitter, definido como sendo a perturbação da frequência fundamental ciclo a ciclo; as medidas da perturbação da amplitude, o shimmer, que é a variabilidade da amplitude ciclo a ciclo (TEIXEIRA; FERREIRA; CARNEIRO, 2011). Na metodologia paramétrica, as abordagens são baseadas no modelo linear de produção da fala, entre elas encontram-se a LPC (Linear Prediction Coefficients) e o Cepstral. As abordagens não paramétricas baseiam-se no tempo-frequência, no espectro de magnitude e na modulação de amplitude. Finalmente, a metodologia estatística aplica técnicas de classificação para separar o sinal normal e patológico utilizando técnicas de reconhecimento de padrões. O desenvolvimento de instrumentos para monitorar e auxiliar em diagnósticos médicos inclui ferramentas interdisciplinares das áreas de matemática, física e engenharia. A abordagem de sistemas biomédicos como sistemas dinâmicos tem se constituído uma linha de pesquisa de grande relevância, onde alguns autores defendem a ideia de que muitas doenças humanas podem ser determinadas por meio de técnicas de modelagem e de análise de sistemas não lineares (GLASS; MACKEY, 1988). A modelagem matemática de sistemas dinâmicos possui uma especial importância na solução de problemas físicos e de engenharia, onde o modelo matemático é uma equação utilizada para responder as questões sobre o sistema dinâmico mesmo sem a realização de experimentos. Por meio do modelo matemático, pode-se analisar e predizer o comportamento de um sistema, sob diversas condições de operação, ajustando o desempenho do mesmo, caso ele não se mostre satisfatório. Os métodos de modelagem têm sido utilizados, na literatura, para a síntese e a análise de sinais fisiológicos, mas, por meio do seu estudo, podem ser aplicados para propósitos diversos, como por exemplo, sintonia de controladores, predição de comportamentos de sistemas, monitoramento e supervisão. De uma forma geral, é possível agrupar as técnicas de modelagem em duas categorias: a modelagem pelas equações fenomenológicas do sistema dinâmico (modelagem caixa branca) e a identificação do modelo a partir de experimentos (modelagem caixa preta e cinza). Corrêa e Aguirre (2004) apresentam uma revisão da literatura sobre o desenvolvimento da área de identificação de sistemas dinâmicos. A área de conhecimento.

(19) CAPÍTULO 1. INTRODUÇÃO. 3. responsável pelo estudo de técnicas de modelagem desse tipo é conhecida como Identificação de Sistemas (AGUIRRE, 2004). Vários trabalhos objetivam a aplicação de tais técnicas em séries fisiológicas diversas, dentre elas, respiratórias (FORTRAT; YAMAMOTO; HUGHSON, 1997; AGUIRRE; BARROS; SOUZA, 1999; CAO; MEES, 2000), cardiovasculares (GLASS; KAPLAN, 1993; FEMAT; ALVAREZ-RAMIREZ; ZARAZUA, 1996; GUZZETTI et al., 1996; MANSIER et al., 1996; GOMES et al., 2000) e neurais (MÜLLER-GERKING et al., 1996). A escolha da técnica de modelagem adequada é fundamental para representar, de forma confiável, os processos biológicos, uma vez que esses processos são susceptíveis a apresentar algum tipo de não linearidade. Embora essas técnicas tenham sido projetadas, inicialmente, para a construção de modelos, percebeu-se que os resultados gerados por alguns desses algoritmos podem ser empregados também em atividades de detecção e classificação de patologias. Por essa razão, se afigura importante o estudo da eficácia desse tipo de método na discriminação de patologias vocais.. 1.2 1.2.1. Objetivos Objetivo Geral. Este trabalho tem como principal objetivo a aplicação de técnicas de identificação de sistemas para a modelagem de sinais de voz, de forma a obter um diagnóstico não invasivo e permitir a classificação de alterações patológicas na laringe, tais como edema, nódulo e paralisia, utilizando o KNN (K-Nearest Neighbors) como algoritmo de classificação.. 1.2.2. Objetivos Específicos. São objetivos específicos deste trabalho: • Analisar e estudar os sinais de voz e suas características; • Estudar a anatomia e a fisiologia da laringe, como também algumas patologias e exames utilizados atualmente para o seu diagnóstico; • Estudar, testar e analisar a viabilidade de algoritmos de estimação de parâmetros que sejam capazes de identificar modelos para vozes patológicas; • Implementar e testar o algoritmo KNN aplicado aos valores estimados dos parâmetros dos modelos de vozes identificadas para classificação dos distúrbios vocais.. 1.3. Organização do Trabalho. Para uma melhor compreensão, este trabalho encontra-se dividido em sete capítulos. No capítulo introdutório foram apresentadas a justificativa e os objetivos da pesquisa..

(20) CAPÍTULO 1. INTRODUÇÃO. 4. No capítulo 2 é realizada uma breve revisão sobre outros trabalhos realizados na área de detecção e classificação de distúrbios vocais e sobre a utilização do classificador KNN. No capítulo 3 é descrito o mecanismo de produção da fala, seu modelo correspondente, assim como as características da laringe, suas patologias e os exames utilizados para o seu diagnóstico. No capítulo 4 são apresentados alguns conceitos básicos da área de modelagem e identificação, incluindo alguns tipos de representações, modelos, método utilizado, assim como são abordados os princípios de classificação de dados e o algoritmo KNN. No capítulo 5 é realizada a descrição do banco de dados utilizado e das etapas utilizadas na elaboração dessa pesquisa. Os resultados encontrados são mostrados no capítulo 6. As conclusões e as considerações finais baseadas nos resultados encontrados são apresentadas no capítulo 7..

(21) Capítulo 2 Estado da Arte. Na literatura existem vários trabalhos que abordam o emprego de técnicas para a análise e a classificação de desordens vocais provocadas por patologias laríngeas utilizando metodologias e ferramentas diversas. Baken e Orlikoff (2000) evidenciam a variedade de métodos que utilizam a voz do paciente para extrair índices acústicos quantitativos. Koike (1969) e Iwata (1972) definiram em seus trabalhos um padrão de voz para falantes normais e pacientes com paralisia unilateral e carcinoma, utilizando coeficientes de correlação das medidas de magnitude da frequência fundamental. Koike (1969) determinou se há ou não uma alteração reconhecível nos sinais de amplitude de fala patológica, que pode estar relacionada à patologia laríngea, e considerou a viabilidade de desenvolver um procedimento para a avaliação da disfunção laríngea analisando 21 pacientes com patologias laríngeas e 20 adultos normais como grupo de controle. Em Rontal, Rontal e Rolnick (1975) são apresentadas a análise e a diferenciação do espectrograma de vozes normais e com patologias, para a avaliação do estado clínico de reabilitação vocal e do tratamento cirúrgico e médico de várias doenças no trato vocal. É evidenciado que os espectrogramas não conseguem diferenciar as lesões nas cordas vocais e que não se pode quantificar um espectrograma de voz ou obter uma medida exata. Em Deller e Anderson (1980) é apresentada uma técnica de classificação automática de distúrbios da laringe utilizando os polos e zeros de um filtro inverso digital, projetado a partir da modelagem auto regressiva do sinal de voz, sendo a informação utilizada na inclusão da classificação na posição dos zeros. Os resultados mostraram que a análise automática dos padrões pode ser um discriminante efetivo de diferentes desordens acústicas. Os autores concluíram que o método apresentou a capacidade de identificar simulações de anomalias na laringe, contudo, pesquisas adicionais são necessárias para aplicar essa técnica clinicamente. Em Waibel et al. (1989), os autores apresentam uma abordagem de Time Delay Neural Network (TDNN) para o reconhecimento de fonemas que é caracterizada por duas propriedades importantes: (1) usando uma disposição de três camadas de unidades de computação simples, pode ser construída uma hierarquia que permite a formação de superfícies de decisão não-lineares arbitrárias, que o TDNN aprende automaticamente usando o erro backpropagation; (2) o arranjo de retardo permite que a rede descubra as características fonético-acústicas e as relações temporais entre elas independentemente da posição no tempo e, portanto, não é afetado por mudanças temporais na entrada. Como tarefa de reconhecimento, foi escolhido o reconhecimento dependente do falante dos fonemas B, D.

(22) CAPÍTULO 2. ESTADO DA ARTE. 6. e G em contextos fonéticos variados. Para a comparação, vários Hidden Markov Models (HMM) foram treinados para executar a mesma tarefa. As avaliações de desempenho ao longo de 1946 amostras de três participantes indicaram que o TDNN atinge uma taxa de reconhecimento 98,5% correta enquanto que a taxa obtida pelo melhor dos HHM foi de 93,7%. Em Guoxin et al. (1989), foi utilizado um sistema de análise espectral de sinais de voz de pacientes com doenças na laringe. As pesquisas realizadas indicaram que a presença de algum distúrbio na laringe altera a forma de onda e o espectro de potência relacionados à voz do paciente. Os resultados indicaram que esse método é capaz de reconhecer características acústicas de vozes disfônicas. Assim, os autores concluíram, com base em resultados qualitativos, que esse método de análise espectral é efetivo para auxiliar os médicos no estudo da fisiologia e da patologia da voz, como também no monitoramento do processo de tratamento. É usado em Accardo, Fabbro e Mumolo (1992), o conceito de dimensão fractal como mecanismo de separação entre vozes com disartria e vozes normais. A disartria é uma doença neurológica que provoca a má coordenação dos músculos da fala. O trabalho foi realizado com oito pessoas sendo quatro pertencentes ao grupo de controle. Foi lido um texto com cem palavras e selecionados trechos adequados que foram divididos em 160 amostras. Por meio da medida de dimensão fractal foi possível separar essas amostras integralmente. Em Childers e Bae (1992) é apresentada uma medida quantitativa para a análise da função da laringe, usando a fala e dados de eletroglotografias (EGG). No trabalho foram desenvolvidos dois procedimentos para a detecção de patologias na laringe. O primeiro método é a medida de distorção espectral usando pitch com Linear Prediction Coefficients (LPC) e quantificação vetorial, e o segundo método envolve a análise do sinal de EGG, medindo a diferença do intervalo de amplitude e tempo. Foram utilizados 23 pacientes com patologias e 52 vozes normais no estudo que considerou a vogal /i/ sustentada. O melhor resultado encontrado com o primeiro método foi de 75,9% de acertos na detecção da patologia. Já o segundo método apresentou 69% de detecção correta. A probabilidade de ocorrerem falsos positivos foi de 9,6% para indivíduos normais. O trabalho de Gavidia-Ceballos e Hansen (1996) teve como foco de estudo, a formulação de um algoritmo de estimação de parâmetros da fala para a análise e a detecção de patologias nas pregas vocais. O algoritmo de processamento propôs estimativas necessárias para formular um modelo estocástico que caracterize condições saudáveis e patológicas por meio de sons da fala. O problema é abordado utilizando um procedimento de estimativa de máxima verossimilhança (Maximum Likelihood - ML) interativa, com base no algoritmo de maximização de estimativa (Estimation Maximization - EM). Ainda no trabalho de Gavidia-Ceballos e Hansen (1996), uma nova característica para a caracterização da patologia, denominada componente de patologia espectral-aumentada (Enhanced Spectral Pathology Component - ESPC), é estimada e mostrada para variar consistentemente entre condições saudáveis e patológicas. Também é mostrado que os índices de média-área-pico (Mean Area Peak Value - MAPV) e de inclinação ponderada (Weighted Slope - WSLOPE), que são obtidos a partir da estimativa ESPC, são medidas significativas de condições de patologia da fala. Para fins de classificação, foi formu-.

(23) CAPÍTULO 2. ESTADO DA ARTE. 7. lado um reconhecedor de HMM de cinco estados, com base nas características espectrais MAPV, WSLOPE e ESPC. Foi utilizado um conjunto de coeficientes de banco de filtros de frequência Mel para parametrizar o recurso ESPC. No estudo de Gavidia-Ceballos e Hansen (1996), uma avaliação do classificador baseada em HMM foi realizada usando gravações da fala de pacientes saudáveis e com câncer vocal. Demonstrou-se que, enquanto que MAPV e WSLOPE são características úteis para a detecção de patologias de pregas vocais, o desempenho superior foi alcançado utilizando uma representação espectral mais fina de ESPC. Uma vantagem principal do método proposto é que ele não requer uma estimativa direta da forma de onda do fluxo glotal. Portanto, a limitação da incapacidade de caracterizar a patologia da prega vocal, devido ao fechamento glótico incompleto, não é um problema. Os resultados sugerem que a análise geral do recurso ESPC pode fornecer uma abordagem quantitativa, não invasiva para a análise, detecção e caracterização da produção da fala sob a patologia da prega vocal. Um novo método para abordar o problema da avaliação da patologia da fala é apresentado em Wallen e Hansen (1996). O foco não é detectar ou medir todas as patologias possíveis, mas sim avaliar a qualidade vocal para aqueles casos em que a probabilidade de patologia é alta. O sistema é um teste de triagem que utiliza medidas objetivas de qualidade que examinam tanto as características de excitação, quanto as características do trato vocal. As cinco medidas integradas são a perturbação de pitch, a perturbação de amplitude, uma medida principal de pico cepstral, a medida de log-verossimilhança e uma medida de log-verossimilhança ponderada em energia. Eles são ponderados em seis classes de fonemas de fala e sua capacidade de avaliar a qualidade da fala é examinada. Em última instância, essas medidas devem ser integradas em um sistema de avaliação de patologia usando um HMM para reconhecimento da fala. Para demonstrar a capacidade das medidas de qualidade em sondar o espaço perceptual multidimensional, foi estabelecido um esquema de detecção de patologia da fala baseado em rede neural. Esse sistema atingiu uma taxa de classificação média de 85,8% para vozes saudáveis e patológicas. Frohlich, Michaelis e Strube (1998), propuseram uma medida acústica para a soprosidade, com o intuito de distinguir entre diversas condições de fonações fisiológicas em vozes afetadas. O índice proposto é o Glotal to Noise Excitation rate (GNE), que foi comparado a outros sete índices relatados na literatura. A avaliação desse método é realizada com base na capacidade de diferenciar entre vários mecanismos definidos de fonação patológica. Para os testes, foi utilizado um banco de 454 vozes, entre normais e patológicas, como grupo de referência, e seis vogais diferentes isoladas. Os resultados evidenciaram que o GNE, entre todas as medidas realizadas, apresentou a mais significativa diferenciação entre grupos de mecanismos de fonação patológica. Clarkson e Moreno (1999) criaram um sistema utilizando Support Vector Machine (SVM) multi-classes para classificar os fonemas. Eles assumiram limites de fonemas para serem conhecidos e mapearam os fonemas de comprimento variável para vetores de comprimento fixo. Isso foi realizado de tal forma que a maior parte da informação importante foi mantida e, portanto, o problema foi consideravelmente mais fácil do que a classificação quadro-a-quadro. Ainda assim, o resultado relatado de 77,6% é extremamente encorajador indicando o potencial de SVMs no reconhecimento da fala. Além.

(24) CAPÍTULO 2. ESTADO DA ARTE. 8. disso, o classificador multi-classe usado no artigo provou que é possível estender com êxito, o desempenho de generalização do SVM binário para o caso multi-classe. Em Rosa, Pereira e Grellet (2000) foi proposta uma técnica não invasiva para ajudar um especialista a fornecer um diagnóstico preciso de doenças vocais. O método utilizado é a filtragem inversa do sinal de voz, utilizando filtros de Kalman e Wiener, e para a análise foram utilizadas três vogais distintas /a/, /e/ e /i/. A metodologia de filtragem inversa relatada na literatura até aquele momento foi desenvolvida no segmento mais estacionário do sinal de voz. Contudo, várias patologias não apresentam características de “quasi-estacionaridade”. Com o intuito de elucidar esse problema, os autores propuseram três algoritmos adaptativos para estimação do modelo auto regressivo (AR). Foram utilizadas sete medidas acústicas para distinguir entre indivíduos com fala normal e patológica, onde os resultados indicaram que as vogais /a/ e /e/ obtiveram melhores resultados. Entre as conclusões, ressalta-se que a combinação desses filtros possibilita uma excelente discriminação de doenças com características similares e que a melhor característica para a discriminação patológica foi o jitter com 54,79%. Em Parraga (2002) é aplicada a transformada Wavelet Packet e o algoritmo Best Basis para a classificação automática de vozes patológicas ou normais. Os resultados obtidos indicaram que é possível classificar a voz utilizando essa transformada. A função Wavelet que apresentou os melhores resultados foi a symlet 5 e a melhor função custo foi a entropia. O classificador linear separou vozes normais de vozes patológicas com um erro de classificação de 23,07% para falsos positivos e de 14,58% para falsos negativos. Em Crovato (2004) é apresentado um sistema de classificação de voz disfônica utilizando a transformada Wavelet PackeT (WPT) e o algoritmo Best BAsis (BBA) como redutor de dimensionalidade e seis redes neurais artificiais atuando como um conjunto de sistemas “especialistas”. O banco de vozes utilizado foi separado em seis grupos de acordo com as similaridades patológicas. O sistema apresentou uma taxa de sucesso de 87,5%, 95,31%, 87,5%, 100%, 96,87% e 89,06% para os grupos 1 ao 6 respectivamente, utilizando o método Multiple Cross Validation (MCV). O poder de generalização foi medido utilizando o método MCV com a variação Leave-One-Out (LOO), obtendo erros em média de 38,52%, apontando a necessidade de aumentar o banco de vozes disponível. Fonseca et al. (2007) descreve um novo algoritmo para identificar patologias laríngeas, pela análise digital da voz. O algoritmo baseia-se na Daubechies’ discrete Wavelet Transform (DWT-db), nos Linear Prediction Coefficients (LPC) e nas Least Squares Support Vector Machines (LS-SVM). Wavelets com diferentes tamanhos de suporte e três kernels LS-SVM são comparadas. Particularmente, a abordagem proposta, implementada com requisitos de computador modestos, leva a um classificador adequado de patologia da laringe para identificar nódulos em pregas vocais, com os resultados indicando mais de 90% da precisão da classificação e possuindo uma baixa ordem de complexidade computacional em relação ao comprimento do sinal de fala. Na pesquisa de Costa (2008), foi estudada e caracterizada a patologia edema nas pregas vocais utilizando as análises cepstral, mel-cepstral e por predição linear. Foi utilizada uma abordagem paramétrica derivada da análise por predição linear para a estimação dos coeficientes cepstrais, e uma abordagem não paramétrica, usando a transformada rápida de Fourier. Cada característica acústica obtida foi utilizada para o processo de modelagem.

(25) CAPÍTULO 2. ESTADO DA ARTE. 9. paramétrica em um classificador individual, de forma a melhor avaliar sua relevância na detecção da presença da patologia. Para reduzir a quantidade de dados do vetor de características foi utilizada a técnica de quantização vetorial. Para a classificação final foram utilizados os Hidden Markov Model. Os resultados indicaram que os métodos desenvolvidos são eficientes em modelar os efeitos provocados pela patologia edema e permitem uma separação eficiente da patologia quando comparada a vozes normais. No trabalho de Costa (2012) foi usada a análise de quantificação de recorrência em trechos considerados não estacionários de sinais de voz (400 ms) de pacientes com laringes saudáveis e pacientes com laringes patológicas (nódulos, edema e paralisia nas pregas vocais), extraindo oito medidas de quantificação de recorrência. Com a taxa de recorrência fixada no patamar de 1%, as medidas foram utilizadas na classificação dos sinais de voz. Foram realizados testes estatísticos com os resultados obtidos, onde esses indicaram taxas de confiabilidade que variaram entre 94% e 100% na classificação das patologias com as medidas utilizadas. Essa análise é relevante para determinar se a técnica empregada, quando se trata do uso em sinais de voz, é mais eficiente em séries longas ou em séries curtas e estacionárias. Em Fontes et al. (2014) é proposto o uso de uma medida de similaridade baseada na teoria da informação denominada correntropia para a classificação automática de vozes patológicas. Usando a correntropia é possível obter descritores que agregam características espectrais distintas para vozes saudáveis e patológicas. Experimentos utilizando simulação computacional demonstraram que tais descritores são muito eficientes na caracterização de disfunções vocais, levando a uma taxa de sucesso de 97% na classificação. Com essa nova arquitetura, o processo de classificação das patologias vocais se torna muito mais simples e eficiente. Em Pinho (2017) são empregadas técnicas de processamento digital de sinais baseadas na análise dinâmica não linear para analisar alterações vocais causadas por patologias laríngeas e desvios vocais. São utilizadas informações das imagens do espaço de fase reconstruído dos sinais de voz, pois o comportamento do traçado do espaço de fase representa a dinâmica do sistema vocal. É investigada a desordem vocal provocada pela presença de patologia e/ou desvios vocais, a partir das modificações no espaço de fase dos sinais analisados. São utilizados quatro métodos de extração de características para obter medidas das imagens do espaço de fase que mostram o comportamento da dinâmica vocal do sistema: o método da contagem de caixas, o método da diferença, o método da similaridade e o método da contagem de caixas ponderadas. Com o auxílio de um classificador MLP (MultiLayer Perceptron) é realizada a classificação com as medidas extraídas individualmente e de forma combinada. No trabalho de Pinho (2017), os métodos que obtiveram melhor desempenho foram o da contagem de caixas ponderadas e da similaridade, tanto com medidas individuais como também combinadas que, no segundo caso, obteve-se uma precisão de 99% na classificação de vozes patológicas. Os resultados obtidos com o método da similaridade foram satisfatórios na classificação, principalmente na distinção entre patologias (edema e paralisia nas pregas vocais) e vozes saudáveis, com precisão de 99%. Na classificação dos desvios vocais, o melhor resultado foi encontrado para a distinção entre as vozes soprosas e saudáveis, com taxa de precisão de 88% utilizando o método da similaridade, sendo.

(26) CAPÍTULO 2. ESTADO DA ARTE. 10. que, em alguns casos, a classificação dos desvios vocais com os métodos empregados não foi tão efetiva. Os métodos empregados se mostraram promissores podendo ser viáveis na implementação de um sistema de avaliação da qualidade vocal e na detecção de alterações vocais provocadas pela presença ou não de patologias laríngeas. O trabalho de Silva et al. (2017) tem como objetivo distinguir sinais de voz, entre saudáveis e afetados por patologias laríngeas, empregando a transformada Wavelet Packet na etapa de extração de características. Medidas de energia e de entropia, em seis níveis de resolução, obtidas por meio da Wavelet de Daubechies de ordem 4, são usadas na discriminação dos sinais de voz, com a classificação realizada por meio de redes neurais artificiais. Foram obtidas taxas de acurácia acima de 90%, com a medida de entropia, na discriminação entre vozes saudáveis e afetadas por patologias nas pregas vocais (nódulos, edema de Reinke e paralisia). Da mesma forma, a análise de sinais fisiológicos por meio de técnicas de identificação não linear é promissora, e tem atraído espaço em trabalhos como o de Mansier et al. (1996), Müller-Gerking et al. (1996), Barros (1997), Aguirre, Barros e Souza (1999), Cao e Mees (2000), Gomes et al. (2000), Gomes (2001), Oliveira (2007), Rodrigues (2011). Em Müller-Gerking et al. (1996) é realizada uma análise rigorosa de dados neuroelétricos precisamente controlados e comportamentalmente significativos. Existem fortes indícios de que a atividade cerebral funcional está correlacionada com os potenciais de campo local síncrono. São examinados tais episódios sincrônicos em dados registrados a partir do sistema visual de gatos e pombos. Para testar a não linearidade, foram utilizados conjuntos de dados substitutos para previsão não linear e um exame de modelagem determinística versus estocástica. Barros (1997) investiga três séries temporais obtidas de um paciente com apneia durante o sono a fim de identificar a presença de não estacionariedades, a detecção de não linearidades e o grau de correlação entre os sinais. São apresentados modelos polinomiais Nonlinear AutoRegressive Moving Average with eXogenous input (NARMAX) identificados a partir das três séries temporais. Dentre os modelos apresentados, verificou-se um desempenho melhor dos polinômios NARMAX nos intervalos referentes a apneia intermitente. Em Aguirre, Barros e Souza (1999) é investigada a modelagem e a análise de dados fisiológicos de um paciente usando três séries temporais: saturação de oxigênio no sangue, frequência cardíaca e respiração. É verificado se os modelos estimados a partir de dados podem distinguir entre a dinâmica subjacente a padrões respiratórios diferentes (respiração normal e apnéia). Os modelos estimados são não lineares, auto regressivos, com média móvel e entradas exógenas (NARMAX). Os resultados mostrados no trabalho sugerem que a dinâmica subjacente aos dados é não linear e basicamente determinística. Usando modelos estimados, parece ser possível quantificar a estabilidade do ponto fixo no espaço de fase reconstruído utilizando a série temporal de oxigênio no sangue. Em Gomes et al. (2000) e Gomes (2001) foram modeladas séries de Variabilidade da Frequência Cardíaca (VFC) e analisada a presença de determinismo, sem assumir a presença de dinâmica caótica no sistema. Foi proposto um novo método baseado em modelagem Nonlinear Autoregressive Moving Average (NARMA) e em predição linear para investigação do determinismo..

(27) CAPÍTULO 2. ESTADO DA ARTE. 11. Oliveira (2007) estudou os sinais de VFC e apresentou um procedimento de modelagem que permite obter modelos que consideram os aspectos dinâmicos e estocásticos dos sinais de VFC, onde a representação matemática adotada para os modelos foi a NARMAX polinomial. Na etapa de validação do procedimento de modelagem e no estudo das séries de VFC, os modelos obtidos foram capazes de se aproximar de sistemas originais tanto no aspecto dinâmico quanto no aspecto estocástico. Rodrigues (2011) investigou os aspectos da dinâmica ventilatória durante a ventilação não invasiva por meio de técnicas de processamento não linear de sinais. O filtro de Kalman estendido integrou um modelo para a mecânica respiratória e as medições da pressão na máscara e da vazão na saída do ventilador para a estimação do vazamento. A abordagem baseada no filtro de Kalman foi comparada com outro método para a estimação de vazamento no contexto de um perfil de interação paciente-ventilador. Os sinais de pressão e de vazão registrados em sessões de ventilação não invasiva foram investigados por intermédio da identificação de sistemas. A dinâmica subjacente a esses sinais foi representada por modelos NARMAX polinomiais e em redes Radial Basis Function (RBF) nas configurações entrada-saída e autônoma. Os modelos NARMAX polinomiais obtidos convergiram para pontos fixos, ou ciclos limite, e não reproduziram a complexidade da dinâmica original. Por sua vez, os modelos autônomos em rede RBF aproximaram as formas de onda dos ciclos ventilatórios. As saídas desses modelos apresentaram variabilidade reduzida em relação aos dados. O processo de classificação de dados é uma das atividades mais antigas e populares ao ser humano. O método K-Nearest Neighbors (KNN) é muito utilizado em aplicações envolvendo a tarefa de classificação por ser um método de fácil entendimento e implementação, não requerendo treinamento prévio para ser aplicado, assim como pode ser visto em trabalhos como o de Silva et al. (2005), Ferrero (2009), Shirvan e Tahami (2011) e Diniz, Silva e Alencar (2016). O trabalho de Silva et al. (2005) apresenta uma metodologia utilizando o classificador KNN para a identificação automática de estruturas Box & Jenkins sazonais e não-sazonais. Em Ferrero (2009) é proposta uma abordagem para selecionar vizinhos mais próximos que considera a similaridade e a distância temporal de modo a selecionar os padrões mais similares e mais recentes. Também é proposta uma função de previsão que tem a propriedade de manter um bom desempenho na presença de padrões em níveis diferentes da série temporal. Os resultados obtidos sugerem que o critério de seleção de vizinhos próximos e a função de previsão, propostas no trabalho, são promissores. No estudo de Shirvan e Tahami (2011) foram extraídas várias características dos sinais de voz de pessoas saudáveis e que sofrem de doença de Parkinson. Posteriormente, os recursos otimizados que influenciaram o processo de classificação dos dados foram detectados usando o algoritmo genético e, em última instância, com base em vários números de recursos otimizados, a classificação dos dados foi feita usando o método de classificação KNN. Verificou-se que uma precisão de classificação de 93,7% por 4 características otimizadas, uma precisão de 94,8% por 7 características otimizadas e uma precisão de 98,2% por 9 características otimizadas poderiam ser alcançadas, o que é um resultado notável em comparação com outros estudos. O trabalho de Diniz, Silva e Alencar (2016) apresentou um estudo empírico de otimi-.

(28) CAPÍTULO 2. ESTADO DA ARTE. 12. zação das taxas de acurácia resultantes de um sistema de reconhecimento facial baseado nas técnicas Eigenfaces e KNN. Foram investigadas as seguintes variáveis: imagens com três dimensões distintas, número de características, o (eigenfaces), valores de K da técnica KNN e três medidas de distância (euclidiana, Manhattan e euclidiana normalizada). Os estudos foram importantes para entender empiricamente quais parâmetros são os mais relevantes para as técnicas analisadas e que resultam em melhores taxas de acurácia de reconhecimento facial. Os resultados dos experimentos comprovaram que as imagens com dimensões 12x9 pixels produzem as melhores taxas de acurácia de reconhecimento facial, combinando com a medida de distância euclidiana normalizada e um número de eigenfaces igual a vinte..

(29) Capítulo 3 Análise da Voz. Este capítulo é dedicado a apresentação dos aspectos teóricos relacionados a análise da voz e o mecanismo de produção da fala. Nele são expostos conceitos importantes da área em estudo, que são relevantes para o desenvolvimento deste trabalho.. 3.1. Processo de Produção da Voz. A voz é um fenômeno que comporta grandes variações e depende de uma complexa e interdependente atividade de todos os músculos que servem à sua produção, além da integridade dos tecidos do aparelho fonador (FREITAS, 2012). Para Behlau (2001), a voz é produzida pela ação conjunta de alguns subsistemas: • Sistema respiratório: fonte de energia (pulmões); • Sistema fonatório: fonte vibratória (pregas vocais); • Sistema de ressonância: fonte de ressonância (cavidades oral e nasal); • Sistema nervoso central e periférico: gerenciamento dos demais sistemas (córtex, estruturas sub-corticais e nervos); • Sistema articulatório: articuladores (dentes, lábios, língua, mandíbula e palato). Na respiração, as pregas vocais se abrem e o ar entra e sai dos pulmões. Os sons sonoros ocorrem quando o fluxo de ar sai dos pulmões e atinge a traqueia, até alcançar a laringe, produzindo uma vibração nas pregas vocais. Logo, a voz é o resultado do equilíbrio entre duas forças: (i) a força do ar que sai dos pulmões; (ii) a força muscular da laringe. Se houver um desequilíbrio nesse mecanismo, poderá ocorrer uma alteração na voz. Ainda segundo Behlau (2001): A laringe é responsável por produzir a fonação, enquanto que o trato vocal produz a voz. A voz é a fonação acrescida de ressonância. Fisicamente, a voz é o som produzido pela vibração das pregas vocais, modificado pelas cavidades de ressonância. Essas modificações podem ocorrer de diversas maneiras e em associações,.

(30) CAPÍTULO 3. ANÁLISE DA VOZ. 14. tais como reforço ou abafamentos dos harmônicos, além de acréscimos de ruídos gerados em pontos de estreitamento ao longo do trato vocal, ou ainda pela interrupção momentânea do fluxo de ar, formando alguns dos sons consonantais. Uma representação básica do sistema de produção vocal é ilustrada na Figura 3.1. Figura 3.1: Sistemas envolvidos na produção do sinal de voz.. Fonte: (DÁJER, 2006).. A Figura 3.2 ilustra uma simplificação do sistema de produção de voz, sob as perspectivas físicas e de processamento de sinal, em que, as pregas vocais representam a fonte e o trato vocal representa o filtro. Figura 3.2: Modelo simplificado do mecanismo de produção da fala.. Fonte: (COSTA, 2008).. A distinção entre sons sonoros e surdos diz respeito a um fato fonético o qual ocorre na laringe, e sua classificação acontece de acordo com o modo de excitação em três classes distintas. Os sons sonoros são produzidos forçando o ar por meio da glote com a tensão das cordas vocais ajustada de modo que vibrem em uma oscilação de relaxamento, produzindo pulsos quase periódicos de ar que excitam o trato vocal (RABINER; SCHAFER, 1978)..

(31) CAPÍTULO 3. ANÁLISE DA VOZ. 15. Os sons fricativos são gerados formando uma constrição em algum ponto no trato vocal, geralmente em direção à extremidade da boca, e forçando o ar através da constrição a uma velocidade suficientemente alta para produzir turbulência (RABINER; SCHAFER, 1978). Isso cria uma fonte de ruído de amplo espectro para excitar o trato vocal. Os sons plosivos resultam do fechamento completo das pregas vocais, aumentando a pressão por trás do fechamento, geralmente em direção à extremidade da boca, e soltando abruptamente (RABINER; SCHAFER, 1978). O objetivo é melhorar a força de articulação e a clareza da emissão, reforçando a cavidade oral.. 3.2. Patologias da Laringe. Quando a voz muda de alguma forma negativa, diz-se que ela está perturbada, ou disfônica. Tais mudanças possuem muitos nomes comuns, mas o termo mais genérico para essas disfunções é a disfonia, que significa qualquer alteração na vocalização normal (BOONE; MCFARLANE, 1994). A disfonia, ou patologia vocal, é definida como um distúrbio da comunicação oral, no qual a voz não cumpre a transmissão da mensagem verbal e emocional, representando uma dificuldade ou alteração na emissão, condicionando a sua produção (BEHLAU, 2001). As patologias relativas ao trato vocal são diferenciadas em relação a padrões perceptuais, tais como: rouquidão, aspereza e soprosidade (COLTON; CASPER, 1996). A presença da patologia pode ser percebida por meio de sintomas relatados por pacientes aos seus médicos como queixa de sensações associadas à fonação, ou dores na região da garganta. Alguns sintomas podem ser verificados, outros não (COSTA, 2008). De acordo com (FREITAS, 2012), em um contexto clínico, a avaliação da voz implica na investigação de informações por meio da: (1) anamnese ou entrevista clínica; (2) avaliação da fisiologia laríngea (comumente laringoscopia indireta e/ou endoscopia e/ou estroboscopia e/ou electroglotografia e/ou outras); (3) avaliação áudio-perceptiva; (4) exame funcional (avaliação musculo-esquelética e aerodinâmica); (5) análise acústica; e (6) auto-avaliação do impacto psicossocial da voz. Entre as patologias da laringe que afetam as pregas vocais, são destacadas neste trabalho, os edemas de Reinke, nódulos vocais e a paralisia, por serem distúrbios amplamente investigados na literatura utilizando técnicas de processamento de sinais.. 3.2.1. Edema de Reinke. O edema de Reinke é uma lesão difusa na camada superficial da prega vocal, de coloração rosada, caracterizada por acúmulo de fluido, de modo irregular, em alguma região da porção membranosa, ou em toda ela (BEHLAU, 2001). Ele recebe esse nome por se localizar no espaço anatômico de Reinke, epitélio de cobertura das pregas vocais, e nome do primeiro anatomista a investigar essa patologia, que caracteriza-se pela expansão, aumento e inchaço das pregas vocais, ilustrada na Figura 3.3. Em geral, o inchaço das pregas vocais pode aumentar consideravelmente com o passar dos meses e até anos..

(32) CAPÍTULO 3. ANÁLISE DA VOZ. 16. Figura 3.3: Edema nas pregas vocais.. Fonte: (SULICA, 2017).. O edema de Reinke ocorre em indivíduos adultos de ambos os sexos, entre 45 e 65 anos de idade, que apresentam uma frequente associação de uso intensivo da voz, abusos vocais variados e tabagismo (BEHLAU, 2001). Uma das causas de sua ocorrência é a reação natural do tecido ao trauma fonatório associado ao consumo de tabaco por um período prolongado. Os sintomas típicos incluem voz grave para a idade e sexo do paciente, além de rouquidão (COLTON; CASPER, 1996).. 3.2.2. Nódulos Vocais. Os nódulos são lesões de massa, benignas, bilaterais, de característica esbranquiçada ou levemente avermelhada, que se desenvolvem na região anterior das pregas vocais, na metade da área de maior vibração glótica, decorrentes, essencialmente, do abuso vocal (BEHLAU, 2001). São lesões comuns em mulheres jovens e adultas, na faixa etária de 25 a 35 anos, e também em crianças de ambos os sexos. A Figura 3.4 ilustra uma imagem de um nódulo nas pregas vocais. Figura 3.4: Nódulo nas pregas vocais.. Fonte: (SULICA, 2017).. De acordo com Holmberg et al. (2001), um dos problemas causados pela patologia é.

Referências

Outline

Documentos relacionados

Desse modo, o Plano de Ação construído procurou focar na atuação da equipe diretiva das UEs – especificamente no gestor escolar e no supervisor educacional

É importante destacar também que, a formação que se propõem deve ir além da capacitação dos professores para o uso dos LIs (ainda que essa etapa.. seja necessária),

Acredita-se que as pes- soas especiais devem estar presentes não só como ouvintes, mas como agentes que possam estar envolvidos nas discussões e decisões sobre uma

A dinâmica social exige da escola um serviço educativo com qualidade, que responda aos seus desafios e que se antecipe pró-ativamente na resposta às suas problemáticas. A

Percentual de intervalos RR adjacentes com diferença de duração maior que 50ms Pós-Menopausa Qualidade de Vida Risco Cardiovascular Raiz quadrada da média do quadrado das

8.213/1991, acarreta a possibilidade de extinção do contrato de trabalho, uma vez que a legislação previdenciária impõe o afastamento do aposentado especial da

29 Table 3 – Ability of the Berg Balance Scale (BBS), Balance Evaluation Systems Test (BESTest), Mini-BESTest and Brief-BESTest 586. to identify fall

Role of endogenous purines in lower urinary tract dysfunctions 39 receptors in the detrusor smooth muscle contraction, these receptors may open new therapeutic avenues for the