• Nenhum resultado encontrado

O principal objectivo desta tese foi encontrar novas características no sinal de fala que permitam identificar patologias da voz, quer sejam parâmetros do sinal de fala ou diferentes tipos de sinais de fala como seja a análise de vogais sustentadas ou de fala contínua. Existe, no entanto, uma limitação nos tipos de sinais de fala devido à inexistência de bases de dados com sinais provenientes de sujeitos diagnosticados com patologias da voz. Apesar disso, conseguiu-se utilizar duas bases de dados de referência no reconhecimento de patologias da voz: a base de dados da Universidade de São Paulo e a base de dados da MEEI.

As contribuições produzidas nesta tese podem ser divididas em duas partes: caracterização de vozes patológicas através da envolvente espectral, descrita no Capítulo 4 e sistemas de identificação de patologias laríngeas baseados em fala contínua descrita no Capítulo 5. O penúltimo ponto de cada um destes capítulos faz uma análise detalhada da validação e discussão dos resultados obtidos. O último ponto de cada capítulo apresenta um resumo das conclusões consideradas mais relevantes.

A primeira parte, descrita no capítulo 4, apresenta contribuições na identificação de voz ao nível da análise espectral, na detecção de um pico no espectro relacionado com a energia da primeira e segunda harmónica e na relação desta energia com o ruído presente no espectro. O estudo envolveu duas bases de dados de sinais de fala contendo sujeitos saudáveis e sujeitos diagnosticados com várias patologias laríngeas como edemas, pólipos, nódulos, paralisia nas pregas vocais e queratoses. O método apresentado indica a presença de um pico na envolvente espectral antes do primeiro formante. Este pico é facilmente detectado mesmo em vozes patológicas com valores de relação harmónica-ruído semelhantes às vozes de sujeitos

108

saudáveis. Esta característica está também presente em vozes soprosas onde a presença de ruído não atinge níveis considerados relevantes. Nos casos em que a soprosidade é evidente, verifica-se a degradação da componente harmónica do sinal e a diminuição do declive espectral, pelo que em alguns casos não é possível a detecção do primeiro pico que modela a primeira e a segunda harmónica do sinal. Verifica-se, de facto, que em vozes com soprosidade elevada a relação HNR baixa não sendo possível detectar este pico. Outro facto importante que também se verificou, é que este pico está presente não só na vogal /a/ utilizada normalmente neste tipo de estudos, como também nas vogais /e/ e /i/, sendo portanto uma característica independente do fonema.

Este método de identificação de vozes com patologias permite um processo simples e eficaz na identificação de sujeitos com patologias da voz, que pode ser particularmente útil em situações de rastreio onde não esteja presente um médico especialista. O método apresentado nesta tese, baseado em árvores de decisão, permite taxas de acertos superiores a 95%, o que está em linha com todos os outros trabalhos apresentados para as mesmas bases de dados.

A segunda parte desta tese, descrita no capítulo 5, consiste em demonstrar que na fala contínua, as características que modelam o tracto vocal e as características perceptivas do sinal de fala têm contribuições significativas na identificação de vozes com patologias e na identificação das patologias. Neste estudo foi usada apenas a base de dados da MEEI pois é a única comercialmente disponível que contém sinais de fala contínua. Desta base de dados foram criadas três classes de sujeitos repartidos por sujeitos saudáveis, sujeitos com patologias fisiologias (edema e nódulo) e sujeitos com patologias neuromusculares (paralisia unilateral das pregas vocais). De facto, verifica-se que os sujeitos com patologias podem usar o tracto vocal para compensar a incapacidade glotal. Por outro lado, a mesma patologia, ou patologias idênticas do ponto de vista funcional, tendem a produzir perturbações semelhantes no sinal de fala. Neste caso, o uso de características perceptivas pode ser uma mais-valia quando se pretende fazer o diagnóstico de patologias. Para tal, foram desenvolvidos vários classificadores (SVM, GMM e Discriminadores Lineares), usando vários parâmetros do sinal de fala (MFCC, MLSF e LSF) e sinais de fala contínua e a vogal /a/. Verificou-se que o uso da fala contínua, juntamente com o parâmetro MSLF que contém informação perceptiva, obtém a melhor taxa de reconhecimento com 77,9%. Por outro lado, através da análise mais cuidada dos resultados, verifica-se que não se deve descartar a vogal /a/ no reconhecimento de patologias. De facto,

109

verifica-se que este sinal apresenta a melhor taxa de reconhecimento na identificação de oradores diagnosticados com paralisia unilateral das pregas vocais, quer usando MLSF, quer usando LSF. Este resultado pode ser explicado pelo facto da produção de uma vogal sustentada requerer um maior esforço ao nível das pregas vogais, originado um maior impacto nesse sinal de fala por parte desta patologia. Tendo em conta estas considerações, desenvolveu-se um sistema hierárquico, onde vários sistemas individuais são combinados de modo a optimizar os resultados. Este sistema tem a vantagem de ser modular e facilitar a ampliação para outras patologias. O sistema hierárquico obteve uma taxa de reconhecimento de 84,4%, obtendo melhores resultados em 5 das 7 métricas avaliadas quando comparados com os sistemas individuais.