• Nenhum resultado encontrado

No início deste capítulo apresentou-se uma descrição geral das áreas de processamento da fala. Na secção seguinte apresentou-se o aparelho vocal assim como as patologias da voz mais comuns que podem ser encontradas na bibliografia. Na secção anterior apresentou-se o estado da arte descrevendo as publicações consideradas relevantes no reconhecimento de vozes patológicas e de patologias da fala. Apresenta-se agora uma análise das limitações e lacunas encontradas no estado da arte e definem-se os caminhos seguidos na investigação.

O único ponto em comum em todos os trabalhos apresentados sobre reconhecimento de vozes patológicas e de patologias é o facto do sinal de fala usado nos vários sistemas ser a vogal sustentada /a/. Em [63], é realizado um estudo onde se verifica que a vogal /a/ é aquela que tem, no domínio do tempo, os picos de maior amplitude e de menor abertura, o que faz com que nesta vogal exista uma boa correlação entre os parâmetros retirados de uma eletroglotografia laríngea e os parâmetros acústicos.

Apenas em [20] e [41] foram realizados sistemas utilizando características da fonte, como por exemplo o jitter do período fundamental, no reconhecimento de patologias. Em [20], o trabalho foi mais ambicioso pois poderia realizar a discriminação de 8 classes, entre as quais 6 patologias, mas não existiu uma base de dados consistente que permitisse validar os resultados. Em [41], fazer o reconhecimento de patologias através de jitter do período fundamental não era o principal objectivo pois não são publicados resultados, mas é evidente através dos valores médios do jitter do período fundamental e da sua variância que não é possível distinguir as duas patologias em estudo.

Os restantes trabalhos propõem-se realizar reconhecimento de patologias através de características que modelam o trato vocal (MFCC, modulação espectral e formantes). Nestes e nomeadamente em [34] e [37], dos mesmos autores, foram obtidos resultados acima de 85% na detecção de pólipos contra outras três patologias. Em [48] os resultados obtidos pela

34

modulação espectral são comparados com os obtidos com parâmetros MFCC, concluindo-se que os MFCC obtêm pior desempenho. Os autores, ao usarem modulação espectral, procuram correlacionar o espectro do sinal com a frequência fundamental. Os MFCC de baixa ordem apenas contêm informação do trato vocal, mas ainda assim é possível realizar reconhecimento de patologias. Por outro lado, em [49], são usados apenas os 1º e 2º formantes. Os autores clamam que conseguem identificar 5 patologias, usando uma base de dados que pode ser considerada relevante dada o contexto, pois permite a realização de 144 testes.

O reconhecimento de vozes patológicas começa assim por ser efectuado com características que estão estritamente ligadas às pregas vocais, como sejam o jitter do período fundamental e o shimmer, embora recentemente as características ligadas ao modelo do filtro, ou seja do trato vocal, apareçam com resultados equivalentes. A combinação de vários parâmetros é também usual. Ao nível dos classificadores são visíveis que os progressos efectuados noutras áreas, como por exemplo no reconhecimento de orador, estão também a optimizar o reconhecimento de vozes patológicas, contribuindo para melhorar os resultados.

A investigação no reconhecimento de patologias da voz está portanto numa fase inicial. Os pressupostos que são usados no reconhecimento de vozes patológicas, que usam características da fonte, não mostram resultados conclusivos no reconhecimento de patologias da voz. Os sistemas que usam características que modelam o trato vocal conseguem alguns resultados relevantes. Em alguns casos os autores não relacionam nem discutem os resultados obtidos e não procuram encontrar características no sinal de fala que estejam relacionadas com determinada patologia. Este facto é de extrema importância, pois a discussão de resultados permite, muitas vezes, perspectivar outras soluções.

Os resultados obtidos, na grande parte dos trabalhos, não são comparáveis pois não existe uma base de dados de referência e, mesmo nos casos em que é usada a mesma base de dados, não são usados exactamente os mesmos sinais e as mesmas patologias.

Em todos os trabalhos de investigação encontrados é usada sempre a vogal /a/, ou semelhante, nos sistemas de reconhecimento de patologias da voz. Não existem, no entanto, até à dada, sistemas de reconhecimento de patologias da voz que utilizem fala contínua. Existe contudo um trabalho de reconhecimento de vozes patológicas em que a fala contínua obteve uma taxa de reconhecimento semelhante à da vogal /a/.

35

O facto de os resultados não serem comparáveis torna difícil estabelecer um ponto de partida que possa ser tomado como referencia, nomeadamente ao nível de reconhecimento de patologias da voz. No entanto, através da revisão do estado da arte, podem ser encontradas algumas lacunas que ainda não foram devidamente exploradas. É exemplo a utilização de fala continua no reconhecimento de patologias da voz. Neste caso, a única base de dados conhecida que contém sinais que permitam esta investigação é a base de dados da MEEI. Uma vez que os resultados obtidos no reconhecimento de vozes patológicas foram semelhantes à vogal /a/ é espectável que o sinal de fala continua contenha informação relevante no reconhecimento de patologias.

Novas abordagens no estudo de vozes patológicas também devem continuar a ser investigadas para que possam transmitir métodos simples, mas acima de tudo eficazes no reconhecimento de vozes patológicas. Verifica-se que novos métodos desenvolvidos no reconhecimento de vozes patológicas contribuem para o posterior desenvolvimento no reconhecimento de patologias da voz.

37

3 Materiais e métodos

Neste capítulo vão ser descritas as bases de dados usadas para estimar as características dos sinais de fala que permitirão desenvolver os classificadores usados na implementação dos sistemas de reconhecimento. São também descritos os parâmetros que vão ser usados quer na detecção de vozes com patologias quer na detecção das próprias patologias, assim como os classificadores usados na análise dos parâmetros dos sinais de fala e na implementação dos sistemas de reconhecimento.