COMPARATIVO DE DESEMPENHO COM OS TRABALHOS

A rede neural utilizada neste trabalho tem por objetivo realizar uma classificação de forma mais abrangente (uma generalização) por conta disso utilizou-se uma rede de camada

´unica. Este trabalho utilizou softwares comerciais, dispon´ıveis no mercado e n˜ao criou

nenhum algoritmo dedicado para efetuar sua classificação, utiliza somente as medidas acústicas dispon´ıveis no banco de dados.

O estudo apresentado por (SCALASSARA, 2009) utiliza a classificação entre vozes saudáveis, ou patológicas acometidas por nódulos ou edemas de Reinke, porém utiliza como meio de classificação a entropia. Por não utilizar as mesmas medidas acústicas deste trabalho os resultados não podem ser comparados. Pelo mesmo motivo apresentado anteriormente, o trabalho de (SANTOS; SCALASSARA, 2012) também não pode ser comparado com este, visto que analisa vozes saudáveis, com nódulos ou com edemas de Reinke utilizando entropia relativa entre os sinais e um estimador por janela de Parzen.

O trabalho realizado por (FRAZ ÃO et al., 2011) utilizou o mesmo banco de dados porém com menor quantidade de amostras e patologias (53 vozes normais, 43 com edemas de Reinke, 53 como paralisia e 18 com nódulos). Baseou-se em 3 medidas acústicas: f0, Jitter e

Shimmer. O melhor resultado obtido para a classificação entre voz saudável e patológica foi de 91,67% utilizando a medida acústica shimmer e de 95,14% de acurácia utilizando-se uma combinação entre f0e shimmer.

O trabalho apresentado por (PARRAGA, 2002) utilizou 64 vozes reais captadas em um consultório associada com alguns sinais sintéticos de vozes que foram baseadas nas vozes reais. Os melhores resultados obtidos para a classificação entre vozes normais e patológicas foram de 76,92% de acertos (23,07% de erros) obtido na classificação de voz normal e 85,42% de acertos (14,58% de erros) na classificação de vozes patológicas.

O trabalho de (HENRÍQUEZ et al., 2009) utilizou dois bancos de vozes distintos. Um deles foi o mesmo banco de dados utilizados neste trabalho e os resultados obtidos foram de 99,69% de acurácia para a classificação de vozes normais e o mesmo valor para a classificação das vozes patológicas, valor muito próximo ao melhor resultado obtido neste trabalho. Este resultado foi obtido através da combinação de 6 medidas caóticas não-lineares. Não há informações a respeito sensibilidade, precisão ou especificidade, o que tornaria mais interessante a comparação com este trabalho.

O trabalho apresentado por (COSTA, 2012) tem como foco classificações entre sinais de vozes saudáveis e vozes que estejam sendo afetadas por 3 patologias: edema, paralisia e

nódulos nas pregas vocais. Para isso utilizou análise dinâmica não linear e teoria do caos, além da análise de quantificação de recorrência. Os resultados de classificação entre vozes saudáveis e patológicas foram divididos em: Função Discriminante Quadrática(QDA) tendo uma Acurácia média máxima de 96,03±5,75%, uma sensibilidade de 94,46±7,17% e uma especificidade de 98,00±6,32%; e (LDA) tendo uma Acurácia média máxima de 92,48±6,49%, uma sensibilidade de 93,26±6,60% e uma especificidade de 90,67±12,65%. Foi feita ainda uma combinação entre as 15 medidas de quantificação de recorrência e o resultado encontrado foi de uma Acurácia de 98,27±2,79%, uma sensibilidade de 97,50±4,03% e uma especificidade de 100% para 6 medidas usando o QDA.

O estudo feito por (VIEIRA, 2014) utilizou o mesmo banco de dados deste trabalho porém restringiu-se a utilização de 53 sinais de vozes saudáveis e 118 sinais de vozes patológicas (55 vozes apresentando paralisia nas pregas vocais, 45 afetadas por edema de Reinke e 18 por nódulos vocais). Os resultados alcançados pela classificação entre vozes saudáveis e vozes patológicas a partir da medida de comprimento máximo das linhas diagonais foi de 94,15±1,24% de acurácia média máxima tendo uma sensibilidade de 94,85±1,95% e uma especificidade de 92,33±4,34%, com uma taxa de recorrência de 2%.

Ao se considerar a configuração direta, o valor de acurácia encontrado foi de 96,99±2,08%, a precisão encontrada foi de 88,91±10,57% e o menor valor encontrado para a sensibilidade e especificidade foi de 54,57±30,6.

Considerando as configurações que utilizam o método de redução de variáveis, os resultados encontrados foram:

• Para a configuração com entradas não normalizadas e redução de variáveis utilizando 3 medidas rotacionadas, a acurácia obtida foi de 93,98±0,24%, uma sensibilidade de 6,33±4,39%, uma precisão de 59,51±21,09% e uma especificidade de 99,75±0,17%; • Para a configuração com entradas não normalizadas e redução de variáveis utilizando

6 medidas rotacionadas, a acurácia obtida foi de 94,07±0,29%, uma sensibilidade de 7,06±5,54%, uma precisão de 64,33±23,22% e uma especificidade de 99,79±0,14%; • Já para a configuração com entradas normalizadas e redução de variáveis utilizando

6 medidas rotacionadas, a acurácia obtida foi de 97,88±1,53%, uma sensibilidade de 69,12±20,86%, uma precisão de 92,39±14,17% e uma especificidade de 99,77±0,53%. Com a normalização, houve uma melhora significativa dos resultados.

aos encontrados nos outros trabalhos, já os valores de especificidade são bons somente nas configurações que utilizam o método de redução de variáveis. A precisão encontrada de um modo geral não atendeu as expectativas por possu´ırem valores baixos e/ou alta variação. Já os valores encontrados para a sensibilidade corresponderam aos piores resultado deste estudo possuindo valores muito baixos, não alcançando uma média de 70% na sua melhor configuração.

9 CONCLUS ˜AO

Buscando minimizar o desconforto dos pacientes que necessitam submeter-se ao procedimento de laringoscopia, procurou-se através deste estudo reconhecer padrões que pudessem ser aplicados à identificação de patologias de laringe.

Inicialmente imaginou-se em trabalhar com redes neurais que utilizassem os dados da forma em que estão dispon´ıveis. Como se utilizou um banco de dados de vozes que continha amostras de vozes normais e patológicas analisadas por médicos e fonoaudiólogos, as medidas acústicas dispon´ıveis são aquelas que foram listadas pelo próprio banco no momento de sua disponibilização.

Esta primeira rede neural atingiu 524.287 resultados obtidos através das configurações de todas as 19 medidas acústicas que este trabalho analisou iniciando com k=1 até k=19 sendo que, para k=1, há apenas 1 medida acústica na entrada da rede neural. Para k=2 há uma combinação, duas a duas, das 19 medidas acústicas (1-2, 1-3, ..., 1-19, 2-3, 2-4, ..., , 17-18, 17-19, 18-19) e da´ı por diante até k=19. A partir dela foi poss´ıvel listar os melhores e piores resultados desta configuração, além de verificar a presença destes melhores resultados em cada uma das k configurações e ainda analisar a participação de cada uma das 19 medidas acústicas nos resultados dos 500 melhores resultados e dos 500 piores resultados desta configuração.

A partir de então resolveu-se utilizar a técnica de redução de variáveis de acordo com 2 critérios. O primeiro critério seria baseado na obtenção de 90% de correlação com a matriz inicial, que verificou a necessidade de 3 medidas rotacionadas, tendo um total de 140 resultados. Já o segundo critério seria baseado no critério de Guttman-Kaiser que identificou a necessidade de se utilizar 6 medidas rotacionadas, neste caso tendo um total de 1260 resultados. A partir destes 2 critérios seguiu-se a mesma direção da configuração direta, foram geradas as tabelas com os melhores e piores resultados de cada uma das configurações, bem como a participação das medidas rotacionadas para os 30 melhores e piores resultados de cada uma delas.

Até então utilizava-se somente entradas não normalizadas. Foram então geradas novas tabelas com as mesmas medidas rotacionadas, porém agora com as entradas normalizadas.

Percebeu-se uma melhoria dos resultados obtidos em relação aos resultados de tabelas que não tinham entradas normalizadas.

Uma vez que um classificador identifique que a voz do poss´ıvel paciente é patológica, uma nova rede neural foi criada, excluindo-se as vozes normais, para que possa ser avaliado se a rede é capaz de identificar uma patologia. Para este caso não houve um resultado expressivo.

Com o objetivo de se minimizar os valores que estavam sendo classificados como “NAN” (“Not A Number”), resultado de uma divisão por “0” onde o classificador encontra um resultado de uma patologia onde não há nenhuma amostra dela presentes na rede neural, uma técnica de re-amostragem foi implantada. Com isso os resultados dessa natureza obtiveram expressiva redução. Com isso verificou-se que os resultados também melhoraram em 3 dos 4 parâmetros acústicos analisados.

Por último uma nova rede neural foi criada para que pudesse ser observada a alteração dos neurônios na camada oculta. A nova rede apresentava resultados não mais com 20 neurônios fixos na camada oculta, mas com 30 e 40 neurônios. Piorou praticamente todos os resultados, e os que melhoraram, não foram com resultados significativas.

Objetivando fazer uma breve comparação com um outro tipo de classificador, utilizou- se uma máquina de vetores suporte com as mesmas entradas do classificador da rede neural que utilizava a técnica de redução de variáveis com 6 medidas rotacionadas. Contudo, os resultados obtidos pela máquina de vetores suporte foram piores que os alcançados pela rede neural.

De uma maneira geral, apesar deste trabalho ter encontrado bons resultados de acurácia, precisão e parte da especificidade, os resultados de sensibilidade não foram considerados aceitáveis. Clinicamente, valores baixos de sensibilidade representam que há uma alta porcentagem de pessoas que estão doentes e que o classificador as estão identificando como saudáveis. Do ponto de vista médico isso não pode ser considerado pois dependendo da patologia que o paciente possuir, sua vida é posta em risco. Da mesma forma, baixos valores de especificidade indicam que há uma alta porcentagem de pessoas saudáveis que o classificador está identificando como portadores de alguma patologia, o que também não pode ser considerado pela medicina, visto que o paciente pode vir a ser submetido a um tratamento desnecessário. Os valores de especificidade demonstraram ter valores m´ınimos muito maiores que os da sensibilidade quando utilizado o método de redução de variáveis com 3 e com 6 variáveis nas classificações entre vozes normais e patológicas.

Acredita-se que estes resultados muito abaixo do esperado, devem estar associados a trˆes fatores:

• Ao se efetuar uma classificação entre voz normal e patológica, não podem ser consideradas todas as patologias. Acredita-se que se fossem separadas em categorias, e analisadas separadamente, de acordo com as medidas acústicas relevantes a todas elas, os resultados seriam melhores.

• As medidas dispon´ıveis se mostraram insuficientes para uma boa classificação. Pelo que pode ser visto, as medidas acústicas são, em sua maioria, perturbações de periodicidade. Medidas de F0, Jitter e shimmer não são suficientes para uma avaliação precisa. Várias

patologias quando presentes na laringe ou trato vocal, induzem a ru´ıdo. Pela base

utilizada, a única medida acústica que refere-se a ru´ıdo é a HNR que não está presente nos melhores resultados. Contudo há várias outras técnicas que poderiam ser utilizadas para se analisar ru´ıdos como a relação sinal-ru´ıdo, a taxa de harmônicos, medidas de energia espectral, entre outras.

• Poucas medidas encontradas possuem uma relevância estat´ıstica. Tsam e F_Lo que foram descritas como as melhores medidas acústicas utilizadas para classificar se o paciente possui ou não uma patologia não são relevantes.

No documento Reconhecimento de padrões aplicados à identificação de patologias de laringe (páginas 100-105)