A rede neural utilizada neste trabalho tem por objetivo realizar uma classificac¸˜ao de forma mais abrangente (uma generalizac¸˜ao) por conta disso utilizou-se uma rede de camada
´unica. Este trabalho utilizou softwares comerciais, dispon´ıveis no mercado e n˜ao criou
nenhum algoritmo dedicado para efetuar sua classificac¸˜ao, utiliza somente as medidas ac´usticas dispon´ıveis no banco de dados.
O estudo apresentado por (SCALASSARA, 2009) utiliza a classificac¸˜ao entre vozes saud´aveis, ou patol´ogicas acometidas por n´odulos ou edemas de Reinke, por´em utiliza como meio de classificac¸˜ao a entropia. Por n˜ao utilizar as mesmas medidas ac´usticas deste trabalho os resultados n˜ao podem ser comparados. Pelo mesmo motivo apresentado anteriormente, o trabalho de (SANTOS; SCALASSARA, 2012) tamb´em n˜ao pode ser comparado com este, visto que analisa vozes saud´aveis, com n´odulos ou com edemas de Reinke utilizando entropia relativa entre os sinais e um estimador por janela de Parzen.
O trabalho realizado por (FRAZ ˜AO et al., 2011) utilizou o mesmo banco de dados por´em com menor quantidade de amostras e patologias (53 vozes normais, 43 com edemas de Reinke, 53 como paralisia e 18 com n´odulos). Baseou-se em 3 medidas ac´usticas: f0, Jitter e
Shimmer. O melhor resultado obtido para a classificac¸˜ao entre voz saud´avel e patol´ogica foi de 91,67% utilizando a medida ac´ustica shimmer e de 95,14% de acur´acia utilizando-se uma combinac¸˜ao entre f0e shimmer.
O trabalho apresentado por (PARRAGA, 2002) utilizou 64 vozes reais captadas em um consult´orio associada com alguns sinais sint´eticos de vozes que foram baseadas nas vozes reais. Os melhores resultados obtidos para a classificac¸˜ao entre vozes normais e patol´ogicas foram de 76,92% de acertos (23,07% de erros) obtido na classificac¸˜ao de voz normal e 85,42% de acertos (14,58% de erros) na classificac¸˜ao de vozes patol´ogicas.
O trabalho de (HENR´IQUEZ et al., 2009) utilizou dois bancos de vozes distintos. Um deles foi o mesmo banco de dados utilizados neste trabalho e os resultados obtidos foram de 99,69% de acur´acia para a classificac¸˜ao de vozes normais e o mesmo valor para a classificac¸˜ao das vozes patol´ogicas, valor muito pr´oximo ao melhor resultado obtido neste trabalho. Este resultado foi obtido atrav´es da combinac¸˜ao de 6 medidas ca´oticas n˜ao-lineares. N˜ao h´a informac¸˜oes a respeito sensibilidade, precis˜ao ou especificidade, o que tornaria mais interessante a comparac¸˜ao com este trabalho.
O trabalho apresentado por (COSTA, 2012) tem como foco classificac¸˜oes entre sinais de vozes saud´aveis e vozes que estejam sendo afetadas por 3 patologias: edema, paralisia e
n´odulos nas pregas vocais. Para isso utilizou an´alise dinˆamica n˜ao linear e teoria do caos, al´em da an´alise de quantificac¸˜ao de recorrˆencia. Os resultados de classificac¸˜ao entre vozes saud´aveis e patol´ogicas foram divididos em: Func¸˜ao Discriminante Quadr´atica(QDA) tendo uma Acur´acia m´edia m´axima de 96,03±5,75%, uma sensibilidade de 94,46±7,17% e uma especificidade de 98,00±6,32%; e (LDA) tendo uma Acur´acia m´edia m´axima de 92,48±6,49%, uma sensibilidade de 93,26±6,60% e uma especificidade de 90,67±12,65%. Foi feita ainda uma combinac¸˜ao entre as 15 medidas de quantificac¸˜ao de recorrˆencia e o resultado encontrado foi de uma Acur´acia de 98,27±2,79%, uma sensibilidade de 97,50±4,03% e uma especificidade de 100% para 6 medidas usando o QDA.
O estudo feito por (VIEIRA, 2014) utilizou o mesmo banco de dados deste trabalho por´em restringiu-se a utilizac¸˜ao de 53 sinais de vozes saud´aveis e 118 sinais de vozes patol´ogicas (55 vozes apresentando paralisia nas pregas vocais, 45 afetadas por edema de Reinke e 18 por n´odulos vocais). Os resultados alcanc¸ados pela classificac¸˜ao entre vozes saud´aveis e vozes patol´ogicas a partir da medida de comprimento m´aximo das linhas diagonais foi de 94,15±1,24% de acur´acia m´edia m´axima tendo uma sensibilidade de 94,85±1,95% e uma especificidade de 92,33±4,34%, com uma taxa de recorrˆencia de 2%.
Ao se considerar a configurac¸˜ao direta, o valor de acur´acia encontrado foi de 96,99±2,08%, a precis˜ao encontrada foi de 88,91±10,57% e o menor valor encontrado para a sensibilidade e especificidade foi de 54,57±30,6.
Considerando as configurac¸˜oes que utilizam o m´etodo de reduc¸˜ao de vari´aveis, os resultados encontrados foram:
• Para a configurac¸˜ao com entradas n˜ao normalizadas e reduc¸˜ao de vari´aveis utilizando 3 medidas rotacionadas, a acur´acia obtida foi de 93,98±0,24%, uma sensibilidade de 6,33±4,39%, uma precis˜ao de 59,51±21,09% e uma especificidade de 99,75±0,17%; • Para a configurac¸˜ao com entradas n˜ao normalizadas e reduc¸˜ao de vari´aveis utilizando
6 medidas rotacionadas, a acur´acia obtida foi de 94,07±0,29%, uma sensibilidade de 7,06±5,54%, uma precis˜ao de 64,33±23,22% e uma especificidade de 99,79±0,14%; • J´a para a configurac¸˜ao com entradas normalizadas e reduc¸˜ao de vari´aveis utilizando
6 medidas rotacionadas, a acur´acia obtida foi de 97,88±1,53%, uma sensibilidade de 69,12±20,86%, uma precis˜ao de 92,39±14,17% e uma especificidade de 99,77±0,53%. Com a normalizac¸˜ao, houve uma melhora significativa dos resultados.
aos encontrados nos outros trabalhos, j´a os valores de especificidade s˜ao bons somente nas configurac¸˜oes que utilizam o m´etodo de reduc¸˜ao de vari´aveis. A precis˜ao encontrada de um modo geral n˜ao atendeu as expectativas por possu´ırem valores baixos e/ou alta variac¸˜ao. J´a os valores encontrados para a sensibilidade corresponderam aos piores resultado deste estudo possuindo valores muito baixos, n˜ao alcanc¸ando uma m´edia de 70% na sua melhor configurac¸˜ao.
9 CONCLUS ˜AO
Buscando minimizar o desconforto dos pacientes que necessitam submeter-se ao procedimento de laringoscopia, procurou-se atrav´es deste estudo reconhecer padr˜oes que pudessem ser aplicados `a identificac¸˜ao de patologias de laringe.
Inicialmente imaginou-se em trabalhar com redes neurais que utilizassem os dados da forma em que est˜ao dispon´ıveis. Como se utilizou um banco de dados de vozes que continha amostras de vozes normais e patol´ogicas analisadas por m´edicos e fonoaudi´ologos, as medidas ac´usticas dispon´ıveis s˜ao aquelas que foram listadas pelo pr´oprio banco no momento de sua disponibilizac¸˜ao.
Esta primeira rede neural atingiu 524.287 resultados obtidos atrav´es das configurac¸˜oes de todas as 19 medidas ac´usticas que este trabalho analisou iniciando com k=1 at´e k=19 sendo que, para k=1, h´a apenas 1 medida ac´ustica na entrada da rede neural. Para k=2 h´a uma combinac¸˜ao, duas a duas, das 19 medidas ac´usticas (1-2, 1-3, ..., 1-19, 2-3, 2-4, ..., , 17-18, 17-19, 18-19) e da´ı por diante at´e k=19. A partir dela foi poss´ıvel listar os melhores e piores resultados desta configurac¸˜ao, al´em de verificar a presenc¸a destes melhores resultados em cada uma das k configurac¸˜oes e ainda analisar a participac¸˜ao de cada uma das 19 medidas ac´usticas nos resultados dos 500 melhores resultados e dos 500 piores resultados desta configurac¸˜ao.
A partir de ent˜ao resolveu-se utilizar a t´ecnica de reduc¸˜ao de vari´aveis de acordo com 2 crit´erios. O primeiro crit´erio seria baseado na obtenc¸˜ao de 90% de correlac¸˜ao com a matriz inicial, que verificou a necessidade de 3 medidas rotacionadas, tendo um total de 140 resultados. J´a o segundo crit´erio seria baseado no crit´erio de Guttman-Kaiser que identificou a necessidade de se utilizar 6 medidas rotacionadas, neste caso tendo um total de 1260 resultados. A partir destes 2 crit´erios seguiu-se a mesma direc¸˜ao da configurac¸˜ao direta, foram geradas as tabelas com os melhores e piores resultados de cada uma das configurac¸˜oes, bem como a participac¸˜ao das medidas rotacionadas para os 30 melhores e piores resultados de cada uma delas.
At´e ent˜ao utilizava-se somente entradas n˜ao normalizadas. Foram ent˜ao geradas novas tabelas com as mesmas medidas rotacionadas, por´em agora com as entradas normalizadas.
Percebeu-se uma melhoria dos resultados obtidos em relac¸˜ao aos resultados de tabelas que n˜ao tinham entradas normalizadas.
Uma vez que um classificador identifique que a voz do poss´ıvel paciente ´e patol´ogica, uma nova rede neural foi criada, excluindo-se as vozes normais, para que possa ser avaliado se a rede ´e capaz de identificar uma patologia. Para este caso n˜ao houve um resultado expressivo.
Com o objetivo de se minimizar os valores que estavam sendo classificados como “NAN” (“Not A Number”), resultado de uma divis˜ao por “0” onde o classificador encontra um resultado de uma patologia onde n˜ao h´a nenhuma amostra dela presentes na rede neural, uma t´ecnica de re-amostragem foi implantada. Com isso os resultados dessa natureza obtiveram expressiva reduc¸˜ao. Com isso verificou-se que os resultados tamb´em melhoraram em 3 dos 4 parˆametros ac´usticos analisados.
Por ´ultimo uma nova rede neural foi criada para que pudesse ser observada a alterac¸˜ao dos neurˆonios na camada oculta. A nova rede apresentava resultados n˜ao mais com 20 neurˆonios fixos na camada oculta, mas com 30 e 40 neurˆonios. Piorou praticamente todos os resultados, e os que melhoraram, n˜ao foram com resultados significativas.
Objetivando fazer uma breve comparac¸˜ao com um outro tipo de classificador, utilizou- se uma m´aquina de vetores suporte com as mesmas entradas do classificador da rede neural que utilizava a t´ecnica de reduc¸˜ao de vari´aveis com 6 medidas rotacionadas. Contudo, os resultados obtidos pela m´aquina de vetores suporte foram piores que os alcanc¸ados pela rede neural.
De uma maneira geral, apesar deste trabalho ter encontrado bons resultados de acur´acia, precis˜ao e parte da especificidade, os resultados de sensibilidade n˜ao foram considerados aceit´aveis. Clinicamente, valores baixos de sensibilidade representam que h´a uma alta porcentagem de pessoas que est˜ao doentes e que o classificador as est˜ao identificando como saud´aveis. Do ponto de vista m´edico isso n˜ao pode ser considerado pois dependendo da patologia que o paciente possuir, sua vida ´e posta em risco. Da mesma forma, baixos valores de especificidade indicam que h´a uma alta porcentagem de pessoas saud´aveis que o classificador est´a identificando como portadores de alguma patologia, o que tamb´em n˜ao pode ser considerado pela medicina, visto que o paciente pode vir a ser submetido a um tratamento desnecess´ario. Os valores de especificidade demonstraram ter valores m´ınimos muito maiores que os da sensibilidade quando utilizado o m´etodo de reduc¸˜ao de vari´aveis com 3 e com 6 vari´aveis nas classificac¸˜oes entre vozes normais e patol´ogicas.
Acredita-se que estes resultados muito abaixo do esperado, devem estar associados a trˆes fatores:
• Ao se efetuar uma classificac¸˜ao entre voz normal e patol´ogica, n˜ao podem ser consideradas todas as patologias. Acredita-se que se fossem separadas em categorias, e analisadas separadamente, de acordo com as medidas ac´usticas relevantes a todas elas, os resultados seriam melhores.
• As medidas dispon´ıveis se mostraram insuficientes para uma boa classificac¸˜ao. Pelo que pode ser visto, as medidas ac´usticas s˜ao, em sua maioria, perturbac¸˜oes de periodicidade. Medidas de F0, Jitter e shimmer n˜ao s˜ao suficientes para uma avaliac¸˜ao precisa. V´arias
patologias quando presentes na laringe ou trato vocal, induzem a ru´ıdo. Pela base
utilizada, a ´unica medida ac´ustica que refere-se a ru´ıdo ´e a HNR que n˜ao est´a presente nos melhores resultados. Contudo h´a v´arias outras t´ecnicas que poderiam ser utilizadas para se analisar ru´ıdos como a relac¸˜ao sinal-ru´ıdo, a taxa de harmˆonicos, medidas de energia espectral, entre outras.
• Poucas medidas encontradas possuem uma relevˆancia estat´ıstica. Tsam e FLo que foram descritas como as melhores medidas ac´usticas utilizadas para classificar se o paciente possui ou n˜ao uma patologia n˜ao s˜ao relevantes.