• Nenhum resultado encontrado

Experimento 2: SVM

No documento Descritor de voz invariante ao ruído (páginas 65-71)

Método Proposto: MINERS

5.3 Experimento 2: SVM

Para definir a taxa de acerto, executamos o HMM 10 vezes em toda base, portanto, a taxa de acerto é a média das 10 execuções. Para melhor interpretação dos resultados, calculamos o desvio padrão para cada algoritmo (após as 10 execuções).

Além do descritor MINERS, fizemos testes com os descritores MFCC, MFCC com Wavelet Denoising, PNCC e RASTA-PLP.

Na Tabela 5.2 podemos ver os resultados.

Tabela 5.2 Taxa de acerto dos descritores MINERS, MFCC, MFCC com Wavelet Denoising, PNCC e RASTA-PLP utilizando HMM.

Descritor Ruído 0dB Ruído 5dB Ruído 10dB Ruído 15dB Sinal Limpo

MINERS 71,48% 71,98% 71,58% 73,20% 87,60% Desvio Padrão 0,010 0,015 0,011 0,051 0,019 MFCC 12,20% 18,50% 42,40% 75,80% 87,60% Desvio Padrão 0,017 0,042 0,034 0,013 0,019 MFCC com Denoising 41,72% 50,53% 52,00% 57,78% 60,54% Desvio Padrão 0,032 0,025 0,022 0,012 0,021 PNCC 57,50% 59,30% 62,00% 66,20% 66,00% Desvio Padrão 0,031 0,006 0,031 0,034 0,013 RASTA-PLP 11,60% 21,20% 52,20% 62,20% 69,80% Desvio Padrão 0,010 0,020 0,023 0,018 0,016

O descritor MINERS apresentou melhores resultados entre todas as técnicas expostas ao ruído e assemelhou à técnica MFCC quando exposta ao sinal limpo. Pode-se observar que o MFCC, MFCC com Wavelet Denoising, PNCC e RASTA-PLP apresentam uma melhora na taxa de acerto à medida que o ambiente se torna menos ruidoso, ruído variando entre 10dB a 15dB . Já o descritor MINERS possui uma taxa de acerto estável ao longo dos ruídos, demons- trando robustez perante ao ruído.

5.3

Experimento 2: SVM

Assim como o Experimento 1, o SVM[22] foi utilizado para validar o descritor MINERS. O SVM tem atraído um grande interesse junto à comunidade científica, especialmente nas áreas de classificação, regressão e aprendizagem de máquinas.

Basicamente, o SVM faz o mapeamento do espaço de entrada para um espaço de alta dimen- sionalidade e através do cálculo de um hiperplano de separação ótimo, o SVM aprende a fron- teira entre as regiões pertencentes a cada classes. A escolha desse hiperplano é feita de forma que a distância de separação entre as amostras de treinamento sejam maximizadas.

Os parâmetros utilizados para construir o SVM, determinados experimentalmente, foram: 1. Kernel RBF, do inglês Radial Basis Function, com parâmetro de penalidade (C) igual a

27e parâmetro da largura do Kernel (Gamma) igual a 2−7; 2. Validação Cruzada com fator (K) igual a 10;

5.4 ANÁLISE 52

3. Estratégia de decomposição “um-contra-todos”.

Para definir a taxa de acerto, executamos o SVM 10 vezes em toda base, portanto, a taxa de acerto é a média das 10 execuções. Para melhor interpretação dos resultados, calculamos o desvio padrão para cada algoritmo (após as 10 execuções).

Além do descritor MINERS, fizemos testes com os descritores MFCC, MFCC com Wavelet Denoising, PNCC e RASTA-PLP. Na Tabela 5.3 podemos ver os resultados.

Tabela 5.3 Taxa de acerto dos descritores MINERS, MFCC, MFCC com Wavelet Denoising, PNCC e RASTA-PLP utilizando SVM.

Descritor Ruído 0dB Ruído 5dB Ruído 10dB Ruído 15dB Sinal Limpo

MINERS 72,48% 72,51% 72,48% 74,50% 89,20% Desvio Padrão 0,011 0,020 0,024 0,036 0,016 MFCC 16,50% 22,20% 45,40% 76,30% 89,40% Desvio Padrão 0,043 0,022 0,039 0,018 0,016 MFCC com Denoising 46,70% 54,50% 55,00% 60,88% 64,44% Desvio Padrão 0,028 0,015 0,021 0,009 0,020 PNCC 59,41% 59,69% 64,40% 70,10% 66,82% Desvio Padrão 0,008 0,006 0,046 0,054 0,009 RASTA-PLP 18,40% 25,60% 58,00% 68,40% 75,70% Desvio Padrão 0,057 0,063 0,078 0,083 0,047

O descritor MINERS apresentou melhores resultados quando exposto ao ruído variando entre 0dB, 5dB e 10dB, sendo um pouco inferior à técnica MFCC quando exposta ao ruído com taxa de 15dB e ao sinal limpo. Pode-se observar que o MFCC, MFCC com Wavelet Denoising, PNCC e RASTA-PLP apresentam uma melhora na taxa de acerto à medida que o ruído diminui. Já o descritor MINERS possui uma taxa de acerto estável ao longo dos ruídos, demonstrando robustez perante ao ruído.

5.4

Análise

A base NOIZEUS é formada por frases gravadas com variabilidade de ruído, ambiente, locutor e transdutor (microfone) [76]. Apesar das dificuldades da base NOIZEUS, o descri- tor MINERS apresentou melhores resultados na maioria dos casos. Isso ocorreu devido à combinação dos algoritmos que o MINERS propôs, apresentando bons filtros contra ruídos, variabilidade de ambiente e diversidade de locução.

Os classificadores demonstraram que quando conseguimos extrair as características mais importante da fala, pitch, formantes e estruturas dos fonemas, os mesmos conseguem apresentar bons desempenhos. Nos experimentos realizados, o SVM apresentou melhores resultados que o HMM. Isso não quer dizer que o poder de discriminação do SVM seja melhor que o HMM, visto que não foram realizados ajustes suficientes nas técnicas para afirmar que um classificador é superior ao outro. A vantagem do SVM é os poucos parâmetros que a técnica necessita para apresentar boas margens de classificação.

5.4 ANÁLISE 53

Apesar das boas taxas de acertos que o descritor MINERS apresentou, esses resultados poderiam ser ainda melhores se a etapa do algoritmo denominado de “classificação do sinal como ruidoso ou não” não falhasse em alguns casos. As Figuras 5.3, 5.4 e 5.5, mostram a frase “The set of china hit the floor with a cras” com ruído de carro a 10dB que foi classificada como não ruidosa.

Essa etapa é fundamental para o descritor MINERS, pois é a partir dessa análise que o descritor irá escolher qual técnica utilizar.

5.4 ANÁLISE 54

Figura 5.4 Binarização dos tons avermelhados do sinal apresentado na Figura 5.3 conforme descrito no algoritmo.

Figura 5.5 Resultado da aplicação da operação de fechamento morfológico na imagem da Figura 5.4 conforme descrito no algoritmo.

C

APÍTULO

6

Conclusão

O reconhecimento automático da fala tem sido a meta de muitos pesquisadores há mais de cinco décadas. Apesar dos muitos avanços alcançados na área, ainda encontram-se dificuldades para o reconhecimento da fala contínua na presença de ruído e com variabilidade de ambiente. Este trabalho explorou uma das etapas fundamentais para o reconhecimento da fala, a descrição da voz. É nesta etapa que conseguimos extrair as características da fala, possibi- litando o desenvolvimento de um reconhecedor automático para fala.

Com intuito de explorar o comportamento das técnicas expostas ao ruído, apresentamos os descritores da voz mais conhecidos na literatura, elencando as vantagens e desvantagens para cada método. Percebemos que os descritores MFCC e RASTA-PLP apresentam bons resultados para amostras sem ruído. Já o PNCC apresenta melhores resultados para amostras ruidosas. Portanto, não encontramos uma técnica capaz de apresentar bons resultados independente de ruído e ambiente.

O descritor MINERS, proposto neste trabalho, teve como objetivo extrair atributos da fala contínua, independente de ruído, ambiente e locução. Essa técnica apresentou melhores resulta- dos em praticamente todos os casos testados. Isso se deve a combinação das técnicas propostas e a identificação se a amostra é ruidosa ou não. Vale ressaltar a uniformidade dos resulta- dos da técnica, mesmo quando exposta a diferentes classificadores, demonstrando que quando os atributos da fala são bem extraídos, o processo decisório dos classificadores torna-se mais eficiente.

Com o objetivo de validar a proposta, utilizamos os classificadores HMM e SVM. Escolhe- mos esses classificadores por serem os mais utilizados no estado da arte de reconhecimento de voz. O melhor resultado foi obtido utilizando o descritor MINERS com o SVM. Vale ressal- tar que os resultados poderiam ser ainda melhores se a etapa denominada de “classificação da amostra com ruído ou não” não apresentassem erros ao classificar as amostras.

Outra contribuição dos estudos desenvolvidos durante esta dissertação foi o artigo “Speech and Phoneme Segmentation Under Noisy Environment Through Spectrogram Image Analysis”, publicado no IEEE International Conference on Systems, Man and Cybernetics (SMC), Seoul, Coreia do Sul, 2012.

Para trabalhos futuros sugere-se:

1. Melhorar a etapa de “classificação da amostra com ruído ou não” do descritor MINERS. Essa etapa apresentou falhas em amostras com pouco ruído, prejudicando a taxa de acerto.

2. Utilizar PCA (Principal Component Analysis) para reduzir a dimensionalidade dos coefi- cientes.

CAPÍTULO 6 CONCLUSÃO 56

3. Utilizar o descritor MINERS com outros arcabouços para o reconhecimento automático da fala, como por exemplo o Julius [80].

4. Utilizar o descritor MINERS em outras bases. Com intuito de melhorar o desenvolvi- mento de aplicativos para acessibilidade.

5. Utilizar outros parâmetros no descritor MINERS, como por exemplo o número de coefi- cientes, decomposição e filtros gammatone na etapa Wavelet + PNCC2, e nos classifi- cadores, como por exemplo o número de estados e misturas Gaussianas no HMM ou utilizar outra estratégia de decomposição no SVM, a fim de obter uma melhor taxa de acerto.

No documento Descritor de voz invariante ao ruído (páginas 65-71)

Documentos relacionados