• Nenhum resultado encontrado

Abordagem Baseada no Uso de Redes Neurais do Tipo MLP

8. Novas Abordagens para as Medidas Objetivas de Qualidade de Voz

8.2. Mapeamento entre as Medidas Objetivas e Subjetivas

8.2.2. Abordagem Baseada no Uso de Redes Neurais do Tipo MLP

A estratégia aqui descrita faz uso de uma rede neural do tipo MLP (multilayer perceptron) com uma camada intermediária [102] para fazer o mapeamento entre os parâmetros objetivos e as medidas subjetivas correspondentes. O algoritmo de treinamento utilizado foi o MV-SCGM (Modified Version of the Scaled Conjugate Gradient Method), o qual é um dos métodos de segunda ordem mais eficientes para a busca em superfícies multidimensionais não-lineares [119]. O princípio de funcionamento desta abordagem assemelha-se mais aos mapeamentos polinomiais que aos mapeamentos usando redes de Kohonen. Isto se deve ao fato das redes de Kohonen tratarem de problemas de classificação, enquanto que as redes neurais MLP e funções polinomiais tratam de problemas de aproximação. A principal diferença entre estas duas últimas reside no fato das redes neurais do tipo MLP lidarem de maneira muito mais eficiente com a complexidade envolvida na resolução do problema de mapeamento não-linear multidimensional encontrado neste tipo de aplicação.

Os parâmetros usados para alimentar a rede são os mesmos já descritos na seção anterior. A seguir, serão apresentados os testes e resultados obtidos com esta abordagem. Informações mais detalhadas a respeito do algoritmo e estratégia de treinamento podem ser encontradas em [120].

8.2.2.1. Testes Realizados e Resultados Obtidos

Os testes realizados utilizaram a base de dados S-23 [118], a qual é brevemente descrita na Seção 8.2.1.

A rede neural MLP utilizada é composta por 11 entradas, correspondendo aos 10 parâmetros mais a entrada de polarização (bias), 12 neurônios na camada intermediária e 1 única saída representando a estimativa da qualidade subjetiva.

Os arquivos de treinamento, a exemplo do que foi feito para a abordagem baseada nos mapas de Kohonen, foram separados de acordo com a língua em que foram gerados, como mostra a Figura 8.11. Os arquivos usados nos testes também foram os mesmos, conforme indicado na Tabela 8.2.

A Tabela 8.4 compara os resultados obtidos. É interessante observar que, mesmo na presença de condições adversas, a estratégia aqui adotada alcançou um excelente desempenho. Como se pode observar, esta proposta superou as outras em todas as situações. O melhor desempenho observado para esta abordagem se deve a dois fatores: a capacidade da rede neural MLP de mapear superfícies complexas e multidimensionais e a informação contida nos parâmetros extraídas a partir das transformadas FFT e MLT, a qual permitiu à rede buscar a melhor superfície de mapeamento para cada caso. Contudo, algumas precauções devem ser tomadas antes que se adote esta abordagem para determinada aplicação, como será comentado na Seção 8.2.3.

Tabela 8.4. Comparação dos Resultados Obtidos Através de Diferentes Estratégias.

MOQV Kohonen Língua Subjetiva Medida

1 2 1 Dim. 2 Dim. MLP MOS 0,90 0,88 0,95 0,93 0,97 Francês CMOS 0,94 0,94 0,99 0,99 0,99 MOS 0,72 0,77 0,94 0,92 0,96 Japonês CMOS 0,96 0,96 0,98 0,98 0,99 MOS 0,78 0,80 0,98 0,92 0,95 Inglês CMOS 0,96 0,95 0,93 0,93 0,99 MOS 0,90 0,90 0,92 0,92 0,95 Italiano CMOS - - - - - 8.2.3. Considerações Finais

Ambas as estratégias baseadas em redes neurais apresentaram um desempenho superior àquelas baseadas no mapeamento polinomial. Contudo, sua utilização não pode ser considerada irrestrita, e então algumas considerações se fazem necessárias:

- O uso das redes neurais não elimina a necessidade de se ter um mapeamento particular adaptado às peculiaridades de cada língua, a exemplo do que ocorre nos mapeamentos polinomiais; quando há a necessidade de se utilizar o mapeamento geral, em casos em que a língua dos arquivos de teste em questão não possua um mapeamento individual, as redes de Kohonen, teoricamente, devem ter um desempenho melhor, pois sua característica de tratar o mapeamento como um problema de classificação lhe confere uma robustez não encontrada nas outras abordagens. Em outras palavras, o sinal que se está testando terá que ser designado para uma das possíveis classificações, e a probabilidade maior é que ele seja alocado em um grupo próximo daquele que ele deveria estar de fato. No caso da MLP, há a possibilidade da combinação dos parâmetros se localizar em um

ponto muito ruim da superfície de mapeamento, especialmente se a rede estiver sobretreinada, causando erros substanciais na estimativa desejada. Assim, em situações potencialmente sujeitas à ocorrência de erros de mapeamento, o risco de se ter um desvio importante do valor desejado é muito maior quando do uso das redes MLP.

- A quantidade e qualidade dos sinais usados no treinamento das redes são também fatores preponderantes no desempenho das propostas apresentadas. Quanto maior a base de dados utilizada, melhor deve ser o treinamento. Ainda mais importante que o tamanho do conjunto de treinamento, é a representatividade dos componentes desse conjunto. Quanto maior o número de condições contempladas na base de dados, maior será a gama de condições para as quais a estratégia de mapeamento poderá ser utilizada. É importante observar que as redes de Kohonen são menos sensíveis ao tamanho do conjunto de treinamento utilizado. Assim, a estratégia usando as redes neurais MLP só será superior se ela tiver à sua disposição um banco de dados suficientemente amplo para que ela possa criar uma superfície de mapeamento que realmente se adapte às condições encontradas na prática.

- Finalmente, é importante observar que os tipos de sinais utilizados no treinamento e nos testes são os mesmos e, portanto, não foi possível testar a robustez das estratégias frente a condições desconhecidas. Novamente, observa-se a mesma situação descrita no primeiro item, ou seja, a estratégia baseada na rede de Kohonen terá mais chance de ter um bom desempenho que aquela baseada na MLP.

É importante frisar que a base de dados utilizada, apesar de ser reconhecidamente restrita, é a mais ampla já desenvolvida. Devido aos altos custos envolvidos e às dificuldades inerentes ao processo, a criação de uma base de arquivos de voz realmente representativa é muito improvável. Além disso, a todo o momento surgem novos equipamentos e meios de transmissão que introduzem novas características aos sinais a eles submetidos, de maneira que uma base de dados considerada representativa pode, rapidamente, ser superada.

A única maneira de se ter um método verdadeiramente competente é através do desenvolvimento de um modelo perceptual realmente fiel às características auditivas humanas, pois desta maneira o método, ao se deparar com uma nova condição, será capaz de processá-la da mesma forma que uma pessoa faria, eliminando a necessidade de estratégias de mapeamento ou outros processamentos que pouco têm em comum com o processo auditivo.

Esta última conclusão motivou o direcionamento da pesquisa para um modelo perceptual mais robusto. Os resultados obtidos permitiram a proposta de um novo método, o qual será descrito na Seção 8.3 a seguir. É importante destacar que a implementação deste método é similar àquela adotada para o método PESQ. Contudo, ela não é exatamente a mesma por dois motivos: 1) não se tem toda a informação sobre o PESQ na literatura disponível; 2) foram introduzidas soluções próprias, seja por falta de informação ou por tentativa de aperfeiçoamento.

Documentos relacionados