Modelos de palavra para cada sotaque - Reconhecimento com modelos de palavra

5.2 Reconhecimento com modelos de palavra

5.2.1 Modelos de palavra para cada sotaque

O primeiro grupo de experi^encias usa modelos de palavras isoladas treinados exclusivamente com oradores nativos, (brit^anicos) separadamente para o sexo feminino e masculino.

Estes modelos foram testados com os varios grupos de oradores nativos e estrangeiros do ingl^es. Os resultados encontram-se representados nas guras 5.1a e 5.2a, respectivamente.

Para o segundo grupo de experi^encias treinou-se um conjunto de modelos para cada grupo de oradores estrangeiros correspondente a determinado sotaque. Cada conjunto destes modelos foi testado com um grupo de oradores diferentes, mas com o mesmo sexo e sotaque. Os resultados encontram-se representados nas guras 5.1b e 5.2b, respectivamente.

As guras 5.1 e 5.2 representam o resultado de cada experi^encia de reconhecimento num ponto de um plano bidimensional cujas coordenadas s~ao: a taxa de reconhecimento (%) e o numero de componentes gaussianas utilizadas para o modelamento da func~ao densidade de probabilidade de observac~ao. Os pontos unidos pelo mesmo trajecto resultam do teste de um conjunto de modelos, obtidos em sucessivas etapas de treino. Em cada trajecto, os sinais de fala utilizados no treino e no teste s~ao sempre os mesmos¹. A linha etiquetada de media corresponde a media aritmetica obtida sobre todos os sotaques.

Seguidamente, descreve-se em termos gerais o processo de treino dos modelos. Os modelos iniciais foram construdos a partir de uma segmentac~ao xa, seguida de um alinhamento de Viterbi (subsecc~ao 2.3.5). Posteriormente, reestimam-se os respectivos par^ametros ate se veri car um criterio de converg^encia num ciclo com um numero maximo de 10 iterac~oes (quando n~ao se determina um maximo local, assume-se que ao m deste numero de iterac~oes se disp~oe de uma soluc~ao aceitavel). A estas reestimac~oes soma-se um ciclo de mais quatro reestimac~oes embutidas. Os modelos obtidos descrevem a fun- c~ao densidade de probabilidade das observac~oes para cada estado com apenas uma unica componente gaussiana. Os resultados obtidos com os testes destes modelos encontram-

1Diferindo os do treino dos de teste, uma vez que prov^em de oradores diferentes e por forma a garantir testes independentes do orador

Reconhecimento automatico da fala de oradores estrangeiros 149 se representados no valor mais baixo (1) nos eixos das abcissas das guras 5.1 e 5.2.

Utiliza-se posteriormente o processo de separac~ao iterativa descrito na subsecc~ao 2.3.5, de modo a adicionar outras componentes gaussianas, uma a uma, a cada estado dos modelos.

Apos a determinac~ao de cada nova componente repete-se o ciclo de quatro reestimac~oes embutidas por forma a estimar convenientemente todos os par^ametros. Estes modelos s~ao ent~ao testados de novo, sempre com os mesmos sinais de fala. Nas curvas de resultados apresentados nas gura 5.1 veri cou-se que apenas uma delas (de na gura (b)) regista um valor maximo nas ordenadas, com mais do que cinco componentes gaussianas por mistura.

Mesmo neste caso, o valor obtido e aproximadamente igual ao maximo conseguido com um numero inferior destas componentes. Nos resultados referentes aos oradores masculinos veri cou-se que os valores maximos da taxa de reconhecimento foram obtidos com um numero inferior de componentes gaussianas. Por este motivo, n~ao se representaram na

gura 5.2 os pontos experimentais com mais componentes por mistura.

Os oradores brit^anicos registaram de forma clara os melhores resultados. Tal foi veri cado, mesmo quando cada grupo de oradores dispunha de modelos espec cos para o reconhecimento do respectivo sotaque. A fala dos oradores nativos apresenta naturalmente menor variabilidade, de acordo com o que foi veri cado nas experi^encias descritas na sec- c~ao 4.8. Os oradores dinamarqueses obtiveram os melhores resultados entre os restantes grupos de oradores estrangeiros. A unica excepc~ao coube aos oradores masculinos ibericos, que conseguiram melhores resultados com os modelos espec cos do respectivo sotaque.

Os piores resultados foram obtidos com os oradores italianos e alem~aes e devem-se essencialmente aos problemas referidos na subsecc~ao 3.2.3, a proposito da detecc~ao de incio e m de palavra.

Tal como se veri cou no captulo 4, o facto de se dispor de modelos espec cos para cada grupo de oradores com a mesma lngua materna, aumentou signi cativamente o desempenho dos respectivos reconhecedores. Os resultados obtidos com oradores nativos foram repetidos nas guras 5.1b e 5.2b, para efeitos de comparac~ao, veri cando-se que nenhum dos restantes reconhecedores se aproxima destes resultados. Quanto ao uso de mais de uma componente gaussiana, este foi vantajoso para os modelos referentes aos sotaques estrangeiros, mas n~ao para os modelos treinados com oradores nativos. A jus- ti cac~ao destes factos podera tambem car a dever-se a uma maior variabilidade na fala da segunda lngua, mesmo quando os oradores em analise partilham a mesma lngua materna. Em concord^ancia com o referido a proposito deste assunto na subsecc~ao 3.1.1, a segunda lngua e em geral adquirida e exercitada em circunst^ancias muito variadas quando comparadas com as da lngua materna, o que determina a correspondente variabilidade no sinal de fala.

150 Reconhecimento com modelos de palavra

10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10

taxa de reconhecimento de palavras (%)

no. de componentes gaussianas

da de en es it pt me’dia

(a)

50 55 60 65 70 75 80 85 90 95 100

1 2 3 4 5 6 7 8 9 10

taxa de reconhecimento de palavras (%)

no. de componentes gaussianas

da de en es it pt media

(b) Figura 5.1: Taxa de reconhecimento (%) obtida com reconhecedores de modelos de palavra com diversas componentes gaussianas, treinados com: (a) oradores brit^anicos (b) oradores de cada sotaque espec co. Os corpora de treino e de teste incluem exclusivamente oradores do sexo feminino.

Reconhecimento automatico da fala de oradores estrangeiros 151

10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7

taxa de reconhecimento de palavras (%)

no. de componentes gaussianas

da de en es it pt media

(a)

65 70 75 80 85 90 95 100

1 2 3 4 5 6 7

taxa de reconhecimento de palavras (%)

no. de componentes gaussianas

da de en es it pt media

(b) Figura 5.2: Taxa de reconhecimento (%) obtida com reconhecedores de modelos de palavra com diversas componentes gaussianas, treinados com: (a) oradores brit^anicos (b) oradores de cada sotaque espec co. Os corpora de treino e de teste incluem exclusivamente oradores do sexo masculino (Teixeira et al., 1997).

152 Reconhecimento com modelos de palavra As experi^encias realizadas com os reconhecedores espec cos de cada sotaque ( guras 5.1b e 5.2b) apresentaram acrescimos globais de mais de 20% na taxa de reconhecimento (linhas com a etiqueta de media) em relac~ao aos resultados obtidos com o reconhecedor treinado exclusivamente com oradores nativos ( guras 5.1a e 5.2a). Em termos gerais podem ser identi cados tr^es motivos para esta melhoria no desempenho:

Utilizou-se uma quantidade maior de material de fala para o treino dos modelos.

Este facto e sobejamente conhecido no reconhecimento de fala. Contudo, neste caso, o material de fala em acrescimo foi utilizado para treinar outros reconhecedores.

O material de treino acrescentado foi proferido por oradores n~ao nativos, ou seja, in- corporando caractersticas mais proximas do material de teste. Como consequ^encia, os modelos obtidos dever~ao ser mais capazes de modelarem a fala de outros oradores n~ao nativos, nomeadamente se tiverem as mesmas nacionalidades dos de treino, tal como aqui acontece.

O material disponvel para o treino e para os testes foi utilizado de forma selectiva.

Os oradores foram seleccionados a priori de acordo com o respectivo sexo e lngua materna: os de treino treinaram um conjunto espec co de modelos os de teste utilizaram o reconhecedor com o conjunto de modelos espec cos para o respectivo presumvel sotaque.

De acordo com o ultimo motivo apresentado, a utilidade pratica do segundo grupo de experiências e condicionada ao conhecimento previo da lngua materna de cada orador. Tal n~ao aconteceu com o primeiro grupo de experiências, em que todos os oradores disponveis para o teste utilizaram o mesmo reconhecedor. Este aspecto e mais grave na fase de teste, uma vez que se pretende eliminar qualquer decis~ao n~ao contemplada pelos metodos automaticos disponveis. A decis~ao implcita nestas experiências responde a pergunta:

\qual o reconhecedor a utilizar com cada grupo de oradores?" De facto, a resposta foi dada a priori de acordo com os dados disponveis para cada orador. Da qualidade desta decis~ao dependera obviamente o desempenho global do sistema. A discuss~ao de um sistema deste tipo sera feita no captulo 6. As experi^encias seguintes procuram utilizar o material de fala dos oradores estrangeiros para o treino de modelos, sem se efectuar uma decis~ao previa de qual o sotaque associado a cada locuc~ao.

Reconhecimento automatico da fala de oradores estrangeiros 153

No documento Reconhecimento de Fala de Oradores Estrangeiros (páginas 176-181)