Modelos subpalavra para cada sotaque - Reconhecimento com transcric~ao xa

5.3 Reconhecimento com transcric~ao xa

5.3.1 Modelos subpalavra para cada sotaque

Os resultados apresentados nas guras 5.5a e 5.6a referem-se as experi^encias realizadas com modelos subpalavra treinados exclusivamente com oradores ingleses nativos.

A analise qualitativa dos resultados obtidos com modelos de palavra mantem-se, ( - guras 5.1a e 5.2a) nomeadamente no que se refere ao posicionamento relativo das taxas de desempenho de cada um dos grupos de oradores. As alterac~oes mais evidentes s~ao de dois tipos. A

primeira alterac~ao

refere-se a diminuic~ao da diferenca de desempenho entre o reconhecedor nativo e da media de todos os reconhecedores. Tal facto deve-se, nomeadamente, a uma esperada quebra do desempenho deste tipo de reconhecedor com os oradores ingleses, mas tambem a uma evoluc~ao em sentido inverso da media dos reconhecedores estrangeiros. Esta evoluc~ao n~ao encontra uma explicac~ao nas experi^encias de reconhecimento tradicionais. O facto poder-se-a explicar pela falta de modelac~ao dos aspectos de coarticulac~ao associada aos modelos de fones utilizados. Os oradores estrangeiros t^em em geral di culdade em lidar com estes aspectos mais subtis da lngua estrangeira, adoptando coarticulac~oes menos dependentes do contexto ou, pelo menos, diferentes das proferidas pelos oradores nativos. Os fones que n~ao existam ou sejam pou- co comuns na lngua materna do orador podem ser substitudos, respectivamente, pelos que lhes est~ao mais proximos ou s~ao mais comuns no inventario fonetico dessa lngua. O mesmo pode acontecer com as coarticulac~oes, embora tal facto seja mais difcil de veri car apenas por audic~ao. A

segunda alterac~ao

a realcar e o facto de os melhores resultados terem sido obtidos com cerca de tr^es componentes gaussianas de observac~ao, enquanto que nos modelos de palavra a utilizac~ao de uma unica gaussiana era igualmente e caz em termos de desempenho. Tal pode ser justi cado pela disponibilidade de mais repetic~oes de algumas das unidades subpalavra para o treino de cada modelo em comparac~ao com o numero aproximadamente xo de palavras disponveis para o treino dos modelos de palavras.

Nas experi^encias seguintes, foram treinados conjuntos de modelos de fones para cada sotaque utilizando material de fala obtido exclusivamente a partir de oradores da correspondente nacionalidade. Nas guras 5.5b e 5.6b apresentam-se os resultados de reconhecimento obtidos com o teste de cada conjunto destes modelos com o correspondente grupo de oradores com o mesmo sotaque. Testaram-se de novo modelos com diversos numeros de componentes gaussianas de observac~ao. Tal como nos resultados das guras 5.5a e 5.6a, veri ca-se novamente a vantagem do uso de componentes multiplas. Os

Reconhecimento automatico da fala de oradores estrangeiros 157

40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10

taxa de reconhecimento de palavras (%)

no. de componentes gaussianas

da de en es it pt media

(a)

20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10

taxa de reconhecimento de palavras (%)

no. de componentes gaussianas

da de en es it pt media

(b) Figura 5.5: Taxa de reconhecimento (%) obtida com reconhecedores de modelos subpalavra com diversas componentes gaussianas, treinados com: (a) oradores brit^anicos (b) oradores de cada sotaque espec co. Os corpora de treino e de teste incluem exclusivamente oradores do sexo feminino.

158 Reconhecimento com transcric~ao fixa

0 10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10

taxa de reconhecimento de palavras (%)

no. de componentes gaussianas

da de en es it pt media

(a)

20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10

taxa de reconhecimento de palavras (%)

no. de componentes gaussianas

da de en es it pt media

(b) Figura 5.6: Taxa de reconhecimento (%) obtida com reconhecedores de modelos subpalavra com diversas componentes gaussianas, treinados com: (a) oradores brit^anicos (b) oradores de cada sotaque espec co. Os corpora de treino e de teste incluem exclusivamente oradores do sexo masculino (Teixeira et al., 1997).

Reconhecimento automatico da fala de oradores estrangeiros 159 reconhecedores espec cos de cada sotaque estrangeiro assim obtidos, apresentaram taxas de reconhecimento muito superiores as obtidas com os modelos dos oradores nativos (tal como se veri cou com os modelos de palavra, nas guras 5.1b e 5.2b). Os motivos que podem justi car esta diferenca n~ao dever~ao ser diferentes dos anteriormente apontados para o caso dos modelos de palavras. Tambem com os modelos de fones se veri ca que nenhum dos restantes reconhecedores se consegue aproximar dos resultados obtidos com os oradores nativos. Contudo esta diferenca diminuiu, sendo apenas de 3,4% para os oradores portugueses. A quebra da taxa de reconhecimento veri cada entre os reconhecedores de modelos de palavra e os de fones dos oradores britânicos n~ao e acompanhada pelos modelos dos oradores estrangeiros. No caso particular dos oradores alem~aes, obtiveram-se agora taxas de reconhecimento muito proximas ou mesmo superiores a media dos oradores testados ( gura 5.5b). A ausência de modelamento da coarticulac~ao em conjugac~ao com a pouca consistência desta entre os diversos oradores de cada grupo pode ser justi cativa destes factos. No caso dos oradores alem~aes, a justi cac~ao obvia deveria ser atribuda ao facto de ser agora possvel ultrapassar os problemas referentes a uma detecc~ao de incio e m de palavra com menos qualidade e que resultaram em segmentos de sinal com maior durac~ao antes e depois da ocorrência da propria palavra (subsecc~ao 3.2.3). Assim, a adopc~ao de um modelo explcito de três estados emissores para o silêncio devera permitir o modelamento de durac~oes superiores deste fone, comparativamente ao obtido com os modelos de palavras isoladas. Este facto sera tanto mais relevante quanto maior for a durac~ao da palavra ou o seu numero de fones, uma vez que se adoptou um numero xo de estados para os modelos de palavras isoladas.

No documento Reconhecimento de Fala de Oradores Estrangeiros (páginas 184-187)