Escolha de material de treino e uso de modelos semicontnuos

126 Escolha de material de treino e uso de modelos semicontnuos (conforme ja foi referido).

Na gura 4.4, apresentam-se os resultados das experi^encias anteriormente descritas.

Cada ponto representa o resultado de uma experiência de reconhecimento com uma dimens~ao de vocabulario e um numero de modelos de escoamento diferentes. Os segmentos de recta unem os pontos das experiências em que se utilizou o mesmo numero de modelos de escoamento. Os valores obtidos para as taxas (%) de reconhecimento e de rejeic~ao foram representados em duas guras diferentes (a) e (b), respectivamente. Em relac~ao a primeira veri ca-se, uma vez mais, a tendência de descida da taxa de reconhecimento com o aumento do numero de modelos de escoamento. Alem disso, os trajectos representados evidenciam uma reduc~ao desta quebra com o aumento da dimens~ao dos vocabularios. Por exemplo, de um reconhecedor com um vocabulario de 5 palavras e sem capacidade de rejeic~ao para um outro com cinco modelos de escoamento, obtem-se uma quebra de 10%

na taxa de reconhecimento. Nos reconhecedores com um vocabulario de 40 palavras, a referida quebra e reduzida para cerca de 5%. Esta tend^encia so foi possvel de veri car num intervalo de con anca de 90%, quando se substitui um reconhecedor de 5 palavras por outro de 40 palavras.

Os resultados obtidos mostram um claro declnio da taxa de rejeic~ao com o aumento da dimens~ao dos vocabularios, bem como uma tend^encia (menos evidente) para o afastamento entre os trajectos assinalados na gura 4.4b. Assim, a vantagem do uso de modelos de escoamento multiplos parece ser maior quanto maior for o numero de palavras-chave.

Esta tend^encia e mais evidente nos vocabularios mais pequenos. Por exemplo, de um reconhecedor de 20 palavras com um unico modelo de escoamento para um outro com cinco, obtem-se um acrescimo de 10% na taxa de rejeic~ao. Com os reconhecedores de 5 palavras, o referido acrescimo e reduzido para cerca de 2%. Assim, a conclus~ao essencial das experi^encias descritas nesta secc~ao, e a con rmac~ao da utilidade do uso de modelos de escoamento multiplos para o caso dos vocabularios a reconhecer serem de dimens~ao superior a cerca de uma dezena de palavras.

4.7 Escolha de material de treino e uso de modelos

Detecc~ao de palavras-chave 127

84 86 88 90 92 94 96 98 100

5 10 15 20 25 30 35 40

Numero de palavras-chave

ns=0 ns=1 ns=2 ns=3 ns=4 ns=5

(a)

65 70 75 80 85 90 95 100

5 10 15 20 25 30 35 40

Numero de palavras-chave

ns=1 ns=2 ns=3 ns=4 ns=5

(b) Figura 4.4: Representac~ao de taxas (%) de reconhecimento (a) e de rejeic~ao (b). Cada ponto representa o resultado de uma experi^encia de reconhecimento com uma dimens~ao de vocabulario e um numero de modelos de escoamento diferentes. Os segmentos de recta unem os pontos das experi^encias em que se utilizou o mesmo numero de modelos de escoamento (Teixeira et al., 1992).

128 Escolha de material de treino e uso de modelos semicontnuos obter melhorias signi cativas dessas mesmas taxas. Testou-se tambem um reconhecedor diferente do utilizado nas secc~oes anteriores, baseado em observac~oes semicontnuas (sec- c~ao 2.4). Outros autores ja haviam considerado o uso deste tipo de modelos na detecc~ao de palavras-chave, contudo, tirando partido de um sistema de extracc~ao de caractersticas baseado em redes neuronais arti ciais (Clary e Hansen, 1992). Nesta dissertac~ao procura- se determinar eventuais vantagens no uso de modelos de escoamento deste tipo, tendo em considerac~ao as limitac~oes da quantidade de material de fala disponvel para o respectivo treino (Teixeira et al., 1993a).

O reconhecedor baseado em modelos semicontnuos permite modelar cada func~ao densidade de probabilidade de observac~ao a partir de uma mistura de gaussianas cujas des- cric~oes se associam numa especie de dicionario de quanti cac~ao (secc~ao 2.4). Neste caso, treinou-se um dicionario com 128 gaussianas das quais se escolheram as 12 mais represen- tativas (com pesos cm mais altos) em cada estado dos HMMs, para construir a respectiva func~ao densidade de probabilidade de observac~ao (subsecc~ao 2.4.2). O referido dicionario resulta do treino conjunto dos modelos-chave, sendo depois utilizado, sem ser de novo reestimado, durante o treino dos modelos de escoamento. No treino dos modelos de escoamento efectua-se, exclusivamente, a reestimac~ao das probabilidades de transic~ao e dos pesos das componentes gaussianas por cada estado.

tipo de HMMs CHMM SCHMM

HMMs de esc. 0 1 5 0 1 5

c402 93,7/0,0 91,4/56,1 91,0/73,3 90,8/0,0 90,0/46,4 89,1/60,2 c401 93,7/0,0 91,2/55,0 89,6/69,5 90,8/0,0 90,0/47,8 87,9/57,9 c~401 93,7/0,0 92,5/57,4 90,8/70,9 90,8/0,0 90,6/52,8 90,0/62,4 c~701 93,7/0,0 92,5/61,0 91,9/71,2 90,8/0,0 90,8/51,6 90,4/62,3 Tabela 4.3: Taxas (%) de reconhecimento/rejeic~ao obtidas com diferentes selecc~oes de material de fala para o treino de modelos de escoamento (Teixeira et al., 1993a).

Nas experi^encias descritas nesta secc~ao consideram-se todos os oradores de um unico sotaque n~ao nativo (dinamarqueses). O vocabulario a reconhecer e igual ao empregue nas secc~oes 4.4 e 4.5. Utilizaram-se 30% dos oradores disponveis para o teste dos diferentes reconhecedores, repetindo cada um duas vezes o mesmo conjunto de locuc~oes: 40 palavras-chave e 70 palavras estranhas. Para o treino dos modelos-chave utilizaram-se duas repetic~oes das palavras-chave proferidas por cada um dos restantes oradores (70%).

Para maior simplicidade, designou-se este conjunto de treino de c402. Exclusivamente

Detecc~ao de palavras-chave 129 para o treino dos modelos de escoamento, seleccionaram-se ainda mais tr^es conjuntos de locuc~oes proferidas uma unica vez por dez oradores e designados, por analogia, por:

c401 | subconjunto com cerca de um terco das locuc~oes de c402 c~⁷⁰¹ | 70 palavras estranhas, diferentes das utilizadas no teste c~⁴⁰¹ | subconjunto de ~c701 com apenas 40 palavras estranhas.

Estes conjuntos de locuc~oes de treino foram, por sua vez, divididos pelo metodo al- fabetico (secc~ao 4.4) em 5 subconjuntos de palavras. Este procedimento permitiu treinar, respectivamente, 5 modelos de escoamento com palavras diferentes. Pretende-se desta forma, mais uma vez, veri car as vantagens dos modelos de escoamento multiplos para cada uma das referidas selecc~oes. A escolha do numero de modelos de escoamento foi feita de acordo com os resultados na secc~ao 4.6.

Na tabela 4.3, representam-se os resultados referentes a estas experi^encias. Os resultados obtidos com os reconhecedores sem capacidade de rejeic~ao (repetidos ao longo das colunas encabecadas por \0") correspondem apenas a duas experi^encias: uma para os modelos contnuos (CHMM) outra para os semicontnuos (SCHMM).

O reconhecedor de modelos contnuos apresenta uma taxa de reconhecimento ligeiramente superior ( 3%) ao dos modelos semicontnuos. Embora n~ao se veri cando, neste caso, condic~oes de escassez de material de treino, nas quais os modelos semicontnuos seriam presumivelmente vantajosos, n~ao e justi cavel qualquer quebra signi cativa no desempenho em relac~ao aos modelos contnuos. Contudo, deve ter-se em considerac~ao que se tratam dos primeiros resultados obtidos com uma primeira vers~ao de reconhecedor de modelos semicontnuos. Neste caso n~ao se introduziram quaisquer alterac~oes ou ajustes equivalentes aos anteriormente efectuados no reconhecedor de modelos contnuos.

Pelo contrario, existiam varias vers~oes anteriores do reconhecedor de modelos contnuos, a maioria delas ja utilizadas com alguma frequ^encia por diversos grupos de trabalho eu- ropeus (do consorcio SUNSTAR | secc~ao 3.2). A apreciac~ao dos resultados obtidos com o uso de modelos de escoamento, revela quebras nas taxas de rejeic~ao ainda mais signi - cativas ( 10%). Como se referiu, estes modelos n~ao foram treinados em conjunto com o dicionarios de gaussianas, o que pode ter contribudo para este facto. Contudo, no caso da primeira linha de resultados, o material utilizado no treino do dicionario e exactamente o mesmo do utilizado no treino dos modelos de escoamento. Por outro lado, com o uso de modelos de escoamento, atenuaram-se as diferencas entre as taxas de reconhecimento dos reconhecedores CHMM e SCHMM. Veri cou-se que algumas das palavras que eram

130 Escolha de material de treino e uso de modelos semicontnuos incorrectamente reconhecidas pelos modelos semicontnuos e correctamente reconhecidas pelos modelos contnuos, s~ao agora rejeitadas pelos modelos de escoamento contnuos.

De seguida detalha-se a analise dos resultados da tabela 4.3 em termos do material de treino dos modelos de escoamento. As primeiras duas linhas de resultados (c402 e c401) referem-se a um tipo de soluc~ao particularmente util para o desenvolvimento de reconhecedores com capacidade de rejeic~ao: utilizou-se o mesmo material de fala se- leccionado para o treino dos modelos das palavras-chave. Esta soluc~ao facilita a recolha de material de fala para o treino de um reconhecedor, uma vez que bastara considerar o proprio vocabulario da aplicac~ao. Contudo, com a proliferac~ao actual de corpora de fala, esta vantagem tem cada vez menos signi cado. Pretende-se averiguar da necessidade de treinar os modelos de escoamento com maior variedade lexical. Assim, comparam-se os resultados obtidos com este tipo de soluc~ao com os obtidos com uma selecc~ao com palavras n~ao pertencentes ao vocabulario da aplicac~ao (~c401) e outra ainda com maior variedade lexical (~c701).

O material da selecc~ao c401 contem aproximadamente um terco das locuc~oes da selecc~ao c402. A reduc~ao da quantidade de material de fala determina um decrescimo na taxa de rejeic~ao, quando este material e subdividido para o treino de modelos de escoamento multiplos. Este decrescimo e aproximadamente igual para os modelos contnuos e semicontnuos.

O numero de locuc~oes da selecc~ao ~c401 e aproximadamente igual ao da selecc~ao c401. Pretende-se com as experi^encias associadas a esta selecc~ao veri car o impacto do uso de palavras diferentes das palavras-chave no treino de modelos de escoamento. Espera- se obter, no essencial, uma recuperac~ao das taxas de reconhecimento, uma vez que os modelos de escoamento dever~ao apresentar caractersticas mais afastadas das dos modelos- chave, evitando-se deste modo que algumas palavras-chave sejam rejeitadas. De facto, n~ao so as taxas de reconhecimento como tambem as de rejeic~ao aumentam ligeiramente ( 1%). No caso dos modelos semicontnuos veri cam-se aumentos de cerca de 5% nas taxas de rejeic~ao.

Por ultimo, com a selecc~ao ~c701, quase se duplica o numero de locuc~oes utilizando exclusivamente palavras diferentes de todas as restantes. O acrescimo de quantidade e variedade lexical do material de treino dos modelos de escoamento, n~ao alterou de forma signi cativa o desempenho deste reconhecedor em relac~ao ao que utilizou a selecc~ao ~c401.

As conclus~oes possveis de estabelecer a partir deste conjunto de experi^encias con- rmam a superioridade do uso de modelos de escoamento multiplos, desta vez no caso dos modelos semicontnuos. Alem disso, prev^e-se a possibilidade de se utilizarem as mes-

Detecc~ao de palavras-chave 131

0 5 10 15 20 25 30 35 -

Numero de modelos de escoamento oo

x o

x o x

o x

45 55 65 75 85 (%)95

Figura 4.5: Taxas de reconhecimento (o) e de rejeic~ao (x) obtidas de experi^encias com modelos HMM de observac~oes semicontnuas (Teixeira et al., 1993a).

ma locuc~oes de treino dos modelos-chave para o treino dos modelos de escoamento, sem grande prejuzo das taxas de rejeic~ao. De facto, os melhores resultados de rejeic~ao foram obtidos nestas circunst^ancias com modelos de escoamento multiplos (CHMM). O aumento da variedade lexical deste material de treino n~ao pareceu contribuir para um acrescimo signi cativo do desempenho destes reconhecedores.

Na sequ^encia destas experi^encias, pretendeu-se determinar, no caso dos modelos semicontnuos, vantagens eventuais da divis~ao do material de treino por um numero superior de modelos de escoamento. Para tal, adoptou-se a selecc~ao de locuc~oes com mais palavras diferentes (~c701) e continuou-se a sua divis~ao, pelo processo anteriormente adoptado, de modo a obterem-se 10, 15, 20 e 35 modelos de escoamento. Os resultados obtidos encontram-se representados no gra co da gura 4.5. Da observac~ao desta gura conclui-se que, no caso dos modelos semicontnuos, e possvel melhorar substancialmente as taxas de rejeic~ao com o uso de um numero superior de modelos de escoamento. De facto, com 20 destes modelos foi possvel obter uma taxa de rejeic~ao de 73,4% (90,0%

de reconhecimento). Com 35 destes modelos obteve-se para a mesma taxa 72,3% (87,9%

de reconhecimento) valores que parecem indicar uma zona de saturac~ao ou declnio de desempenho, tal como foi detectado para os modelos contnuos na secc~ao 4.6.

132 Influ^encia do sotaque estrangeiro

No documento Reconhecimento de Fala de Oradores Estrangeiros (páginas 154-160)