O numero de modelos de escoamento e a dimens~ao do vocabulario

Detecc~ao de palavras-chave 123 unicamente para a obtenc~ao de conjuntos com dez modelos de escoamento.

Os resultados apresentados do metodo k-medias e do metodo do grafo referem-se ambos a taxas de rejeic~ao inferiores as anteriormente obtidas. No caso do metodo do grafo, registou-se uma quebra signi cativa (cerca de 16%) da taxa de rejeic~ao. Neste caso, veri cou-se ainda a formac~ao de um grupo com a maioria das palavras enquanto que os restantes caram apenas com uma unica palavra cada. Esta tend^encia foi tambem veri cada no caso do metodo k-medias embora de forma menos declarada: determinaram- se dois grupos dividindo entre si a maioria das palavras e a maioria dos grupos restantes

caram com apenas uma unica palavra cada.

Estes resultados parecem indicar que se devera manter os subconjuntos de treino de cada modelo de escoamento o mais heterogeneo possvel em termos das palavras que s~ao utilizadas. Principalmente, deve-se distribuir o material de fala uniformemente, em termos da quantidade de locuc~oes, pelos varios modelos de escoamento.

4.6 O numero de modelos de escoamento e a dimens~ao

124 O numero de modelos de escoamento e a dimens~ao do vocabulario dos outros procedimentos revelou vantagens acrescidas, sendo contudo mais complexos.

4.6.1 Experi^encias de aferic~ao

Os resultados obtidos com o vocabulario de 40 palavras encontram-se representados na gura 4.3. Veri cou-se, mais uma vez, o decrescimo da taxa de reconhecimento com o aumento do numero de modelos de escoamento. Contudo, este decrescimo continua a ser estatisticamente irrelevante, uma vez que n~ao e passvel de comprovac~ao em intervalos de con anca inferiores a 90%. Analisando a gura 4.3b, veri ca-se um crescimento quase monotono da taxa de rejeic~ao com o numero de modelos de escoamento utilizados.

Este crescimento deixa de ser signi cativo com os reconhecedores com mais de, aproxi- madamente, cinco modelos de escoamento. A vantagem de se utilizarem cinco modelos de escoamento em relac~ao a um unico e veri cada em intervalos de con anca superiores a 95%.

Comparando estes resultados com os representados na tabela 4.2 veri ca-se que tanto as taxas de reconhecimento como as de rejeic~ao s~ao agora maiores. Sublinha-se que o conteudo dos respectivos vocabularios utilizados e diferente e que nas experi^encias das secc~oes 4.4 e 4.5 se utilizou uma quantidade superior de oradores. Os resultados melhores agora obtidos s~ao, contudo, justi caveis, uma vez que os oradores utilizados no treino apresentam o mesmo sotaque dos que s~ao utilizados nos testes.

4.6.2 Experi^encias com diversas dimens~oes de vocabulario

Procura-se agora obter alguma relac~ao entre a dimens~ao do vocabulario e o numero de modelos de escoamento a utilizar. Para tal, utilizou-se o vocabulario anterior (40 palavras) dividindo-o em subvocabularios de 5, 10, 20 e 30 palavras. A obtenc~ao destes subvocabularios foi sistematizada da seguinte forma: o vocabulario inicial foi ordenado numa lista por ordem alfabetica aq-esima palavra do novo subvocabulario de ppalavras (1 q p) e a m-esima palavra desta lista, em que m e a parte inteira do quociente 40q=p. Com cada um destes novos subvocabularios, construram-se reconhecedores com diferentes numeros de modelos de escoamento. De acordo com os resultados obtidos com o vocabulario de 40 palavras, n~ao se justi caria utilizar mais de cinco modelos de escoamento, pelo que n~ao se experimentaram reconhecedores com um numero superior destes modelos. Tendo em considerac~ao que o subvocabulario mais pequeno a ser utilizado e de precisamente cinco palavras, tambem n~ao e razoavel, em termos computacionais, que se utilize um numero de modelos de escoamento superior ao dos proprios modelos-chave

Detecc~ao de palavras-chave 125

80 85 90 95 100

0 5 10 15 20

Numero de modelos de escoamento

taxa de reconhecimento (%) intervalo de confianca a 95%

intervalo de confianca a 90%

Número de modelos de escoamento

intervalo de confiança a 90%

intervalo de confiança a 95%

taxa de reconhecimento (%)

(a)

60 65 70 75 80 85 90

0 5 10 15 20

Numero de modelos de escoamento

taxa de rejeicao (%) intervalo de confianca a 95%

intervalo de confianca a 90%

Número de modelos de escoamento

taxa de rejeição (%) Intervalo de confiança a 90%

Intervalo de confiança a 95%

(b) Figura 4.3: Taxa (%) de reconhecimento (a) e de rejeic~ao (b) obtidas com reconhecedores com diferentes numeros de modelos de escoamento. Nos gra cos representam-se igualmente os intervalos de con anca a 90% e a 95% (Teixeira et al., 1992).

126 Escolha de material de treino e uso de modelos semicontnuos (conforme ja foi referido).

Na gura 4.4, apresentam-se os resultados das experi^encias anteriormente descritas.

Cada ponto representa o resultado de uma experiência de reconhecimento com uma dimens~ao de vocabulario e um numero de modelos de escoamento diferentes. Os segmentos de recta unem os pontos das experiências em que se utilizou o mesmo numero de modelos de escoamento. Os valores obtidos para as taxas (%) de reconhecimento e de rejeic~ao foram representados em duas guras diferentes (a) e (b), respectivamente. Em relac~ao a primeira veri ca-se, uma vez mais, a tendência de descida da taxa de reconhecimento com o aumento do numero de modelos de escoamento. Alem disso, os trajectos representados evidenciam uma reduc~ao desta quebra com o aumento da dimens~ao dos vocabularios. Por exemplo, de um reconhecedor com um vocabulario de 5 palavras e sem capacidade de rejeic~ao para um outro com cinco modelos de escoamento, obtem-se uma quebra de 10%

na taxa de reconhecimento. Nos reconhecedores com um vocabulario de 40 palavras, a referida quebra e reduzida para cerca de 5%. Esta tend^encia so foi possvel de veri car num intervalo de con anca de 90%, quando se substitui um reconhecedor de 5 palavras por outro de 40 palavras.

Os resultados obtidos mostram um claro declnio da taxa de rejeic~ao com o aumento da dimens~ao dos vocabularios, bem como uma tend^encia (menos evidente) para o afastamento entre os trajectos assinalados na gura 4.4b. Assim, a vantagem do uso de modelos de escoamento multiplos parece ser maior quanto maior for o numero de palavras-chave.

Esta tend^encia e mais evidente nos vocabularios mais pequenos. Por exemplo, de um reconhecedor de 20 palavras com um unico modelo de escoamento para um outro com cinco, obtem-se um acrescimo de 10% na taxa de rejeic~ao. Com os reconhecedores de 5 palavras, o referido acrescimo e reduzido para cerca de 2%. Assim, a conclus~ao essencial das experi^encias descritas nesta secc~ao, e a con rmac~ao da utilidade do uso de modelos de escoamento multiplos para o caso dos vocabularios a reconhecer serem de dimens~ao superior a cerca de uma dezena de palavras.

4.7 Escolha de material de treino e uso de modelos

No documento Reconhecimento de Fala de Oradores Estrangeiros (páginas 151-154)