• Nenhum resultado encontrado

4.3 Primeira avaliação perceptiva da proposta

4.3.3 Aplicação do teste

Participaram no teste de percepção nove indivíduos, cinco do sexo feminino e quatro do sexo mascu- lino, quase todos naturais e residentes na zona norte do País, na sua grande maioria com habilitações literárias iguais ou superiores ao Mestrado, sem história conhecida de perturbações auditivas. Todos os elementos recrutados para a realização da experiência foram informados dos objectivos do estudo e aceitaram participar no teste.

Figura 4.22: Interface gráfica do teste perceptivo de identificação. Para além da identificação do ouvinte (em cima), a interface dispõe de uma barra móvel (“Já realizado”) para monitorização dos estímulos avaliados (ao centro), um botão para ouvir novamente os estímulos (em baixo à esquerda) e uma zona (ao centro) para registar a resposta do ouvinte à pergunta “Qual a palavra que ouviu?”.

Este foi aplicado individualmente, no Instituto de Engenharia Electrónica e Telemática de Aveiro (IEETA), num gabinete com um nível de ruído baixo a moderado, sob a supervisão da experi- mentadora.

Pediu-se aos ouvintes que identificassem um estímulo, apresentado aos sujeitos através de auscultadores. Na explicação da tarefa, o experimentador chamou a atenção para algumas caracterís- ticas dos estímulos, nomeadamente os problemas ao nível do acento e da prosódia, em grande parte responsáveis pela falta de naturalidade das palavras.

A repetição dos estímulos (mediante recurso ao referido comando “Ouvir novamente”), sempre que o participante do teste sentiu essa necessidade, ficou a cargo da experimentadora. Esta foi também responsável pelo registo escrito das respostas dos sujeitos, em transcrição fonética (usando SAMPA) e em local próprio da interface.

Não foi imposto nenhum limite de tempo para a realização do teste perceptual, que, em média, durou cerca de vinte minutos para cada ouvinte.

4.3.4 Resultados

Nesta secção, proceder-se-á à apresentação dos resultados do teste perceptual, tendo em conta as- pectos como: taxa de acerto global; percentagem de identificação ao nível do segmento; eventual interferência de variáveis como número de sílabas e estrutura silábica do estímulo; possíveis diferen- ças de desempenho entre os dois sintetizadores.

Tal como seria de esperar, as várias limitações do modelo linguístico e dos sintetizadores articulatórios em si mesmos traduzem-se numa percentagem de erros elevada: apenas 25.3% dos estí- mulos são correctamente identificados, na sua totalidade. Ainda no tocante à taxa de acerto ao nível da palavra, verifica-se uma diferença entre os dois sintetizadores, sendo os resultados do SAPWindows,

em média, superiores aos do HLsyn (33.3% versus 22.2%, respectivamente). De acordo com o teste

t, esta diferença é estatisticamente significativa (p= 0.002).

Quanto ao desempenho individual dos sujeitos durante a realização da tarefa, o gráfico 4.23 indica que os valores variam entre os 14.6% e os 44.6% de estímulos correctamente reconhecidos.

Figura 4.23: Percentagem de palavras correctamente identificadas por cada um dos ouvintes participantes no teste de identificação.

A percentagem de acerto foi mais elevada sempre que estiveram em causa palavras como “mínimo” ["minimu] (94.4%), “camisola” [k5mi"zOl5] (77.8%), “olá” [O"la] (77.8%), “sofá” [su"fa] (77.8%), “chocolate” [Suku"lat1] (77.8%), “pato” ["patu] (77.8%) e “mapa” ["map5] (66.7%). Entre os estímulos mais difíceis de identificar pelos ouvintes que realizaram o teste estão palavras como “virar”[vi"RaR], “vosso” ["vOsu] ou “seco” ["seku].

Considerou-se também a taxa de acerto ao nível segmental. Na figura 4.24 , é apresentada, sob a forma de um gráfico de barras, a percentagem de respostas certas em função da classe de som envolvida e do sintetizador em causa.

Como facilmente se pode concluir a partir da observação do gráfico, para ambos os sinte- tizadores, a percentagem de respostas correctas é mais elevada para as vogais (orais) e as consoantes nasais, atingindo valores próximos dos 70%. Estes resultados estão em perfeita consonância com a opinião geral dos próprios participantes, que, no decorrer do teste, de forma sistemática, assinalaram a facilidade em identificar as vogais, por oposição às consoantes.

Figura 4.24: Percentagem de respostas correctas em função da classe de sons e do sintetizador utilizado (HLsyn, a cinzento escuro, ou SAPWindows, a cinzento claro). As classes de sons são: vogais (V), con- soantes nasais (N), oclusivas surdas (C), laterais (L), fricativas surdas (F), oclusivas sonoras (Cv), vibrantes simples (T) e fricativas sonoras (Fv).

Quanto às laterais (neste caso, apenas o /l/), os resultados dependem muito do sintetiza- dor usado para gerar os estímulos: as taxas de acerto para o HLsyn não só são superiores às do SAPWindows, como chegam a ombrear com os valores obtidos para as consoantes nasais e as vogais. É em relação às fricativas vozeadas e ao tap que se registam as percentagens de identifica- ção mais baixas. No que se refere ao [R], fica também patente uma diferença significativa entre os resultados obtidos para o HLsyn e o SAPWindows, sendo que, no caso deste último, os valores são claramente superiores.

Repare-se, igualmente, que as oclusivas e fricativas vozeadas, quando comparadas com as congéneres não-vozeadas, estão sempre associadas a percentagens de acerto inferiores, não importa qual o sistema de síntese considerado.

Conforme ilustrado no gráfico 4.25, entre os fones mais facilmente percepcionados estão o [f], o [u] e o [m], todos com percentagens acima dos 80%. No fundo da tabela dos sons que apresentam maiores dificuldades aos ouvintes, com taxas de acerto inferiores a 25%, aparecem o[ñ], o [b], o [v], [Z] e o [e].

Apurou-se, igualmente, a relevância do tamanho da palavra em termos de sílabas para a correcta discriminação dos estímulos e dos segmentos que os constituem. Os resultados são apresen-

Figura 4.25: Percentagem de respostas correctas em função do fone.

tados na figura 4.26. A percentagem de respostas correctas, tanto ao nível da palavra como ao nível do segmento, foi maior sempre que a palavra apresentada era constituída por seis sílabas. Pelo contrário, os ouvintes revelaram muitos problemas em identificar estímulos com cinco sílabas. Este facto poderá estar relacionado não tanto com o número de sílabas, mas com a composição segmental dos próprios estímulos.

Apresentados os resultados globais, fizemos incidir a nossa atenção sobre as respostas dos ouvintes para cada fone em particular. Se é verdade que, na grande maioria das vezes, os participantes no estudo se mostraram incapazes de identificar o segmento em causa - como foi possível verificar a partir dos resultados globais inferiores a 30% - casos há em que este foi sistematicamente confundido e substituído por outros sons. A análise das circunstâncias em que estas trocas acontecem permitirá formular algumas hipóteses acerca dos factores subjacentes às dificuldades na identificação de alguns segmentos.

Assim, é possível constatar que, não raro, as consoantes oclusivas e fricativas surdas são confundidas com os respectivos pares sonoros e vice-versa, o que deixa antever problemas relaciona- dos com a simulação do vozeamento.

Para além disso, os ouvintes parecem manifestar algumas dificuldades em distinguir o[s] do[S] e, em menor grau, o [z] do [Z]. Este facto corrobora os resultados da avaliação perceptiva pre- liminar, realizada informalmente pelo próprio experimentador ao longo do processo de determinação das configurações gestuais associadas a cada segmento do PE.

Figura 4.26: Percentagem de palavras (a cinzento escuro) e segmentos (a cinzento claro) correctamente identi- ficados em função do número de sílabas.

associar uma determinada consoante a outras com o mesmo ponto de articulação: é o caso, por exem- plo, do[l] frequentemente confundido com o [R] ou ao contrário; ou do [m], algumas vezes associado ao[b].

No que respeita às vogais, ainda que facilmente reconhecidas na maioria dos casos, rema- nescem algumas confusões que reflectem problemas relacionados com distinções de altura. A questão é mais premente em relação às vogais centrais ([a] vs [5]) e posteriores ([o] vs [O]). Por outro lado, são de assinalar as dificuldades dos ouvintes em dissociar o[u] do [1].