• Nenhum resultado encontrado

3. METODOLOGIA

3.2 A utilização do script MOMEL/INTSINT

Segundo Celeste (2007, p. 35), aquilo que o falante sabe sobre a entoação de uma língua compreende tanto o conhecimento das formas melódicas como o conhecimento sobre as funções atribuídas a essas formas melódicas. Porém, para essa autora um estudo da função que uma determinada melodia possa apresentar deve ser precedido por um estudo bastante detalhado das formas melódicas da língua.

Foi a necessidade desse tipo de estudo que norteou a criação de dois programas de computador: o IPO76 e o MOMEL (Modélisation de Melodie)77, idealizados para fazer a extração automática da informação entoacional da fala através de um processo de estilização.

Os dois programas têm diferenças na forma como realizam a estilização. Essas diferenças são norteadas pelo foco de interesse dos pesquisadores que elaboraram os programas. t’Hart, Collier e Cohen (199078 apud CELESTE, 2007) querem descobrir como o ouvinte percebe o pitch na fala. Segundo Celeste (2007, p. 35-36), esses autores buscam responder as seguintes questões: (i) Quais unidades melódicas o ouvinte distingue?; (ii) Como ele as estrutura na percepção global da curva melódica?; (iii) Como relaciona o contorno percebido às entidades melódicas mais abstratas?; e, (iv) Como integra informação textual e melódica formando uma única mensagem lingüística?

Parece claro que os idealizadores do IPO decidiram-se por uma análise voltada para a percepção do falante. Esses autores justificam sua escolha afirmando que a percepção atua como um filtro reduzindo os dados acústicos àqueles relevantes para a comunicação. Assim, percebe-

76

Desenvolvido no Intitute of Perception Research. 77 Desenvolvido no Laboratoire Parole et Langage.

78HART (T’), J. COLLIER, R. COHEN, A. A perceptual study of intonation: an experimental-

se que os estudos de entoação feitos pelo IPO estão baseados em um “modelo de ouvinte”, como afirma Celeste (2007, p. 37).

Já os idealizadores do MOMEL tinham como questão realmente desafiadora a da reversibilidade, ou, como formulado em Hirst e Espesser (199379 apud CELESTE, 2007, p. 36): “Dada uma curva de F0, como nós podemos recuperar uma representação simbólica? Mesmo se

nós formos capazes de realizar tal codificação simbólica

automaticamente, como nós poderíamos validar a saída de tal programa?” (tradução nossa).

Essas questões deixam claro que o modelo de estilização do MOMEL tem como base uma abordagem acústica. Para Hirst e Espesser (1993, apud CELESTE, 2007), é desejável que haja um sistema automático de modelagem automático da curva melódica, pois um algoritmo eficiente seria útil tanto para ser utilizado em coletas de dados, quanto para sintetizar fala; seria útil ainda para estudos que

envolvessem o reconhecimento automático da fala. Assim,

diferentemente da abordagem perceptiva do IPO, a abordagem acústica do MOMEL se volta para questões de codificação e síntese, ou seja, de produção, como afirma Celeste (2007).

Há, ainda, uma diferença de visão dos idealizadores do IPO e do MOMEL com relação a F0. Os primeiros não acham prudente

desconsiderar os efeitos segmentais sobre a curva de pitch; já os segundos pensam que há a necessidade de se separarem os efeitos segmentais dos suprasegmentais.

A estilização feita pelo MOMEL se diferencia da feita pelo IPO pois se utiliza de uma função quadrática, que traz como resultado um contorno de pitch que acompanha o movimento da curva original, o que produz, sem perda de informações significativas, uma curva entoacional muito próxima da original. Para conseguir tal resultado, a aplicação do MOMEL sobre a curva de pitch se realiza em 4 estágios:

(6) Quatro estágios do MOMEL

(I) Pré-processamento de F0 – nível básico

(II) Estimação dos pontos candidatos – nível fonético

(III) Divisão dos alvos candidatos – nível fonológico de superfície

79 No original: “Given an F0 curve, how can we recover a symbolic representation? Even if we

are able to perform such symbolic coding automatically, how should we validate the output of such programme?”. HIRST, D. ESPESSER, R. Automatic Modeling of Fundamental Frequency Using a Quandratic Spline Function. Aix-Provence: Travaux de l’Institut de

(IV) Redução dos pontos candidatos – nível fonológico subjacente

Observe agora as figuras a seguir. A Figura 2 traz uma janela do programa PRAAT em que se encontra a curva entoacional original de uma sentença; a Figura 3 traz a mesma sentença, dessa vez estilizada pelo MOMEL.

Figura 2: Tela do programa PRAAT concernente à realização fonética da sentença clivada “Foi o menino que chamou a polícia”, contendo as seguintes informações: na parte superior, com fundo branco, a forma de onda (em preto) e

os pulsos glotais, que indicam vocalização (em azul). Na parte inferior está o espectrograma de banda larga, ao fundo preenchendo todo o quadro, e

Figura 3: Tela do programa MOMEL mostrando a estilização da sentença clivada “Foi o menino que chamou a polícia”. Na parte superior são encontradas

a forma de onda e os pulsos glotais; na parte inferior, a linha em verde corresponde à estilização da curva melódica feita pelo MOMEL. Os pontos que

estão dispostos ao longo da linha são os pontos-alvo escolhidos pelo algoritmo do MOMEL. A linha cinza representa a curva melódica original. Com a elaboração de programas com a capacidade de extrair automaticamente a informação entoacional da fala, os pesquisadores passaram a sentir necessidade de criar sistemas de notação que pudessem ser utilizados como um padrão para a transcrição das curvas melódicas. Foi com essa finalidade que surgiram programas como o ToBI (Tone and Break Índices) e o INTSINT (International System of Intonation Transcription), criados com base nas teorias auto-segmental e métrica.

As análises mais tradicionais da entoação, como a de Halliday (1976 apud CELESTE, 2007)80 entendiam que ela se compunha de uma sequência de movimentos ascendentes e descendentes. Liberman (1975

apud CELESTE, 2007), diferentemente das análises anteriores para o

inglês, sugeriu que a curva entoacional é composta por uma seqüência de pontos principais que são interpolados foneticamente.

É apoiada no quadro teórico da teoria auto-segmental e métrica, fundado por Lieberman e desenvolvido por Goldsmith (1990 apud CELESTE, 2007), que Pierrehumbert (1987 apud CELESTE, 2007, p.

34) busca dois objetivos em sua tese: (i) desenvolver uma representação abstrata para entoação do inglês; e (ii) investigar as regras que mapeiam essas representações fonológicas abstratas dentro das representações fonéticas, ou seja, relacionar texto e entoação. É a partir dessa tese que Ladd (1990 apud CELESTE, 2007) desenvolveu a teoria que originou o ToBI.

Segundo Celeste (2007), o modelo de transcrição apresentado pelo ToBI obteve uma grande aceitação entre os pesquisadores por dois motivos: (i) não havia até o momento um sistema de transcrição da entoação amplamente aceito; e (ii) havia uma crescente busca por métodos computacionais que contribuíssem para o melhoramento da tecnologia de síntese e reconhecimento da fala.

Apesar de sua larga aceitação, o ToBI não se afirma como um alfabeto fonético internacional de transcrição para a prosódia; na verdade, deve haver “um estudo meticuloso da entonação de uma língua antes da sua implementação” (CELESTE, 2007:54). Ou seja, o ToBI só se aplica realmente ao inglês.

Por sua vez, o INTSINT nasceu de um estudo entoacional de 20 línguas diferentes que tinha como objetivo a criação de um sistema de códigos especificamente voltado para a análise prosódica. Hirst e Di Cristo (199881 apud CELESTE, 2007), seus idealizadores, buscavam um código que fosse capaz de representar qualquer tipo de distinção entoacional significativa linguisticamente. Visto de outro modo, o INTSINT foi concebido para fazer uma descrição acurada das distinções entoacionais encontradas nas diferentes línguas, procurando construir os padrões que possam diferenciar os contornos melódicos de cada uma delas. Assim, como observa Celeste (2007, p. 55) “os códigos do INTSINT seriam equivalentes ao sistema de transcrição de sons do IPA”. O INTSINT, portanto, pode ser aplicado a qualquer língua oral humana.

A descrição feita pelo INTSINT utiliza uma série limitada de símbolos, representando os tons, que são atribuídos aos pontos alvos obtidos através da estilização feita pelo MOMEL. A lista de símbolos tonais é representada pelos seguintes símbolos ortográficos: T (top), M (mid), B (bottom), H (higher), S (same), L (lower), U (upstepped), D (downstepped).

81 HIRST, D. & DI CRISTO, A. A survey of intonation systems. In: Hirst & Di Cristo (eds).

Intonation Systems: A Survey of Twenty Languages. Cambridge: Cambridge University Press,

Desses símbolos, três são valores absolutos: T e B, correspondendo ao ponto mais alto e mais baixo da curva, respectivamente, representam a tessitura do falante; M representa o ponto médio entre T e B e é usado quando o primeiro ponto não é nem alto nem baixo. Já os outros pontos são sempre definidos com relação ao ponto que o antecede; assim, S é usado quando o ponto não tem diferença relevante com o ponto precedente; H (mais alto) e U (subida suave) são utilizados quando o ponto é mais alto que o precedente; e, L (mais baixo) e D (descida suave), quando o ponto é mais baixo. Por haver muita discussão em torno da distinção entre H e U, ou L e D, foram elaboradas várias versões dessa notação: (i) versão HL, (ii) versão

configuração, (iii) versão mista, (iv) versão ampliada 2, (v) versão ampliada 3 e (vi) versão de níveis.

Segundo Celeste (2007), dentre todas essas versões as que mostram melhor aplicabilidade em estudos comparativos entre línguas são a versão ampliada 3 e a versão de níveis. No entanto, a notação de Hirst & Di Cristo (1998 apud CELESTE, 2007) continua sendo a mais utilizada. Nela H e L são picos ou vales, respectivamente, e U e D se apresentam na curva melódica como “pontos mais nivelados”, subindo ou descendo.

A descrição feita pelo INTSINT ainda pode ser codificada fazendo-se uso de ícones, como na Tabela (1):

Absolutos T ⇑ M → B ⇓

Relativos Maior intervalo H ↑ - L ↓

Menor intervalo U< - D>

Tabela 1: Notação utilizada por Hirst & Di Cristo (1998). A primeira linha mostra os valores absolutos T, M e B junto com a notação em setas utilizada

pelos autores. As duas linhas de baixo mostram os valores altos e baixos, divididos em maior e menor intervalo, junto com a notação em setas.

Hirst (200582 apud CELESTE, 2007) afirma que a aplicação do INTSINT sobre a estilização feita pelo MOMEL é totalmente automatizada, seguindo uma fórmula matemática83. Hirst (2005 apud CELESTE, 2007) afirma, adicionalmente, que o INTSINT não tem como objetivo final predizer características prosódicas dos enunciados,

82

HIRST, D. Form and Function in the Representation of Speech Prosody. Aix-en-Provence: Université de Provence, 2005.

83 Para o leitor interessado nos detalhes matemáticos da aplicação do INTSINT sobre a estilização feita pelo MOMEL, ver Celeste (2007, p. 61).

mas sim reproduzir essas características de uma forma apropriada fazendo uso de uma metodologia forte.

Um exemplo da aplicação do INTSINT pode ser encontrado nas Figuras 4 e 5. A primeira representa uma estilização do MOMEL e a segunda, o resultado da aplicação do INTSINT.

Figura 4: Tela do programa MOMEL mostrando a estilização da curva entoacional da sentença copular “A Maria é quem quer namorar”, na parte inferior, juntamente com os pontos alvo para os quais o INTSINT atribuirá

Figura 5: Tela do programa PRAAT mostrando a transcrição da curva de pitch da sentença copular “A Maria é quem quer namorar” realizada pelo INTSINT.

Essa transcrição é feita em três faixas horizontais localizadas logo abaixo do espectrograma: a primeira, de cima para baixo, mostra os valores de F0 da estilização feita pelo MOMEL; a segunda traz a transcrição para símbolos tonais feita pelo INTSINT; na terceira linha se encontram os valores de F0 após

os cálculos do INTSINT.

Por fim, pode-se resumir as diferenças entre o ToBI e o INTSINT da seguinte maneira: o ToBI traz uma representação que mistura forma e função, pois se baseia na sílaba proeminente e na mudança entoativa; já o INTSINT propõe uma análise da forma, ou seja, do nível fonológico de superfície. Nessa análise os pontos alvos apontados pelo MOMEL representam os pontos mais relevantes da curva de F0 e não são

consideradas as unidade entoativas. Independentemente do tipo de analisador tonal que se use, o que se quer é obter uma análise mais objetiva, realizada sob parêmetros objetivos e recorrentes que foram obtidos da mesma forma para todos os dados. Porém, como não há na rede disponível uma versão do ToBI para o português (e o INTSINT está disponível e serve para qualquer língua), e, adicionalmente, o INTSINT se encaixa no objetivo desta dissertação, que é descrever os padrões entoacionais de um grupo de sentenças, então, o INTSINT, parece ser a melhor escolha para fazer essa descrição. No próximo

capítulo serão apresentados e discutidos os resultados obtidos para as sentenças gravadas, após sua análise pelo MOMEL e pelo INTSINT.