Análise fonético-experimental da entoação de declarativas e interrogativas em espanhol/LE

(1)

INSTITUTO DE ESTUDOS DA LINGUAGEM

CRISTIANE CONCEIÇÃO SILVA

ANÁLISE FONÉTICO-EXPERIMENTAL DA ENTOAÇÃO DE

DECLARATIVAS E INTERROGATIVAS EM ESPANHOL/LE

CAMPINAS,

2016

(2)

ANÁLISE FONÉTICO-EXPERIMENTAL DA ENTOAÇÃO DE

DECLARATIVAS E INTERROGATIVAS EM ESPANHOL/LE

Tese de doutorado apresentada ao Instituto de Estudos da Linguagem da Universidade Estadual de Campinas para obtenção do título de Doutora em Linguística.

Orientador: Prof. Dr. Plínio Almeida Barbosa

Este exemplar corresponde à versão final da Tese defendida pela

aluna Cristiane Conceição Silva e orientada pelo Prof. Dr. Plínio Almeida Barbosa

CAMPINAS,

2016

(3)

Ficha catalográfica

Universidade Estadual de Campinas Biblioteca do Instituto de Estudos da Linguagem

Crisllene Queiroz Custódio - CRB 8/8624

Silva, Cristiane Conceição,

Si38a SilAnálise fonético-experimental da entoação de declarativas e interrogativas em espanhol/LE / Cristiane Conceição Silva. – Campinas, SP : [s.n.], 2016.

SilOrientador: Plínio Almeida Barbosa.

SilTese (doutorado) – Universidade Estadual de Campinas, Instituto de Estudos da Linguagem.

Sil1. Língua espanhola - Fonética. 2. Língua espanhola - Pronunciação por falantes estrangeiros. 3. Entoação (Fonética). 4. Fala - Análise. 5. Síntese da voz. 6. Sistemas de processamento da fala. I. Barbosa, Plínio Almeida,1966-. II. Universidade Estadual de Campinas. Instituto de Estudos da Linguagem. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Phonetic-experimental analysis of the intonation of declarative and interrogative sentences in Spanish as a foreign language

Palavras-chave em inglês: Spanish language - Phonetics

Spanish language - Pronunciation by foreign speakers Intonation (Phonetics)

Speech - Analysis Speech synthesis

Speech processing systems

Área de concentração: Linguística Titulação: Doutora em Linguística Banca examinadora:

Plínio Almeida Barbosa [Orientador] Juan María Garrido Almiñana Sandra Madureira Fontes Pablo Arantes

Maria Bernadete Marques Abaurre Data de defesa: 25-02-2016

Programa de Pós-Graduação: Linguística

(4)

(5)

(6)

orientação e por ser o excelente professor que é. Em seus cursos, nos convida o tempo inteiro a experimentar, aprender, descobrir e, sobretudo, compartilhar o conhecimento.

Agradeço a todos os informantes brasileiros e espanhóis que participaram dos experimentos de produção e de percepção. Foi a generosidade de todos eles que tornou esta pesquisa possível.

Também agradeço aos meus professores Plínio Barbosa e Bernadete Abaurre do IEL-Unicamp, Sandra Madureira da PUC-SP, Juan María Garrido da UPF e Pablo Arantes da Ufscar por seus cursos que foram de extrema importância para minha formação como linguista e foneticista.

Gostaria de agradecer também ao Professor Juan María Garrido por orientar meu trabalho de qualificação de área utilizando o modelo de estilização automática da entoação. Sob sua orientação, tive a oportunidade de estudar o modelo IPO e entender os fundamentos do seu modelo de estilização automática.

Faço um agradecimento especial à Profa. Juana Gil por me receber no laboratório de fonética do CSIC em Madri em 2013 e 2014. Seu apoio foi muito importante para que eu realizasse as gravações e o experimento de percepção com os espanhóis. Agradeço também aos colegas do grupo de pesquisa do laboratório de fonética, Marianela, Patrícia e José María por me acolherem no laboratório e pela grande ajuda na "busca" de ouvintes. Agradeço às professoras Sandra Schwab e María Ángeles pelo afeto recebido em Madri e além mar e agradeço também à minha compatriota Janaína pela acolhida e generosidade.

Agradeço também aos professores Maya García (Universidad de Alcalá) e Rubén San Segundo (Universidad Politécnica de Madrid) por me receberem em suas respectivas universidades e me apoiarem na divulgação dos experimentos de percepção.

Agradeço à Profa. Dra. Sandra Madureira, ao Prof. Dr. Pablo Arantes e ao Prof. Dr. Philippe Boula de Mareüil, membros da banca de qualificação, pela leitura cuidadosa deste trabalho e pelas perguntas e comentários que contribuíram imensamente para melhorá-lo. Dedico um agradecimento especial ao Prof. Dr. Pablo Arantes. Serei sempre grata pela amizade, incentivo e pelas conversas essenciais sobre linguística, estatística e programação que tivemos. Gratidão por sua infinita generosidade em compartilhar o conhecimento mesmo quando ele próprio tinha que cumprir tantas responsabilidades próprias da carreira de pesquisador e docente.

(7)

Agradeço também à Unicamp por oferecer serviços de assistência estudantil como o CECOM e o SAPPE que são fundamentais para os estudantes e dedico um agradecimento especial à terapeuta Eronildes Santos.

Não posso deixar de agradecer também à CAPES pelo financiamento desta pesquisa, ao banco Santander pela bolsa de intercâmbio que me permitiu estudar de janeiro a junho de 2013 na Universidade Pompeu Fabra, na Espanha.

Agradeço também aos colegas do Grupo de Estudos de Prosódia da Fala, ao José Adolfo, meu primeiro professor de estatística que logo se transformou em amigo Zé, às novas amigas Juliana, Nathalia e Jéssica e, em especial, ao meu amigo de toda a vida André. Seu apoio foi fundamental para que eu pudesse concluir esta pesquisa. Também agradeço a ele pela leitura e comentários muito valiosos deste trabalho.

Agradeço imensamente minhas irmãs e irmãos do Ballet Koteban. Tê-los por perto em um dos momentos mais difíceis da minha vida acadêmica foi fundamental para a redescoberta da minha identidade e força de mulher preta. Infelizmente, o ambiente AINDA excessivamente branco que caracteriza as universidades públicas brasileiras continua sendo um obstáculo colossal para o desenvolvimento feliz e pleno das pretas e dos pretos na academia, mas a dança, a música e o afeto transmitido pelo Ballet Koteban me mostraram que há esperança, e isso significa muito!

Finalmente, agradeço a todos os meus amigos tanto os que estão perto de mim agora quanto os que estão distantes fisicamente. Agradeço por me amarem do jeitinho que sou, por me apoiarem e por entenderem minhas inúmeras ausências e agradeço de todo o coração à minha família. Gratidão à minha mãe Maria José e minha irmã Eliane, ambas por serem meus modelos de força, sabedoria e resistência. Sem seu apoio incondicional, não teria conseguido mesmo. Agradeço também aos pequenos da família, Sophia, Pedro Paulo, Nina e Diego Rivera por encherem nossas vidas de alegria, movimento e muitos, muitos sons!

(8)

Nesta pesquisa, foi realizada uma análise fonético-experimental da entoação de declarativas, interrogativas totais e interrogativas parciais em espanhol como língua estrangeira (espanhol/LE). Para isso, as produções em espanhol de brasileiros em situação de imersão foram comparadas com as produções correspondentes de dois grupos de controle. O primeiro composto por falantes nativos de espanhol peninsular falado como língua materna e o segundo formado pelos próprios brasileiros com suas produções em português brasileiro (PB). O contexto foi uma das variáveis controladas no experimento de produção. Foram analisadas a leitura de frases isoladas, a leitura das mesmas frases inseridas em uma narrativa e, finalmente, a narração da história lida. O objetivo deste estudo foi o de caracterizar a entoação do espanhol/LE através da análise de três funções comunicativas básicas que são transmitidas pela entoação: a função de proeminência, fronteira e modalidade. Para isso, foi empregada uma técnica de análise por síntese implementada pelo algoritmo PENTATRAINER2. O estudo foi realizado em três etapas. Na primeira, todas as curvas de F0 dos enunciados lidos foram comparadas entre si através da técnica Dynamic Time Warping (DTW) que oferece uma medida de similaridade entre pares de curvas. O estudo revelou que, globalmente, as curvas de F0 das declarativas e interrogativas totais em espanhol/LE estão mais próximas às mesmas produções em espanhol e que as curvas das interrogativas parciais estão mais próximas às mesmas produções em PB. O estudo também serviu para aproximar as produções em espanhol/LE de cada brasileiro ao espanhol ou ao PB. Na segunda etapa, foi realizado um teste de percepção com ouvintes espanhóis que avaliou o grau de sotaque estrangeiro dos informantes da pesquisa. Os resultados do experimento serviram para agrupar os sujeitos de acordo com o grau de sotaque estrangeiro e também para relacionar tal agrupamento com os resultados obtidos com a análise das funções comunicativas realizadas posteriormente. Esse experimento de percepção demonstrou também que é possível identificar o sotaque estrangeiro apenas com informação prosódica presente em estímulos delexicalizados, o que evidenciou o papel fundamental da prosódia na percepção do sotaque estrangeiro. Na última etapa, a análise dos valores dos três parâmetros do modelo PENTA inferidos a partir das três funções comunicativas estudadas revelou que, globalmente, os esquemas de codifcação do espanhol/LE são mais parecidos aos do PB na transmissão das funções comunicativas de proeminência e fronteira continuativa nas declarativas, interrogativas totais e parciais e na transmissão da função de proeminência e fronteira terminal em interrogativas totais e parciais. O espanhol/LE somente se aproximou do espanhol na transmissão da função de proeminência em fronteiras terminais das declarativas. Apesar dessa proximidade do espanhol/LE com o PB, a comparação das médias de sotaque estrangeiro obtidas por cada informante com os valores dos três parâmetros para as três funções comunicativas revelou que quanto menor o grau de sotaque estrangeiro do informante, mais os valores dos três parâmetros se aproximam aos inferidos para o espanhol, o que pode ser um indicador importante da aquisição da entoação do espanhol/LE.

Palavras-chave: entoação do espanhol/LE, fonética experimental, modelo PENTA, análise por síntese, sotaque estrangeiro

(9)

In this research, the intonation of declaratives, yes-no and wh-questions in Spanish as a foreign language (Spanish/FL) was analyzed from a phonetic-experimental perspective. Specifically, Spanish productions by Brazilians in an immersion situation were compared with corresponding productions of two control groups. The first consists of native speakers of peninsular Spanish spoken as a mother tongue and the second, of the Brazilians with their productions in Brazilian Portuguese (BP). The context was one of the controlled variables in the production experiment. The reading of sentences isolated and embedded in a narrative and, finally, the narration of the story read were analyzed. The objective of this study was to characterize the intonation of the Spanish/FL by analyzing three basic communicative functions that are transmitted by intonation: the prominence function, boundary and modality. For this, we used a analysis-by-synthesis implemented by PENTATRAINER2. The analysis was conducted in three stages. First, all the F0 curves in read statements were compared to each other with the technique Dynamic Time Warping (DTW) which provides a measure of similarity between pairs of curves. The results indicated that, overall, the F0 curves of declaratives and yes-no questions in Spanish/FL are closer to these productions in Spanish and wh-questions are closer to these productions in BP. The study also served to bring the productions in Spanish/FL of each Brazilian to Spanish or PB. Second, a perception test was conducted with Spanish listeners who evaluated the degree of foreign accent of survey respondents. The results of the experiment were used to the group subjects according to their degree of foreign accent and to relate this grouping with the results obtained from the analysis of the communication functions performed later. This perception experiment also demonstrated that it is possible to identify the foreign accent based solely on prosodic information. This was demonstrated through the use of delexicalized stimuli, which highlighted the key role of prosody in the perception of foreign accent. Finally, the analysis of the values of the three parameters of PENTA model inferred from the three communicative functions studied showed that globally the codification schemes of Spanish/FL are more similar to BP in the transmission of the communicative functions of prominence and continuative boundary in declaratives, yes-no and why questions and of prominence function and terminal boundary in yes-yes-no and wh-question. Spanish/FL only got closer to Spanish in the transmission of prominence function in the declarative terminal boundary. Despite this proximity between Spanish/FL and BP, the comparison of Foreign Accent averages per subject with the values of the three parameters for the three communicative functions showed that the lower the degree of foreign accent is, the closer the three values of the parameters are to the inferred one for Spanish. This can be an important indicator of the acquisition of intonation of Spanish/FL.

Keywords: Spanish intonation as a foreign language, experimental phonetics, PENTA model, analysis-by-synthesis, foreign accent

(10)

1. ESTUDOS SOBRE ENTOAÇÃO ... 20

1.1DEFININDO O TERMO ENTOAÇÃO ... 20

1.2.BREVE HISTÓRICO DOS ESTUDOS DE ENTOAÇÃO ... 21

1.3.PRINCIPAIS MODELOS TEÓRICOS ATUAIS ... 25

1.3.1 Teoria Métrica Autossegmental (MA) ... 26

1.3.2. Modelo de Fujisaki ... 28

1.3.3. Modelo PENTA (Parallel Encoding and Target Approximation Model)... 29

1.3.3.1 Estrutura do modelo TA (Target Approximation) Model ... 30

1.3.3.2. Modelo qTA (Quantitative Target Approximation Model) ... 37

1.3.3.3. Estrutura do modelo qTA ... 39

1.3.3.4. PENTATrainer 2 - Modelamento de análise por síntese ... 40

2. ENTOAÇÃO DO ESPANHOL, PB E ESPANHOL/LE ... 42

2.1.A ENTOAÇÃO DO ESPANHOL ... 42

2.2.A ENTOAÇÃO DO PB ... 48

2.3.A ENTOAÇÃO DO ESPANHOL/LE ... 51

3. MÉTODOS ... 56

3.1.SUJEITOS ... 56

3.2.CORPUS ... 56

3.3.EQUIPAMENTOS E RECURSOS ... 58

3.4.PROCEDIMENTOS ... 59

3.5.FATORES QUE DETERMINAM A PRONÚNCIA EM LE ... 60

4. SOTAQUE ESTRANGEIRO ... 62

4.1.DEFINIÇÃO DE SOTAQUE ESTRANGEIRO ... 62

4.2.MÉTODOS ... 64 4.2.1. Sujeitos ... 64 4.2.2. Estímulos ... 64 4.2.3. Procedimentos ... 65 4.3RESULTADOS E DISCUSSÃO... 68 4.4CONCLUSÃO ... 72

5. ANÁLISE QUANTITATIVA DAS CURVAS DE F0 COM DYNAMIC TIME WARPING ... 74 5.1.DEFINIÇÃO DE DTW ... 74 5.2.MÉTODOS ... 77 5.2.1 Corpus ... 77 5.2.2. Procedimentos ... 78 5.3.RESULTADOS E DISCUSSÃO ... 82 5.3.1 Análise global ... 83

(11)

5.4CONCLUSÃO ... 100

6. ANÁLISE QUANTITATIVA/QUALITATIVA COM PENTATRAINER2 ... 102

6.1.DEFINIÇÃO DE PROEMINÊNCIA ... 102

6.2.TESTE DE PERCEPÇÃO -PROEMINÊNCIA ... 104

6.3.MÉTODOS ... 108 6.3.1. Corpus (PENTATrainer) ... 108 6.3.2. Procedimentos ... 108 6.3.2.1. Anotação ... 110 6.3.2.2. Aprendizagem ... 113 6.3.2.3. Síntese ... 114 6.4.RESULTADOS E DISCUSSÃO ... 115

6.4.1. Aprendizagem geral - Espanhol ... 115

6.4.1.1. Aprendizagem por tipo de enunciado – Espanhol ... 120

6.4.2. Aprendizagem geral – PB ... 123

6.4.2.1. Aprendizagem por tipo de enunciado – PB ... 125

6.4.3. Aprendizagem geral – Espanhol/LE ... 130

6.4.3.1. Aprendizagem por tipo de enunciado – Espanhol/LE ... 132

6.4.4. Conclusões sobre a aprendizagem em espanhol, PB e espanhol/LE ... 135

6.4.5. Análise dos parâmetros do Modelo PENTA ... 140

6.4.5.1. Proeminência e fronteira nas Declarativas ... 141

6.4.5.2. Proeminência e fronteira nas Interrogativas Totais ... 150

6.4.5.3. Proeminência e fronteira nas Interrogativas Parciais ... 156

6.4.6 Conclusões sobre a análise dos parâmetros em espanhol, espanhol/LE e PB ... 161

6.4.7 Análise estatística dos parâmetros m, b e λ em espanhol, PB e espanhol/LE ... 162

6.4.7.1 Fronteira Não Terminal – Inclinação (m) ... 163

6.4.7.2 Fronteira Não Terminal - Altura (b) ... 164

6.4.7.3 Fronteira Não Terminal - Força (λ) ... 165

6.4.7.4 Fronteira Terminal – Inclinação (m) ... 168

6.4.7.5 Fronteira Terminal -Altura (b) ... 169

6.4.7.6 Fronteira Terminal - Força (λ) ... 169

6.5CONCLUSÃO ... 173 CONCLUSÃO ... 174 REFERÊNCIAS ... 180 APÊNDICE 1 ... 191 APÊNDICE 2 ... 192 APÊNDICE 3 ... 197 APÊNDICE 4 ... 199

(12)

APÊNDICE 7 ... 202 APÊNDICE 8 ... 203 APÊNDICE 9 ... 206 APÊNDICE 10 ... 209 APÊNDICE 11 ... 215 APÊNDICE 12 ... 221

(13)

INTRODUÇÃO

Geralmente, o sonho quixotesco de quase todo aprendiz de uma língua estrangeira é conseguir que sua pronúncia seja confundida com a de um falante nativo, ou seja, é conseguir se expressar de tal maneira que tanto sua produção segmental como prosódica possam ser confundidas com as produções nativas. Esse aprendiz, porém, quando sai da sala de aula ou sai do seu país e começa a participar em situações reais de conversação com nativos percebe que se chegar a conseguir se fazer entender e se os nativos, por sua vez, pedirem cada vez menos que ele repita palavras ou frases, já terá, pelo menos, derrotado uns dois ou três gigantes cruéis.

Quando se trata de brasileiros aprendendo espanhol como língua estrangeira, a situação não é muito diferente. Porém, talvez por causa de uma falsa crença de que a pronúncia do espanhol é fácil (OLIVÉ, 2004), ela tenha recebido pouca ou nenhuma atenção no ensino como língua estrangeira. Uma evidência dessa deficiência pode ser comprovada pela simples observação de materiais didáticos geralmente utilizados no Brasil para o ensino de espanhol como língua estrangeira (doravante espanhol/LE).

Além disso, embora o ensino de pronúncia do espanhol ainda seja uma asignatura

pendiente no Brasil, quando ele acontece, geralmente se ensina somente a pronúncia dos sons

dessa língua. Olivé (2004) ressalta que esse tipo de método, que apenas ensina a pronunciar os sons da língua estrangeira é muito simplista, pois assume a falsa ideia de que os sons são produzidos isolamente quando sabemos que um som produzido isoladamente é completamente diferente de quando produzido de forma concatenada, já que a fala concatenada está intrinsicamente sujeita à coarticulação e, além disso, nela estão integradas a prosódia em geral e, em particular, a entoação.

Assim, a prosódia e, em particular, a entoação são colocadas em segundo plano e pouco ou quase nada se ensina sobre ela. Assume-se que sua aprendizagem acontecerá naturalmente somente a partir da escuta dos modelos de fala apresentados em sala de aula.

Por isso, o aprendiz brasileiro normalmente acredita que se praticar bastante a pronúncia dos sons do espanhol, então, dominará a pronúncia dessa língua estrangeira como um todo. Somente quando é colocado em situação de imersão começa a perceber o quanto a pronúncia em uma língua estrangeira vai além da produção segmental. Nesse contexto, as dificuldades com a prosódia em geral e, em particular com a entoação, começam a se tornar evidentes e podem, no pior dos casos, afetar a comunicação (o ouvinte espanhol não entender

(14)

que o brasileiro está fazendo uma pergunta, por exemplo), ou podem, em casos menos graves, contribuir para a formação de estereótipos (os brasileiros falam de forma cantada, estão sempre animados e alegres, etc.).

Foram as dificuldades com a entoação do espanhol que tive (e ainda tenho) como aprendiz dessa língua e que também observo em muitos compatriotas que me motivaram a empreender essa grande e valorosa aventura sobre a entoação do espanhol falado pelos brasileiros e, ainda que este trabalho seja apenas de caráter descritivo, acredito que esta descrição e análise detalhadas realizadas sobre a entoação do espanhol/LE poderão contribuir não apenas para a linguística teórica, mas também para o desenvolvimento posterior de métodos de ensino de entoação de espanhol/LE assim como para a formação de professores de espanhol/LE no Brasil.

Meu interesse pela entoação do espanhol/LE surgiu no começo de 2009 quando estava cursando o módulo específico “Aquisição e aprendizagem do componente fônico das línguas” no curso de especialização em Fonética e Fonologia do Espanhol em Madri. Até aquele momento, meu principal interesse tinha sido a aquisição de L1 em sua perspectiva unicamente segmental, mas quando começamos a estudar os aspectos relacionados com a aprendizagem da prosódia e entoação, me encantei com o tema não apenas como pesquisadora, mas também como aprendiz de espanhol. Por isso, já no início de 2009, escrevi meu primeiro trabalho, durante a especialização, sobre a entoação do espanhol falado por brasileiros (doravante espanhol/LE) sob a orientação da professora Eva Estebas Vilaplana1.

Naquele estudo piloto, seguindo os pressupostos teóricos da Fonologia Métrica Autossegmental, analisei a entoação de um corpus pequeno composto apenas de cinco declarativas e cinco interrogativas totais em espanhol/LE de três brasileiras. A análise partiu da observacão do pitch accent inicial e final de cada enunciado e dos seus efeitos perceptivos relacionados com a sua forma e seu alinhamento com relação ao conteúdo segmental. A análise me levou a utilizar a mesma representação abstrata para as declarativas em espanhol como língua materna (doravante espanhol) e espanhol/LE e à representação abstrata distinta nas interrogativas, pois duas das três brasileiras analisadas realizaram contorno final circunflexo (distinto do espanhol).

Os resultados mais interessantes daquele estudo, porém, foram revelados por um teste de percepção realizado com cinco ouvintes espanhóis. No teste, os ouvintes escutaram, primeiramente, três repetições em ordem aleatória dos enunciados em espanhol/LE

(15)

delexicalizados2 e, em seguida, os mesmos enunciados sem modificação. A tarefa foi a mesma para os estímulos delexicalizados e sem modificação, a saber, identificar a modalidade do enunciado entre as seguintes opções: declarativa, interrogativa ou exclamativa.

Como esperado em função do que indiquei acima, as declarativas foram mais bem identificadas que as interrogativas. Apesar disso, 30% das declarativas (fala não modificada) de duas informantes foram incorretamente identificadas como exclamativas. Por isso, uma das perguntas não respondidas naquele momento foi por que houve tal porcentagem de confusão na identificação das declarativas (e apenas nos enunciados não modificados) dado que os pitch

accents subjacentes dos enunciados em espanhol e espanhol/LE eram os mesmos.

Com relação às interrogativas, também como esperávamos, os enunciados da informante cujos contornos eram semelhantes aos do espanhol foram corretamente identificados como interrogativas em 93% (enunciado natural) e 85% (enunciado delexicalizado). Com relação às outras duas informantes que utilizaram contornos em espanhol/LE mais parecidos aos contornos em português brasileiro como língua materna (doravante PB) houve maior variabilidade de respostas. As interrogativas de uma das informantes foram corretamente identificadas apenas com os estímulos delexicalizados, já com a fala sem modificação a escolha entre as três modalidades foi aleatória. Finalmente, as interrogativas da terceira informante obtiveram respostas aleatórias tanto para os enunciados não modificados como para os delexicalizados.

Os resultados daquele estudo levantaram algumas questões que o modelo teórico utilizado naquele momento não foi capaz de responder. Se a forma subjacente da entoação é formada por uma sequência linear de pitch accents, por que enunciados com a mesma sequência de pitch accents foram interpretados de formas tão diferentes pelos ouvintes? Por que os estímulos não modificados geraram maior confusão em comparação com os estímulos delexicalizados?

Esses resultados me fizeram questionar já naquele momento o poder explicativo dos modelos fonológicos que pressupõem categorias fixas quando precisamos analisar fenômenos linguísticos que são caracterizados por grande variabilidade tanto intra como inter-sujeito como é o caso da produção linguística de aprendizes de uma língua estrangeira. Por essa

2_{Com o procedimento de delexicalização, extraímos do sinal acústico de fala a informação segmental relevante}

para seu reconhecimento perceptual. Esse procedimento faz com que, do ponto de vista segmental, o sinal se torne ininteligível, porém sem alterar as informações prosódicas como F0, amplitude e duração. Essa técnica é utilizada quando se deseja controlar a influência do conteúdo segmental nas respostas dos ouvintes com relação à prosódia e, neste caso, a entoação. Existem diversos procedimentos de delexicalização. No estudo, utilizei o procedimento disponível no programa Praat, conhecido como Hum.

(16)

razão, no ano seguinte submeti o projeto sobre o mesmo tema para realizar o doutorado na Unicamp, mas desta vez na área da fonética experimental.

Assim, de maneira geral, esta pesquisa de doutorado teve como objetivo responder duas perguntas: 1) Quais são as características da entoação de declarativas, interrogativas totais e parciais do espanhol falado pelos brasileiros? 2) A entoação do espanhol/LE se parece mais com a entoação do espanhol, do PB, ou apresenta características próprias?

No início da pesquisa, pensamos em analisar produções de brasileiros que aprendem ou aprenderam espanhol no Brasil, porém, do ponto de vista experimental, nos deparamos com uma grande dificuldade. Como formar um grupo homogêneo com relação à variável ‘variante linguística do espanhol aprendida’? Sabemos que o espanhol é em si uma língua internacional3 e que, além disso, o Brasil apresenta características peculiares com relação ao ensino dessa língua.

Fernández (2010) aponta duas dessas particularidades. A primeira delas é que o Brasil está rodeado de países que falam espanhol e que são usuários de três grandes dialetos: o caribenho, o andino e o austral. A segunda, é que há uma grande população hispano falante que reside no Brasil que, provavelmente, está em torno de um milhão de habitantes e quase metade dessa população provém de países do Mercosul.

Assim, o espanhol ensinado no Brasil é determinado principalmente pela nacionalidade do professor, pela formação que obteve na universidade, pelos materiais de que dispõe, ou ainda, pelas necessidades dos estudantes. Ainda que boa parte dos materais disponíveis no Brasil ainda sejam criados e publicados na Espanha, está clara a multiplicidade de variedades às quais o estudante brasileiro normalmente está exposto.

Por tudo isso, para controlar a variável ‘variante linguística da língua estrangeira aprendida’ decidimos gravar um grupo de brasileiros que morasse em um país hispano falante, ou seja, em situação de imersão. Quase que imediatamente, decidimos escolher a Espanha por diversas razões. Conhecíamos alguns pesquisadores e tínhamos alguns amigos que moravam lá, era com essa variedade do espanhol que tínhamos maior contato e, além disso, pela representatividade da população brasileira neste país hispano4.

33_{Fernández F. M. (2007) classifica a língua como internacional, porque o espanhol é língua oficial e, em alguns}

casos, co-oficial em muitos países e territórios: Argentina, Bolívia, Chile, Colômbia, Costa Rica, Cuba, Espanha, Honduras, México, Nicarágua, Panamá, Paraguai, Peru, Porto Rico, República Dominicana, Uruguai e Venezuela, em assentamentos do Saara. Além disso, é língua oficial na ONU e em outras organizações internacionais como a União Europeia, a Organização dos Estados Americanos e Mercosul. É uma das três principais línguas de comunicação internacional.

4_{A Espanha é o terceiro país do mundo com maior número de brasileiros (Conforme CENSO de 2012:}

http://www.brasileirosnomundo.itamaraty.gov.br/noticias/censo-ibge-estima-brasileiros-no-exterior-em-cerca-de-500-mil). Além disso, segundo dados do INA (Instituto Nacional de Estadística) publicado em janeiro de 2013,

(17)

Definido o perfil dos sujeitos, o passo seguinte foi determinar o tipo de corpus a ser gravado. Decidimos por um corpus gravado em três estilos: leitura de frases isoladas, leitura das mesmas frases em um texto e narração da história lida. Dessa forma, o estilo de produção foi também uma das variáveis controladas do experimento. Além dessa variável, controlamos a modalidade, a extensão dos enunciados analisados e a tonicidade da última palavra do enunciado.

Para os informantes que participaram do experimento, pedimos que preenchessem um questionário no qual perguntávamos informações relacionadas com a experiência com a língua estrangeira, além de perguntas relacionadas com a motivação para aprender espanhol. Com esse procedimento desejávamos agrupá-los em diferentes níveis de proficiência. As respostas dos participantes comparadas com a escuta de alguns trechos de suas gravações foram suficientes para verificarmos que este procedimento não era o mais apropriado. Por isso, realizamos um experimento de percepção com ouvintes espanhóis para avaliar o grau de sotaque estrangeiro dos informantes da pesquisa e, assim, criar uma primeira classificação com relação ao grau de proficiência na língua estrangeira. Esse teste com os dados em espanhol e espanhol/LE serviu também para verificarmos que é possível identificar o sotaque estrangeiro somente a partir de informação prosódica.

Além desse experimento de percepção, realizamos também uma análise quantitativa global das curvas de F0 com o algoritmo DTW (Dynamic Time Warpping). Essa técnica serve para comparar curvas com extensões diferentes e produzidas por informantes distintos. Ela fornece uma medida de distância que, de forma global, indica o grau de semelhança entre duas curvas comparadas, o que nos ajudou a agrupar os falantes de espanhol/LE a partir das medidas de distância com relação às curvas do PB e espanhol.

Finalmente, a escolha do modelo teórico mais apropriado para analisar os dados foi nosso próximo desafio. Logo no início do doutorado, decidimos trabalhar com o modelo de Fujisaki e Hirose (1984), porque apresenta uma qualidade perceptiva na ressíntese que praticamente a indistingue da natural e, além disso, permite manipulações diretamente nos parâmetros do modelo. No entanto, do ponto de vista da geração, a descoberta de regularidades em termos de amplitude e alinhamento dos comandos do modelo com o material linguístico é incerta tendo em vista o trabalho com uma língua estrangeira.

Em seguida, decidimos transcrever e analisar os contornos de F0 seguindo o modelo DaTo proposto por Lucente (2012). Depois de testar o modelo com os dados de três

em 2012, contava com uma população de 77.946 habitantes perdendo apenas para os Estados Unidos e Portugal em número de imigrantes brasileiros.

(18)

informantes, verificamos que, apesar de ser um sistema de transcrição bastante simplificado de contornos dinâmicos, mostrava-se muito mais apropriado para transcrição dos dados do PB. Seria preciso fazer muitas modificações no sistema de transcrição para que pudéssemos adaptá-lo aos dados em espanhol e espanhol/LE.

Por tudo isso, decidimos finalmente utilizar o modelo PENTA, pois poderíamos adotar a mesma anotação para as mesmas funções comunicativas em espanhol, espanhol/LE e PB. Nesse estudo, optamos por analisar três funções comunicativas básicas que são transmitidas pela entoação: a função de proeminência e fronteira prosódica e modalidade. Para validar nossa transcrição prosódica com relação à função de proeminência, realizamos um teste de percepção com 260 ouvintes espanhóis e 195 ouvintes brasileiros. O teste consistiu em pedir a esses ouvintes que identificassem as palavras que eles considerassem proeminentes nos enunciados produzidos pelos informantes brasileiros e espanhóis que participaram do experimento de produção.

A análise com o modelo PENTA é de caráter quantitativo e qualitativo e nos ajudou a verificar se os parâmetros que subjazem aos contornos de F0 em espanhol/LE são os mesmos5 do espanhol ou do PB, ou ainda, se apresentam características próprias. Essa análise nos ajudou, portanto, a responder às duas perguntas que motivaram esta pesquisa.

Esta tese está organizada em sete capítulos. No primeiro, definimos o termo entoação, fazemos um breve histórico dos estudos experimentais sobre entoação, discutimos três modelos mais comumente utilizados para análise linguística e concluímos o capítulo definindo e detalhando os pressupostos teóricos do modelo PENTA utilizado para análise dos dados desta tese. No segundo, fazemos uma revisão da literatura a respeito dos trabalhos que trataram da entoação de declarativas e interrogativas em espanhol, PB e espanhol/LE. Nesse capítulo, discutimos também as lacunas dos estudos anteriores que trataram da entoação do espanhol/LE e da necessidade de se desenvolver pesquisas de caráter fonético experimental nesta área. No terceiro capítulo, apresentamos a metodologia de coleta dos dados e discutimos alguns fatores que determinam a pronúncia em língua estrangeira.

No quarto capítulo, reportamos os resultados de um experimento de percepção cujo objetivo foi avaliar o grau de sotaque estrangeiro dos informantes analisados e também verificar em que medida os ouvintes espanhóis eram capazes de identificar o sotaque estrangeiro apenas com informação prosódica. Os resultados do estudo nos permitiram que agrupássemos os informantes brasileiros em oito subgrupos distintos segundo o grau de sotaque estrangeiro que

(19)

apresentavam. Além disso, foi evidenciado que realmente é possível identificar o sotaque estrangeiro somente a partir de informação prosódica presente em estímulos delexicalizados.

No quinto capítulo, analisamos de forma global as curvas de F0 em todo o corpus com o algoritmo Dynamic time Warping (DTW). Essa comparação nos ofereceu um medida objetiva que nos permitiu verificar quais curvas em espanhol/LE se parecem mais com as curvas em espanhol ou PB.

No sexto capítulo, realizamos a análise com o modelo PENTA e seu algoritmo qTA. Este é o capítulo mais extenso desta tese e por essa razão está subdivido em três seções. Na primeira seção, discutimos os valores de correlação e erro que avaliaram a aprendizagem realizada pelo algoritmo de forma global e, em seguida, por modalidade de enunciado. Os resultados indicaram melhor aprendizagem para as declarativas e interrogativas totais em espanhol e para as declarativas e interrogativas parciais em espanhol/LE e PB. Além disso, o estudo demonstrou a eficiência do modelo PENTA em capturar a dinâmica geral dos contornos de F0 para as três funções comunicativas analisadas nesta tese. Na segunda seção, discutimos os parâmetros do modelo, inferidos por função comunicativa analisada e na terceira seção realizamos as análises estatísticas dos parâmetros. Os resultados obtidos com este estudo evidenciaram maior proximidade da entoação do espanhol/LE ao PB com relação às interrogativas totais e parciais e maior proximidade ao espanhol com relação à entoação das declarativas.

Finalmente, na conclusão, os resultados dos três estudos foram resumidos e interpretados a partir dos objetivos apresentados aqui na introdução. Dessa forma, pudemos traçar uma caracterização completa da entoação das declarativas e interrogativas totais e parciais em espanhol/LE.

(20)

1. ESTUDOS SOBRE ENTOAÇÃO

Neste capítulo, definiremos o termo entoação, apresentaremos um breve histórico sobre os estudos que tratam da entoação em diferentes línguas e, finalmente, discutiremos alguns dos principais modelos teóricos que existem atualmente. Concluímos o capítulo definindo o modelo teórico adotado neste trabalho.

1.1 Definindo o termo entoação

Seguindo Botinis et al. (2001) definimos entoação como a combinação de traços tonais que estão dentro de unidades estruturais maiores6_{e que estão associados com o parâmetro} acústico da frequência fundamental ou F0 e suas variações no processo de fala.

A F0 é um parâmetro acústico correlato da frequência laríngea e definido pelo máximo divisor comum das frequências dos harmônicos que compõem a parte periódica do sinal de fala e é medido em Hertz (Hz). A produção da entoação do ponto de vista articulatório é dada pelo número de vezes por segundo que as pregas vocais completam um ciclo de vibração (abertura e fechamento). Esse movimento é controlado tanto pelos músculos da laringe que determinam a tensão das pregas vocais como também por forças aerodinâmicas do sistema respiratório supralaríngeo. A percepção da entoação é definida pela sucessão de acentos tonais que são percebidos ao longo da enunciação.

Dessa forma, F0 e pitch são definidos de formas diferentes. Aquela é definida do ponto de vista acústico e este do ponto de vista perceptivo. O autor chama atenção para o fato de que na literatura, muitas vezes, esses dois termos são intercambiáveis. Nesta tese, porém, tentaremos, sempre que possível7, manter a distinção entre eles.

Assim como os termos F0 e pitch, os termos entoação e prosódia também são comumente usados como sinônimos na literatura. Nesta tese, no entanto, o termo entoação está limitado unicamente aos traços de F0.

Além disso, as análises se concentrarão em um conjunto de funções exclusivamente linguísticas da entoação. Sendo assim, não analisaremos as funções

6_{Seguindo a definição de Couper-Kuhlen (1986), a entoação pertence à prosódia e, portanto, estaria no eixo}

sintagmático. Por essa razão, essas unidades estruturais podem partir do segmento ou da sílaba e se estender para a palavra, enunciados e até por porções maiores que o enunciado.

7_{No modelo PENTA utilizado como referência para análise dos dados desta tese a distinção não está muito clara}

(21)

paralinguísticas da entoação, como por exemplo, funções expressivas de surpresa, ansiedade, raiva, etc. Também não trataremos das funções extralinguísticas da entoação que tratam das características pessoais, índices de sexo, idade ou status sociocultural.

1.2. Breve histórico dos estudos de entoação

Os estudos em fonética experimental, embora tenham surgido no século XIX com os trabalhos de Wheatstone (1837) e Helmoholtz (1879), somente se desenvolveram plenamente a partir da invenção do espectrógrafo nos anos quarenta do século XX (POTTER, 1945; KOENIG et al., 1946). Já os estudos de prosódia e, em particular, de entoação, somente começaram a se desenvolver no final dos anos sessenta também do século XX. Até o início dos anos sessenta havia poucos trabalhos sobre entoação e Dennis Fry, em sua fala sobre “The

present-day tasks of the phonetic sciences” no sexto ICPhS8, alerta a comunidade científica sobre essa questão e também sobre a necessidade imediata de se desenvolverem trabalhos neste campo:

We do not have enough direct measurements and observations in the area of prosodic features and a good proportion of the data we have are not particularly well organized. To take as an example tone and intonation and their relation to fundamental frequency, we need a more systematic approach to observations in this area and in particular a much sharper awareness of the different functions of affective and grammatical intonation9.

Rossi (2000) chama a atenção para o efeito positivo do alerta de Fry no sexto ICPhS, em 1967 em Praga, pois a partir daí houve um aumento considerável do número de publicações sobre o tema. Ressalta que no ICPhS seguinte, em 1971, o número de publicações saltou de sete para quarenta e dois. A partir de então, o número de publicações e estudos têm aumentado exponencialmente. Podemos, assim, considerar o final dos anos sessenta como o marco inicial dos estudos experimentais de prosódia e, em particular, de entoação.

Fry é um autor importante nos estudos de fonética, não apenas por ter chamado a atenção da comunidade científica para a necessidade de se estudar os aspectos prosódicos da fala, mas também por defender a utilização do método científico aplicado às teorias linguísticas. Fry (1973) examina duas condições que a Linguística deveria atender para ser considerada uma

8_{International Congress of Phonetic Sciences.}

9_{Não temos medidas e observações diretas suficientes na área dos traços prosódicos e uma boa quantidade de}

dados que temos não estão bem organizados. Se considerarmos o exemplo do tom e da entoação e sua relação com a frequência fundamental, precisamos de abordagens mais sistemáticas para as observações nesta área e, em particular, de uma consciência muito mais precisa das diferentes funções da entoação afetiva e gramatical. (Tradução nossa)

(22)

ciência. A primeira delas é a de que deveria apresentar um objeto adequado para estudo. A segunda que deveria adotar o método científico.

O autor observa que os linguistas da época concordavam a respeito da primeira condição, que diz respeito ao objeto de estudo. O principal problema das teorias linguísticas da época, segundo Fry, era que o feedback da observação para a teoria era muito fraco. Em uma ciência saudável, o fator mais importante é justamente o processo de referência contínua da teoria para observação e da observação para a teoria.

A maior evidência dessa falta de retroalimentação nas teorias linguísticas da época era que não havia nenhuma teoria linguística que tivesse sofrido grandes modificações motivadas pelos resultados da observação do comportamento linguístico. A tendência geral das teorias era começar as operações com uma pequena quantidade de observações fonéticas para construir um sistema de categorias a partir de tais observações e, depois disso, elaborar novas teorias, para modificá-las ou descartá-las por causa das inter-relações dentro da própria teoria ao invés de ser por causa das relações entre a teoria e as observações do comportamento.

Como exemplo dessa tendência, Fry menciona as discussões muito recorrentes feitas pelos linguistas a respeito, por exemplo, da importância dos dados fonéticos. Assim, Garvin (1953) se pergunta se os dados fonéticos eram linguísticos por natureza já que eram usados nas descobertas dos padrões fonêmicos ou se a análise fonêmica deveria estar baseada somente na sua distribuição, considerando-se, assim, os dados fonéticos como mera substância irrelevante. O problema que aponta Fry é que toda distribuição é sempre uma distribuição de algo, neste caso, de letras em uma transcrição fonêmica e a escolha dessas letras está baseada na observação dos dados fonéticos e, por isso, uma análise fonêmica não tem nenhum sentido independente do dado fonético.

Segundo o autor, esse desejo de alguns linguistas de eliminar, já nos estágios iniciais, o material de estudo científico estava relacionado com a própria natureza do objeto de estudo: o comportamento linguístico. Esse objeto estava em completo desacordo com a imagem que aqueles estudiosos tinham formado a respeito do trabalho científico e de seus resultados. Para eles, se o sistema analítico fosse autoconsistente e tivesse rigor lógico, então, necessariamente, já apresentaria rigor científico. O que segundo Fry não passava de uma ilusão, dado que os pré-requisitos de uma ciência devem ser a precisão combinada com a ingenuidade na observação10 e rigor extremo na inferência a partir dos dados observados.

10_{Para Fleck (2008), no entanto, não existe ingenuidade na observação, uma vez que ela depende sempre do}

(23)

Para demonstrar a necessidade de se trabalhar com o método científico nos estudos sobre o comportamento linguístico, o autor apresenta os resultados de alguns experimentos que utilizaram o método e que trataram de temas como: a redundância da linguagem, o papel fundamental do ouvinte, o problema da similaridade fonética e a questão do acento. Questões fundamentais e que foram bem explicadas justamente por causa da utilização do método científico, mas que as teorias linguísticas da época não conseguiram explicar, ou sequer consideraram. Por isso, termina seu artigo convidando os linguistas a adotarem o método experimental para que as teorias linguísticas pudessem efetivamente explicar o comportamento linguístico.

A publicação do artigo de Fry parece que já refletia uma mudança de paradigma dos pesquisadores da época, pois, apenas citando os trabalhos sobre entoação, Rossi (2000) aponta os artigos de Denes (1959), Uldall (1960), Delattre (1962), Lieberman e Michaels (1962), Isačenko e Schädlich (1970), Mettas (1963) e Öhman (1967) como as primeiras pesquisas sobre entoação seguindo o método científico defendido por Fry.

Denes (1959), por exemplo, analisou as mudanças na frequência fundamental, intensidade, espectro e duração associados com seis tons distintos. Além disso, investigou a relação entre as variáveis acústicas e entoação por meio de síntese de fala. Para isso, gerou sílabas com o mesmo espectro e intensidade nas quais as frequências fundamentais eram controladas pelas variações de intensidade de sílabas naturais em seis entoações diferentes. O teste confirmou que as sílabas sintetizadas transmitiam algumas das informações sobre a entoação das sílabas produzidas por humanos.

Uldall (1960) realizou uma série de experimentos nos quais utilizou o diferencial semântico de Osgood11 para medir as atitudes dos ouvintes para com uma variedade de padrões

entoacionais. Dezesseis contornos de F0 foram sintetizados em gravações de quatro enunciados e foi pedido aos ouvintes que graduassem os padrões em uma escala de 10 pontos do tipo DESINTERESSADO/INTERESSADO, EDUCADO/RUDE, etc. A partir desses resultados foi possível traçar algumas conclusões sobre a efetividade relativa das escalas escolhidas e sobre os traços gerais dos padrões entoacionais.

Delattre (1962) analisou cinco minutos de fala espontânea de duas entrevistas, uma em espanhol e outra em inglês americano para determinar quais distinções de significado eram transmitidas pela entoação, qual o grau de extensão de tais distinções e de que maneira a entoação era materializada através dessas distinções. Para isso, analisou os espectrogramas de

(24)

banda larga e estreita dos contornos de declarativas não enfáticas em suas formas contrastivas básicas, ou seja, na expressão de continuidade e na expressão de finalidade. O autor verificou que, nos dados do informante espanhol, a continuidade era expressa por contorno ascendente e que a impressão subjetiva que ela causava era de uma subida enquanto que nos dados em inglês americano o contorno predominante era descendente com sensação subjetiva de descida. Esse resultado foi confirmado estatisticamente. Já a terminalidade foi identificada de F0 descendente nas duas línguas.

Lieberman e Michaels (1962) derivaram eletronicamente pulsos de F0 a partir dos enunciados produzidos por três homens falantes de inglês americano que leram oito enunciados expressando conteúdos emocionais diferentes. Para isso, utilizaram um sintetizador de tipo POVO12 de vogal fixa que foi excitado para realizar esses pulsos de F0. Finalmente, apresentaram tais gravações não modificadas e também as sintetizadas a um grupo de ouvintes leigos que categorizaram o modo emocional em um teste de escolha forçada.

Os resultados mostraram que em fala não processada houve 85% de acerto. Já em fala sintetizada apenas com informação de F0 houve 44% de acerto, com informação de pitch e amplitude, 47%. Já com a F0 suavizada e tempo constante de 40 ms a identificação caiu para apenas 38% e com tempo constante de 100 ms caiu ainda mais para 25%. Finalmente, com valor monotônico de F0 mais modulação de amplitude houve apenas 14% de acerto. As principais implicações dos resultados obtidos foram de que a frequência fundamental não é capaz de transmitir toda a informação emocional e que a amplitude tem um papel pouco importante na transmissão das emoções.

Isačenko e Schädlich (1963) desenvolveram um método experimental para analisar a entoação de declarativas, interrogativas totais, contrastivas e continuativas de enunciados em alemão. Para isso, a partir de enunciados reais, sintetizaram com um vocoder versões monotônicas desses enunciados. Em seguida, manipularam o sinal sintetizado manualmente para que contivesse a alternância de apenas dois níveis tonais. Dessa maneira, obtiveram uma representação esquemática bastante simplificada dos eventos observados. Finalmente, apresentaram todas as combinações possíveis desses dois níveis produzidas para um enunciado de quatro sílabas e pediram a um grupo de ouvintes sem treinamento em fonética que avaliassem se os enunciados eram “aceitáveis” ou “não aceitáveis”. Alguns desses padrões foram aceitos pelos ouvintes, ou seja, foram considerados, de alguma forma, como padrões conhecidos, enquanto outros foram rejeitados por não serem naturais. Dessa maneira, foi

(25)

possível testar diversas assunções com relação aos parâmetros acústicos da entoação em alemão.

Mettas (1963) manipulou um enunciado interrogativo sintetizado em francês. Então, realizou modificações progressivas na curva de F0 das últimas sílabas. Em seguida, utilizou os enunciados modificados como estímulos para um teste de percepção com ouvintes franceses. A autora verificou que o grau da diferença entre a curva modificada com relação à curva sem modificação determinava a percepção dos ouvintes. Assim, o enunciado foi interpretado como desde ligeiramente interrogativo passando sucessivamente pelas nuanças de pergunta simples, dúvida, espanto e, de forma inversa, cada vez mais enunciativo e, no limite, artificial. Esse estudo é interessante, pois demonstrou que aspectos paralinguísticos da entoação interagiam com os aspectos linguísticos dependendo do grau de manipulação realizada.

Öhman (1967) desenvolveu um modelo quantitativo intitulado “modelo de laringe” para a entoação da palavra e do enunciado e apresentou os resultados das tentativas de exploração e ao mesmo tempo de restrição do modelo a partir da comparação com dados empíricos. Nesse artigo, o autor se concentrou nos padrões de controle do modelo para os tons de palavras escandinavas e, finalmente, traçou algumas considerações sobre as línguas tonais em geral. O autor deixa claro logo no início do artigo que as discussões desenvolvidas no texto estão longe de ser definitivas e que as hipóteses levantadas provavelmente teriam que ser modificadas a partir de novos dados.

Os trabalhos anteriores, de acordo com Rossi (2000), além de representarem o marco inicial na pesquisa experimental da entoação, também tiveram um papel importante para o desenvolvimento das tecnologias de fala e, em especial, para a síntese de fala, pois possibilitaram melhor conhecimento da prosódia da fala que temos hoje.

1.3. Principais modelos teóricos atuais

Diferentemente do final dos anos sessenta, atualmente existem muitos modelos teóricos da entoação. Alguns deles utilizam técnicas de análise por síntese,13 que consiste em tentar simular fenômenos prosódicos distintos através do modelamento da F0. A técnica de análise por síntese é usada, assim, como uma forma de testar e validar a própria teoria proposta. Discutiremos a seguir três modelos de entoação bastante conhecidos e aplicados a diversas línguas: a Teoria Métrica Autossegmental (MA), o modelo de Fujisaki e o modelo PENTA.

13_{A técnica de síntese é bastante utilizada em sistemas de conversão de texto em fala (Text-to-Speech System).}

Tais sistemas têm como objetivo a transformação automática de textos escritos em sua realização sonora correspondente.

(26)

1.3.1 Teoria Métrica Autossegmental (MA)

A teoria métrica autossegmental (MA) inicialmente foi utilizada para analisar a entoação do inglês (PIERREHUMBERT, 1980) e a partir de então tem sido revisada e aplicada a diferentes línguas. Atualmente, é um dos modelos de análise da entoação mais utilizado entre os linguistas. Segundo Hualde (2003), o objetivo central da teoria é encontrar os elementos contrastivos do sistema entoacional de uma dada língua.

Para a teoria, a entoação se refere ao uso de traços fonéticos suprassegmentais que transmitem significados pós-lexicais14 ou pragmáticos de nível de enunciado e são estruturados linguisticamente15. O coração da teoria está na análise de duas funções básicas da entoação: a proeminência e a fronteira. Para analisá-las, são definidos os componentes básicos do modelo, os pitch accents, que são os eventos mais importantes da cadeia tonal e estão relacionados com sílabas proeminentes na cadeia segmental, e os tons de fronteira que estão associados com os limites da melodia entoacional nas fronteiras prosódicas (LADD, 2008).

A teoria assume que a estrutura tonal é sequencial e consiste de uma sucessão de eventos associados com certos pontos na cadeia segmental. Entre esses eventos o contorno de

pitch não é especificado fonologicamente e pode ser descrito simplesmente como a transição

de um evento para o seguinte. A figura 1 apresenta um exemplo de transcrição prosódica16 conhecida como ToBI (Tones and Break Indices) que segue os pressupostos da teoria:

14_{A entoação transmite significados que se aplicam a sintagmas, enunciados inteiros, tais como modalidades de}

enunciado ou atos de fala, foco e informação sobre a estrutura do enunciado.

15_{Exemplos de representação dos pitch accents (H*, L*, L*+H, L+H*, etc) em que o asterisco indica que o tom}

está associado com a sílaba tônica da palavra e tons de fronteira (H%, L%).

(27)

Figura 1: De cima para baixo: Forma de onda, espectrograma e curva de F0 (azul) e TextGrid com segmentação em quatro camadas (sílaba, tons, fronteiras, miscelânea) do enunciado ¿Dónde están mis

libros? Pronunciado pelo informante espanhol Dan.

O sistema de transcrição ToBI distingue quatro níveis. No primeiro, o enunciado é transcrito em palavras ou em sílabas fonológicas. Na figura 1, adotamos a transcrição em sílabas. No segundo nível é feita a transcrição tonal. Nela, são transcritos os tons associados com as sílabas acentuadas e com os tons de fronteira. Nessa camada, só devem receber acento tonal as palavras proemienentes do enunciado. Na terceira camada, são marcadas a presença ou ausência de domínios prosódicos17 e, finalmente, a quarta camada é utilizada para indicar fenômenos paralinguísticos.

Um dos maiores problemas da MA, segundo Xu (2005), está no fato de não existir uma distinção clara entre o que seriam os componentes funcionais e seus atributos articulatórios. A divisão mais recorrente é feita entre as unidades fonológicas, como por exemplo, os pitch accents, phrase accents e boundary tones e sua implementação fonética. Dessa forma, a definição de tais unidades fonológicas é feita a partir de suas formas (altura, forma, localização, condição de ocorrência). Os pitch accents são especificados como H (alto) e L (baixo) e suas diferentes combinações e há uma gramática que especifica a ocorrência e transformação dessas unidades fonológicas que estão apenas eventualmente relacionadas com suas funções comunicativas.

O principal problema é que a relação entre forma e função está separada da própria definição dos accents e, portanto, não é tratada como parte da essência do que seria a entoação. A teoria assume a priori que existe uma gramática, mas não explicita como tais unidades fonológicas estariam ligadas às funções comunicativas.

Além disso, Xu (2005) inclui a MA no mesmo grupo de modelos que fazem referência direta de F0 em contraposição aos modelos que são orientados articulatoriamente. Já que o modelo tenta capturar as formas de superfície diretamente e mapeá-las para obter as funções comunicativas ou as categorias fonológicas. Os parâmetros desse modelo geralmente não fazem assunções a respeito da articulação. A assunção básica que está implícita neles é a de que os principais detalhes de F0 são deliberadamente produzidos para satisfazer as especificações linguísticas de uma dada língua. No segundo grupo, estão os modelos orientados articulatoriamente. Nesse grupo, estão o modelo de Fujisaki e o modelo PENTA que explicaremos na seção seguinte.

17_{Na separação prosódica, é atribuído um número à força da fronteira. Os casos de redução silábica são transcritos}

(28)

1.3.2. Modelo de Fujisaki

O modelo quantitativo da entoação proposto por Fujisaki e Hirose (1984) é bastante inspirado no modelo proposto por Öhman (1967). É resultado de uma implementação matemática da entoação e tem por objetivo modelar o processo de geração de F0. Para isso, tenta encontrar uma explicação para as propriedades tanto físicas quanto fisiológicas que subjazem ao contorno de F0. O contorno de F0 é tratado como uma superposição linear no domínio logarítmico de componentes globais Phrase e componentes locais Accent. Esses componentes são o resultado de dois tipos de função de entrada: os comandos de sintagma (phrase command) e os comandos de acento (accent command).

Segundo Mixdorff (2002), a principal vantagem do modelo de Fujisaki é o fato de que oferece uma interpretação fisiológica que conecta os movimentos de F0 com a dinâmica da laringe. Outro aspecto importante do modelo é que representa a entoação de forma hierárquica, ou seja, a partir de níveis de acento e de sintagma e, dessa maneira, considera o fato de que existem domínios prosódicos de diferentes extensões.

O resultado final da implementação do modelo é a síntese de um contorno de F0 que se aproxima o tanto quanto possível do contorno original como pode ser observado na Figura 2:

Figura 2: De cima para baixo: 1º quadro: Forma de onda; 2º quadro: contorno de F0 original (pontilhado rosa), contorno do modelo Fujisaki linha azul contínua, componente do sintagma do contorno no modelo de Fujisaki (linha laranja) e frequência de base (linha vermelha) e transcrição; 3º

quadro: camada dos comandos de acento (azul) e comandos de sintagma (laranja); parte inferior: valores numéricos dos comandos de sintagma e de acento selecionados. Enunciado ¿Amigo Sancho,

(29)

O contorno sintetizado é bem próximo ao original, porém, como aponta Barbosa (2016), um dos problemas do modelo de Fujisaki é que a geração de novos contornos de F0 depende de se encontrarem regras específicas para a relação entre as posições dos comandos de sintagma e os comandos de acento com o material linguístico (um enunciado específico) para, dessa maneira, obter o traço melódico apropriado para aquele enunciado. A questão é que a localização dos comandos obtidos pela análise por síntese durante a fase de aprendizagem do modelo em poucos casos coincide ou se relaciona com as fronteiras de um domínio linguístico particular. (MIXDORFF; BARBOSA, 2012). A razão para que isso ocorra, segundo Barbosa, se dá porque os comandos de sintagma e de acento são encontrados automaticamente a partir da transformada logarítmica dos contornos de F0 e, assim, não há qualquer compromisso com domínios linguísticos específicos.

Dessa forma, a fim de superar os dois principais problemas presentes nos modelos anteriores, ou seja, utilizar um modelo teórico que seja capaz de codificar as funções comunicativas diretamente vinculadas ao modelo e que também tenha motivação articulatória, decidimos utilizar o modelo PENTA proposto por Xu (2001, 2005) para analisar os dados nesta tese. Na seção seguinte, explicaremos em detalhes os pressupostos teóricos do modelo.

1.3.3. Modelo PENTA (Parallel Encoding and Target Approximation Model)

Segundo Xu e Wang (2001), para que possamos entender as manifestações acústicas do sinal de fala é preciso, primeiramente, que façamos uma distinção entre o que são unidades funcionais subjacentes e suas correspondentes realizações de superfície. Essa proposta já é bastante utilizada na análise segmental, porém a novidade é que a mesma distinção possa ser estendida também para os elementos suprassegmentais como o tom e a entoação.

No nível segmental, Lindblom (1963) e Steven e House (1963) demonstraram que as restrições articulatórias determinam a variação de consoantes e vogais entre suas formas subjacentes e suas correspondentes formas de superfície.

Lindblom (1963), por exemplo, analisou a frequência dos três primeiros formantes de oito vogais em sueco em três ambientes consonantais distintos com variação das condições temporais. Utilizou uma função exponencial para descrever a extensão de quais frequências dos formantes nas vogais alcançava seus valores alvo em função da duração da vogal e verificou que um alvo é especificado pelos valores assintóticos das frequências dos dois primeiros formantes da vogal e que esse alvo é independente tanto do contexto quanto da duração segmental, ou seja, é um atributo invariante da vogal.

(30)

Dessa maneira, segundo o autor, embora um fonema vocálico possa ser realizado de forma mais ou menos reduzida em um determinado contexto, a “intenção” do falante que subjaz à pronúncia da vogal continua sendo a mesma, independente do contexto. Assim, dado que a velocidade de movimento dos articuladores é limitada, a extensão de quais articuladores vão alcançar suas posições alvo vai depender do tempo relativo dos sinais. Dessa forma, se estão afastados no tempo, a resposta pode ser estacionária em alvos individuais. Se, porém, ocorrerem em sucessão temporal muito próxima, o sistema deve responder a diversos sinais simultaneamente e o resultado será a coarticulação.

Por isso, os autores partem do pressuposto de que o mesmo fenômeno ocorre também com os aspectos suprassegmentais relacionados com o tom, o pitch accent ou a entoação, ou seja, fenômenos realizados principalmente como contornos de F0. Sendo assim, as variações dos contornos de F0 na superfície seriam o resultado não apenas de níveis de pitch subjacentes, mas também de restrições articulatórias que determinariam como essas unidades poderiam ser implementadas.

Para demonstrar que existe uma relação direta entre os padrões de F0 encontrados nas línguas e as restrições articulatórias, os autores mencionam fenômenos como o F0 intrínseco de vogais, a perturbação de F0 no início de consoantes ou a declinação de F0, todos atribuídos a restrições articulatórias (LEHISTE; PETERSON, 1961). Em línguas tonais como o mandarim (XU, 1994, 1997, 1999) também foram encontrados padrões de variações de F0 que sugerem uma relação direta entre restrições articulatórias e mudanças na forma e no alinhamento de F0.

1.3.3.1 Estrutura do modelo TA (Target Approximation) Model

Como dito anteriormente, os contornos de F0 que observamos não são unidades linguísticas em si, mas realizações de superfície de unidades que têm função linguística como, por exemplo, o tom ou o pitch accent. Assim, os contornos de F0 observados seriam como os fones no nível segmental, já que ambos são realizações de superfície de unidades abstratas subjacentes operáveis articulatoriamente. Já os alvos de pitch seriam como os fonemas no nível segmental.

Os alvos de pitch18 são, então, definidos como as menores unidades operáveis

articulatoriamente associadas com níveis de pitch que têm função linguística como, por

18_{O termo “alvo de pitch” não significa o mesmo que o termo pitch. O termo pitch está relacionado com a sensação}

de grave e agudo que percebemos pelas mudanças da frequência fundamental (F0). O termo “alvos de pitch” proposto por Xu é especificado matematicamente, ou seja, é uma definição numérica. Não é equivalente nem a

(31)

exemplo, os tons ou os pitch accents. Essa associação, porém, nem sempre é de um para um, ou seja, nem sempre um alvo de pitch está associado a um tom ou a um pitch accent, é possível que mais de um alvo de pitch corresponda a um tom ou a um pitch accent.

Há dois tipos de alvos de pitch: os dinâmicos que podem ser especificados como [ascendente] ou [descendente] e os estáticos que podem ser especificados como [alto], [médio] ou [baixo]. Na figura 3, observamos a ilustração esquemática desses dois alvos de pitch hipotéticos:

Figura 3: Ilustração esquemática dos alvos de pitch (linhas pontilhadas) e suas realizações de superfície (linha em negrito contínua). As três linhas verticais representam as fronteiras de duas

unidades portadoras de alvos de pitch consecutivas (XU; WANG, 2001).

Na ilustração acima, são representados dois alvos de pitch subjacentes. No quadro à esquerda, o alvo de pitch dinâmico [ascendente] e no quadro à direita o alvo de pitch estático [baixo]. Por meio das regras de implementação esses dois alvos de pitch são transformados em um contorno de F0 concreto (linha em negrito contínua).

As regras de implementação são o processo pelo qual um alvo de pitch é implementado. Primeiramente, esse alvo de pitch deve estar associado a uma unidade segmental que os autores chamam de hospedeiro. Assumem que esse hospedeiro deve ser especificado por cada língua19. Para o mandarim, por exemplo, verificaram que o hospedeiro dos alvos tonais é a sílaba. Já Barbosa et al. (2011) e Barbosa (2016) verificaram que o hospedeiro para a implementação de pitch accent em português brasileiro e português europeu é a palavra fonológica.

F0, que se refere ao número de vezes que as pregas vocais vibram em um segundo, nem ao pitch, que é uma sensação.

19_{Em seus trabalhos posteriores Xu passa a defender que o hospedeiro é necessariamente a sílaba em todas as}

(32)

O hospedeiro é importante, pois os alvos de pitch são implementados sempre em sincronia com ele. Assim, se o hospedeiro é a sílaba em uma dada língua, então o alvo de pitch vai iniciar no começo da sílaba e somente vai terminar no final dessa sílaba.

É importante ressaltar que, apesar de haver essa sincronia entre o alvo de pitch e seu hospedeiro, isso não significa que quando observamos um contorno de F0 no hospedeiro ele sempre se pareça com a forma subjacente do alvo de pitch correspondente. Na verdade, o que observamos é simplesmente um “esforço” por alcançar esse alvo. Esse esforço sempre começa no início do hospedeiro e termina no seu final.

A razão para que seja dessa forma está no fato de que é a laringe que implementa os alvos de pitch, mas ela não consegue mudar seu estado de forma instantânea, então a aproximação de um alvo sempre vai levar algum tempo. Por esse motivo, sempre vai haver uma transição do F0 que aparece na porção inicial do hospedeiro e que não aparece na porção final desse mesmo hospedeiro. Assim, o contorno de F0 na porção final se parece mais ao alvo de

pitch subjacente do que na porção inicial. Esse fenômeno pode ser observado na Figura 4 em

que os alvos de pitch estão mais próximos de sua realização de superfície (em amarelo). Podemos dizer que a implementação do alvo de pitch somente está totalmente completa na porção final do hospedeiro.

Figura 4: Ilustração esquemática dos alvos de pitch (linhas pontilhadas) e suas realizações de superfície (linha em negrito contínua). As três linhas verticais representam as fronteiras de duas unidades portadoras de alvos de pitch consecutivas e as marcações em amarelo destacam as regiões