• Nenhum resultado encontrado

2 REVISÃO DE LITERATURA

3.4 Instrumentos de pesquisa

3.4.2 Linguística de corpus

Antes de falar da linguística de corpus e o que ela estuda, é importante destacar o que essa área entende por corpus, visto que este é um termo bem generalizado de todas as áreas da pesquisa científica. Como qualquer outro termo na ciência, corpus é um conceito que não possui consenso; autores complementam um ao outro, e outros deixam passar aspecto x ou y. A definição a qual nos atentaremos aqui é a de Sanchez (1995):

Um conjunto de dados ling[u]ísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos) sistematizados segundo determinados critérios, [...] dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise. (SANCHEZ, 1995, p. 8-9).

Tendo essa definição em mente, podemos dizer que a linguística de corpus estuda textos – ou trechos deles – de modo a encontrar padrões linguísticos analisáveis através de recursos eletrônicos. Há que se destacar, porém, que os limites da linguística de corpus são complexos.

Na própria área, há autores, como McEnery; Wilson (1996), que a consideram uma metodologia; Leech (1992) já a vê mais amplamente, como uma base metodológica. Entretanto, ao entender linguística de corpus como metodologia, subentende-se que ela apenas fornece ferramentas para pesquisas, quando, na realidade, seu escopo vai muito além. Sardinha defende que a linguística de corpus não se limita a fornecer instrumental, mas também produz conhecimento inédito, aplicável a várias áreas, conferindo a ela um caráter transdisciplinar.

Desse modo, é importante trazer a definição de Hoey (1997), que entende a linguística de corpus como uma abordagem. Essa concepção é bastante aceita, visto que deu margem a estudiosos da área, como Biber (1998), chamá-la de “abordagem baseada em corpus”. Esta última, por sua vez, contribuiu para que várias pesquisas na área – até nos dias atuais – se considerem “baseadas em corpus”.

Como pudemos perceber, a linguística de corpus não tem um campo ou objeto de estudo particular definido; seu aparato metodológico é útil para diversas áreas. No que concerne aos estudos da tradução, área a qual esta pesquisa se filia, o estudo de corpora é relevante para que se entenda o processo tradutório e suas restrições.

De acordo com Baker (1993), para entendermos como uma mensagem semelhante é transmitida em duas línguas diferentes, é necessária a observação de situações de uso reais. E é aí onde a linguística de corpus entra. Seu caráter essencialmente empírico fornece dados concretos, que iluminam o pesquisador, ao mostrar como o tradutor age em sua prática. Esse input é inestimável para um estudo descritivo do processo tradutório, pois atende a uma demanda que há muito vem crescendo (BAKER, 1995).

Dentre os três principais tipos de corpora identificados por Baker (1995) – a saber, paralelo; multilingual e comparável –, focaremos no corpora paralelo, por ser deste o tipo analisado nesta pesquisa. A autora o define como um corpus consistido de um texto (ou mais) em uma determinada língua e sua respectiva tradução em outra. A principal contribuição do uso de corpora paralelo para os estudos da tradução, ela aponta, é a mudança no foco das pesquisas na área, que deixa de ser a prescrição de como uma tradução deve ser, e passa a ser a descrição de como uma tradução de fato é.

E como é justamente a gama de métodos da linguística de corpus que interessa como aporte teórico desta pesquisa, nos deteremos agora a explicar o procedimento aqui utilizado. Trata-se de um tipo de operação de processamento de textos: a etiquetagem.

Quando se fala em etiquetagem de um corpus, refere-se à prática de codificar tal corpus em etiquetas de SGML86, de modo a destacar trechos do texto que, posteriormente, serão processados eletronicamente, fornecendo os dados para análise. Tais etiquetas devem vir entre parênteses angulares, sendo a etiqueta de abertura localizada antes da informação que se deseja destacar, e a etiqueta de fechamento logo após, para determinar que a etiqueta está dentro daqueles limites. O formato é o seguinte: <etiqueta de abertura> informação </etiqueta de fechamento> (SARDINHA, 2004).

O processamento é feito por softwares especializados de computador, com base no que Baker (1995) chama de concordância de palavras-chave em contexto87. Essa concordância é a amostragem de todos os tokens, isto é, todas as ocorrências (aparições) que determinada etiqueta fez no corpus a ser analisado.

Uma importante contribuição do uso da etiquetagem e seu processamento, como Baker (1995) salienta, é na percepção de padrões que identifiquem um texto como tradução. Tal percepção se alinha com os objetivos da linguística de corpus, de um modo geral, e, para os estudos da tradução, pode ser bastante útil no treinamento de tradutores em formação.

3.4.2.1 Wordsmith Tools 5.0

Finalmente, utilizamos o software Wordsmith Tools, em sua versão 5.0, para que, após a conclusão do processo de etiquetagem, buscássemos cada uma das etiquetas, através da ferramenta Concord.

A Figura 1 mostra a tela de trabalho do presente autor: uma captura de tela do programa em funcionamento, com a ferramenta Concord em uso, mostrando os resultados de uma das etiquetas utilizadas na análise.

Figura 1 – Captura de tela da ferramenta Concord

86

SGML é um acrônimo para Standard Generalized Markup Language, que é uma metalinguagem proveniente da área das ciências da computação. Ela se torna relevante para a linguística de corpus por seu potencial para o

“gerenciamento – organização, recuperação e uso – da informação [...]” (BAX, 2001), através da marcação de textos.

87

Fonte: elaborada pelo presente autor.

Como podemos ver pela Figura 1, basta que pesquisemos a palavra que se deseja, que a ferramenta Concord dará a quantidade de ocorrências, com prévias dos trechos onde cada uma se encontra.

3.4.3 Passos metodológicos

Primeiramente, fizemos a transcrição da letra da música Belle do filme A Bela e a Fera (2017), em suas versões em inglês e português. Ambas as letras foram retiradas do site www.genius.com. A letra em inglês está disponível em: https://genius.com/Emma-watson-belle- lyrics; e a letra em português em: https://genius.com/Giulia-nadruz-bela-lyrics.

Em seguida, fizemos a etiquetagem do corpus à luz da linguística de corpus, com base nas categorias que constituem o Princípio do Pentatlo, de Low (2005).

Nossa tela de trabalho era constituída por duas janelas: dois arquivos do software Microsoft Word; uma contendo a letra da canção fonte (Belle) e a outra com a canção alvo (Bela), de modo que conseguíssemos ter uma visão emparelhada verso a verso. Como input auditivo, tínhamos ambas as versões88 através dos canais oficiais da Disney Music (dos Estados Unidos e da América Latina) no YouTube; e se precisássemos tirar alguma dúvida em relação à

88 Canção fonte disponível em: https://www.youtube.com/watch?v=egQbaDRMxGI

cena em questão no filme, utilizávamos o vídeo89 divulgado oficialmente pela Walt Disney Pictures.

Concluída a etiquetagem, partimos para o primeiro momento da análise qualitativa em si. O fizemos justificando verso a verso as escolhas das etiquetas.

Posteriormente, jogamos cada uma das etiquetas e subetiquetas no software Wordsmith Tools 5.0, para que este nos desse a quantidade de ocorrências de cada uma.

Com base nisso, passamos para o segundo momento da análise qualitativa do corpus, no qual discutimos a respeito dos dados quantidades que o software nos fornecera.

E, para finalizar, fizemos entrevista com duas profissionais envolvidas nesta versão do filme: a versionista Mariana Elisabetky, que traduziu as canções, e a atriz Giulia Nadruz, que dublou a protagonista Bela.

Gostaríamos de ressaltar que, ainda que as entrevistas tenham sido realizadas durante o processo de análise, elas foram feitas via e-mail. Sendo assim, tendo em mente a validade da discussão levantada pelo presente autor, nos detivemos de ler as respostas antes que concluíssemos a escrita desta dissertação, para que as respostas da versionista e da dubladora não comprometessem a imparcialidade, e, por consequência, a credibilidade da análise que trouxemos nesta pesquisa.

Tendo apresentado a metodologia, os materiais e os passos realizados nesta análise, concluímos este capítulo. No próximo, traremos a análise em si.

Documentos relacionados