• Nenhum resultado encontrado

CAPÍTULO I CÓRPUS E METODOLOGIA DA PESQUISA

1.1 Córpus da Pesquisa

O córpus da pesquisa é um córpus paralelo, bidirecional, parcialmente morfossintaticamente anotado. É sincrônico, visto que é composto por textos originais e suas traduções, na maioria, narrativas ficcionais em forma de contos e romances, produzidos no período compreendido entre o fim da segunda década do século XIX e o início da segunda do XXI. A decisão por estes gêneros textuais se deu em

30

função de nestes, outros, como os gêneros texto jornalístico, textos técnicos, e etc., poderem estar inseridos. Sobretudo, se deu por haver a possibilidade de ocorrências de descrições de falas neles, de modo a se obter certo grau de equilíbrio, pois segundo Sinclair, “a maioria dos corpora de hoje em dia não são adequadamente balanceados por não conterem a quantidade suficiente de língua falada” (SINCLAIR(2)

, 2005)4. Considerou-se também que, com esta escolha, apesar do discurso ficcional dos textos, o córpus atingiria uma maior representatividade, no sentido estatístico, do que na opção por manuais de instruções, guias, documentos legais, textos jornalísticos, por exemplo, visto ser mais provável que estes gêneros textuais estejam incluídos naqueles, do que o contrário. A compilação dos textos buscou valer-se do princípio da aleatoriedade, salvaguardando as restrições quanto à disponibilidade de textos eletronicamente editados e direitos autorais. Assim, uma parte dos textos, em torno da metade do córpus, por estar disponível online, sem restrições de acesso, foi obtida via ferramentas de pesquisa da WEB, e armazenada no formato.txt. A outra, comercialmente adquirida, no formato de e-book Kindle, foi convertida para o formato.pdf, via conversores online disponíveis na WEB, e, posteriormente, armazenada, também no formato.txt.

O córpus é médio, segundo, a classificação de Berber Sardinha (2004), e se subdivide em dois subcorpora paralelos. É bidirecional, com as mesmas proporções, gêneros, domínios e período de amostragem (XIAO e MCENERY 2007), totalizando 782.175 palavras (tokens lidos pelo WordSmith), em português e inglês, sendo subdividido em 04 subcorpora conforme segue:

 De textos originais em português, com 211.925 palavras: subcórpus ST em português;

 De textos traduzidos para o inglês, com 242.943 palavras: subcórpus TT em inglês;

 De textos originais em inglês, com 167.569 palavras: subcórpus ST em inglês;

 De textos traduzidos para o português, com 159.738 palavras: subcórpus TT em português;

4

Não foi indicada a página onde se encontra a citação, pois o a versão lida do livro é digitalizada e não contém a numeração de páginas. Como outros textos citados são digitalizados, quando não for mencionada a página de alguma citação, deve-se a este fato.

31

Onde ST5,de source text, refere-se aos subcorpora dos textos fontes, e TT, de target text, ao dos textos alvos. Deste ponto em diante, menções aos subcorpora são feitas por estas denominações de modo a simplificar a leitura. Quando a menção for aos subcorpora que englobam pares de línguas, estes são distintos pelos direcionamentos português- inglês e inglês-português. Por fim, quando menção for aos quatro subcorpora juntos, o conjunto é referido simplesmente como Córpus da Pesquisa.

Para as anotações de categorias morfossintáticas de alguns textos do córpus, optou-se pelos etiquetadores TagAnt 1.0.0 do AntConc (ANTHONY, 2012), para o inglês, e o UCREL Portuguese Semantic Tagger consulta on-line, para o português, os quais, despeito de algumas limitações constatadas, permitiram a desambiguação de alguns vocábulos. Por exemplo, as ocorrências do vocábulo inglês like, foram desambiguadas pelas etiquetas morfossintáticas IN, VV, JJ, NN e VVP, respectivamente indicativas de preposição, base form of lexical verb, adjetivo, substantivo e forma verbal do Presente do Indicativo para as 3as pessoas do singular. Igualmente, foi desambiguar vocábulos ‘o’ do português pelas etiquetas morfossintáticas DET e N, que distinguiram as ocorrências de ‘o’ como artigo definido das ocorrências dele como pronome pessoal oblíquo. Em algumas investigações, que envolveram comparações, com o córpus COMPARA da LINGUATECA, utilizou-se as interfaces Free CLAWS WWW tagger da UCREL, com base no CLAWS tagset para o inglês, e o UCREL Portuguese Semantic Tagger Demo Site, com base no PoS tagset, para o português, por conta do COMPARA utilizar as etiquetas do CLAWS, 5 ou 7, e o analisador sintático computacional PALAVRA usar etiquetas das classes de palavras que coincidem com as do PoS.

A composição do córpus, subdividida em 04 subcorpora, numa tentativa de estabelecer uma ponte que aproximasse os Estudos da Tradução dos contrastes interlinguísticos propostos pela pesquisa, viabilizou a checagem do Pressuposto da Pesquisa, no sentido de checar se as tendências quantitativas a repetições de vocábulos que fossem observadas num direcionamento, também o seriam no direcionamento reverso.

Cabe salientar, que a base da pesquisa é essencialmente o subcórpus português-inglês, pois de acordo com a Hipótese da Pesquisa, é na transposição do português para o inglês que as relações gramático-

5

Optou-se pelas abreviaturas ST e TT, derivadas do inglês, por acreditar-se que facilitam a leitura e a fixação.

32

coesivas podem ter força suficiente para sublimarem efeitos do tradutês, fruto do fato de que “as línguas de textos traduzidos são diferentes das línguas alvo” (MCENERY e XIAO, 2007 p.6 tradução nossa) por conta da força das línguas fonte sobre as línguas alvo. Com efeito, a necessidade, por exemplo, da inserção do pronome pessoal you, na tradução da sentença “Falaram com ele, não falaram?” (COMPARA, EBJB3 2476), só surge no direcionamento de tradução do português para o inglês, pois no sentido reverso, de “You've been talking to him, haven't you?” (Ibid.), elidir, ou não, o pronome pessoal, não seria norteado pelo sistema linguístico do português, mas sim por escolhas de tradução, baseadas nas competências linguísticas subjetivas, bem como em vivências pessoais e seus “critérios de avaliação ideológica”. (Bakhtin, 2004, p.32)

Entretanto, paralelamente às demandas do sistema linguístico do inglês, as competências linguísticas do tradutor e suas vivências pessoais também atuam no texto traduzido, pois:

Toda compreensão [...] do enunciado vivo é de natureza ativamente responsiva (embora o grau desse ativismo seja bastante diverso); [...] A compreensão passiva do significado do discurso [...] é apenas um momento abstrato da compreensão ativamente responsiva real e plena, que se atualiza na subsequente resposta... (Bakhtin, 2003, p 271).

Por esta razão, é que se fez necessário compilar os subcorpora ST em inglês, e o TT em português, pois conforme mencionado na introdução, estudos linguísticos contrastivos podem ser mais produtivos, se conduzidos através de investigações num córpus paralelo bidirecional bem ajustado (MCENERY e XIAO, 2007). Com efeito, estudos contrastivos quantitativos entre textos originais e suas traduções me parecem serem mais eficazes se baseados em corpora paralelos, visto que, estudos baseados em corpora comparáveis podem evidenciar discrepâncias entre sistemas linguísticos, no entanto, não podem ser assertivos quanto aos contrastes entre frequências de ocorrências de vocábulos, pois as variáveis quantitativas, presentes em textos em duas

6

Similarmente às do BNC, citações de excertos extraídos do COMPARA devem ser acompanhadas do identificador da obra, indicado pelo código alfanumérico, à esquerda, e do número da sentença, indicada pelo numeral à direita: (COMPARA, código da obra, sentença).

33

línguas, podem ser bastante distintas. Por exemplo, através de análises de frequências de ocorrências da dicotomia elipse-repetição de vocábulos, com base num córpus comparável, é possível inferir que haja diferenças entre as frequências de ocorrências de elipses e repetições de vocábulos em duas línguas, mas não me parece ser possível estabelecer alguma proporção matemática entre estas frequências, pois, paralelamente às demandas dos sistemas linguísticos, escolhas subjetivas de ordem da Retórica atuam mutuamente nos textos nas duas línguas, livres dos “efeitos de [alguma] [...] língua fonte”. Diferentemente, em estudos contrastivos quantitativos baseados em corpora paralelos, a força dos textos fonte geralmente tende a minimizar a força das escolhas subjetivas de tradução.

Considerando esta última argumentação, os subcorpora ST em inglês e TT em português foram acessados somente nas abordagens verticais, relativas às checagens do Pressuposto da Pesquisa, visando contrastar alguns resultados obtidos nas investigações no direcionamento do português para o inglês e os obtidos no direcionamento inglês-português.

Segue, então, a descrição dos procedimentos metodológicos adotados para as abordagens ao Córpus da Pesquisa.