LINGUÍSTICA DE CORPUS - FUNDAMENTAÇÃO TEÓRICA

2. FUNDAMENTAÇÃO TEÓRICA

2.2. LINGUÍSTICA DE CORPUS

Ao longo das últimas três décadas a Linguística de Corpus tem se desenvolvido

e hoje aborda uma grande variedade de questões linguísticas que vão desde a pesquisa

monolíngue até estudos contrastivos e tradutórios envolvendo diversas línguas.

Atualmente, embora a construção e exploração de corpora de língua inglesa ainda

dominem o campo da Linguística de Corpus, corpora de outras línguas, mono ou

multilíngues, também estão disponíveis. Estes corpora, notadamente, têm contribuído

para a diversidade dos estudos da linguagem com base em corpus (MCENERY; XIAO,

2005).

Capaz de revelar grande quantidade de evidências linguísticas por meio de

corpora eletrônicos, a Linguística de Corpus questiona paradigmas estabelecidos pelos

estudos linguísticos e abre caminhos para o linguista, o professor, o tradutor, o

lexicógrafo, entre outros profissionais. Sua presença mais marcante, hoje, se dá na

preparação de dicionários. Os grandes dicionários de língua inglesa (Oxford,

Cambridge, Collins, Longman) são feitos com base na Linguística de Corpus que se

ocupa da coleta e da exploração de corpora coletados criteriosamente com o propósito

de servirem para a pesquisa de uma língua ou variedade linguística; utiliza-se de dados

reais de uso e analisa evidências empíricas (BERBER SARDINHA, 2004).

Para este trabalho, adotamos o conceito de corpus dado por Sanchez (1996), que

define corpus como:

Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser

processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise (SANCHEZ, 1996, p.8-9apud

BERBER SARDINHA, 2004, p.18).

Esta definição é considerada por Berber Sardinha (2004) a mais completa porque

contempla alguns pontos importantes, tais como a origem dos dados, que devem ser

autênticos; o propósito, que deve ter finalidade de pesquisa linguística; a composição,

que deve ter seu conteúdo criteriosamente escolhido; a formatação, que deve ser legível

por computador; a representatividade, que deve simbolizar uma língua ou variedade

linguística; e a extensão, quanto maior em tamanho, mais representativo da língua ou

variedade linguística a que se propõe representar (BERBER SARDINHA, 2004, p.19).

Questões acerca da representatividade e extensão de corpora têm sido

frequentemente discutidas ao longo do tempo. Embora seja parte fundamental da

constituição de um corpus, não há critérios objetivos que determinem com precisão

quando um corpus é extenso o suficiente para servir de modelo de uma língua ou

variedade. Representatividade e extensão são dois itens distintos, mas que podem se

entrecruzar num mesmo caminho. Por exemplo, a característica mais facilmente

associada à representatividade é justamente a extensão do corpus, o que significa que

para ser representativo o corpus deve ser o maior possível (BERBER SARDINHA,

2004, p.22).

O corpus é uma amostra de uma população cuja dimensão não se conhece (a linguagem como um todo). Desse modo, não se pode estabelecer qual seria o tamanho ideal da amostra para que represente essa população. Uma salvaguarda é tornar a amostra a maior possível, a fim de que ela se aproxime ao máximo da população da qual deriva, sendo portanto mais representativa (BERBER SARDINHA, 2004, p.23).

Ou seja, em busca de ser simbólico de uma língua, um corpus deve ser o mais

extenso possível, mas, é importante salientar que uma dada extensão serve para

aproximaro corpus de ser representativo de uma língua, nunca chegando exatamente a

sê-lo. Sinclair (2005, p.02) deixa claro que “[…] nenhum corpus, não importa quão

grande, quão cuidadosamente projetado, pode ter exatamente as mesmas características

da língua em si

”. E, para Fillmore (1992, p.35 apud BERBER SARDINHA, 2004,

p.43), “não há nenhum corpus que contenha toda a informação que eu quero explorar”,

mas, mesmo assim, “todo corpus me ensinou coisas sobre a linguagem que eu não teria

descoberto de nenhum outro modo”.

Esta premissa de extensão para alcançar representatividade, no entanto, se aplica

aos corpora de referência de língua geral, e não necessariamente valem para outros tipos

de corpora. Quando se trata de um corpus de língua de especialidade, dentro de

determinada área temática, como é o caso dos corpora deste trabalho, por exemplo, é

esperado que haja maior concentração de vocabulário do que um corpus de língua geral

(SINCLAIR, 2005). Isto faz com que, ao se trabalhar com línguas de especialidade, não

seja necessário dar ênfase ao princípio da extensão para se atingir a representatividade.

Esta maior concentração vocabular da área de especialidade se dá porque, ao compilar

um corpus de uma variedade específica, deve-se ser o mais seletivo [e criterioso]

possível na recolha dos exemplares, para que os mesmos reflitam de fato a variedade

escolhida (BERBER SARDINHA, 2004). Dessa forma, com um corpus menor em

extensão, atinge-se alto índice de representatividade devido ao grau de especificidade

dos textos escolhidos para compor o corpus (SINCLAIR, 2001).

“Além de representativo, o corpus deve ser adequado aos interesses do

pesquisador, que deve ter uma questão a investigar para a qual necessite de um corpus

específico” (BERBER SARDINHA, 2004 p.29). Isto implica definir com clareza os

objetivos que se pretende atingir ao se trabalhar com corpus; quais são as questões que

[…] no corpus, no matter how large, how carefully designed, can have exactly the same characteristics as the language itself (SINCLAIR, 2005, p.02). [Tradução nossa]

se pretende elucidar por meio do estudo baseado em corpus. A definição destes

objetivos é determinante para que critérios básicos de compilação de corpus sejam

estabelecidos. E este estabelecimento de critérios é o primeiro grande passo para a

compilação do corpus. São estes critérios que aceitam ou rejeitam textos e, com isso,

atinge-se um grau de padronização e especificidade. Tais critérios devem ser

preestabelecidos pelo pesquisador antes do início da compilação e obedecidos até o

final. Segundo Sinclair (2005, p.04), os critérios mais comuns incluem:

1. Modo: falado ou escrito, ou, hoje em dia, o modo eletrônico;

2. Tipo: livro, revista, jornal ou carta;

3. Domínio: por exemplo, acadêmico ou popular;

4. Língua, línguas ou variedades linguísticas [ou línguas de especialidade];

5. Localização: inglês do Reino Unido, da Austrália, dos EUA;

6. Data dos textos.

Para o autor, um corpus considerado confiável deve ter estes critérios estruturais

escolhidos cuidadosamente, porque as preocupações com equilíbrio e representatividade

dependem dessas escolhas. Tais critérios, para determinar a estrutura de um corpus,

devem ser “pequenos em número, claramente separados uns dos outros e eficientes em

grupo para delinear um corpus que seja representativo da língua ou variedade sob

análise”

(SINCLAIR, 2005, p.05). Deve-se, ainda, documentar atentamente o design e

a composição de um corpus com informações sobre o conteúdo e argumentos que

justifiquem as decisões tomadas. Desta forma, a partir deste detalhamento, outros

usuários podem ter um ponto de referência para agir, caso obtenham resultados

Criteria for determining the structure of a corpus should be small in number, clearly separate from each other, and efficient as a group in delineating a corpus that is representative of the language or variety under examination (SINCLAIR, 2005, p.05). [Tradução nossa]

inesperados do corpus, e/ou podem decidir que melhorias devem ser feitas com base na

experiência relatada.

A Linguística de Corpus encaixa-se no que pode ser chamada de Linguística

Empírica. Por empírico, na Linguística, entende-se “primazia aos dados provenientes da

observação da linguagem, em geral reunidos sob a forma de um corpus” (BERBER

SARDINHA, 2004, p.30). Além da abordagem empirista, seguindo a tradição de

Halliday, a Linguística de Corpus tem uma visão da linguagem como sistema

probabilístico, ou seja, vê a língua como probabilidade, o que a coloca em posição

totalmente oposta à de Noam Chomsky, o maior expoente do racionalismo na

Linguística, que enxerga a língua como possibilidade.

Os modelos estruturais da linguagem gerativista de Chomsky são descritos por

meio de esquemas slot and filler. Ou seja, a língua é concebida como um sistema de

lacunas sintáticas (slots) que pode ser preenchida lexicalmente de qualquer modo, desde

que o conjunto de lacunas seja estruturalmente plausível. A Linguística de Corpus, por

sua vez, pressupõe que, embora muitos traços linguísticos sejam possíveis teoricamente,

não ocorrem com a mesma frequência pelos falantes, isto é, não são atestados pelo uso.

E o ponto mais relevante dessa diferença de frequências entre os traços é justamente o

fato de não serem aleatórias, mas de haver um mapeamento regular entre a frequência

maior ou menor de um traço e um contexto de ocorrência. “Dizer que a variação não é

aleatória, na verdade, é afirmar que a linguagem é padronizada (patterned). A

padronização se evidencia pela recorrência” (BERBER SARDINHA, 2004, p.31), ou

seja, uma colocação que se repete significativamente mostra sinais de ser, na verdade,

um padrão lexical, e não uma estrutura aleatória.

A Linguística de Corpus não se dedica a um assunto definido. Ao contrário,

ocupa-se de vários fenômenos comumente enfocados em outras áreas (léxico, sintaxe,

textura). Mesmo em sua diversidade, há algumas características comuns que envolvem

os trabalhos em Linguística de Corpus, como: a) são empíricos e analisam os padrões

reais de uso em textos naturais; b) utilizam coletâneas grandes e criteriosas de textos

naturais, conhecidas por corpus, como a base da análise; c) fazem uso extensivo de

computadores na análise, empregando técnicas automáticas e interativas; e d) dependem

de técnicas quantitativas e qualitativas (BIBER, 1998 apud BERBER SARDINHA,

2004, p.38).

A história da Linguística de Corpus está condicionada à tecnologia, que permeia

todas as etapas do trabalho com corpora, desde o armazenamento até a exploração e, por

isso, está relacionada à disponibilidade de ferramental computacional para análise de

corpus. Dentre diversas outras ferramentas, a que mais se destaca é o WordSmith Tools

(SCOTT, 2012). Este software foi o primeiro a aproveitar os recursos do ambiente

Windows para análise de corpus e ajudou a impulsionar a Linguística de Corpus entre

os usuários de microcomputadores. Ainda hoje, após muitas atualizações, pode ser

considerado o mais completo e versátil conjunto de ferramentas para a Linguística de

Corpus (BERBER SARDINHA, 2004, p.15-16).

Em razão de sua atuação nas mais diversas áreas e da gama de ferramentas

disponíveis para execução de seus objetivos, poderia se pensar na Linguística de Corpus

como uma metodologia da qual outras áreas podem se valer. No entanto, a Linguística

de Corpus não se resume a um conjunto de ferramentas nem pode ser considerada

apenas uma metodologia pelo fato de seus praticantes serem capazes de produzir

conhecimento novo a partir dela. “A análise de um corpus pode revelar, e

frequentemente revela, fatos a respeito de uma língua que nunca se pensou em procurar”

(KENNEDY, 1998, p.09 apudBERBER SARDINHA, 2004, p.37).

Outra asserção em favor desta é a de Sinclair (2005, p.02) que diz que “um

corpus poderá ocasionalmente apresentar características que suspeitamos não serem

próprias da língua em estudo, ou deixar de mostrar características que são esperadas”

⁴

.

Ou seja, a Linguística de Corpus não é apenas uma “registradora de ocorrências”

lexicais e estruturais, pois traz consigo algo mais do que simplesmente o instrumental

computacional. Pelo contrário, o conhecimento produzido por ela, inclusive, tem caráter

contestatório de práticas e preceitos correntes e o mais imediato é a contestação dos

pressupostos da Linguística Gerativa.

Para este trabalho, aliamos a Linguística de Corpus à área de Terminologia para

estudar a língua de especialidade do sensoriamento remoto. O tradutor que lida com

áreas de especialidade, inevitavelmente, lida com a terminologia do campo escolhido.

Ao acessar dicionários e glossários para obter resultados para sua tradução, ele acaba

entrecruzando Tradução e Terminologia, favorecendo seu trabalho. Segundo Barros

(2004, p.72), “diversos bancos de dados especializados de alcance mundial têm no

tradutor um grande colaborador”.

No documento Dalila dos Santos Hasmann (páginas 41-47)