2. FUNDAMENTAÇÃO TEÓRICA
2.2. LINGUÍSTICA DE CORPUS
Ao longo das últimas três décadas a Linguística de Corpus tem se desenvolvido
e hoje aborda uma grande variedade de questões linguísticas que vão desde a pesquisa
monolíngue até estudos contrastivos e tradutórios envolvendo diversas línguas.
Atualmente, embora a construção e exploração de corpora de língua inglesa ainda
dominem o campo da Linguística de Corpus, corpora de outras línguas, mono ou
multilíngues, também estão disponíveis. Estes corpora, notadamente, têm contribuído
para a diversidade dos estudos da linguagem com base em corpus (MCENERY; XIAO,
2005).
Capaz de revelar grande quantidade de evidências linguísticas por meio de
corpora eletrônicos, a Linguística de Corpus questiona paradigmas estabelecidos pelos
estudos linguísticos e abre caminhos para o linguista, o professor, o tradutor, o
lexicógrafo, entre outros profissionais. Sua presença mais marcante, hoje, se dá na
preparação de dicionários. Os grandes dicionários de língua inglesa (Oxford,
Cambridge, Collins, Longman) são feitos com base na Linguística de Corpus que se
ocupa da coleta e da exploração de corpora coletados criteriosamente com o propósito
de servirem para a pesquisa de uma língua ou variedade linguística; utiliza-se de dados
reais de uso e analisa evidências empíricas (BERBER SARDINHA, 2004).
Para este trabalho, adotamos o conceito de corpus dado por Sanchez (1996), que
define corpus como:
Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser
processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise (SANCHEZ, 1996, p.8-9apud
BERBER SARDINHA, 2004, p.18).
Esta definição é considerada por Berber Sardinha (2004) a mais completa porque
contempla alguns pontos importantes, tais como a origem dos dados, que devem ser
autênticos; o propósito, que deve ter finalidade de pesquisa linguística; a composição,
que deve ter seu conteúdo criteriosamente escolhido; a formatação, que deve ser legível
por computador; a representatividade, que deve simbolizar uma língua ou variedade
linguística; e a extensão, quanto maior em tamanho, mais representativo da língua ou
variedade linguística a que se propõe representar (BERBER SARDINHA, 2004, p.19).
Questões acerca da representatividade e extensão de corpora têm sido
frequentemente discutidas ao longo do tempo. Embora seja parte fundamental da
constituição de um corpus, não há critérios objetivos que determinem com precisão
quando um corpus é extenso o suficiente para servir de modelo de uma língua ou
variedade. Representatividade e extensão são dois itens distintos, mas que podem se
entrecruzar num mesmo caminho. Por exemplo, a característica mais facilmente
associada à representatividade é justamente a extensão do corpus, o que significa que
para ser representativo o corpus deve ser o maior possível (BERBER SARDINHA,
2004, p.22).
O corpus é uma amostra de uma população cuja dimensão não se conhece (a linguagem como um todo). Desse modo, não se pode estabelecer qual seria o tamanho ideal da amostra para que represente essa população. Uma salvaguarda é tornar a amostra a maior possível, a fim de que ela se aproxime ao máximo da população da qual deriva, sendo portanto mais representativa (BERBER SARDINHA, 2004, p.23).
Ou seja, em busca de ser simbólico de uma língua, um corpus deve ser o mais
extenso possível, mas, é importante salientar que uma dada extensão serve para
aproximaro corpus de ser representativo de uma língua, nunca chegando exatamente a
sê-lo. Sinclair (2005, p.02) deixa claro que “[…] nenhum corpus, não importa quão
grande, quão cuidadosamente projetado, pode ter exatamente as mesmas características
da língua em si
2”. E, para Fillmore (1992, p.35 apud BERBER SARDINHA, 2004,
p.43), “não há nenhum corpus que contenha toda a informação que eu quero explorar”,
mas, mesmo assim, “todo corpus me ensinou coisas sobre a linguagem que eu não teria
descoberto de nenhum outro modo”.
Esta premissa de extensão para alcançar representatividade, no entanto, se aplica
aos corpora de referência de língua geral, e não necessariamente valem para outros tipos
de corpora. Quando se trata de um corpus de língua de especialidade, dentro de
determinada área temática, como é o caso dos corpora deste trabalho, por exemplo, é
esperado que haja maior concentração de vocabulário do que um corpus de língua geral
(SINCLAIR, 2005). Isto faz com que, ao se trabalhar com línguas de especialidade, não
seja necessário dar ênfase ao princípio da extensão para se atingir a representatividade.
Esta maior concentração vocabular da área de especialidade se dá porque, ao compilar
um corpus de uma variedade específica, deve-se ser o mais seletivo [e criterioso]
possível na recolha dos exemplares, para que os mesmos reflitam de fato a variedade
escolhida (BERBER SARDINHA, 2004). Dessa forma, com um corpus menor em
extensão, atinge-se alto índice de representatividade devido ao grau de especificidade
dos textos escolhidos para compor o corpus (SINCLAIR, 2001).
“Além de representativo, o corpus deve ser adequado aos interesses do
pesquisador, que deve ter uma questão a investigar para a qual necessite de um corpus
específico” (BERBER SARDINHA, 2004 p.29). Isto implica definir com clareza os
objetivos que se pretende atingir ao se trabalhar com corpus; quais são as questões que
2
[…] no corpus, no matter how large, how carefully designed, can have exactly the same characteristics as the language itself (SINCLAIR, 2005, p.02). [Tradução nossa]
se pretende elucidar por meio do estudo baseado em corpus. A definição destes
objetivos é determinante para que critérios básicos de compilação de corpus sejam
estabelecidos. E este estabelecimento de critérios é o primeiro grande passo para a
compilação do corpus. São estes critérios que aceitam ou rejeitam textos e, com isso,
atinge-se um grau de padronização e especificidade. Tais critérios devem ser
preestabelecidos pelo pesquisador antes do início da compilação e obedecidos até o
final. Segundo Sinclair (2005, p.04), os critérios mais comuns incluem:
1. Modo: falado ou escrito, ou, hoje em dia, o modo eletrônico;
2. Tipo: livro, revista, jornal ou carta;
3. Domínio: por exemplo, acadêmico ou popular;
4. Língua, línguas ou variedades linguísticas [ou línguas de especialidade];
5. Localização: inglês do Reino Unido, da Austrália, dos EUA;
6. Data dos textos.
Para o autor, um corpus considerado confiável deve ter estes critérios estruturais
escolhidos cuidadosamente, porque as preocupações com equilíbrio e representatividade
dependem dessas escolhas. Tais critérios, para determinar a estrutura de um corpus,
devem ser “pequenos em número, claramente separados uns dos outros e eficientes em
grupo para delinear um corpus que seja representativo da língua ou variedade sob
análise”
3(SINCLAIR, 2005, p.05). Deve-se, ainda, documentar atentamente o design e
a composição de um corpus com informações sobre o conteúdo e argumentos que
justifiquem as decisões tomadas. Desta forma, a partir deste detalhamento, outros
usuários podem ter um ponto de referência para agir, caso obtenham resultados
3
Criteria for determining the structure of a corpus should be small in number, clearly separate from each other, and efficient as a group in delineating a corpus that is representative of the language or variety under examination (SINCLAIR, 2005, p.05). [Tradução nossa]