• Nenhum resultado encontrado

No passado, a palavra corpus era atribuída a qualquer conjunto de textos escritos como, por exemplo, o conjunto da obra de um determinado autor ou as leis consolidadas no Corpus Juris Civilis durante o império de Justiniano no século VI. Mais recentemente, a Lingüística de Corpus trouxe novos elementos à definição. Segundo Baker (1995:225) o termo:

(i) corpus, hoje, é essencialmente uma coletânea de textos em formato eletrônico capaz de ser analisada automática ou semi- automaticamente de diversas formas; (ii) um corpus não é mais apenas um conjunto de “escritos”, inclui tanto textos orais quanto escritos, e (iii) um corpus pode incluir um grande número de textos de diversas fontes, por diversos autores e falantes e sobre uma ampla gama de tópicos31.

O importante, ressalta a autora, é que o corpus seja compilado com o objetivo de atender uma necessidade específica e de acordo com critérios específicos para assegurar a representatividade de uma dada área ou de

31 (i) corpus now means primarily a collection of texts held in machine-readable form and capable of being analysed automatically or semi-automatically in a variety of ways, (ii) a corpus is no longer restricted to ‘writings’ but includes spoken as well as written texts, and (iii) a corpus may include a large number of texts from a variety of sources, by many writers and speakers and on a multitude of topics.

FUNDAMENTAÇÃO TEÓRICA -37

uma determinada amostra que se queira estudar (1995:225). E é disso que se ocupa a Lingüística de Corpus: da compilação e do estudo de corpora eletrônicos.

Nas palavras de Berber Sardinha (2004:3):

A Lingüística de Corpus ocupa-se da coleta e da exploração de corpora, ou conjunto de dados lingüísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Como tal dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador.

A partir da definição acima, podemos destacar três elementos essenciais à Lingüística de Corpus.

Em primeiro lugar, a coleta criteriosa de textos.

Uma coleta criteriosa pressupõe que o corpus reflita a variedade escolhida o mais fielmente possível (Berber Sardinha, 2004:18). De acordo com os objetivos de seu trabalho, o pesquisador deverá estabelecer qual o tipo de corpus a ser coletado (Atkins, Clear & Olster, 1992:9) bem como os critérios a serem adotados. Um corpus cuidadosamente projetado é essencial para a pesquisa lingüística, sendo preciso levar em conta tanto o conteúdo, quanto o tamanho (Biber et al., 1996:130). Em relação ao conteúdo, por exemplo, se o objetivo do pesquisador é construir um corpus de língua geral, ele deverá representar o maior número de registros possível, bem como reunir diversos exemplares de cada um desses registros (Berber Sardinha, 2004:18). Além do conteúdo, o tamanho também é importante, pois para ser representativo de uma variedade, um corpus deve ser o maior possível (Berber Sardinha, 2004:22). Assim, levando em conta o tamanho e o conteúdo, o pesquisador deve procurar evitar e neutralizar, ao máximo, os efeitos causados por vieses na amostra da língua como, por exemplo, o caso de o corpus conter mais textos de um determinado autor que de outro (Atkins et al., 1992:9).

Em segundo lugar, a exploração da linguagem por meio de evidências empíricas com o propósito de realizar pesquisa lingüística.

Em relação à exploração da linguagem corpus por meio de evidências empíricas podemos dizer que o trabalho em corpus depende da

interpretação da freqüência e da distribuição dos dados (Stubbs, 1993:25). Os dados estatísticos permitem que o pesquisador extraia evidências empíricas capazes de permitir a descrição das variações formadoras de padrões e das aleatórias (Stubbs, 1993:25). Portanto, é possível determinar a freqüência das combinações lexicais que podem ocorrer com ou sem regularidade em um determinado corpus. Hunston & Francis (2000:37 apud Berber Sardinha, 2004:40) definem padrões como sendo:

[...] o conjunto de palavras e estruturas normalmente associadas a essa palavra, que contribuem para o seu significado. Um padrão é passível de identificação se uma combinação de palavras ocorrer com relativa freqüência, se depender de uma determinada escolha de palavras e se houver um significado claro relacionado a essa combinação32.

A visão que norteia a exploração de corpora é a empirista que vê a linguagem como aquilo que é provável – não como o que é possível – e pressupõe que, “embora muitos traços lingüísticos sejam possíveis teoricamente, não ocorrem com a mesma freqüência” (Berber Sardinha, 2004:30-1). Assim, por valer-se de dados empíricos, uma característica marcante da pesquisa em corpus é o fato de ser possível sua replicação (McEnery & Andrew, 1997:14), fato que contrasta com as pesquisas lingüísticas racionalistas.

Em relação à segunda parte do elemento em exame: propósito de pesquisa lingüística, Francis (1992:17 apud Tognini-Bonelli, 2001:54) destaca que textos compilados com outros fins, jurídicos, por exemplo, como é o caso das consolidações de leis, não atendem às necessidades da Lingüística de Corpus.

Em terceiro lugar, os dados extraídos com o auxílio do computador. O processamento por computador possibilitou a análise de grandes quantidades de dados, que até então não eram passíveis de observação, e, conseqüentemente, implicou uma ruptura de paradigma nos estudos lingüísticos. Dados antes impossíveis de serem observados pelo ser humano

32 [...] all the words and structures which are regularly associated with the Word and which contribute to its meaning. A pattern can be identified on a particular word choice, and if there is a clear meaning associated with it.

FUNDAMENTAÇÃO TEÓRICA -39

sem o auxílio da tecnologia como, por exemplo, a rápida e precisa identificação de padrões lingüísticos, influenciaram a idéia que hoje temos de linguagem (Stubbs, 1993:23) que é a de um sistema marcado por uma certa regularidade exteriorizada pela padronização de combinações de palavras.

Para Sinclair (1991:xxii, 1, 2, 4 e 100 apud Stubbs 1993:23), o contraste está na quantidade de dados disponíveis e como a língua fica diferente quando examinada em grandes quantidades e ao mesmo tempo. Por tudo isso, o processamento por computador é um elemento essencial da Lingüística de Corpus, e foi o computador o grande responsável pelo seu desenvolvimento, pois, hoje, “o termo corpus é praticamente sinônimo do termo corpus processado por computador33” (McEnery & Andrew, 1997:17).

2.2 A Abordagem Baseada em Corpus (corpus-based) e a Abordagem