• Nenhum resultado encontrado

CAPÍTULO 1: FUNDAMENTAÇÃO TEÓRICA

1.1 Lingüística de Corpus

1.1.2 Definições e questões concernentes à Lingüística de Corpus

Definido o que vem a ser um corpus bem como a importância da sua existência, deter-nos-emos, agora, na área central onde se insere o presente estudo: a Lingüística de Corpus.

Segundo Berber Sardinha (2004:03):

A Lingüística de Corpus ocupa-se da coleta e exploração de corpora, ou conjunto de dados lingüísticos textuais coletados criteriosamente, com o propósito de servirem para estudos de uma língua ou variedade lingüística. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador.

De acordo com a definição acima, a Lingüística de Corpus (doravante denominada LC), além da tarefa de coletar e armazenar corpora fazendo uso das suas ferramentas, ocupa-se, também, da descrição dos aspectos lingüísticos que permeiam os mais diversos contextos de linguagem.

Johansson (1995:19, apud BAKER, 1998:50), apresenta a LC “como um ramo da lingüística que estuda a língua baseada em corpora". Contrariando essa afirmação, Hoey (1997, apud BERBER SARDINHA, 2004:37) descreve a LC não como um ramo da lingüística, mas o caminho para a própria lingüística. Parece ser Hoey quem mais se aproxima dos interesses desta pesquisa, pois para este autor, a LC é muito mais do que um simplesmente instrumento: ela é uma abordagem.

Outros teóricos, tais como McEnery e Wilson (1996:1), definem de modo simples, porém útil, a LC como “o estudo da linguagem baseado em exemplos da linguagem da vida real”. Baker (1998) completa essa explicação, postulando que a Lingüística de Corpus fundamenta-se na observação de dados da linguagem real, natural e empírica, isto é, tal abordagem caracteriza-se por uma visão de linguagem onde os dados não provêm de situações inventadas ou da abstração do real, mas da experiência efetiva de investigar dados autênticos.

Como já mencionado, a LC fundamenta-se na abordagem empírica da linguagem. Para Berber Sardinha (2004), na Lingüística, ‘empírico’ significa

privilegiar os dados provenientes da observação da linguagem natural, dados estes normalmente agrupados na forma de corpus. Vale lembrar que, no presente estudo, os corpora coletados seguem o paradigma empiricista posto que os dados foram obtidos a partir de resumos de teses e dissertações de alunos, em manifestação natural de linguagem.

O modelo empiricista contrapõe-se à visão racionalista da linguagem proposta por Chomsky, no final da década de 1950, com a publicação de Syntactic

Structure, que veio revolucionar os estudos lingüísticos. Segundo Berber Sardinha

(2004:30), o racionalismo “se fundamenta no estudo da linguagem por meio da introspecção, como forma de verificar modelos de funcionamento estrutural e processamento cognitivo da linguagem”. Para os pesquisadores racionalistas, a intuição do falante nativo é considerada evidência suficiente para ser usada como objeto de pesquisa, em detrimento de sua produção real ou natural da língua.

Opondo-se aos conceitos racionalistas, McEnery e Wilson (1996:12) afirmam que “as observações baseadas em corpus são intrinsecamente mais confiáveis do que as baseadas introspectivamente em julgamentos”, visto que o ser humano não é capaz de separar, conscientemente, o que é central e típico da linguagem.

As diferenças entre a Lingüística de Corpus e o paradigma chomskiano são resumidamente contrastadas por Leech (1992:107, apud TOGNINI BONELLI, 2001:52), a saber:

1a) “foco no desempenho lingüístico, ao invés de competência, 2a) foco na descrição lingüística, ao invés de universais lingüísticos,

3a) foco em uma visão mais empírica do que racionalista de

investigação científica”.

Levando em conta os itens elencados, podemos dizer que os lingüistas racionalistas investigam a linguagem com relação aquilo que consideram ser possível ao falante (por exemplo, que as regras da língua podem possibilitar ao falante um número infinito de sentenças gramaticais, bastando para tanto ser criativo e inventar

seus próprios dados) enquanto, para os lingüistas de corpus, a língua é vista como um sistema probabilístico de ocorrência, ou seja, estes lingüistas estão preocupados com aquilo que realmente acontece na língua, dependendo do contexto envolvido (por exemplo, a probabilidade da palavra ‘computador’ ocorrer em um texto sobre informática é maior do que em um livro de receitas).

Sobre a questão da probabilidade, Kennedy (2001, apud OLOHAN 2004:16) considera que o analista de corpus eletrônico é capaz de realizar generalizações sobre a língua em uso, enfatizando, ainda, que o interesse dos pesquisadores da área não se limita a entender o que ocorre na língua, mas o que pode provavelmente ocorrer. Neste estudo, o corpus coletado é específico de linguagem acadêmica; logo, é provável encontrar, dentre os dados, escolhas lexicais típicas desse contexto. Segundo Berber Sardinha (2004:24), é possível instituir uma relação entre as palavras que são “mais comuns e menos comuns em determinado contexto”.

Assim sendo, conforme já mencionado (subitem 1.1.1), o que

caracteriza a LC é o fato de ter, como objeto de pesquisa, a linguagem em sua manifestação natural e empírica; a construção dos corpora paralelos, nesta pesquisa, corresponde à compilação desses dados. Existem, por conseguinte, alguns motivos que conduzem a uma investigação baseada em corpus, a saber:

• O corpus identifica o que é comum e típico na linguagem; • O corpus armazena grandes quantidades de dados e fornece todas as informações estatísticas sobre esses dados;

• O corpus retrata a língua como ela realmente é.

Após definidas, fundamentadas e explicitadas algumas das vantagens do uso de corpora na investigação da linguagem, é relevante enfatizar as principais áreas de interesse que norteiam a LC. Nesse quadro, Kennedy (1998) destaca:

● a compilação de corpus;

● o desenvolvimento de ferramentas; ● a descrição de linguagem;

● a aplicação de corpora no ensino e aprendizagem de línguas, bem como o processamento natural da língua por computador, reconhecimento de voz e tradução.

Esta pesquisa adequa-se a dois dos itens acima expostos: à compilação de um corpus paralelo (Quadro 2, subitem 1.1.1) e ao propósito de apresentar, descritivamente, os traços característicos dos corpora em questão.

Documentos relacionados