• Nenhum resultado encontrado

Capítulo 4. Corpora e operações enunciativas

4.1 L.C e T.O.E.: do empírico ao formal

Como vimos, segundo Culioli, somente a partir da análise dos textos é possível observar a

rede de fenômenos e funcionamentos que articulam as operações enunciativas de uma dada

língua. No contexto de nosso mestrado, cujo principal objetivo é descrever enunciativamente

as cinco marcas adversativas do PB mas, porém, todavia, contudo e entretanto, associamos à

teoria culioliana a abordagem da Linguística de Corpus (L.C.), que nos permite explorar a

dinâmica enunciativa dessas unidades através de evidências empíricas extraídas por

computador (BERBER SARDINHA, 2004).

De acordo com Halliday, Teubert, Yallop e Čermáková (2004, p. 100), a L.C. estuda as

línguas na base do discurso. Assim, a partir de uma ferramenta computacional específica, no

nosso caso, o programa WordSmith Tools (versão 5.0 – SCOTT, 2010), é possível verificar as

variadas funções de uma palavra em uma determinada amostra do discurso, sendo tal amostra

chamada de corpus. Em nosso trabalho, entendemos corpus como

[u]m conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise. (SANCHEZ; CANTOS, 1996 apud BERBER SARDINHA, 2004, p. 18)

Além das noções de representatividade, amplitude, profundidade e uso linguístico

mencionadas por Sanchez e Cantos acima, Gries (2009) chama atenção para a necessidade de

esse conjunto de textos eletrônico ser balanceado de acordo com dada variedade, gênero ou

registro linguístico

46

. Tendo em vista as considerações acima, selecionamos como corpus de

estudo cinco obras brasileiras e suas respectivas traduções para o francês e o inglês, já citadas.

É importante observar que a noção de corpus não surgiu com a invenção do computador, pelo

contrário, desde a Antiguidade têm-se registros de coleta de documentos, como o Corpus

Helenístico definido por Alexandre, o Grande, e os corpora de citações da Bíblia elaborados

na Idade Média. Ao longo dos séculos, portanto, corpora foram compilados não apenas por

interessados na descrição das línguas naturais, mas também por religiosos, filósofos,

pedagogos, etc. Atualmente, é muito comum o desenvolvimento de pesquisas baseadas em

corpus por pesquisadores da área de Letras em geral. O diferencial da abordagem da L.C.,

entretanto, está na manipulação de textos computadorizados, que facilitam a extração e a

observação de dados. É muito frequente, assim, a parceria de linguistas de corpus com

estatísticos, matemáticos e programadores de softwares, que auxiliam os primeiros na

elaboração de programas e ferramentas computacionais, além de colaborarem para a análise

estatística dos dados

47

.

Segundo Berber Sardinha (2004, p. 3-5), foi um corpus não computadorizado – o SEU

(Survey of English Usage) – que deu origem, em 1964, ao primeiro corpus linguístico

eletrônico: o Brown University Standard Corpus of Present-day American English, com 1

milhão de palavras. O SEU, compilado por Randolf Quirk e sua equipe a partir de 1959, foi

organizado em fichas de papel contendo uma palavra do corpus – gramaticalmente analisada

– inserida em dezessete linhas de texto.

Nos anos de 1960, a entrada e o desenvolvimento de computadores mainframe em centros de

pesquisa universitários possibilitou avanços na área de processamento de linguagem natural

48

,

facilitando a criação e manutenção de corpora eletrônicos. Foi então a partir de 1980, com o

46 “The notion of “corpus” refers to a machine-readable collection of (spoken or written) texts that were produced in a natural communicative setting, and the collection of texts is compiled with the intention (1) to be representative and balanced with respect to a particular linguistic variety or register or genre and (2) to be analyzed linguistically” (2009, p. 7, grifo nosso).

47 Um exemplo de tal parceria é a Escola Brasileira de Linguística Computacional, que acontece dois dias antes dos encontros anuais de Linguística de Corpus no país.

48 “Linguagem (ou língua) natural é um ‘sistema de comunicação verbal que se desenvolve espontaneamente no interior de uma comunidade’ (MATEUS; XAVIER, 1992, p. 714). São exemplos de línguas naturais o português, o inglês, o alemão, o francês, o latim etc. Há por outro lado as línguas artificiais (criadas por diferentes estudiosos, ao longo dos anos, e que seguem um padrão ou lógica de funcionamento previsível e preestabelecido por seu criador), como o esperanto, o volapuque,o timério etc. Por fim, podemos destacar as linguagens artificiais computacionais, também chamadas de linguagens de programação, como o Prolog, o Basic, o Pascal etc.” (OTHERO; MENUZZI, 2005, p. 122-123).

acesso a computadores pessoais, que a pesquisa linguística baseada em corpora eletrônicos se

fortaleceu. Assim,

À margem da teoria racionalista chomskyana (chamada, ao longo dos anos, de Gramática Transformacional-gerativa, Teoria Padrão, Teoria x-barra, Minimalismo ou simplesmente Gerativismo) [em 1957 foi lançado o primeiro livro de Noam Chomsky, Syntactic Strctures], a Linguística de Corpus continuou evoluindo, especialmente na Europa, e em particular na Grã-Bretanha, nos 30 anos seguintes, ainda que timidamente. Autores considerados hoje como os maiores expoentes da área, como John Sinclair e Geoffrey Leech, continuaram suas pesquisas, publicando trabalhos importantes entre 1960 e o final da década de 1970. O cenário começou a mudar definitivamente a partir de 1980, com a difusão em larga escala dos computadores pessoais e o lançamento do projeto COBUILD – parceria pioneira estabelecida entre a Universidade de Birmingham e a editora Collins, com vistas à produção do primeiro dicionário de língua (inglês) compilado segundo os preceitos da L.C., o Cobuild English Dictionary (Sinclair et al., 1987). (TEIXEIRA, 2008, p. 152)

Ao longo dos anos, outras parcerias foram se firmando, principalmente entre centros de

pesquisa universitários e editoras de dicionários de língua britânicas (por exemplo, entre o

grupo Addison-Wesley/Longman e a Universidade de Lancaster), e entre centros de

Processamento de Linguagem Natural (PLN) e empresas de telecomunicações e informática

americanas (Xerox, Microsoft e Canon, por exemplo) (BERBER SARDINHA, 2004, p. 6-7).

Nota-se, assim, a intrínseca relação entre os avanços da L.C. e os progressos tecnológicos, os

quais permitem o desenvolvimento de ferramentas computacionais para o armazenamento e a

exploração de corpora. De acordo com Teixeira (2008),

[p]ara autores como Hoey (1993) e Stubbs (1996: 231), a importância da incorporação do computador à análise linguística pode ser comparada à importância da invenção do microscópio para a biologia, pois, não só ampliou, mas transformou o conhecimento que se tinha até então da língua, permitindo observar fatos que não podiam ser vistos “a olho nu”. Ou seja, não se trata apenas de ter uma quantidade maior de dados linguísticos à disposição. As ferramentas computadorizadas de análise textual permitem

observá-los de uma outra perspectiva, evidenciando novos fenômenos. (p.

154, grifos da autora)

Essa “outra perspectiva” relaciona-se portanto a uma visão mais empirista da linguagem em

que não há categorizações apriorísticas. As palavras de Sinclair (2004) “trust the text” (confie

no texto) são bastante representativas da L.C. como abordagem teórica, uma vez que sugerem

a busca por “evidências na frequência e na coocorrência de itens lexicais do corpus para

relacioná-las, depois, a outras instâncias da comunicação” (TEIXEIRA, 2008, p. 155). Como

veremos adiante, a partir da associação da L.C. com a T.O.E. foi possível, em nossa pesquisa,

observar uma rede de elementos sintático-pragmáticos que dificilmente apareceria numa

abordagem mais tradicional, em que o linguista parte de um conjunto de enunciados mais

restrito, que não abrange a riqueza do uso.

Cabe aqui mencionar que a análise linguística realizada por meio de corpora computadorizados baseia-se na busca de padrões recorrentes. Se houver a constatação de que um padrão ocorre com frequência na língua, essa regularidade é relevante para o linguista ou tradutor, pois indica uma probabilidade maior de ocorrência daquele padrão. Em geral estes padrões não são imediatamente observáveis através da mera instrospecção, mas se tornam aparentes por meio de concordância. (LAMPARELLI, 2004, p. 195, grifo da autora)

A noção de “padrões de linguagem” está relacionada, segundo Hoey (1997, p. 3 apud

BERBER SARDINHA, 2004, p. 40), às seguintes questões:

(1) Quais os padrões lexicais dos quais a palavra faz parte?

(2) A palavra se associa regularmente com outros sentidos específicos? (3) Em quais estruturas ela aparece?

(4) Há uma correlação entre uso/sentido da palavra e as estruturas das quais ela participa?

(5) A palavra está associada com uma certa posição na organização textual?

É interessante notar a proximidade dessas perguntas com relação àquelas que o linguista

culioliano faz na busca pela forma esquemática de dada unidade. Para a T.O.E., é a partir da

observação de formas textuais que o estudioso encontrará a relação entre a variância e a

invariância das formas e a representará hipersintaticamente de acordo com sua identidade

semântica, de modo que tal identidade “deve ser buscada no próprio desenrolar do processo

significativo, na interação que se verifica entre a unidade e seu(s) contexto(s)” (LOPES,

2006, p. 27, grifo nosso). Assim, ao refutar

a existência de uma estabilidade semântica primeira, em outras palavras, ao refutar a hipótese de que a unidade linguística traz em si qualquer tipo de valor semântico, de conteúdo inerente, a Teoria das Operações Enunciativas postula uma unidade cujo âmago é de natureza variável, maleável, e, o que é mais importante, definido pela função específica que lhe é atribuída nas

A observação das interações entre dada unidade e seu(s) contexto(s) é portanto essencial para

o estudo de sua identidade semântica. É então mais uma vez que a L.C. torna-se interessante

para a análise enunciativa de marcas como mas, porém, todavia, contudo e entretanto,

permitindo, a partir de ferramentas computacionais, ampliar as investigações para além de

categorias tradicionais

49

. Afinal, como afirma Perini (2006, p. 132):

A classificação das formas é importante em gramática porque ela é um dos principais instrumentos que utilizamos para construir, processar e compreender as expressões linguísticas.

Mas a classificação de um objeto (linguístico ou não) não é uma coisa absoluta, invariável. Nossa capacidade de classificação é extremamente flexível, porque precisa se adaptar às necessidades do momento.

É com base nessa preocupação que vemos na união entre a T.O.E. e a L.C. a possibilidade de

descrever fenômenos linguísticos por evidências empíricas sem a necessidade de nos

apoiarmos em categorias pré-estabelecidas. Em oposição a outras abordagens mais

tradicionais, a pesquisa dirigida por corpus assume como ponto de partida formas textuais, de

modo que classes gramaticais e estruturas sintáticas não possuem nenhum tipo de estatuto

prioritário

50

. Estudos desse tipo levam o linguista, assim, a análises mais aprofundadas que

permitem a observação de variadas significações. Em uma crítica às tradicionais barreiras

classificatórias, Sinclair (2004 , p. 172) dá um exemplo, a partir da noção de negação, de que

a terminologia gramatical não corresponde a categorias semanticamente coerentes:

Considere o termo ‘negativo’, o qual contrastará com ‘positivo’ em um sistema de polaridades duplo. Há uma série de realizações de negativas gramaticais em inglês – ‘no’ e ‘not’, etc. Há também semi-negativas como ‘hardly’ e ‘scarcely’, as quais compartilham uma série de características com as verdadeiras negativas – mas não todas –, sendo, dificilmente, consideradas negativas gramaticais51.

49 “In corpus linguistics, computer searches are conducted to establish the patterns of distribution of words within text. This is done on the basis of frequency counts, which reveal which other words a given target word most often occurs with. These patterns of collocation turn out to be far from random.” (WRAY, 2002, p. 25). “Although it has long been known that words are distributed non-randomly in text, and that this non-random distribution carries information about meaning (Firth 1951/1957; de Saussure 1918/1959), it is only more recently that linguists have taken the implications of this seriously and have extended their investigations into multi-word units beyond the traditional categories of phrasal verbs, nominal compounds, and idioms. (DANIELSSON, 2007, p. 18).

50 “In its most extreme form, the corpus-driven approach assumes only the existence of word forms; grammatical classes and syntactic structures have not a priori status in the analysis. In fact, even inflected variants of the same lemma are treated separately, with the underlying claim that each word form has its own grammar and its own meanings” (BIBER, 2009, p. 278).

Vale notar que estamos tratando apenas de corpus cru, não etiquetado.

51 Tradução nossa: “Consider a term like ‘negative’, which will contrast with ‘positive’ in a two-term system of ‘polarity’. There are a number of realizations of grammatical negatives in English, ‘no’ and ‘not’ and so on.

É nesse contexto que acreditamos na possibilidade de se estudar as conjunções

a partir de uma perspectiva dinâmica de estudo, que se preocupe em descrever e compreender as operações linguísticas realizadas por esses elementos, substituindo, assim, as listas de função e classificação. Segundo Rezende (2000) numa perspectiva de análise dinâmica, considera-se a existência de noções, as quais por meio de relações e operações podem dar origem tanto ao léxico quanto à gramática. Assim, nesse enfoque, não há a polarização forma e conteúdo, significado e significante, léxico e gramática, e sim, um trabalho de articulação entre eles. Compreendemos que o próprio conceito de categoria gramatical não se encaixa em uma lógica de designação, mas remete ao conceito de operações da linguagem. A língua não se manifesta baseada em definições generalizadas e acabadas acerca de um determinado elemento de seu conjunto, mas nas possíveis operações que este elemento pode realizar dentro de um contexto maior ou menor. (SALVIATO-SILVA, 2007, p. 120)

Graças ao uso do computador na investigação de corpora, é comum estudiosos e

pesquisadores de outras áreas apontarem a L.C. basicamente como ferramenta de análise

quantitativa de dados. No entanto, como bem observa Viana (2010, p. 35), “para concretizar

seus objetivos de pesquisa, linguistas de corpus lançam mão de métodos quantitativos e

qualitativos (LEECH, 1992; BIBER, CONRAD e REPPEN, 1998)”. Assim, apesar de muitos

estudos de corpora terem início a partir de

metodologia quantitativa – como a observação de frequências de uso – já que é esse o aspecto mais facilmente implementado pelo computador [,] (...) esse não deve ser o único ponto de uma investigação, que necessariamente requer um trabalho de análise qualitativa. Nesse panorama, a abordagem qualitativa se revela fundamental para decodificar os padrões evidenciados pela ferramenta computacional, contextualizar os resultados em termos tanto da população investigada como da macroárea em que uma pesquisa se insere, explicar o que os número revelam, e interpretar os achados de uma forma geral.

(VIANA, 2010, p. 35)

Vale ressaltar, assim, que o computador, em nossa pesquisa, não tem um papel importante

apenas para a análise quantitativa das formas, mas também para a investigação da função

dessas formas em relação ao contexto enunciativo nas quais encontram-se inseridas. Nesse

sentido, não mostraremos apenas números e tabelas sobre os dados levantados, mas

There are also semi-negatives like ‘hardly’ and ‘scarcely’, which share a number of features with true negatives, but not all; these are not normally considered as grammatical negatives”.

buscaremos, a partir deles, mostrar a relação dessas informações com a análise enunciativa de

mas, porém, todavia, contudo e entretanto.