3. FUNDAMENTAÇÃO TEÓRICA
3.3 A Linguística de Corpus LC
3.3.4 Tipos de abordagens em LC: Corpus-based e Corpus-driven
A distinção entre as abordagens Corpus-based (baseada em corpus) e Corpus-driven (direcionada pelo corpus) foi feita pela primeira vez por Tognini-Bonelli (2001).
A respeito da abordagem Corpus-based, segundo as reflexões de Tognini-Bonelli (2001), podemos observar que:
[...] o termo Corpus-based é utilizado para se referir a uma metodologia que se utiliza principalmente de corpus para expor, testar ou exemplificar teorias e descrições que foram formuladas antes de grandes corpora terem sido disponibilizados para informar estudos linguísticos. [...] se um corpus era para ser usado para avaliar teorias, a teoria teria de ser posta de uma forma explícita para que aqueles aspectos do corpus que ela cobria pudessem ser distinguidos daqueles em que a teoria não cobria, ou discordava das evidências. Tal relação entre teoria e dados é a relação clássica em Linguística (TOGNINI-BONELLI, 2001, p. 65)34.
Para Tognini-Bonelli (2001) é necessário considerarmos que as evidências podem ou não confirmar as categorias previamente estabelecidas em um estudo Corpus-based, que é uma visão mais restrita, por tratar a evidência do corpus como meio para extração de exemplos e checagem de hipóteses, mas a evidência trazida à luz pode fazer com que as formulações prévias sejam rejeitadas ou confirmadas, porém a evidência não pode ser ignorada. A abordagem baseada em corpus, geralmente, se limita a quadros teóricos prévios e corre o risco de tentar “encaixar a evidência” nesse quadro.
Ainda assim, existem muito trabalhos que reconhecem a importância de um estudo baseado em corpus e para muitos estudos a abordagem Corpus-based parece ser a melhor opção. Taylor e Francis ([20--]), por exemplo, falam em estilística de corpus (Corpus stylistics) e afirmam que, para a necessidade de pesquisa que tinham, a Corpus-based approach foi a melhor ferramenta que puderam encontrar para atender aos seus objetivos:
Nossa decisão em usar uma abordagem baseada em corpus deveu-se ao fato de ser a melhor ferramenta que encontramos para realizar o tipo específico de investigação que tínhamos em mente. [...] Isso levou à ideia de desenvolver
34 No original: […] the term corpus-based is used to refer to a methodology that avails itself of the corpus mainly to expound, test or exemplify theories and descriptions that were formulated before large corpora became available to inform language study. [...] If a corpus was to be used to evaluate one of this class of theories, the theory would have to be put into an explicit form so that those aspects of corpus patterning that it covered could be distinguished from those where the theory did not cover, or was at variance with, the evidence. Such a relationship between theory and data is the classical one in linguistics (TOGNINI-BONELLI, 2001, p.65).
um método de anotação textual sistemática e replicável que seria usado amplamente (TAYLOR; FRANCIS, [20--], p. 6).35
Mas, se direcionado pelo corpus, o estudioso pode postular novas hipóteses. Tognini- Bonelli (2001) reconhece que a observação leva à hipótese que leva à generalização e assim podemos fazer afirmações teóricas a respeito do funcionamento linguístico.
A autora ressalva ainda, que na LC, a metodologia de verificação dos dados, não é mecânica, mas mediada constantemente pelo linguista, que continua comportando-se como um linguista e aplica o seu conhecimento, experiência e inteligência em todas as fases durante o processo de análise. A abordagem Corpus-driven, direcionada pelo corpus, pode extrair categorias linguísticas sistematicamente, a partir dos padrões recorrentes e distribuições regulares, observados a partir da linguagem no contexto.
A respeito da abordagem Corpus-driven para a LC, Tognini-Bonelli (2001) explica que:
Na abordagem direcionada por corpus, o linguista usa um corpus para além da seleção de exemplos para confirmar um argumento linguístico ou validar uma teoria. Em uma abordagem direcionada por corpus, o compromisso do linguista é com a integridade dos dados como um todo, e as descrições objetivam ser amplas em relação às evidências do corpus. O corpus, portanto, é mais do que um repositório de exemplos usados para apoiar teorias pré- existentes ou determinar probabilisticamente um sistema já bem definido. As teorizações são totalmente consistentes com e refletem diretamente as evidências fornecidas pelo corpus (TOGNINI-BONELLI, 2001, p.84)36.
Tognini-Bonelli vê a abordagem Corpus-driven de modo mais otimista, pois para ela, nesse âmbito o corpus não se limita a ser um repositório de exemplos, para apoiar teorias previamente formuladas, mas, ao contrário; as demonstrações teóricas vão ser totalmente coerentes com as evidências fornecidas pelo corpus.
Assim, a autora afirma que a LC é uma nova abordagem, e essa é uma das razões pelas quais a confiabilidade do corpus suscita preocupação. Mas, ela mesmo, nos lembra que isso pode ser remediado por meio do monitoramento constante do corpus, como sustenta Biber
35 No original: […] our decision to use a corpus-based approach was because it was the best tool we could find to
carry out the particular kind of investigation we had in mind […] This led to the idea of developing a method of
systematic and replicable textual annotation which would be used comprehensively (TAYLOR; FRANCIS, [20-- ], p. 6).
36 No original: […] the corpus-driven approach to corpus linguistics, where the linguist uses a corpus beyond the selection of examples to support linguistic argument or to validate a theoretical statement. In a corpus-driven approach the commitment of the linguist is to the integrity of the data as a whole, and descriptions aim to be comprehensive with respect to corpus evidence. The corpus, therefore, is seen as more than a repository of examples to back pre-existing theories or a probabilistic extension to an already well defined system. The theoretical statements are fully consistent with, and reflect directly, the evidence provided by the corpus (TOGNINI-BONELLI, 2001, p.84).
(1994 apud TOGNINI-BONELLI, 2001, p. 88). A evidência do corpus se relaciona com a descrição e com a teoria exatamente da mesma forma que qualquer outra evidência científica faz, passa por procedimentos de amostragem, testagem e etc.; o que só aumenta a autoridade e a confiabilidade das evidências encontradas no campo. Com base nessas reflexões, Tognini- Bonelli (2001) afirma que a teoria não existe independente da evidência. E a LC, principalmente a abordagem direcionada pelo corpus, demonstra essa relação de “permitir a formulação de constructos teóricos com base nas evidências linguísticas” (TOGNINI-BONELLI, 2001, p.68- 88).
No entanto, acreditamos também que existem estudos Corpus-based e Corpus-driven ao mesmo tempo, pois os resultados do corpus podem ser surpreendentes a ponto de redirecionar as hipóteses, fazendo com que sejam reformuladas ou ainda que preservadas as primeiras hipóteses, podem permitir o surgimento de novas hipóteses diante da riqueza dos dados fornecidos pelos corpora.
Posto isto, fica clara a importância desse arsenal para estudos linguísticos. Quando utilizamos um corpus ou diversos corpora para desenvolver análises linguísticas, estamos fazendo a Linguística de Corpus, mas, para isso, alguns princípios precisam ser observados. É sobre isso que tratamos no próximo tópico.