• Nenhum resultado encontrado

CAPÍTULO 1: Fundamentação Teórica

1.3 Linguística de Corpus

1.3.1 Definição, um pouco de história e objetivos

Antes de definir a Linguística de Corpus propriamente, creio ser pertinente explicar no que consiste um corpus19. Segundo Berber Sardinha (2004, p. 18-9), a melhor definição é a seguinte:

Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise (SANCHEZ, 1995, p. 8-9).

Pela descrição, constata-se que é preciso atentar para a origem, o propósito, a composição, a formatação, a representatividade e a extensão do corpus, já que os dados linguísticos dos quais se constitui serão a matéria-prima da pesquisa.

Considerando todos esses aspectos, o papel da Linguística de Corpus é justamente ocupar-se ―da coleta e da exploração de corpora [...], com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador‖. (BERBER SARDINHA, 2004, p. 3).

No entanto, o uso de computador para análise de corpora ocorreu somente nos anos 60, com a então arquitetura mainframe. Bem antes disso, na Antiguidade e na Idade Média, a compilação de dados linguísticos era feita manualmente. (BERBER SARDINHA, 2004, p. 3). Nos dias de hoje, a Linguística de Corpus parece exercer influência na pesquisa em Linguística de forma geral, em cinco continentes (América do Norte, América do Sul, Ásia, Oceania e Europa — neste mais notadamente), já que permite a descrição dos mais diversos ______________

19

O plural de corpus é corpora (latim), embora algumas pessoas empreguem somente a forma corpus tanto no singular quanto no plural. (BERBER SARDINHA, 2009, p. 6)

aspectos da linguagem com várias finalidades, desde o ensino de línguas (BÉRTOLI- DUTRA, 2002; DELEGÁ-LÚCIO, 2006; MOREIRA FILHO, 2007) até a descrição da associação de características linguísticas num mesmo corpus (análise multidimensional)

(SHERGUE, 2003; KAUFFMANN, 2005; BÉRTOLI-DUTRA, 2010) — passando pelos

objetos da Terminologia (TEIXEIRA, 2008; ZANETTI, 2009) e pela análise de padrões linguísticos (JACOBI, 2001; FUZETTI, 2003; SUCCI JR., 2003), só para citar alguns.

Para tanto, parte da observação da língua em uso para a abstração de teorias, fundamentada numa visão probabilística da linguagem, segundo a qual determinados traços linguísticos tendem a apresentar frequência de ocorrência maior que outros. Por exemplo:

no nível morfossintático, a frequência de substantivos (no inglês e, com certeza, no português) é maior do que qualquer outra categoria; cerca de 25% das palavras são substantivos (Kennedy, 1998, p.103). Desse modo, a probabilidade de um traço ser um substantivo é maior do que outra classe gramatical. (BERBER SARDINHA, 2000)

À probabilidade maior ou menor de ocorrência de um traço linguístico, soma-se ainda o fato de esses traços coocorrerem com outros. Essa recorrência20 passa, assim, a evidenciar que a língua vai se processando ao modo de padrões: ―Quando duas palavras de frequências diferentes coocorrem de maneira significativa, a colocação21 expressa um valor diferente na descrição de cada uma dessas palavras22.‖(SINCLAIR, 1991, p. 115, tradução minha)

Em Terminologia, essa padronização é comumente atestada pela quantidade substancialmente maior de ocorrência de termos complexos (duas ou mais lexias) em detrimento de termos simples (uma lexia) — em torno de 70% de acordo com Krieger; Finatto ______________

20 Para mais detalhes, vide, no capítulo 5, subseção 5.1.1 (Medidas Estatísticas de Associação).

21Segundo Berber Sardinha (2004, p. 40), colocação consiste na associação entre itens lexicais. Por exemplo: no

corpusde estudo, além de ―mastectomia‖ ocorrer numa frequência muito maior do que ―radical a Halsted‖, em cada um dos casos, pode-se conhecer o sentido individual de mastectomia, radical e até saber informações a respeito do médico cirurgião que deu nome à técnica — formando um epônimo —, mas o conceito designado por ―mastectomia radical a Halsted‖, não. Essa opacidade (ALVES, 2006), também chamada por imprevisibilidade semântica (BARROS, 2004) entre os terminólogos, parece conferir estabilidade ao conjunto (de forma e de sentido), compondo um padrão: ―[...] uma associação regular entre itens lexicais, categorias gramaticais, semânticas ou pragmáticas, observada num corpus, extraída por meio da aplicação de ferramentas computacionais ou pela observação de concordâncias‖. (BERBER SARDINHA, 2005, p. 216)

22

―When two words of different frequencies collocate significantly, the collocation has a different value in the description of each of the two words‖.

(2004, p. 71). Além de complexas do ponto de vista estrutural, essas unidades, conhecidas entre os terminólogos por sintagmas, são ainda, em sua maioria, nominais, do que é possível concluir que determinados traços linguísticos possuem mesmo mais probabilidade de serem encontrados que outros.

De qualquer forma, o que pode atestar ou não determinada probabilidade é sempre um corpus. Daí ―a importância primordial de um corpus como fonte de informação, pois ele registra a linguagem natural realmente utilizada por falantes e escritores da língua em situações reais‖. (BERBER SARDINHA, 2000)

1.3.2 Tipos de pesquisa com corpus

As pesquisas que envolvem corpora podem ser, segundo Togninni-Bonelli (2001, p.74), baseadas em corpus (corpus-based) ou dirigidas por corpus (corpus-driven).

No primeiro caso, o corpus presta-se somente ao teste de hipóteses e exemplificação de teorias pré-existentes.

Em contrapartida, no segundo tipo de abordagem, o corpus serve de ponto de partida à observação dos dados linguísticos, através da qual hipóteses poderão ser aventadas e generalizações feitas: ―A abordagem ditada pelo corpus, portanto, visa à observação de padrões e frequências lexicais [...] Em outras palavras, os dados obtidos dos corpora podem ser usados para a formulação de descrições léxicogramaticais‖. (SHEPHERD, 2009, p. 104)

Essa foi a direção tomada nesta pesquisa: parti do corpus para chegar aos termos, pois, como sublinha Cabré (1993), é no ambiente nos quais estão inseridos que os termos se constituem como tais.

1.3.3 Linguística de Corpus e Terminologia

Se a Linguística de Corpus parte da observação da língua em uso e a Terminologia de cunho descritivo-comunicacional defende que é na e pela linguagem (especializada) que um item (lexical, braquigráfico) adquire estatuto de termo, a interface entre ambas as áreas parece ser produtiva. Segundo Lino (1994 apud Barros, 2004, p. 263), um corpus textual permite, entre outras investigações, observar ―[...] os fenômenos de terminologização nos diferentes textos de um certo período histórico; [...] selecionar diversos tipos de contextos

[...]; delimitar definições estabilizadas e/ou harmonizadas; observar colocações [coocorrências] e fraseologismos [...]‖.

Cabré (1993, p. 364), ao tratar do assunto, afirma que:

A concepção do trabalho terminológico sobre a base de corpus automatizado e grandes bancos de dados oferece à terminologia vantagens importantes, em contraste com os sistemas tradicionais vigentes até épocas muito recentes. A enorme quantidade de dados que um terminólogo pode manipular traz solidez e segurança às decisões que este deve tomar ao longo do processo de trabalho e confere à atividade terminológica uma maior flexibilidade e uma projeção múltipla aos diferentes grupos de usuários. (CABRÉ, 1993, p. 364, tradução minha)23

Para Finatto (2006, p. 154-5), a Linguística de Corpus oferece mais que agilidade e solidez ao permitir a manipulação de dados em grandes proporções com auxílio computacional. Ela oferece um novo jeito de conceber a língua:

A língua dos corpora mostra-se como um sistema de combinatórias, um sistema probabilístico e uma grande diversidade de usos que demanda observação. Nesse sistema, cada palavra se define pelas relações que estabelece com outras, e nada pode ser mais estruturalista do que isso. Uma nova versão para o valor linguístico de Saussure. Assim, a Linguística de Corpus nos mostra que a língua que primeiro temos à frente é a língua posta e não a língua da mente e que sua observação extensiva pode nos revelar traços desse sistema que não perceberíamos a partir de frases-espelho para padrões subjacentes.

_____________ 23

―La concepción del trabajo terminológico sobre la base de corpus automatizados y grandes bancos de datos ofrece a la terminología ventajas importantes, en contraste con los sistemas tradicionales vigentes hasta época muy recientes. La enorme cantidad de datos que um terminólogo puede manejar aporta firmeza y seguridad a las decisiones que este debe tomar a lo largo del proceso de trabajo, y confiere a la actividad terminlógica uma mayor flexibilidad y uma proyección múltiple a los diferentes colectivos de ususarios.‖

Em adição, à luz do quadro conceitual da Linguística de Corpus, metodologias que facilitem o trabalho terminológico podem ser concebidas, como ocorreu em Araújo (2006) em que subsídios foram gerados para criação de uma base de dados terminológica no campo da Documentação a fim de assegurar a recuperação da informação.

Considerando-se, assim, os pressupostos de ambas as áreas e os benefícios acima destacados, a Linguística de Corpus pode funcionar como promissora via de acesso aos objetos da Terminologia: termo, definição e/ou fraseologias, seja com o objetivo de tê-los como produto final, seja com o propósito de gerar métodos para sua extração, seja com ambas as finalidades — caso desta pesquisa, em particular, em que procurei analisar primeiramente o índice de acerto de ferramentas para então proceder à obtenção e à definição de um possível conjunto terminológico da (Onco)mastologia.

É justamente a respeito do passo a passo para obter os candidatos a termo gerados pelos programas, assim como os procedimentos aos quais recorri para refiná-los, que tratarei no próximo capítulo, dedicado à metodologia.