• Nenhum resultado encontrado

A utilização do Corpus Web para o estudo das unidades fraseológicas e das parêmias O início das pesquisas em Linguística a partir da utilização de corpora simboliza a

No documento Domínios de (páginas 126-131)

Cultura, cognição e uso: Aspectos de análise das expressões cromáticas fraseológicas e paremiológicas

4. A utilização do Corpus Web para o estudo das unidades fraseológicas e das parêmias O início das pesquisas em Linguística a partir da utilização de corpora simboliza a

necessidade de se analisar a língua em uso, observando as unidades lexicais não apenas quanto ao seu significado, como também em relação à sua coocorrência com outras unidades, propondo novas metodologias de estudo nas linhas de pesquisa relacionadas à Lexicografia, Lexicologia, Terminologia, Terminografia, Fraseologia, Fraseografia, Tradução, dentre outras.

No que diz respeito especificamente à elaboração de dicionários, os corpora assumiram uma posição fundamental, uma vez que sua utilidade pode ser identificada em todas as suas etapas de elaboração, possibilitando a observação e a análise de uma dada unidade lexical em seu contexto real de uso.

Em se tratando da pesquisa em Fraseologia e Paremiologia, é sabido que os estudos na área ainda se deparam com problemas de ordem prática, tais como a necessidade de grandes corpora que facilitarão o reconhecimento e a investigação de seu objeto de estudo. Por se tratar de unidades que se caracterizam pela polilexicalidade, fixidez e idiomaticidade, seu significado total deve ser entendido como um todo, cabendo ao falante identificar a estrutura fraseológica e compreender seu significado metafórico.

A complexidade de identificação recai sobre o fato de que a maioria das expressões pode ser confundida com simples combinações de palavras de sentido literal. Por exemplo, se um indivíduo “tem as costas largas”, para além do sentido metafórico que significa a capacidade de suportar grandes responsabilidades, pode-se compreender que se trata apenas de uma característica física.

Claro que caberá ao contexto a clarificação de ambiguidades. Contudo, se para um falante nativo as dificuldades são evidentes, a identificação de tais unidades pelas máquinas, em contrapartida, mostra-se impossível, visto sua semelhança com palavras que coocorrem livremente. Colson (2004) salienta que estudos recentes em linguística computacional têm desafiado a necessidade de recursos semânticos na análise de textos, na medida em que propõem o acesso indireto ao significado, considerando as estruturas linguísticas.

Outra dificuldade diz respeito à baixa frequência dessas unidades lexicais, pois, apesar da inegável importância assumida pelas unidades fraseológicas e pelas parêmias no interior dos mais variados textos, tais itens apresentam uma frequência muito baixa nos corpora tradicionais. Como poderia, então, um estudioso do léxico descrever uma unidade fraseológica com base nos dados apresentados pelos corpora se estes apresentam ocorrências tão baixas de seu objeto de estudo?

Para Colson (2003), o pesquisador se depara com um eterno dilema, pois, se por um lado ele encontra no corpus a confirmação da existência do enunciado fraseológico, por outro, não poderá se basear nele para a descrição do seu uso. Com efeito, acrescenta o autor, seria preciso um corpus gigantesco e inexistente para as ambições atuais, pelo menos se considerarmos apenas os corpora tradicionais.

A fim de comprovarmos a asseveração do autor, tomemos como exemplo a ocorrência das expressões idiomáticas comer o pão que o diabo amassou; abraçar o mundo com as pernas; chorar pelo leite derramado em dois corpora de acesso livre: o Corpus do Português (disponível em http://www.corpusdoportugues.org/ - acesso em 14/08/2013), e o Corpus Brasileiro (disponível em http://corpusbrasileiro.pucsp.br/cb/Inicial.html - acesso em 14/08/2013). O primeiro, composto por 45 milhões de palavras encontradas em 57 mil textos em português (brasileiro e europeu) redigidos entre os séculos XIV e XX. O segundo, composto por um bilhão de palavras encontradas em textos de vários gêneros registrados no português brasileiro. Atentemos para a tabela abaixo:

Tabela 1: Ocorrência das EIs em corpora tradicionais.

Corpus do Português Corpus Brasileiro

Frequência Exemplo Frequência Exemplo

comer o pão que

o diabo amassou

1 Sem saber uma palavra de inglês, teve de « comer o pão que o diabo amassou » e enfrentar uma difícil integração no sistema educativo norte-americano. 0 --- abraçar o mundo com as pernas 0 --- 0 ---

chorar pelo leite derramado

0 --- 0 ---

A procura por essas EIs nos corpora em questão apontou para a baixa ocorrência de tais expressões, fato esse que demonstra a dificuldade de análise dessas unidades lexicais. Observamos a ocorrência de alguns provérbios, tais como: quem com ferro fere, com ferro será ferido; mais vale um pássaro na mão do que dois voando; a cavalo dado não se olham os dentes.

Tabela 2: Exemplos de provérbios em corpora tradicionais.

Corpus do Português Corpus Brasileiro

Frequência Exemplo Frequência Exemplo

quem com ferro fere, com ferro será ferido

1 Uma vez foi para defender a vida do capitão-mór; devia ferir? - Devias, filho. Quem com ferro fere, com ferro será ferido. 0 --- mais vale um pássaro na mão do que dois voando 1 A senhora falou-me em um apaixonado. Por onde andará ele? Eu estou aqui, e mais vale um pássaro na mão do que dois a voar.

0 ---

a cavalo dado não se olham os dentes

1 Mas ninguém tinha nada com isso, a cavalo dado não se olham os dentes, Odair que contasse a sua história como quisesse, a vida era dele, cada um pode ter a sua versão, não se ganha nada em especular os enredos de cada um.

0 ---

Como vemos, os dados não diferem muito da tabela anterior. Importa mencionar que procuramos por toda a expressão, como constam acima, ou seja, da forma como um falante comum direcionaria a pesquisa. Ademais, merece destaque o fato de os exemplos acima serem do português de Portugal, o que poderia causar estranhamento a um falante brasileiro.

Tais constatações também remetem a outro problema, que é a ausência dos fraseologismos em dicionários que tomam como parâmetro de inserção na nomenclatura a frequência em corpora. Novamente, o único exemplo em português europeu poderia também excluir o fraseologismo da nomenclatura de um dicionário que apresentasse como pressuposto a ocorrência em contextos brasileiros.

Alguns autores (COLSON, 2003; SARDINHA, 2003; XATARA, 2008) defendem a existência desse gigantesco corpus necessário para o trabalho dos estudiosos do léxico. Esse corpus é a World Wide Web ou WWW. Embora haja objeções no tocante à consideração da Web como corpus, tais como o tipo de linguagem utilizada, o fato de nem todas as páginas serem escritas por falantes nativos e, o princípio fundamental da Linguística de Corpus, isto é, a falta de controle da ferramenta em questão pelo especialista (COLSON, 2007), o seu tamanho faz com que seja o maior corpus que temos à disposição atualmente. Além disso, sua facilidade de acesso e a frequência com que é alimentado são fatores que favorecem sua utilização como

ferramenta autêntica para a descrição do léxico. Vejamos a ocorrência dos mesmos exemplos citados anteriormente na Web. Primeiramente para as expressões idiomáticas:

Tabela 3: Exemplos de EIs no corpus Web. Web

Frequência Exemplo

comer o pão que o diabo amassou

208.000 Neymar pode comer o pão que o diabo amassou com milhões na Espanha.

abraçar o mundo com as pernas

34.500 São sentimentos que afloram do nada. Vontade de abraçar o mundo com as pernas, sendo que minhas pernas - coitadas - não conseguem abraçá-lo um terço.

chorar pelo leite derramado

151.000 Se for pra chorar pelo leite derramado, que seja leite condensado!

Agora para os provérbios:

Tabela 4: Exemplos de provérbios no corpus Web. Web

Frequência Exemplo

quem com ferro fere, com ferro será ferido

258.000 O ditado popular “quem com ferro fere, com ferro será ferido” vai ser usado pelo ex- presidente da Câmara, o Deputado petista Marco Maia contra o Superior Tribunal Federal - STF.

mais vale um pássaro na mão do que dois voando

77.500 Se o homem tomasse consciência do valor da paz, não haveria mais guerras no mundo – bastava que cada um parasse para pensar na beleza do sorriso de uma criança e descobrisse que mais vale um pássaro na mão do que dois voando.

a cavalo dado não se olham os dentes

22.900 A cavalo dado não se olham os dentes dirás, à moda de Rui Barbosa: A bucéfalo de oferenda não perquira a conformação odôntica.

Com base nesses poucos dados, não há dúvidas da importância da Web para o estudo das unidades lexicais em questão. Com dezenas de bilhões de páginas escritas nas mais variadas línguas e um número inestimável de palavras, esse motor de busca torna-se essencial para a descrição do uso, para a busca pelo significado e pelas suas possíveis traduções. Merece atenção o fato de inexistir qualquer outro corpus com uma quantidade de palavras suficiente para que

haja um número de ocorrências que propicie a descrição adequada das unidades fraseológicas e das parêmias como ocorre na Web.

Ademais, por meio da Web também podemos analisar a coocorrência de palavras, no caso das colocações e locuções, além de sua variação, por exemplo, chorar *pelo leite derramado / chorar *sobre o leite derramado, bem como variações entre o português brasileiro e o de Portugal, tal como mais vale um pássaro na mão do que dois *voando (PT-BR) / mais vale um pássaro na mão do que dois *a voar (PT – EU).

Assim sendo, concordamos com a afirmação de Colson (2007) de que a Web pode ser sim considerada o maior corpus ao qual o lexicólogo/lexicógrafo tem acesso livre e rápido atualmente, que garante um algoritmo capaz de classificar os exemplos, de isolar partes da expressão procurada e de encontrar suas variantes e suas combinações, garantindo, consequentemente, a descrição eficaz da unidade lexical.

Por fim, para além de suas críticas, a Web é um motor de busca que pelo menos coloca em questão a eficiência dos corpora tradicionais e que promete revolucionar as pesquisas não apenas relacionadas ao léxico, mas dos estudos linguísticos em geral.

No documento Domínios de (páginas 126-131)

Outline

Documentos relacionados