O estudo do léxico e a Análise Contrastiva

para o Inglês e para o Português, torna-se imperativo abordar questões relacionadas a Análise Constrastiva. É importante ressaltar nesse ponto que, apesar de uma das aplicações práticas do projeto FrameNet ser auxiliar no processo de tradução automática através da comparação dos frames descritos para as diversas línguas, funcionando, dessa forma, como uma espécie de interlíngua, ainda não existe uma metodologia formalizada para esse trabalho interlínguístico. Atualmente, cada grupo descreve os frames para uma língua em especial, baseando nos frames descritos para o inglês, sem, no entanto, promover ligações interlinguisticas entre esses frames.

Assim, neste capítulo abordaremos questões relacionadas aos processos de comparação linguística, ressaltando os avanços e as dificuldades que ainda devem ser superadas quando trabalhamos com estruturas de línguas distintas.

2.1- Histórico

Os estudos em Análise Contrastiva (FRIES, 1945; LADO, 1957) se iniciaram na década de 40 para auxiliar o aprendizado de Línguas Estrangeiras, mas só ganharam destaque alguns anos mais tarde, devido a sua associação com o Estruturalismo nos estudos comparativos da linguagem. No entanto, a partir da década de 90, uma mudança drástica no enfoque dos estudos dessa área provocou seu ressurgimento. Isso se deve, principalmente, ao surgimento dos computadores que possibilitaram estudos mais detalhados das formas em uso via análise de corpora.

Os estudos do léxico, que sempre estiveram em segundo plano, também foram afetados por essas mudanças. Segundo Altenberg e Granger (2002), o léxico vinha sendo considerado como uma simples relação entre gramática e sintaxe. No entanto, após uma radical reestruturação de prioridades, as abordagens linguísticas voltadas para os estudos nessa área passaram a considerar fenômenos, que eram tidos como meramente sintáticos, como projeções de propriedades léxicas. O movimento denominado “Contextualismo Britânico” é um dos responsáveis por essa reestruturação. Seus principais representantes, Sinclair (1987 apud ALTENBERG, GRANGER, 2002)

e seus colaboradores, atribuem essa virada ao modelo de Halliday (1966 apud ALTENBERG, GRANGER, 2002) e o advento dos computadores.

O modelo de Halliday (1966 apud ALTENBERG, GRANGER, 2002) reconhece, além do nível gramatical, um nível lexical paralelo e um léxico-gramatical, no qual as restrições lexicais interceptam as gramaticais. Segundo ele, o estudo do léxico não pode ser feito isolado da gramática, vide, por exemplo, o estudo das collocations, isto é, restrições combinatórias que não são consideradas nem gramaticais nem semânticas, mas refletem o uso habitual das palavras. Por isso, usamos a expressão “perfume agradável” em vez de “perfume amável” devido ao fato de a primeira ser mais frequente do que a segunda. Assim, as collocations são baseadas essencialmente em probabilidades, ou seja, uma alta ou baixa chance de uma palavra aparecer junta com outra. No entanto, uma abordagem probabilística como essa só poderia ser posta em prática com o auxílio da análise de corpora e da tecnologia computacional.

Assim, a proposta de Halliday (1966 apud ALTENBERG, GRANGER, 2002) só se tornou viável com a chegada dos computadores e com a possibilidade de se analisar grande quantidade de textos, armazenados em formato eletrônico, por meio de softwares cada vez mais sofisticados. Apesar de esses avanços não terem muita aplicação prática para as pesquisas relacionadas à gramática e à semântica, que envolvem um grau de abstração elevado e dificultam o uso de tecnologia computacional, são fundamentais para as pesquisas do léxico que se baseiam na forma e podem, assim, ser facilmente desempenhadas pelo computador, através da análise de letras, espaços, pontuação ou palavras.

Além desses dois pontos, Altenberg e Granger (2002) ainda citam três outros aspectos que fizeram com que a lexicologia se sobressaísse nas pesquisas linguísticas. O primeiro fator e mais importante é que os estudos do léxico e da gramática passaram a ser interdependentes. Segundo Sinclair (1991 apud ALTENBERG, GRANGER, 2002), é melhor supor, inicialmente, que existe uma correlação entre as escolhas lexicais e gramaticais do que assumir que elas variam independentemente uma das outras. O segundo fator, bastante relacionado com o primeiro, é que os estudos do léxico passaram a fazer parte do eixo sintagmático e não mais do paradigmático. Assim, o enfoque dado à análise das relações de coocorrência levou a descoberta de um grande número de combinações de palavras e de unidades com múltiplas palavras, com graus de estabilidade e variantes idiomáticas distintos.

Já o terceiro ponto refere-se à atribuição de uma maior importância ao diferencial estilístico, o que proporcionou a descoberta de um grande número de diferenças dialetais relacionadas à origem regional, à idade, ao sexo, ao tempo, à classe social na análise dos corpora do inglês. Com todas essas mudanças, ao mesmo tempo que a lexicografia ganha autonomia passa também a fazer parte de uma rede complexa de relações paradigmáticas e sintagmáticas.

Em se tratando da Análise Contrastiva (AC), seu ressurgimento se deve a uma reestruturação das ideias defendidas nos anos 60 quando, depois de uma época bastante produtiva, perdeu importância, devido, principalmente, a sua associação com o Estruturalismo.

Na década de 50, quando o Estruturalismo estava em evidência e a Gramática Gerativa (GG) se iniciava, a Análise Contrastiva apareceu como um ramo da Linguística com finalidade pedagógica voltada, principalmente, para o ensino de Língua Estrangeira. Nesse momento, a suposição de que as similaridades e as diferenças entre as línguas poderiam predizer ou mesmo explicar problemas no aprendizado dessas línguas, além de torná-lo mais eficiente, não se concretiza.

Como os objetivos iniciais não foram alcançados, nos EUA, os estudos de AC não prosperaram. No entanto, na Europa, foram desenvolvidos grandes projetos contrastivos comparando o inglês e as demais línguas europeias na década de 1970. A ideia de que a AC poderia contribuir para a pedagogia da linguagem atrelou-se a estudos relativos a teorias da tradução, descrição de línguas específicas, tipologia linguística e universais da linguagem.

Atualmente, a Análise Contrastiva passou a ser denominada Linguística Contrastiva e o campo de discussões relativas a estudos translinguísticos vem se tornando cada vez mais variado e produtivo. Segundo Altenberg e Granger (2002), existem três motivos para esse ressurgimento. Primeiramente, com a internacionalização da Europa, houve um aumento da demanda por competência multilíngue e transcultural voltada para a tradução, interpretação e ensino de Língua Estrangeira. Além disso, a necessidade de uma comunicação precisa e eficiente entre línguas distintas deixou de ser interessante somente para linguistas e professores e passou a interessar também aos governantes, às instituições comerciais e às organizações internacionais. Esse fato oportunizou o aumento das pesquisas translinguísticas em larga escala.

Ademais, os estudos linguísticos não estavam mais focados em subsistemas de linguagem abstrata, e a intuição dos falantes nativos deixou de ser a principal fonte de

conhecimento linguístico. As ideias iniciais herdadas do Estruturalismo e da GG de que a linguagem era constituída por sistemas autônomos (com a fonologia e a gramática no centro) foi substituída por uma visão da linguagem mais dinâmica com uma maior interação entre os sistemas, sem limites demarcados. O léxico adquiriu uma posição mais central, o conceito de item lexical se expandiu, e a interdependência entre a escolha lexical e os fatores contextuais levou a um crescente enriquecimento do léxico com informações de natureza gramatical, semântica e pragmática, o que influenciou fortemente a Linguística Contrastiva Lexical.

Finalmente, a revolução computacional e a disponibilização de corpora com grande quantidade de textos permitiram o surgimento de pesquisas baseadas em corpora bilíngues e multilíngues e experiências no campo de processamento de linguagem natural, como a tradução por máquina, a recuperação de informação e a lexicografia computacional. Os corpora oferecem dados empíricos para as teorias linguísticas, para aplicações práticas; servem de campo de teste para modelos linguísticos e computacionais e são mais confiáveis do que a introspecção4. Com isso, as novas tecnologias também foram responsáveis pelo aumento da cooperação entre áreas, dentre elas, a Linguística, a Tradução, a Ciência da Computação, a Psicologia e a Ciência Cognitiva.

2.2- Equivalentes de tradução

De acordo com Altenberg e Granger (2002), no passado, a Análise Contrastiva estava relacionada à comparação de sistemas abstratos. No entanto, com o uso dos corpora, ela tem seu escopo ampliado, passando a refletir também situações de uso da língua. Assim, seu objetivo incorpora tanto o sistema da linguagem quanto o uso da linguagem. A partir de então, sua tarefa não é só identificar equivalentes de tradução dentro de um contexto e determinar as correspondências sistemáticas entre as categorias nas linguagens diferentes, mas especificar as similaridades e as diferenças em um modelo de descrição linguística.

Partindo do pressuposto de que como o mundo conceptual envolve diferentes línguas por razões históricas, culturais, geográficas e sociais, a linguagem também divide o espaço semântico de maneiras distintas. Um exemplo disso é a maneira como

No método introspectivo, o pesquisador possui apenas sua memória como fonte de pesquisa de estruturas, tendo que confiar na sua experiência cognitiva para verificar as possibilidades.

as diferentes culturas definem as cores e as relações familiares. Como resultado, sinônimos exatos dentro de uma mesma língua e equivalências exatas entre palavras e expressões de línguas distintas não são muito comuns.

Sentidos divergentes em línguas distintas são, especialmente, percebidos em palavras mais frequentes da língua, como verbos de movimento, percepção e cognição. No inglês, por exemplo, é comum que os verbos de comunicação incorporem a ideia de meio (fax, cable, email, radio), o que não é tão frequente no português. Entretanto, como expressam sentidos básicos, eles aparecem em todas as línguas e são altamente polissêmicos devido aos vários tipos de universais e às extensões de significado específicas de cada língua. As diferenças translinguísticas complexas geradas por esse fato podem ser descritas em termos de processos como especificação do léxico (ou elaboração), esquematização (ou abstração), gramaticalização, extensão metafórica e idiomatismo.

No entanto, existem casos em que um item numa língua não tem correspondência na outra. Esse tipo de diferença translinguística é apresentado de duas maneiras nos corpora de tradução: devido a dificuldades de encontrar um equivalente linguístico, os tradutores podem gerar um grande número de traduções zero ou, então, como não encontraram um único item alvo adequado, indicarem um grande número de traduções, apresentando o item fonte de diferentes maneiras. Ou seja, na falta de um simples protótipo equivalente, varia a apresentação de acordo com o contexto.

Definir e identificar um item lexical que está sendo comparado em línguas distintas pode parecer simples na teoria, mas na prática é um processo complicado, principalmente, para o computador. Isso se deve ao fato de a unidade lexical ser composta por um par forma sentido e de cada uma delas poder ser formada por várias palavras que possuem formas lexicais e gramaticais instáveis. Assim, em estudos que utilizam corpus, o pesquisador tem que saber o que procurar e confiar no software responsável por localizar as unidades lexicais no corpus.

Segundo Altenberg e Granger (2002), o sentido das unidades lexicais deve ser determinado por meio de duas dimensões linguísticas: a paradigmática e a sintagmática. A primeira reflete as relações entre o sentido das palavras de uma mesma língua (sinônimos, antônimos, hipônimos, meronímia) ou de línguas distintas. A maneira como se costuma organizar o vocabulário em termos de conjuntos ou campos lexicais ou em termos de protótipo e categorias universais para efeito de comparação está estreitamente vinculado à visão paradigmática.

Já a dimensão sintagmática relaciona palavras ao contexto linguístico, de forma lexical, semântica e gramatical. Os fenômenos sintagmáticos são tipicamente descritos em termos de coocorrência lexical (collocation), preferências semânticas e funções sintáticas.

Na teoria, é fácil distinguir esses dois eixos da linguística; no entanto, na prática, eles são difíceis de separar. A principal razão para isso é que o sentido de um item lexical (seu status paradigmático) só pode ser determinado com base no contexto em que ele se encontra (seu status sintagmático). De fato, em um primeiro momento, é o padrão sintagmático das palavras que determina o que será considerado como unidade lexical. Por isso, muitas das tentativas de estabelecer línguas independentes ou categorias universais (semântica de frames), segundo as quais o vocabulário e as diferenças entre as línguas podem ser comparadas se encaixam nessa visão.

2.3- Desafios da Linguística Contrastiva

Está claro que a Linguística Contrativa sofreu uma mudança considerável, pois o uso das informações presentes nos corpora, além de oferecer uma base mais detalhada e confiável das correspondências dos itens lexicais entre as línguas, também melhora a qualidade e a utilidade dos léxicos multilíngues5 e das ferramentas de tradução.

No entanto, considerando o tamanho e a complexidade do vocabulário de uma única língua e a tarefa árdua de comparar o léxico de duas línguas, percebe-se que ainda existe muito trabalho a ser realizado. Segundo Altenberg e Granger (2002), apesar da revitalização promovida pelos corpora multilíngues e pelas múltiplas ferramentas disponíveis, muitos problemas ainda tem que ser solucionados e muitos desafios superados:

 A cooperação e a coordenação das atividades entre disciplinas correlacionadas, como a Linguística de Corpus, Linguística Computacional, Lexicografia, Processamento de Linguagem Natural e Estudo de Tradução;

 A necessidade de uma maior integração entre os modelos teóricos e os estudos empíricos da linguagem visando à incorporação das dimensões

Lexicon é o vocabulário de uma determinada língua, incluindo palavras e expressões. Os lexicons multilíngues estabelecem relações entre o vocabulário de várias línguas.

paradigmáticas e sintagmáticas do léxico, assim como a associação da linguagem interna e das relações lexicais translinguísticas de maneira sistemática;

 Refinamento da metodologia contrastiva baseada no corpus, especialmente em relação ao uso combinado de corpora comparativos e traduzidos;

 Criação de corpora multilíngues mais abrangentes e acessíveis, especialmente aqueles traduzidos para mais de uma língua;

 Criação de um maior número de softwares multilíngues em áreas como alinhamento de palavras e sintagmas, concordância paralela, banco de dados lexicais, recursos para tradutores, tradução assistida por computador, sistemas multilíngues nos quais corpora, léxicos eletrônicos e gramáticas estão ligados de maneira simples.

2.4- Multilinguagem

Segundo Kay (1997), a multilinguagem é uma característica das tarefas que envolvem o uso de mais de uma língua natural. Como as traduções estão se tornando cada vez mais necessárias, tornou-se imperativa a busca de maneiras mais eficientes de produzi-las, como por exemplo, as traduções automáticas parciais ou completas, as ferramentas de auxílio aos tradutores e a produção automática, completa ou parcial, de textos originais traduzidos paralelamente em várias línguas.

No entanto, a multilinguagem vai além da simples preparação de textos paralelos, visto que, antes que qualquer processamento seja realizado, é preciso identificar a língua na qual ele foi escrito, e é nesse ponto que a tecnologia tem sido utilizada de maneira bem produtiva. Assim, em ambientes de trabalho onde mais de uma linguagem é usada, o problema de armazenar e recuperar informações adquire uma dimensão multilíngue.

Quando temos apenas uma língua envolvida, vários processamentos úteis podem ser realizados, baseando-se em um modelo no qual os textos são essencialmente uma sequência de caracteres. Assim, os processadores de textos podem, por exemplo, identificar e corrigir erros ortográficos. No entanto, quando tratamos de multilinguagem, o único problema que pode ser resolvido por esse método é a identificação da língua. Ainda nos resta o caminho essencial das equivalências, ou quase equivalências, entre palavras, sentenças e textos, mediados por seu significado.

Nesse âmbito, o processamento de linguagem automático pelo computador é extremamente difícil, e o que se percebeu por meio de muitas tentativas de automatizar esse processo nos últimos anos é que isso se deve, principalmente, à distinção entre significado e interpretação e entre significado e referência.

De acordo com Kay (1997), em um processo de tradução, o que se mantém invariável é a interpretação do leitor, ou seja, a resposta que o texto evoca no leitor, e não o significado do texto em si. Assim, acredita-se que, quando um domínio de discurso é suficientemente restrito ou técnico, a distinção entre significado e interpretação tende a desaparecer. Já a questão relativa a significado e referência está vinculada a um problema filosófico, ou seja, até que ponto o significado está atrelado à referência. Como os computadores não possuem nada parecido com um sistema perceptual, como eles irão fazer o processamento de significado e da interpretação ainda é uma dúvida recorrente, já que o processamento da linguagem é feito, na hipótese menos eficaz, a partir dos caracteres e, na mais, a partir dos significados.

Uma outra dúvida recorrente para os pesquisadores da Inteligência Artificial e da Linguística Computacional é se a programação do computador, para realizar tarefas humanas, deveria imitar as características humanas (que ainda não são conhecidas) ou criar processos completamente distintos. Um exemplo disso seria a interpretação de textos, na qual, para supor as intenções do autor em um dado contexto, seria necessário um ponto de vista humano.

De acordo com Kay (1997), o processo de tradução pode ser realizado de duas maneiras: bottom-up (de baixo pra cima) e top-down (de cima pra baixo). Na primeira, parte-se das palavras, sintagmas e sentenças e raramente se leva em consideração o texto com um todo, o que dificultaria o processo tanto para humanos com para máquinas. O problema é que o tradutor tem sempre que levar em consideração o sentido dado pelo autor ao escrever o texto, seja no âmbito mais reduzido ou no mais geral. No entanto, se o tradutor puder fazer algumas suposições sobre o assunto, o problema assume algumas propriedades top-down, que o deixa, mesmo que em pequena escala, mais fácil de resolver. Isso acontece, quando, por exemplo, restringimos os textos de estudos a áreas específicas como a meteorologia.

Assim sendo, vislumbram-se algumas alternativas para o problema de contexto e interpretação. Como ainda não é viável, em longo prazo, construir modelos confiáveis do comportamento humano, seria mais plausível criar sistemas que envolvam máquinas e pessoas, explorando o que cada um tem de melhor e procurando maneiras de

modificar a tarefa de forma que a máquina possa ter, naturalmente, controle sobre o contexto.

Por isso, o campo de tradução por máquina mudou pouco nos últimos anos. Duas questões primordiais dividem os pesquisadores. A primeira diz respeito a qual seria a melhor maneira de tentar resolver o problema: o uso da chamada interlíngua ou da abordagem por transferência (transfer approach). A segunda diz respeito à relativa importância dos problemas linguísticos em oposição ao senso comum e conhecimento geral.

Segundo Kay (1997), uma das vantagens da abordagem interlíngue é que o método é mais robusto e econômico, pois todo par, em um conjunto de línguas, somente requer uma tradução de e para a interlíngua para cada membro do conjunto. Para oferecer as mesmas facilidades, a abordagem por transferência, de acordo com a qual a maior parte do sistema de tradução para um dado par de línguas é específico de um par, requer um recurso separado para traduzir em cada direção para cada par de línguas.

Na abordagem por transferência, uma parte do trabalho de tradução é realizada no contexto da língua fonte isolada e uma outra parte no contexto da língua alvo. No entanto, o trabalho mais árduo está na comparação de informação de um par de línguas específicas. Isso é usado como um argumentado desfavorável a interlíngua visto que seria extremamente difícil construir uma interlíngua que pudesse funcionar para todas as línguas.

Um sistema de transferência no qual a análise e a geração de componentes são relativas à transferência de componentes e onde a transferência é conduzida em termos de entidades quase abstratas tem muito de um sistema de interlíngua, sem assumir o compromisso com a universalidade linguística, que muitos veem como a marca da abordagem interlíngue. Esses sistemas de transferência semântica estão atraindo muita atenção.

Como esses sistemas são uma espécie de posição intermediária entre a interlíngua e a transferência, eles podem também ser vistos como um compromisso entre a abordagem linguística e os sistemas baseados no conhecimento. A visão desses sistemas é que a tradução depende em grande parte de informação e habilidade, que não são características especificamente linguísticas. Nós só consideramos que é o conhecimento linguístico que caracteriza a tradução humana, porque assumimos o senso comum e o conhecimento cotidiano de mundo de maneira tal que as máquinas não podem fazer.

Poucas pessoas ainda veem as ideias originais de traduções de alta qualidade

No documento francineferreiravaz (páginas 49-70)