• Nenhum resultado encontrado

Neste capítulo, são apresentados os métodos de auxílios propostos para aprimorar a escrita acadêmica em português de hispano falantes. Esses auxí- lios são sustentados por léxicos bilíngues do espanhol e o português, criados para tratar erros e/ou inadequações que ocorrem no processo de transferência de itens lexicais do espanhol para o português. Análises realizadas no córpus de aprendizes Espanhol-Acadêmico-Br, apresentado no Capítulo 5, compro- varam a importância de se investir na criação desses léxicos bilíngues. Fi- nalmente, neste capítulo apresenta-se uma arquitetura que inclui os léxicos bilíngues em uma ferramenta computacional para auxiliar os hispano falantes aprendizes de Português, chamada HABLA.

Este capítulo trata de um dos objetivos deste doutorado: a aplicação dos métodos e recursos léxico-sintático-semânticos baseados em córpus paralelos alinhados, na área de Sistemas de auxílio à Escrita. O uso destes se destina a auxiliar na pós-edição de um texto científico escrito em português por um aluno pesquisador cuja língua materna é o espanhol.

6.1

Métodos de Auxílios à Escrita

Como observado na Figura 6.1, nesta pesquisa empregou-se métodos de tradução automática, baseados em córpus paralelos para disponibilizar os

três auxílios à escrita:

1. Equivalências entre o espanhol e português; 2. Escolhas lexicais em português e

3. Detecção e correção de erros.

Para materializar esses auxílios, combinaram-se a tradução automática com diversas heurísticas para compilar os quatro léxicos bilíngues:

• listas de cognatos e falsos cognatos das línguas português e espanhol; • listas de pares de marcadores discursivos;

• listas das expressões formulaicas que aparecem nos textos científicos; • listas de verbos relacionados com pesquisa científica em português, re-

correntemente utilizados em textos acadêmicos.

Os léxicos bilíngues foram gerados em função do tipo de auxílio que ofe- recem. Por exemplo, o léxico de cognatos e falsos cognatos tem a função de indicar que um determinado item é um falso cognato, como consequência, o recurso alerta os aprendizes sobre possíveis enganos na procura de equi- valências entre as duas línguas. Desta forma, ele oferece o primeiro auxílio da Figura 6.1. Por outro lado, o léxico de marcadores discursivos é um re- curso que oferece os três auxílios apresentados na Figura 6.1, ele mostra as equivalências entre o espanhol e o português; apresenta sinônimos de marca- dores em português e identifica alguns erros produzidos pela interferência do espanhol nos marcadores discursivos em português.

A hipótese que sustenta a criação dos recursos lexicais é a de que as vezes um hispano falante, aprendiz do português, utiliza o conhecimento que tem da sua língua nativa, o espanhol, para produzir os textos em português. A par- tir disso, na transferência dos léxicos do espanhol para o português ocorrem erros ou inadequações. O auxílio, (1) Equivalências entre o espanhol e portu- guês, parte do princípio que o hispano falante conhece o termo em espanhol, mas não conhece o termo adequado em português. Assim apresentam-se as melhores equivalências e exemplos em que são utilizadas. Embora técnicas de tradução automática tenham sido utilizadas para obter as equivalências, os algoritmos se combinaram com outras heurísticas e as saídas dos métodos de tradução foram preparadas para auxiliar a produção escrita. O segundo au- xílio, (2) Escolhas lexicais em português, é útil para aprendizes que conhecem

Figura 6.1: Auxílios oferecidos pelos léxicos bilíngues

o termo em português, mas procuram por termos mais adequados, que po- dem ser obtidos a partir da apresentação de sinônimos. Finalmente, o terceiro auxílio, (3) Detecção e correção de erros, identifica erros lexicais nos textos e tenta corrigi-los.

Os léxicos bilíngues contêm itens lexicais de diferentes tipos. Alguns léxi- cos contêm palavras e/ou multipalavras que são de categorias lexicais dife- rentes. Como consequência, a compilação de cada léxico é apresentada em seções diferentes deste capítulo para mostrar cada uma de suas especificida- des. No entanto, métodos gerais foram aplicados para construir os auxílios apresentados na Figura 6.1. O projeto e avaliação desses métodos gerais são explicados a seguir e suas aplicações são evidenciadas na compilação de cada léxico bilíngue.

6.1.1

Equivalências entre o Espanhol e o Português

Os léxicos bilíngues desta pesquisa incluem itens lexicais com caracterís- ticas diferentes. Por exemplo, o léxico de cognatos e falsos cognatos consi- dera palavras com ortografia similares; os léxicos de marcadores discursivos e expressões formulaicas contêm palavras e multipalavras que são difíceis de extrair automaticamente; por último os verbos são facilmente reconheci-

dos com uma anotação morfossintática, mas indicar sua adequação à escrita acadêmica é um processo mais subjetivo. Os exemplos anteriores ajudam a refletir sobre a complexidade de construir esses léxicos. Como mostrado no Capítulo 3 a escolha da técnica utilizada na compilação depende dos itens incluídos nos léxicos e da aplicação para a qual o léxico bilíngue está sendo compilado. Considerando a diversidade nas características dos léxicos, foram testados três métodos para estabelecer as equivalências entre o espanhol e o português:

1. o baseado em similaridade ortográfica;

2. o baseado em tradução automática estatística e 3. o apresentado em Bai et al. (2009).

Por meio desses três métodos foram compilados os léxicos bilíngues pro- postos nesta pesquisa.

Os métodos propostos para obter as equivalências recebem como entrada um ou vários itens em espanhol e como saída apresentam a melhor equiva- lência em português. A metodologia adotada foi observada em alguns dos trabalhos apresentados na Seção 3.2, em que a etapa de extração do léxico na língua fonte foi separada da etapa de obtenção da equivalência na língua alvo. Como será mostrado ao longo deste capítulo, a metodologia utilizada requer da validação do recurso nas diferentes etapas, o que representou um dos maiores desafios desta pesquisa. Para avaliar os léxicos utilizou-se uma avaliação intrínseca em que a saída dos algoritmos foi comparada com um conjunto de traduções criadas por humanos. Além disso, alguns dos recursos criados também foram avaliados extrinsecamente na tarefa de corrigir erros lexicais. A seguir são apresentados os métodos para obter as equivalências entre os léxicos em espanhol e em português.

6.1.1.1 Método baseado em similaridade

O primeiro método utilizado para obter as equivalências entre palavras do espanhol e do português foi o método baseado em similaridade ortográfica. Esse método empregou a medida de similaridade Longest Common Subse- quence Ratio (LCSR) para identificar palavras equivalentes. A medida LCSR foi empregada porque é uma medida muito utilizada para avaliar similaridade entre palavras (Kondrak e Dorr, 2004; Frunza e Inkpen, 2009; Koehn e Knight,