• Nenhum resultado encontrado

semânticos baseados em córpus paralelos alinhados, que são utilizados em TA, na área de Sistemas de Auxílio à Escrita, para auxiliar na pós-edição e

composição de um texto científico escrito em português por um aluno pesqui- sador cuja língua materna é o espanhol.

Para cumprir os objetivos desta pesquisa foram realizados diversos experi- mentos e análises que resultaram nos recursos apresentados sinteticamente na Figura 1.1.

Como mostrado na Figura 1.1, um córpus de hispano falantes escrevendo textos acadêmicos em português foi compilado. Diversas análises realizadas no córpus de hispano falantes, denominado EspanholAcadêmico-Br, mostra- ram os principais problemas que hispano falantes enfrentam quando escre- vem textos acadêmicos em português. As análises serviram como referência para coletar os subsídios sobre tipos de erros que motivaram a criação dos auxílios de apoio à escrita.

Figura 1.1: Auxílios oferecidos pelos léxicos bilíngues

Resultados de um questionário, aplicado aos hispano falantes aprendizes de português, mostraram que eles estão muito preocupados com a ocorrên- cia de erros de falsos cognatos nos textos. Durante à análise do córpus EspanholAcadêmico-Br foram identificados alguns exemplos que mostraram erros de falsos cognatos. O Exemplo 1 mostra como o hispano falante utiliza a palavra "presentes” no sentido de "atuais”. Desta forma, usa uma palavra que existe nas duas línguas. O problema se dá pois em português não é ade- quado usar a palavra "presente” para referir-se à "atualidade” como utilizado no exemplo. Detectar esses erros automaticamente é difícil, pois é preciso reconhecer que a palavra foi utilizada em um contexto errado.

Exemplo 1: o presente estudo realizou uma pesquisa entre antigos e presentes

/(atuais) líderes de CTI, para realizar uma análise em profundidade sobre a efetividade e impacto das políticas públicas de CTI.

Além de erros de falsos cognatos, a anotação dos erros no córpus de apren- dizes mostrou que os hispano falantes têm problemas em escolher os verbos mais comumente utilizados nas diferentes áreas de pesquisa. O Exemplo 2 mostra como o hispano falante utilizou o verbo "elucidar” em um texto da área de exatas, que não aparece frequentemente nos textos dessa área, sendo preferível utilizar o verbo "esclarecer”.

Exemplo 2: O seguinte artigo de pesquisa está a serviço de alunos e do-

centes do nível superior de três diferentes contextos sociais do México, tendo como objetivo elucidar/ (esclarecer) se o uso da estratégia de porta-fólio ele- trônico influi no processo de motivação e auto-regulação dos estudantes em matérias correspondentes à área de ciências sociais.

A anotação de erros também mostrou que os hispano falantes cometem er- ros interlinguais quando usam marcadores discursivos e expressões formulai- cas. Observam-se exemplos em que expressões do espanhol foram adaptadas ao português. Nesses casos comprovou-se a geração de palavras e expres- sões que não existem em português. No Exemplo 3 apresenta-se a expressão "pondo de manifesto” que representa uma clara interferência do espanhol.

Exemplo 3: ... desta forma, detalhar propostas de melhoria para futu-

ras pesquisas, pondo de manifesto/ (evidencia que) trabalhar sistemática e continuamente a estratégia para se alcançar o maior beneficio.

Os erros de marcadores discursivos são similares aos erros de expressões formulaicas, no entanto nessa categoria foi observado que, às vezes, as expres- sões geradas existem em português, mas nunca fazendo função de marcador discursivo. Um erro desse tipo é apresentado no Exemplo 4 e representou um desafio para esta pesquisa, porque para detectar o erro é necessário identificar que o erro foi utilizado como marcador discursivo. No Exemplo 4, o hispano falante adaptou o marcador em espanhol "por una parte ” quando devia ter utilizado "por um lado”.

Exemplo 4: A aplicação deste modelo permitirá, por uma parte/(por um lado), efetuar o reconhecimento, descrição e medição das variáveis qualitati-

vas ...

A partir dos erros e/ou inadequações lexicais detectadas durante a anota- ção de erros no córpus EspanholAcadêmico-Br foram propostas as formas de auxílio apresentadas na Figura 1.1:

1. Equivalências entre o espanhol e português; 2. Escolhas lexicais em português e

3. Detecção e correção de erros.

Como o nome indica, o primeiro dos auxílios parte do princípio que o his- pano falante conhece o termo em espanhol e precisa de um auxílio para co- nhecer o melhor termo em português. Por outro lado, no segundo auxílio o hispano falante já conhece o termo em português, mas precisa de outra pa- lavra ou expressão para substituí-lo. Finalmente, o terceiro auxílio identifica erros nos textos e tenta corrigi-los.

Para obter as equivalências entre as duas línguas foram testados três mé- todos, um deles baseado em medidas de similaridade e outros dois métodos baseados em tradução automática estatística. Para criar os auxílios relacio- nados com as escolhas lexicais foi proposto um método que usando a língua espanhola como pivô, procura sinônimos em português. Finalmente, para de- tectar e corrigir erros foi adotado um método que usando como referência os erros identificados no córpus EspanholAcadêmico-Br gera erros artificiais. O método de geração de erros tenta prever diferentes categorias de erros, sendo seu principal diferencial manter o controle da forma correta da palavra ou ex- pressão. Assim, é possível oferecer a correção do erro ou pelo menos sugestões bem sucedidas.

Os auxílios à escrita foram testados na compilação dos seguintes recursos: 1. léxicos bilíngues de cognatos e falsos cognatos das línguas português e

espanhol;

2. listas de pares de marcadores discursivos;

3. listas das expressões formulaicas que aparecem nos textos científicos; 4. listas de verbos relacionados com pesquisa científica em português, re-

correntemente utilizados em textos.

Estes léxicos bilíngues servem de auxílio para aprimorar a escrita dos his- pano falantes. Como mostrado na Figura 1.1, todos os recursos lexicais foram extraídos de córpus paralelos alinhados via métodos de tradução automática estatística. Dado que os léxicos bilíngues contém itens lexicais de diferen- tes tipos, a forma de compilar cada léxico e os tipos de erros associados a

eles foram diferentes. Esse fato representou um desafio nesta pesquisa, pois diferentes métodos e abordagem tiveram que ser propostas.

Dentre as principais contribuições deste projeto destacam-se:

Do ponto de vista teórico: