Análises Linguístico-computacionais para Gerar os Léxicos de Interesse

Córpus Paralelos e Geração Automática de Léxicos Bilíngues

Passo 10: 10 As traduções candidatas foram avaliadas segundo a cobertura do método, que foi estimado após uma anotação manual, como se mostra s seguir:

3.3 Análises Linguístico-computacionais para Gerar os Léxicos de Interesse

Nesta seção, são apresentados os estudos da literatura que deram base para a compilação dos léxicos propostos nesta pesquisa:

• listas de cognatos e falsos cognatos das línguas português e espanhol; • listas de pares de marcadores discursivos;

• listas das expressões formulaicas que aparecem nos textos científicos; • listas de verbos relacionados com pesquisa científica em português. Para alguns itens será mostrada sua importância em processos de aprendizado ou para apoiar à escrita de textos. Em outros casos serão apresentados estudos que utilizaram os métodos apresentados na Seção 3.2 para compilar léxicos bilíngues. Além disso, é mostrado um grupo de estudos que fazem aná- lises para comparar a produção de itens lexicais dos nativos e dos aprendizes. Nesse cenário predominam as análises linguísticas, identificando-se vários estudos que analisam o uso de colocações, marcadores discursivos (Aidinlou e Mehr, 2012), expressões formulaicas, etc.. Para apoiar a produção escrita também há vários trabalhos que tentaram criar recursos e propor abordagens para aprimorar a escrita de colocações, por exemplo.

3.3.1 Cognatos e Falsos Cognatos

Nesta pesquisa, considera-se a definição de cognatos e falsos cognatos pro- posta por Frunza e Inkpen (2009), em que: cognatos entre duas línguas são pares de palavras que além de serem traduções mútuas aparentemente são similares. Para vários autores (Simard et al., 1992; Fattah et al., 2007; Frunza e Inkpen, 2009; Nakov, 2009) cognatos são pares de palavras idênticas ou muito similares entre si, considerando sua ortografia e sua fonética. Os pares de palavras em espanhol e português, respectivamente, "amor – amor” e "jefe – chefe” são exemplos de cognatos entre as línguas português e espanhol.

Os falsos cognatos são pares de palavras em duas línguas que, segundo a percepção, são similares, mas que têm diferentes significados, por exemplo, "aula” (lição de uma disciplina, em português) – "aula” (sala onde se minis- tra uma disciplina, em espanhol). Os falsos cognatos podem ter diferentes significados dependendo do contexto em que foram utilizados, por exemplo, a

palavra "gente” em espanhol significa pluralidade de pessoas, pessoas do povo e coloquial de família. Em português, a mesma, significa conjunto de pessoas com o mesmo nome, raça ou família. Nesse caso, tem o mesmo significado que em espanhol, mas a frase "a gente” é usada no sentido do pronome pessoal nós. Outros exemplos de pares de falsos cognatos são firma – assinatura / asignatura - disciplina.

Diversas aplicações de processamento de língua natural se beneficiam da identificação de cognatos e faltos cognatos. Algumas dessas aplicações in- cluem: alinhamento sentencial (Simard et al., 1992; Melamed, 1999; Koehn e Knight, 2002), alinhamento de textos paralelos (Gomes, 2009), indução de léxicos bilíngues (Mann e Yarowsky, 2001), identificação de nomes de medicamentos confundíveis (Kondrak e Dorr, 2004) e tradução automática estatística (Simard et al., 1992; Melamed, 1999; Fattah et al., 2007).

Em um cenário de aprendizagem de língua estrangeira, os cognatos e falsos cognatos desempenham um importante papel. O reconhecimento dos cognatos ajuda o aluno na compreensão da leitura, além de contribuir com a ex- pansão do novo vocabulário. Por outro lado, a existência de falsos cognatos representa um problema, pois seu uso incorreto acarreta em erros semânti- cos produzidos pela interferência da língua nativa. Furtado (2012) analisou a importância do estudo dos cognatos e falsos cognatos em sala de aula e Gonçalves (2013) fez uma análise de erros destes itens em produções escritas em espanhol por nativos do português. Ambas as autoras concordam com a importância de apresentar esses itens em diversos estágios do aprendizado da língua. Embora Gonçalves (2013) tenha observado erros deste tipo em maior frequência em etapas iniciais do aprendizado, entre alunos com níveis de aprendizado mais avançados também foram observados esses erros. Como alternativa para aprimorar o uso desses itens lexicais, Furtado (2012) e Gon- çalves (2013) consideram importante a criação de listas que incluíam esses itens para apresentar para os alunos. Adicionalmente, Gonçalves (2013) con- clui que chamar a atenção do aluno quando um falso cognato está presente em um texto ou tarefa de sala de aula, seria uma alerta importante para levar o aprendiz ao nível mais próximo possível da língua-alvo.

A criação manual de listas de cognatos e falsos cognatos é uma tarefa de- morada que requer muito esforço dos lexicógrafos. Uma alternativa para so- lucionar este problema é a criação automática de dicionários de cognatos e falsos cognatos a partir de córpus bilíngues.

tica cognatos entre pares de línguas (Simard et al., 1992; Kondrak e Dorr, 2004; Kondrak, 2005). A identificação automática de falsos cognatos tem re- cebido menos atenção (Mitkov et al., 2007; Frunza e Inkpen, 2009; Nakov, 2009). Segundo Mitkov et al. (2007), isso poderia estar relacionado com o fato de que em muitas aplicações é interessante identificar palavras equivalentes entre duas línguas e não identificar falsos cognatos ou expressões que não são equivalentes.

Entre as abordagens para identificar os falsos cognatos citam-se: • a procura por expressões que coocorrem nos córpus paralelos;

• a utilização de dicionários para encontrar similaridades entre expressões; • o uso de características ortográficas das palavras e, finalmente,

• comparações entre os pares de palavras analisando a semântica das palavras.

Segundo Mitkov et al. (2007) e Nakov (2009), considerando as abordagens utilizadas, os estudos dedicados à identificação de cognatos e falsos cognatos podem ser divididos em 3 grupos:

1. métodos que utilizam medidas de similaridades ortográficas e fonéticas; 2. métodos estatísticos que identificam os cognatos e os falsos cognatos

baseando-se em córpus paralelos;

3. métodos que utilizam uma abordagem semântica.

A seguir são apresentados alguns dos trabalhos que há na literatura para identificar tanto cognatos quanto falsos cognatos.

Os trabalhos que propõem a abordagem ortográfica e fonética computam as similaridades entre os pares de palavras utilizando medidas de distância. Há diversos critérios para estimar a distância entre duas palavras. Do ponto de vista ortográfico, uma das medidas mais empregadas é a distância de edição12

, comentada em Mitkov et al. (2007) e Frunza e Inkpen (2009). A distân- cia ED pode ser utilizada entre palavras de duas línguas que compartilham o mesmo dicionário e se concentra no cálculo do número mínimo de opera- ções (eliminações, inserções ou substituições) necessárias para transformar uma palavra em outra. A distância ED normalizada (NED) também tem sido

utilizada e é calculada dividindo a soma de todas as operações para transformar uma sequência em outra, pelo comprimento da maior sequência. Outra medida popular e efetiva é o coeficiente LCSR (Longest Common Subsequence Ratio) proposto por Melamed (1999). O cálculo desse coeficiente é realizado procurando-se a sequência comum de maior comprimento entre duas palavras, dividido pelo comprimento da maior palavra. Por exemplo, o valor da medida LCSR para os cognatos "mejorar"e "melhorar"é 6/8 = 0, 75. Com re- lação às similaridades fonéticas, as medidas mais utilizadas são SOUNDEX e EDITEX. Essas medidas aproveitam as características individuais das palavras para estabelecer similaridade (Mackay e Kondrak, 2005). O algoritmo fonético SOUNDEX foi proposto para o inglês com o objetivo de indexar nomes com similaridade na pronuncia. O algoritmo transforma todas as letras da palavra seguindo um código numérico e mantendo a primeira letra da sequên- cia. Após a transformação, o código é truncado, sendo a palavra representada por quatro caracteres. Por outro lado, a medida EDITEX combina as propri- edades da distância de edição com a estratégia de transformação usada pelo algoritmo SOUNDEX.

Simard et al. (1992) identifica cognatos para auxiliar a tarefa de alinhamento sentencial de textos paralelos. No estudo, o autor trabalha com os pares de línguas francês-inglês e considera cognatas aquelas palavras que compar- tilhem os quatro primeiros caracteres. A partir disso, foi proposta a medida PREFIX, que calcula o comprimento do prefixo comum para duas palavras, dividido pelo comprimento da maior palavra. Por exemplo, o prefixo comum dos cognatos "mejorar"e "melhorar"é 2 (as duas primeiras letras), dividido por 8 (maior comprimento entre as duas palavras) é 0,25. A medida PREFIX é utilizada em Kondrak (2005) para beneficiar técnicas de alinhamento lexical a partir da identificação previa de palavras cognatas. Para desenvolver a tarefa Kondrak (2005) também emprega outras medidas ortográficas tais como: LCSR, PREFIX, DICE e IDENT. O coeficiente DICE é uma medida de similaridade ortográfica, baseada nos números de n-gramas coincidentes entre as palavras. O coeficiente divide a quantidade de bigramas comuns para duas palavras pela soma dos bigramas de cada palavra, como mostra a Equação 3.22.

DICE(X, Y ) = 2 ∗ |bigramas(X) ∩ bigramas(Y )|

|bigramas(X) + bigramas(Y )| (3.22) em que, bigramas(X) é o conjunto de caracteres bigramas na palavra X. Por exemplo, o coeficiente DICE para as palavras "mejorar"e "melhorar"=8/13 =

0.61 (os bigramas compartilhados são me-or-ra-ar). Outras medidas foram definidas a partir da medida DICE, como é o caso da medida TRIGRAM, que se diferencia do coeficiente DICE, dado que TRIGRAM trabalha com trigramas e não com bigramas. A medida IDENT é uma das mais simples, sendo utilizada, comumente como baseline. Ela retorna 1 se as palavras são idênticas e 0 caso contrário.

Kondrak e Dorr (2004) combinam as medidas de similaridade DICE, TRI- GRAM, LCSR, ED, NED e SOUNDEX, para tratar o problema de diferenciar nomes de medicamentos com pronuncias muito similares. Os autores rea- lizam uma análise para identificar os problemas que apresentam as medidas de similaridade baseadas no número de n-gramas coincidentes entre palavras. A partir disso, eles propõem as medidas BI-SIM e TRI-SIM que caracterizam várias das medidas anteriormente mencionadas e mostram um desempenho adequado após serem comparadas com outras medidas. Os autores consideram que o melhor desempenho foi alcançado após a combinação de várias medidas.

Vários trabalhos (Inkpen et al., 2005; Mitkov et al., 2007; Frunza e Ink- pen, 2009; Nakov, 2009) utilizam técnicas estatísticas e de aprendizado de máquina para caracterizar cognatos e falsos cognatos a partir da combinação de medidas ortográficas, fonéticas e semânticas.

Inkpen et al. (2005) identificam cognatos e falsos cognatos combinando téc- nicas de aprendizado de máquina com medidas de similaridades ortográficas e fonéticas. Os autores fazem uma análise detalhada do impacto das medidas tanto de forma individual quanto a combinação na tarefa de classificação. Algumas das medidas de melhor desempenho foram BI-SIM e TRI-SIM.

Frunza e Inkpen (2009) propõem o uso de técnicas de aprendizado de má- quina para separar cognatos de falsos cognatos, utilizando várias medidas de similaridade entre pares de palavras como características de classificação. O estudo disponibiliza um córpus paralelo dos pares de línguas francês-inglês e as medidas de similaridade tanto ortográfica quanto fonética utilizadas foram: IDENT, PREFIX, DICE, TRIGRAM, XDICE, XXDICE, LCSR, NED e SOUNDEX, além das medidas BI-SIM e TRI-SIM propostas por Kondrak e Dorr (2004). Os autores avaliam o impacto das medidas de similaridade tanto de forma individual como a combinação delas na tarefa de diferenciação de cognatos e falsos cognatos, além de estabelecer limiares específicos para cada medida com a finalidade de separar cognatos de falsos cognatos. Especificamente, nesse estudo são introduzidas evidências semânticas para diferenciar cognatos de

falsos cognatos. Eles empregam um dicionário bilíngue seguindo a hipótese de que cognatos aparecerão no dicionário com uma única tradução, enquanto falsos cognatos podem aparecer com mais de um significado. Para isso, os autores treinam um classificador para distinguir entre cognatos e falsos cognatos, por meio de um córpus paralelo.

Em geral, as abordagens semânticas para diferenciar cognatos de falsos cognatos são baseadas em medidas de similaridade semântica. Estas medidas são computadas a partir de estruturas taxonômicas de representação dos léxicos, como é caso da WordNet13, ou por meio de algoritmos que avaliam similaridade entre as distribuições de um córpus. Algumas das medidas de similaridade semântica utilizadas para computar distância entre os elementos de estruturas taxonômicas são a distância Euclidiana, a distância cosseno, a distância Kullback-Leibler, a distância entre conceitos, apresentada em Wu e Palmer (1994) e a distância Leacock and Chodorow’s , utilizada em Mitkov et al. (2007).

Em Kondrak (2001) é incorporada uma análise semântica para separar cognatos de falsos cognatos. Nesse trabalho, o autor parte da premissa que palavras cognatas mostram similaridade fonética e semântica. Seguindo essa ideia, introduz um procedimento para identificar palavras relacionadas a partir da estimativa de similaridades semânticas entre glosas. O autor identifica a palavra chave da glosa e empregando a WordNet procura sinônimos nas glosas e desta forma similaridades entre as palavras. No estudo são combinadas as evidências semânticas com medidas de similaridade ortográfica e fonética.

Mitkov et al. (2007) propõem uma abordagem para identificar de forma automática cognatos e falsos cognatos, que está dividida em dois passos. Pri- meiramente, são extraídos de um córpus bilíngue as palavras candidatas para formar uma lista de pares de palavras. Após a extração, cada par da lista é classificado em cognato ou em falso cognato. A extração dos pares candidatos é baseada em medidas de similaridade ortográfica, enquanto a classificação das palavras extraídas é realizada a partir de medidas de similaridade semân- tica. As medidas de similaridade ortográfica utilizadas foram a LCSR e a NED. A base para estabelecer similaridades semânticas no estudo foi a estrutura ta- xonômica EuroWordNet14_{que inclui as quatro línguas testadas (inglês-francês,}

inglês-espanhol, inglês-alemão e espanhol-francês). As medidas de similaridade semântica utilizadas foram a distância entre conceitos e a distância Le-

13_{https://wordnet.princeton.edu/} 14_{http://www.illc.uva.nl/EuroWordNet/}

acock and Chodorow’s. A distância entre conceitos é apresentada na Equação 3.23 e estima quão próximos os conceitos aparecem na hierarquia.

ComSim(C1, C2) = 2 ∗ N 3

N 1 + N 2 + 2 ∗ N 3 (3.23)

supondo que existe C3 que é o super conceito comum mais próximo entre os conceitos C1 e C2. N 1 é o número de nós no caminho de C1 até C3. N 2 é o número de nós entre o caminho de C2 até C3. N 3 é o número de nós entre C3 e a raiz da estrutura hierárquica.

A distância Leacock and Chodorow’s usa o comprimento do caminho nor- malizado entre dois conceitos C1 e C2 e é calculada segundo a Equação 3.24

LC(C1, C2) = −log[len(C1, C2)

2 ∗ max ] (3.24)

em que, len é o número de arestas do menor caminho entre os dois conceitos e max é a profundidade da estrutura.

A abordagem proposta por Mitkov et al. (2007) foi testada por meio de dois experimentos. No primeiro experimento, a classificação foi realizada utilizando taxonomias e no segundo utilizou-se um vetor de coocorrências das palavras para procurar similaridades entre os conceitos. Os autores mostraram que o melhor desempenho foi obtido no primeiro experimento e utilizando a dis- tância entre os conceitos. Um aporte interessante desse trabalho é a seleção automática dos pares de palavras por meio das medidas de similaridade orto- gráficas.

Nakov (2009) apresenta um algoritmo não supervisionado que identifica automaticamente falsos cognatos, combinando técnicas estatísticas, que ob- servam ocorrência e coocorrência de palavras em textos paralelos com téc- nicas que medem similaridade semântica usando a Web como um córpus. Segundo o autor, há poucos trabalhos que extraem os falsos cognatos de um córpus paralelo e a maioria deles emprega técnicas de alinhamento lexical para extraí-los. O autor propõe, então, a extração de falsos cognatos após um alinhamento sentencial dos textos paralelos. O método é aplicável para qualquer língua, mas foi testado com as línguas búlgara e russa. Nakov (2009) seleciona os pares de palavras candidatas de córpus paralelos ou compará- veis, utilizando medidas de similaridade ortográfica. Uma vez formada a lista de pares candidatos, o autor começa a tarefa de classificação. O método proposto para separar cognatos de falsos cognatos segue a hipótese de que se duas palavras são cognatas então as palavras que formam parte do contexto

em que a palavra esta inserida serão traduções mútuas. A partir disso, o autor propõe dado um par de palavras, extrair o contexto local (uma janela de comprimento três palavras), para criar dois vetores de palavras, neste caso a palavra búlgara com seu contexto local e a palavra russa, também com seu contexto local. Uma vez formados os dois vetores, o autor utiliza a distância cosseno para calcular a similaridade entre eles. A precisão para este algoritmo foi de 77%.

Recentemente, Gamallo e García (2012) propuseram um método para extrair cognatos de um córpus comparável. Após o estudo foi criado um léxico para os pares de línguas português e espanhol com aproximadamente 27.000 pares de lemas e palavras compostas extraídas da Wikipedia. Para identificar as palavras (substantivos, adjetivos e verbos) com ortografia similar foi empregada a distância DICE entre os lemas, e o método de aprendizado de máquina precisava de listas de palavras nas duas línguas para estabelecer a classificação. Para isso, foram utilizados dois dicionários português-espanhol. O primeiro de língua geral, chamado OpenTrad-Apertium15 _{e o segundo criado}

por meio da Wikipedia. A precisão do algoritmo proposto para extrair os pares de palavras foi aproximadamente de 92% e os maiores problemas foram identificados na extração de estrangeirismos, palavras com prefixos tais como anti-fascista/fascista e palavras compostas.

Nos trabalhos da literatura que identificam cognatos e falsos cognatos observa-se a aplicação de diversas técnicas, assim como de diversos recursos, tais como: dicionários, córpus paralelos e córpus comparáveis. Os métodos propostos seguem a mesma metodologia apresentada na Seção 3.2, em que métodos para compilar léxicos bilíngues foram apresentados. A metodologia adotada para validar as listas de cognatos e falsos cognatos é a mesma que é aplicada na geração de léxicos bilíngues, destacando-se a necessidade de análises manuais e o cálculo da precisão para avaliar os métodos propostos.

3.3.2 Verbos

Nesta pesquisa de doutorado, foi proposta a criação de um léxico bilíngue que mostre os verbos que são utilizados na escrita acadêmica em português com seus equivalentes em espanhol. Aprendizes de uma segunda língua têm dificuldades em se adequar aos léxicos de determinados domínios. Esse fato é observado na escrita acadêmica, em que às vezes itens da língua geral ou da língua falada são incluídos, quando termos científicos eram mais adequa-

dos. Neste capítulo, diversas abordagens para estabelecer equivalências entre uma língua alvo e fonte foram apresentados; qualquer uma delas poderia ser utilizada para gerar o léxico bilíngue de verbos em português e em espanhol. Além disso, seria necessário considerar um anotador morfossintático que automaticamente identificasse os verbos das duas línguas. Seguindo essa linha, o problema que será tratado nesta seção está relacionado com as abordagens utilizadas para identificar os léxicos que são da escrita acadêmica.

Diversos estudos (Simpson-Vlach e Ellis, 2010; Morley, 2015; Gardner e Davies, 2013; Dos Santos, 2006; Baptista et al., 2010) foram propostos para levantar os itens mais comumente utilizados na escrita acadêmica. Em geral, esses itens são extraídos por meio de análises estatísticas dos textos, que contrastam córpus da língua geral ou falada com córpus da língua acadêmica para identificar os itens que são frequentes na escrita acadêmica (Simpson- Vlach e Ellis, 2010; Gardner e Davies, 2013). Indicar o que é ou não inadequado nos textos acadêmicos, em geral, é muito subjetivo, pois o que é frequente em uma área, pode ser inadequado em outra. Desta forma, os estudos que identificam os itens da escrita acadêmica fazem análises com córpus de diferentes áreas do conhecimento (Simpson-Vlach e Ellis, 2010; Morley, 2015; Dos Santos, 2006; Baptista et al., 2010). No entanto, compilar córpus de diferentes áreas do conhecimento não é uma tarefa fácil, sendo mais difícil ainda compilar córpus paralelos.

Gardner e Davies (2013) combinaram um grande córpus acadêmico de diversas áreas do conhecimento com um córpus da escrita geral para criar uma lista de vocabulário acadêmico, nomeada AVL(Academic Vocabulary List). A lista foi criada com o intuito de auxiliar os aprendizes de inglês acadêmico na produção escrita. A ideia do trabalho era disponibilizar o recurso com itens lexicais comuns à escrita acadêmica, em geral, sem distinção de área de conhecimento. Para isso, Gardner e Davies (2013) aplicaram estatísticas tais como: limiares de frequência; ocorrência do termo em pelo menos n áreas do conhecimento e limiar de frequência do termo em todas as áreas do conhecimento em que aparece. Os autores justificaram a necessidade desta lista e mostraram como o recurso conseguiu aumentar em aproximadamente 14% a cobertura de outra lista acadêmica, apresentada por Coxhead (2000).

Baptista et al. (2010) usaram como ponto de partida o vocabulário criado por Coxhead (2000) para obter uma lista de termos acadêmicos em português. A metodologia adotada foi manualmente estabelecer as equivalências entre os termos em inglês e em português até gerar o vocabulário em português. O

objetivo do trabalho era criar um recurso útil para apoiar a aprendizagem da

No documento Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos (páginas 101-121)