• Nenhum resultado encontrado

dêmico: Diversas Análises

5.4 Considerações Finais

Este capítulo foi separado em três grandes seções que formalizam a base de conhecimento utilizada neste projeto para gerar os recursos computacionais.

Na Seção 5.1 foram apresentados os córpus empregados para gerar os léxi- cos bilíngues que apoiam o auxílio à escrita em português dos hispano falan- tes. Os córpus selecionados são úteis para mostrar como os nativos usam a língua portuguesa, da mesma forma em que os textos em espanhol do córpus paralelo, descrevem a escrita nessa outra língua. Embora o córpus paralelo seja do gênero jornalístico científico, ele é de grande utilidade nesta pesquisa, pois os seus textos descrevem pesquisas acadêmicas e neles aparecem os lé- xicos mais comuns desse gênero. Além do córpus paralelo, foi compilado um córpus com textos acadêmicos para auxiliar a construção dos léxicos bilín- gues. Esse córpus aparece como alternativa para trazer palavras e/ou ex- pressões que não aparecem no córpus paralelo. Esse último recurso só inclui textos em português e, consequentemente, pode provocar algumas limitações na aplicação dos métodos propostos, devido ao fato de não conter as equi- valências em espanhol. Para finalizar, como será mostrado no Capítulo 6, o tamanho dos córpus utilizados influência diretamente no desempenho dos métodos propostos, porém, os recursos apresentados nesta seção são os mais adequados para apoiar as tarefas desenvolvidas nesta pesquisa, considerando os córpus disponíveis na literatura para as línguas espanhola e portuguesa.

Na Seção 5.2 foi apresentado o córpus de aprendizes de português Espanhol- Acadêmico-Br. Esse córpus vai estar disponível publicamente na página do projeto HABLA7 e poderá ser utilizado em outras pesquisas. Além disso, por meio do córpus foram levantadas características da escrita dos hispano falan- tes no nível lexical, um dos objetivos desta pesquisa. As características da produção escrita dos hispano falantes foram identificadas a partir de diversas análises, apresentadas ao longo da Seção 5.3.

A Seção 5.3 foi dividida em várias sub-seções, que apresentaram diver- sas análises realizadas com a finalidade de caracterizar a escrita dos hispano falantes. A primeira das análises proposta, foi uma avaliação holística, que classificava textos de aprendizes e nativos em três níveis de proficiência. Os resultados apresentados nessa análise mostraram a necessidade de se criar novos atributos para caracterizar os textos Intermediários. No entanto, por meio dessa análise não foi possível separar textos de nativos e de aprendizes,

concluindo que ambos os grupos produzem textos com diferentes níveis de proficiência. Os resultados mostraram que no córpus Espanhol-Acadêmico-Br há textos muito bem escritos que foram produzidos por aprendizes e classifica- dos como Avançados. Ainda assim, manualmente, foi comprovado que esses textos classificados como Avançados também tem alguns problemas, como erros de preposição, que não são detectados por meio da avaliação holística proposta. Isso sugere a necessidade de se realizar uma análise mais aprofun- dada. A análise anterior também é importante para caracterizar o grupo dos textos Intermediários. Após os resultados observados com o algoritmo de clas- sificação, surge a suspeita de que a classe Intermediária provavelmente não existe no conjunto de textos e esses textos poderiam ser classificados como Avançados ou Iniciantes.

Contudo, os experimentos apresentados mostraram como a ferramenta Vi- sual Classification System pode auxiliar no processo de anotação e construção do conjunto de treinamento e do modelo de classificação de textos. A ferra- menta foi testada em cenários em que os conjuntos de treinamento tinham diferentes características, como poucas instâncias ou desbalanceamentos e mostrou um bom desempenho, sem a necessidade de criar dados ou distri- buições irreais que não respeitam a distribuição dos dados. Os resultados desses experimentos foram publicados em Torres et al. (2013). Além disso, o processo de classificação de forma iterativa e interativa, disponível na ferra- menta VCS, mostra-se promissor em aplicações de PLN, pois é possível, em etapas iniciais do processo, conhecer as deficiências e os pontos positivos do conjunto analisado.

Concluindo, a avaliação holística mostrou-se inadequada para separar os textos dos nativos e dos aprendizes. O conjunto de atributos propostos in- dicou que, da mesma forma que os aprendizes têm algumas dificuldades, os nativos também têm e por meio da análise proposta não é possível identificar o conjunto de dificuldades. Seguindo essa linha, foi decidido realizar uma aná- lise baseada nos erros cometidos pelos nativos e aprendizes. Primeiramente, mostrou-se os principais erros que preocupam e cometem os hispano falantes (Seção 5.3.2) e depois foi apresentado o processo de anotação manual de tex- tos de nativos e aprendizes (Seção 5.3.3), que mostrou os principais erros que eles comentem.

Como consequência do processo de anotação foi criada uma tipologia de erros. A proposta dessa tipologia se deu devido ao fato de que as tipologias que existem na literatura, apresentadas na Seção 2.3, são muito detalhadas,

sendo complexa sua reutilização em processos de anotação manual em larga escala. Tanto a tipologia de erros como os resumos anotados também estão disponíveis para outras pesquisas na página do projeto HABLA.

O processo de anotação de erros permitiu contrastar erros identificados na escrita acadêmica com erros levantados em outras pesquisas. Até onde se sabe, esse estudo foi o primeiro realizado para analisar a escrita acadêmica dos hispano falantes, aprendizes de português. O fato dos erros de aprendizes terem sido anotados por dois anotadores é um destaque desta pesquisa. Um dos poucos trabalhos que se conhece, em que todos os erros dos aprendizes foram anotados por mais de um humano foi apresentado por Dahlmeier et al. (2013). Na literatura, encontraram-se estudos que anotaram várias categorias de erros, porém por um único anotador. Os estudos em que vários anotadores estiveram envolvidos na anotação dos erros focaram em uma única categoria de erro.

Os erros dos hispano falantes, identificados no córpus Espanhol-Acadêmico- Br, coincidem com alguns dos erros apontados na Seção 2.3. No presente es- tudo foi confirmada tanto a ocorrência de diversas categorias de erros, quanto a natureza desses erros. Da mesma forma como aconteceu no levantamento realizado por Durão (1999), na presente análise, os erros relacionados com grafia incorreta foram os mais frequentes. Esses tipos de erros foram agrupa- dos por Durão (1999) na categoria Erros fonológicos e gráficos e aparecem na Tabela 2.6. Esse tipo de erro também foram identificados por Grannier e Car- valho (2001), os quais classificaram esses erros dentro da categoria lexicais (Veja a Tabela 2.3).

Por outro lado, tanto Grannier e Carvalho (2001) quanto Durão (1999) iden- tificaram erros produzidos pela interferência da língua materna. Grannier e Carvalho (2001) chamou esses erros de "uso de formas mistas"(Veja a Tabela 2.3), em que os hispano falantes combinaram regras do espanhol com regras do português, e Durão (1999) os nomeou de casos de "fronteira"(veja a Tabela 2.7). A geração desses erros foi observada nos textos anotados. Os exemplos apresentados nas Figuras 5.18 e 5.21 comprovam a ocorrência desses erros no córpus Espanhol-Acadêmico-Br. Além disso, as palavras e/ou expressões com esses erros podem ser itens lexicais de diversas categorias, como foi o caso de marcadores discursivos, expressões do português geral e do portu- guês acadêmico, verbos, dentre outras. Em alguns casos, esses erros somente afetam a forma da palavra, mas em outros casos afetam a semântica e, como consequência, afetam o sentido da frase.

A segunda categoria de erros mais frequentes, identificados por Grannier e Carvalho (2001) foram os erros morfossintáticos (Veja a Tabela 2.3). Nessa categoria, os autores incluíram erros relacionados com o uso das preposições e com regência verbal. Os erros de regência verbal, devido a sua complexidade não foram considerados na presente anotação; em contraste, os erros de pre- posições foram os segundos mais frequentes no presente estudo. Além disso, na análise de Durão (1999) os erros gramaticais foram os menos frequentes. Nesse grupo, a autora detectou que os hispano falantes têm dificuldades para contrair as preposições. Esse fenômeno foi observado muitas vezes nos tex- tos do córpus Espanhol-Acadêmico-Br, sendo anotado como conectivo errado, devido à função que a contração tinha no trecho.

O fato dos erros gramaticais serem os menos frequentes no estudo de Du- rão (1999), não acontecendo o mesmo no presente estudo e na análise de Grannier e Carvalho (2001), pode estar relacionado com o fato do estudo de Grannier e Carvalho (2001) ter sido realizado com aprendizes de português como língua estrangeira, enquanto a análise de Durão (1999) aconteceu em textos produzidos por aprendizes de L2. Os aprendizes de língua estrangeira devem ter mais contato com a língua e, por isso eles cometem com maior frequência erros que são comuns aos nativos da língua.

Um fenômeno comum dos três estudos que aconteceu com alta frequência foram os erros produzidos pela interferência da língua materna, neste caso o espanhol. Seguindo essa linha, a proximidade entre o espanhol e o português torna o problema de interferência da língua materna ainda maior, pois a exis- tência de muitos cognatos entre as duas línguas faz com que os aprendizes “arrisquem” traduções literais de itens lexicais do espanhol para o português. Muitas vezes a estratégia anterior gera palavras e/ou expressões corretas em português, porém outras vezes erros são produzidos. Esse tipo de erro acon- tece em todos os níveis da escrita, mas como o foco desta pesquisa são os erros no nível lexical, eles foram mais detalhados nesta análise. No Capítulo 6 são apresentados diversos métodos para compilar léxicos bilíngues criados para auxiliar os hispano falantes na escrita acadêmica em português.

Nas anotações apresentadas nesta seção comprovou-se que há marcas que distinguem a produção escrita dos hispano falantes. No entanto, hispano falantes cometem os mesmos erros identificados em textos de nativos do por- tuguês. Essa descoberta faz com que a tarefa de separar os textos dos hispano falantes dos textos dos nativos não seja trivial, como foi comprovado na tarefa de classificação, em que se avaliou a qualidade da escrita. A classificação de

textos em três níveis de proficiência não foi bem sucedida, pois os atributos utilizados não foram suficientes para caracterizar os textos do nível Interme- diário. Um resultado importante da avaliação holística foi o fato de detectar textos muito bem escritos pelos hispano falantes. Porém, marcas do espanhol foram observadas em textos com diferentes níveis de proficiência. A desco- berta anterior indicou a necessidade de realizar uma análise mais detalhada que considera os erros detectados nos textos. Essa análise deve ser realizada como parte de um trabalho futuro.

A anotação dos textos dos aprendizes foi uma tarefa árdua que ajudou a identificar os principais problemas que enfrentam os aprendizes de português, assim como levantar os erros que diferem do conjunto de erros que os nativos da língua comentem. No entanto, a anotação dos erros não foi suficiente para ser utilizada como referência de um sistema computacional, dado o número de erros ser pequeno para tal tarefa. Contudo, a detecção manual de erros le- xicais confirmou a necessidade de criar auxílios que automaticamente tratem esses problemas. Esses auxílios são detalhados no Capítulo 6.

CAPÍTULO

6