Anotação Morfossintática - Compilação, anotação e análise linguísticocomputacional de um corpus

A anotação realizada no Corpus de Estudo e no Corpus de Contraste é uma anotação morfossintática, conforme explorado no item 2.6. A anotação é realizada de forma automática, utilizando o AeliusHunPos, adequado a anotações de textos literários, porque teve como corpus de treinamento o Corpus do Português Histórico Tycho Brahe.

As etiquetas utilizadas para a anotação destes Corpora têm como referência as de anotação do Corpus Tycho Brahe. Alencar (2010a) explica que o conjunto de etiquetas (tags) do Tycho é complexo, causando muitas ambiguidades durante as anotações. Ao implementar o AeliusHunPos, Alencar (2013a) procurou diversificar os conjuntos de etiquetas utilizadas por este Etiquetador, solucionando algumas ambiguidades e buscando sempre melhorar seu desempenho. De acordo com o Manual do Sistema de Anotação Morfológica, o Tycho contém atualmente 377 etiquetas39, com última atualização em maio de 2008. O Apêndice H apresenta uma relação simplificada destas etiquetas.

Após a anotação morfossintática de todos os Corpora deste trabalho, com o processamento computacional por meio de Python e utilizando a ferramenta AeliusHunPos e utilizando a biblioteca NLTK, foram gerados novos arquivos dos

Relação de tags do Manual do Sistema de Anotação Morfológica disponível em:

textos anotados. A criação desses arquivos é toda feita automaticamente, diferente do processo inicial de seleção e compilação dos textos, que é feito manualmente. O processador Python gera os arquivos conforme ação demandada, conforme Quadro 8, de modelo de nomeação de arquivos

Após a criação dos arquivos com os textos anotados (“.pdt.hunpos.txt”), fizemos a seleção dos arquivos que deveriam ser corrigidos manualmente. Selecionados três arquivos do Corpus Coelho Netto, totalizando em torno de 10% do corpus pós-editado, com 5.405 tokens. Essa é uma amostra representativa de correção para apurar a acurácia do Etiquetador. Tomamos como base o percentual de correção manual realizado pelo ComPlin com o CORPTEXLIT (ALENCAR, 2010b).

Selecionamos do Corpus de Contraste a quantidade de tokens o mais aproximado possível do número de tokens dos textos anotados do Corpus Coelho Netto: dois capítulos de O Cortiço, contendo 5.404 tokens pós-edição dos arquivos. No total, corrigimos 10.809 tokens. Vale lembrar que tokens compreendem palavras e pontuações.

Feita a correção manual, realizada no próprio arquivo anotado, após execução de comandos específicos em Python, geramos um novo arquivo com o texto corrigido. Este arquivo deverá gerar um outro, que servirá de padrão para a verificação e comparação com o Corpus de Contraste, denominado de gold, para a avaliação da acurácia do Etiquetador. A correção manual das anotações foi feita por dois corretores (humanos), criando um arquivo que convergissem as duas correções, e daí então submeter o arquivo à correção automática das etiquetas, gerando o arquivo padrão gold.

Reafirmamos que a quantidade de tokens para a correção manual de um corpus de comparação deve ser igual, senão similar ao quantitativo de tokens do corpus de Estudo. Porquanto, após a seleção dos arquivos adequados à quantidade necessária, relacionamos estes na Tabela 3:

Tabela 3 - Relação de arquivos selecionados para correção manual dos Corpora

OBRA TIPO DE TEXTO NOMEAÇÃO ARQUIVO TOKENS

CORPUS COELHO NETTO

A Conquista Romance aconquista06.pdt.hunpos.txt 2.708

Turbilhão Romance turbilhao20. pdt.hunpos.txt 1.169

O enterro Conto oenterro.pdt.hunpos.txt 1.528

TOTAL 5.405

CORPUS DE CONTRASTE

O Cortiço Romance ocortico05.pdt.hunpos.txt 2.251

ocortico06.pdt.hunpos.txt 3.153

TOTAL 5.404

Fonte: Elaborada pela autora.

Observa-se nesta tabela, que o quantitativo de tokens dos arquivos do Corpus de Contraste é praticamente igual ao do Corpus Coelho Netto. Para conseguirmos isso, a escolha dos textos do Corpus de Contraste não foi aleatória, foi em função de tentativas em equiparar os totais, condicionado por quantitativo de tokens.

Após a correção de todos os arquivos selecionados, pelo 1º corretor, geramos manualmente os arquivos com o modelo “.pdt.hunpos.corr_F.txt”. Os mesmos arquivos foram enviados para o segundo corretor, que após conclusão de sua correção, geramos arquivos com o formato “.pdt.hunpos.corr_H.txt”40.

A etapa semifinal consistiu em contrastar as duas correções gerando arquivos uniformes, com a nomeação de “aconquista06.pdt.hunpos.corr_FH.txt”: o arquivo de consenso. Não houve necessidade de um terceiro anotador para dirimir as possíveis discordâncias dos outros dois anotadores.

Para uma melhor percepção da correção manual, o quadro abaixo mostra os tokens corrigidos manualmente seguindo o protocolo observado no Exemplo 8:

O primeiro corretor foi a autora da tese, e o segundo corretor foi o aluno de graduação de Letras- Francês e Bolsista de Iniciação Científica CNPq do projeto "Técnicas em softwares livres para a linguística de corpus", da UFC, Hélio Leonam Barroso, portanto com a inicial do nome H, correspondente à nomeação do arquivo.

Quadro 10 - Exemplo de tokens com anotação automática e correção manual

Os/D-P canteiros/N-P esquecidos/VB-AN-P estavam/ET-D invadidos/VB-AN-P pelo/P+D mato/N ,/, as/D-F-P aleias/N-P eram/SR-D úmidas/VB-AN-F-P@ADJ-F-P e/CONJ tinham/TR-D placas/ADJ-F-

P@N-P lutulentas/N-P@ADJ-F-P ,/, de/P um/D-UM aveludado/N fino/ADJ ./.

Fonte: Elaborado pela autora

A fase final consistiu em corrigir automaticamente os arquivos uniformizados. Estas correções consistem em retirar dos textos corrigidos o símbolo “@” que vem após cada token. Essa ação é feita submetendo o arquivo de consenso ao processamento no terminal com o script “GeraVersaoFinal.sh”, que automaticamente gera arquivos com extensão “.gold.txt.”. Vejamos o exemplo abaixo:

Exemplo 8:

- Toledo/VB-AN@NPR - Toledo é o token; VB-AN é a etiqueta atribuída; @ é a arroba, símbolo que intermedeia a tag errada da correta; e NPR é a etiqueta corrigida manualmente.

- Toledo/NPR - versão final do token anotado, após processamento do script GeraVersaoFinal.sh

Para configurar melhor, a figura 14 mostra no terminal como o processo é realizado.

Figura 14 - Execução do script que Gera Versão Final dos textos corrigidos manualmente – arquivos Gold.

Fonte: Elaborada pela autora

Por meio de script no terminal, automaticamente o programa gerou os arquivos padrão gold (“aconquista06.gold.txt”), como podem ser vistos na relação de arquivos na Figura 15.

Figura 15 – Relação dos arquivos com extensão “.gold.txt” gerados pelo scipt “GeraVersaoFinal.sh”.

Fonte: Elaborada pela autora

Como isso, os arquivos estavam preparados para passar pelo processo de avaliação de desempenho do etiquetador Aelius, modelo AeliusHunPos, tanto

quanto os outros arquivos gerados em todo esse processo estavam preparados para as análises e discussão do proposto nesta Tese.

O capítulo 4 é destinado à apresentação dos resultados e discussão dos dados encontrados com os procedimentos metodológicos adequados para a LCLC. Exporemos todas as etapas do processo de criação do Corpus Coelho Netto, relatando as ações e as dificuldades e ou limitações encontradas nesse percurso, bem como os resultados pretendidos no objetivo da pesquisa, envolvendo desde a compilação até as análises.

4 RESULTADOS E DISCUSSÃO

Considerando-se todas as etapas envolvidas no processo de compilação, anotação e análises linguístico-computacionais de um corpus, entendemos que os resultados detalhados em cada etapa seria a forma mais clara de se mostrar os dados, como veremos a seguir.

No documento Compilação, anotação e análise linguísticocomputacional de um corpus de textos literários dos séculos XIX e XX: corpus Coelho Neto (páginas 118-124)