• Nenhum resultado encontrado

5.2 Pré-processamento do córpus

5.3.1 Abreviaturas

Dois glossários de abreviaturas foram criados no escopo do projeto DHPB. O primeiro com abreviaturas extraídas de (FLEXOR, 1991) e listas de abreviaturas anexas a textos do córpus DHPB. Essa versão será referenciada por glossário de abreviaturas Flexor. A segunda versão contou com heurísticas para a extração de abreviaturas extraídas diretamente do córpus e será referenciada por glossário de abreviaturas do córpus.

Na construção do glossário de abreviaturas Flexor, as abreviaturas foram extraídas através da técnica de OCR pela bolsista do projeto Clarissa Galvão Bengtson. Adicionalmente, foram incluídas um conjunto de abreviaturas obtidas em anexo a livros de inventários e testamentos do córpus pela bolsista Livia Aluisi Cucatto. A ferramenta Protej foi utilizada para converter as abreviaturas para o formato DELA. Durante a conversão, o século de ocorrência é inserido como atributo semântico e cada abreviatura é classificada genericamente como substantivo masculino no singular (as informações morfossintáticas são corrigidas manualmente, posteriormente). O processo é ilustrado na Figura 5.10. Esse glossário já está sendo utilizado pelos pesquisadores do projeto.

Tabela 5.10: Exemplo de processamento de abreviaturas

Antes do processamento do glossário de abreviaturas

maced. - macedo (18) macenr^a - marcenaria (18) mach. - machado (10)

Após do processamento do glossário de abreviaturas

maced\.,macedo.N+ABREV+sec18:MS macenr^a,marcenaria.N+ABREV+sec18:MS mach\.,machado.N+ABREV+sec19:MS

Em particular, as letras A, B e C do dicionário de Flexor (1991) receberam informações morfossintáticas e semânticas (VALE et. al, 2008). As informações morfossintáticas facilitam buscas gramaticais no Unitex, enquanto que as informações semânticas inseridas são relacionadas a um conjunto de Entidades Nomeadas14 (ENs) utilizado na avaliação conjunta

da tarefa de reconhecimento de ENs (HAREM, 2008). Para tal, as ENs receberam a etiqueta semântica “ENT” e palavras comuns antes de ENs como pronomes de tratamento e alguns adjetivos foram etiquetadas com a etiqueta “INIT”. A Tabela 5.11 contém exemplos de ENs e

de palavras que antecedem ENs para cada as letras A, B e C. Os pontos das abreviaturas estão precedidos por barra invertida (“\”) devido ao uso do formato DELA.

Tabela 5.11: Abreviaturas de entidades nomeadas e de palavras que as precedem

a\.l\. prov^al,assembléia legislativa provincial.N+ENT+ABREV+sec19:ms a il^ma e ex^ma pessoa de v\. ex^a g^e d^s m^s a^s,a ilustríssima e excelentíssima pessoa de vossa excelência guarde deus muitos anos.N+INIT+ABREV+sec18:ms

bert^meo,bartolomeu.N+ENT+ABREV+sec19:ms bombr^o,bombeiro.N+INIT+ABREV+sec19:ms

c^a da st^a miser^a,casa da santa misericórdia.N+ENT+ABREV+sec19:fs capã^m de granadr^os,capitão de granadeiros.N+INIT+ABREV+sec18:ms

As etiquetas ENT e INIT permitem a extração de novas ENs no córpus através de um processo iterativo. Por exemplo, a partir de uma busca no concordanceador da abreviatura “r^o” (rio), é possível obter a entidade nomeada “r^o de s. fran^co” (Rio de São Francisco). Da mesma forma, a partir da EN abreviada “Fran.^co” (Francisco), é possível obter a EN “Mosteiro de Sam Fran.^co” (Mosteiro de São Francisco). O processo iterativo pode ser automatizado através de grafos sintáticos e/ou expressões regulares do Unitex. Entretanto, ainda é necessária uma filtragem manual para remover palavras detectadas incorretamente como ENs. No córpus DHPB foi utilizado um processo semelhante ao usado na criação do repositório público de ENs chamado Repentino (REPositório para reconhecimento de ENtidades NOmeadas) para aumentar o dicionário de abreviaturas. Esse processo está sendo realizado por um bolsista do projeto.

No glossário de abreviaturas do córpus utilizaran-se três heurísticas simples para a extração de abreviaturas do córpus: (a) busca por palavras com marcador de sobrescrito, por exemplo “jan^ro” (janeiro), (b) busca por palavras com ponto interno, por exemplo: “jan.ro” (janeiro) e (c) palavras terminadas por consoantes (exceto “l”, “m”, “n”, “r”, “s” e “z”) e sucedidas ponto final, por exemplo “av.” (avenida). A heurística (b) causou uma série de erros durante os testes, então se optou por modificá-la para que apenas 4 caracteres fossem permitidos após o ponto.

Além das heurísticas acima, é possível formular outras, como por exemplo, (d) a presença de palavras sem vogais, como em “dr” (doutor), ou (e) palavras terminadas em ponto e sucedidas por palavras que se iniciam por letras minúsculas, como “auxar.” (auxiliar) em “auxar. de cozinha”. Espera-se que as heurísticas englobem grande parte das abreviaturas

presentes em um córpus. Entretanto, podem existir exceções não reconhecidas por nenhuma das heurísticas, como “sr. Afonso” (abreviatura com ponto não detectada, pois é sucedida por palavra com letra maiúscula), algo comum para pronomes de tratamento abreviados. Também é possível a existência de palavras detectadas que não são abreviaturas. Por exemplo, se no córpus uma sentença for iniciada por letra minúscula e a heurística (e) estiver em uso, então a última palavra da sentença anterior será tratada como abreviatura. O processo iterativo para levantamento de entidades nomeadas não foi aplicado para a criação do segundo glossário, pois o glossário é focado em abreviaturas simples.

5.3.2 Junções de palavras

Para a criação do glossário de junções, optou-se pela extração manual, já que esta é menos sujeita a erros que a extração automática, além de ser um processo relativamente rápido. Além disso, supõe-se que o número de erros de extração no processo automático seria grande, principalmente para palavras pequenas como “dado”, “cala” e “tudo”. As junções foram levantadas pela bolsista do projeto Vanessa Marquiafavel através da análise manual, em um total de 10.369 junções. A expansão será aplicada ao córpus em trabalhos futuros. As formas contraídas continuarão sendo mantidas e denotadas por etiquetas TEI, como é mostrado na Tabela 5.12. A Tabela 5.13 mostra o número de junções de acordo com o total de palavras por junção.

Tabela 5.12: Junções anotadas em TEI

<choice> <sic> asmesmas </sic> <corr> as mesmas </corr> </choice> <choice> <sic> doestillo </sic> <corr> do estillo </corr> </choice> <choice> <sic> serraniasque </sic> <corr> serranias que </corr> </choice> <choice> <sic> sobpena </sic> <corr> sob pena </corr> </choice>

Tabela 5.13: Junções VS palavras por junção

Palavras por junção 2 3 4 5 ou mais

Total de Junções 9.561 737 60 11