• Nenhum resultado encontrado

Além do comparativo apresentado na Seção 3.4 (Comparativo entre as ferramentas), a escolha dos processadores de córpus utilizados também se baseou no atendimento de alguns requisitos de software levando em conta as necessidades do projeto DHPB. A seguir, os processadores selecionados foram então adaptados para atender as necessidades do projeto DHPB.

5.4.1 Levantamento de requisitos

Os processadores de córpus utilizados no DHPB devem atender aos seguintes requisitos de software:

• O sistema deve ter interface Web, permitindo acesso simultâneo para vários pesquisadores ao córpus e aos glossários a partir de qualquer computador com acesso a Internet.

concordâncias são de fundamental importância durante a redação de verbetes.

• O sistema deve permitir buscas orientadas a glossários, em especial, para a busca no glossário de variantes de grafia.

• O sistema deve apresentar um bom desempenho. Esse requisito é importante já que o córpus possui mais de 7 milhões de palavras.

• O sistema deve ser capaz de processar textos anotados em padrões internacionais de anotação como TEI ou XCES.

• O ambiente deve fornecer buscas bibliográficas e permitir a criação de subcórpus. A busca por data de criação dos textos é particularmente importante, pois assim é possível realizar o registro de datas no dicionário. Outros dados bibliográficos pertencentes à ficha catalográfica apresentada na Tabela 1.1 também devem ser considerados.

Parte dos requisitos foi levantada a partir do comparativo entre as ferramentas e parte foi levantada nos encontros dos pesquisadores do projeto DHPB. Observou-se que nenhuma das ferramentas atendeu completamente aos requisitos levantados. Então se optou pelo uso de duas delas: o Philologic e o Unitex. O Philologic atendeu a todos os requisitos, exceto o uso de glossários. O Unitex também teve uma boa avaliação, apesar de possuir interface baseada em janelas e de não aceitar córpus anotados em padrões internacionais. Como o Unitex não é capaz de trabalhar no modo cliente-servidor, o córpus foi distribuído para os pesquisadores do projeto, juntamente com a ferramenta. Isso causou alguns problemas de sincronização de versões dos usuários, pois a cada nova atualização do córpus, é necessária uma distribuição e instalação nos computadores dos usuários. Como o Philologic e o Unitex apresentaram vantagens em relação as demais ferramentas e complementaram um ao outro em termos de funcionalidade, optou-se pelo uso das duas ferramentas no projeto.

5.4.2 Adaptação das ferramentas Philologic e Unitex

O processador de córpus Unitex foi escolhido por sua capacidade de buscas orientadas a glossários e por ser útil a usuários sem acesso a Internet ou com conexões de baixa qualidade. O processador de córpus Philologic foi escolhido por sua interface Web simples e pelo uso do padrão TEI. Com o passar do tempo, o Philologic começou a ser mais utilizado, possivelmente devido a sua interface simples de acesso e ao funcionamento sem necessidade

de instalação.

A primeira mudança no Unitex foi em relação aos caracteres permitidos. Para o idioma Português, são permitidos apenas o alfabeto romano, as versões acentuadas das vogais e o caractere “ç”. Números e sinais de pontuação são ignorados, pois não são utilizados em lexias. Entretanto, em documentos históricos é comum a presença de consoantes acentuadas e outros símbolos como o S-longo (em “di cur o”). Foi necessário incluir os símbolos mostrados na Tabela 4.1 ao alfabeto de trabalho do Unitex. Os acentos listados na tabela são chamados de acentos combinados e são capazes de se aglutinar a quaisquer símbolos, incluindo vogais, consoantes e até mesmo outros acentos. Adicionalmente, foi incluído o acento circunflexo tradicional ao alfabeto Unitex, para que as abreviaturas com sobrescrito pudessem ser corretamente processadas. Entretanto, foi constatado que abreviaturas com ponto interno estavam sendo divididas em duas palavras. Por exemplo, a abreviatura “jan.^ro” é dividida em “jan” e “^ro”. Caso o ponto fosse inserido no alfabeto do Unitex, as sentenças não seriam corretamente segmentadas. Uma solução para o problema é a criação do glossário de abreviaturas. Para isso, o glossário deve conter todas as abreviaturas com ponto interno do córpus.

Além do glossário de abreviaturas, também foi incluído no Unitex o glossário de variações de grafia gerado automaticamente a partir da ferramenta Siaconf. Adicionalmente, o projeto DHPB usa o glossário de Português Contemporâneo do Brasil do Unitex, pois este é útil para buscas por flexões de verbos contemporâneos (MUNIZ, 2004). O subcórpus compilado, o alfabeto de trabalho com os novos símbolos e os três glossários (contemporâneo, de abreviaturas e de variações de grafias) foram agrupados em um idioma de trabalho do

Unitex chamado de “Português Histórico”. A versão foi alterada para incluir apenas as três

variantes do Português (do Brasil, de Portugal e Histórico). Dessa forma, o processador teve seu tamanho reduzido significativamente, facilitando sua obtenção via Internet.

Juntamente com o Unitex, foi distribuído para os usuários o programa Dicionário, um programa desenvolvido por Marcelo Caetano Martins Muniz para permitir buscas nos glossários. Enquanto o Unitex permite buscas orientadas a glossários, o Dicionário permite buscas no glossário. Uma desvantagem do Dicionário é o fato de que as buscas são unidirecionais. Por exemplo, na criação do glossário é possível escolher se uma busca no glossário de abreviaturas será feita para abreviaturas e retornará expansões ou se será feita para expansões e retornará abreviaturas, mas ambas as buscas não serão permitidas. Por fim,

foi criado um programa instalador para o Unitex. O instalador foi criado a partir de pedidos dos usuários, pois a instalação manual do Unitex é relativamente difícil para iniciantes. O pacote de software criado com todas as mudanças do Unitex foi chamado de Unitex-milênio.

No caso do Philologic, poucas mudanças foram necessárias e optou-se apenas pela tradução parcial da interface do processador de córpus para o Português. A maior parte dos recursos do processador já estava funcionando após a instalação. Entretanto, para ativar os recursos de detecção de variantes de grafia, exibição de concordâncias em uma única linha (kwic) e uso de banco de dados para indexação de informações catalográficas foi necessário instalar algumas bibliotecas adicionais. O cabeçalho TEI reconhecido pelo Philologic difere do cabeçalho usado no projeto DHPB. Isso ocorre, pois o padrão TEI permite a especificação de metadados em diferentes seções do cabeçalho. Por exemplo, o nome do autor pode ser especificado dentro das seções “<sourcedesc>” e “<filedesc>”. O Philologic foi então adaptado para aceitar o cabeçalho usado no córpus. Por fim, a interface gráfica foi parcialmente traduzida para o Português para facilitar o acesso ao processador. Uma apresentação sobre as ferramentas foi feita durante III Encontro do Projeto DHPB em janeiro de 2007.