Comparativo entre os processadores de córpus

Os processadores de córpus foram avaliados pelas métricas definidas na ISO 9126 (UNIVERSITÉ DE GENÈVE, 2006). Seis métricas são definidas para a avaliação de qualidade de software, além de diversas outras derivadas a partir das métricas principais:

• Funcionalidade: consiste na análise das funções desempenhadas pelo o software em questão. Em muitas avaliações, essa é a métrica mais importante.

• Confiabilidade: analisa a capacidade do software de funcionar como esperado em todas as tarefas solicitadas pelo usuário. Também está relacionada à tolerância a falhas e recuperação de erros. Falhas de projeto e implementação podem causar erros na execução do software, comprometendo sua confiabilidade.

• Usabilidade: analisa a facilidade de usar e de aprender o software. Um software com uma boa usabilidade deve fornecer uma interface simples, amigável e intuitiva ao usuário.

• Eficiência: analisa o desempenho do software e o uso de recursos do sistema. Um programa é dito escalável quando apresenta boa eficiência mesmo para volumes grandes de dados.

• Manutenibilidade: avalia a facilidade em modificar e expandir as funcionalidades do software. Também análise a facilidade em entender, alterar e testar o software. Um bom projeto de software possibilita a criação de ferramentas com alta manutenibilidade. Outro fator importante é documentação do código.

• Portabilidade: avalia o número de plataformas de software e hardware sobre as quais o software pode operar em condições normais de funcionamento. Um software portável pode ser executado em diversas plataformas, de forma independente das configurações do usuário.

A funcionalidade foi avaliada a partir de 8 critérios (mostrados na Tabela 3.3). Um concordanceador e um contador de freqüências estão presentes em quase todas as ferramentas analisadas. As funcionalidades para buscas orientadas a glossários, processamento de texto anotado e geração de subcórpus foram consideradas por facilitar a criação de buscas elaboradas. A geração de colocações e o tratamento de codificação de caracteres também foram levados em conta.

A análise de usabilidade foi baseada em três métricas: facilidade no uso do concordanceador, presença de documentação e opções de idioma para a interface. O concordanceador foi escolhido por ser utilizado com freqüência em diversos tipos de tarefas e em particular para pesquisas lexicográficas. Nesse caso, optou-se por uma análise objetiva, baseando-se no número de cliques necessários para acessar concordâncias. O concordanceador do GATE não é ativado por padrão. Uma vez ativado, seu uso é fácil, mas o processo de ativação (não avaliado aqui) é relativamente complexo. A presença de documentação foi avaliada em uma escala subjetiva, em três níveis: (1) pouca/nenhuma, (2) média e (3) completa. Na análise da interface, foi constatado que as ferramentas estão disponibilizadas apenas em inglês, o que dificulta seu uso a pesquisadores com pouco ou nenhum conhecimento no idioma, embora seja o mais comum, pois o Inglês é a língua franca da ciência.

A eficiência foi analisada através de dois testes: (1) o tempo levado para as ferramentas pré-processarem um córpus e (2) o tempo levado para realizar uma busca e exibi-la no concordanceador. Os testes foram realizados em um computador com uma CPU de 1.5 GHz e 512 MB de memória RAM. Além disso, os requisitos mínimos de hardware para a execução das ferramentas foram avaliadas, pois não existe muita informação disponível sobre eles. O tempo de pré-processamento da ferramenta Tenka foi considerado como zero, pois a

ferramenta não pré-processa o texto. Como nenhum tipo de indexação é realizado, as buscas tendem-se a tornar-se mais lentas. Os testes foram realizados no córpus contemporâneo PLN- BR Gold, contendo 1.024 textos e totalizando 338.441 palavras. Optou-se por um córpus contemporâneo por não demandar configuração adicionais nas ferramentas. As anotações foram removidas antes dos testes, pois nem todas as ferramentas podem processar textos anotados. O cliente e o servidor Xaira foram executados no mesmo sistema ao invés de em seu modo de funcionamento distribuído. Da mesma forma, o servidor Philologic e o navegador cliente também foram executados no mesmo sistema. O Philologic possui uma vantagem no modo cliente-servidor, pois o cliente pode ser um navegador modesto em um sistema com poucos recursos.

A manutenibilidade foi avaliada na perspectiva do usuário ao invés dos desenvolvedores originais das ferramentas. Nesse sentido, o próprio usuário pode se tornar um desenvolvedor, algo possível em softwares livres ou abertos. Nesse caso, é importante observar a licença de distribuição de cada ferramenta, pois traz limitações e restrições de uso. A maioria das ferramentas é distribuída sobre a licença GNU GPL (GNU General Public License). No caso do Philogic, que pode ser classificado na categoria de software como serviço, é usada a licença Afero GPL, mais adequada a esse tipo de software.

Na portabilidade, foram avaliados os sistemas operacionais permitidos por cada ferramenta. O Philologic foi considerado o mais portável, pois a Web está disponível em praticamente todas as plataformas. GATE e o Unitex também obtiveram uma boa avaliação, devido ao fato da linguagem Java funcionar em diversas plataformas. O mesmo se aplica ao

Tenka, desenvolvido em C# (apesar de não ter funcionado em um teste no ambiente Linux,

diferentemente do indicado pelo desenvolvedor). O Xaira, desenvolvido em C++, pode rodar em Windows e Linux (sem interface no caso do Linux). A Tabela 3.3 traz a avaliação comparativa entre as ferramentas. Observa-se que cada ferramenta apresentada possui seus prós e contras.

Tabela 3.3: Comparativo entre as ferramentas

Métrica Critério GATE

(build 2752) Philologic 3.1 Unitex 2.0 beta Tenka 0.1.3.2 Xaira 1.23

funcionalidade concordanceador sim sim sim sim sim funcionalidade contador de

freqüência

não sim sim sim sim

funcionalidade busca orientada a glossário

Métrica Critério GATE (build 2752) Philologic 3.1 Unitex 2.0 beta Tenka 0.1.3.2 Xaira 1.23 funcionalidade processamento de anotação

sim (XCES) sim (TEI- Lite) Parcial (gramatical) Parcial (gramatic al) sim (TEI ou similar) funcionalidade criação de subcórpus não sim não sim sim funcionalidade colocações ou n-

gramas

sim sim não não sim

funcionalidade codificação de caracteres

UTF-8 UTF-8 UTF-16 UTF, ISO, etc

UTF-8/16 usabilidade cliques para

concordanceador

3 1 5 6 6

usabilidade nível de documentação

3 3 3 1 2

usabilidade idiomas da interface Inglês Inglês Inglês Inglês Inglês eficiência tempo de pré- processamento (segs.) 663 61,5 19,5 0 36,9 eficiência tempo do concordanceador 212 1,5 8 13,5 0,7

manutenibilidade licença GNU LGPL Affero GPL GNU GPL GNU GPL

GNU GPL Portabilidade sistema operacional diversos

(java) diversos (web) diversos (java) diversos (C#) Windows e Linux

A avaliação foi feita em dois momentos, inicialmente com as ferramentas Philologic,

Unitex e Xaira e novamente com a inclusão do Tenka e do GATE. A segunda avaliação foi

feita em parceria com o pesquisador Filipi Silveira que também trabalha com avaliação de ferramentas. A versão beta do Unitex foi avaliada por trazer mais recursos que a versão anterior e apresentar boa confiabilidade. O GATE foi avaliado com os recursos padrões, sem a instalação de módulos de terceiros (o único recurso alterado foi a adaptação de seu concordanceador).

Outros comparativos podem ser encontrados em (RAYSON, 2002) (envolvendo 9 ferramentas avaliadas segundo 12 critérios), (SCHULZE et. al, 1994) (mais de 30 ferramentas diferentes avaliadas por diversos critérios) e (UNIVERSITÉ DE GENÈVE, 2006) (tratando ferramentas para auxílio a escrita). O comparativo de Schulze et. al está um pouco defasado em virtude da data do trabalho (1994), pois muitas ferramentas têm sido desenvolvidas desde então.

4 Processamento de córpus históricos para

tarefas lexicográficas: problemas e soluções

4.1 Considerações iniciais

Neste capítulo são discutidos os problemas e as possíveis soluções para o processamento do córpus DHPB. As soluções propostas podem ser aplicadas também a outros córpus históricos, sejam eles de língua Portuguesa ou não. Dentre os problemas que podem ser encontrados na compilação de um córpus histórico, é possível citar: a utilização de caracteres que caíram em desuso (Seção 4.2), a grande quantidade de abreviaturas (muitas delas ambíguas) (Seção 4.3), as diversas variações de grafia para uma dada palavra (Seção 4.4), o problema das junções ou contrações (Seção 4.5) e a existência de poucos trabalhos sobre tipologia de córpus para textos históricos (Seção 4.6). A anotação de gêneros em textos históricos segundo uma tipologia permite avaliar o balanceamento e a representatividade do córpus. Adicionalmente, a falta de um ambiente livre e integrado de processamento de córpus e redação de verbetes do dicionário torna a tarefa mais morosa, pois estes possuem particularidades como é o caso das variações de grafia (Seção 4.7).

No documento Criação de um ambiente para o processamento de córpus de Português Histórico (páginas 63-67)