4.7 RESULTADOS RELEVANTES
4.7.3 Tamanho do Índice
Outro ganho significativo na utilização de um analisador que reconheça a língua portuguesa pode ser visto no tamanho do índice. A Figura 49 mostra o tamanho desse ganho.
700 705 710 715 720 725 730 735 740
Tamanho do Índice
Tamanho do índice com análisador português Tamanho do índice sem analisador português
Figura 50 - Gráfico de tamanho do índice
76
Apesar dos ganhos não parecerem tão significativos nos testes, ao utilizar uma grande coleção de documentos esse ganho passa a ser maior. Vale a pena ressaltar que o tamanho do arquivo de índice é muito pequeno comparado ao tamanho do conjunto de documentos, como observa-se na Figura 50.
0 1000 2000 3000 4000 5000 6000 7000 8000
Tamanho em KB
Tamanho em KB do arquivo de índice Tamanho em KB do conjunto de
documentos
Figura 51 - Tamanho em KB
Dessa forma, pode-se ter noção da qualidade do processo de indexação, já que o arquivo de índice possui menos de 10% do tamanho do conjunto de documentos indexados.
5 ANÁLISE DOS RESULTADOS
Para comprovar que a ferramenta obteve bons resultados no processo de pesquisa, foi necessária a realização de alguns testes para verificar a qualidade dos resultados obtidos, assim como a precisão da pesquisa.
A análise da precisão foi feita baseada na Equação 4, onde o número de documentos relevantes encontrados é dividido pelo número total de documentos encontrados. Além disso, para verificar se o primeiro resultado apresentado realmente é o documento mais relevante, foi feito um teste baseado na relevância. Os testes foram feitos usando os documentos do Apêndice A.
Foram considerados relevantes todos os documentos do tipo em que se desejava encontrar e foi considerado documento mais relevante o documento exato que se pretendia localizar. O primeiro teste pode ser visto na Tabela 3.
Tabela 3 - Tabela de Análise dos Resultados (1)
Expressão Pesquisada Encontrados Relevantes Precisão Primeiro Documento Ideal?
2379 2003 isenção 63 55 87% Sim
No teste da Tabela 3, já se sabia o número do processo que se queria localizar (2379), seu respectivo ano (2003) e tipo (isenção). Neste caso, para uma maior precisão, seria necessário o uso do operador AND. Porém, para esse teste, o mais importante foi o primeiro documento listado na tela de resultados ser realmente o documento buscado. Outro exemplo pode ser visto na Tabela 4.
Tabela 4 - Tabela de Análise de Resultados (2)
Expressão Pesquisada Encontrados Relevantes Precisão Primeiro Documento Ideal?
Imposto 1962 27 25 93% Sim
78
No exemplo da Tabela 4, buscava-se apenas saber as pessoas que pagavam imposto rural em 1962. Então, dos documentos localizados, 93% eram de pagamento de imposto no respectivo ano. O último teste pode ser visto na Tabela 5.
Tabela 5 - Tabela de Análise de Resultados (3)
Expressão Pesquisada Encontrados Relevantes Precisão Primeiro Documento Ideal?
Pintor 1994 5 4 80% Sim
Na Tabela 5 procurava-se por um alvará de pintor de uma pessoa no ano de 1994. Foram encontrados cinco documentos, sendo que quatro eram referente a alvarás de pintor, e o primeiro resultado encontrado foi o do respectivo alvará daquele ano.
Um novo exemplo a ser mostrado é a pesquisa pelo alvará de um tipo de estabelecimento, como mostra a Tabela 6.
Tabela 6 – Tabela de Análise de Resultados (4)
Expressão Pesquisada Encontrados Relevantes Precisão Primeiro Documento Ideal?
Padaria 7 7 100% Sim
Neste exemplo buscava-se por todas as referências padaria que houvessem documentadas.
Porém, neste tipo de caso a padaria pode estar indexada de maneira diferente, isto é, com outra palavra que contenha o mesmo significado de padaria. Para isso, utilizou-se de tesauros para se efetuar a pesquisa da Tabela 7.
79 Tabela 7 – Tabela de Análise de Resultados (5)
Expressão Pesquisada Encontrados Relevantes Precisão Primeiro Documento Ideal?
Padaria 21 21 100% Sim
Dessa forma, cadastrou-se no tesauro palavras que possuem o mesmo significado semântico de padaria, como panificadora e confeitaria. Isso fez com que o número de resultados recuperados fosse maior, sendo que os documentos encontrados continuaram sendo relevantes.
Todos os testes foram baseados nas ocasiões que acontecem constantemente no Arquivo Público de Biguaçu, já que nem sempre são conhecidos os termos corretos a serem buscados, sendo importante que os resultados obtidos tenham maior relevância.
6 CONCLUSÕES
Neste trabalho foram apresentados conceitos fundamentais para o entendimento do problema a ser tratado e sua resolução. Para tanto, as etapas necessárias para o desenvolvimento de uma ferramenta de recuperação da informação foram discutidas.
Os fundamentos sobre a função dos Arquivos e a importância de um bom processo de documentação foram abordados, evidenciando a força que a Ciência da Informação exerce no processo de gerenciamento e difusão da informação. Ainda, foram abordados temas relevantes em um processo de recuperação da informação, como a mineração de textos, o uso de tesauros e a importância que a indexação de documentos possui neste processo.
Também foi feita uma pesquisa a respeito do processo de recuperação da informação, abordando algumas das técnicas mais utilizadas atualmente e as tendências da área. Com isto teve- se um conjunto de informações importantes para o desenvolvimento da ferramenta, permitindo comparar as técnicas e decidir quais melhor se aplicaram na construção da ferramenta de busca do Arquivo Municipal de Biguaçu.
Após um estudo sobre as teorias e técnicas de recuperação da informação foi realizada a modelagem da ferramenta a partir do levantamento de requisitos, diagramas de caso de uso, diagramas de classe e sequência.
A implementação da ferramenta teve início então, sempre com foco no problema do Arquivo Público de Biguaçu, já que na área de recuperação da informação, cada caso possui uma diferente resolução, pois os requisitos variam de acordo com cada problema.
Em relação ao Arquivo Público de Biguaçu, com o conhecimento dos documentos informatizado por este órgão, notou-se que se tratavam de documentos que já eram indexados manualmente. Quando um funcionário do Arquivo executa a informatização de documentos, na maioria dos casos, escolhe os dados mais relevantes dos mesmos, já que seria inviável informatizar todo o documento manualmente. Além disso, os documentos geralmente possuem campos de identificação, como por exemplo: número do processo, ano do documento, nome do requerente, cabeçalho da lei, tipo de documento, etc.
81
Dessa forma, percebe-se que a coleção de documentos informatizados do Arquivo Público de Biguaçu tem um diferencial da maioria das coleções de documentos: o seu conteúdo possui alto valor semântico.
Tendo o conhecimento dessa importante informação, procurou-se fazer um processo de indexação que pudesse preservar os dados originais dos documentos, só alterando o conteúdo dos documentos quando fosse realmente necessário ou quando isso não influenciasse na busca pelo texto original.
Com isso, ao implementar funcionalidades que seriam importantes para o Arquivo Público de Biguaçu, como o uso de tesauros, percebeu-se que os mesmos não seriam utilizados no processo de indexação, e somente, caso o usuário desejasse, eles poderiam auxiliar no processo de busca.
Como geralmente as pessoas que buscam documentos no Arquivo de Biguaçu (usuários do sistema) são as mesmas pessoas que informatizam os documentos, levou-se em consideração o conhecimento que elas possuem sobre esses documentos. Por isso, caso o usuário saiba como foi indexado o documento e conheça a melhor maneira de buscá-lo, a ferramenta deve permitir que ele use esse conhecimento para a pesquisa, sem efetuar nenhuma alteração no conteúdo dos documentos informatizados.
Entretanto, como nem sempre se sabe exatamente o que se quer buscar, pois geralmente as buscas são solicitadas por pessoas externas ao Arquivo Público de Biguaçu e que podem não passar corretamente as informações, a ferramenta deve servir para atender ao usuário da melhor maneira possível, auxiliando a contornar essa incerteza no processo de busca.
Foi dessa forma que foi desenvolvido o tesauro, para que no momento da busca, caso o usuário busque por alguma palavra que possua sinônimos comuns no conjunto de documentos, o sistema também possa encontrar documentos com aqueles sinônimos.
Outras possibilidades de auxiliar o usuário foram desenvolvidas como a utilização de expressões com operadores e termos. O sistema possui uma lista grande de operadores que facilitam a pesquisa de documentos. Ainda, como o sistema pode ser utilizado por usuários com pouco conhecimento no assunto, a tela de busca avançada permite realizar de forma simples a busca ideal para o usuário, dispensando conhecer todo o conjunto de operadores.
82
Foram realizados testes para que fosse certificado que a ferramenta construída atende às necessidades do Arquivo Público de Biguaçu, ficando constatado que para a resolução do problema da pesquisa em documentos, a ferramenta mostrou-se muito eficiente.
Contudo, ao longo do desenvolvimento deste trabalho, foram encontrados alguns problemas, os quais precisaram ser solucionados para que os objetivos traçados pudessem ser alcançados.
Um dos desafios do desenvolvimento do sistema foi a integração de todas as ferramentas utilizadas. Apesar de ferramentas como o Lucene serem utilizadas mundialmente no processo de recuperação da informação, é necessário conhecer suas características e funcionalidades, o que demanda tempo de estudo do assunto para uma melhor utilização. O Lucene, que é uma biblioteca muito completa, contém apenas o núcleo do “motor” de busca. Dessa forma, foi preciso a colaboração de outras ferramentas e a implementação de outros procedimentos que auxiliassem a tornar o sistema mais completo.
Outro problema enfrentado – e esse é um dos problemas mais encontrados nesse tipo de ferramenta – foi o tratamento dos textos dos documentos. Muitos documentos possuem conteúdo que não é de interesse no processo de indexação e busca e precisa ser tratado. Figuras, tabelas, quebra de linha e outros códigos são desnecessários e acabam atrapalhando no processo da coleta e indexação de documentos.
Procurou-se tratar todos estes problemas para que se obtivesse um resultado satisfatório quando a ferramenta fosse concluída, sendo que para o atual contexto do Arquivo Público de Biguaçu, a ferramenta mostrou ser capaz de auxiliar e otimizar o processo de busca e recuperação da informação. A análise dos resultados obtidos e a utilização da ferramenta no Arquivo Público de Biguaçu provaram a eficiência da ferramenta ao tratar os documentos do mesmo, com o grande diferencial sendo o tratamento de documentos em língua portuguesa.
Todavia, isso não significa que a ferramenta não deva evoluir. Assim como a informação e o número de documentos crescem de forma vertiginosa, a tecnologia vem se aperfeiçoando para tratar com problemas cada vez mais complexos. Neste caso não deve ser diferente, pois trabalhos futuros podem e devem ser desenvolvidos.
Como a tendência do Arquivo Público de Biguaçu é a transformação automática de documentos em arquivos textuais com o uso da tecnologia OCR, o conteúdo dos documentos
83
informatizados tende a mudar de característica, passando a ser um conteúdo formado por textos maiores, o que implicará em um maior tratamento.
Além disso, quando os documentos informatizados tiverem também sua imagem digitalizada, deve ser possível que a ferramenta localize além do conteúdo documento, a sua respectiva imagem. Isso poderá fazer com que a ferramenta forneça ao usuário, além do conteúdo do documento, a sua reprodução fiel ao original. A ferramenta também poderá ser integrada com o scanner e o OCR, fazendo com que a mesma ferramenta possa digitalizar, transformar em texto, indexar, buscar e reproduzir os documentos.
Também é interessante ressaltar que a qualidade dos resultados da ferramenta desenvolvida ainda pode ser melhorada, pois várias técnicas de Inteligência Artificial apresentadas neste trabalho podem ser adaptadas para auxiliar a ferramenta neste processo.
Por fim, os objetivos do projeto foram alcançados e a ferramenta desenvolvida atendeu às necessidades atuais do Arquivo Público de Biguaçu, servindo de fundamento para que novas técnicas e funcionalidades possam ser estudadas e desenvolvidas.
REFERÊNCIAS BIBLIOGRÁFICAS
ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob enfoque da inteligência computacional. Rio de Janeiro, 2007.
ARAÚJO JÚNIOR, R. H. Precisão no processo de busca e recuperação da informação. Brasília:
Thesaurus, 2007.
ARQUIVO NACIONAL. Dicionário brasileiro de terminologia arquivística. Rio de Janeiro:
Arquivo Nacional, 2005.
BASTOS, V. M. Ambiente de Descoberta de Conhecimento na Web para língua portuguesa.
Rio de Janeiro: 2006.
BIGUAÇU. Lei nº 714, de 22 de maio de 1992.
BRASIL. Lei nº 8.159, de 8 de janeiro de 1991.
CAMPOS, M. L. A. Linguagem documentária: teorias que fundamentam sua elaboração. Niterói:
Eduff, 2001.
DATTA, S. A organização de conceitos para a recuperação da informação. Disponível em:
<http://revista.ibict.br/index.php/ciinf/article/view/1559/1175>. Acesso em: 10/03/2010.
FERNEDA, E. Recuperação de Informação: Análise sobre a contribuição da Ciência da Computação para a Ciência da Informação. São Paulo, 2003.
GOMES, H. E. Manual de elaboração de tesauros monolingues. Florianópolis, 1990.
GUIMARÃES, J. A. C. Interfaces Hipertextuais para a Representação da Informação. UNESP, 2006. Disponível em: <http://www.portalppgci.marilia.unesp.br/enancib/viewpaper.php?id=230>.
Acesso em: 10/03/2010.
HATCHER, E.; GOSPODNETIC, O. Lucene in Action. Londres, 2005.
KRAMER, João. Lucene. Disponível em: <
http://projeto.lexml.gov.br/Members/joaolima/02_lucene>. Acesso em 02/08/2010.
LANCASTER, F. W. Indexação e Resumos: teoria e prática. Brasília: Briquet de Lemos, 1993.
LOPES, M. C. S. Mineração de dados textuais utilizando técnicas de clustering para o idioma Português. Rio de Janeiro, 2004.
LUCENE. Disponível em:< http://lucene.apache.org>. Acesso em 04/08/2010.
LUKE. Disponível em:< http://www.getopt.org/luke/>. Acesso em 13/09/2010.
MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. São Paulo, 2003.
85
PAMPLONA, V. Introdução ao Apache Lucene. Disopnível em:
<http://vitorpamplona.com/wiki/Introdu%C3%A7%C3%A3o%20ao%20Apache%20Lucene>.
Acesso em: 23/09/2010.
PINHEIRO, C. A. R. Inteligência Analítica: Mineração de Dados e Descoberta de Conhecimento.
Rio de Janeiro: Editora Ciência Moderna Ltda, 2008.
RAMOS, L. B. Centros de cultura, espaços de informação: um estudo sobre a ação do Galpão Cine Horto. Belo Horizonte: Argvmentvm, 2008.
ROBREDO, J. Documentação de hoje e de amanhã: uma abordagem revisitada e contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas, documentárias, arquivísticas e museológicas. Brasília: Edição de autor, 2005.
ROWLEY, J. Informática para bibliotecas. Brasília: Briquet de Lemos, 1994.
SOARES, F.A. Mineração de Textos na Coleta Inteligente de Dados na Web. Rio de Janeiro, 2008.
SONAWANE, A. Usando o Apache Lucene para procura de texto. International Institute of Information Technology. Bangalore, 2009. Disponível em:
<http://www.ibm.com/developerworks/br/java/library/os-apache-lucenesearch/>. Acesso em 14/10/2010.
VELOSO, S. Conhecendo o Apache Lucene. Disponível em:
<http://www.devmedia.com.br/articles/post-8308-Artigo-Java-Magazine-49-Conhecendo-o- Apache-Lucene.html>. Acesso em: 28/10/2010.
VALLE, J. D. Nova versão da biblioteca Apache Poi está no ar. Disponível em:
<http://info.abril.com.br/noticias/ti/biblioteca-apache-poi-3.6-esta-no-ar-16122009-26.sh>l.
Acessado em 23/10/2010.
APÊNDICES
87
COLEÇÃO DE DOCUMENTOS PARA OS TESTES
Foram coletados 196 arquivos para que os testes fossem realizados. Esses arquivos estão divididos em três pastas, onde cada pasta contém o tipo de documento correspondente ao arquivo.
As pastas são Isenção de IPTU, Imposto Territorial Rural e Alvara de Licença. A Figura 51 corresponde aos documentos da pasta Isenção de IPTU.
Figura 52 - Documentos da Pasta de Isenção de IPTU
88
A Figura 52 corresponde aos documentos da pasta de Imposto Territorial Rural.
Figura 53 - Documentos da Pasta de Imposto Territorial Rural