Classificação dos documentos - PROBLEMAS ENCONTRADOS

4.8 PROBLEMAS ENCONTRADOS

4.8.4 Classificação dos documentos

Grande foi a dificuldade para identificar um classificador que obtivesse um desempenho satisfatório para encontrar documentos similares com treinamento realizado por um documento apenas. Alguns algoritmos foram testados, porém, sem sucesso. Para encontrar documentos similares através de um classificador é necessário um conjunto de treinamento maior, pois com poucos documentos, o algoritmo de classificação não possui base estatística suficiente para calcular as probabilidades dos documentos e, conseqüentemente, não consegue classificá-los.

A solução encontrada para desenvolver essa função prevista no projeto foi prática e simples;

quando o usuário clica em “buscar similares” é gerada, a partir do documento selecionado, uma nova expressão de busca com seus termos. Como os métodos de busca utilizam similaridade, os resultados foram satisfatórios, como pode ser observado na Figura 76, onde foi pesquisado o termo

“resolução 1.104”.

Figura 76. Busca pela expressão "resolução 1.104".

Após o resultado ser exibido, clicou-se em “Buscar similares” e foi obtido o resultado ilustrado na Figura 77.

111

Figura 77. Resultado de uma busca por documentos similares.

Somente arquivos similares foram retornados. Assim, a solução criada atendeu as expectativas sendo possível inferir que a busca por similaridade implementada pelo Lucene atende as necessidades quando se busca documentos semelhantes aquele da busca original.

5 ANÁLISE DOS RESULTADOS

Na análise e interpretação dos resultados, também conhecida como pós-processamento dos dados, é o momento de avaliar se os objetivos do sistema foram alcançados da melhor maneira possível. Para realizar esta análise foram empregadas as métricas de cobertura, precisão e medida-F.

Para a elaboração dos testes foi feita, primeiramente, a indexação da coleção de documentos Apresentada no Apêndice A. Na seqüência, foram realizadas três pesquisas com as expressões e a quantidade de resultados relevantes previstas, conforme exibe a Tabela 9.

Tabela 9. Quantidade de itens relevantes e irrelevantes definidos para as expressões de busca.

Expressão de busca Documentos Relevantes Documentos Irrelevantes

“Comunicação Interna” 21 51

“Resolução” 26 46

“Pareceres” 25 47

Na Tabela 10 são exibidos os resultados relevantes e irrelevantes recuperados retornados pelo sistema de busca após a execução das expressões.

Tabela 10. Quantidade de itens relevantes e irrelevantes retornados pelo sistema.

Expressão de busca

Documentos Relevantes Recuperados

Documentos Irrelevantes Recuperados

Documentos Relevantes não

Recuperados

Total Documentos Recuperados

“Comunicação Interna” 21 0 0 21

“Resolução” 26 11 0 37

“Pareceres” 25 2 0 27

Para medir a precisão foi utilizada a Equação 13 (que calcula a proporção entre o número de itens relevantes recuperados e o número total de itens recuperados); já a cobertura foi calculada utilizando a Equação 14 (proporção entre o número de itens relevantes recuperados e o número total de itens relevantes no sistema), ao passo que a medida-F foi calculada utilizada a Equação 15 (combinação das métricas de cobertura e precisão).

Na Tabela 11 podem ser visualizados os resultados obtidos através do cálculo das métricas precisão, cobertura e medida-F.

113 Tabela 11. Análise dos resultados

Expressão de busca Precisão Cobertura Medida-F

“Comunicação Interna” 1,00 1,00 1,00

“Resoluções” 0,70 1,00 0,82

“Pareceres” 0,92 1,00 0,95

Média 0,87 1,00 0,92

Analisando os resultados exibidos na Tabela 11, observa-se que o sistema obteve uma cobertura de 100% nos três casos. Já a precisão na recuperação dos documentos obteve uma média de 87%. Na média harmônica ou medida-F, que é a combinação das duas métricas obteve-se um o valor de 0.92. Segundo Carrilho Junior (2007), quanto mais próximo de 1 este valor for, maior relevância possui o conjunto de dados testado.

A partir desses resultados é possível concluir que o sistema apresentou resultados aceitáveis em termos de qualidade na recuperação dos documentos. É importante salientar que, apesar do nível de precisão do sistema ser relativamente baixo, a cobertura foi total, ou seja, todos os documentos relevantes foram recuperados.

Neste sistema, entende-se que a cobertura é mais importante que a precisão, pois à medida que a precisão aumenta a cobertura diminui resultando em documentos relevantes que não sejam recuperados (BAEZA-YATES & RIBEIRO NETO, 1999). E como o sistema dispõe de uma estrutura que permite ao usuário navegar pelos grupos de documentos similares, torna-se interessante que sejam retornados todos os resultados relevantes.

6 CONCLUSÃO

Neste trabalho foram apresentadas técnicas da área interdisciplinar de mineração de textos, o que implicou em pesquisar e estudar domínios a ela relacionados, como recuperação da informação, estatística e lingüística. Foram abordadas propostas e métodos discutidos na literatura sobre as etapas de coleta, pré-processamento, indexação, mineração e análise. Para cada uma destas etapas foi apresentado o que atualmente é considerado “estado da arte” pela comunidade acadêmica, através de técnicas e algoritmos comprovados e reconhecidos como sendo de sucesso.

Partindo do princípio de que é necessário determinar o que se pretende obter dos dados, isto é, qual o objetivo final do processo, foram apresentadas as principais técnicas de mineração de textos, realizando uma análise crítica e fatores que influenciam o desempenho dessas técnicas com base em bibliografias atuais.

Este trabalho também abordou dados não-estruturados e a necessidade de aperfeiçoamento de algoritmos e softwares, visto que a velocidade de processamento de dados textuais é algo cada vez mais necessário para assegurar a eficiência das ferramentas de descoberta de conhecimento em textos.

Objetivando encontrar referências para o desenvolvimento e a escolha das técnicas mais adequadas, um breve estudo sobre ferramentas de mineração de textos foi realizado.

Foi apresentada a documentação e o desenvolvimento da ferramenta de busca proposta, a qual foi dividida em módulos que representam cada uma das etapas da metodologia estudada.

Apresentou-se uma visão geral da ferramenta de busca, onde são discutidas as funcionalidades da ferramenta, tanto na área administrativa, que permite o gerenciamento das coleções de documentos, o processo de indexação e as operações de pré-processamento textual realizados sobre os textos, quanto na área de busca, onde se pode pesquisar documentos através de uma expressão de busca. Nesta área foram desenvolvidas telas de busca e também apresentados os operadores de busca que podem ser empregados para realizar pesquisas mais avançadas.

Durante o desenvolvimento da ferramenta foram agregadas algumas ferramentas fundamentais para o funcionamento do sistema. Dentre elas pode-se destacar o Apache Tika que possibilitou a extração dos dados e metadados de diferentes tipos de arquivos, utilizado durante a coleta dos documentos para extração dos textos dos documentos para indexação.

Já o Apache Lucene possibilitou a geração dos índices baseados em lista invertida, as operações de pré-processamento textual e as buscas nos índices. O Lucene serviu como pilar para desenvolvimento do trabalho, sendo necessárias alterações em seu código. Nos métodos de pré-

115

processamento textual foram adicionadas algumas funcionalidades, como a edição da lista de stopwords, que nativamente não é permitida, a possibilidade de desativar algumas operações e, com base em seus analisadores, foi construído um analisador que permite a aplicação do dicionário de tesauros.

Ainda, o Carrot2 foi utilizado para agrupar os resultados de uma busca realizada ao índice gerado pelo Lucene. Também algumas modificações foram realizadas para permitir sua integração com o sistema, como uma classe responsável por realizar o mapeamento dos dados do sistema em um formato permitido pela ferramenta. Um método para permitir a extração dos dados da estrutura gerada pela ferramenta foi desenvolvido.

No módulo de coleta foi elaborado um algoritmo para coletar os documentos do disco e a realização da extração dos textos e metadados dos documentos, mapeando-os em uma classe de integração do Lucene, que então é enviada ao módulo de pré-processamento. Neste módulo foram aperfeiçoados os analisadores do Lucene, permitindo a tokenização, a remoção de stopwords, o stemming e o dicionário de tesauros.

No módulo de indexação foram utilizadas as rotinas para criação dos índices disponibilizadas pelo Lucene. Para obter o máximo de desempenho na indexação foram feitos ajustes em seus parâmetros, o que implicou na realização de testes para verificar o melhor valor dos parâmetros através de uma classe construída para variar os valores e obter os valores ideais. Como resultado dos testes observou-se um ganho de desempenho de 14.73% entre o melhor e pior caso.

Durante os testes do módulo de indexação foi identificada uma limitação de desempenho quando a indexação é realizada diretamente via web. Assim, em virtude do elevado tempo de indexação, foi criado um programa que executa localmente no servidor, sendo responsável pela execução dos trechos de código da indexação. Este programa obteve um tempo de indexação seis vezes melhor que o tempo da execução da indexação via web.

No módulo de mineração, para realizar o agrupamento dos resultados, foi utilizado o algoritmo LingoClustering, disponibilizado pela API da ferramenta Carrot2, onde os resultados retornados através de uma busca realizada pelo usuário são agrupados por similaridade de documentos, o que possibilita ao usuário melhor visualização dos resultados da pesquisa e melhora a eficiência na busca por informação.

Também foi realizada análise e interpretação dos resultados obtidos pelo sistema de busca desenvolvido utilizando as métricas de cobertura, precisão e medida-F. Através destas métricas foi possível mensurar a efetividade do sistema na recuperação de documentos, onde se obteve um nível de precisão em torno de 87%, enquanto a cobertura foi total, ou seja, todos os documentos

116

relevantes foram recuperados. Neste sistema entende-se que a cobertura seja mais importante que a precisão, pois é preferível que sejam retornados mais documentos – desde que recuperando todos os relevantes –, ao invés de um número menor de documentos, com a omissão de resultados relevantes.

Outro aspecto interessante levantado durante o desenvolvimento do trabalho é a redução do número de termos de uma coleção em relação às operações de pré-processamento realizadas, onde com a remoção de stopwords se observou uma redução de 2% no número de tokens, ao passo que com o processo de stemming a redução foi de 27%. A relação que as operações de pré- processamento possuem sobre o tamanho dos índices também foi estudada. Percebeu-se que com a realização da remoção de stopwords e com o processo de stemming pode-se chegar a uma redução de aproximadamente 26.90% no tamanho dos índices, muito importante quando é necessário indexar um número grande de documentos.

Problemas foram encontrados no decorrer do desenvolvimento do sistema. Dentre os problemas identificados, alguns foram resolvidos de forma paliativa, enquanto outros não tiveram solução, como:

1. Conversão dos documentos: durante a indexação, aconteceram erros na conversão do conteúdo dos documentos para texto puro. O erro decorrido é em razão de documentos que não contém texto em seu corpo, ou seja, documentos cujo conteúdo é formado apenas por imagens, muito encontrado em arquivos PDF ou digitalizados a partir de imagens. Para solução deste problema seria necessário realizar um processo de OCR (Optical Character Recognition), ou semelhante, para extração do conteúdo textual.

2. Tratamento dos textos: durante a extração dos textos dos documentos são encontrados certos problemas com textos retirados de arquivos que contém imagens. Nesses documentos o conteúdo apresenta referências para imagens, que durante a extração do texto são confundidos, equivocadamente, com o texto do documento. Este problema não ocorre para campos que são indexados, pois são removidos durante o pré-processamento textual, porém um campo chamado summary armazena as primeiras palavras contidas no texto dos documentos e que não é submetido ao pré-processamento textual, resultando, assim, em cadeias de caracteres estranhas no momento da apresentação dos resultados da busca. A solução ideal seria algo semelhante a uma stoplist onde, à medida que são identificadas as cadeias de caracteres indesejadas, o usuário possa através de uma interface cadastrar essas cadeias de modo que sejam ignoradas pelo sistema no momento da extração dos dados.

117

Com o desenvolvimento deste trabalho pode-se concluir que para a área de mineração de textos várias ferramentas podem ser encontradas. No entanto, em sua maioria, atuando de forma específica nos processos de mineração de textos. Neste trabalho a atividade mais custosa foi justamente a integração dessas ferramentas, que muitas vezes de forma isolada não representam ganho, mas quando utilizadas e adaptadas para um objetivo único tornam-se muito importantes, permitindo, assim, que valiosos resultados sejam alcançados.

Enfim, os objetivos traçados para o sistema quanto à recuperação inteligente de documentos foram alcançados, apresentando, ainda, excelentes resultados quanto ao desempenho da indexação e recuperação dos documentos.

Espera-se que o presente trabalho não sirva somente como ferramenta de busca para documentos do CRCSC, mas também como referência para o desenvolvimento de futuros trabalhos na área de recuperação da informação e mineração de textos.

REFERÊNCIAS BIBLIOGRÁFICAS

ARANHA, Christian Nunes. Uma abordagem de pré-processamento automático para mineração de textos em português: sob enfoque da inteligência computacional. Rio de Janeiro, 2007.

ARTHUR, David; VASSILVITSKII, Sergei. How Slow is the k-means Method. USA, 2006.

Disponível em: < http://www.cs.duke.edu/courses/spring07/cps296.2/papers/kMeans-socg.pdf>.

Acesso em 04/11/2009.

BALDI, Pierre; FRASCONI, Paolo; SMYTH, Padhraic. Modeling the Internet and the Web:

Probabilistic Methods and Algorithms. John Wiley & Sons Ltd, 2003. Disponível em:

<http://ibook.ics.uci.edu/Chapter4.pdf>. Acesso em: 04/11/2009.

BASTOS, Valéria Menezes. Ambiente de Descoberta de Conhecimento na Web para a Língua Portuguesa. Rio de Janeiro, 2006.

BATISTA, Gustavo Henrique de Almeida Prado Alves. Pré-processamento de dados em aprendizado de máquina supervisionado. São Carlos, 2003.

BAEZA-YATES, Ricardo; RIBEIRO NETO, Berthier. Modern Information Retrieval. Addison Wesley, 1999.

BIALECKI, Andrzej. Lucene Index Toolbox. Disponível em: http://www.getopt.org/luke/. Acesso em 27/05/2010.

CARDOSO, Olinda Nogueira Paes. Recuperação de Informação. Lavras, 2000.

CARRILHO JUNIOR, João Ribeiro. Desenvolvimento de uma Metodologia para Mineração de Textos. Rio de Janeiro, 2007.

CARROT2. Disponível em: http://project.carrot2.org/. Acesso em 10/04/2010.

CEGALLA, Domingos Paschoal. Novíssima Gramática da Língua Portuguesa. Brasília: IBEP, 2005.

CHEN, Hong. Knowledge management systems: a text mining perspective. Arizona, 2001.

COLEPÍCOLO, Eliane; HOLANDA, Adriano; RUIZ, Evandro; WAINER, Jacques; PISA, Ivan.

MeSH: de caleçalho de assunto a tesauro. USP, 2004. Disponível em:

<http://www.sbis.org.br/cbis/arquivos/994.pdf>. Acesso em: 19/10/2009.

CORRÊA, Adriana Cristina Giusti. Recuperação de documentos baseada em informação semântica no ambiente AMMO. UFSCAR 2003. Disponível em:

<http://www.bdtd.ufscar.br/tde_busca/arquivo.php?codArquivo=485>. Acesso em: 11/08/2009.

EBECKEN, Nelson Francisco Favilla; LOPES, Maria Célia Santos; COSTA, Myrian Christina de Aragão. Sistemas Inteligentes: Fundamentos e Aplicações. Barueri, SP, 2003.

119

FALOUTSOS, Christos; OARD, Douglas. A Survey of Information Retrieval and Filtering Methods. Maryland, 1995.

FELDMAN, Ronen; SANGER, James. The Text Mining Handbook - Advanced Approaches in Analyzing Unstructured Data. Cambridge, 2007.

FERNEDA, Edberto. Recuperação de Informação: Análise sobre a contribuição da Ciência da Computação para a Ciência da Informação. São Paulo, 2003.

GDS PUBLISHING. Managing the Data Explosion. Business Management, 2008.

GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio de Janeiro, 2005

HATCHER, Erik; GOSPODNETIC, Otis. Lucene in Action. Londres, 2005.

JIZBA R.Measuring Search Effectiveness. Nebraska, 2000.

JONES, Sparck; WALKER, S. ROBERTSON, Stephen. A probabilistic modelo of information retrieval: development and comparative experiments – part 2. Department of Information Science, City University, London, 2000.

KAMBER, M; HAN, J.Data mining: concepts and techniques. Morgan Kaufmann, 2001.

KIMBALL, Ralph. The data warehouse toolkit. John & Sons, 1996.

KONCHADY, Manu. Text Mining Application Programmin. Boston, 2006.

LOPES, Maria Célia Santos. Mineração de dados textuais utilizando técnicas de clustering para o idioma Português. Rio de Janeiro, 2004.

LIMO. Disponível em: http://limo.sourceforge.net/. Acesso em: 27/05/2010.

LUCENE. Disponível em: http://lucene.apache.org. Acesso em 10/02/2010.

LUKE. Disponível em: http://www.getopt.org/luke/. Acesso em 27/05/2010.

MANNING, Christopher D.; RAGHAVAN, Prabhakar; SCHÜTZE, Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2009.

MARTINS, Claudia Aparecida. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. São Paulo, 2003.

OARD, Douglas. A Whirlwind Tour of Automated Language Processing for the Humanities and Social Sciences. National Science Foundation, 2009.

120

OARD, Douglas; MARCHIONINI, Gary. A conceptual framework for text filtering. Technical Report, University os Maryland. Disponível em: <http://hcil.cs.umd.edu/trs/96-10/filter.html>.

Acesso em 27/10/2009.

OSINSKI, Stanislaw; WEISS, Dawid. Carrot2: User and Developer Manual for version 3.4.0-dev.

Disponível em: http://project.carrot2.org. Acesso em: 10/04/2010.

PAICE, C. Method for evaluation of stemming algorithms based on error count . Journal of the American Society for Information Science, 1996.

PASSOS, Emmanuel; ARANHA, Christian. A tecnologia de mineração de textos. UFSC, 2006.

Disponível em: <http://www.inf.ufsc.br/resi/edicao08/Artigo86Tutorial%Emmanuel.pdf>. Acesso em: 10/08/2009.

PEDRYCZ, Witold; GOMIDE, Fernado. An Introduction To Fuzzy Sets - Analysis And Design. MIT Press, 1998.

PORTER, Michael. An algorithm for suffixing stripping. Program: electronic library and information systems. Cambridge,1980.

PYLE, Durian. Data preparation for data mining. San Francisco, 1999.

REZENDE, S. O. Sistemas inteligentes: fundamentos e aplicações. Barueri, 2005

ROBERTSON, Alexander. The probability ranking principle in IR. San Francisco, 1997.

ROBERTSON, Stephen; JONES, Sparck. Relevance weighting os search terms. Maryland: Jornal of the American Society for Information Science, 1976.

ROCHA, Marcus V.; DA COSTA, Mateus Conrad B.; DOS SANTO NETO, Pedro de Alcântara.

Busca por frases em bancos de dados textuais. UFMG, 2002. Disponível em:

<http://homepages.dcc.ufmg.br/~nivio/cursos/pa02/seminarios/seminario3/seminario3.html>

Acesso em: 07/08/2009.

SALTON, G.; MCGILL, M. J. Introduction to modern information retrieval. Computer Science Series, USA: McGraw-Hill, 1983.

SILVA, Anddre Serpa da. Aîuri: Um portal para Mineração de Textos integrado a Grids. Rio de Janeiro, 2007.

SOARES, Fábio de Azevedo. Mineração de Textos na Coleta Inteligente de Dados na Web. Rio de Janeiro, 2008.

SONAWANE, Amol. Usando o Apache Lucene para procura de texto. International Institute of

Information Technology. Bangalore, 2009. Disponível em:

http://www.ibm.com/developerworks/br/java/library/os-apache-lucenesearch/. Acesso em:

24/02/2010.

121

STANLEY, Loh. Abordagem Baseada em Conceitos para Descoberta de Conhecimento em Textos. Porto Alegre, 2001.

STANLEY, Loh. Descoberta de Conhecimento em Textos. Porto Alegre, 1999.

SULLIVAN, Dan. The need for Text Mining in Business Intelligence. DM Review, 2000.

TAN, Ah-Hwee. Text Mining: The state of the art and the challenges. Beijing, 1999.

TIKA. Disponível em http://tika.apache.org. Acesso em: 10/05/2010.

WEISS, S.;INDURKHYA N.;ZHANG, T.; DAMERAU, F. Text Mining: Predictive Methods for Analyzing Unstructured Information. Springer, 2004.

WIKIPÉDIA. Disponível em: http://www.wikipedia.org. Acesso em 12/05/2010.

ZADEH, L. A. Fuzzy Sets. Information and Control, 8, p. 338-353, University California, 1965.

ZHU, X., & DAVIDSON, I. Knowledge Discovery and Data Mining: Challenges and Realities.

New York, 2007.

APÊNDICES

123

A COLEÇÃO DE DOCUMENTOS PARA ANÁLISE

Os 72 documentos listados foram colhidos das bases de documentos do CRCSC e separados em grupos de documentos semelhantes entre si e sem semelhança com documentos de outros grupos.

A coleção de documentos de teste é formada pelos documentos listados na Tabela 12.

Tabela 12. Documentos para análise dos resultados.

Nome e Tamanho Grupo e Quantidade

Comunicações Internas 21 documentos

124

Nome e Tamanho Grupo e Quantidade

Resoluções 26 documentos

No documento Diogo Luiz Bizatto.pdf - IIS Windows Server (páginas 125-140)