Classificação Automática de Documentos em uma Biblioteca Digital com o Uso de Ontologias

(1)

Abstract - This paper presents the development of a Digital

Library where the automatic classification of documents is made. The classification process is based in associate each document to a concept defined on the ontology. For this paper a concept can be understood as reference to one subject previously identified. The classification method, is based on the idea that a concept can be identified by the presence of a set of words inside the document. In the classification process a document could be associated to more than one concept with different degree. . Thus when a document is recovered, the process will be consider a set of words related to concepts and not just a single word This work is related to SisRecCol - Recommender System to Support Collaboration project, under development by GPSI (Research Group on Information Systems). The project has the objective to build a system that analyses the messages on a private web chat realizing the recommendations of relevant material (sites, papers, for exemple) to chat users

Resumo - Este trabalho apresenta o desenvolvimento de uma

Biblioteca Digital onde é feita a classificação automática de documentos. O processo de classificação consiste em associar cada documento a conceitos previamente definidos em uma ontologia. Um conceito, no contexto do trabalho, pode ser entendido como sendo uma referência a um assunto ou tema previamente estabelecido. O método de classificação utilizado é parte do princípio de que um conceito pode ser identificado pela presença de um conjunto de determinadas palavras dentro de um documento. No processo de classificação um documento poderá ser associado a mais de um conceito com um grau diferente. Assim, ao recuperar um documento este processo levará em conta não apenas a presença de um termo dentro do documento, mas os conceitos identificados por um conjunto de termos. O trabalho faz parte do projeto Sistema de Recomendação Baseado em Colaboração (SisRecCol), que está sendo desenvolvido pelo GPSI - Grupo de Pesquisa em Sistema de Informação), que tem por objetivo implementar um sistema que analise as mensagens em um Chat web privativo e a partir disto realize recomendações

O presente trabalho foi realizado com o apoio do CNPq, uma entidade do Governo Brasileiro voltada ao desenvolvimento científico e tecnológico.

T. Borges - UCPel (e-mail: [email protected]). R. B. Kickhöfel - UCPel (e-mail: [email protected]) R. P. Rodrigues - UCPel (e-mail: [email protected]) D. Lichtnow - UCPel (e-mail: [email protected]). S. Loh - UCPEL / Universidade Luterana do Brasil Rua Miguel Tostes, 101 - Canoas/RS, Brasil - CEP 92420-280 (e-mail: [email protected]).

R. Saldaña - UCPel (e-mail: [email protected]). UCPel - Universidade Católica de Pelotas

Rua Félix da Cunha, 412 Pelotas – RS – Brasil – 96100-000

de materiais relevante (artigos e sites, por exemplo) para os usuários do Chat.

Palavras-Chave - Biblioteca Digital, Recuperação de

Informação, Mineração de Textos, Classificação.

I. INTRODUÇÃO

m uma organização existe um grande volume de informações que se apresenta na forma de textos. Segundo [BOWDEN 1996], todo documento textual possui muito conhecimento implícito e que pode ser explorado de alguma forma.

Ocorre que nem sempre o conhecimento existente nos documentos é aproveitado de maneira satisfatória, sendo difícil identificar aqueles documentos que fornecem o conhecimento que pode auxiliar na realização de determinadas tarefas.

A tendência, em muitos casos, é que os membros de uma organização precisem examinar um grande volume de documentos a procura daqueles que satisfaçam suas necessidades.

O tempo gasto nesta procura acaba sendo tão grande que os documentos produzidos ou existentes dentro das organizações passam a ser quase ignorado.

Este processo de busca de documentos relevantes pode ser facilitado quando estes documentos estão em formato digital. Neste caso, é possível a adoção de ferramentas que permitam recuperar os documentos a partir de consultas ao seu conteúdo. Uma das possibilidades é a recuperação de documentos a partir da ocorrência de termos que estão presentes em seu conteúdo. Assim, quando um membro deseja recuperar um documento que trate de determinado assunto, este membro informa um termo ou conjunto de termos que estão relacionados ao assunto sobre o qual se está buscando documentos.

Embora útil este tipo de técnica acaba fazendo com que um grande volume de documentos seja recuperado pelo usuário, podendo gerar a chamada de sobrecarga de informação (Information Overload). Segundo [CHEN 1993], Information Overload é caracterizado quando uma pessoa, ao realizar uma consulta, obtém um número excessivo de informações como resposta e não consegue absorvê-las ou tratá-las. No caso da busca por documentos, seria necessário o exame de uma boa parte dos documentos recuperados em uma consulta para encontrar as informações desejadas. Uma série

Classificação Automática de Documentos em

uma Biblioteca Digital com o Uso de

Ontologias

Thyago Bohrer Borges, Rodrigo Branco Kickhöfel, Daniel Lichtnow, Roberto Rodrigues, Stanley Loh e

Ramiro Garin Saldaña.

(2)

de técnicas vem sendo criada visando minimizar este problema.

A partir desta constatação, o presente artigo descreve o desenvolvimento de uma Biblioteca Digital que realiza a classificação de documentos. No método usado, cada documento é associado a um ou mais conceitos presentes na ontologia.

A partir desta classificação automática dos documentos, espera-se facilitar o processo de recuperação de documentos.

A Biblioteca Digital aqui descrita está sendo desenvolvida para o Sistema de Recomendação Baseado em Colaboração (SisRecCol) [LOH 2003]. Esse sistema está sendo desenvolvido pelo grupo de pesquisa em sistemas de informação (GPSI) [GPSI 2003] da Universidade Católica de Pelotas, e consiste basicamente em um sistema que procura identificar os assuntos tratados na sessão de um Chat web privativo e a partir desta identificação realiza a recomendação de material que pode se útil aos participantes de uma discussão. Dentre o material a ser recomendado está o conteúdo armazenado na Biblioteca Digital.

A seção 2 deste artigo aborda algumas definições relacionadas às Bibliotecas Digitais, na seção 3 são apresentadas algumas considerações relacionadas às ontologias. A seção 4 descreve o método utilizado, a seção 5 apresenta o estado atual da ferramenta implementada. Finalmente, a seção 6 apresenta as conclusões.

II. BIBLIOTECAS DIGITAIS

O termo Biblioteca Digital aparece na classificação da ACM como parte da seção de Armazenamento e Recuperação de Informação, a qual faz parte da seção Sistemas de Informação [THOMAS 2001].

Uma Biblioteca Digital pode ser definida como uma coleção dos recursos digitais selecionadas de acordo com determinados critérios, organizados em alguma forma lógica, de modo acessível para a recuperação, distribuída em redes de computador. Os vários tipos de informação digital podem ser incorporados na coleção, incluindo os materiais impressos convertidos para o formato digital bem como aqueles materiais que existem somente no formato digital [THOMAS 2001].

As Bibliotecas Digitais tem grande importância dentro do processo de aquisição, retenção, utilização do conhecimento. No entanto, para que possam ser efetivamente úteis é necessário que sejam implementados mecanismos que permitam a recuperação do material armazenado.

Em muitos casos o processo de recuperação do conteúdo armazenado em uma Biblioteca Digital consiste no fornecimento de termos como argumentos de pesquisa, sendo então recuperados os documentos em que os termos aparecem. Dentro da área de Recuperação da Informação – Information Retrieval, foram desenvolvidas algumas técnicas que permitem realizar esta recuperação a partir do fornecimento de termos de forma mais apurada [SALTON 1983].

Também se pode pensar em associar cada documento a determinados assuntos pré-definidos realizando desta forma a

tarefa de classificação.

Embora esta tarefa de classificação possa ser feita manualmente, o fato é que neste caso, é necessário que o documento seja lido por alguém que tenha algum domínio sobre os assuntos aos quais o documento poderá ser associado. Nem sempre este especialista estará disponível ou disposto a realizar tal tarefa, além disto, diferentes especialistas poderão usar critérios distintos ao classificar um documento. Assim, se o processo de classificação fosse automático muito trabalho poderia ser evitado e os especialistas poderiam ter o seu trabalho facilitado.

III. ONTOLOGIAS

Uma ontologia é uma definição formal e explícita de conceitos (classes ou categorias) e seus atributos e relações [NOY 2002]. Uma ontologia do domínio é semelhante a um thesaurus. De fato, um thesaurus é um tipo de ontologia (para uma discussão detalhada ver [FOSKET 1997].

De acordo com [NOY 2002], um thesaurus é um dispositivo de controle de termos em textos. Os thesaurus fornecem mapas do conhecimento, representando conceitos ou idéias do domínio da aplicação e indicando relações entre eles. Um thesaurus também define os termos usados para descrever um conceito.

“Ontologia é um dispositivo de controle de termos usada na representação de documentos. As ontologias provêem mapas de conhecimento apresentando conceitos ou idéias do domínio de aplicação e indicando relações entre eles. Estes conceitos aparecem representados através de termos, os quais indicam quando um determinado conceito está sendo tratado”[ FOSKET 1997].

Em [NOY 2002] são descritos os passos básicos para a elaboração de uma ontologia:

Determinar o domínio e o escopo da ontologia; Investigar o reuso de ontologias existentes; Listar termos importantes;

Definir classes;

Identificar a hierarquia de classes; Definir propriedades das classes.

Dentro do contexto da Biblioteca Digital aqui descrita, a ontologia, dará suporte na tarefa de identificação dos assuntos tratados nos documentos armazenados na Biblioteca Digital. A identificação dos conceitos (assuntos) presentes nos documentos é feita através dos termos associados aos conceitos da ontologia. Quando um termo é associado a um conceito é definido um valor que determina o quanto aquele termo identifica um conceito isto é, o grau de importância do termo para o conceito. Assim, os pesos associados aos termos determinam a importância relativa ou a probabilidade de um determinado termo identificar o conceito em um texto.

A definição dos conceitos a serem tratados na ontologia pode ser feita a partir de consultas a especialistas nos assuntos a serem considerados ou pode-se ainda utilizar ou adaptar uma classificação pré-existente como a classificação da ACM para informática e a Classificação Internacional de Doenças (CID) para a medicina.

(3)

No sistema proposto, a ontologia é implementada como um conjunto de conceitos em uma estrutura hierárquica (um nó raiz, e nós pais e filhos). Cada conceito tem associado a si uma lista de termos e seus respectivos pesos, que ajudam e identificar o conceito presente nos textos.

Cabe ressaltar que a relação entre termos e conceitos é muitos-para-muitos, isto é, um mesmo termo pode aparecer em mais de um conceito com pesos diferentes, e um conceito pode ser identificado por diferentes termos.

Para gerenciar e manter a ontologia foram implementados algumas ferramentas que permitem sua visualização (hierarquia de conceitos, termos associados aos conceitos), a inclusão e a remoção de conceitos e de termos e a modificação dos pesos dos termos associados aos conceitos. A tarefa de manter a ontologia cabe a um grupo de administradores.

Na implementação atual, a ontologia está voltada para a área de Ciência da Computação, sendo os conceitos baseados na classificação da ACM. Nem toda a classificação foi utilizada, sendo que hoje apenas alguns conceitos vem sendo trabalhados. A Figura 1 mostra alguns conceitos da ontologia para a computação desenvolvida neste trabalho.

Figura 1. Parte da estrutura hierárquica dos conceitos da ontologia para a computação.

Os termos associados a cada conceito e os seus respectivos pesos são determinados mediante um processo que começa pela escolha de textos (aproximadamente 100 em inglês e português) identificados como associados a determinados conceitos. A partir destes textos, uma ferramenta procura identificar os termos que são mais relevantes sendo feita então uma revisão dos termos por especialista na área relacionada ao conceito.

Um fator muito importante para a precisão do sistema, é a constante atualização da ontologia, evitando assim que esta fique obsoleta. É necessário então definir dentre o grupo de usuários do sistema, o administrador da ontologia, que ficará encarregado de atualizá-la periodicamente, buscando termos desconhecidos e classificando-os dentro dos respectivos conceitos.

IV. DESCRIÇÃO DO MÉTODO DE CLASSIFICAÇÃO

O método utilizado na classificação de documentos na Biblioteca Digital foi apresentado em [LOH; WIVES e OLIVEIRA 2000].Este método não utiliza técnicas de Processamento de Linguagem Natural para analisar a sintaxe e a semântica de cada mensagem, sendo um método que está

baseado em técnicas probabilísticas que procuram identificar temas ou assuntos a partir de uma provável relação entre os assuntos e os termos de um texto.

O algoritmo é baseado em [ROCCHIO 1996] [RAGAS 1998] [LEWIS 1998] utilizando vetores para representar textos e conceitos. Basicamente, o método avalia a similaridade entre um texto e um conceito presente na ontologia usando uma função de similaridade que calcula a distância entre dois vetores. Os vetores que representam os textos e os conceitos são compostos por uma coleção de termos sendo que existe um peso associado a cada termo.

O processo de classificação dos documentos utilizado no sistema proposto começa com o uso de duas etapas utilizadas nos sistemas que lidam com técnicas de Recuperação de Informação.

O primeiro passo é a chamada Identificação dos termos nos documentos, isto é, o reconhecimento dos termos que deverão ser levados em conta no processo de classificação. Isto é feito mediante a análise da seqüência de caracteres do documento. São verificados termos incorretos e removidas seqüências de caracteres inválidos (caracteres de formação de textos, por exemplo).

A etapa seguinte consiste na remoção das stopwords. Nesta etapa, algumas palavras não são consideradas no processo de indexação. As preposições são um exemplo deste tipo de palavras, pois são termos que servem para dar conexão as idéias e palavras.

Na Biblioteca Digital não vem sendo utilizada a técnica de Word Stemming que é uma técnica que consiste na identificação de radicais das palavras. Uma maneira de identificar os radicais das palavras é retirar seus sufixos e prefixos. Outro exemplo é a eliminação dos plurais das palavras. Assim, todas as palavras que possuem o mesmo radical, e, portanto com significados similares (mas com categorias distintas de linguagem: adjetivo verbo, advérbio...) são reconhecidas pelo mesmo identificador. Para fazer com que termos sejam reconhecidos como equivalentes, a ontologia procura armazenar todas as variações do termo, sejam eles de gênero, número ou grau.

É então é calculado a Freqüência Relativa de cada termo no próprio documento. Esse cálculo é feito levando em consideração o número de vezes que um termo se repete. O valor calculado é armazenado dentro do vetor que representa o texto do documento a ser armazenado. A Figura 2 mostra a fórmula do cálculo da freqüência relativa.

FreqRel= N° de vezes que a palavra aparece no doc N° de palavras do doc

Figura 2. Fórmula para o cálculo da freqüência relativa da palavra no documento

Já o peso de um termo em relação a um conceito representa a probabilidade que o termo tem de indicar um determinado assunto. Detalhes sobre como este peso é obtido são descritos na seção sobre Ontologia.

Feita a montagem dos vetores os dois são comparados por meio de um processo de raciocínio fuzzy, conforme descrito em [ZADEH 1973] e [NAKANISHI 1993]. O método

(4)

utilizado multiplica os pesos dos termos que estão presentes nos dois vetores, sendo que a soma destes produtos, limitada a 1, é o grau de similaridade existente entre o texto e o conceito existente na ontologia. Este grau determina qual a probabilidade do conceito estar presente na mensagem sendo que pode ser determinado um limiar (um grau de similaridade mínimo) abaixo do qual é improvável determinar que um conceito esteja presente.

V. FERRAMENTA IMPLEMENTADA

A Biblioteca Digital pode indexar documentos PDF e páginas web. Para indexação de documentos e sites são realizados os seguintes passos:

Upload de Documentos

Conversão de documentos para texto Identificação dos termos;

Retirada das stopwords; Cálculo da freqüência relativa; Cálculo de similaridade;

O usuário ainda necessita entrar com alguns dados, mas em versões futuras espera-se extrair pelo menos parte destas informações de forma automática.

Nas figuras 3 e 4 temos as telas de cadastro de documento e sites. Nelas são mostrados os formulários usados para o cadastro tanto dos documentos como dos sites.

Na Biblioteca Digital desenvolvida logo após o documento ou o site ser indexado automaticamente, ele é armazenado em uma área para verificação sendo feita a sua liberação ou não para os demais usuários do sistema. A liberação é feita pelo administrador da Biblioteca Digital.

Existe a necessidade de se fazer uma nova indexação a cada modificação feita na ontologia. A reindexação é feita de foram automática seguindo os mesmos parâmetros da indexação. Este processo é disparado pelo administrador da Biblioteca Digital no momento em que este reconhece que foram feitas mudanças substanciais no conteúdo da ontologia.

Os documentos e sites indexados na Biblioteca Digital podem ser consultados a partir de termos. Neste caso, a ontologia é consultada identificando-se quais conceitos estão relacionados à ontologia, sendo então retornado ao usuário uma lista de documentos ou sites já previamente associados aos conceitos. (Figura 6). Também há a possibilidade de consultas feitas diretamente através dos conceitos da ontologia (Figura 7).

Figura 3. Tela de cadastro documentos

Figura 4. Tela de cadastro de sites

O resultado da consulta (Figura 5) possibilita ao usuário ter acesso, a informações como, título, autores, palavras-chave, resumo, conceitos a ele relacionado por ordem de relevância. Tendo também o usuário acesso a um link que permite, o download destes documentos.

Figura 5. Tela de consulta usando os conceitos daontologia.

Figura 6. Tela de consulta por termos.

Figura 7. Tela de consulta usando os conceitos daontologia.

VI. CONCLUSÔES

Este trabalho apresentou a construção de uma Biblioteca Digital capaz de indexar automaticamente documentos textuais.

O método utilizado é um método de classificação que procura associar cada novo documento incorporado à

(5)

Biblioteca Digital como pertencendo a um conceito existente dentro de uma ontologia. Assim sendo, a ontologia tem um papel fundamental no processo.

A Biblioteca Digital aqui descrita procura proporcionar uma maior precisão no processo de recuperação de documentos. Acredita-se que pelo fato do documento já estar associado a um conceito, a precisão e velocidade no processo de recuperação tenda a ser maior do que se a recuperação fosse feita simplesmente através do uso dos termos como argumentos de pesquisa.

Pode-se dizer que uma das limitações da técnica utilizada está na dependência do domínio da aplicação existente. A necessidade de armazenar documentos de novas áreas implica necessariamente na construção de uma Ontologia específica da área. A construção da ontologia é algo que está sendo objeto de estudo, pois o processo ainda exige muito trabalho de especialistas.

Espera-se também no futuro fazer uso de técnicas de Extração de Informação para extrair automaticamente algumas informações de alguns documentos (título, autores, por exemplo), de forma a facilitar o trabalho de atualização da Biblioteca Digital.

Este trabalho esta sendo desenvolvido em conjunto com os demais módulos do SisRecCol. O projeto SisRecCol consiste na construção de um chat que permite a identificação dos assuntos (conceitos) tratados em um chat, para a partir desta identificação realizar a recomendação de material relevante para o usuário. Parte deste material consiste nos documentos armazenados na Biblioteca Digital. Embora inicialmente construída para atender as necessidades do SisRecCol, a Biblioteca Digital poderá ser utilizada em outros contextos

VII. REFERÊNCIAS

[1] BOWDEN, Paul R., HALSTED, Peter; Rose, Tony G. Extracting conceptual knowledge from text using explicit relation markers. In:SHADBOLT, Nigel et alli (eds). IX European Knowledge AcquisitionWokshop. Lecture Notes in Artificial Intelligence, 1076. Maio de 1996.

[2] CHEN, Hsinchun. A textual database knowledge-base coupling approach to creating computer supported organizational memory. MIS Departament, Universiy of Arizona, Julho de 1994.- htpp://ai.bpa.arizona.edu/papers/

[3] LOH, S. Sistema de Recomendação para Apoio à Colaboração: Programa de Pesquisa e Desenvolvimento para a Capacitação de Pequenos Grupos Acadêmicos – PDPG – TI. 2003. 15f..Projeto(Pesquisa) – Escola de Informática, Universidade Católica de Pelotas, Pelotas.

[4] GPSI UCPel [on-line] Disponível em http://gpsi.ucpel.tche.br [5] NOY, Natalya F.& McGUINNES, Deborah L. (2002). Ontology

Development 101: A Guide to Creating Your First Ontology. Disponível em http://protege.stanford.edu/publications/

[6] FOSKET, D. J. (1997) Theory of clumps. In: SPARCK-JONES, Karen & WILLET, Peter. (eds). Readings in Informstion Retrieval. San Francisco: Morgan kaufmam, 1997.

[7] THOMAS, R. K.; KAREN, K. H., A. R. C. A digital library resources Web site: Project DL. MCB Univesity Press: Online Information Review, 2001. 12p.

[8] H. RAGAS and C.H.A. KOSTER, Four text classification algorithms compared on a Dutch corpus, in: Proc. SIGIR’98 International ACM-SIGIR Conference on Research and Development in Information Retrieval (ACM Press, Washington, 1998) 369-370.

[9] J. J. ROCCHIO, Document retrieval systems - optimization and evaluation, Ph.D. Thesis, Harvard Computation Laboratory, Harvard University, Report ISR-10 to National Science Foundation, 1966. [10] D. D. LEWIS, Naive (bayes) at forty: the independence assumption in

information retrieval, in: Proc. European Conference on Machine Learning, Lecture Notes in Computer Science, v.1398 (Springer, Berlin, 1998) 4-15.

[11] H. NAKANISHI; I.B. TURKSEN; M. SUGENO, A review and comparison of six reasoning methods, Fuzzy Sets and Systems 57 (3) (1993) 257-294.

[12] L. A. ZADEH, Outline of a new approach to the analysis of complex systems and decision processes, IEEE Transactions on Systems, Man and Cybernetics SMC-3 (1) (1973) 28-44.

[13] LOH, S. ; WIVES, L. K.; OLIVEIRA, J. P. M. (2000) “Concept-based knowledge discovery in texts extracted from the Web”, ACM SIGKDD Explorations 2 (1), p. 29-39.

[14] SALTON, G.; McGILL, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983.

VIII. BIOGRAFIAS

Thyago Bohrer Borges, nasceu em Uruguaiana, RS,

Brasil em 20 de julho de 1975. Acadêmico de Sistemas de Informação da Universidade Católica de Pelotas (UCPEL), bolsista de Iniciação Científica CNPq. Atualmente é integrante do Grupo de Pesquisa em Sistemas de Informações (GPSI).

Rodrigo Branco Kickhöfel nasceu em Pelotas, RS, Brasil em 22 de março de 1979. Formou-se em Ciência da Computação em 2003 na Universidade Católica de Pelotas (UCPEL). Atualmente é gerente de projeto do Grupo de Pesquisa em Sistemas de Informação da Universidade Católica de Pelotas.

Daniel Lichtnow nasceu em Pelotas, RS, Brasil em

27 de agosto de 1969. Formou-se em Tecnologia em Processamento de Dados em 1990 na Universidade Católica de Pelotas (UCPEL). Concluiu seu mestrado em Ciências da Computação na Universidade Federal de Santa Catarina (UFSC) em 2001. Atualmente é professor da Escola de Informática da Universidade Católica de Pelotas instituição onde também atua como analista de sistemas desde 1990.

Roberto Pawelski Rodrigues nasceu em Porto

Alegre, RS, Brasil em 24 de dezembro de 1979. Concluiu o segundo grau em Técnico em Processamento de Dados em 1998 no Colégio Santa Margarida (SM). Formou-se em Análise de Sistemas em 2004 na Universidade Católica de Pelotas (UCPEL). Atualmente é Webmaster da Adrenalimitz Virtual Magazine empresa onde também atua como analista de sistemas desde 2004.

(6)

Stanley Loh nasceu em Porto Alegre, RS, Brasil,

em 17 de Junho de 1966. Ele possui títulos de bacharel, mestre e doutor em Computação, pela Universidade Federal do Rio Grande do Sul (UFRGS). Atualmente, é professor da Universidade Católica de Pelotas (UCPEL) e da Universidade Luterana do Brasil (ULBRA). Também exerce atividades como diretor na InText Mining Ltda., empresa especializada em Text Mining. Suas áreas de interesse incluem análise de textos e linguagens naturais, descoberta de conhecimento, sistemas de informação e busca de informações na Web.

Ramiro Saldaña Garin nasceu em Montevideo,

Uruguai, em 11 de abril de 1967. Formou-se em Tecnologia em Processamento de Dados em 1990 na Universidade Católica de Pelotas (UCPEL). Concluiu seu mestrado em Engenharia de Produção na Universidade Federal de Santa Catarina (UFSC) em 1999. Atualmente é professor da Escola de Informática da Universidade Católica de Pelotas desde 1996 e também atua como consultor de empresas nas áreas de Gestão Empresarial e Informática.