Recuperação Contextualizada de Documentos Integrados pelo Protocolo OAI-PMH

(1)

U

NIVERSIDADE

F

EDERAL DE

G

OIÁS

I

NSTITUTO DE

I

NFORMÁTICA

R

ENAN

R

ODRIGUES DE

O

LIVEIRA

Recuperação Contextualizada de

Documentos Integrados pelo Protocolo

OAI-PMH

Goiânia 2010

(2)

R

ENAN

R

ODRIGUES DE

O

LIVEIRA

Recuperação Contextualizada de

Documentos Integrados pelo Protocolo

OAI-PMH

Dissertação apresentada ao Programa de Pós–Graduação do Instituto de Informática da Universidade Federal de Goiás, como requisito parcial para obtenção do título de Mestre em Ciência da Computação.

Área de concentração: Sistemas de Informação. Orientador: Prof. Dr. Cedric Luiz de Carvalho

Goiânia 2010

(3)

R

ENAN

R

ODRIGUES DE

O

LIVEIRA

Recuperação Contextualizada de

Documentos Integrados pelo Protocolo

OAI-PMH

Dissertação defendida no Programa de Pós–Graduação do Instituto de Informática da Universidade Federal de Goiás como requisito parcial para obtenção do título de Mestre em Ciência da Computação, aprovada em 09 de Abril de 2010, pela Banca Examinadora constituída pelos professores:

Prof. Dr. Cedric Luiz de Carvalho Instituto de Informática – UFG

Presidente da Banca

Prof. Dr. João Carlos da Silva Instituto de Informática – UFG

Prof. Dr. Edleno Silva de Moura

(4)

Renan Rodrigues de Oliveira

Graduou–se em Ciência da Computação na PUC-Goiás (Pontifícia Universi-dade Católica de Goiás). Durante sua graduação, foi monitor de disciplinas e desenvolveu trabalhos de iniciação científica no Departamento de Compu-tação da PUC-Goiás. Durante o mestrado na UFG (Universidade Federal de Goiás), foi bolsista da CAPES.

(5)

À Deus pela vida e oportunidades. Aos meus familiares e amigos.

(6)

Agradecimentos

Agradeço a Deus, por tudo.

Ao Prof. Dr. Cedric Luiz de Carvalho, pela orientação, dedicação e disponibili-dade durante todo o período do mestrado.

Aos Profs. Dr. João Carlos da Silva e Ms. Dirson Santos de Campos, por todas as sugestões que muito contribuíram para o desenvolvimento deste trabalho.

Ao Prof. Ms. Júnio César de Lima, pelo apoio e incentivo.

A todos os funcionários, amigos e demais professores do Instituto de Informática da Universidade Federal de Goiás.

A CAPES, pelo suporte financeiro.

Ao Prof. Dr. José Luiz de Freitas Júnior, pela orientação durante todo o período da minha graduação na PUC-Goiás, que me indicou por onde começar.

(7)

“A coisa mais indispensável a um homem é reconhecer o uso que deve fazer do seu próprio conhecimento”.

Platão, Filósofo Grego.

(8)

Resumo

de Oliveira, Renan Rodrigues. Recuperação Contextualizada de Documentos Integrados pelo Protocolo OAI-PMH. Goiânia, 2010. 137p. Dissertação de Mestrado. Instituto de Informática, Universidade Federal de Goiás.

Este trabalho aborda duas vertentes: a integração de um conjunto de bibliote-cas digitais, repositórios e outros provedores de dados por meio do protocolo OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting) e a recupera-ção contextualizada de documentos neste repositório integrado. Propõe-se a definirecupera-ção dos contextos utilizando ontologias e a análise do conteúdo de artigos de ambientes wiki. O interesse em ontologias está no seu uso como artefatos de especificação de domínios. Uma ontologia é um modelo de dados que representa um conjunto de conceitos e seus relacionamentos, dentro de um domínio de conhecimento.

Um wiki é um ambiente colaborativo, que contêm uma coleção de artigos conectados através de hiperlinks, que podem ser editados coletivamente, através da utilização de um navegador web. Neste trabalho, os ambientes wiki são utilizados como um repositório de conhecimento auxiliar, para a extração de termos relevantes. Dessa forma, diversos conceitos e relacionamentos que podem não estar presentes na ontologia que especifica o domínio de conhecimento (uma vez que a construção de ontologias é um processo complexo) podem ser identificados.

O resultado do processamento da ferramenta desenvolvida é um ranking de documentos ordenado por maior grau de relevância com relação à consulta fornecida por um usuário e a um determinado domínio de conhecimento, que é especificado por uma ontologia.

Palavras–chave

OAI-PMH, Integração de Repositórios Digitais, Ontologias, Ambientes Wiki, Contextualização de Documentos

(9)

Abstract

de Oliveira, Renan Rodrigues. Contextualized Retrieval of Documents Inte-grated by Protocol OAI-PMH. Goiânia, 2010.137p. MSc. Dissertation. Insti-tuto de Informática, Universidade Federal de Goiás.

This work focuses on two aspects: the integration of a set of digital libraries, re-positories and other data providers through the OAI-PMH protocol (Open Archives Initiative – Protocol for Metadata Harvesting) and contextualized documents retrieval in this integrated repository. It is proposed the use of ontologies and content analysis of articles in wiki environments in the context definition.

The interest in ontologies is in its use as artifacts of specification domain. An ontology is a data model that represents a set of concepts and their relationships within a domain of knowledge.

A wiki is a collaborative environment, containing a collection of items connected by hyperlinks, which can be edited collectively by using a web browser. In this work, the wiki environments are used as an auxiliary repository of knowledge to the extraction of relevant terms. Thus, several concepts and relationships that may not be present in the ontology that specifies the domain of knowledge (since the construction of ontologies is a complex process) can be identified.

The result of the developed tool processing is a ranking of documents ordered by a higher degree of importance with respect to the query provided by a user and a particular domain of knowledge, which is specified by an ontology.

Keywords

OAI-PMH, Integration of Digital Repositories, Ontologies, Wiki Environments, Contextualization of Documents

(10)

Sumário

Lista de Figuras 12 Lista de Tabelas 14 1 Introdução 15 1.1 Motivação 16 1.2 Objetivos 18 1.3 Trabalhos Relacionados 18 1.4 Organização da Dissertação 20 2 Fundamentação Teórica 22 2.1 Metadados 22

2.1.1 O padrão Dublin Core 23

Elementos do Padrão Dublin Core 24

2.2 Bibliotecas Digitais 27

2.2.1 Integração e Interoperabilidade em Bibliotecas Digitais 30

2.2.2 Ferramentas para a Implementação de Bibliotecas Digitais 31

2.3 Ontologias 34

2.3.1 Tipos de Ontologias 34

2.3.2 Metodologias para a Construção de Ontologias 35

2.3.3 Ferramentas para a Edição de Ontologias 36 2.3.4 OWL (Web Ontology Language) 36

2.4 Wikimedia 37

2.4.1 MediaWiki 38

API do MediaWiki 39

2.5 Recuperação de Informação 41

2.5.1 Preparação dos Dados Textuais 43 2.5.2 Modelos Clássicos para Recuperação de Informação 43

Modelo Booleano 43

Modelo Vetorial 44

Modelo Probabilístico 45

2.5.3 Análise Semântica Latente 46

2.5.4 Medidas de Avaliação 47

3 Open Archives Initiative 49

3.1 Breve Histórico da Open Archives Initiative 49

3.2 Principais Características da Open Arquives Initiative 50

3.3 Arquitetura dos Open Archives 50

(11)

3.3.2 Harvesters 52 3.3.3 Provedores de Serviços 53

3.4 O protocolo OAI-PMH 53

3.4.1 Esquema Básico do Protocolo OAI-PMH 54

3.5 Verbos de Requisição do Protocolo OAI-PMH 55

3.5.1 Identify 55 3.5.2 ListMetadataFormats 56 3.5.3 ListRecords 57 3.5.4 ListIdentifiers 59 3.5.5 GetRecord 61 3.5.6 ListSets 62

3.6 Ferramentas Implementadas pela Comunidade OAI 62

3.7 Etapas para a Utilização do Protocolo OAI-PMH 64

3.7.1 Seleção 64

3.7.2 Ferramentas para os Harvester 64

3.7.3 Coleta de Metadados 65

3.7.4 Normalização dos Metadados 65

4 Desenvolvimento do Sistema 67

4.1 Arquitetura do Sistema 67

4.2 Integração de Provedores de Dados 68

4.3 Recuperação de Documentos 74

4.3.1 Analisador de Consulta 78 4.3.2 Processador de Consulta 78 Construção da expressão booleana para a Recuperação de Documentos 78

Cálculo de Similaridade 79

4.4 Implementação de Web Services 80

4.4.1 ListarRepositorios 81 4.4.2 ListarOntologias 82 4.4.3 Buscar 83 4.4.4 ObterRepositorio 84 4.4.5 ObterOntologia 85 4.4.6 ObterRegistro 86

4.5 Implementação da Interface de Busca 87

5 Resultados 94

5.1 Integração de Provedores de Dados 94

5.2 Recuperação de Documentos 99

5.2.1 Exemplos de Consultas e Análise de Resultados 99

6 Conclusões 108

6.1 Contribuições 109

6.2 Produção Bibliográfica 111

6.3 Trabalhos Futuros 113

Referências Bibliográficas 114

(12)

(13)

Lista de Figuras

2.1 Tipos de ontologias, de acordo com o seu nível de generalidade 35

2.2 Principais projetos desenvolvidos pela Wikimedia 37

2.3 Parte da listagem do artigo “Trânsito” através da interface padrão da

Wikipédia 40

2.4 Trecho da resposta da requisição para a listagem do conteúdo do artigo “Trânsito” da Wikipédia, através da manipulação de sua API 41

2.5 Arquitetura de um sistema de recuperação de informação 42

2.6 Cossenoθentre o documentod1e a consultaq(adaptado de [67]) 45

3.1 Fluxo de informação nos provedores de dados 52

3.2 Fluxo de informação nos provedores de serviços 53

3.3 Esquema básico de funcionamento do protocolo OAI-PMH 54

4.1 Arquitetura do sistema desenvolvido 68

4.2 Processo adotado para a exposição de metadados de um diretório de

dados não-estruturados 70

4.3 Esquema geral utilizado no processo de integração de provedores de dados 70

4.4 Algoritmo responsável pela coleta de metadados dos provedores de dados 71

4.5 Modelo relacional utilizado no armazenamento dos metadados coletados 73

4.6 Processo adotado para a recuperação contextualizada de documentos 74

4.7 Trecho de uma ontologia desenvolvida para o domínio de Trânsito 76

4.8 Anotação do conceito “Automóvel”, referente a uma ontologia do domínio

de Trânsito 76

4.9 Implementação de um ambiente wiki local, através da utilização do

soft-ware MediaWiki 77

4.10 Processo de seleção dos termos dos vetores de características 80

4.11 Interface de busca para a recuperação de documentos do banco de dados

integrado 89

4.12 Interface responsável pela listagem do resultado de uma busca 90

4.13 Interface responsável pela visualização de todos os itens de metadados

de um determinado documento 91

4.14 Interface responsável pela recuperação dos metadados de um documento

através de seu código 92

4.15 Interface responsável pela listagem de informações sobre todos os

repo-sitórios 92

4.16 Interface responsável pela listagem de informações sobre todas as

onto-logias 93

(14)

5.2 Exposição do conteúdo de um diretório de dados não-estruturados

atra-vés do protocolo OAI-PMH 98

5.3 Quantidade de documentos recuperados pela consulta “Leis de Trânsito”,

considerando o domínio de conhecimento “Trânsito” 101

5.4 Quantidade de documentos recuperados pela consulta “Colisão de Trân-sito”, considerando o domínio de conhecimento “Trânsito” 102

5.5 Quantidade de documentos recuperados pela consulta “Colisão de Trân-sito”, considerando o domínio de conhecimento “Sistemas Distribuídos” 103

5.6 (A) Trecho dos documentos monitorados do domínio de “Trânsito” (B) Trecho dos documentos monitorados do domínio de “Sistemas Distribuídos”104

5.7 Distribuição das posições de todos os documentos monitorados, para a consulta “Colisão de Trânsito”, considerando o domínio de conhecimento

“Trânsito” 105

5.8 Distribuição das posições de todos ’os documentos monitorados, para a consulta “Colisão de Trânsito”, considerando o domínio de conhecimento

“Sistemas Distribuídos” 106

A.1 Trecho da resposta da Requisição 1, referente ao verbo Identify 128

A.2 Trecho da resposta da Requisição 2, referente ao verbo

ListMetadataFor-mats 128

A.3 Trecho da resposta da Requisição 3, referente ao verbo

ListMetadataFor-mats 129

A.4 Resposta da Requisição 4, referente ao verbo ListMetadataFormats 129

A.5 Trecho da resposta da Requisição 5, referente ao verbo ListRecords 129

A.8 Trecho da resposta da Requisição 8, referente ao verbo ListIdentifiers 131

A.9 Trecho da resposta da requisição 9, referente ao verbo ListIdentifiers 131

A.10 Trecho da resposta da requisição 10, referente ao verbo ListIdentifiers 131

A.11 Trecho da resposta da Requisição 11, referente ao verbo GetRecord 132

A.12 Resposta da Requisição 12, referente ao verbo GetRecord 132

A.13 Resposta da Requisição 13, referente ao verbo GetRecord 133

A.14 Trecho da resposta da Requisição 14, referente ao verbo ListSets 133

B.1 Trecho da resposta da Requisição 1, referente a ação ListarRepositorios 134

B.2 Trecho da resposta da Requisição 2, referente a ação ListarOntologias 135

B.3 Trecho da resposta da Requisição 3, referente a ação Buscar 135

B.4 Trecho da resposta da Requisição 1, referente a ação Buscar 136

B.5 Resposta da Requisição 5, referente a ação ObterRepositorio 136

B.6 Resposta da Requisição 6, referente a ação ObterOntologia 137

(15)

Lista de Tabelas

2.1 URL API dos principais projetos da Wikimedia 39

2.2 Requisição para a listagem do conteúdo do artigo “Trânsito” da Wikipédia 40

5.1 Quantidade de metadados coletados da “Biblioteca Digital de Teses e

Dissertações da USP” 94

5.2 Quantidade de metadados coletados da “Biblioteca Digital Jurídica do STJ” 95

5.3 Quantidade de metadados coletados do “Repositório Digital da UFRGS” 95

Dissertações da UFPR” 95

Dissertações da UFRN” 95

5.6 Quantidade de metadados coletados do “Repositório Ação Educativa” 96

5.7 Quantidade de metadados coletados da “Biblioteca Virtual sobre Corrupção” 96

5.8 Quantidade de metadados coletados do “Repositório Diálogo Científico” 96

5.9 Quantidade de metadados coletados do “Repositório Institucional da UnB” 96

5.10 Quantidade de metadados coletados do “Repositório local de dados

não-estruturados” 97

5.11 Exemplo de um vetor de termos referente a um documento 100

5.12 Consulta sobre “Leis de Trânsito”, considerando o domínio de

conheci-mento ‘Trânsito” 100

5.13 Consulta sobre “Colisão de Trânsito”, considerando o domínio de

conhe-cimento “Trânsito” 102

5.14 Consulta sobre “Colisão de Trânsito”, considerando o domínio de

(16)

CAPÍTULO

1 Introdução

O surgimento da Internet proporcionou um grande avanço para a comunidade acadêmica. Por se tratar de uma rede de fácil acesso e de grande alcance geográfico, ela possibilitou o surgimento de novos recursos para a comunicação científica e o compartilhamento de conhecimento em todo o mundo. Estes novos recursos tornaram visível o contraste de tempo de produção e distribuição das publicações impressas e as publicações digitais [104].

Os recursos alternativos para comunicação científica proporcionados pela Inter-net otimizaram o processo de disseminação da informação e a criação de espaços virtuais para o compartilhamento do conhecimento científico [84]. O desenvolvimento dos meca-nismos de publicação eletrônica para comunidade acadêmica, com o intuito de aumentar sua visibilidade, tornou-se uma questão essencial para o desenvolvimento e a ampliação das atividades de pesquisa científica.

Através destes avanços tecnológicos que facilitam a publicação e difusão de in-formações, as bibliotecas digitais surgiram com o objetivo de dar acesso a toda informação digital armazenada em um determinado repositório de dados, tornando-se amplamente aceitas como fontes de divulgação de informação em diversas áreas do conhecimento. Elas permitem o acesso a documentos de alto valor cultural, histórico e social, bem como o seu armazenamento para construção da história e memória da humanidade.

As bibliotecas digitais são um conjunto de recursos eletrônicos e capacidades técnicas associadas para criar, buscar e usar informações [150]. Nesse sentido, elas cons-tituem uma extensão dos sistemas de armazenamento e recuperação de informação, que manipulam dados digitais nos mais variados formatos, operando em ambiente distribuído. As bibliotecas digitais prometem inúmeros e valiosos benefícios para a sociedade. O mais óbvio é o fim das restrições de espaço e tempo no acesso às informações.

No entanto, as bibliotecas digitais logo se mostraram incapazes de satisfazer a totalidade das necessidades e demanda de informação dos usuários. Entre os vários motivos desta incapacidade, cita-se a dispersão das fontes, divergências nas interfaces de busca, falta de integração dos conteúdos, dentre outros [148].

(17)

1.1 Motivação 16

neste ambiente, levou à criação da Open Archives Initiative (OAI), que é uma iniciativa para desenvolver e promover padrões de interoperabilidade entre repositórios digitais. Uma das principais contribuições da OAI foi a criação do protocolo OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting), com o objetivo de facilitar a disseminação eficiente de conteúdo entre estes repositórios.

A interoperabilidade entre repositórios digitais têm o objetivo de promover o acesso simultâneo aos dados contidos em diferentes repositórios e servidores na web, de forma a maximizar as buscas e reduzir o tempo de resposta. A integração consiste na disponibilização de serviços de recuperação de recursos informacionais heterogêneos e distribuídos, utilizando-se de uma interface única. Para os usuários, não interessa onde e nem como estes recursos estão armazenados [17].

O protocolo OAI-PMH vem se consolidando, como base para a interoperabili-dade entre bibliotecas e repositórios digitais acadêmicos e científicos em todo o mundo. Através do OAI-PMH, é possível proporcionar visibilidade e integração de informações, com custos acessíveis à realidade de países em desenvolvimento, como o Brasil [105].

Entre os países que utilizam as tecnologias Open Archives, o Brasil se encontra em uma posição privilegiada. O Instituto Brasileiro de Informação em Ciência e Tecnolo-gia (IBICT), atua como principal incentivador da adoção do modelo Open Archives pelas instituições brasileiras.

1.1 Motivação

Devido à possibilidade de armazenamento e disponibilização de conteúdo de diversas áreas do conhecimento, as bibliotecas digitais abrangem uma grande variedade de assuntos e interesses.

A maioria das interfaces de busca das bibliotecas digitais retornam uma grande quantidade de registros como ocorrências para o que foi pedido. O usuário nunca tem a certeza exata de que a informação desejada encontra-se entre as primeiras ocorrências retornadas. Dessa forma, cabe ao usuário analisar uma grande quantidade de registros para verificar quais deles realmente atendem às suas reais expectativas.

De acordo com Lancaster [65], para qualquer necessidade específica de infor-mação, haverá sempre muito mais itens que não possuem relevância ou pertinência com relação ao assunto pesquisado (itens inúteis) do que itens que possuam relevância ou pertinência com relação às necessidades desse usuário (itens úteis). Portanto, a principal função de um sistema de recuperação de informação é permitir que o usuário localize o maior número possível de itens relevantes [43].

Dessa forma, tornam-se aparentes as dificuldades de acesso e recuperação de informações relevantes. Assim, a busca de melhores métodos para armazenar, buscar e

(18)

1.1 Motivação 17

recuperar informações neste ambiente torna-se um desafio.

Uma vez que a análise do contexto é indispensável para o bom entendimento dos termos utilizados nas buscas, mecanismos automáticos de contextualização podem possibilitar que apenas documentos relevantes sejam recuperados, de acordo como o interesse do usuário.

Um dos principais problemas da contextualização automática de documentos está relacionado ao processo de definição formal dos contextos, ou seja, como criar contextos que permitam classificação automática de documentos.

As ontologias possibilitam uma compreensão comum e compartilhada de um domínio, desempenhando um papel importante no intercâmbio de conhecimento, ao proporcionar uma estrutura semântica aos dados do domínio em questão.

Uma ontologia é um modelo de dados que representa um conjunto de conceitos e seus relacionamentos, dentro de um domínio de conhecimento. Elas permitem que sistemas baseados em computador entendam o contexto que se encontra um determinado termo, permitindo um entendimento semântico com relação às situações do mundo real.

No entanto, o processo de construção de uma ontologia é complexo, envolvendo o levantamento de conceitos relevantes e seus relacionamentos, com relação a um deter-minado domínio de conhecimento. De acordo com Maedche e Staab [1], a construção manual de ontologias é um processo oneroso, tedioso e propenso a erros.

Dessa forma, importantes conceitos e relacionamentos com relação a um deter-minado domínio podem não estar mapeados na ontologia que especifica este domínio de conhecimento, devido à complexidade do seu processo de construção.

Ao mesmo tempo, diversos ambientes wiki disponíveis na Internet contam com uma grande quantidade de artigos (páginas que contêm informações sobre um determi-nado assunto), cobrindo uma extensa faixa de temas e interesses. Por este motivo, estes ambientes têm sido utilizados por muitos pesquisadores em todo o mundo, como uma importante fonte para a extração de conhecimento.

Um wiki (forma simplificada para “WikiWikiWeb”, derivada da expressão havai-ana “wiki wiki” que significa rápido, ligeiro [110]) é um ambiente colaborativo, que con-têm uma coleção de artigos conectados através de hiperlinks. Os ambientes wiki permitem que seus artigos sejam editados coletivamente por meio de uma linguagem de marcação muito simples e eficaz, através da utilização de um navegador web. Este cenário permite que os colaboradores dos ambientes wiki possam alterar e melhorar livremente o conteúdo dos artigos destes ambientes.

A Wikipédia é o exemplo mais conhecido de wiki público [79]. Ela é uma enci-clopédia online, desenvolvida por uma comunidade de usuários que cresce exponencial-mente com a adição constante de conteúdo por seus colaboradores em todo planeta [149]. Em janeiro de 2010, a Wikipédia possuía mais de 541.100 artigos em língua portuguesa.

(19)

1.2 Objetivos 18

O modelo de ambiente colaborativo, aliado à riqueza de conteúdo organizado hierarquicamente e interconectado que é presente nos ambientes wiki (como por exemplo a Wikipédia), têm motivado diversas pesquisas em todo o mundo na utilização destes ambientes como uma importante fonte de extração de conhecimento.

1.2 Objetivos

Este trabalho aborda duas vertentes, que são os principais objetivos desta disser-tação. São elas:

• a integração de um conjunto de bibliotecas digitais, repositórios e outros provedores de dados, integrados por meio do protocolo OAI-PMH;

• a recuperação contextualizada de documentos neste repositório integrado, de acordo com uma consulta fornecida por um usuário e um contexto especificado por uma ontologia.

Neste trabalho, propõe-se a definição dos contextos utilizando ontologias e a análise do conteúdo de artigos de ambientes wiki no idioma Português. Estes ambientes wikisão utilizados como um repositório auxiliar para a extração de termos relevantes com relação à consulta e a um domínio de conhecimento.

O resultado do processo de recuperação de informação é um ranking de docu-mentos, ordenado por maior grau de relevância com relação à consulta e a um domínio de conhecimento especificado por uma ontologia. Dessa forma, estabelecendo-se um limiar com relação ao valor de similaridade que originou o ranking de documentos, obtém-se a separação entre os possíveis documentos relevantes, os documentos considerados de pouca relevância e os documentos irrelevantes.

1.3 Trabalhos Relacionados

Nesta Seção, são apresentados alguns trabalhos relacionados a esta dissertação, com relação à utilização de tecnologias baseadas no modelo Open Archives, utilização de ontologias para a categorização e cálculo de similaridade semântica e a utilização de ambientes wiki como fonte de extração de conhecimento.

Utilização de tecnologias do modelo Open Archives

• A Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) [12] é um pro-jeto coordenado pelo Instituto Brasileiro de Informação em Ciência e Tecnolo-gia (IBICT) [53], que busca integrar em um só portal, os sistemas de informação

(20)

1.3 Trabalhos Relacionados 19

de teses e dissertações existentes no Brasil. O portal tem como proposta, além de disponibilizar gradativamente a produção nacional de teses e dissertações para con-sulta ou download, oferecer aos usuários produtos e serviços integrados capazes de proporcionar aumento significativo na qualidade do resultado de suas pesquisas. • Suleman e Fox [52] apresentam uma visão geral da missão, filosofia e organização

técnica da Open Archives Initiative.

• Cardoso Junior [69] apresenta o desenvolvimento de um sistema para o gerencia-mento de bibliotecas digitais, denominado Clio-i. Neste sistema, é implementada uma extensão do protocolo OAI-PMH, sendo possível exportar metadados de do-cumentos gerenciados localmente e realizar a coleta de metadados de qualquer pro-vedor de dados em conformidade com o protocolo OAI-PMH.

Utilização de ontologias para a categorização e cálculo de similaridade semântica

• Wu et al. [140] tratam da categorização de textos baseada em ontologias de domínio. Segundo os autores, a vantagem em se utilizar ontologias, comparada com outros mecanismos de representação do conhecimento é que a mesma pode ser lida, interpretada e editada por seres humanos. Erros podem ser detectados e com isso a descrição pode ser melhorada. Outra vantagem é a possibilidade do compartilhamento da ontologia por várias aplicações.

• Rigo et al. [134] propõe uma metodologia para a classificação de textos com uso de informações linguísticas descritas em uma ontologia de domínio. Esta ontologia possui as informações necessárias para identificação da estrutura e conceitos dos documentos associados a uma classe específica.

• Bloehdorn et al. [145] fazem uso das características conceituais extraídas de on-tologias para melhorar a tarefa de classificação de textos. A abordagem é baseada na distribuição de hipóteses, ou seja, durante o processo de classificação, é veri-ficado se os termos são semanticamente similares ao contexto ao qual eles estão compartilhados.

• Thiagarajan et al. [118] propõe um método para o cálculo de similaridade semântica com a utilização de uma ontologia. Neste processo, são adicionados termos que são próximos de um termo original na descrição de uma entidade, estendendo a noção de similaridade semântica, considerando as relações existentes entre seus conceitos.

Utilização de ambientes wiki como fontes de extração de conhecimentos

• Gabrilovich e Markovitch [40] propõe um método que representa explicitamente o significado do conteúdo de qualquer texto, em um espaço de conceitos derivado da Wikipédia, utilizando técnicas de aprendizagem de máquina.

(21)

1.4 Organização da Dissertação 20

• Nakayama, Hara e Nishio [64] propõe um método que analisa a estrutura de hi-perlinks da Wikipédia para a construção de um Thesaurus. Segundo os autores, enquanto a maioria dos pesquisadores desta área analisam a estrutura de categorias da Wikipédia, neste trabalho propõe-se um método que analisa a estrutura de hiper-linksem torno dos artigos, uma vez que estes hiperlinks são relações explicitamente definidas pelos usuários.

• Nakayama et al. [63] apresentam características detalhadas da Wikipédia, que a torna uma importante fonte de extração de conhecimento. Neste trabalho, os autores descrevem alguns de seus experimentos, bem como pesquisas realizadas por outros pesquisadores, que demonstram a importância da Wikipédia como fonte de extração de conhecimento.

• Barth e Timoszczuk [41] propõe a utilização de um sistema de recuperação de in-formação que expande as consultas dos usuários de acordo com o conteúdo de uma lista de assuntos, que pode ser implementada como uma ontologia colaborativa, construída com a utilização de um ambiente wiki.

Expansão de Consultas

• Qiu e Frei [172] apresentam um método de expansão de consultas que explora a correlação entre termos de uma coleção, onde os experimentos realizados mostram que a consulta expandida, no caso geral, produz resultados melhores que os obtidos através da consulta original.

• Ramalho e Robin [44] avaliaram os ganhos da precisão, cobertura e medida-F, obtidos a partir do uso de várias estratégias de expansão de consultas submetidas a um engenho de busca da web. Estas expansões foram realizadas de forma automática e baseadas em um Thesaurus: WordNet.

• Voorhees [35] fez uma avaliação sobre expansões de consultas utilizando sinôni-mos, medindo o impacto de usar-se conjuntamente a expansão de termos da sulta através de sinônimos e a eliminação de ambiguidade dos substantivos da con-sulta.

1.4 Organização da Dissertação

Além deste Capítulo inicial que apresentou a introdução, motivação, objetivos e trabalhos relacionados, o restante do texto desta dissertação está organizado conforme descrito nos próximos parágrafos.

No Capítulo 2, são apresentadas as fundamentações teóricas que são utilizadas para o desenvolvimento deste trabalho. Os principais assuntos discutidos são: metadados, bibliotecas digitais, ontologias, Wikimedia e recuperação de informação.

(22)

1.4 Organização da Dissertação 21

No Capítulo 3, apresenta-se a Open Archives Initiative (OAI), que desenvolve e promove padrões de interoperabilidade entre repositórios digitais, como um meio de aumentar a disponibilidade da comunicação científica.

No Capítulo 4, apresentam-se as etapas implementadas para a construção do sistema desenvolvido nesta dissertação, com o propósito de possibilitar a recuperação contextualizada de documentos em um conjunto de bibliotecas digitais, repositórios e outros provedores de dados, integrados por meio do protocolo OAI-PMH.

No Capítulo 5, apresentam-se os resultados obtidos pelo sistema desenvolvido, através da exposição de exemplos e análises de resultados, destacando a integração de provedores de dados e a recuperação contextualizada de documentos.

No Capítulo 6, apresentam-se as conclusões finais, contribuições, produção bibliográfica e os trabalhos futuros.

Após as referências bibliográficas, apresenta-se o ApêndiceA, com as respostas em XML relativas às requisições do protocolo OAI-PMH que foram listadas na Seção3.5

desta dissertação.

Finalmente, no ApêndiceB, são apresentadas as respostas em XML relativas aos exemplos de requisições ao web service do sistema desenvolvido, que foram listadas na Seção4.4desta dissertação.

(23)

CAPÍTULO

2 Fundamentação Teórica

Este Capítulo apresenta as fundamentações teóricas que são utilizadas para o desenvolvimento deste trabalho. Na Seção2.1é apresentado o conceito de metadados, que refere-se a alguma estrutura descritiva de informação sobre outros dados. Na Seção2.2

são apresentadas as bibliotecas digitais, que estão se tornando amplamente aceitas como fontes de divulgação de informação em diversas áreas do conhecimento. Na Seção 2.3

é apresentado o conceito de ontologia, que é um modelo de dados que representa um conjunto de conceitos e seus relacionamentos, dentro de um domínio de conhecimento. Na Seção2.4é apresentada a Wikimedia Foundation, uma organização dedicada ao incentivo, produção, desenvolvimento e distribuição de conteúdo livre e multilíngue para o acesso público. Finalmente, na Seção2.5é apresentado o conceito de recuperação de informação, que é uma tarefa que visa encontrar itens de informação relevantes para uma determinada necessidade de informação.

2.1 Metadados

Os metadados são frequentemente chamados de “dados sobre dados”, no sentido de que referem-se a alguma estrutura descritiva de informação sobre outros dados.

Para melhor compreender o conceito de metadados, é importante analisar algu-mas definições:

“A soma de tudo que pode ser dito sobre qualquer objeto de infor-mação” [156].

“Dados que descrevem os atributos de um recurso, facilitando sua localiza-ção, descoberta, documentalocaliza-ção, avaliação e seleção” [128].

“Máquina de informação compreensível sobre recursos da web ou outras coisas” [154].

De um modo geral, os metadados têm a função de prover meios para: desco-berta, disponibilidade, utilização, administração e controle de recursos [55]. Dessa forma,

(24)

2.1 Metadados 23

os metadados enriquecem ou complementam o potencial informativo dos objetos referen-ciados.

A seguir, encontram-se algumas das diversas funções desempenhadas pe-los metadados, as quais podem ser operacionalizadas por pessoas ou por agentes automatizados [38], [61], [77], [108]:

• disponibilizar a descrição de recursos de uma forma padronizada;

• fornecer um resumo do conteúdo de um determinado recurso de informação (isto é, do que trata o recurso), permitindo aos usuários determinar se este é exatamente o que eles desejam;

• dar condições aos usuários de procurar, recuperar e usar recursos de informação; • quando formatos múltiplos são providos, ajuda os usuários na escolha de recursos

de informação apropriados ao seu uso;

• prevenir usuários quanto às limitações no acesso aos dados, no que diz respeito a sistemas necessários, padrões e formatos adotados;

• instruir em como interpretar os dados (formato, codificação, criptografia, etc); • fornecer informações que afetam o uso do recurso (por exemplo, condições legais

de uso, idade mínima do usuário, cobrança de taxas, usos permitidos e não permiti-dos, etc);

• fornecer a história ou proveniência do recurso de informação, tal como sua fonte original e suas transformações subsequentes (filtragem, atualização, descarte, etc); • fornecer especificações para o gerenciamento dos recursos de informação (data de

última modificação, data de criação, identidade do administrador, etc);

• fornecer especificações sobre relações entre recursos (por exemplo, o relaciona-mento entre um conjunto de artigos e um jornal, entre um trabalho original e sua versão subsequente, entre componentes de um trabalho multimídia, etc);

• listar componentes lógicos de recursos de informação complexos e oferecer meios para acessar estes componentes (por exemplo, tabelas, lista de componentes de um software, etc).

O amadurecendo da infra-estrutura da informação em sistemas computacionais e o aparecimento de novas comunidades e interesses, estão cada vez mais impulsionando o desenvolvimento de novos conjuntos de metadados, visando atender às atuais necessi-dades.

2.1.1 O padrão Dublin Core

O Dublin Core é um padrão de metadados planejado para facilitar a descrição de recursos eletrônicos, estabelecidos através do consenso de grupos interdisciplinares

(25)

2.1 Metadados 24

internacionais de bibliotecários, cientistas da computação, comunidade de museus e outros estudiosos deste campo. O padrão Dublin Core possui dois níveis:

• Simples: Composto por quinze elementos, onde todos os elementos são opcionais e podem ser repetidos.

• Qualificado: É uma extensão do anterior, onde alguns dos seus elementos são acompanhados por um qualificador, que refinam a semântica dos elementos de maneira que sejam úteis na descoberta de recursos.

O Dublin Core se caracteriza pela simplicidade, interoperabilidade, consenso internacional, extensibilidade e flexibilidade. A seguir, são destacados alguns destes princípios, adotados para a elaboração deste padrão [69], [32]:

• Simplicidade: O conjunto de elementos do Dublin Core foi estabelecido para ser simples e pequeno. Dessa forma, a maioria dos usuários (mesmo os não especialistas) podem descrever um recurso facilmente, permitindo assim, uma recuperação facilitada desses objetos eletrônicos por outros usuários.

• Semântica Universal: Devido às diferenças entre terminologias e descrições de recursos, a recuperação de informação no ambiente da Internet não é algo trivial. O Dublin Core foi criado para ajudar um pesquisador não especialista a achar um recurso através de elementos que são universalmente compreendidos. Por exemplo, se um repositório científico estiver estruturado de acordo com o padrão Dublin Coree houver a necessidade de encontrar um documento através de seu autor, basta procurar este documento pelo elemento creator. Esta representação mais genérica aumenta a visibilidade e acessibilidade ao recurso eletrônico.

• Extensibilidade: Para algumas aplicações, os conjuntos dos elementos Dublin Core não são suficientes para descrever um recurso. Dessa forma, espera-se que outras comunidades especializadas em metadados criem elementos adicionais para estes conjuntos. Tais elementos de refinamentos podem ser usados junto com os quinze elementos básicos do Dublin Core, para permitir uma melhor descrição e interoperabilidade.

Elementos do Padrão Dublin Core

A seguir, são apresentados os quinze elementos do Dublin Core [32]. Para cada elemento, são listados sua URI (Uniform Resource Identifier), o nome do rótulo (e a tradução para o idioma Português), sua definição (que indica a finalidade de uso) e exemplos ou comentários sobre estes elementos (com relação a sua finalidade de uso).

(26)

2.1 Metadados 25

• URI:http://purl.org/dc/elements/1.1/contributor

• Rótulo: Contributor (Contribuinte)

• Definição: Uma entidade responsável por contribuições intelectuais para o recurso de maneira secundária.

Exemplos são: pessoas, organizações, serviços, etc.

2. Coverage

• URI:http://purl.org/dc/elements/1.1/coverage

• Rótulo: Coverage (Cobertura)

• Definição: A extensão ou cobertura espaço-temporal do recurso.

Exemplos são: datas, intervalo de datas, localização, características de duração temporal do recurso, etc.

3. Creator

• URI:http://purl.org/dc/elements/1.1/creator

• Rótulo: Creator (Criador)

• Definição: É a principal entidade responsável pela elaboração do conteúdo do recurso.

Exemplos são: pessoas, organizações, serviços, etc.

4. Date

• URI:http://purl.org/dc/elements/1.1/date

• Rótulo: Date (Data)

• Definição: Um ponto ou período de tempo associado a um evento do ciclo de vida do recurso.

Exemplos são: data de criação, data de modificação, etc.

5. Description

• URI:http://purl.org/dc/elements/1.1/description

• Rótulo: Description (Descrição)

• Definição: Uma descrição textual do conteúdo do recurso.

Exemplos são: resumos (no caso do recurso ser um objeto com conteúdo textual), descrições do conteúdo do recurso (no caso do recurso ser um objeto visual), etc.

6. Format

(27)

2.1 Metadados 26

• Rótulo: Format (Formato)

• Definição: O formato do arquivo, meio físico ou as dimensões do recurso. Exemplos são: text/html, ASCII, PDF, JPG, etc. Exemplos de dimensões incluem tamanho e duração.

7. Identifier

• URI:http://purl.org/dc/elements/1.1/format

• Rótulo: Identifier (Identificador)

• Definição: Uma referência única (inequívoca), utilizada para identificar o recurso.

Exemplos são: URL (Uniform Resource Locator), URN (Uniform Resource Name), URI (Uniform Resource Identifier), etc.

8. Language

• URI:http://purl.org/dc/elements/1.1/language

• Rótulo: Language (Idioma)

• Definição: O idioma do conteúdo do recurso.

Exemplos são: pt (português), de (alemão), fr (francês), ja (japonês), etc.

9. Publisher

• URI:http://purl.org/dc/elements/1.1/publisher

• Rótulo: Publisher (Publicador)

• Definição: A entidade responsável por tornar o recurso disponível.

Exemplos são: um editor, departamento universitário, uma entidade corpora-tiva, etc.

10. Relation

• URI:http://purl.org/dc/elements/1.1/relation

• Rótulo: Relation (Relação)

• Definição: Um recurso relacionado.

Normalmente, são referências associadas a outros recursos que se relacionam com este recurso.

11. Rights

• URI:http://purl.org/dc/elements/1.1/rights

• Rótulo: Rights (Direitos)

(28)

Exemplos são: avisos ou declarações de direitos autorais, etc.

12. Source

• URI:http://purl.org/dc/elements/1.1/source

• Rótulo: Source (Fonte)

• Definição: Um recurso relacionado, a partir do qual o recurso descrito é derivado.

Normalmente, são recursos relacionados no todo ou em parte.

13. Subject

• URI:http://purl.org/dc/elements/1.1/subject

• Rótulo: Subject (Assunto) • Definição: O tema do recurso.

Exemplos são: palavras-chave, frases ou descritores de classificação, etc.

14. Title

• URI:http://purl.org/dc/elements/1.1/title

• Rótulo: Title (Título)

• Definição: Um nome dado ao recurso.

Normalmente, são nomes pelo qual o recurso é formalmente conhecido.

15. Type

• URI:http://purl.org/dc/elements/1.1/type

• Rótulo: Type (Tipo)

• Definição: A natureza ou gênero do recurso. Exemplos são: romance, relatório técnico, ensaio, etc.

O Dublin Core é um dos padrões de metadados mais utilizados, sendo o resultado de um esforço para se criar um padrão que servisse tanto a documentos quanto a objetos reais. Assim, ele têm sido adotado mundialmente e utilizado em vários projetos que buscam um entendimento entre diferentes comunidades de usuários.

2.2 Bibliotecas Digitais

Com o aumento do uso da rede mundial de computadores e dos avanços tecnoló-gicos que facilitam a publicação e difusão de informações, as bibliotecas digitais surgiram

(29)

com objetivo de possibilitar o acesso a toda informação digital armazenada em um deter-minado repositório de dados. Estes dados podem ser de diferentes tipos de objetos digitais (documentos, imagens, planilhas, vídeos, programas, etc.), devidamente catalogados por metadados, geralmente com interface de acesso web.

O termo biblioteca digital, tema bastante discutido nas literaturas de Ciência da Informação e de Computação, pressupõe uma coleção de documentos disponíveis para os usuários em formato digital.

O conceito de biblioteca digital aparenta algo revolucionário, mas na verdade ele é resultado de um processo gradual e evolutivo. Nas últimas décadas, o computador tem sido utilizado de forma cada vez mais crescente.

Desde os anos 70, muitas bibliotecas implementaram mecanismos de automa-tização computacional de seus processos, passando a acessar bancos de dados para re-cuperar referências bibliográficas e textos completos de artigos, periódicos, verbetes de enciclopédias e itens de outras fontes de referência. A partir do fenomenal crescimento da Internet, as possibilidades de acessar e recuperar informações aumentaram de forma nunca antes imaginada [82].

Uma biblioteca tradicional é aquela onde a maioria dos itens do seu acervo é constituída de documentos em papel ou de outro artefato físico. Uma característica das bibliotecas tradicionais é que tanto a coleção como o seu catálogo utilizam o papel como suporte de registro da informação.

As bibliotecas digitais ampliam os serviços das bibliotecas tradicionais, apro-veitando as potencialidades do armazenamento e a comunicação digital para desenvolver serviços mais personalizados, promover acesso e utilização de informação multimídia, reduzir as barreiras de distância (sejam elas geográficas ou organizacionais) e o tempo no acesso à informação.

Para a criação de uma biblioteca digital, é preciso que se estabeleça um repo-sitório de publicações eletrônicas que armazene, preserve, divulgue e ofereça acesso à produção intelectual de uma instituição.

Na literatura, pode-se encontrar diferentes definições de bibliotecas digitais. Entre elas, citam-se:

“São organizações que disponibilizam os recursos, incluindo pessoal especia-lizado, para selecionar, estruturar, oferecer acesso intelectual, interpretar, dis-tribuir, preservar a integridade e assegurar a persistência ao longo do tempo de coleções de trabalhos digitais, de forma que eles estejam prontamente e economicamente disponíveis para uso de uma comunidade definida ou um conjunto de comunidades” [30].

“Uma biblioteca que tem como base informacional conteúdos em texto completo em formatos digitais – livros, periódicos, teses, imagens, vídeos e

(30)

outros – que estão armazenados e disponíveis para acesso, segundo processos padronizados, em servidores próprios ou distribuídos e acessados via rede de computadores em outras bibliotecas ou redes de bibliotecas da mesma natureza” [16].

“Uma coleção organizada de dados multimídia com métodos de gerencia-mento da informação, que representa os dados como informação útil e co-nhecimento para a sociedade, numa variedade de contextos sociais e organi-zacionais” [146].

“Uma biblioteca que contempla documentos gerados ou transpostos para o ambiente digital (eletrônico), um serviço de informação (em todo tipo de formato) no qual todos os recursos são disponíveis na forma de pro-cessamento eletrônico (aquisição, armazenagem, preservação, recuperação e acesso), através de tecnologias digitais” [68].

“Um conjunto de recursos eletrônicos e capacidades técnicas associadas para criar, buscar e utilizar informações” [150].

Apesar do conceito de biblioteca digital não abordar o mesmo foco para diferen-tes comunidades de usuários, uma ou várias das seguindiferen-tes características estão presendiferen-tes em cada uma das diferentes definições encontradas na literatura [82]:

• acesso remoto pelo usuário, por meio de um computador conectado a uma rede de computadores;

• utilização simultânea do mesmo documento por duas ou mais pessoas; • inclusão de produtos e serviços de uma biblioteca ou centro de informação;

• existência de coleções de documentos, onde se pode acessar não somente a referên-cia bibliográfica, mas também o seu texto completo;

• possibilidade de acesso em rede a outras fontes externas de informação (bibliotecas, museus, bancos de dados, instituições públicas e privadas);

• disponibilização de documento de forma que a biblioteca local não necessite ser proprietária do documento solicitado pelo usuário;

• possibilidade de registro e manipulação de diversos tipos de informação tais como texto, som, imagem e vídeo;

• existência de uma unidade de gerenciamento do conhecimento, que inclui sistema inteligente ou especialista, para ajudar na recuperação de informações relevantes.

Uma vez que são sistemas complexos, as bibliotecas digitais demandam grande esforço de desenvolvimento, sendo objetos de pesquisa multidisciplinar, construídas, adaptadas e testadas ao longo de vários anos de pesquisas.

(31)

Quando o potencial das bibliotecas digitais estiver consolidado, incluindo a presença de mecanismos de processamento semântico, haverá a possibilidade de acesso imediato a qualquer conhecimento humano documentado, a partir de qualquer lugar e de forma mais precisa.

A facilidade com que uma biblioteca digital pode fazer trafegar um documento de um local para outro leva a concluir que as ações cooperativas com entidades afins venham a ser estimuladas. O computador que hospeda o acervo de uma determinada biblioteca digital (servidor) pode estar a milhares de quilômetros do computador do usuário (cliente), que faz requisições a documentos digitais remotos. Para os usuários, o que importa é que o documento completo seja acessível de forma rápida, econômica e sem dificuldades de outra natureza [83].

2.2.1 Integração e Interoperabilidade em Bibliotecas Digitais

As bibliotecas digitais são desenvolvidas com diferentes arquiteturas e tecnolo-gias, são gerenciadas por organizações distintas, submetidas a diferentes padrões de quali-dade, etc. Este ambiente distribuído e heterogêneo introduz um alto grau de complexidade na conquista de uma visão integrada das coleções digitais [135].

A ideia geral de integração e interoperabilidade em bibliotecas digitais consiste na disponibilização de serviços de recuperação de recursos informacionais heterogêneos, armazenados em diferentes repositórios e servidores na web, utilizando-se de uma inter-face única.

Dessa forma, integração é a capacidade de disponibilização de uma interface única para acesso às informações disponíveis em diferentes bibliotecas digitais. Para os usuários, não interessa onde e nem como estes recursos estão armazenados. A interopera-bilidade é a capacidade das bibliotecas digitais trocarem e compartilharem informações e serviços.

No cenário mundial, identificam-se várias alternativas de interoperabilidade e acesso integrado a recursos informacionais distribuídos e heterogêneos, que podem ser agrupadas de acordo com o tipo de interoperabilidade adotado. Basicamente, são duas alternativas, embora ainda não se tenha fixado uma nomenclatura consensual [17]:

• Busca Distribuída: A busca é distribuída a diferentes repositórios identificados como capazes de fornecer respostas satisfatórias, onde os resultados são integrados. • Base de Metadados Centralizada: Metadados referentes a documentos armaze-nados em diferentes repositórios são coletados periodicamente, alimentando uma base comum de metadados, sobre a qual são realizadas as buscas.

Com a finalidade de permitir a integração e interoperabilidade neste ambiente, diversos protocolos foram desenvolvidos. Entre eles, podem ser citados:

(32)

• Z39.50 [3]: É um protocolo de comunicação que permite pesquisas e recuperação de informações em redes de computadores distribuídos. É baseado na arquitetura cliente/servidor, operando na Internet.

• SDLIP [137]: É um protocolo desenvolvido em colaboração com universidades e outros projetos de pesquisas norte-americanas, para a integração de fontes de infor-mação heterogêneas. O SDLIP (Simple Digital Library Interoperability Protocol) permite uma opção de implementação baseada em CORBA e outra através de re-quisições HTTP [26].

• Dienst [29]: É um protocolo implementado em HTTP, que permite a comunicação entre servidores de bibliotecas digitais geograficamente distribuídas, possibilitando o acesso de suas coleções de documentos.

• SRU/SRW [142] [143]: O protocolo SRU (Search and Retrieve URL) e o SRW (Search and Retrieve Web Service) foram concebidos pelo mesmo grupo que criou o protocolo Z39.50. O protocolo SRU tem como objetivo facilitar a codifica-ção de comandos do cliente para o servidor em uma string na forma de um URL, onde a especificação dos valores transmitidos é realizado com a passagem de pa-râmetros neste mesmo URL. O SRW se diferencia do SRU pelo uso do serviço SOAP (Simple Object Access Protocol), que é pré-estabelecido. O SOAP encapsula e transporta as chamadas de procedimentos remotos, criando mensagens estrutura-das no formato XML para a troca de informação em ambientes distribuídos. • OAI-PMH [93]: É um protocolo que permite a disseminação eficiente de conteúdo

entre repositórios digitais. O OAI-PMH (Open Archives Initiative — Protocol for Metadata Harvesting) possibilita aos participantes da iniciativa OAI (Open Archives Initiative) compartilhar seus metadados, para aplicações externas que se interessem na coleta desses dados. Este protocolo fornece uma interface bastante simples, baseada em HTTP e XML. Os metadados coletados podem estar em qualquer formato previamente definido por uma comunidade, embora o padrão Dublin Coreseja especificado para fornecer um nível básico de interoperabilidade.

Entre os motivos que tornam o protocolo OAI-PMH como um dos principais protocolos para interoperabilidade em bibliotecas digitais, destaca-se a sua simplicidade de implementação, arquitetura de baixo custo e a existência de ferramentas open source para a implementação de repositórios digitais (conforme apresentado nas Seções2.2.2e

3.6) que também implementam este protocolo.

2.2.2 Ferramentas para a Implementação de Bibliotecas Digitais

Uma biblioteca digital é muito mais do que uma coleção de textos e outros ob-jetos digitalizados. As ferramentas tecnológicas para a construção desses novos modelos

(33)

de divulgação de informação estão sendo continuamente implementados e colocados a disposição das comunidades de desenvolvedores e usuários.

Em sua maioria, as ferramentas para criação de bibliotecas digitais são sistemas livres, com código aberto, geralmente desenvolvidos por universidades e disponibilizados gratuitamente, sendo alternativa para que qualquer organização implemente seu acervo digital.

Dessa forma, estas ferramentas podem ser livremente instaladas, testadas, usadas e personalizadas pelos interessados neste tipo de aplicação. De alguma forma, estas ferramentas procuram cobrir as diferentes necessidades dos usuários [27].

No restante desta seção, são apresentadas algumas ferramentas para implemen-tação de bibliotecas digitais [99].

• Archimèd [8]: O Archimèd foi desenvolvido pela Laval University Library na cidade de Quebec no Canadá. O projeto desta ferramenta foi modelado para permitir o depósito de pre-prints (primeira versão de um documento publicado) e post-prints(versão final de um documento após revisões do autor) de universidades e pesquisadores.

• ARNO [9]: O projeto ARNO (Academic Research in the Netherlands Online), foi desenvolvido para dar suporte à implementação de repositórios institucionais e integrar repositórios distribuídos por todo o mundo. Entre os participantes do projeto estão a University of Amsterdam, Tilburg University e a University of Twente.

• CDSware [18]: O CDSware (CERN Document Server Software), foi desenvolvido e está sendo mantido disponível publicamente pelo CERN (European Organization for Nuclear Research). O CERN utiliza o CDSware para gerenciar cerca de 350 coleções de dados, englobando cerca de 550.000 registros bibliográficos e 220.000 documentos completos, incluindo pre-prints, jornais, artigos, livros e fotografias. • DSpace [31]: O DSpace é um software livre desenvolvido pelo MIT (Massachusetts

Institute of Technology) e pelos Laboratórios Hewlett-Packard para criação de repositórios institucionais e multidisciplinares para bibliotecas, arquivos e centros de pesquisa.

Sua estrutura oferece um modelo de informação organizacional baseado em comu-nidades e coleções, o qual pode ser configurado de modo a refletir todo o conjunto das unidades administrativas de uma instituição. Permite os mais variados tipos de formatos de arquivos digitais, incluindo textos, sons e imagens.

• EPrints [37]: O EPrints foi desenvolvido pela University of Southampton, tendo se mostrado apropriado para a construção de repositórios institucionais. É uma ferramenta aberta, relativamente fácil de instalar e adaptável às necessidades de qualquer instituição de ensino e pesquisa.

(34)

• Fedora [42]: O Fedora (Flexible Extensible Digital Object and Repository Archi-tecture) é uma plataforma de código aberto, desenvolvido pela University of Vir-giniae pela Cornell University, que oferece uma arquitetura projetada para servir como base para a implementação de repositórios digitais para uma grande variedade de aplicações, tais como bibliotecas digitais, repositórios institucionais e outros sis-temas gerenciadores de informação.

O núcleo central do Fedora é o repositório de serviços, que pode ser acessado utili-zando interfaces via web service, que permite a criação, gerenciamento, armazena-mento, acesso e o reuso dos objetos digitais. Todas as funções do Fedora, tanto no nível de administração do repositório como no nível do acesso aos objetos digitais, são disponibilizados por meio deste repositório de serviços.

Em 2005, foi integrado o primeiro estágio para a tecnologia da Web Semân-tica no repositório de serviços do Fedora, introduzindo suporte para descrições RDF (Resource Description Framework) de objetos digitais, relacionamentos RDF e indexação do repositório baseada em grafos. Com esta implementação, os obje-tos do repositório podem ser tratados como nós de um grafo, permitindo que se façam consultas neste grafo. O impacto desta adaptação foi significante, uma vez que posiciona o Fedora como o único sistema de código aberto que combina “redes de informações” semânticas do conteúdo com suporte a persistência e gestão do conteúdo digital.

• Greenstone [48]: O Greenstone é uma ferramenta para o desenvolvimento e distri-buição de coleções de bibliotecas digitais. Esta ferramenta foi desenvolvida através do projeto da New Zealand Digital Library Project e University of Waikato, e dis-tribuído em cooperação com a UNESCO e o projeto Human Info NGO.

• i-Tor [54]: O i-Tor (Tools and technologies for Open Repositories) foi desenvolvido pelo ITA (Innovative Technology Applied), uma seção do Instituto para Serviços de Informação Científica da Holanda. Através de uma interface web, esta ferramenta permite que seus usuários apresentem vários tipos de informações, independente do local onde os dados são armazenados ou o formato em que são apresentados. • MyCoRe [85]: O MyCoRe é um software de código aberto, utilizado para que

insti-tuições possam construir seus próprios repositórios digitais. O MyCoRe atualmente está sendo desenvolvido por um consórcio de universidades para prover uma ferra-menta para dar suporte a bibliotecas digitais ou repositórios de conteúdo (Content Repositories, daí o nome “CoRe”). O software foi projetado para ser configurado e adaptado às exigências locais de cada instituição (daí o nome “My”), sem a neces-sidade de esforços de programação.

• OPUS [100]: O OPUS (Online Publications of the University of Stuttgart) foi desenvolvido pela University Library e o Computing Center of the University of

(35)

2.3 Ontologias 34

Stuttgart. O objetivo do projeto original foi oferecer um sistema onde estudantes e universidades pudessem gerenciar todas as suas publicações eletrônicas.

2.3 Ontologias

O termo ontologia tem origem na filosofia grega1. Na filosofia, uma ontologia é uma teoria sobre a existência da natureza, sobre os tipos de coisas que existem ou o que se dizer sobre o mundo [59].

Quando relacionado à Ciência da Computação, o termo ontologia tem seu sentido diferente daquele tradicionalmente adotado na filosofia. Neste caso, uma ontologia é um modelo de dados que representa um conjunto de conceitos e seus relacionamentos dentro de um domínio de conhecimento.

Uma das definições mais citadas na literatura é a de Gruber [152], que define ontologia como:

“Uma ontologia é uma especificação formal, explícita e compartilhada de uma conceituralização”.

Posteriormente Studer, Benjamins e Fensel [129] analisaram cada um dos termos desta definição:

• conceitualização: refere-se a um modelo abstrato de algum fenômeno no mundo, pela identificação de conceitos relevantes desse fenômeno;

• explícita: significa que o tipo de conceito usado e suas restrições estão explicita-mente definidos;

• formal: refere-se ao fato de que a ontologia pode ser compreendida pelas máquinas; • compartilhada: refere-se à noção de que uma ontologia captura um conhecimento aceito por um grupo de pessoas e não o conhecimento particular de um indivíduo.

De uma maneira geral, as ontologias são especialmente úteis na gerência do conhecimento para recuperação da informação, pois unifica termos, conceitos, categorias e relações de um mesmo domínio, permitindo o reuso.

2.3.1 Tipos de Ontologias

De acordo com Guarino [89] [90] [91], com relação ao seu nível de generalidade, as ontologias podem ser classificadas nas seguintes categorias:

(36)

2.3 Ontologias 35

• Ontologias Genéricas: descrevem conceitos bastante gerais, independentes de um problema ou domínio particular, tais como, espaço, tempo, matéria, objeto, evento, ação, etc.

• Ontologias de Domínio: descrevem conceituações de domínios particulares, com relação ao vocabulário relacionado a um domínio genérico, tais como medicina ou automóveis.

• Ontologias de Tarefa: descrevem o vocabulário relacionado a uma atividade ou tarefa genérica, independente do domínio em que ocorrem, tais como diagnóstico ou vendas.

• Ontologias de Aplicação: descrevem conceitos dependentes do domínio e da tarefa particular. Estes conceitos frequentemente correspondem a papéis desempenhados por entidades do domínio quando da realização de uma certa atividade.

A Figura2.1mostra o relacionamento entre estas categorias para a classificação de ontologias, de acordo com o seu nível de generalidade.

Figura 2.1: Tipos de ontologias, de acordo com o seu nível de generalidade

Conforme pode ser observado na Figura 2.1, os conceitos de uma ontologia de domínio ou de tarefa devem ser especializações dos termos introduzidos por uma ontologia genérica. Os conceitos de uma ontologia de aplicação, por sua vez, devem ser especializações dos termos das ontologias de domínio e de tarefa correspondentes.

2.3.2 Metodologias para a Construção de Ontologias

Na literatura, existem várias metodologias, ferramentas e linguagens que podem ser utilizadas para construção de uma ontologia. Não existe só um método, ferramenta ou linguagem correta, ou seja, existem vários caminhos que podem ser seguidos para chegar ao objetivo. A escolha correta é aquela que contempla todas as necessidades para a construção da ontologia em particular [59].

(37)

2.3 Ontologias 36

As principais metodologias para a construção de ontologias são: Cyc [147], Grüninger e Fox[76], Uschold e King [80], Kactus [2], Methontology [72], Sensus [14], Ontology Development101 [87] e On-To-Knowledge [144].

Existem outras metodologias além das já citadas. Mais informações sobre estas metodologias podem ser encontradas em [60], [25], [73], [81] e [174].

2.3.3 Ferramentas para a Edição de Ontologias

As ferramentas para a edição de ontologias constituem-se em importantes meca-nismos para o processo de construção e manutenção de ontologias. Na maioria dos casos, estas ferramentas fornecem ambientes interativos e com boa usabilidade com relação à interface disponibilizada aos usuários.

Uma vez que a construção de ontologias é algo complexo e dispendioso, qualquer apoio neste processo pode representar ganhos significativos, principalmente com relação ao tempo de desenvolvimento e a qualidade final da ontologia.

As principais ferramentas para a edição de ontologias são: Protégé [88], OilEd [138], OntoEdit [173], Ontolingua [151], WebOnto [58] e WebODE [101].

Existem outras ferramentas além das citadas no parágrafo anterior. Mais infor-mações sobre estas ferramentas podem ser encontradas em [11], [60], [96], [74], [117].

2.3.4 OWL (Web Ontology Language)

As linguagens para representação de ontologias variam de acordo com o seu poder de formalismo e expressividade. Dentre elas, pode-se citar: SHOE (Simple HTML Ontology Extensions) [141], XOL (Ontology Exchange Language) [170], DAML (DARPA Agent Markup Language) [23] e OIL (Ontology Inference Layer) [95]. As duas últimas foram combinadas e formaram a DAML+OIL [24].

A OWL (Web Ontology Language) [28], [102], [139] é uma revisão da linguagem DAML+OIL. Desde 10 de fevereiro de 2004, esta é a linguagem recomendada pelo W3C (World Wide Web Consortium) [157] para a representação de ontologias.

Em termos de sua expressividade para a representação de conteúdo semântico interpretável por máquinas, a OWL pode ser considerada como uma evolução das demais linguagens para representação de ontologias.

De acordo com o W3C, a linguagem OWL é projetada para ser utilizada pelas aplicações que necessitam processar o conteúdo das informações, ao invés de apenas apresentar estas informações aos seres humanos.

Esta linguagem possui três classes de sub-linguagens, projetadas para serem utilizadas por diferentes comunidades de implementadores e usuários. São elas [102]:

(38)

2.4 Wikimedia 37

• OWL-Lite: é a sub-linguagem sintaticamente mais simples. Destina-se a situações em que apenas são necessárias uma classificação hierárquica e restrições simples. • OWL-DL: é mais expressiva que a OWL-Lite e baseia-se em lógica descritiva

(DL – Description Logics), que é uma área de pesquisa que estuda um fragmento particular da lógica de primeira ordem, e portanto, é passível de raciocínio auto-mático. Destina-se a situações em que é necessário o máximo de expressividade, com completude (todas as conclusões são computáveis) e decidibilidade (todas as computações terminarão em um tempo finito).

• OWL-Full: é a sub-linguagem mais expressiva. Destina-se a situações onde a alta expressividade é mais importante do que qualquer garantia computacional. Esta alta expressividade pode introduzir dificuldades com relação ao processamento semântico.

Cada uma destas sub-linguagens é uma extensão de sua predecessora, ou seja, cada ontologia válida em OWL-Lite é uma ontologia válida em OWL-DL, esta por sua vez é uma ontologia válida em OWL-Full [103].

2.4 Wikimedia

A Wikimedia Foundation [159] é uma organização dedicada ao incentivo, produ-ção, desenvolvimento e distribuição de conteúdo livre e multilíngue para o acesso público. Os maiores projetos de referência editados colaborativamente em todo o mundo são operados pela Wikimedia, incluindo a Wikipédia que é um dos sites mais visitados da Internet.

Os principais projetos da Wikimedia são desenvolvidos colaborativamente atra-vés do software MediaWiki. Na Figura2.2, apresenta-se a logomarca dos principais pro-jetos desenvolvidos pela Wikimedia.

(39)

2.4 Wikimedia 38

A seguir, são apresentadas breves descrições dos principais projetos desenvolvi-dos pela Wikimedia:

• MediaWiki [75]: é o software utilizado pelos principais projetos da Wikimedia. Este software é apresentado na seção2.4.1.

• Wikipédia [162]: é o exemplo mais conhecido de wiki público [79], destinado a construir enciclopédias livres em todos os idiomas do mundo. Ela têm sido desenvolvida por uma comunidade de usuários, que cresce exponencialmente com a adição constante de conteúdo por seus colaboradores em todo planeta [149]. Em janeiro de 2010, a Wikipédia possuía mais de 541.100 artigos em língua portuguesa. • Wiktionary [167]: é um projeto para a criação de um dicionário multilíngue de conteúdo livre. Sua proposta é ser muito mais abrangente que um dicionário comum, incluindo thesaurus, rimas, traduções, pronúncias em áudios e citações. • Wikiquote [163]: é um repositório de citações de pessoas famosas, livros,

discur-sos, filmes ou qualquer outro material intelectualmente interessante.

• Wikibooks [158]: é uma coleção de fontes de e-books livres, incluindo livros didáticos, cursos de línguas, manuais e livros de domínio público.

• Wikisource [164]: é uma coleção de textos que podem ser distribuídos de forma livre e aberta.

• Wikispecies [165]: é um projeto que provê uma base de dados de espécies para taxonomia.

• Wikinews [161]: é um repositório de notícias sobre uma grande variedade de assuntos, onde pessoas de todo o mundo escrevem reportagens colaborativamente. As notícias englobam desde reportagens e entrevistas originais até resumos de artigos de fontes externas.

• Wikiversity [166]: é um projeto dedicado a comunidades estudantis e conteúdos didáticos, em todos os níveis de escolaridade.

• Wikimedia Commons [160]: é um repositório central para fotos, diagramas, mapas, vídeos, animações, músicas, sons, textos e outras mídias gratuitas. É um projeto multilíngue que serve como repositório central para todos os projetos da Wikimedia.

2.4.1 MediaWiki

O MediaWiki é o software utilizado por grande parte dos projetos da Wikimedia. O MediaWiki é um pacote de software livre extremamente poderoso, escalável e com uma rica implementação para o desenvolvimento de ambientes colaborativos. O MediaWiki foi originalmente escrito para a Wikipédia e tem sido utilizado por diversas organizações em todo o mundo.