• Nenhum resultado encontrado

Um Serviço de Auto-arquivamento de. Compatível com o padrão OAI. Lena Veiga e Silva

N/A
N/A
Protected

Academic year: 2021

Share "Um Serviço de Auto-arquivamento de. Compatível com o padrão OAI. Lena Veiga e Silva"

Copied!
87
0
0

Texto

(1)

Departamento de Ciˆencia da Computa¸c˜ao

Um Servi¸co de Auto-arquivamento de

Publica¸c˜

oes Cient´ıficas

Compat´ıvel com o padr˜

ao OAI

Lena Veiga e Silva

Belo Horizonte

(2)

Um Servi¸co de Auto-arquivamento de

Publica¸c˜

oes Cient´ıficas

Compat´ıvel com o Padr˜

ao OAI

Disserta¸c˜ao apresentada ao Curso de P´os-Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao da Uni-versidade Federal de Minas Gerais, como re-quisito parcial para obten¸c˜ao do grau de Mestre em Ciˆencia da Computa¸c˜ao.

Belo Horizonte Dezembro de 2004

(3)

Da minha infˆancia querida Que os anos n˜ao trazem mais! Que amor, que sonhos, que flores. Naquelas tardes fagueiras

`

A sombra das bananeiras, Debaixo dos laranjais!...

Meus Oito Anos - Casimiro de Abreu `

(4)

Agrade¸co imensamente ao Prof. Alberto Henrique Frade Laender, que esteve presente du-rante todas as etapas de meu trabalho, pelo apoio, orienta¸c˜ao e paciˆencia.

Aos meus pais, Gilma e Jos´e Luiz, por acreditarem em mim, torcendo e se emocionando a cada conquista alcan¸cada.

Aos meus irm˜aos, Gisa e Breno, pelos momentos de amizade e descontra¸c˜ao, mesmo distantes sempre me consolaram e estiveram presentes.

Ao meu grande amigo Daniel, que me acompanhou nessa jornada, pelo seu apoio, incentivo, amizade e grande ajuda no decorrer de meu mestrado.

Aos meus amigos do Laborat´orio de Bancos de Dados (LBD) pela convivˆencia harmoniosa e pelo suporte proporcionado, em especial aos amigos, Allan, Karla, Joyce, Olga, David e Jean.

Ao meu namorado Luciano, pelo amor, incentivo e compreens˜ao nestes ´ultimos meses. `

As minhas amigas, Silvana, Kissia e Dri, pelos momentos de descontra¸c˜ao, amizade e apoio em momentos dif´ıceis.

Aos amigos, Dani, Guilherme e Marcos Gon¸calves pela ajuda e colabora¸c˜ao. Ao Prof. Marcelo Azevedo pela ajuda na ´area estat´ıstica.

A todos os colegas do curso de mestrado, em especial aos amigos Paulo, Matheus, Marcelo e Pinheiro que muito me ajudaram no decorrer do mestrado.

Aos professores, que contribu´ıram com minha forma¸c˜ao, os quais se dedicam intensamente ao ensino e `a pesquisa.

`

A CAPES, pelo imprescind´ıvel apoio financeiro. A Deus, por tudo.

(5)

Com a expans˜ao da Internet, ´e cada vez mais comum a cria¸c˜ao de reposit´orios digitais para divulga¸c˜ao da produ¸c˜ao cient´ıfica. Assim, para tornar suas publica¸c˜oes cient´ıficas dispon´ıveis para que sejam acessadas por qualquer pessoa, os pesquisadores est˜ao auto-arquivando seus trabalhos nesses reposit´orios atrav´es de servi¸cos de auto-arquivamento. No entanto, as abor-dagens implementadas pelos diversos reposit´orios s˜ao diferentes entre si. Com o objetivo de promover a interoperabilidade entre os reposit´orios, surge a iniciativa dos arquivos abertos (OAI), promovendo um padr˜ao que define mecanismos t´ecnicos e estruturais. Esta dis-serta¸c˜ao apresenta um servi¸co de auto-arquivamento de publica¸c˜oes cient´ıficas, compat´ıvel com o padr˜ao OAI, para a Biblioteca Digital Brasileira de Computa¸c˜ao (BDBComp). O trabalho desenvolvido tem o objetivo de realizar uma padroniza¸c˜ao dos dados armazenados pelo reposit´orio da BDBComp, e expandir o seu acervo, permitindo o auto-arquivamento de novos tipos de trabalhos, al´em dos atualmente existentes.

(6)

With the expansion of the Internet, the creation of digital repositories for spreading of the scientific production is each more common time. Thus, to become its available scientific publications so that they can be accessed by anyone, the researchers self-archive theirs work in these repositories through self-archiving services. There are, however, different approaches among the various existing repositories. In order to foster interoperability among reposito-ries, the Open Archives Initiative (OAI) developed a standard that includes technical and structural mechanisms. This work presents an OAI complaint self-archiving service for sci-entific publications, directed at the Brazilian Digital Library on Computing (BDBComp). This work intends to standardize data that are stored in the BDBComp repository, and to expand its database, allowing self-archiving of new types of publications, along with existing ones.

(7)

1 Introdu¸c˜ao 1 1.1 Motiva¸c˜ao . . . 1 1.2 Descri¸c˜ao do Trabalho . . . 6 1.3 Organiza¸c˜ao da Disserta¸c˜ao . . . 7 2 Conceitos 9 2.1 Conceitua¸c˜ao de Auto-Arquivamento . . . 9

2.2 Budapest Open Access Initiative . . . . 12

2.3 O Protocolo OAI-PMH . . . 13 2.4 Dublin Core . . . . 15 2.5 Sistemas de Auto-arquivamento . . . 18 2.5.1 Eprints . . . 18 2.5.2 Dspace . . . 19 2.5.3 Kepler . . . 21

2.5.4 Quadro Comparativo dos Sistemas . . . 22

3 O Servi¸co de Auto-Arquivamento da BDBComp 25 3.1 Vis˜ao Geral da BDBComp . . . 25

(8)

3.3 Usu´arios . . . 29 3.4 Caracter´ısticas . . . 30 3.4.1 Autoriza¸c˜oes . . . 32 3.4.2 Fluxos de Trabalho . . . 33 3.5 Reposit´orio de Metadados . . . 35 3.6 Interface . . . 41

3.7 Compara¸c˜ao com Outros Servi¸cos de Auto-Arquivamento . . . 46

4 Avalia¸c˜ao Experimental 49 4.1 Descri¸c˜ao do Experimento . . . 49

4.1.1 Usu´arios . . . 49

4.1.2 Tarefas Executadas . . . 50

4.1.3 Procedimentos na Condu¸c˜ao do Experimento . . . 52

4.2 An´alise dos Resultados . . . 52

4.2.1 An´alise das M´edias . . . 54

4.2.2 Correla¸c˜ao das Caracter´ısticas . . . 59

5 Conclus˜oes 62

A Solu¸c˜ao atrav´es do Minitab para encontrar os P valores 70

B Fich´ario-imagem 74

(9)

2.1 Porcentagem de peri´odicos e editoras que aprovam o auto-arquivamento . . . 11

2.2 Solicita¸c˜oes para colheita dos metadados atrav´es do protocolo OAI-PMH. . . 16

2.3 Campos Dublin Core. . . . 17

2.4 Poss´ıveis a¸c˜oes realizadas por revisores do Dspace. . . . 21

2.5 Quadro comparativo dos servi¸cos de auto-arquivamento. . . 23

3.1 Estados dos trabalhos submetidos. . . 31

3.2 A¸c˜oes permitidas no servi¸co de auto-arquivamento. . . 33

3.3 Campos do qualificador bibliographicCitation. . . . 39

3.4 Dados armazenados pelo servi¸co de auto-arquivamento. . . 40

3.5 Caracter´ısticas do servi¸co de auto-arquivamento da BDBComp. . . 48

4.1 Respostas para as quest˜oes sobre o conhecimento do usu´ario. . . 53

4.2 Respostas para as quest˜oes sobre o servi¸co de auto-arquivamento. . . 53

4.3 Tempo gasto durante as submiss˜oes. . . 54

4.4 Os P valores encontrados pelo m´etodo ANOVA. . . . 55

(10)

2.1 Processo de colheita baseado no protocolo OAI-PMH. . . 15

3.1 Arquitetura da BDBComp. . . 26

3.2 Esquema atual do reposit´orio de metadados da BDBComp. . . 27

3.3 Arquitetura do servi¸co de auto-arquivamento da BDBComp. . . 29

3.4 Esquema do reposit´orio do servi¸co de auto-arquivamento da BDBComp. . . . 35

3.5 Registro em XML suportado pelo padr˜ao OAI. . . 37

3.6 P´agina principal da BDBComp. . . 41

3.7 P´agina do servi¸co de cadastramento. . . 42

3.8 P´aginas de acesso ao servi¸co de submiss˜ao e revis˜ao. . . 42

3.9 P´agina da ´area do contribuidor. . . 43

3.10 P´aginas dos trabalhos no estado de aceito, rejeitado e submetido. . . 44

3.11 P´agina de visualiza¸c˜ao de um trabalho. . . 44

3.12 P´agina de altera¸c˜ao de um trabalho. . . 45

3.13 P´agina de exclus˜ao de um trabalho. . . 45

3.14 P´aginas de submiss˜ao de um trabalho publicado em peri´odico. . . 46

3.15 P´agina da ´area do revisor. . . 47

3.16 P´agina de um trabalho em processo de revis˜ao. . . 47

(11)

4.2 Valores da m´edia para todos os usu´arios. . . 57

4.3 Tempo m´edio de submiss˜ao por grupo. . . 58

4.4 Tempo m´edio de submiss˜ao de todos os usu´arios. . . 59

4.5 Fich´ario-imagem baseado em todas as quest˜oes do question´ario. . . 60

B.1 Agrupamento do fich´ario-imagem baseado no grau de simplicidade da interface quando comparada com a interface do Curr´ıculo Lattes. . . . 74

B.2 Agrupamento do fich´ario-imagem baseado na caracter´ıstica de facilidade do servi¸co. . . 75

B.3 Agrupamento do fich´ario-imagem baseado no conhecimento pr´evio do usu´ario em auto-arquivar publica¸c˜oes cient´ıficas. . . 76

(12)

Introdu¸c˜

ao

1.1

Motiva¸c˜

ao

A comunica¸c˜ao cient´ıfica desempenha um papel fundamental para a dissemina¸c˜ao do co-nhecimento. De acordo com [8], a ciˆencia n˜ao pode avan¸car sem mecanismos eficientes de comunica¸c˜ao cient´ıfica que integrem em um ciclo a produ¸c˜ao de conhecimento, o registro dos resultados, a coleta e estocagem desses registros, a dissemina¸c˜ao dos resultados e o reuso, tanto em atividades produtivas quanto como fonte para gerar novos conhecimentos.

A comunica¸c˜ao cient´ıfica utiliza mecanismos que possuem canais formais e informais, os quais servem a fins distintos e a momentos diversificados durante todo o desenvolvimento da pesquisa e transferˆencia de seus resultados. No percurso dos canais informais para os formais, a maior rapidez na comunica¸c˜ao ´e trocada pela maior lentid˜ao da publica¸c˜ao dos resultados de pesquisa e pela maior qualidade gra¸cas `a revis˜ao por pares [47].

Dentre tais canais, a publica¸c˜ao de documentos cient´ıficos, incluindo artigos em peri´odicos e trabalhos em anais de eventos, tem sido at´e os dias atuais o principal indicador da produ¸c˜ao cient´ıfica [7]. Assim, tais publica¸c˜oes fazem parte tamb´em do sistema de reconhecimento cient´ıfico, pois concedem visibilidade ao pesquisador, contribuindo para a promo¸c˜ao de sua carreira acadˆemica e cient´ıfica, e facilitando a obten¸c˜ao de financiamentos junto a ´org˜aos de fomento a pesquisa [47].

Por´em, de acordo com [14], nas ´ultimas trˆes d´ecadas o sistema de comunica¸c˜ao cient´ıfica em geral ´e alvo de cr´ıticas que refletem as necessidades atuais da ciˆencia e dos cientistas frente ao desenvolvimento tecnol´ogico. Dentre tais fatores podemos destacar os seguintes:

(13)

1. Desequil´ıbrio entre os pre¸cos das assinaturas de peri´odicos estabelecidos pelas editoras, que crescem em propor¸c˜oes superiores `a m´edia da infla¸c˜ao, e os or¸camentos cada vez mais escassos das bibliotecas universit´arias e de pesquisas [24].

2. Impedimento dos autores de promover a difus˜ao de seus trabalhos e obter reconhe-cimento cient´ıfico entre os respectivos pares por causa da transferˆencia dos direitos autorais `as editoras [14].

3. Lentid˜ao entre submiss˜ao/apresenta¸c˜ao de trabalhos e seu efetivo aparecimento na literatura [19].

Os fatores apresentados trazem preju´ızos tanto `a ciˆencia quanto aos cientistas individual-mente e suas institui¸c˜oes. Os dois primeiros fatores tratam de problemas envolvendo o custo das publica¸c˜oes. O primeiro imp˜oe que as institui¸c˜oes p´ublicas paguem para adquirir t´ıtulos de peri´odicos cujos conte´udos foram desenvolvidos com o or¸camento p´ublico. J´a o segundo impede que os autores promovam uma dissemina¸c˜ao maior dos resultados alcan¸cados nas suas pesquisas, tornando-os dependentes das editoras como forma de obter reconhecimento cient´ıfico entre os respectivos pares. O ´ultimo fator trata da insatisfa¸c˜ao com rela¸c˜ao `a falta de agilidade e velocidade no processo da revis˜ao pelos pares e no processo de editora¸c˜ao e apresenta¸c˜ao dos trabalhos, que muitas vezes quando s˜ao apresentados j´a n˜ao representam, de fato, um trabalho inovador, revelando, assim, incapacidade do sistema em responder `a acelera¸c˜ao no aumento do volume de novos conhecimentos cient´ıficos produzidos.

Neste cen´ario, o surgimento da Internet e dos mecanismos de publica¸c˜ao direta na rede tem sido visto pela comunidade acadˆemica como uma poss´ıvel alternativa para resolver a problem´atica do sistema de comunica¸c˜ao cient´ıfico, pois a Internet ´e um mecanismo de co-munica¸c˜ao de alcance mundial, instantˆaneo, interativo e multidirecional, no qual qualquer pessoa pode publicar nela, e o que for publicado ´e imediatamente acess´ıvel [31]. O maior re-torno que a comunidade acadˆemica almeja, publicando os resultados de suas pesquisas, ´e que esses possam servir de base a outras pesquisas, sendo citados por outros trabalhos. A cita¸c˜ao ´e a medida cl´assica do prest´ıgio e do valor de uma contribui¸c˜ao para a ciˆencia em geral. Um estudo realizado em 2001 por Lawrence [26], em trabalhos das ´areas da ciˆencia da computa¸c˜ao e disciplinas relacionadas, indica que as publica¸c˜oes que s˜ao dispon´ıveis eletrˆonicamente s˜ao em m´edia cerca de 336% mais citadas que as publica¸c˜oes que s˜ao dispon´ıveis em papel. Dessa forma, a comunidade cient´ıfica vˆe que tornar dispon´ıvel suas publica¸c˜oes na rede ´e um meio de aumentar sua visibilidade, acelerar o avan¸co da ciˆencia e disseminar amplamente os resultados das pesquisas [19].

Neste contexto, observamos, nos ´ultimos anos, uma forte tendˆencia, surgida no meio da comunidade cient´ıfica mundial, para a cria¸c˜ao de arquivos eletrˆonicos informais e autogeridos,

(14)

voltados para esse fim [32]. Esses arquivos s˜ao conhecidos como eprints e exemplificam o mais democr´atico e eficiente modelo para dissemina¸c˜ao de resultados de pesquisa, de acordo com Sompel e Lagoze [40].

O conceito de eprints est´a ligado a vers˜oes eletrˆonicas de trabalhos, tais como:

1. Pesquisas que foram submetidas `a revis˜ao entre os pares. 2. Trabalhos publicados em revistas e peri´odicos.

3. Trabalhos apresentados em anais de conferˆencias.

4. Manuscritos que est˜ao em processo de submiss˜ao, processo de aceita¸c˜ao para publica¸c˜ao ou que pretendem ser publicados e est˜ao em circula¸c˜ao para coment´arios.

Em [3], eprints s˜ao definidos como textos digitais de artigos de pesquisa, antes ou depois de passar pelo processo de revis˜ao pelos pares. Antes da revis˜ao e da publica¸c˜ao, o esbo¸co ´e chamado de pre-print; depois do processo de revis˜ao e publica¸c˜ao, ´e chamado de post-print. Os eprints incluem tanto os pre-prints como os post-prints, podendo incluir tamb´em os esbo¸cos significativos dos pre-prints, assim como as atualiza¸c˜oes dos post-prints.

Neste sentido, mecanismos diferenciados e alternativos foram criados para sanar as deficiˆencias inerentes ao peri´odico cient´ıfico. Tratamos do estabelecimento de bases de dados de pre-prints que, segundo [37], tˆem o objetivo de fazer circular entre os membros da co-munidade trabalhos submetidos para publica¸c˜ao em peri´odicos tradicionais, mas que ainda esperam avalia¸c˜ao.

Com a Internet, tais bases de dados ganharam um novo est´ımulo, surgindo assim em 1991 o primeiro reposit´orio de eprints, criado por Paul Ginsparg no Laborat´orio Nacional de Los Alamos, Novo M´exico, atualmente designado de arXiv. De acordo com [37], o arXiv ´e um reposit´orio global de eprints nas ´areas da f´ısica, matem´atica, ciˆencia da computa¸c˜ao, ciˆencias n˜ao lineares e biologia quantitativa. Esses arquivos come¸caram com o trabalho de uma comunidade de 200 f´ısicos, crescendo, com o passar dos anos, para 35 mil usu´arios em 70 pa´ıses e processando mais de 70 mil transa¸c˜oes por dia.

O objetivo da cria¸c˜ao dos reposit´orios de eprints ´e desenvolver plataformas para a efetiva comunica¸c˜ao da informa¸c˜ao cient´ıfica, recorrendo `as potencialidades da publica¸c˜ao eletrˆonica na Web. No entanto, as abordagens implementadas pelos v´arios reposit´orios s˜ao diferentes entre si, o que pode constituir um entrave `a respectiva interoperabilidade e eficiˆencia no fluxo de informa¸c˜ao em escala global.

(15)

Com vista a incrementar o impacto dos reposit´orios de eprints existentes e de promover a respectiva interoperabilidade, isto ´e, permitir que os reposit´orios sejam consultados simultaneamente de qualquer lugar do mundo, foi lan¸cada a Open Archive Initiative (OAI -Iniciativa de Arquivos Abertos) em uma reuni˜ao promovida em outubro de 1999, em Santa F´e, New Mexico, por Paul Gisparg, Rick Luce e Herbert Van de Sompel, sob o pren´uncio do Council on Library and Information Resources (CLIR), da Digital Library Federation (DLF), da Scholarly Publishing and Academic Resources Coalition (SPARC), da Associa-tion of Reserach Libraries (ARL), da Research Library e do Los Alamos NaAssocia-tional Laboratory (LANL) [34].

Segundo [34], o termo “arquivo” reflete a origem da iniciativa, a comunidade de pre-prints, e significa um dep´osito de documentos cient´ıficos de texto completo. N˜ao tem nada a ver com o conceito tradicional de arquivo com conota¸c˜ao de preserva¸c˜ao e conserva¸c˜ao. O termo ´e utilizado com um sentido muito mais amplo, como um dep´osito para armazenar qualquer tipo de informa¸c˜ao. J´a o termo “aberto” menciona a arquitetura do sistema, definindo interfaces que facilitam a disponibilidade de conte´udos procedentes de uma variedade de provedores. O termo n˜ao significa gratuidade ou acesso ilimitado a uma dada informa¸c˜ao.

A finalidade da iniciativa de arquivos abertos consiste em promover mecanismos t´ecnicos e estruturais que assegurem a interoperabilidade dos reposit´orios de eprints, facilitando a convers˜ao dos v´arios sistemas existentes atualmente em uma arquitetura tecnol´ogica padronizada. Assim, foram definidos alguns princ´ıpios b´asicos que devem constituir o mo-delo de comunica¸c˜ao cient´ıfica. Entre tais princ´ıpios destacamos quatro que consideramos como principais: interoperabilidade, revis˜ao entre os pares, interdisciplinaridade e auto-arquivamento.

Interoperabilidade objetiva configurar todos os arquivos, padronizando-os globalmente, para que o acesso a eles seja ilimitado. Segundo Sompel e Lagoze [40], na perspectiva deste grande movimento de publica¸c˜ao eletrˆonica, a interoperabilidade envolve uma s´erie de aspectos, tais como: conjunto m´ınimo de metadados, tipo de arquitetura do sistema, abertura para cria¸c˜ao de servi¸cos de bibliotecas digitais de terceiros, integra¸c˜ao com o mecanismo j´a existente no meio cient´ıfico e contribui¸c˜ao para cria¸c˜ao de um sistema de medida de uso e de cita¸c˜ao. A revis˜ao dos pares tem como prop´osito a transparˆencia das cr´ıticas e sugest˜oes feitas aos textos eletrˆonicos dispon´ıveis nos reposit´orios. Desta forma, o ambiente possibilita que toda a comunidade tenha acesso ao processo de revis˜ao e de vers˜oes do texto geradas com base nas sugest˜oes. Assim, ´e quebrado o conceito de revis˜ao sigilosa feita por um comitˆe cient´ıfico. Esta comunica¸c˜ao transparente garante legitimidade e aponta o prest´ıgio e aceita¸c˜ao das in-forma¸c˜oes contidas no texto. Isso ocorre atrav´es do surgimento de convergˆencia e confrontos

(16)

de id´eias, discuss˜oes, cr´ıticas e consensos entre a comunidade envolvida [20].

O terceiro princ´ıpio diz respeito `a interdisciplinaridade do sistema por envolver uma s´erie de obras nas diversas ´areas do conhecimento em um reposit´orio digital. Segundo Caf´e e Lage [13], este preceito ´e voltado para sistemas cuja fun¸c˜ao ´e organizar a literatura de v´arias comunidades cient´ıficas pertencentes `a mesma institui¸c˜ao de origem.

O ´ultimo princ´ıpio de destaque da iniciativa ´e o auto-arquivamento, foco de estudo desta disserta¸c˜ao, que est´a baseado no envio espontˆaneo do autor de seu texto, dados, metadados, imagem, som e/ou qualquer outra informa¸c˜ao que possa ser enviada ao reposit´orio. Cabe ao autor o compromisso de se cadastrar no reposit´orio, fornecendo dados fundamentais rela-cionados com sua identifica¸c˜ao e localiza¸c˜ao. Esses procedimentos simples proporcionam ao autor a visibilidade t˜ao buscada no campo cient´ıfico, uma vez que seu nome estar´a associado `a institui¸c˜ao de origem e `a sua produ¸c˜ao cient´ıfica, bem como estar´a exposto aos grupos de pesquisa de sua ´area. Esta autonomia de editora¸c˜ao e, em alguns casos, a liberdade de reti-fica¸c˜oes, ratifica¸c˜oes ou atualiza¸c˜oes dos textos contribuem para a valoriza¸c˜ao do conte´udo informacional.

O auto-arquivamento segue a filosofia proposta em [45], que incentiva os autores de textos cient´ıficos a publicarem o texto completo de seus trabalhos na Web, em suas home-pages ou preferencialmente em reposit´orios de documentos digitais, para que possam ser acessados livremente pelas pessoas que estiverem interessadas nesses trabalhos [19]. Essa filosofia ´e baseada na iniciativa do Budapest Open Access Initiative (BOAI) [3], cuja principal mo-tiva¸c˜ao ´e garantir o livre acesso a todos os tipos de trabalho acadˆemico. Isso ´e feito de dois modos distintos: um deles ´e incentivar os autores a realizar o auto-arquivamento de seus trabalhos e o segundo modo ´e incentivar a cria¸c˜ao de novas revistas acadˆemicas cujos conte´udos sejam livremente acess´ıveis.

´

E importante ressaltar que tais princ´ıpios descrevem a filosofia da iniciativa de arquivos abertos; por´em, para que um servi¸co seja compat´ıvel com esta iniciativa, ele n˜ao precisa seguir todas os preceitos definidos, mas sim, seguir o mais importante entre eles que ´e o pre-ceito de interoperabilidade. Para tanto a iniciativa criou um padr˜ao de arquitetura t´ecnica e organizacional de colheita de metadados projetada para facilitar a busca de conte´udos armazenados em diversos reposit´orios. A arquitetura consiste em duas partes: a defini¸c˜ao de um conjunto simples de metadados (formato Dublin Core) e a defini¸c˜ao de um proto-colo comum para permitir a colheita de metadados de documentos ou arquivos espec´ıficos armazenados nos reposit´orios (protocolo OAI-PMH). Assim, a iniciativa define dois tipos de participante, provedores de dados e provedores de servi¸cos.

(17)

Apesar dos eprints serem a inspira¸c˜ao para esta iniciativa, ela esclarece que ampliou sua miss˜ao para um conjunto maior de materiais digitais com interesse cient´ıfico ou relevantes para o ensino de forma geral. Al´em dos eprints e dos textos eletrˆonicos, s˜ao inclu´ıdos cole¸c˜oes de dados, materiais visuais, arquivos, dados em sistemas de informa¸c˜ao geogr´aficos, som, m´usica e v´ıdeo [34]. Assim, a iniciativa estendeu sua miss˜ao de criar um protocolo comum que favorecesse o intercˆambio, n˜ao somente de arquivos de eprints, mais tamb´em de m´ultiplos formatos bibliogr´aficos e materiais digitais entre ambientes distintos.

Podemos ter uma dimens˜ao das institui¸c˜oes que seguem o padr˜ao OAI em n´ıvel mundial atrav´es da lista de provedores de dados e provedores de servi¸cos existentes, registrados no site da OAI, nas respectivas URLs: http://www.openarchives.org/Register/BrowseSites e http://www.openarchives.org/service/listproviders.html. Existem 17 provedores de servi¸cos e cerca de 200 provedores de dados.

Provedores de dados t´ıpicos s˜ao bibliotecas digitais, que, segundo [15], s˜ao uma das for-mas mais avan¸cadas e complexas de sistema de informa¸c˜ao, pois freq¨uentemente envolvem suporte de forma colaborativa, preserva¸c˜ao de documentos digitais, gerenciamento de um banco de dados distribu´ıdo, filtragem e recupera¸c˜ao de informa¸c˜oes, gerenciamento de di-reitos autorais, servi¸cos de informa¸c˜ao multim´ıdia, servi¸cos de referˆencia, busca de recursos e dissemina¸c˜ao seletiva. Por outro lado, uma biblioteca digital estende e amplia os recursos e servi¸cos existentes na Internet e d´a oportunidades para o intercˆambio em n´ıvel mundial. Diante de toda a problem´atica descrita e seguindo os princ´ıpios das iniciativas relatadas, surge a necessidade de se criar mecanismos para o auto-arquivamento de publica¸c˜oes cient´ıficas que sejam compat´ıveis com o padr˜ao da iniciativa de arquivos abertos, possi-bilitando o maior acesso poss´ıvel em termos mundiais.

1.2

Descri¸c˜

ao do Trabalho

Este trabalho tem como objetivo principal prover um servi¸co de auto-arquivamento de pu-blica¸c˜oes cient´ıficas, compat´ıvel com o padr˜ao OAI, para a Biblioteca Digital Brasileira de Computa¸c˜ao (BDBComp).

A BDBComp foi criada no Laborat´orio de Bancos de Dados do DCC/UFMG com o objetivo de tornar dispon´ıvel na Web informa¸c˜ao bibliogr´afica referente a publica¸c˜oes da comunidade brasileira de computa¸c˜ao, suprindo, assim, a carˆencia de um acervo brasileiro na ´area de computa¸c˜ao e permitindo que pesquisadores dessa ´area disseminem suas pesquisas para a comunidade [25].

(18)

O servi¸co de auto-arquivamento proposto nesta disserta¸c˜ao permite que diversos usu´arios submetam os metadados de seus trabalhos cient´ıficos ao reposit´orio da BDBComp. Esta abordagem segue as iniciativas anteriormente citadas, incentivando que pesquisadores brasileiros disponibilizem metadados de seus trabalhos, expandindo, dessa forma, o acervo da BDBComp. O servi¸co ´e compat´ıvel com o padr˜ao OAI, possibilitando, assim, que os metadados que s˜ao armazenados no reposit´orio possam ser coletados atrav´es do protocolo OAI-PMH [34].

O servi¸co de auto-arquivamento da BDBComp permite a submiss˜ao de trabalhos somente da ´area de computa¸c˜ao e que j´a tenham passado por um processo de revis˜ao (post-prints). Entretanto, n˜ao permite o auto-arquivamento de texto completo; dessa forma, para se ter acesso ao texto, o autor em quest˜ao deve informar a URL onde poder´a ser encontrado o documento digital.

Por meio deste servi¸co, al´em de trabalhos em eventos, como atualmente arquivados na BDB-Comp, ´e poss´ıvel tamb´em o arquivamento de: livros, cap´ıtulos de livro e trabalhos publicados em peri´odicos. Isso permite que seja criada uma padroniza¸c˜ao nos dados armazenados pelo reposit´orio da biblioteca digital.

Assim, podemos destacar as seguintes contribui¸c˜oes desta disserta¸c˜ao:

1. Cria¸c˜ao de um servi¸co de auto-arquivamento, compat´ıvel com o padr˜ao OAI, para armazenar publica¸c˜oes cient´ıficas no reposit´orio de um dom´ınio espec´ıfico, o da BDB-Comp.

2. Padroniza¸c˜ao dos dados inseridos na BDBComp, alterando o esquema de seu reposit´orio para melhorar o desempenho dos demais servi¸cos dispon´ıveis.

3. Expans˜ao do acervo da BDBComp ao permitir o arquivamento de novos tipos de do-cumento, al´em daqueles j´a existentes na biblioteca digital, tais como: livros, cap´ıtulos de livro e trabalhos publicados em peri´odicos.

1.3

Organiza¸c˜

ao da Disserta¸c˜

ao

A presente disserta¸c˜ao est´a organizada da seguinte forma. No Cap´ıtulo 2, descrevemos os principais conceitos envolvidos assim como o processo de colheita e padroniza¸c˜ao de acordo com o protocolo OAI-PMH. Esse cap´ıtulo apresenta ainda um estudo comparativo de trˆes servi¸cos de auto-arquivamento existentes. No Cap´ıtulo 3, apresentamos a BDBComp e

(19)

descrevemos o servi¸co de auto-arquivamento desenvolvido. No Cap´ıtulo 4, apresentamos uma avalia¸c˜ao desse servi¸co, tendo como base um experimento de an´alise da interface realizado com trˆes grupos distintos de usu´arios. Finalmente, no Cap´ıtulo 5, apresentamos as conclus˜oes e considera¸c˜oes sobre o trabalho, sugerindo alguns poss´ıveis trabalhos futuros.

(20)

Conceitos

Este cap´ıtulo ´e dividido em cinco se¸c˜oes. Na Se¸c˜ao 2.1 apresentamos o conceito de auto-arquivamento e esclarecemos seus objetivos e caracter´ısticas. Na Se¸c˜ao 2.2 apresentamos o Budapest Open Access Initiative (BOAI) com o objetivo de mostrar uma a¸c˜ao efetiva que viabiliza o auto-arquivamento. Na Se¸c˜ao 2.3 definimos o protocolo OAI-PMH, utilizado no processo de colheita dos dados armazenados em reposit´orio por meio do auto-arquivamento. Na Se¸c˜ao 2.4 descrevemos o formato Dublin Core adotado pelo protocolo OAI-PMH para formalizar os metadados auto-arquivados em um reposit´orio. Por fim, apresentamos trˆes sistemas para cria¸c˜ao de servi¸cos de auto-arquivamento.

2.1

Conceitua¸c˜

ao de Auto-Arquivamento

A finalidade do auto-arquivamento, segundo Harnad [19], ´e possibilitar que o texto completo de trabalhos cient´ıficos realizados por pesquisadores ou institui¸c˜oes seja vis´ıvel, acess´ıvel, recuper´avel, pesquis´avel e ´util para qualquer usu´ario em potencial com acesso `a Internet, maximizando, assim, o acesso p´ublico a documentos digitais derivados da pesquisa cient´ıfica, e possibilitando n˜ao somente a gera¸c˜ao de benef´ıcios aos pesquisadores e suas institui¸c˜oes, mas tamb´em um aumento de benef´ıcios para sua pr´opria pesquisa (e daqui `a sociedade que a financia) em termos da dissemina¸c˜ao da pesquisa, aplica¸c˜ao e crescimento, gerando produtividade e progresso.

Auto-arquivar, conforme definido em [45], significa depositar um documento digital em um site p´ublico da Web, preferencialmente em reposit´orios compat´ıveis com o padr˜ao OAI. A a¸c˜ao de depositar se limita ao autor informar o conte´udo de um conjunto de metadados,

(21)

definidos pelo padr˜ao, `a interface Web, e submeter o documento digital ao reposit´orio ou indicar a URL onde se encontra o texto referente aos metadados.

O termo auto-arquivamento ´e usado, pois ´e considerado que o pr´oprio autor dever´a arquivar seus trabalhos; isso ocorre porque o autor ´e o respons´avel pela sua obra, al´em de ser a pessoa mais indicada para informar os metadados do seu trabalho. Por´em, o auto-arquivamento n˜ao restringe o ato de depositar um trabalho exclusivamente ao autor do texto, mas admite igualmente a submiss˜ao por terceiros, desde que autorizada pelo autor. Nesse caso, a pessoa que arquivar o trabalho deve ter um conhecimento pr´evio da obra para conseguir inserir todos os metadados necess´arios `a interface do servi¸co de auto-arquivamento, dessa forma a qualidade da vers˜ao impressa da obra torna-se importante, pois ´e a partir dela que ser˜ao retirados as informa¸c˜oes sobre o trabalho.

Para que um servi¸co de auto-arquivamento seja compat´ıvel com o padr˜ao OAI, ´e necess´ario que tenha uma interface e um reposit´orio que consigam armazenar os metadados especificados pelo padr˜ao. A boa intera¸c˜ao entre o autor e a interface garante a qualidade do auto-arquivamento. O reposit´orio deve ser capaz de armazenar os dados, de forma que possam ser coletados atrav´es do protocolo OAI-PMH. Assim, o uso do protocolo OAI-PMH torna-se indispens´avel no servi¸co de auto-arquivamento, pois garante a interoperabilidade.

De acordo com Harnad [20], o reposit´orio deve permitir a inclus˜ao tanto de pre-prints como de post-prints, pois o formato de metadados do padr˜ao OAI possibilita o armazenamento e a liga¸c˜ao de todas as vers˜oes. Entretanto, ´e importante ressaltar que no caso da BDBComp vamos trabalhar somente com documentos post-prints, ou seja, aqueles documentos que j´a passaram por um processo de revis˜ao e publica¸c˜ao.

Uma das grandes preocupa¸c˜oes dos cientistas no que se refere ao auto-arquivamento consiste na qualidade dos trabalhos submetidos ao reposit´orio. A revis˜ao pelos pares continua a ocupar seu papel essencial no controle do material publicado, principalmente no que diz respeito aos pre-prints, que n˜ao ´e o nosso foco. No caso da BDBComp, a qualidade do material ´e garantida atrav´es do auto-arquivamento de publica¸c˜oes post-prints.

No caso dos post-prints, existe um problema principal, que ´e a quest˜ao dos direitos autorais, pois na maioria das vezes quando o trabalho ´e publicado, h´a uma transferˆencia dos direitos autorais dos autores para as editoras, impedindo assim que os autores promovam a difus˜ao, t˜ao alargada quanto poss´ıvel, dos resultados de suas pesquisas e obtenham o reconhecimento cient´ıfico entre os respectivos pares.

Neste aspecto, a iniciativa de arquivos abertos faz um alerta aos procedimentos de negocia¸c˜ao de transferˆencia de direitos autorais junto `as editoras. Uma solu¸c˜ao interessante adotada se

(22)

encontra em [45], que sugere que quando a editora n˜ao concordar em modificar o acordo de transferˆencia de direitos autorais para permitir o auto-arquivamento do esbo¸co final revisado, o autor pode auto-arquivar um link para um arquivo “errata”, listando as mudan¸cas que foram realizadas no pre-prints de forma a corresponder com o post-prints. Mas de acordo com [19], na pr´atica muitas editoras concordam com o pedido de transferˆencia de direitos autorais para o autor, embora a maioria n˜ao concorde com essa pol´ıtica.

Um estudo descrito em [21], mostrado na Tabela 2.1, identifica o crescimento de peri´odicos e de editoras das ´areas de f´ısica, ciˆencia da computa¸c˜ao e disciplinas afins que aprovam o auto-arquivamento. Dos quase 10.000 peri´odicos examinados, cerca de 83% (incluindo os que aprovam os pre-print, os post-print e ambos) permitem que os autores auto-arquivem seus trabalhos publicados nos peri´odicos antecipadamente, e muitos dos 17% restantes con-cordar˜ao, caso o autor solicite. Nesse estudo tamb´em ´e exposto um crescimento, do ano de 2003 para 2004, de 16% de editoras e 27% de peri´odicos que j´a concordem com essa filosofia.

Aprovam o auto-arquivamento Peri´odicos % Editoras % Total 10.673 100% 88 100% N˜ao aprovam 1.793 17% 37 42%

Pre-print 3.253 30% 7 8%

Post-print 1.772 17% 14 16%

Pre-print e Post-print 3.855 36% 30 34%

Tabela 2.1: Porcentagem de peri´odicos e editoras que aprovam o auto-arquivamento (Fonte: [21]).

Outra estrat´egia interessante para os autores auto-arquivarem seus trabalhos mesmo sem a transferˆencia dos direitos autorais ´e a praticada pelos f´ısicos desde 1991, no arXiv (http://www.arxiv.org). ´E a estrat´egia do “don’t-ask/don’t-tell ”, pela qual o usu´ario sim-plesmente deve auto-arquivar seu post-prints e esperar para ver se a editora pede a remo¸c˜ao. A experiˆencia de Paul Ginsparg, o fundador do arXiv, diz que em quase uma d´ecada e meia essa estrat´egia nunca falhou, e que em trezentos mil trabalhos auto-arquivados, nenhum ´unico trabalho foi removido por pedido de um editor [45]. Ao contr´ario, virtualmente quase todos os peri´odicos da f´ısica tˆem oficialmente permitido o auto-arquivamento em resposta ao desejo e a determina¸c˜ao da comunidade de auto-arquivar seus trabalhos, fornecendo assim o acesso aberto `a suas pesquisas. No contraste, aqueles pesquisadores que durante esse tempo n˜ao realizaram essa estrat´egia, ou seja, que n˜ao auto-arquivaram seus trabalhos, perderam o valor do impacto de suas pesquisas durante esse per´ıodo.

´

E necess´ario esclarecer a diferen¸ca entre auto-publica¸c˜ao e auto-arquivamento. Na iniciativa de arquivos abertos, o fato de tornar p´ublico um texto cient´ıfico n˜ao significa que se trate de uma publica¸c˜ao. No entanto, o fato de um artigo ter obtido uma boa aprecia¸c˜ao entre os pares

(23)

´e suficiente para ser contado como publica¸c˜ao. A distin¸c˜ao no meio cient´ıfico ´e, portanto, a qualidade do trabalho e para isto necessita da valida¸c˜ao de um grupo de especialistas. Nesse sentido, Harnad [19] esclarece que a diferen¸ca essencial no meio de uma pesquisa n˜ao revisada e a pesquisa revisada ´e o controle de qualidade e sua certifica¸c˜ao. Embora os pesquisadores n˜ao desejem processos de revis˜ao muito r´ıgidos e as vezes injustos, favorecendo determinadas institui¸c˜oes, eles desejam que seus trabalhos sejam revisados e que suas pesquisas tenham um reconhecimento com padr˜oes altos de qualidade.

2.2

Budapest Open Access Initiative

A¸c˜oes concretas que seguem o conceito de auto-arquivamento come¸cam a manifestar-se no cen´ario mundial. Surgem assim, algumas iniciativas, tais como a Budapest Open Access Initiative (BOAI) [3]. Esta iniciativa foi criada em dezembro de 2001 durante o encontro promovido pelo Open Society Institute (OSI). Participaram v´arios representantes de insti-tui¸c˜oes que ap´oiam o acesso livre (open access) `a literatura de pesquisa.

Tal encontro, chamado de encontro de Budapeste, teve como objetivo maior impulsionar os esfor¸cos de v´arios pa´ıses no sentido de disponibilizar gratuitamente artigos produzidos por cientistas. Para isso, foram definidas algumas estrat´egias, entre elas:

1. Incentivar os autores a realizar o auto-arquivamento de seus documentos.

2. Incentivar a cria¸c˜ao de novos peri´odicos e revistas acadˆemicas cujos conte´udos sejam livremente acess´ıveis.

3. Auxiliar na transi¸c˜ao de peri´odicos que n˜ao possuam livre acesso para uma sistem´atica na qual seu conte´udo seja livre.

Tais estrat´egias s˜ao realizadas atrav´es do oferecimento de subs´ıdios monet´arios para a cria¸c˜ao de novos produtos de software, ferramentas e jornais ou reposit´orios de artigos na Internet. A iniciativa salienta que em todo o processo deve ser dado ao autor o controle da integridade do conte´udo do trabalho e respeitado o direito de ser citado e devidamente referenciado. A finalidade da BOAI n˜ao ´e boicotar as editoras, mas tornar acess´ıvel os resultados pro-duzidos pelas comunidades cient´ıficas [13]. Ela n˜ao incentiva a destrui¸c˜ao do sistema de edi¸c˜ao existente; simplesmente, apela `as editoras por uma nova forma de coopera¸c˜ao, a qual demanda um acesso gratuito on-line aos artigos que foram produzidos pelos pesquisadores.

(24)

Em [3], podemos destacar algumas caracter´ısticas principais na atua¸c˜ao da BOAI:

1. Auto-arquivamento preconizado pela BOAI n˜ao ´e sinˆonimo de dep´osito de artigos n˜ao controlados pelos pares (pre-prints).

2. Os artigos submetidos aos reposit´orios institucionais devem ser publica¸c˜oes post-prints, que j´a foram certificadas, revisadas e publicadas em revistas ou peri´odicos.

3. Os artigos publicados nas revistas s˜ao artigos que foram fornecidos pelos pesquisadores e para os quais n˜ao esperam remunera¸c˜ao.

A BOAI ´e uma ramifica¸c˜ao de outra iniciativa mais abrangente, o Free On-line Scholarship Movement (FOS) (http://www.earlham.edu/∼peters/fos), que se preocupa com todas as formas de disponibiliza¸c˜ao de documentos on-line, livremente acess´ıveis, e n˜ao apenas com documentos de pesquisas que j´a tenham passado por um processo de arbitragem [41]. Como podemos observar, nosso trabalho segue conceitos que s˜ao estimulados pelas a¸c˜oes da BOAI, pois seu foco ´e voltado para documentos que j´a tenham passado por um processo de arbitragem, com a inten¸c˜ao de manter os atuais padr˜oes de qualidade do material que ser´a auto-arquivado, seguindo, assim, de comum acordo com o conceito de auto-arquivamento.

2.3

O Protocolo OAI-PMH

Dentro do conceito de auto-arquivamento, o protocolo Open Archives Initiative Protocol for Metadata Harvesting (protocolo OAI-PMH) torna-se importante para viabilizar a colheita autom´atica dos metadados submetidos pelo autor para um reposit´orio. Assim, para en-tendermos melhor esse conceito, ´e importante conhecermos o funcionamento do protocolo OAI-PMH.

OAI-PMH ´e um protocolo de transferˆencia que gerencia a migra¸c˜ao de metadados de um computador (provedor de dados ou reposit´orio) para outro computador (provedor de servi¸co). Fornece uma estrutura de interoperabilidade, independente da aplica¸c˜ao, baseada na colheita de metadados. Provˆe interoperabilidade n˜ao imediata, ou seja, n˜ao ´e um protocolo para busca on-line, entre reposit´orios de eprints, bibliotecas digitais ou qualquer servidor na rede que queira tornar vis´ıveis metadados de documentos nele armazenados para um programa externo que queira colet´a-los [44].

Segundo Sompel e Lagoze [40], o desenvolvimento de um protocolo espec´ıfico para o padr˜ao OAI foi necess´ario porque os protocolos existentes n˜ao atendem a necessidade e filosofia

(25)

dos reposit´orios de eprints, no que se refere `a oferta de ferramentas de f´acil implementa¸c˜ao, baixo custo e sem exigˆencia de equipes altamente especializadas, como ´e o caso do protocolo Z39.501.

O protocolo OAI-PMH possui duas classes de participantes:

1. Provedores de dados que administram os sistemas que suportam o protocolo OAI-PMH, de maneira a exportar seus metadados.

2. Provedores de servi¸cos que utilizam os metadados colhidos atrav´es do protocolo OAI-PMH como base para construir servi¸cos de valor agregado.

Segundo Marcondes e Say˜ao [31], um provedor de dados ´e um ambiente n˜ao somente para tornar dispon´ıvel metadados de documentos digitais, mas tamb´em um ambiente de auto-arquivamento, possibilitando a submiss˜ao desses metadados e de texto completo para co-ment´arios e sugest˜oes. Ele precisa dispor de facilidades para acesso aos documentos ar-mazenados em um reposit´orio e permitir que os metadados desses documentos sejam vis´ıveis para os programas de colheita autom´atica de metadados (colhedor - havester ). Dessa forma, um provedor de dados oferece servi¸cos de recupera¸c˜ao e mecanismos de localiza¸c˜ao e acesso aos documentos.

J´a um provedor de servi¸co, segundo [44], ´e respons´avel por fornecer uma interface unificada de busca a metadados de documentos armazenados nos reposit´orios de diferentes provedores de dados; isso ocorre atrav´es do uso de um colhedor, que ´e uma aplica¸c˜ao cliente que utiliza as requisi¸c˜oes do protocolo OAI-PMH.

A comunica¸c˜ao entre o servidor do provedor de dados e o programa de colheita do prove-dor de servi¸cos para a transferˆencia de metadados ´e unidirecional e funciona da seguinte forma. O provedor de servi¸cos faz solicita¸c˜oes ao provedor de dados, que responde enviando os metadados solicitados. As solicita¸c˜oes do provedor de servi¸co s˜ao feitas via o protocolo HTTP, usando comandos CGI codificados por meio dos m´etodos GET ou POST. As so-licita¸c˜oes s˜ao respondidas pelo provedor de dados com o envio de dados das respostas ou metadados dos documentos armazenados, codificados em XML. O processo de colheita do protocolo OAI-PMH ´e ilustrado na Figura 2.1.

1Z39.50 ´e um protocolo de recupera¸c˜ao de informa¸c˜ao que distribui uma busca imediata e simultˆanea por

(26)

Figura 2.1: Processo de colheita baseado no protocolo OAI-PMH.

O protocolo OAI-PMH estabelece o Dublin Core Metadata Element Set (Dublin Core) [12] como conjunto m´ınimo de metadados a ser suportado pelos provedores de dados em resposta a uma solicita¸c˜ao de um provedor de servi¸cos. No entanto, o protocolo OAI-PMH suporta a no¸c˜ao de m´ultiplos conjuntos de metadados, permitindo que as comunidades exponham seus metadados nos formatos que s˜ao espec´ıficos a suas aplica¸c˜oes e dom´ınios. A estrutura t´ecnica do protocolo n˜ao coloca nenhuma limita¸c˜ao `a natureza de tais conjuntos paralelos, com exce¸c˜ao daquela que os registros dos metadados sejam estruturados no formato XML, e que possuam um esquema correspondente para sua valida¸c˜ao [44].

Para a realiza¸c˜ao da colheita dos metadados, o protocolo prevˆe seis tipos de solicita¸c˜ao que um provedor de servi¸cos pode enviar a um provedor de dados para coletar qualquer tipo de dados do reposit´orio. Na Tabela 2.2 s˜ao apresentados os seis tipos de solicita¸c˜ao e suas fun¸c˜oes.

2.4

Dublin Core

O formato Dublin Core [12] foi criado originalmente com o nome de Dublin Core Metadata Set em mar¸co de 1995 em um workshop sobre metadados realizado em Dublin, Irlanda. ´

(27)

metadados para a comunidade de bibliotecas digitais e de repost´orios de eprints. O objetivo principal desse formato foi identificar e definir um conjunto m´ınimo de elementos capazes de descrever em larga escala recursos dispon´ıveis na Internet.

O formato Dublin Core inclui dois n´ıveis: Simples e Qualificado. O Dublin Core Simples compreende quinze elementos; O Dublin Core Qualificado inclui um elemento adicional, Audience, assim como um grupo de refinamentos dos elementos, chamados de qualificadores, que refinam a semˆantica dos elementos de maneira que podem ser ´uteis na descoberta dos recursos na Internet. A semˆantica do formato Dublin Core foi estabelecida por um grupo internacional de profissionais de diversas ´areas, tais como, biblioteconomia, inform´atica, arqueologia, e outros campos relacionados ao conhecimento.

Solicita¸c˜ao Fun¸c˜ao

Identify Obt´em dados administrativos sobre o provedor de dados e a pol´ıtica de publica¸c˜ao de documentos.

ListSets Lista as classifica¸c˜oes sob as quais os documentos s˜ao organizados no provedor de dados, ou seja, lista o conjunto dos quais os documentos fazem parte.

ListMetadataFormats Lista os formatos de metadados por meio dos quais os metadados dos documentos armazenados no provedor de dados podem ser apresentados.

ListIdentifiers Lista os identificadores de registros armazenados no provedor de dados, podendo opcionalmente limitar estes registros a partir de uma data ou pertencentes a um conjunto (set).

ListRecords Lista os metadados dos registros armazenados no provedor de dados segundo um formato de metadados, especificando todos que pertencem a um conjunto (set) ou todos a partir de uma data.

GetRecords Obt´em os metadados dos registros armazenados segundo um formato de metadados, dado um identificador de registro.

Tabela 2.2: Solicita¸c˜oes para colheita dos metadados atrav´es do protocolo OAI-PMH. De acordo com [12], podemos perceber o formato Dublin Core como uma “pequena lin-guagem de uma classe particular de senten¸cas sobre recursos dispon´ıveis na Internet”. Nesta linguagem, h´a duas classes de termos: os elementos (substantivos) e os qualificadores (adje-tivos), que podem ser organizados dentro de um formato de senten¸ca simples. Os pr´oprios recursos s˜ao os assuntos inclu´ıdos nesta linguagem.

O conjunto b´asico de elementos do formato Dublin Core, suas descri¸c˜oes e seus respectivos qualificadores s˜ao mostrados na Tabela 2.3. Cada elemento ´e opcional e pode ser repetido. A maioria dos elementos possui um conjunto limitado de qualificadores. ´E incentivado o uso de esquemas codificadores e de vocabul´arios para determinados elementos.

O formato Dublin Core ´e adotado mundialmente e tem sido utilizado em v´arios projetos que buscam um entendimento entre diferentes comunidades de usu´arios. Ao todo, s˜ao mais de 45 pa´ıses utilizando este formato [12].

(28)

Elementos Descri¸c˜ao Qualificadores

Title T´ıtulo que um autor ou editor atribui a um Alternative

trabalho.

Creator Autor ou autores respons´aveis pelo conte´udo do trabalho.

Subject Assunto de que trata o trabalho definido por meio de palavras-chave ou t´opicos.

Description Uma breve descri¸c˜ao do trabalho, tal como Table of Contents

um abstract. Abstract Publisher Um agente ou agˆencia respons´avel pela

disponibiliza¸c˜ao do trabalho em sua forma atual; normalmente uma editora ou institui¸c˜ao educacional.

Contributor Pessoas, al´em do(s) autor(es), que contribu´ıram substancialmente para o

trabalho, por exemplo, editores e orientadores.

Date Data da disponibiliza¸c˜ao do trabalho em sua Created

forma descrita (´e usado normalmente o ano). Valid Available Issued Modified

Date Copyrighted Date Submitted Type Tipo de objeto, como por exemplo: cole¸c˜oes

e texto.

Format Formato em que o trabalho digital se encontra, Extent

por exemplo: PDF, HTML ou JPG. Medium

Identifier Uma cadeia de caracteres que identifica Bibliographic Citation

exclusivamente o objeto, por exemplo: ISBN e URL.

Source Outras fontes (caso se aplique) das quais o trabalho se deriva.

Language Idioma usado no trabalho.

Relation Relacionamento, se existir algum, do trabalho Is Version Of

com outros trabalhos (normalmente descreve Has Version

um trabalho como parte de um conjunto maior). Is Replaced By Replaces Is Required By Requires Is Part Of Has Part Is Referenced By References Is Format Of Has Format Conforms To Coverage A ´area geogr´afica que o trabalho engloba, Spatial

se aplic´avel. Temporal Rights Direitos ou outras propriedades intelectuais Access Rights

especificando as condi¸c˜oes atrav´es das quais o trabalho pode ou n˜ao ser usado.

Audience Pessoa ou entidade a quem o recurso est´a Mediator

destinado ou ´e ´util. Education Level

(29)

2.5

Sistemas de Auto-arquivamento

Nesta se¸c˜ao apresentamos trˆes sistemas para cria¸c˜ao de servi¸cos de auto-arquivamento com-pat´ıveis com o padr˜ao OAI: Eprints, Dspace e Kepler. S˜ao sistemas voltados n˜ao somente para a cria¸c˜ao de servi¸cos de auto-arquivamento, mas que tamb´em s˜ao respons´aveis pela gera¸c˜ao e manuten¸c˜ao dos reposit´orios que armazenam os mais variados tipos de objeto digital. Dessa forma, englobam tamb´em muitas outras fun¸c˜oes, tais como, servi¸cos de geren-ciamento, armazenamento, busca, navega¸c˜ao, subscri¸c˜ao, recupera¸c˜ao de dados e descri¸c˜ao de registros e cole¸c˜oes.

Nesta se¸c˜ao realizamos tamb´em uma compara¸c˜ao desses sistemas nos concentrando somente no servi¸co de auto-arquivamento e em algumas outras caracter´ıstica relacionadas a esse servi¸co.

2.5.1

Eprints

O sistema Eprints [39] foi desenvolvido pela Universidade de Southampton e idealizado por Stevan Harnad, principal incentivador do auto-arquivamento. ´E um software livre, dis-tribu´ıdo nos termos do GNU General Public License, que gera um ambiente de manuten¸c˜ao e cria¸c˜ao de servi¸cos compat´ıveis com o padr˜ao OAI.

O principal objetivo do Eprints ´e facilitar a cria¸c˜ao de reposit´orios que permitam acesso livre a resultados de pesquisa de institui¸c˜oes, especialmente universidades. Dessa forma, o servi¸co de auto-arquivamento ´e voltado para n´ıveis institucionais, admitindo avalia¸c˜ao por parte de revisores e coment´arios vindos dos leitores.

O Eprints ´e provavelmente o sistema mais utilizado em todo o mundo para cria¸c˜ao de reposit´orios que sejam acessados livremente. De acordo com [39], existem cerca de 144 reposit´orios no mundo que foram desenvolvidos atrav´es do Eprints.

Conforme [33], Eprints ´e um sistema que n˜ao requer muito esfor¸co na instala¸c˜ao, sendo configur´avel e adapt´avel pois possibilita a inser¸c˜ao de ferramentas e m´odulos novos. Foi desenvolvido na linguagem Pearl para ser executado na plataforma UNIX. Utiliza o servidor Web Apache, o sistema de gerˆencia de banco de dados MySQL e o interpretador Pearl. O servi¸co de auto-arquivamento gerado pelo Eprints ´e baseado na inser¸c˜ao de metadados por meio de uma interface Web. Os metadados s˜ao definidos pelo administrador, mas seguem o formato Dublin Core e identificam os objetos digitais do tipo eprints; n˜ao ´e permitido

(30)

outros objetos digitais, como som, v´ıdeo e imagem. Os usu´arios podem submeter o texto completo dos documentos digitais em v´arios formatos, incluindo ASCII, HTML, Adobe PDF, e PostScript, ou atrav´es de uma URL que especifica a localiza¸c˜ao do documento correspon-dente.

Os usu´arios que desejem auto-arquivar seus trabalhos ou comentar trabalhos que j´a este-jam armazenados no reposit´orio precisam obrigatoriamente criar uma conta. Depois de cadastrado, o usu´ario j´a tem acesso `a User Area que disponibiliza uma s´erie de op¸c˜oes rela-tivas ao pr´oprio usu´ario, tais como, documentos armazenados, pendˆencias e submiss˜oes. Ao se ter acesso a User Area, a interface mostra se o usu´ario tem pendˆencias de submiss˜ao e oferece ainda a op¸c˜ao de remo¸c˜ao e edi¸c˜ao de documentos auto-arquivados.

Quando um novo documento ´e submetido ao reposit´orio do Eprints, ele fica armazenado em uma ´area restrita para que sejam feitas algumas verifica¸c˜oes, que ir˜ao assegurar a qualidade do material que est´a sendo disponibilizado, como, por exemplo, verificar se poss´ıveis pol´ıticas quanto ao tipo de documento, ´area de pesquisa ou afilia¸c˜ao do autor est˜ao sendo respeitadas, verificar e complementar os metadados, verificar se o documento enviado ´e leg´ıvel em todos os formatos em que foi submetido e realizar a convers˜ao do documento para formatos mais comuns. Esses servi¸cos devem ser executados por um bibliotec´ario ou administrador atrav´es de uma interface Web espec´ıfica. Finalmente, o documento pode ser aceito, rejeitado ou enviado de volta ao seu autor, para que poss´ıveis corre¸c˜oes possam ser feitas.

As verifica¸c˜oes de integridade dos dados s˜ao executadas automaticamente. Algumas rotinas encontradas no sistema permitem que sites individuais adicionem suas pr´oprias verifica¸c˜oes de integridade se desejarem, as quais podem reduzir extremamente a carga de trabalho do administrador.

2.5.2

Dspace

Dspace [38] caracteriza-se como um sistema que fornece fun¸c˜oes b´asicas para a cria¸c˜ao e manuten¸c˜ao de um reposit´orio digital institucional projetado para capturar, armazenar, indexar, preservar e redistribuir trabalhos de pesquisa multidisciplinares de universidades e institui¸c˜oes de pesquisa a longo prazo. Desenvolvido pela biblioteca do MIT junto com a Hewlett-Packard, DSpace ´e um software livre, distribu´ıdo nos termos da licen¸ca BSD open source, que pode ser personalizado e estendido.

O principal c´odigo do Dspace foi implementado em Java e pode ser executado nas plataformas UNIX e Windows. Necessita de um servidor Web Apache, do sistema de gerˆencia de banco

(31)

de dados PostgreSQL e do Jakarta Tomcat Java Servlet.

Dspace foi projetado para fornecer servi¸cos de f´acil utiliza¸c˜ao, baseados na Web, que possam atender diversas comunidades. Assegura a participa¸c˜ao de escolas, departamentos, centros de pesquisa e outras unidades t´ıpicas de uma institui¸c˜ao de pesquisa, e suporta diferentes pol´ıticas para essas comunidades e cole¸c˜oes. Dessa forma, o servi¸co possibilita que sejam auto-arquivados v´arios tipos de material digital, incluindo, texto, imagens, v´ıdeo e arquivos de ´audio.

De acordo com [43], o Dspace define “comunidade” como institui¸c˜oes `as quais os dados pertencem, como, por exemplo, laborat´orios ou centros de pesquisa, e “cole¸c˜oes” como sendo arranjos de conte´udos relacionados, por exemplo, relat´orios t´ecnicos ou dados estat´ısticos. Dspace utiliza um esquema de dados complexos especificado pelo sistema, no qual o trabalho a ser armazenado ´e parte de diferentes comunidades e cole¸c˜oes, sendo composto por outros elementos que tamb´em s˜ao armazenados separadamente no reposit´orio, como imagens e sons. No servi¸co de auto-arquivamento, membros de diferentes comunidades depositam o conte´udo de seus trabalhos via uma interface Web. Para cada comunidade s˜ao especificados metadados e cole¸c˜oes que s˜ao inseridos pelo usu´ario. O servi¸co ´e compat´ıvel com o padr˜ao OAI, de modo que cada documento digital possui metadados descritivos que s˜ao definidos pelo formato Dublin Core Qualificado para que sejam colhidos pelo protocolo OAI-PMH. Outros tipos de metadados tamb´em s˜ao armazenados pelo servi¸co, tais como, metadados administrativos e estruturais.

Para que usu´arios possam utilizar o servi¸co de auto-arquivamento, eles devem se cadastrar informando o endere¸co de e-mail, nome, senha, login name e uma lista de cole¸c˜oes. Esta ´ultima informa¸c˜ao ´e necess´aria ao servi¸co de subscri¸c˜ao, que permite que os usu´arios recebam informa¸c˜ao a respeito de trabalhos de suas ´area de interesse. Ao se cadastrar, o usu´ario deve indicar a comunidade `a qual pertence, podendo pertencer a mais de uma comunidade. Quando um trabalho ´e auto-arquivado, um processo de revis˜ao ´e iniciado. Este processo ´e realizado por um ou mais revisores para verificar a submiss˜ao e assegurar que seja adequada para inclus˜ao na cole¸c˜ao. Cada comunidade possui um grupo de revisores que podem exe-cutar as a¸c˜oes descritas na Tabela 2.4, conforme a pol´ıtica de cada cole¸c˜ao. Quando esse processo ´e completado com sucesso, ou seja, depois que todos os revisores aceitam ou alteram o arquivo, s˜ao adicionadas pol´ıticas de autoriza¸c˜ao apropriadas para que o trabalho possa ser colocado dispon´ıvel no reposit´orio por usu´arios autorizados. Se a submiss˜ao ´e rejeitada, a raz˜ao ´e informada por e-mail para o submissor, ele pode ent˜ao fazer algumas modifica¸c˜oes necess´arias e submeter novamente.

(32)

A¸c˜ao Descri¸c˜ao

A¸c˜ao 1 Aceitar a submiss˜ao para inclus˜ao ou rejeit´a-la.

A¸c˜ao 2 Editar metadados fornecidos pelo usu´ario na submiss˜ao, mas n˜ao pode trocar os arquivos submetidos (documento digital). Pode aceitar a submiss˜ao para inclus˜ao ou rejeit´a-la.

A¸c˜ao 3 Editar metadados fornecidos pelo usu´ario na submiss˜ao, mas n˜ao pode trocar arquivos submetidos. Pode enviar a submiss˜ao de volta para o reposit´orio, mas n˜ao pode rejeit´a-la.

Tabela 2.4: Poss´ıveis a¸c˜oes realizadas por revisores do Dspace.

Dspace possui um sistema de autoriza¸c˜ao flex´ıvel. N˜ao consente permiss˜ao para qual-quer usu´ario auto-arquivar seu trabalho. Mas aqueles que possuem essa permiss˜ao podem ter acesso aos metadados, visualiz´a-los, atualiz´a-los e removˆe-los. Alguns usu´arios podem tamb´em realizar revis˜oes, que englobam as a¸c˜oes descritas na Tabela 2.4. Para excluir um objeto do arquivo, o usu´ario deve ter permiss˜ao de remover todos objetos, neste caso a cole¸c˜ao inteira. Assim, o item tornado “´orf˜ao” ´e automaticamente exclu´ıdo.

2.5.3

Kepler

Kepler [23] ´e um sistema desenvolvido como resultado de um projeto financiado pela National Science Foundation, desenvolvido em coopera¸c˜ao com o US Geological Survey (USGS), Old Dominion University (ODU), Los Alamos National Laboratory (LANL) e Open Language Archives Community (OLAC).

O objetivo do sistema Kepler ´e permitir que qualquer usu´ario possa facilmente auto-arquivar suas publica¸c˜oes em provedores de dados pessoais e que as publica¸c˜oes sejam coletadas via o protocolo OAI-PMH, utilizando a ideologia das redes peer-to-peer. Kepler ´e diferente dos outros sistemas descritos, pois n˜ao cria um ambiente de gerenciamento, armazenamento e descri¸c˜ao para um grande volume de dados. O provedor de dados deve possuir um volume pequeno de dados pois armazena somente os objetos digitais de um indiv´ıduo. Por´em, deve existir v´arios desses provedores, o equivalente ao n´umero de indiv´ıduos cadastrados no sistema, que deve chegar na ordem de milhares.

Conforme [30], Kepler ´e voltado para submiss˜oes individuais, possibilitando a participa¸c˜ao de pequenos grupos de pesquisa ou mesmo indiv´ıduos na iniciativa, sem a necessidade de uma infra-estrutura para manter um reposit´orio de documentos na Internet. Sua arquitetura inclui trˆes tipos de componente: (a) provedores de dados pessoais, (b) provedor de servi¸co simples para colher metadados dos provedores de dados pessoais, e (c) servidor central que possui um servi¸co de registro autom´atico para suportar as v´arias publica¸c˜oes armazenadas

(33)

nos provedores de dados pessoais.

O provedor de dados da arquitetura ´e projetado para ser de f´acil instala¸c˜ao, uso e manuten¸c˜ao. Cada indiv´ıduo que deseja tornar dispon´ıvel seus trabalhos instala o sistema em seu computador pessoal para criar o seu provedor de dados pessoal. A partir dele utiliza a interface de auto-arquivamento para informar metadados dos trabalhos em um formul´ario e identificar a localiza¸c˜ao do texto completo, permitindo, assim, que sejam coletados por provedores de servi¸cos especificados pela arquitetura. O mecanismo possibilita que os da-dos sejam organizada-dos por assunto, institui¸c˜ao, indiv´ıduo ou publica¸c˜ao. Qualquer tipo de trabalho pode ser armazenado no banco de dados local de um provedor de dados pessoal. A arquitetura ´e baseada em um servidor central, disponibilizado pela Old Dominion Uni-versity, que monta um reposit´orio com c´opias locais de todos os trabalhos e metadados dos provedores de dados pessoais. Quando um provedor de dados pessoal ´e criado, ele ´e re-gistrado automaticamente pelo servidor central, que cria um identificador (URL) e identifica um estado (off-line ou on-line). Quando o provedor de dados pessoal est´a on-line, os dados podem ser colhidos diretamente por provedores de servi¸cos atrav´es do protocolo OAI-PMH, por´em quando est´a off-line os dados ser˜ao acessados atrav´es do servidor central.

A arquitetura suporta dois tipos de usu´ario: publicadores individuais usando o servi¸co de auto-arquivamento dos provedores de dados individuais e usu´arios gerais interessados em recuperar trabalhos publicados. O publicador individual interage com o servi¸co de auto-arquivamento e o usu´ario geral interage com o provedor de servi¸co e um reposit´orio com-pat´ıvel com o padr˜ao OAI usando um browser.

Em [29] ´e mostrado uma vers˜ao da arquitetura Kepler otimizada fornecendo um mecanismo de sincroniza¸c˜ao de reposit´orios individuais mais eficiente, permitindo um acesso mais r´apido aos trabalhos auto-arquivados. Neste caso ´e usado um processo mais veloz de atualiza¸c˜ao dos dados, possibilitando a descoberta mais r´apida do conte´udo assim que s˜ao auto-arquivados.

2.5.4

Quadro Comparativo dos Sistemas

Nesta se¸c˜ao mostramos um quadro comparativo, apresentado na Tabela 2.5, de todos os sistemas descritos, identificando detalhes adicionais e fun¸c˜oes particulares. O objetivo dessa compara¸c˜ao n˜ao ´e distinguir o melhor servi¸co de auto-arquivamento dentre os sistemas des-critos, pois cada um possui caracter´ısticas espec´ıficas para o seu ambiente de trabalho. Em cada institui¸c˜ao o sistema mais indicado ser´a o que melhor atender a seus requisitos e necessidades.

(34)

Caracter´ısticas Dspace Eprints Kepler

Vers˜ao do protocolo OAI-PMH OAI-PMH 2.0 OAI-PMH 2.0 OAI-PMH 2.0 Licen¸ca de software livre BSD GNU GPL n˜ao ´e software livre

Plataformas Java Perl Java PostgreSQL MySQL MySQL/Oracle Unix/Windons Linux/Solaris Linux/Windons

Apache Apache Arc1

qualquer browser qualquer browser qualquer browser Tomcat TomCat ´

Ultima atualiza¸c˜ao Agosto-03 Mar¸co-02 Outubro-04 Cadastramento de usu´arios sim sim n˜ao Processo seguro de gera¸c˜ao sim sim n˜ao

de senha2

Mecanismo de autentica¸c˜ao email/X.509 tabelas MySQL sim3

do usu´ario (e-mail e senha) (login name e senha)

Restri¸c˜ao de usu´arios4 sim n˜ao n˜ao

Perfil do usu´ario armazenado sim sim n˜ao Autoriza¸c˜oes diferentes por sim sim sim

usu´arios

M´ultiplos n´ıveis de acesso sim n˜ao sim3

ao servi¸co5

Restri¸c˜ao de acesso ao sim sim sim conte´udo do objeto digital

M´ultiplos conte´udos de cole¸c˜oes6 sim sim sim

Est´agios do objeto digital assemble n˜ao possui n˜ao possui

pending approved

Submiss˜ao incompleta7 sim sim8 n˜ao

Usu´arios envolvidos submitters user publicadores

indi-reviewers editor viduais

approvers administrator usu´arios gerais

editors

Tipos de objeto digital qualquer9 eprints10 qualquer

Tipos de submiss˜ao institucional e institucional e individual individual individual

Acesso ao texto completo sim sim sim (URL e (URL e (texto completo) texto completo) texto completo)

Notifica¸c˜ao ao usu´ario sobre sim sim n˜ao estado do objeto

Notifica¸c˜ao ao administrador sim sim n˜ao sobre objetos `a espera de

aprova¸c˜ao

Acesso ao conte´udo e sim sim sim pendˆencias da submiss˜ao

Formato de metadados Dublin Core Dublin Core Dublin Core Qualificado

Sustenta¸c˜ao de outros formatos sim sim sim Controle de qualidade dos sim accept n˜ao

metadados edit bounce

delete

Sele¸c˜ao de objetos para sim sim sim colheita via OAI-PMH

(35)

A seguir apresentamos algumas considera¸c˜oes relevantes referentes ao quadro comparativo: (1) Arc ´e um servi¸co de colheita e recupera¸c˜ao de dados para m´ultiplos provedores de dados

[28].

(2) Caracter´ıstica que fornece um processo seguro de gera¸c˜ao de senhas, para o caso dos

usu´arios que esqueceram as suas senhas possam receber uma nova. Normalmente as senhas s˜ao enviadas via e-mail.

(3) Em Kepler o usu´ario (provedores de dados individuais) s˜ao autenticados atrav´es de URLs

e IP’s pelos servidores centrais.

(4) Caracter´ıstica que restringe o tipo de usu´arios que podem usar o servi¸co de

auto-arquivamento.

(5) Caracter´ıstica na qual o administrador aplica m´ultiplos n´ıveis de restri¸c˜ao de acesso para

entrada do servi¸co de auto-arquivamento, como por exemplo, acesso livre, acesso atrav´es de IP e acesso atrav´es de login name e senha.

(6) Caracter´ıstica na qual m´ultiplos conte´udos de cole¸c˜oes e/ou grupos de usu´arios s˜ao

definidos. Cole¸c˜oes podem ser definidas de v´arias formas incluindo ´area de conhecimento e tipos. E usu´arios podem ser divididos por institui¸c˜oes.

(7) Caracter´ıstica na qual permite que submiss˜oes sejam auto-arquivadas de forma

incom-pleta sem passar pelo est´agio de aprova¸c˜ao. Isto ´e realizado para simplificar o processo de submiss˜ao, permitindo que o usu´ario salve a submiss˜ao incompleta e posteriormente continue o processo de submiss˜ao.

(8) No Eprints o estado da submiss˜ao ´e armazenado no banco de dados.

(9) Dspace armazena objetos complexos.

(10) Eprints pode ser configurado para armazenar outro tipo de objetos al´em de objetos do

(36)

O Servi¸co de Auto-Arquivamento da

BDBComp

Neste cap´ıtulo, descrevemos o servi¸co de auto-arquivamento criado para a Biblioteca Di-gital Brasileira de Computa¸c˜ao (BDBComp). Na Se¸c˜ao 3.1 ´e mostrada uma vis˜ao geral da BDBComp. Na Se¸c˜ao 3.2 ´e apresentada a arquitetura do servi¸co de auto-arquivamento. Na Se¸c˜ao 3.3 s˜ao apresentados os poss´ıveis usu´arios desse servi¸co. Na Se¸c˜ao 3.4 s˜ao ilustradas as fun¸c˜oes e caracter´ısticas do servi¸co de auto-arquivamento. Na Se¸c˜ao 3.5 ´e descrito o reposit´orio de metadados. Na Se¸c˜ao 3.6 s˜ao apresentas as interfaces do servi¸co de auto-arquivamento. Por fim, ´e realizada uma compara¸c˜ao entre o servi¸co de auto-arquivamento da BDBComp e os sistemas descritos no Cap´ıtulo 2.

3.1

Vis˜

ao Geral da BDBComp

O projeto da BDBComp surgiu no Laborat´orio de Bancos de Dados do DCC/UFMG com o objetivo de disponibilizar na Web informa¸c˜oes bibliogr´aficas referentes a trabalhos (pu-blica¸c˜oes de tipo post-prints) da comunidade brasileira de computa¸c˜ao, suprindo, assim, a carˆencia de um acervo brasileiro na ´area e permitindo que pesquisadores disseminem seus trabalhos para toda a comunidade [25]. A BDBComp foi projetada de acordo com o padr˜ao OAI e adota o formato Dublin Core para seus metadados. A BDBComp est´a dispon´ıvel em http://www.lbd.dcc.ufmg.br/bdbcomp e, atualmente, possui registros de metadados de 3401 trabalhos apresentados em eventos promovidos pela Sociedade Brasileira de Computa¸c˜ao (SBC), dos quais 972 incluem o resumo do trabalho e 1084 o link para o texto completo1.

(37)

A arquitetura da BDBComp, mostrada na Figura 3.1, compreende trˆes camadas principais: as interfaces de usu´arios, os servi¸cos oferecidos pela biblioteca e o reposit´orio de metadados.

Figura 3.1: Arquitetura da BDBComp.

As interfaces servem para agrupar todos os servi¸cos fornecidos, existindo, assim, diferentes interfaces de acordo com a necessidade das diferentes comunidades de usu´arios.

Na atual vers˜ao da BDBComp est˜ao dispon´ıveis os servi¸cos de busca, navega¸c˜ao e listagem de trabalhos mais recentes, com facilidades similares aos servi¸cos dispon´ıveis na DBLP [27], existindo tamb´em um servi¸co de provedor de dados baseado no protocolo OAI-PMH. Al´em dos servi¸cos mencionados, pretende-se tamb´em oferecer futuramente servi¸cos mais avan¸cados, tais como, filtragem, linking autom´atico e recomenda¸c˜oes. O servi¸co de auto-arquivamento encontra-se na camada de servi¸cos e possui o papel fundamental de fornecer metadados para o reposit´orio atrav´es das submiss˜oes de trabalhos realizados por pesquisadores. Os usu´arios que interagem com esse servi¸co s˜ao diferenciados de outros usu´arios dos servi¸cos mencionados. Para manter os servi¸cos mencionados existem tamb´em servi¸cos especiais de administra¸c˜ao.

Finalmente, no n´ıvel mais interno da arquitetura, encontramos o reposit´orio central que armazena os metadados que descrevem os trabalhos dispon´ıveis. Al´em do servi¸co de auto-arquivamento, foram previstas outras duas maneiras de se coletar metadados para o reposit´orio da BDBComp:

1. Extra¸c˜ao de metadados de sites existentes na Web, por exemplo, usando ferramentas tais como as utilizadas pelo ambiente Web-DL [4].

(38)

2. Colheita de metadados de outros reposit´orios (por exemplo, CITIDEL [6]) que supor-tam o protocolo OAI-PMH.

O reposit´orio da atual vers˜ao da BDBComp foi criado a partir de dados extra´ıdos de alguns sites de eventos da SBC por meio de wrappers e do ambiente Web-DL. Esse reposit´orio ´e um banco de dados relacional que, atualmente, compreende somente trabalhos publicados em eventos da SBC, cujo esquema ´e representado pelo diagrama ER da Figura 3.2.

Figura 3.2: Esquema atual do reposit´orio de metadados da BDBComp.

O esquema do reposit´orio inclui um tipo de entidade work que representa os trabalhos armazenados no reposit´orio. Este tipo de entidade possui, al´em da chave prim´aria, um conjunto de atributos multivalorados, ou seja, que podem ter mais de um valor. Esses atributos representam os dados de um trabalho publicado em anais, como seu t´ıtulo, seus autores ou sua data de publica¸c˜ao.

O esquema proposto foi desenvolvido de modo que atendesse ao formato de metadados Dublin Core Simples, onde cada um dos 15 atributos multivalorados do tipo de entidade work representa um dos campos do formato. A raz˜ao para os atributos serem multivalorados ´e o fato de o formato Dublin Core permitir que cada um dos seus campos possua mais de um valor.

Uma outra caracter´ıstica do esquema do reposit´orio ´e o suporte ao protocolo OAI-PMH. No protocolo, existe a no¸c˜ao de conjunto que serve para agrupar logicamente registros rela-cionados no reposit´orio de metadados. Assim, na BDBComp, existe um conjunto para cada

Referências

Documentos relacionados

Curvas de rarefação (Coleman) estimadas para amostragens de espécies de morcegos em três ambientes separadamente (A) e agrupados (B), no Parque Estadual da Ilha do Cardoso,

Senhor Lourival de Jesus por conta de seu falecimento, solicitando uma Moção de Pesar inclusive, solicitou também a restauração das estradas da zona rural, em especial

Este trabalho é resultado de uma pesquisa quantitativa sobre a audiência realizada em 1999 envolvendo professores e alunos do Núcleo de Pesquisa de Comunicação da Universidade

A situação de namoro também é um fator cada vez mais importante a ser considerado, pois assume especial relevância neste grupo de idade, principalmente nas mais jovens (menores de

Ainda, neste trabalho, houve alguns aspectos em que significantemente não ocorreram alterações, como a presença de sub-harmônicos em M1XM2XM3, a presença de

para Geniuskit bifamiliar Variante para ligação da campainha externa e campainha suplementar para Geniuskit monofamiliar e bifamiliar cadores suplementares para Geniuskit

Corporate Control and Policies Page 12 UNIVERSIDAD DE PIURA UNIVERSIDAD DEL PACÍFICO UNIVERSIDAD ESAN UNIVERSIDAD NACIONAL AGRARIA LA MOLINA UNIVERSIDAD NACIONAL

Conforme vem do referencial anterior, tal possibilidade pressupõe a necessidade de uma conceptualização e organização curriculares integradas, quer para facilitar a mobilidade