Instituto de Ciênias Exatas
Programa de Pós-Graduação em Ciênia da Computação
UM AMBIENTE BASEADO EM
ARQUIVOS ABERTOS PARA INTEGRAÇO
DE DADOS ECOLÓGICOS
Dissertação apresentada ao Curso de
Pós-GraduaçãoemCiêniadaComputaçãoda
Uni-versidadeFederalde MinasGeraisomo
requi-sitoparialpara aobtençãodograu deMestre
emCiênia da Computação.
EVANDRINO GOMES BARROS
Belo Horizonte
Por uma déada, o Brasil tem realizado pesquisas eológias de longa duração, envolvendo
dados omaspetos geográos ehistórios, oletadosa partir de umaextensa redede sítios
do Programa PELD (Pesquisas Eológias de Longa Duração). Entretanto, essa rede não
possui sistemas para oletar ou ompartilhar esses dados, bem omo para analisá-los
apro-priadamente. Além disso, na maioria dos sítios, esses dados estão armazenados em fontes
textuais e não estruturadas. Como solução para esse problema, esta dissertação propõe um
ambiente,baseado embiblioteasdigitais, paraintegração de dadosdosvários sítios darede.
Esse ambiente se utiliza de padrões abertos de interoperabilidade, omo o protoolo
OAI-PMH,para oletadedadosdosdiversossítiosesuainlusãono repositóriodeumabibliotea
digital,denominadaBDiG-PELD(BiblioteaDigitalGeorrefereniadadoPELD),queoferee
serviçosde busaenavegação, ombinadosomfailidadesde georrefereniamento. Esse
am-biente inlui ainda uma interfae de entrada de dados desentralizada, por meio da qual os
pesquisadores preenhem seusdadosde oletade ampo emarquivostextuais,quesãoentão
proessados por sistemas loais e transformados em metadados EML (Eologial Metadata
Language) para posterior olheita pela BDiG-PELD. Para demonstrar a efetividade desse
ambiente,foionstruídoumprotótipodaBDiG-PELDusandodadosdeumdossítiosdarede
PELD. Apartir doproesso deargade dados,foientãorealizada umaavaliação
experimen-tal, dopontode vistade usabilidadeequalidadedosdados,dainterfaede entradadedados,
sendo seus resultados analisados. Os resultados obtidos foram bastantes satisfatóriose
on-rmam que o ambiente da BDiG-PELD é uma solução prátia e eonmia para integração
Foradeade, Brazilhasbeen maintaining along-term eologialresearhprogram,involving
heterogeneous datawithimportant historiand geographiaspets,olleted fromanetwork
of eologial sites ofthe PELD (Pesquisa Eológias deLonga Duração)program. However,
this network hasno systemfor olletingor sharing suh data aswell asfor supporting data
analyses. Moreover, inmost ofthese sites, suh dataare stored intextual and unstrutured
soures. Asasolution tothisproblem, thisdissertation proposes adigital-library-based
envi-ronment forintegratingdatafromthisnetwork ofsitesusingopeninteroperabilitystandards,
suhasOAI-PMH,for harvestingdatafromtheseveralnetwork sitesandinserting theminto
the repository of a digital library,named BDiG-PELD, whih oers searhing and browsing
servies, ombined with georeferening failities. This environment also inludes a
deen-tralized datainput interfae, through whih PELD researhers ll their eld sampledata in
text les that areproessedbya loalsystem and transformed into EML (Eologial
Meta-data Language) metadatawhih are thenmadeavailablefor harvesting byBDiG-PELD. To
demonstrate the eetiveness of this environment, we have built a BDiG-PELD prototype
using data from one of the PELD network sites. Based on the datainput proess, we have
also onduted an experimental evaluation, fousedon usabilityand dataqualityaspets,of
the data input interfae and analyzed its results. The results have been quite satisfatory
and onrm that the BDiG-PELD environment is a pratial and eonomial solution for
Numajornadadetantasaulas,tarefas,semináriosehorasdetrabalhoao,pudepereberque
outras lições, muito espeiais, foram a mim proporionadas, de umamaneira mais informal,
mas muito sólida. Por issotenho tanto aagradeer.
Ao meuorientador Prof. Alberto Henrique FradeLaender por sua dediação e por estar
sempre pronto a eduar. Agradeço também ao Prof. Maros André Gonçalves por
olabo-raçõesimpresindíveis.
Aosamigos do Laboratório de Banos de Dados que além de umaonvivênia prazerosa
e espirituosa, muito me ensinaram sobre determinação, respeito à diversidade, amizade e
trabalho emequipe. Em espeialàKarla eRiardo, por tanto apoio.
Também,aospesquisadoresdoInstitutodeCiêniasBiológiasda UFMG,integrantesdo
Programa de Pesquisas Eológias de Longa Duração, por tantas lições de
interdisiplinari-dade, semprepautadas pelaseriedade e olaboração.
Aos professores do Departamento de Ciênia da Computação da UFMG, por tantos
in-entivos e ensinamentos sobre perseverança e disiplina. Por tanto onheimento. Agradeço
também aosfunionários doDCC-UFMG, sempresolíitos e ordiais.
Aindaagradeçoa aquelesquemesmonãovinuladosàvida aadêmia, aindame
propor-ionam muito aprendizado.
Aosmeuspaiseirmãos,porumaformaçãoquemedeuautonomiaemoional einteletual
e portantas lembraçasarinhosas.
Também, aos meus tios Eliseu e Luiana e primos Eliseu e Ana Cláudia, pais e irmãos
mineiros.
Aosmeusamigos eparentes, por tanto estímulo, onançae apreço.
E, muito espeialmente, à minha esposa Fernanda por tantas lições de paiênia e
dedi-ação. Por tanto arinho e onança. Por tanto amor.
Paradoxalmente, ounão,saio deummestrado emCiêniada Computação,maishumano
e dispostoa meeduar, ada vez mais.
1 Introdução 1
1.1 Motivação . . . 1
1.2 Caraterização do Problema . . . 2
1.3 Abordagem Proposta . . . 4
1.4 Contribuições . . . 5
1.5 TrabalhosRelaionados . . . 5
1.6 Organização daDissertação . . . 7
2 Coneitos, Padrões e Arquiteturas para Interoperação de Dados 8 2.1 Biblioteas Digitais . . . 8
2.2 ArquivosAbertos . . . 9
2.3 MetadadosEológios . . . 12
2.4 Georreferenimento emBiblioteas Digitais . . . 13
3 Ambiente BDiG-PELD 16 3.1 Arquiteturado Ambiente . . . 16
3.2 Provedor de Dados . . . 18
3.2.1 Banode Dados Loal . . . 18
3.2.2 Interfae de Entrada de Dados . . . 20
3.3 Provedor de Serviços . . . 22
3.3.1 Protoolo OAI-PMH . . . 22
3.3.2 Infraestrutura ODL . . . 22
3.4 Implementação daBDiG-PELD . . . 25
4 Serviços da BDiG-PELD 27 4.1 Espeiaçãode Requisitos . . . 27
4.1.1 Soieties . . . 27
4.1.2 Strutures . . . 28
4.1.3 Senarios . . . 29
4.1.4 Spaes . . . 30
4.1.5 Streams . . . 30
4.2 Serviçode Busa . . . 30
4.3.2 Interfae de Navegação. . . 33
4.4 Failidadesde Georrefereniamento . . . 37
4.4.1 Lous . . . 37
4.4.2 Interfae de Georrefereniamento . . . 38
5 Avaliação Experimental 44 5.1 DesriçãodoExperimento . . . 44
5.2 Resultados. . . 46
5.2.1 Aspetos deUsabilidade . . . 46
5.2.2 Qualidade dosDados. . . 47
5.3 Disussão . . . 48
6 Conlusões e TrabalhosFuturos 49
2.1 Abordagens deinteroperação . . . 11
2.2 Prinipaiselementos da EML . . . 14
2.3 Treho de doumento om metadadosEML (Eologial Metadata Language) . . . 15
3.1 Arquitetura doambiente BDiG-PELD . . . 17
3.2 Prinipaistabelas do onjunto de tabelas básias . . . 19
3.3 Tabelas básiase tabelasespeías . . . 20
3.4 Interfae do Sistema deInformação parao Sítio 4 . . . 21
3.5 Arquivo sv om dadosdenutrientes deumalagoa . . . 23
3.6 Treho de umdoumento OAI-PMH . . . 23
3.7 Página Web parasubmissãode arquivossv . . . 24
4.1 Pagina Iniialda interfae da BDiG-PELDom formuláriode busa . . . 31
4.2 Segundo formuláriodebusa dainterfae da BDiG-PELD . . . 32
4.3 Página omresultados de umabusa . . . 33
4.4 Dados geraisde umaoleta . . . 34
4.5 Dados dalassiação taxonmiade umaoleta . . . 35
4.6 Dados doprojetodepesquisa . . . 36
4.7 Dados sobreatributos de oleta . . . 37
4.8 Dados originaisdeuma oleta . . . 38
4.9 Dados originaisdeuma oleta reuperados emformato sv . . . 39
4.10 Esquema relaionaldodata mart do serviço denavegação . . . 39
4.11 Página iniial do serviçode navegação . . . 40
4.12 Navegação omvárias subategoriasde taxonomia . . . 40
4.13 Filtro apartir deumainstânia da subategoriaespéie . . . 41
4.14 Navegação omaombinação dasategorias Taxonomia eLoal. . . 41
4.15 Navegação omaombinação dasategorias Taxonomia,Loale Data . . . 42
4.16 Lista de amostras obtidas atravésdo Serviço deNavegação . . . 42
4.17 Arquitetura domódulo Lous . . . 43
1.1 Sítios doPrograma PELD . . . 3
2.1 Verbosdo protooloOAI-PMH . . . 10
2.2 Desriçãodo prinipaiselementos dalinguagem EML. . . 13
3.1 ComponentesODL utilizadosno ambiente da arquitetura . . . 24
3.2 Prinipaisprogramas da interfaede aessoda BDiG-PELD . . . 25
3.3 Quantidade de linhasde ódigo . . . 26
4.1 Exemplos de usodasperspetivas5S . . . 28
5.1 Resultados doexperimento de entrada de dados . . . 46
Introdução
1.1 Motivação
ComousoresentedaWeb,váriasomunidades deusuáriospassaramainteragirepromover
o interâmbio de onheimento de maneira mais demorátia e em maior esala. Algumas
dessasomunidadesapoiam-senaWebparaodesenvolvimentodepesquisasientíasatravés
da publiação de trabalhos ientíos e dos resultados de seus experimentos [29 , 37 ℄. No
entanto,taisomunidadespoderiamtermaiorinteraçãosepossuíssemsistemasdeinformação
que failitassem a publiação e aesso a dados ientíos através de serviços espeializados,
atendendo a suas preferênias e neessidades. Uma dessas omunidades é a que estuda a
biodiversidade brasileira e que neessita de sistemas de informação na Web para integrar
dados devárias fontese aessá-losatravésde serviçosde busae navegação.
No entanto, essa omunidade, primeiro, preisa ter seus sistemas de informação de
bio-diversidade loais devidamente estruturados para que, posteriormente, possam fazer parte
de uma rede integrada de pesquisa. Seguindo o urso da integração dos dados, é neessária
uma infraestruturaomputaional aberta e querespeiteaspartiularidades deada fontede
dados no toante à diversidade dos dados e formas de armazenamento loais. Finalmente,
já integrados, osdadosdevem seraessados publiamente atravésde serviçosque failitemo
aessoa eles.
Quanto à natureza, sistemas de informação em biodiversidade envolvem vários tipos de
dados heterogêneos que inluem araterístias eológias e geográas. Entretanto, os
sis-temas desse tipo atualmente disponíveis ofereem um suporte limitado para gereniamento
integrado dessesdados [20 ℄, não gereniando, por exemplo,dados de loalização juntamente
om informações de biodiversidade. Issomuitas vezeslevaos usuáriosà utilização alternada
de sistemas de informação geográos e sistemas de informação embiodiversidade, para, de
alguma forma,ombinarasinformaçõesextraídasdeles. Sistemasdeinformaçãoem
biodiver-sidade om serviços que permitem a busa e interpretação, tanto textual quanto geográa,
podemtornarmais fáilasatividades dospesquisadores da área.
DentrodesseontextosurgiuoPrograma PELD-PesquisasEológiasdeLongaDuração 1
,
1
solidação do onheimento existentesobre a omposição e o funionamento doseossistemas
brasileiros, gerandoinformaçãoe ferramentasparaavaliar suadiversidadebiológia por meio
de pesquisasdelonga duração. OPrograma possuiumaagendaomumujos temasentrais
são [44 ℄:
1. Conservaçãoda biodiversidade;
2. Padrõese ontrole deprodutividade primária e seundária;
3. Dinâmia de populaçõese organizaçãode omunidades eeossistemas;
4. Dinâmia (uxos) denutrientes;
5. Efeitosde perturbaçõesnaturaise impatos deatividades antrópias.
AtualmenteoProgramaPELDéompostodeumarededepesquisaom12sítiosbrasileiros,
listadosnaTabela1.1 ,ujapremissaéaintegraçãodosdadosdebiodiversidadeesua
dissemi-naçãoparaaomunidade ientía. UmsítiodepesquisadoPrograma PELD representa um
importante eossistemabrasileiro, ondesãofeitoslevantamentos espeíosdesua
biodiversi-dade atravésdeoletasde ampoeexperimentos, sobasdimensõestemporal egeofísia. Um
exemplodeoleta éadiversidadeedensidade deespéiesde zooplânton emumlago. Como
Programa PELD é esperado o resimento da pesquisa eológiavoltada paraa onservação
da biodiversidade e que ajude a formular polítias públias de planejamento ambiental e de
desenvolvimento sustentável.
No plano internaional, o Programa PELD está inserido no programa ILTER 2
(Inter-national Long Term Eologial Researh), uma rede internaional que onta om 21 países
partiipando ativamente e troando experiênias, da qual o Brasil é membro ativo desde
1998, tendo, inlusive,partiipação efetiva no omitêorganizador [44 ℄.
1.2 Caraterização do Problema
ParaatenderaspremissasdoProgramaPELD,deveserofereidoaosseususuáriosumsistema
de informação que integre todos osdadosdo programa. No entanto, isso trazvários desaos
e questões omplexas que se devem não só à diversidade dos dados manipulados e de seu
onteúdo, mas também ao grande volume de dados existentes. Um fator mais agravante é
a falta de fontes de dados estruturadas, ou seja, aquelas que não possuem banos de dados
estruturadose,onseqüentemente,sistemasdeinformaçãoparaaessoaosdados. Essasfontes
podemserarquivostextuais,planilhas eletrniassem esquemaspadronizados e,atémesmo,
anotações manusritas. Por exemplo, o sítio do Parque Estadual do Rio Doe em Minas
Gerais possui 10 anos de oleta sobre os parâmetros físios e químios de lagos da Baia
do Rio Doe, ujos registros sãomantidos emplanilhas de dados partiulares ou mesmo em
2
1 Floresta Tropial Úmida
- Manaus
fragmentos orestais,
pastagens e orestas
seundárias
INPA (Instituto
Na-ional de Pesquisas da
Amaznia)
2 Pantanal Sul errado epantanais EMBRAPA (Empresa
Brasileira de Pesquisas
Agropeuárias)
3 Cerrado Centro-Oeste errado UnB (Univ. Naional de
Brasília)
4 Mata Atlântia e
Sis-tema Laustre do Médio
RioDoe
Mata Atlântia, lagos,
rios eplantações de
Eu-alyptus spp
UFMG (Univ. Federal
de MinasGerais)
5 Restingas e Lagoas
Costeiras do Norte
Fluminense
MataAtlântiaCosteira,
restingas emanguezais
UFRJ (Univ. Fed. do
Riode Janeiro)
6 PlaníiedeInundaçãodo
Alto RioParaná
Rio Paraná, tributários,
lagos/planíies de
inun-dação
Univ. Estadual de
Marigá
7 Sistema Hidrológio
Ba-nhado Taim
banhados/dunas,
pra-ias arenosas, lagos e
gramíneas
UFRGS (Univ. Fed. do
RioGrande do Sul)
8 Estuário Lagoa dos
Patos e Costa
Adja-entes
estuárioeáguasosteiras Fundação UFRG (Univ.
Fed. do RioGrande)
9 Floresta Ombróla
Mista e Transições
MatadeArauáriae
Flo-restasPlantadas Mistas
PUC-PR (Pontifíia
Univ. Católia) do
Paraná
10 Biodiversidade de
Fragmentação de
Eo-sistemas nos Cerrados
Marginais doNordeste
Chapadinha(MA)
-Nordeste do Maranhão
e Parque Naional das
SetesCidades-PI
UFPI(Univ. Fed. do
Pi-auí)
11 Caatinga Baia do Rio Taperoá e
BaiasdoSeridóa Oeste
UFPB (Univ. Fed. da
Paraíba)
12 Pantanal Norte Parte Nortedo Pantanal
doMato Grosso
UFMT (Univ. Fed. do
Mato Grasso)
Tabela 1.1: Sítios doPrograma PELD
anotaçõesmanuais. Além dessesdados,ainda sãomantidos,damesmamaneira, dadossobre
asáreas de diversidades genétia, vegetal e faunístia doParque.
Um sistema de informação em biodiversidade deve manipular dados heterogêneos e ser
apaz degereniar grandesbanos dedadosreferentes àsespéies(quandoe onde elasforam
observadas, por quem e omo), inluindo também os dados geográos que araterizam o
eossistemaonde adaespéiefoiobservada easuadistribuiçãoespaial [20 ℄. Comaposição
geofísia dasoletasépossívelestabeleerorrelaçõesespaiaisrelevantesnoestudoda
biodi-versidade. Exemplos dessas orrelações são questõesomo Em queloais uma determinada
pesquisadores preisam utilizar os dados de biodiversidade, na forma hoje existente, e um
sistema de informação geográo separadamente, o que torna as análises demoradas e, às
vezes,inompletas. Correlaionar dados eológios,mantidos emsistemas de informação em
biodiversidade e sistemas de informação geográos a partir de um únio ambiente envolve
questõesrelaionadasà interoperação.
1.3 Abordagem Proposta
Esta dissertação propõe um ambiente, baseado em biblioteas digitais, para integração de
dados dosvários sítios do Programa PELD.Esse ambiente seutiliza do protoolo OAI-PMH
paraoleta dedadosdosdiversossítios PELD esuaposterior inlusãono repositóriode uma
bibliotea digital,denominadaBDiG-PELD (Bibliotea Digital Georrefereniadado PELD).
Esse ambiente se utiliza ainda de uma interfae de entrada de dados desentralizada,
a partir da qual os dados de oleta de ampo são submetidos ao bano de dados loal do
respetivo sítio e publiados na forma de dados EML 3
(Eologial Metadata Language),
lin-guagem própria paradesreverdadoseológios. Essesdadossãoentãoolhidose integrados
ao repositório entral da BDiG-PELD. A interfae de entrada de dados ombina arquivos
textuais, banos de dados e repositórios XML no padrão OAI 4
(Open Arhives Initiative),
omo abordagem para permitir que os sítios PELD possam partiipar de um ambiente de
interoperação.
A BDiG-PELD oferee a partir do seu repositório entral, serviços de busa textual e
navegação ombinados om failidades de georrefereniamento por meio de uma interfae
únia. PartedessesserviçosfoiimplementadaomousodainfraestruturaODL(OpenDigital
Libraries) [47 , 48℄, ujos omponentes, baseados no padrão OAI, ofereem failidades para
interoperação,busaenavegação, edo Lous[21 ,22℄, umloalizadorgeográo desenvolvido
no Laboratóriode Banos de Dadosda UFMG.
Para demonstrar a efetividadedo ambiente proposto, uma versão-piloto da BDiG-PELD
foi riada om base nos dados do sítio do Programa PELD sediado no Parque Estadual do
Rio Doe,a partir da qualfoi realizada umaavaliação experimental riteriosa, omusuários
reais, sobosaspetosde usabilidade dainterfae de entrada dedadose qualidadedosdados,
sendo osseusresultados analisados e disutidos.
Além disso,espeiamos osrequisititos daversão-piloto daBDiG-PELD de aordo om
a abordagem 5S (Streams, Strutures, Spaes, Senarios and Soieties) [27℄ que dene um
modelo para desrição e onstrução de biblioteas digitais. A partir dessa espeiação, foi
possívelobterummelhorentendimentodosrequisitosdaomunidadeusuáriadaBDiG-PELD.
3
knb.eoinformatis.org
4
São duasasprinipaisontribuiçõesdestadissertação. Aprimeira éapropostaefetivadeum
ambiente para interoperação entrado emuma bibliotea digital que permite integrar dados
eológios deváriasfontesequeagregaserviçosqueombinambusatextualenavegaçãoom
failidadesde georrefereniamento [17, 18 ℄. A arquiteturadesse ambienteontempla
tenolo-gias ombinadas paraatender vários requisitos, taisomo, entrada dedados desentralizada,
interoperação de dados, publiação através de um repositório entral e serviços
espeializa-dos paraseus usuários. Para ajudar no entendimento dessesrequisitos e na espeiaçãoda
bibliotea digital aindautilizamos amodelagem5S.Asegunda éaavaliação,sobosaspetos
da usabilidade e qualidade dosdados, da abordagem utilizada para viabilizar a partiipação
de fontes de dados pouo estruturadas ou informatizadas nesse ambiente [17℄. Realizada a
partirdosítiodoParqueEstadual doRioDoe,ujadiversidadedeamostraséamplaeinlui
um número onsiderável de pesquisadores, a avaliação permitiu disutir todo o proesso de
onstrução de provedores de dados pouo estruturados e avaliar a sua viabilidade quando
apliado aoutros sítios depesquisa doPrograma a seremintegrados.
Esta dissertação é resultado do envolvimento de várias disiplinas que fundamentam as
pesquisas em biblioteas digitais, tais omo, banos de dados, reuperação de informação,
engenhariadesoftwareeinterfaeshomem-máquina,oqueotornaumestudodeasorelevante
nessa área.
1.5 Trabalhos Relaionados
Muitos trabalhos tratam da integração de dados originados de banos de dados distintos,
sejam eleseológios ounão,paraproversistemasdeinformação omumadiferentegamade
serviços. Partedessestrabalhosutilizaabordagensbaseadasembanosdedadosentralizados,
om um esquema únio [33, 34 ℄ e om alguns serviços agregados. Outros tratam a questão
omo uma rede de integração de provedores de dados, om dados desritos através de uma
linguagemdemetadadospadrãoomgrandepoderdedesrição[20 ,43℄,eofereemserviçosde
maiorvaloragregado. Aseguir,apresentamosumabrevedesriçãodealgunsdessestrabalhos,
fazendo umaomparaçãodosmesmos oma abordagem proposta nestadissertação.
OMetat (MetadataCatalog) [34 ℄,desenvolvidopelaUniversidadeda Califórnia, através
do NCEAS(National Centerof Eologial Analisysand Synthesis),éumservlet Javaque
re-ebe edireionaosdadoseológiossubmetidosparasubsistemasespeíos. Eleintegra180
estações da organização ameriana OBFS (Organization of Biologial Field Stations) e mais
de 25sítios depesquisa daredenorte-ameriana ILTER(InternationalLongTermEologial
Researh). Nessasolução, ada pesquisadoredita seus dadoseológios através deuma
apli-açãolienteprópria(Morpho)epodeonsultá-lospelaWeb. Seusprinipaissubsistemassão
armazenamento, repliação, onsultae validação. Toda omuniação é feita sob HTTP om
onteúdoEML.Noentanto,aoontráriodoambiente propostonestetrabalho,oMetaatnão
metadados.
Osistemadeinformação SINBIOTA 5
(Sistemade Informação Ambiental doBiota)
man-tém uma basetaxonmia e georrefereniada da baiahidrográa do RioMogi-Guaçu, São
Paulo. Os serviços ofereidos baseiam-se em análises espaiaisa partir de mapas sobre
on-servação,usodosolo ehidrograa[33℄. OSINBIOTA reebediretamenteosdadosdeampo
através de formulários Web e, portanto, não ongura uma arquitetura de interoperação.
Seu esquemade bano de dados éproprietário e implementado por meio de umSGBD
rela-ional. Assimomo na BDiG-PELD, não há serviçosde personalização ouolaboração para
osusuários. OSINBIOTApossuiserviçosdegeorrefereniamentobemintegradosembora
uti-lize umainfraestrutura proprietária, diferentemente da nossa quepossuiumarabouço mais
genério podendo serapliadaa outras áreasdo onheimento.
A ETANA-DL 6
(Eletroni Tools and Anient Near Eastern Arhives - Digital Library)
é uma bibliotea digital que mantém dados sobre objetos arqueológios de um onsório
mundial de sítios de arqueologia. A interoperação entre provedores de dados e a ET
ANA-DLé realizada atravésdoprotooloOAI-PMHe da infraestruturaODL.Nossa abordagem é
semelhanteà daETANA-DLnoque serefere ainfraestrutura, entretanto a ETANA-DLnão
possui failidades para georrefereniamento e sua linguagem de metadados é mais simples,
emboraenvolva serviçosde olaboração.
A Alexandria Digital Library-ADL 7
é uma bibliotea digital om oleções de objetos
georrefereniados. AADLutiliza um gazetteer quepermiteo georrefereniamento deloais.
A ADL oferee ainda aesso públio a um aervo de mais de 15.000 itens inluindo mapas,
imagens e dados espaiais. Mapasdigitais sãoaessados na ADLom interfaes de onsulta
por oordenadas ou nomes. Sua arquitetura segue o modelo de três amadas: servidores
gereniamasoleçõesdedadosespaiais,um middleware implementa osserviçosdeaessoàs
oleçõesviaprotooloHTTPelientessãoutilizadospelosusuáriosparaonsultaenavegação
pelasoleções. Comlosoasemelhante,aBDiG-PELDimplementaumloalizadorgeográo
deseusobjetoseológios atravésdoLous[21 ℄,quepermiteloalizarespéiesesítiosPELD,
mas que também possibilita a ombinação de serviços de busa textual e navegação om
failidades degeorrefereniamento.
Otrabalhoquemaisseaproximadanossaabordageméoapresentadoem[20 ℄,quepropõe
uma arquiteturagenéria, tambémbaseada emomponentes ODL,paragereniamento
inte-gradodedadosheterogêneossobreseresvivoseseuseossistemas,ombinandobusastextuais
e onsultas por onteúdo gráa. Nessa arquitetura é proposto um novo omponente ODL
para onsultas por onteúdo de imagem. Nossa abordagem se difere desse trabalho por
pos-sibilitar onsultas textuais e navegações ujas respostas podem ser georrefereniadas, omo
disutido na Seção4.4.
Emrelaçãoaostrabalhosdesritosaima,aabordagemapresentadanestetrabalhooferee
1. Disponibiliza umainterfae de entrada de arquivostextuais omdados de ampo. Tal
interfae reebeosarquivospelaWebetransformaseusdadosemmetadadoseológios
para quesejam oletados pela bibliotea entral. Ainterfae proposta não interfereno
gereniamento dedadosde sítiosquejápossuamsistemasdeinformação próprios,bem
omopermiteapartiipaçãodesítioseológiosqueaindanãopossuamnenhumsistema
de informação loal.
2. Utilizapadrõesabertosparainteroperaçãoentreossítiosdaredeeorepositórioentral,
uja implementação envolve omponentes abertos de software, ou seja, sem qualquer
usto de lieniamento.
3. Oferee, além dos reursos básios de busa, a possibilidade de explorar os dados
ar-mazenados através de serviços de navegação e reuperá-los em sua versão original de
entrada, bem omo de visualizá-los em mapas através de failidades de
georreferenia-mento.
4. Envolve uma avaliação riteriosa de usabilidade do módulo de entrada de dados e de
qualidade dosdadosarmazenados, queontou oma partiipação dosusuáriosnais.
1.6 Organização da Dissertação
Orestante destadissertaçãoestá organizado daseguinteforma. OCapítulo 2apresenta uma
visão geral dosprinipaisoneitos, padrõese arquiteturas para interoperação de dados. No
Capítulo 3 é desrita, detalhadamente, a arquitetura proposta, assim omo seus prinipais
módulos. OCapítulo 4desrevea avaliaçãoexperimentalrealizada edisuteseusresultados.
Finalmente,oCapítulo5apresentaasprinipaisonlusõesdotrabalhoeasperspetivaspara
Coneitos, Padrões e Arquiteturas
para Interoperação de Dados
Neste apítuloapresentamos os prinipaisoneitos, padrõese arquiteturas para
interopera-ção de dados, foo deste trabalho. Oapítulo estádividido emseçõesdaseguinteforma. Na
Seção2.1apresentamosooneitodebiblioteasdigitais. ASeção2.2desrevearquivos
aber-tos, alternativa utilizada parainteroperaçãode dados. Na Seção2.3detalhamos alinguagem
demetadadoseológiosEML,utilizadanoproessodeinteroperação. Finalmente,aSeção2.4
araterizaosserviçosdegeorrefereniamentousualmenteenontradosembiblioteasdigitais.
2.1 Biblioteas Digitais
Suleman[47 ℄deneasbiblioteasdigitaisomosistemasdeinformaçãodediadosaresolveras
neessidadesdebusaeinteroperação deseususuários. Conforme[15℄,umabiblioteadigital
é uma ombinação envolvendo uma oleção de objetos digitais, um onjunto de usuários e
sistemas que ofereem uma variedade de serviços, tais omo indexação, atalogação, busa,
navegação, reuperação, reomendação epreservação dedados.
Pelaabrangêniadessasdeniçõesonstatamosqueasbiblioteasdigitais sãosistemasde
informaçãoomplexoseomaráterinterdisiplinar. Talomplexidadeeinterdisiplinaridade
podemserveriadaslaramentena abordagem proposta neste trabalho,pois nelatratamos
de vários assuntos, tais omo, proesso de interoperação, repositório de doumentos XML,
espeiaçãoderequisitos,serviçosdebusaenavegação,eserviçosespeializados,omo,por
exemplo, ode georrefereniamento.
Por essasaraterístias, biblioteas digitais neessitam de um modelo formal ou teório
para espeiar melhoras omplexas interações entre seus vários assuntos e os requisitos de
seususuários. Noentanto,segundo[27℄,pouasiniiativassãoenontradasnesseampo. Uma
delas é abordagem 5S[26, 27℄, ummodelo formalpara desrição e onstruçãode biblioteas
digitais, desrita mais detalhadamente na Subseção 4.1 , onde apresentamos o modelo da
muitosavançosquantoàsiniiativasparamelhoraroompartilhamentodedadosentre
biblio-teasdigitais[47℄. UmadessasiniiativaséariaçãoeusodearquivosabertosoupadrãoOAI
(OpenArhives Initiative),ujos detalhessãoapresentados naSubseção 2.2. Outrosavanços
também são enontrados em pesquisas que busam formular arquiteturas reutilizáveis para
onstruçãodebiblioteasdigitais,mesmoparaomunidadesomneessidadesbemespeías.
Um dessesasos éa infraestruturaODL [48 ℄,apresentada, também, naSubseção 2.2.
Finalmente, outro aspetomuito pouo explorado é relaionado à apaidade de
georre-fereniamento em biblioteas digitais, o qual é onsiderado ainda exlusivo dos sistemas de
informação geográos [20, 31 ℄. Entretanto, algumasomunidades de usuários seriam muito
beneiadas om essa araterístia, omo, por exemplo, a de biodiversidade. Esse tema
também éobjetodeste trabalho e por issoserá melhordisutido naSeção 4.4.
Umexemplo de bibliotea digital é aBDBComp, que foidesenvolvida no Laboratório de
Bano de Dados da UFMG om o propósito de arquivar, preservar, indexar e disseminar a
produção ientía da omunidade brasileira de Ciênia da Computação [35 ℄. A BDBComp
possui um repositório de metadados no formato Dublin Core 1
e oferee serviços de busa
e navegação, além do serviço de interoperação baseado no padrão OAI.Todos esses serviços
estãodisponíveispormeiodeinterfaesespeías. EmbreveaBDBCompofereerá,também,
serviços dereomendação e auto-arquivamento.
Outra bibliotea digital, também onebida sob o padrão OAI, é a NDLTD (Netwoked
Digital Library of Theses and Dissertations) [25 ℄, uma iniiativa para reunir teses e
disser-taçõesemnívelmundial. Seuatálogoentralolhe dadosentreasinstituiçõespartiipantes,
omo, por exemplo, universidades, que publiamseus dadosno formato ETDMS (Eletroni
Thesis and Dissertation Metadata Set), umaextensão doDublin Core paradesrevertesese
dissertações,e oferee serviçostais omobusa, navegação, personalização e reomendação.
2.2 Arquivos Abertos
Emgeral,interoperaçãoentresistemasrefere-seàhabilidadedeumsistematrabalhar
oopera-tivamenteomoutrossistemasomopropósitodeofereermelhoresserviçosaosusuários[47 ℄.
Uma das abordagens para se alançar a interoperação no ontexto de biblioteas digitais é
propostapelainiiativaOAI,umaorganizaçãoformadaporpesquisadores,biblioteários,
edi-tores e arquivistas, ujo objetivo prinipal é riar padrões para possibilitar a interoperação
entre sistemas. O padrão estabeleido por essa iniiativa é o protoolo OAI-PMH, o qual
espeía omo dois repositórios de dados podem interambiar uma seqüênia de registros
estruturados[47 ℄. Repositóriosdedadosqueatendemaesseprotoolosãohamadosarquivos
abertos, sendoo termo arquivos originadoda omunidade de EPrints [6℄, naqual é aeito
omo sinnimo para repositórios de artigos ientíos. Contudo, om a iniiativa OAI esse
termo é ampliadopara repositórios de dados. Já o termo abertos não signia aessolivre
1
em repositóriosbaseados no protoolo OAI-PMH.
AiniiativaOAI surgiuemoutubro1999 [46℄ elogoreebeua atençãodaomunidadede
biblioteas digitais, bem omo adesões. Uma das primeiras foi a bibliotea digital de apoio
ao ensino emCiênia da Computaçãodenominada Computer Siene TeahingCenter [2℄.
Outras iniiativas para interoperação, simultaneamente à iniiativa OAI, surgiram, por
exemplo,naomunidadedeB2B(Business-to-Business)quetentouestenderafunionalidade
datenologia EDI(EletroniDataInterhange)omusodalinguagem XML[7℄. Oprotoolo
SOAP (Simple Objet Aess Protool) [36 ℄, elaborado mais reentemente pela aademia e
indústria, também é umadessas iniiativas e tenta viabilizar a interoperação entre sistemas
ao propor meanismos para troa de dados sob a linguagem XML [19 ℄, em ambientes
om-putaionais distribuídos om a utilização de hamadas RPC (Remote Proedure Call). Web
Servies araterizamumaalternativaamaisparainteroperação,sendoumadesuasreentes
iniiativasalinguagemWSDL (Web Servies DesriptionLanguage) [10 ℄ quepermite
desre-veraloalizaçãode serviços Web,seus parâmetros,operaçõese resultados esperados.
Iniiativasomo SOAP e WSDL, entre outras, prouram tornar o proesso de
interope-ração naWeb maisautomatizado emboratrabalhem emumnívelmaissintátioao ontrário
do protoolo OAI-PMH que se onentra mais na semântia de interoperação, pois
estabe-lee uma série de omandos ou verbos (Tabela 2.1) que auxiliam nesse proesso, e também
atua omo uma amada de auto-nível para onstrução de biblioteas digitais [48℄, onforme
demonstrado na Subseção 3.3.1.
Verbo Resposta
Identify Desriçãodoprovedor dedados.
ListMetadataFormat Padrõesde metadados disponíveis emumprovedorde dados.
ListSets Conjuntos dedados (hierárquios)disponíveis norepositório.
ListIdentiers Identiadores dosregistros deumrepositório.
ListReords Registrosdeumrepositório.
GetReord Umregistroindividualdedadosde umrepositórioemumformato
espeío.
Tabela2.1: VerbosdoprotooloOAI-PMH
Umaimportante deisãodainiiativaOAIfoiaformadeestabeleeroproessode
intero-peraçãoentresrepositóriodedados. Entreduasabordagenspossíveis,federaçãoeolheita,foi
esolhida a deolheita (harvesting) poistorna asbarreiras para ainteroperaçãomenores, na
maioria dosasos,segundo[47 ℄. Paraeslareermelhor,naabordagem defederaçãoosdados
requisitadosporumusuárioemumabibliotealoalsãoaombinaçãodebusasemmúltiplos
repositóriosremotos. Essaabordagem éonsideradamaisdispendiosapoisaarretanaqueda
dedesempenho darede,asoovolumereuperadosejagrande, eexigebusasemtemporeal,
bemomoadisponibilidade integraldosnósremotos. Já aabordagem deolheitarequerque
adarepositóriodedadostransraperiodiamenteumaseleçãodemetadadosparaabibliotea
indexar e ofereer meanismos de busa robustos é maior na bibliotea entral, ujo papel
na iniiativa OAI é denido omo o de provedor de serviços. Outro papel importante, na
iniiativa OAI, é o de provedor de dados, desempenhado por ada repositório remoto de
dados. A Figura2.1faz umaomparaçãoentre asduasabordagens.
Abordagem de Federação
Usuário
Biblioteca
Digital Local
Biblioteca Digital
Remota 1
Biblioteca Digital
Remota 2
B
u
sc
a
B
u
sc
a
R
e
su
lt
a
d
o
1
R
e
su
lta
d
o
2
Busca
Resultados 1 e 2
Abordagem de Colheita
Usuário
Biblioteca
Digital Central
Biblioteca Digital
Remota 1
Biblioteca Digital
Remota 2
M
e
ta
d
a
d
o
s
1
M
et
ad
a
d
os
2
Busca
Resultados
Cópia Local de
Metadados 1 e 2
Resultados
Busca/Inserção
Figura2.1: Abordagensde interoperação
Apartirdessaexposiçãopodemosentenderaseguintearmação deSuleman [47 ℄:
Biblio-teas digitais podemser modeladas omo redes de arquivos abertos, nasquais ada arquivo
aberto éumprovedor dedadosou umprovedorde serviços.
Enquanto as iniiativas para melhora a interoperação alançam seus objetivos, outras
iniiativas tentam estabeleer padrões para onstrução de arquiteturas para as biblioteas
digitais,geralmentebaseadosemomponentesdesoftwarequepermitematenderneessidades
espeíasdosusuários, masquepossamserapliados adiferentesdomíniosou assuntossem
deixar deinorporar osavançosobtidos pelas iniiativasparatroa de dadosentresistemas.
Entre essas iniiativas, destaamos oprojetoFedora(Flexible and Extensible Digital
Ob-jet and Repository Arhiteture) [40℄, um arabouço baseado em ódigo aberto para
geren-iamento, armazenamento e disseminação de objetos omplexos, ujos relaionamentos são
denidos através da linguagem RDF (Resoure Desription Framework) [8℄. Esse arabouço
possui uma arquitetura baseada em Web Servies que provê funções paragereniamento de
objetos omplexosatravésde interfaesSOAP.
Outra iniiativa é a infra-estrutura ODL (Open Digital Library), proposta por
Sule-man[47 ℄,queonsistedeumonjuntodeomponentesparaonstruçãodebiblioteasdigitais,
ujosserviçosutilizam,tantointernaouexternamente,asimpliidadedasemântiado
proto-olo OAI-PMHsobHTTP,omomeio de omuniação. Seus omponentessãoreutilizáveis e
ofereemserviçosde interoperação,busa, navegação eolaboração. Talinfra-estrutura pode
ser ampliada, também, oma inlusãode novosserviços, já queutiliza padrõesabertos.
e interoperação. Retornaremos àinfra-estrutura ODLna Subseção3.3.1 ,onde trataremosde
suaimplementação.
2.3 Metadados Eológios
Uma questão importante no proesso de interoperação OAI é estabeleer se o onteúdo da
transferênia pode onter somente metadados ou se deve inluir também os dados
propria-mente ditos. Outro fator, também importante, é a denição do padrão de metadados a
ser utilizado. A iniiativa OAI estabelee que devem ser tratados, iniialmente, somente os
metadados, masqueentreeles existaalgumqueindiqueponteiros paraoobjetoomdados
originais. Seu padrão de metadados é o Dublin Core, ujos 15 ampos permitem desrever
objetos digitais disponíveis naInternet,omo, por exemplo,teses, dissertações, et.
Apesar da iniiativa OAI adotar o padrão Dublin Core, nosso ambiente requer o uso de
umpadrãomaisadequadopararepresentarosomplexosobjetoseológiosgerados pelo
Pro-grama PELD.Enontramos naliteratura, iniialmente, três padrõesdemetadados utilizados
em importantesredes depesquisa embiodiversidade, osquaissãoapresentadosa seguir.
OpadrãoDwC2(DarwinCore2),ompostodemetadadosom41ampos,foiiniialmente
adotado pelo projeto GBIF 2
(Global Biodiversity Information Faility), do qual partiipam
50 paísese organismos internaionais, om o objetivo de estabeleeruma infraestrutura
dis-tribuídade informaçõesprimáriasembiodiversidade,ujo fooprinipal sãoespéiese dados
sobresuasobservaçõessomente,masominterligaçõesomasáreasdegenétiaeeologia[3℄.
Por suavez,opadrãoABCD(Aess toBiologial Colletion Data)foiadotadopelarede
BioCASE (Biodiversity Colletion Aess Servie for Europe) [1℄, formada por sistemas de
informação biológiosdo ontinenteEuropeueIsrael. Desenvolvidos pelogrupoTDWG
(Ta-xonomial Databases Working Group) [9℄, responsável por propor estruturas de dados e de
interoperação, ambos os padrões ABCD e DwC2 são omplementares e possuem algumas
diferenças básias. O padrão DwC2 possui 44 elementos sem a possibilidade de denir
es-truturas hierárquias ou repetitivas, ao ontrário do padrão ABCD om seus 700 elementos
aproximadamente. Asemelhançaentreeleséquanto aofoodadesrição,poisambostratam
de oleções de espéies e dados sobre suas observações. A partir de 2002, o grupo GBIF
adotou o padrão ABCD o que possibilitou sua integração om a rede BioCASE, também
failitada pelo uso omumda arquitetura aberta de interoperação denominada DiGIR
(Dis-tributed GeneriInformationRetrieval) [4 ,24℄,baseademumambienteliente/servidor om
SOAP parareuperaçãode informações distribuídas,sobo protooloHTTP.
JáopadrãoEML(Eologial MetadataLanguage)foionjuntamenteriadopor
pesquisa-doresdaáreadeeologia,peloNCEAS(NationalCenterforEologialAnalisisandSynthesis)
e pela rede internaional ILTER (International Long Term Eologial Researh), da qual a
rede brasileira faz parte. O padrão ou linguagem EML promove a atalogação história de
dados de natureza eológia om ênfase emseus aspetos esseniaisque são: geograa, data
2
os iníios dos anos 80 quando a rede internaional ILTER foi riada om 8 universidades
norte-amerianaseomonaniamento dafundaçãonorte-amerianaNSF(NationalSiene
Fundation). Os primeiros interâmbios de dados já foram inorporados à rede por meio de
arquivostextuais. Em 1994,ogovernoamerianopropsapubliaçãodosdadosdeforma
on-line, mas somente em 1996 surgiu o padrão ILTERMetadata, oprimeiro rasunho da EML,
que jáinorporavapadrõesde outras áreasparaatender umaredeada vez maisabrangente
e diversa[42 ℄.
Para ilustrar a abrangênia da linguagem EML, apresentamos um pouo da sua
estru-tura. Umdoumento EMLpossuioelemento raiz(<eml>). Diretamenteabaixo delepodevir
elementos, desritos na Tabela 2.2 , que representam as prinipais seções de um doumento
EML. Os elementos são: <dataset>, <itation>, <software> ou <protool>, e
opional-mente<additionalMetadata>. A Figura2.2apresenta esseselementos atravésde umtreho
deseuesquemaemXSD(XMLShemaDenition)[12℄,representadograamenteomouso
da ferramenta XMLSpy[11 ℄.
Elemento Desrição
<dataset> Desreve um onjunto de dados que pode inluir uma ou mais
tabelasbemomoimagensespaiaisemmodorasterouvetorial.
Tambémpermiteinluirosdadospropriamenteditosdasoletas.
<itation> Apresenta asreferêniasbibliográas utilizadasno proesso de
oleta.
<software> Desreveosoftwareouutilitárioquepodeaessarou manipular
dadosde oleta dodoumento.
<protool> Desreve protoolo ientío ou métodos e proedimentos
uti-lizadosparaoleta ou atalogaçãodosdados dodoumento.
<additionalMetadata> Permite espeiar, inluir e preenher metadados de outros
padrões,omo, por exemplo,metadadosCSDGM-FGDC.
Tabela 2.2: Desrição doprinipaiselementos da linguagemEML
Como exemplo de um doumento EML, apresentamos a Figura 2.3, na qual podemos
destaar ainlusãodosdadosde oletasde ampo(maração <inline>entrelinhas23e 27)
assimomodoseuesquema(maração<attributeList>entreaslinhas18a22),loalização
geofísiadeumaoleta(maração<geographiCoverage>entreaslinhas9e17)etaxonomias
das espéiesenvolvidas (maração <taxomiCoverage>) entre as linhas28 e 31). A EML é
bastante extensa, de modo que somente as marações mais representativas foram utilizadas
para desreverosdadosdo Programa PELD.
2.4 Georreferenimento em Biblioteas Digitais
Hill [31 ℄ dene georrefereniamento omo a apaidade de relaionar informações, omo, por
exemplo, doumentos, onjuntos dedados, informações biológiase espéiesde seresvivos,a
inorporaçãodessaaraterístiaàsbiblioteasdigitaisrepresenta umanovalassedeserviços
frente aostradiionais,geralmente debusa enavegação textuais.
É uma possibilidade poderosa para os usuários georrefereniar objetos que possam ser
loalizadospor umnomede lugar (plaename) sem quesejainformado qualquer oordenada
geográa. Outra possibilidade, tambéminteressante, é o fatodesepoderemrealizar busas
por meio de relações espaiais indiretas, omo, por exemplo, oletas loalizadas perto do
Parque Estadual doRioDoe. No entanto, parasehegarabiblioteas digitais
georreferen-iadas, setequestõesdevemser tratadas,segundo[32 ℄. A primeira delasemaisomplexa éa
desobertadereursospassíveisdegeorrefereniamento. Relaionados aelaestãoasquestões
de integração dos dados desobertos em gazetteers [30 ℄, diionários que traduzem nomes de
loais em oordenadas geográas, e esalonamento de resultados de busas (ranking). As
outras questões são: estrutura de dados robusta, esalabilidade, interfaes e interoperação
entrereursos geoespaiais.
Tratamentos padronizados para essas questões ainda estão em aberto, mas não
impedi-ram osurgimento de iniiativasjá bemonsolidadas, omo, porexemplo, abibliotea digital
ADL (Alexandria Digital Library) [28 ℄. Outra iniiativa, que utilizamos para viabilizar as
failidades degeorrefereniamento propostas nestetrabalho, é oloalizador geográo Lous
desenvolvidopeloLaboratóriodeBanosdeDadosdaUFMG[21,22 ℄. Emsuautilização
algu-masdessasquestõestambémforamtrabalhadas,ujosdetalhessãoapresentadosnaSeção4.4.
Outrafunionalidadepouoexploradaembiblioteasdigitaisgeorrefereniadas éa
2 <dataset>
3 <title>Composição da omunidade zooplantnia de rios e lagos do treho médio
4 da baia do Rio Doe-MG - Lagoa Águas Claras - 1/8/04 14h:30m - Coleta Mensal
5 </title>
6 <reator><individualName ><gi venN ame >Fra nis o< /giv enN ame>
7 <surName>Barbosa</surName> </i ndiv idua lNa me>
8 </reator> ...
9 <geographiCoverage>
10 <geographiDesription> Parque Estadual do Rio Doe - Lagoa Águas Claras
11 </geographiDesription>
12 <boundingCoordinates><wes tBou ndi ngCo ordi nat e>49
◦
20'22"W </westBoundingCoordinate>
13 <eastBoundingCoordinate>49
◦
20'22"W </eastBoundingCoordinate>
14 <northBoundingCoordinat e>40
◦
1'11"S </northBoundingCoordinate>
15 <southBoundingCoordinat e>40
◦
1'11"S </southBoundingCoordinate>
16 </boundingCoordinates>
17 </geographiCoverage>...
18 <attributeList>
19 <attribute><attributeName >TAX ONO MIA< /att rib uteN ame > ... </attribute>
20 <attribute><attributeName >PRO FUN DIDA DE</ att ribu teN ame> ... </attribute>
21 <attribute><attributeName >DEN SID ADE< /att rib uteN ame >... </attribute>
22 </attributeList> ...
23 <inline>
24 Chlamydomonas sp.; 4;126,43
25 Chlorella sp.; 0 ;2907,857143
26 Closteriopsis;sp. 1; 1 ;42,14285714
27 </inline> ...
28 <taxonomiCoverage>
29 <taxonRankName>GENERO</ taxo nRan kNa me>< taxo nRa nkVa lue >Chl amyd omo nas< /tax onR ankV alue >
30 <taxonRankName>ESPECIE< /tax onRa nkN ame> <tax onR ankV alu e>sp .</t axo nRan kVal ue> ...
31 </taxonomiCoverage> ...
32 </dataset> ...
33 </eml>
Figura2.3: Treho de doumento om metadados EML (Eologial Metadata
Language)
dostrabalhosqueabordamessaquestãonoâmbitodeloalizadoresgeográoséapresentado
Ambiente BDiG-PELD
Apresentamos neste apítuloosdetalhes doambiente BDiG-PELD. Oapítuloestá dividido
emseçõesdaseguinte forma. Na Seção3.1mostramososprinipaisomponentesda
arquite-tura do ambiente, divididosentre provedores de dados e serviços. Na Seção 3.2, detalhamos
os omponentes de um provedor de dados e seu funionamento. Em seguida, na Seção 3.3,
apresentamos o funionamento e osomponenente de umprovedor de serviços. Finalmente,
na Seção4.3,desrevemos oproesso easprinipaisaraterístias paraa implementaçãodo
ambiente.
3.1 Arquitetura do Ambiente
ConformejádisutidoàSubseção2.2,ainiiativaOAIpropõeaabordagemdeolheitaparao
proessodeinteroperaçãoomdoispapéisbásiosemsuaarquitetura,odeprovedordedados
e o de provedor de serviços. Os provedores de dados publiam dados para serem olhidos
pelosprovedores deserviços. Osprovedores deserviçosagregam valoraosdadosnaformade
serviços ofereidos aos usuários. A partir dessa denição, a BDiG-PELD é um provedor de
serviços eada sítio PELD é umprovedor de dados.
A interoperação entre provedores de dados e de serviços atende ao paradigma
liente-servidor pelo uso do protoolo de olheita OAI-PMH que permite ao provedor de serviços
olher dados dos provedores através de requisições HTTP periódias e seletivas. O
proto-olo OAI-PMHé utilizadonessa arquiteturaatravésdainfraestruturaODL [47℄desenvolvida
na Virginia Teh 1
e omposta de omponentes para interoperação em biblioteas digitais e
implementação de serviçosde busa, navegação, et.
AFigura3.1apresentaaarquiteturaidealizadaparaesseambiente,noqualaBDiG-PELD
atua omo provedor de serviços. A BDiG-PELD possui um repositório entral de dados, a
infraestrutura ODL, uma interfae para usuários e o loalizador geográo Lous. Cada
provedor dedadospossuiumbano dedadosrelaional loal, umrepositóriode dadosXML,
uma interfae paraentradade dadose a amadaOAI, através daqual sedá a interoperação
1
apítulo.
Figura3.1: Arquiteturado ambiente BDiG-PELD
Dados eológios, em arquivos sv (omma-separated value), são arregados no provedor
de dados através da interfae de entrada de dados que onsiste e valida esses dados. A
interfae de entrada insere dadosno bano de dados loal do provedor de dados para serem
aessadosporumsistemadeinformação. Ainterfaetambémgeraepubliaosmetadadosdo
arquivoreebidoemumrepositório dedadosXML.AtravésdaamadaOAI,esse repositório
disponibiliza dados parao provedor de serviços. Aolheita é iniiada pelaBDiG-PELD por
meio de umarequisição OAI.Ao reeberarequisição,a amadaOAI doprovedordedadosa
proessa e devolve o resultado através de uma resposta OAI. O sistemade informação loal
permiteaessoemanipulaçãoaosdadosespeíosdosítio,tais omo, usuárioseprojetosde
pesquisa,bemomoaosdados dasoletas, ujasópias sãotambémmantidas loalmente.
No provedor de serviços temos ainda a infraestrutura ODL, que possui módulos para
iniiar requisições, reeber respostas e proessá-las. O proessamento realizado diz respeito
ao armazenamento de doumentosXML emumrepositório entral e àonstrução de índies
paraoserviçodebusa. UmserviçodaBDiG-PELDidentiadadosdorepositórioassoiados
a loais geofísios e insere suas oordenadas no bano de dados geográo, ou gazetteer, do
Lous. AinteroperaçãoentreainfraestruturaODLeoLousérealizadaatravésdoprotoolo
WFS (WebFeature Servie),apropriadoparaaessoa objetosespaiais, peloqualpodemser
transportados oordenadas geográas, nomede loais esuas desrições.
Os usuários interessados em dados eológios utilizam a interfae de onsulta da
BDiG-PELD 2
atravésdosserviçosdebusaenavegaçãoparaexibirereuperardadosdeampo,bem
omogeorrefereniar asoorrênias deseuinteresse. Paraofereeresseserviço, ainterfaede
onsultainterageomainfraestruturaODLpormeiodoprotooloXOAI(ExtendedOAI)[47℄
e om o Lous por meio de servlets Java, via protoolo HTTP. O protoolo XOAI é uma
extensãodoprotooloOAIparainteroperaçãoentreosprópriosomponentesdainfraestrutura
ODL ouomomponentesproprietários noambiente. Aseguirapresentamos adesrição dos
módulosqueompõem aarquitetura doambiente BDiG-PELD.
2
Pelo padrão OAI, ada provedor de dados é responsável pela publiação de seus dados em
umambiente de interoperação. Paraprovedores de dadospouo estruturados, omoé o aso
da maioria dossítios PELD doprograma PELD,é neessárioestabeleerumainfraestrutura
mínima que atenda a esse padrão. A arquitetura proposta neste trabalho adota, para o
provedordedados,umainterfaedeentradadedadosquepermiteoarmazenamentodosdados
embanosde dadosloais esuapubliaçãoemumrepositórioXML.Osdadoseológios são
submetidosà interfae de entrada dedadosatravésde arquivossv,preenhidos emqualquer
planilha eletrnia, de aordo om o tipo de oleta a que se refere. Os omponentes de um
provedor de dadossãodesritosaseguir.
3.2.1 Bano de Dados Loal
BoapartedossítiosdoPrograma PELD nãopossuiumbanodedado loal,porissotivemos
que onstruí-lo para armazenar dados básios adastrais de um sítio e dados das amostras
oletadas em ampo ou geradas em experimentos de laboratório. Sua espeiação foifeita
a partir de várias reuniões envolvendo as prinipais áreas de pesquisa do Programa PELD.
Embora essasreuniões tenham sido feitas a partir do sítio eológio do Parque Estadual do
Parque do Rio Doe somente, onentramos o foo da modelagem de dados no fato de que
todosossítios do Programa possuemdoisonjuntosde dadosdistintos.
O primeiro onjunto é relativo aos dados básios das oletas, omuns a todos os sítios
de pesquisa do Programa. Ou seja, qualquer oleta do programa possui dados, omo por,
exemplo, hora, data, loal, responsável pela oleta, projeto de pesquisa, área de pesquisa,
oordenadas latitudinal e longitudinal, et. Esse onjunto ompõe as tabelas básias
adas-trais que permitem a normalização dos dados da tabela AMOSTRAGEM, ujas instânias
representam oletas. A Figura 3.2 apresenta a denição das prinipais tabelas básias de
aordo oma notaçãográa daferramenta DBDesigner4 [5℄.
Ooutro onjunto de dados dizrespeito aosdados espeíos dasoletas de ampo
reali-zadas por diferentessubprojetos de pesquisa. Para ada tipo deoleta foram riadastabelas
espeías que detalham seus dados básios, mantidos na tabela básia AMOSTRAGEM.
Com essa abordagem, novas oletas podem ser inorporadas failmente ao bano de dados
por meio dariaçãode tabelas espeías.
Na Figura3.3 podemos observar que atabela AMOSTRAGEM pode representar oletas
sobre nutrientes em lagos (tabela AMOSTRAGEM_NUTRIENTES)ou sobre densidade de
espéiesde seresvivosenontradas em lagos(tabelaAMOSTRAGEM_DENSIDADE). Essa
gura também utiliza anotação gráada ferramenta DBDesigner 4.
A tabela TAXONOMIA dessa gura também faz parte das tabelas básias e permite
armazenar todas aslassiações taxonmias de um provedor de dados, muito importantes
em qualquerestudo de biodiversidade, epor issomereealguns omentários.
Taisomentáriosdizem respeitoaoadastramento detaxonomias, geralmenteumatarefa
taxonmia mais ompleta se omparada a uma realizada por outro pesquisador ou mesmo
podeometer erros ortográosao efetuar umalassiação. Para essesasos e outros,
esta-beleemos um proedimento paragereniamento de taxonomias. Antes de qualquer entrada
de dadosde oleta no bano dedadosdo provedor, opesquisadordeve submeter sualistade
taxonomiasaumespeialistaquetentaráadastrarastaxonomiasnobanodedadosloaldo
sítio, garantindo a integridade de dados. Atualmente, um pesquisador pode onsultar quais
taxonomiasjáestãoadastradasnobanodedadosloalatravésdosistemadeinformação
lo-al. Contudo,ogereniamento detaxonomiasaindaépratiamentetodomanual,maspoderá
inorporar, emtrabalhos futuros,umuxoolaborativo automatizado.
Não obstante o esforço para onstruir um bano de dados para um provedor de dados,
ainda tivemos que onstruir um sistema de informação Web para adastramento dos dados
a interfae desse sistema (www.ib.ufmg.br/
∼
peld/ufmg) através da página de adastro deusuáriosepesquisadores. Nela,àsuaesquerda,enontramosumabarradeopçõesparaaesso
às funionalidades do sistema e, disposta no entro, a lista de usuários om dados de login,
nome, orreio eletrnio,titulação e seousuário éadministrador do sistemaounão.
Astabelas espeíasforam povoadas atravésda interfae de entradade dadosdisutida
na subseçãoa seguir.
3.2.2 Interfae de Entrada de Dados
Através de arquivos sv submetidos à uma interfae de entrada de dados, atualizamos as
tabelas espeíasetambémgeramos, simultaneamente, doumentosXML paraserem
olhi-dospelorepositório entral. Essaformade operaçãoevitouquegerássemosumainterfae,no
sistemadeinformação, paraada tipode oleta,oquetomariamuitotempo,alémde termos
que desenvolver um módulo espeío para gerar os doumentos XML. Outra vantagem é
a adaptabilidade a qualquer tipo de amostragem pois depende exlusivamente das tabelas
espeíasrelaionadas ao tipo de arquivo sv submetido. Essa interfae pode ser utilizada
por qualquer sítiodo Programa PELD para reeberdadosde oleta epubliá-los, atravésde
metadados EML. Dessa forma, simpliamos o proesso para tornar um sítio eológio do
om dados, omo, por exemplo, o apresentado na Figura 3.5 , é submetido à interfae de
entrada de dados por meio da página Web apresentada na Figura 3.7. Ao reeber um
ar-quivo sv, a interfae de entrada de dadosidentia qual o seu tipo de oleta e preenhe as
tabelasdobanodedadosrelaionadasàoleta. Obanodedadosloaldoprovedortambém
funiona omo um atálogo para os dados básios presentes no arquivo sv. Por exemplo,
o ampo do arquivo sv que india o responsável pela oleta só pode ser preenhido om
valores já adastrados no bano de dados através do sistema de informação que o mantém,
aso ontrário o arquivo sv é rejeitado. O mesmo aontee om a lassiação taxonmia
de espéies, entre outros dados básios. Essa interfae também gera e publia,
automatia-mente, doumentos XML no padrão EML a partir do arquivo sv submetido. A Figura 2.3
apresenta umdoumentoXML geradopelainterfae deentradaapartir dasubmissãodeum
arquivo sv.
Figura3.4: Interfae doSistema de Informação paraoSítio 4
É importante ressaltar quea interfae de entrada de dados seadapta failmentea novos
esquemas e novos tipos de oleta de ampo, omo também pode ser alterada aso oorram
mudanças dos dadosoletados. Em suaestrutura interna, essa interfae possuium atálogo
de dadosquepermite mapearosamposde umarquivo sv tanto para tabelasespeíasdo
banodedados,omoparadeterminadosmetadadosdenidosnalinguagemEML.Oatálogo
essenialmente india, para ada ampo dos arquivos sv, qual é a suarespetiva tabela no
interfae de entrada de dados pode ser utilizada por qualquer um dos sítios do Programa
PELD.
3.3 Provedor de Serviços
3.3.1 Protoolo OAI-PMH
O padrão OAI estabelee o protoolo de olheita OAI-PMH (OAI Protool for Metadata
Harvesting) parainteroperação entreprovedores de dadoseserviços. Oprotoolo OAI-PMH
tambémpossuiregrasparaolheitadedadosXMLsobomuniaçãoHTTP.Asregrasdenem
omorequisitar dados,omousodeverbos(ouomandos)denidosparafunçõesespeías,
equaisasrespostasgeradas. ATabela2.1apresenta alistadeverbosdenidospeloprotoolo
OAI-PMH.
Originalmente projetado paratransportar dados no formato Dublin Core, esse protoolo
foi adaptado neste trabalho para transportar dados EML, onteúdo prinipal do proesso
de interoperação em nossa arquitetura. Em uma interoperação OAI-PMH, são também
in-luídos metadados de uso espeío do protoolo OAI-PMH. Por exemplo, na Figura 3.6,
podemos distinguir o abeçalho OAI-PMH (linhas 1 a 9), o rodapé OAI-PMH (linhas 15 e
16), oonteúdo da interoperação (linhas10 a14) que inlui, maisespeiamente, os dados
EML propriamente ditos (linhas11 a13). Umexemplo de onteúdo EML pode ser vistona
Figura 2.3. Odoumento OAI-PHMda Figura3.6foi geradoomo resposta paraa seguinte
requisição OAI-PMH:
http://www.lbd.d.ufmg.br:80/ gi-b in/b digpe ld/
ODL-DBUnion-1.2/DBUnion/bdigpe ld/un ion. pl?ve rb=G etRe ord
&metadataPrefix=oai_eml&identi fier= oai: test1 :54
Nessarequisiçãoésoliitadoaorepositóriowww.lbd.d.ufmg.br:80/gi-bin/bdigpeld,
pelo verbo GetReord, o registro ujo identiador é oai:test1:54, desrito no padrão de
metadados oai_eml.
3.3.2 Infraestrutura ODL
O proesso de interoperação de aordo om a arquitetura proposta neste trabalho é
imple-mentado através da infraestrutura ODL (Open Digital Libraries), que pode ser onsiderada
umaextensãodopadrãoOAI[47 ℄. AinfraestruturaODLéompostadeomponentesabertos
paraviabilizar ainteroperação embiblioteasdigitais eimplementarserviçosdebusa,
nave-gação, reomendação, et. Emboraexistam diversos omponentesjá desenvolvidos eprontos
para uso, somente três deles foram utilizados neste trabalho, os quais são apresentados na
Tabela 3.1 .
Através dos omponentes da Tabela 3.1, implementamos os serviços de interoperação e
busa. Maisdetalhadamente, paraolheita de dadosnosprovedores de dados,nossa
1 <?xml version="1.0" enoding="UTF-8" ?>
2 <xoai:GetReord xmlns="http://www.openar hiv es.o rg/O AI/ 1.1/ OAI _Get Reo rd" ... >
3 <responseDate>2005-04-2 3T2 1:17 :42 -03: 00</ res pons eDat e>
4 <requestURL>http://www. lbd .d .uf mg.b r:80 /g i-bi n/bd igp eld/ ODL -DBU nion -1. 2/DB Unio n/b digp eld/
5 union.pl?verb=GetReord& meta data Pre fix= oai_ eml &ide nti fier =oai :te st1: 54</ req uest URL>
6 <reord>
7 <header>
8 <identifier>oai:test1:54< /id enti fier > <datestamp>2005-04-19T11:3 1:4 0+00 :00< /da test amp>
9 </header>
10 <metadata>
11 <eml>
12 ...
13 </eml>
14 </metadata>
15 </reord>
16 </xoai:GetReord>
Figura3.6: Treho deumdoumento OAI-PMH
OAI dos provedores de dados, implementada por meio do omponente OAI-XMLFile. Os
dados reebidos são armazenados no repositório de dados entral. O serviço de busa,
apre-sentado na Subseção 4.2, é implementado pelo omponente ODL-IRDB que trabalha omo
uma máquina de busa que ombina onsultas booleanas baseadas em verdadeiro ou falso
omaraterístias domodelovetorial[16℄. OomponenteODL-IRDBgerasuasentradasde
índiesapartirdeolheitasfeitasnoomponenteODL-CatalogUnion,queaessaorepositório
entral dedados. Asrequisiçõesentreosomponentes ODL-IRDBeODL-Catalog Unionsão
realizadas por meio do protoolo XOAI [47 ℄. Já o serviço de navegação da BDiG-PELD foi
desenvolvidoàparte, emborainteraja omainfraestruturaODL atravésdoprotooloXOAI.
Os detalhesde implementação doserviço de navegação sãoapresentados naSubseção 4.3 .
AinfraestruturaODLpermitiuarápidaprototipaçãodanossaarquiteturaalémdefailitar
Componente ODL Objetivo Quemutiliza
ODLUnion Catalog Colheosdadosnosprovedores dedadoseos
ar-mazena emtabelarelaionais.
BDiG-PELD
OAI-XMLFile Permite ao provedor de dados atender
requisi-ções da BDiG-PELD ujas respostas são dados
EML.
Provedores de
dados
ODL-IRDB Ofereeserviçosde busa. BDiG-PELD
Tabela3.1: Componentes ODL utilizadosno ambienteda arquitetura
onreto derápida prototipaçãoutilizandoainfraestrutura ODLéaETANA-DL 3
,bibliotea
digitalparaarqueologiaitadanaSeção1.5 ,ujaimplementaçãobásiadurouquatromesesde
aordoom[43 ℄. Umaoutraalternativaparaompartilhardadoseológiosseriaaonstrução
de um sistema de informação de aordo om a arquitetura liente-servidor, om banos de
dados entralizados ou mesmo distribuídos, mas que envolveria muita omplexidade devido
à diversidade de dados envolvida, a omplexidade da infra-estrutura tenológia e o longo
tempo de implementação. Outra razão para a utilizaçãoda infraestrutura ODL é o fatoser
de ódigoaberto, muitoimportante para projetosdessa natureza.
3
Para a implementação da BDiG-PELD, foi utilizado uma série de programas na linguagem
PERL 4
queonstituemainterfae deaessodo ambiente. Essa interfaeseomunia omos
omponentesODLutilizados,paraosquaisenvia requisiçõesdosusuários, reebendo seus
re-sultados. Aoreeberosdadosderesposta,ainterfaeosproessaeosapresentaaosusuários.
Dentre as prinipais requisições possíveis de um usuário itamos: 1) seleção de oletas por
busa ou navegação, 2) exibição de dados das oletas seleionadas, 3) reuperação dos
da-dos originais das oletas seleionadas e 4) georrefereniamento das mesmas. Os prinipais
programas da interfae de aesso, ujo desenvolvimento levou 6 meses, são apresentados na
Tabela 3.2 .
Programa Objetivo #linhas
searh.pl A partir dos termos de onsulta do usuário, soliita
à máquina de busa ODL, os registros ou oletas
elegíveis. Apartir doresultado, o usuário pode
solii-tar a exibição de dados, que ainda podem ser
georre-fereniados.
345
exibe_metadados.pl Permite ao usuário a exibição dos metadados de um
registro.
94
exibe_dados.pl Possibilita areuperação dosdadosoriginaisdeoleta
de umregistro.
134
navega.pl Possibilita a navegação entre os registros ou oletas
armazenados na bibliotea digital. A partir dos
re-sultados da navegação, o usuário pode exibir dados e
metadados, assim omo asfailidades de
georreferen-iamento.
1138
Tabela 3.2: Prinipais programasda interfae de aessoda BDiG-PELD
Para avaliarmos qual o tamanho do esforço de odiação na implementação da
BDiG-PELD usandoa infraestruturaODL, levantamos o total delinhas deódigo deada
ompo-nenteODLutilizado,ototaldelinhasdeódigodainterfaedeaessodesenvolvidaetambém
o totalde linhasdastransformaçõesXSLT[14℄usadasparaproessarevisualizar oonteúdo
dosdoumentos XMLgerados. Osdadosdesse levantamento sãoapresentados naTabela 3.3
que também apresenta o perentual de odiação de ada omponente em relação ao total
de ódigoda BDiG-PELD.
Aanálise daTabela3.3permite onstatarareal reutilização dosomponentesODL para
implantação dos serviços básios em uma bibliotea digital. Nesse aspeto, os omponentes
ODLonstituem63%detodaaodiaçãodaBDiG-PELD.Orestanteenvolve,basiamente,
ainterfaedeaesso(12%)eosprogramasXSLT(25%). Éimportanteressaltarque,jánafase
de implementação, perebemos um desempenho ruim na utilização dos omponentes ODL,
prinipalmente quando o aesso a eles envolve o protoolo XOAI. Uma maneira de se
mini-mizaresseproblemadedesempenhoépermitiroaessodiretamenteaosdadosmantidospelos
4
ODL-IRDB 8135 38%
ODL-DBUnion 5381 25%
OAI-XMLFile 4264 20%
Interfae deaesso 3382 16%
Programas XSLT 7015 25%
Tabela3.3: Quantidade de linhasdeódigo
omponentes, ou seja, eliminando-se o usodo protoolo XOAI. Isso pode ser feito por meio
de onsultas SQL submetidas diretamente aos banos de dados mantidos por ada
ompo-nente. Essa alteração será fruto de trabalhos futuros, pois não pde ser realizada duranteo
desenvolvimento da versão-piloto.
Todos os omponentes da Tabela 3.3 foram instalados no servidor de apliações Web
Apahe 5
do Laboratóriode Banos de Dadosda UFMG.
5
Serviços da BDiG-PELD
NesteapítuloapresentamososserviçosofereidospelaBDiG-PELD.Esteapítuloestádivido
em seções da seguinteforma. A Seção 4.1desreve a espeiação de requisitos onforme a
abordagem 5S. A Seção 4.2 apresenta o serviço de busa da BDiG-PELD. Por sua vez, a
Seção 4.3 desreve o serviço de navegação. Finalmente, a Seção 4.4 faz uma detalhamento
dasfailidades degeorrefereniamento doambiente.
4.1 Espeiação de Requisitos
Conforme já menionado, biblioteas digitais neessitam de modelos para espeiar
ade-quadamente suasomplexasinterações eosrequisitos deseususuários. Basiamente, a
ons-trução de biblioteas digitais envolve algumas deisões importantes e que se bem denidas
podem ajudar muito nesse proesso. Segundo [26 ℄, essas deisões são: (1) que tipo de
on-teúdo multimídia será apoiado, (2) omo ainformação é organizada e estruturada,(3) quais
são as omunidades de usuários, e (4) quais serviços e failidades poderão ser forneidos a
elas. Para entendermos melhor os requisitos da bibliotea digital proposta neste trabalho,
adotamos aabordagem 5S [26,27 ℄para suaespeiação.
Aabordagem 5Spermitemodelarbiblioteasdigitaislevandoemonsideração ino
pers-petivasdiferenteseomplementares: ostiposdedadosmultimídiasuportadospelabibliotea
digital (Streams), omoessasinformaçõessãoestruturadase organizadas(Strutures), os
de-talhesdomodelodereuperaçãodeinformaçãoadotado,alémdasaraterístiasdainterfae
de usuário da bibliotea (Spaes), os aspetos omportamentais da bibliotea digital
(Se-narios) e as diferentes omunidades envolvidas (Soieties) [26 , 27 ℄. A Tabela 4.1 mostra
exemplos dessasperspetivas.
Aseguir,ombaseem[45 ℄,denimosmaisdetalhadamenteasperspetivasdaabordagem
5S e espeiamos melhoraBDiG-PELD, sobada umadelas,ainda queinformalmente.
4.1.1 Soieties
A perspetiva Soieties dene, para uma bibliotea digital, um onjunto de entidades e os