Boas Práticas para Dados na Web - Um modelo de arquitetura para sistemas gerenciadores de dados

para o gerenciamento de conteúdos, usuários e modularidade do software, e usa o CKAN para gerenciamento dos datasets, motor de busca, geolocalização e para prover a API. Por também ser disponibilizado como uma extensão do Drupal, ele também pode ser facilmente adicionado em sites já publicados. Seus três componentes principais são o DKAN distro, dataset e datastore. A distro é a distribuição do DKAN que agrupa todos os componentes necessários, como o tema do DKAN, pesquisa e outros elementos. O componente dataset é um módulo que fornece opção para publicação dos conjuntos de dados e de recursos, tal como o CKAN, ou seja, os conjuntos de dados contêm os metadados e os recursos os dados. No entanto, no DKAN os metadados estão disponíveis em RDF, que é compatível com o DCAT, bem como em JSON. Por fim, o datastoreé um módulo que fornece a capacidade de armazenar arquivos e disponibilizar os seus componentes através de uma API (NUCIVIC,2015).

3.2 Boas Práticas para Dados na Web

Existe um crescente interesse em publicar e consumir dados na Web. Organizações governamentais e não-governamentais já disponibilizam uma variedade de dados na Web, alguns abertamente, alguns com restrições de acesso, abrangendo muitos domínios como educação, economia, segurança, patrimônio cultural, comércio eletrônico e dados científicos. Desenvolve- dores, jornalistas e outros manipulam esses dados para criar visualizações e realizar análises de dados. A experiência neste domínio revela que é necessário abordar várias questões importantes a fim de satisfazer os requisitos tanto dos produtores de dados como dos consumidores de dados (LÓSCIO; BURLE; CALEGARI,2016b).

Além disso, segundoLóscio, Oliveira e Bittencourt(2015), nos últimos anos, a heteroge- neidade dos dados e a falta de padrões para descrição e acesso aos conjuntos de dados tornam o processo de publicação, compartilhamento e consumo de dados uma tarefa complexa. Portanto, buscam-se alternativas que possibilitem um entendimento comum entre os atores desse contexto, promovendo uma maior confiança nos dados e aumentando o potencial de inovação. Ou seja, publicar dados de forma que possam ser facilmente compreendidos e utilizados por consumidores, assim como, publicados em formatos que possam ser facilmente processados por aplicações, por exemplo. Pois, sem esse entendimento e confiança, os esforços dos provedores podem ser incompatíveis com os desejos dos consumidores de dados (LÓSCIO; BURLE; CALEGARI, 2016b).

Na busca por esse entendimento comum, um grupo de trabalho do W3C compilou um conjunto de casos de uso12 que representam cenários de como os dados são comumente publicados e como eles são usados na Web. A partir desses casos de uso, foi possível identificar os principais desafios enfrentados pelos produtores e consumidores de dados, assim como, foi possível definir um conjunto de requisitos. Tais desafios e requisitos guiaram o desenvolvimento do documento DWBP (LÓSCIO; BURLE; CALEGARI,2016a), que estabelece boas práticas

Licença Permitir que os seres humanos compreendam as informações da licença e que as máquinas possam detectar automaticamente

Proveniência Permitir que os seres humanos conheçam a origem ou o histórico do conjunto de dados e e que as máquinas possam processar automaticamente tais informações

Qualidade Documentar a qualidade dos dados, para facilitar o processo de seleção dos conjuntos de dados e chaces de reutilização

Versionamento Permitir que versões dos dados sejam geradas e seja possível o acesso a cada versão

Identificação Fornecer identificadores únicos para os conjuntos de dados e distribuições Formato Escolher formatos que permitam o uso e o reuso

Vocabulários A fim de melhorar a interoperabilidade e manter terminologia comum entre os produtores e consumidores

Acesso Permitir o fácil acesso aos dados usando a infraestrutura da Web tanto para seres humanos quanto para máquinas

Preservação A fim de indicar corretamente se os dados foram removidos ou arquivados Feedback Receber feedback dos consumidores e assegurar que os dados atendem as

necessidades dele

Enriquecimento Enriquecer, melhorar ou refinar os dados brutos agregando valor Republicação Permitir que os dados utilizados possam ser republicados

Fonte: (LEE; LÓSCIO; ARCHER,2015)

Assim, o DWBP desenvolveu as boas práticas partindo dos desafios apresentados no Quadro 3.1 e dos diferentes requisitos de casos de uso relacionados a cada desafio, descritos emLee, Lóscio e Archer(2015). No total, são 35 boas práticas que discursam sobre diferentes aspectos relacionados à publicação e consumo de dados, como formatos de dados, acesso a dados, identificadores de dados e metadados. SegundoLóscio, Burle e Calegari (2016a), espera-se que ao seguir as boas práticas, uma série de benefícios distintos possam ser alcançados, tais como a compreensão, processabilidade, descoberta, reúso, acesso e interoperabilidade. Porém, ainda existem desafios a serem enfrentados, seja para avaliar se tais benefícios são alcançados, disponibilidade de ferramentas de publicação que implementem as orientações, bem como, quais os passos, do ponto de vista técnico, que devem ser seguidos e implementados até os dados serem publicados.

3.2. BOAS PRÁTICAS PARA DADOS NA WEB 43

Conforme descrito emLóscio, Burle e Calegari(2016a), cada boa prática (BP) tem um resultado pretendido com a aplicação da prática. Esse resultado indica o que é possível fazer quando um produtor segue as recomendações e está relacionado a como um consumidor de dados (um humano ou um software) pode manipular um conjunto de dados na Web, assim como pode refletir em uma melhora no próprio conjunto de dados. Além disso, apresenta uma seção para possíveis formas de implementação da prática, a motivação para o uso e os testes que podem ser realizados para verificar se a prática foi implementada de forma adequada. No restante, ainda apresenta as evidências que comprovam a relevância da prática e os benefícios que serão alcançados com o uso dela. No Quadro 3.2 é apresentado o conjunto de boas práticas e qual o desafio ao qual ela está relacionada.

BP10: Use persistent URIs as identifiers within datasets Identificação BP11: Assign URIs to dataset versions and series Identificação BP12: Use machine-readable standardized data formats Formato BP13: Use locale-neutral data representations Formato BP14: Provide data in multiple formats Formato BP15: Reuse vocabularies, preferably standardized ones Vocabulários BP16: Choose the right formalization level Vocabulários BP17: Provide bulk download Acesso BP18: Provide Subsets for Large Datasets Acesso BP19: Use content negotiation for serving data available in multiple formats Acesso BP20: Provide real-time access Acesso BP21: Provide data up to date Acesso BP22: Provide an explanation for data that is not available Acesso BP23: Make data available through an API Acesso BP24: Use Web Standards as the foundation of APIs Acesso BP25: Provide complete documentation for your API Acesso BP26: Avoid Breaking Changes to Your API Acesso BP27: Preserve identifiers Preservação BP28: Assess dataset coverage Preservação BP29: Gather feedback from data consumers Feedback BP30: Make feedback available Feedback BP31: Enrich data by generating new data Enriquecimento BP32: Provide Complementary Presentations Enriquecimento BP33: Provide Feedback to the Original Publisher Republicação BP34: Follow Licensing Terms Republicação BP35: Cite the Original Publication Republicação

Fonte: (LÓSCIO; BURLE; CALEGARI,2016a)

Segundo oLóscio, Burle e Calegari(2016a), a Web é um espaço de informação aberta, sendo caracterizada pela ausência de um contexto específico, o que significa que o fornecimento de metadados é um requisito fundamental. Dessa forma, os metadados ajudam os consumidores a compreenderem o significado dos dados, sua estrutura, licença, organização que gerou os dados, métodos de acesso e agendamento de futuras atualizações dos conjuntos de dados. Dessa

3.2. BOAS PRÁTICAS PARA DADOS NA WEB 45

forma, os resultados esperados com as BPs relacionadas a metadados versam sobre a capacidade de compreender os metadados (BP 1), assim como de interpretar a natureza dos conjuntos de dados e suas distribuições (BP 2) e interpretar o esquema deles (BP 3). Para se atingir essas três boas práticas, também é necessário fornecer acesso para que seja possível o processamento por máquinas.

Dado que podem existir restrições quanto ao compartilhamento e reutilização dos dados, é importante informar a licença dos conjuntos de dados. No contexto de dados na Web, segundo oLóscio, Burle e Calegari(2016a), a licença pode ser especificada nos metadados ou em um documento ao qual ele está vinculado (BP 4). Somado a isso, é a importante informar a origem dos dados (BP 5), uma vez que os dados podem ter sido oriundos de um produtor diferente do qual está publicando. Dessa forma, informar metadados de proveniência é uma forma de confiar na integridade e credibilidade dos dados que estão sendo compartilhados.

Ademais, a qualidade dos conjuntos de dados também impactam na qualidade das aplicações que o utilizam. Dessa forma, é importante informar metadados de qualidade, contendo diferentes tipos de dimensões de qualidade (BP 6), como as que estão presentes no Data Quality Vocabulary13.

Os conjuntos de dados também podem mudar ao longo do tempo e, assim, Lóscio, Burle e Calegari(2016a) acrescenta que é importante manter versões dos dados que estão sendo alterados. Vale ressaltar que os conjuntos de dados podem se comportar como séries temporais e, nesse caso, não são consideradas várias versões do mesmo conjunto de dados. Por exemplo, quando se tem os mesmos tipos de dados para diferentes regiões ou para diferentes anos, ele deve ser tratado como uma série temporal e não como uma versão diferente. Portanto, é considerado uma boa prática atribuir e indicar o número de versão ou data para cada conjunto de dados (BP 7) e manter um histórico de todas as versões geradas (BP 8).

Os identificadores são amplamente utilizados nos sistemas de informação, como por exemplo o HTTP (ou HTTPS) URIs, que é a base para comunicação de dados na Web. Dessa forma,Lóscio, Burle e Calegari(2016a) estabelece como boa prática o uso de URIs persistentes como identificadores de conjuntos de dados (BP 9), para as versões individuais geradas e, sendo uma série temporal, também para a série global (BP 11). Além disso, é necessário que se tenha cuidado na identificação, pois embora as URIs tenham a função puramente de identificar um recurso, não seria aconselhado que uma URI como http://example.com/dataset.csv retornasse qualquer coisa diferente de um CSV. Somado a isso, também é importante que URIs persistentes sejam utilizadas como identificadores dentro dos conjuntos de dados (BP 11), ou seja, incluir links para outras URIs de forma que outros recursos possam ser descobertos, tornando os dados mais valiosos.

Quanto aos formatos dos dados,Lóscio, Burle e Calegari(2016a) afirma que o formato no qual os dados são disponibilizados é fundamental para tornar os dados utilizáveis pelos consumidores. Assim, encoraja a disponibilização dos dados em mais de um formato (BP 14),

Visando uma maior interoperabilidade e consenso entre os produtores de dados e os consumidores, é considerado uma boa prática o reúso de vocabulários (BP 15), dando preferência aos padronizados. Os vocabulários definem os conceitos e atributos utilizados para descrever e representar uma área de interesse, como por exemplo, o vocabulário DCAT14que é utilizado para expressar os metadados relacionados aos conjuntos de dados e faz de uso de outros vocabulários difundidos como o Dublin Core15, FOAF16 e o SKOS17. Também é preferível que se opte por um nível de semântica formal que possa encaixar os dados e as aplicações mais prováveis (BP 16), ajudando assim a estabelecer especificações precisas que transmitem significado detalhado e podendo servir de base para tarefas raciocínio automatizado (LÓSCIO; BURLE; CALEGARI, 2016a).

O desafio de acesso aos dados é o que mais apresenta orientações de boas práticas. Proporcionar fácil acesso aos dados na Web, permite que os humanos e as máquinas aproveitem os benefícios da infra-estrutura da Web para uso e compartilhamento de dados. Por padrão, a Web oferece acesso aos dados através de métodos HTTP, o que permite acesso em um nível de transação atômica. Lóscio, Burle e Calegari(2016a) aponta que o acesso pode ser realizado através de bulk download simples de um arquivo e através de uma API, onde os dados são distribuídos em vários arquivos ou requer métodos de recuperação mais sofisticados, não sendo esses métodos básicos mutualmente exclusivos.

Na abordagem de bulk download (BP 17), geralmente os dados são pré-processados pelo servidor e é fornecido apenas um arquivo para download. Em alguns casos, como quando os conjuntos de dados são grandes, pode-se oferecer opções através de APIs para efetuar operações e realizar download de subconjuntos dos dados (BP 18). Vale salientar que através das APIs também pode ser efetuado o download de todos os dados, assim como os subconjuntos de dados também podem ser disponibilizados em arquivos físicos menores para download. Nesse sentido, também é considerado uma boa prática o uso da negociação de conteúdo para permitir o download dos dados em vários formatos (BP 19). Por exemplo, a partir de uma mesma URI, usando a negociação de conteúdo, podemos obter os dados em JSON, XML, CSV, HTML e RDF

14_{https://www.w3.org/TR/vocab-dcat/}

15_{http://dublincore.org/documents/dcmi-terms/} 16_{http://xmlns.com/foaf/spec/}

3.2. BOAS PRÁTICAS PARA DADOS NA WEB 47

(LÓSCIO; BURLE; CALEGARI,2016a).

Uma parte dos dados disponíveis na Web vem de sensores, por exemplo, que fornecem dados em tempo real. Dessa forma, é considerado uma boa prática torná-lo disponível na Web em tempo real ou quase em tempo real (BP 20), através de um sistema automatizado que permita o acesso imediato. Nesse caso, também são consideradas as taxas de atualização e latência por causa de etapas de pós processamento de dados, por exemplo. Quando os dados não são em tempo real, é considerado uma boa prática fornecer os dados atualizados, deixando a frequência de atualização explícita (BP 21). Eventualmente, se os dados não estiverem mais disponíveis, é importante fornecer uma explicação do porquê eles estão indisponíveis, como os dados podem ser acessados e quem pode acessar (BP 22) (LÓSCIO; BURLE; CALEGARI,2016a).

Uma API oferece uma maior flexibilidade e capacidade de processamento para os consumidores de dados, permitindo também o uso de dados em tempo real e realização de filtros. Sendo assim, considera-se uma boa prática disponibilizar uma API para acesso aos dados (BP 23), construindo a partir de padrões da Web (BP 24), como o Representational State Transfer (REST)(REST), e fornecendo uma documentação completa (BP 25). Dessa forma, a API estará mais completa e fácil de entender, o que permitirá que os desenvolvedores estejam mais dispostos a continuar a utilizá-la. Por fim, é importante que se evite alterações na API para não quebrar o código de quem está utilizando (BP 26) (LÓSCIO; BURLE; CALEGARI,2016a).

Tendo em vista que é provável que os produtores podem remover os dados da Web, é importante preservar seus identificadores. Assim, espera-se que seja possível dereferenciar o URI de um conjunto de dados mesmo ele não estando disponível e fornecer informações sobre o seu arquivamento (BP 27). Antes do arquivamento,Lóscio, Burle e Calegari(2016a) sugere a avaliação da cobertura do conjunto de dados (BP 28), verificando se os recursos utilizados já são preservados em algum lugar ou devem ser fornecidos juntamente com o respectivo conjunto de dados que será preservado.

Com os dados publicados na Web, os consumidores podem acessá-los e criar suas próprias experiências. No entanto, os produtores de dados muitas vezes não tem o feedback dos consumidores sobre como os conjuntos de dados são usados e não oferecem maneiras eficazes para discutir essas experiências (LóSCIO; STEPHAN; PUROHIT,2016). Dessa forma, Lóscio, Burle e Calegari(2016a) aponta como uma boa prática o fornecimento de pelo menos um mecanismo para receber feedback (BP 29) e sugere que eles estejam disponíveis ao público (BP 30). Assim, o produtor demonstrará aos consumidores que suas preocupações estão sendo abordadas, evitará o envio de problemas duplicados e promoverá o senso de comunidade entre eles. Consequentemente, através do feedback, os produtores também poderão melhorar a qualidade dos dados.

O enriquecimento de dados consiste no conjunto de processos que podem ser utilizados para melhorar ou complementar os dados, visando tornar os dados mais valiosos. Dessa forma, sugere-se que os dados sejam enriquecidos através da geração de novos dados, quando estes vão aumentar o seu valor (BP 31). Também é aconselhável enriquecer os dados através de represen-

os requisitos da licença original do conjunto de dados (BP 34), assim como citar a publicação original em seus metadados (BP 35), para que se mantenha a proveniência, reconheça a fonte de dados e torne os dados confiáveis.

A partir do uso das boas práticas, os produtores de dados podem alcançar benefícios como Compreensão, Processabilidade, Descoberta, Reúso, Acesso, Interoperabilidade e Confiança. Dessa forma, é possível melhorar a compreensão dos dados através do uso de metadados, vocabulários, feedback e enriquecimento. Ou seja, será possível para os seres humanos ter uma melhor compreensão da estrutura, significado e a natureza do conjunto de dados. Sendo assim, quanto maior o número de boas práticas forem utilizadas, maiores serão os benefícios alcançados. Considerando que a publicação de dados na Web é um processo incremental, os níveis de benefícios poderão aumentar após algumas iterações do processo de publicação de dados (LÓSCIO; BURLE; CALEGARI,2016b).

No documento Um modelo de arquitetura para sistemas gerenciadores de dados na Web (páginas 42-49)