Estabelecer rotinas de convers˜ao de dados para formatos leg´ıveis por m´aquina (3C)

4.2 An´ alise dos Resultados

4.2.6 RQ 3.3: Recomenda¸c˜oes para “Modelar os Dados”

4.2.6.3 Estabelecer rotinas de convers˜ao de dados para formatos leg´ıveis por m´aquina (3C)

distintos e que fazem uso de tecnologias e formatos distintos, e ainda, que o volume de dados a serem publicados e mantidos costuma aumentar, outra recomenda¸cão relevante consiste no estabelecimento de rotinas de conversão de dados para vários formatos leg´ıveis por máquina. Os processos P1, P2, P3 e P4 buscam detalhar esta etapa (COLOMBIA, 2012; ECUADOR, 2014). Recomendam que, posteriormente à modelagem, os dados sejam convertidos para formatos leg´ıveis por máquina, como o XML, CSV, TXT, JSON, KML ou RDF. Devem ser eliminados conteúdos que não sejam relevantes ao usuário, como t´ıtulos, subt´ıtulos e informa¸cões extra dos arquivos. O P3 enfatiza que as rotinas de conversão dos dados também contemplem a gera¸cão de metadados que detalhem a estrutura¸cão dos arquivos de dados.

4.2.6.4 Anonimizar dados sens´ıveis (3D)

Em que pese as pol´ıticas de dados abertos estimularem a publiciza¸cão dos dados, este processo de abertura e publica¸cão de dados deve ser feita com muita responsabilidade de maneira que não cause preju´ızos a indiv´ıduos e organiza¸cões. Assim, a recomenda¸cão de anonimiza¸cão dos dados foi identificada como a técnica a ser adotada para não expor dados privados/particulares no arcabou¸co de uma oferta de dados públicos.

Janssen, Charalabidis e Zuiderwijk (2012) apresentam alguns motivos para que nem todos os dados sejam publicizados. Dentre eles, destacamos: (i) Dados podem permitir o rastreamento reverso chegando a identifica¸cão de indiv´ıduos e resultando em viola¸cão de privacidade e direitos individuais; (ii) A abertura de dados inconsistentes podem gerar mais “confusões” do que benef´ıcios, pois os cidadãos podem não obter as respostas que desejam e ainda, gerar questionamentos desnecessários as agências governamentais decorrentes de uma má interpreta¸cão dos dados; (iii) As legisla¸cões dos pa´ıses apresentam casos expl´ıcitos em que certos dados devem ser restritos; e (iv) Certos dados são estraté- gicos e necessários a pol´ıticas de competitividade (por exemplo, dados sobre prospeçcão de recursos minerais são essenciais para a sustentabilidade de pa´ıses e podem influenciar a disputa comercial e tecnológica entre empresas públicas que atuam neste setor).

A anonimiza¸cão de dados é uma tarefa complexa, e se não for feita de forma eficaz, cria riscos a iniciativa de publica¸cão de dados, especialmente por permitir a revela¸cão de dados privados que não devem ser publicados. Apesar da importância desta atividade, apenas os processos P4 e P14 apresentaram recomenda¸cões e técnicas a serem adotadas, detalhadas abaixo (COMSODE, 2014b):

• Proje¸cão (projection): Ocorre quando atributos particulares com dados privados são removidos do conjunto de dados. Por exemplo, no caso de arquivos tabulares, isto pode ser implementado mediante a remo¸cão de colunas.

• Agrega¸cão (aggregation): Consiste na mesclagem de vários itens num ´unico dado es- tat´ıstico (por exemplo, a mesclagem de pessoas e suas idades numa região, publicando- se apenas a idade média das pessoas em cada região).

• Remo¸cão de conexões (removing links): Providência que deve ser adotada especial- mente quando se tratar de dados conectados, devendo ser analisado se as conexões com outros dados revelam dados privados. Caso isto ocorra é necessário remover os links antes de publicar o conjunto de dados.

Cumpre destacar que a anonimiza¸cão consiste de uma estratégia de mitiga¸cão de riscos relacionados ao processo de publica¸cão e caso for negligenciada, pode inviabilizar toda a estratégia de abertura decorrente dos impactos negativos da publica¸cão de dados que não deveriam ser publicados.

4.2.6.5 Modelar rotinas automatizadas (ETL) (3E)

Além da oferta de dados em vários formatos, é recomendado que estas rotinas de publica¸cão e manuten¸cão dos dados sejam automatizadas, reduzindo o esfor¸co humano com esta atividade e ainda, ofertando maiores garantias de disponibilidade e atualiza¸cão dos dados para os usuários. Para esta atividade, serão apresentadas as recomenda¸cões de diversos processos com algum n´ıvel de detalhamento.

Para automatizar a publica¸cão de dados, os processos P1, P5 e P14 recomendado o estabelecimento de rotinas de extra¸cão, tratamento e carga (ETL). A publica¸cão manual de dados deve ser estabelecida apenas para dados que não possuem atualiza¸cão periódica. O processo P14 detalha tópicos relevantes que devem ser estabelecidos na modelagem de rotinas automatizadas. Para os extratores, deve ser fortemente considerada a origem dos dados a serem publicados. Dependendo desta origem, um extrator pode ser COMSODE (2014b):

• Um componente que faz download de um arquivo de dados a partir de uma dada URL;

• Um componente que copia um arquivo de dados de um sistema de arquivos local; • Um componente que acessa um banco de dados relacional com consultas SQL (SE-

LECT);

• Um componente que acessa um banco de dados RDF com consultas SPARQL (SE- LECT, CONSTRUCT).

Quanto aos transformadores estes podem ser:

– Um componente para transformar formatos propriet´arios tabulares (XLS (x), ODS, DBF, etc.) e os resultados de consultas SQL para o formato CSV; – Um componente para transformar arquivos XML para outros arquivos XML

na base de scripts XSLT;

– Um componente para transformar arquivos JSON para outros arquivos JSON; – Um componente para transformar arquivos JSON para arquivos XML e vice-

versa.

– Um componente para transformar CSV, XML e JSON formatos de representa¸c˜ao RDF. Em caso de XML, que pode ser baseada em scripts XSLT.

– Um componente para transformar representa¸c˜ao RDF usando a linguagem SPARQL.

• Ou ainda, componentes que transformem o conteúdo de um conjunto de dados aplicando técnicas de higieniza¸cão ou anonimiza¸cão de dados;

• Bem como, componentes para enriquecimento de dados associando-os ao conteúdo de outros conteúdos de dados decorrente de conexões pré-estabelecidas;

• Por fim, um transformador pode ser um componente de preenchimento automati- zado e manual de metadados em conjuntos de dados de acordo com um esquema (ou vocabul´ario) de dados pr´e-estabelecido.

Quanto aos carregadores, consistem da etapa final antes da publica¸cão do dado. São componentes que garantem que o dado exportado da origem estará armazenado num servidor de dados com a qualidade e os formatos adequados para serem publicados. O processo estabelece as seguintes recomenda¸cões para carregadores:

• Se o conjunto de dados estará dispon´ıvel apenas para usuários que farão o download de dados em grandes volumes, a rotina ETL deve carregar os arquivos de dados para um local que pode ser acessado por usuários via protocolos HTTP ou FTP. Também é poss´ıvel carregar os arquivos para um servidor Git, por exemplo, o Github.com. • Se o conjunto de dados estará dispon´ıvel através de uma API, a rotina ETL deve

carregar os dados para um servidor de banco de dados.

– Para a oferta de dados em 3 e 4 estrelas, a API deve ser um servi¸co REST que seja capaz de fornecer o acesso program´atico para os itens do conjunto de dados e retornar a representa¸c˜ao dos itens em formatos JSON, CSV, ou XML. Os dados devem ser armazenados numa base de dados relacional ou numa base de dados noSQL.

– Para a oferta de dados em 5 estrelas, a API deve ser um endpoint SPARQL. Os dados devem ser armazenados em um banco de dados RDF ou em um banco de dados relacional com uma camada que permite visualizar os dados relacionais como dados RDF e avaliar consultas SPARQL.

O processo P1 ressalta que as rotinas automatizadas deve contemplar desde a extra¸cão inicial dos dados a partir do seu ambiente de produ¸cão até o local onde a base será disponibilizada como dados abertos. Por exemplo, se tiver sido decidido publicar os dados em arquivos csv, essa etapa contempla a obten¸cão dos dados, tratamento e hospedagem dos dados extra´ıdos após conversão para o formato csv em um servidor de arquivos para a Web BRASIL (2014c). O processo P3 recomenda, que preferencialmente, a origem dos dados das rotinas ETL sejam sistemas de informa¸cões governamentais confiáveis e estruturados (COLOMBIA, 2012).

O processo P6 apresenta as diversas ferramentas para minera¸cão e modelagem de dados utilizadas num experimento. Por se tratar de uso de dados geoespaciais, se fizeram necessários softwares de manipula¸cão de ontologias, conversores de dados de bancos relacionais para servidores de triplas RDF e sistemas de informa¸cões geográficas (CONSOLI et al., 2014). Este processo, apesar de pouco detalhado, destaca-se pela utiliza¸cão de dados geoespaciais, cuja complexidade para abertura e publica¸cão é maior. Ademais, toda a rotina ETL deve ser exaustivamente testada antes de entrar em produ¸cão COMSODE (2014b).

No documento Repositório UFAL: Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais (páginas 105-108)