• Nenhum resultado encontrado

Projeto de criação e sustentação do Dataverse na FGV

N/A
N/A
Protected

Academic year: 2021

Share "Projeto de criação e sustentação do Dataverse na FGV"

Copied!
22
0
0

Texto

(1)

Projeto de criação e

sustentação do Dataverse na

FGV

(2)

ESTRUTURA DA APRESENTAÇÃO

+ Ciência de dados & Repositório de dados + Desenvolvimento + Pesquisadores da FGV já utilizam essa plataforma + Pessoal envolvido

+ Por que o Dataverse?

+ Benefícios + Iniciativa de instalação + Padrões de metadados + Plano de Gestão de Dados + Desafios + Repositório sob o contexto de Governança de Dados

+ Ciclo de vida do dado de pesquisa + Principais etapas previstas para a implementação + Arquitetura inicial proposta, acesso interno no início do projeto

• A Plataforma

Harvard Dataverse

na FGV (Integração

Repositório Digital,

Rede de Pesquisa e

TI)

• Como a ciência

de dados está

ligada ao

Repositório de

Dados

• Questões de

implementação

do Dataverse

• Aspectos de um

Repositório de

dados

• A Plataforma

Harvard

Dataverse

01

02

03

04

05

(3)

A Plataforma Harvard Dataverse na

FGV

(Integração Repositório Digital, Rede de

Pesquisa e TI)

(4)

DESENVOLVIMENTO

• Com a necessidade de armazenamento dos dados das pesquisas

aplicadas da FGV, surgiu a demanda da criação do Repositório de dados

e o envolvimento da Biblioteca com a Rede de Pesquisa e a TI.

• A disponibilização da plataforma Dataverse na FGV será a referência

principal aos pesquisadores da FGV, que atualmente buscam soluções de

repositórios externos.

(5)

PESQUISADORES DA FGV JÁ UTILIZAM ESSA

PLATAFORMA

Pesquisar

no Google

A primeira referência aponta para a universidade

(6)

PESSOAL ENVOLVIDO

• Criação de um Grupo Multidisciplinar

Maioria

das

universidades

envolvidas

com

open

science

estão

caminhando com um grupo de trabalho multidisciplinar.

Na FGV essa equipe é formada pela Rede de Pesquisa, Biblioteca e TI.

Esse grupo facilita o caminho diante de possíveis

questões burocráticas.

O grupo está composto da seguinte forma:

- Rede de Pesquisas - 1 analista

- Biblioteca Digital

– 3 bibliotecárias

- TIC

– 1 analista

• No início de 2018 começou a elaboração das diretrizes e orçamento para

o projeto

(7)

QUESTÕES DE IMPLEMENTAÇÃO DO

DATAVERSE

(8)

POR QUE O DATAVERSE?

• O DSpace foi avaliado porém é um repositório genérico, não contemplando as questões em

torno dos dados em si, como por exemplo as visualizações dos dados antes do download;

• Por tratar-se de uma plataforma de software livre, que atende aos protocolos da ciência aberta

a interoperabilidade com outros repositórios de dados fica garantida;

• A Rede Cariniana (IBICT) dá suporte IBICT;

• Permite versionamento e preserva todas as versões;

• A preservação e acesso a longo prazo estão garantidos na identificação persistente;

• Ao depositar dados de pesquisa em um repositório Dataverse (incluindo Harvard Dataverse),

os pesquisadores podem cumprir os requisitos da agência de financiamento para planos de

gerenciamento de dados, o que não ocorre com o DSPACE, por exemplo;

• As publicações científicas são cada vez mais referenciadas a dados. Atualmente

estamos perdendo referências de pesquisadores da FGV para universidade de Harvard.

• A plataforma de repositório de dados traz os meios necessários para a replicabilidade da

pesquisa

(9)

BENEFÍCIOS

• Gestão de dados segura. O Dataverse cria condições de utilização e estabelecimento de

restrições, caso se deseje limitar o uso ou acesso aos dados.

• Partilha efetiva. Dataverse é uma forma conveniente para divulgar seus dados. A equipe pode

trabalhar on-line e sincronizar as alterações quando uma versão estiver concluída.

• Acompanhamento das mudanças. Dataverse oferece maior controle sobre gestão de mudanças

para um projeto sem substituir qualquer parte desse projeto.

• Acesso a longo prazo e preservação. A plataforma oferece identificação persistente para o

estudo e garante uma proteção confiável contra obsolescência de dados.

• Organização e compatibilidade. A plataforma conta com padrões de metadados para maximizar

a compatibilidade e busca no sistema.

• Economia de tempo. Dataverse tem uma interface fácil de usar para carregar e pesquisar os

dados.

• Aumento da visibilidade de pesquisa. A plataforma aumenta o reconhecimento acadêmico para

o trabalho científico.

(10)

INICIATIVA DE INSTALAÇÃO

• A universidade de Harvard

incentiva a adoção dessa

plataforma em outras

universidades, provendo vasta

documentação de instalação e

configuração

• No Brasil, o IBICT foi a primeira

instituição que adotou essa

plataforma. A FGV tem a

oportunidade de ser uma

referência no compartilhamento

de bases “abertas” ligadas a

pesquisa.

• Acabamos de instalar um piloto

• Verificar a utilização do Daverse

em:

(11)

PADRÕES DE METADADOS

Dentre os listados no re3Data.org (setembro de 2019), o mais utilizado era

o Dublin Core:

- Dublin Core (277)

- DDI - Data Documentation Initiative (161)

- DataCite Metadata Schema (142)

(12)

PLANO DE GESTÃO DE DADOS

O PGD é um documento de até duas páginas criado no início do projeto, descreve os dados

e metadados, organizados, armazenados, preservados e compartilhados com o objetivo de

facilitar a compreensão e a reutilização dos dados posteriormente.

Os PGDs incluem os seguintes itens:

- Descrição do projeto

- Autores e afiliações

- Tipos de dados produzidos

- Metadados

- Regras para distribuição e reutilização

- Planos de conservação e arquivamento

(13)

DESAFIOS

• Assinatura de serviços externos

- DOI

- ORCID

• Registrar o repositório no Re3data

• Obter investimento para a infra-estrutura tecnológica;

• Elaborar e executar treinamentos para equipe e pesquisadores;

• Equipe destacada para o projeto;

• Dar apoio e suporte aos especialistas relativo aos formatos, padrões, etc;

• Estabelecimento do projeto e apoio das unidades da FGV

(14)

Como a Ciência de Dados está ligada

ao Repositório de Dados

(15)

CIÊNCIA DE DADOS & REPOSITÓRIO DE DADOS

Resultados de uma

entrevista com 80 cientistas de dados:

A preparação dos dados

consome 79% do tempo dos cientistas de dados. Sendo 60% para organização e 19% para a coleta.

A etapa de “limpeza” e organização dos dados é considerada menos agradável por 57% dos entrevistados.

Nesse contexto, as

disciplinas de governança e de catálogo de dados são

destacadas, justamente por endereçarem questões que vão de encontro às

dificuldades sentidas pelos cientistas de dados.

Qual a importância de um repositório de dados na era de

ciência de dados?

(16)

Aspectos de um repositório

de dados

(17)

REPOSITÓRIO SOB O CONTEXTO DE

GOVERNANÇA DE DADOS

Políticas Taxonomia e Termos Regras de Governança ERPs Atividades de projeto Requisitos funcionais Histórias Aprovação Mudança Gestão de Projetos Modelos de Dados – Lógicos e Físicos Data Modeler IBM InfoSphere Information Governance Catalog Métrica de Qualidade e estatísticas Qualidade de Dados Repositório de fontes Deploy Packages Programas: Python, Java, Scala, R, Pig APIs Mgt Serviços Externos API Management Tabelas DB2 Mainframe Copybook Arquivo VSAM Bancos de Dados XML Scheduler de tarefas Log de execução Teradata Oracle DB2 Puredata Governança Input Colaboração MS-SQL Server My SQL Analytics Termos de Negócio Catalogo Termos TRX CICs XSD Scheduler Analise Estatística Big Data Código e Build

O estabelecimento de uma linguagem comum

Um repositório possibilita a navegabilidade entre um campo abstrato e um concreto:

O universo abstratoprevê a gestão conjunta de políticas, regras e significância de termos.

No universo concreto, os bancos de dados, arquivos, processos, indicadores de desempenho e de qualidade são implementados de forma subordinada aos conceitos do universo abstrato.

(18)

CICLO DE VIDA DO DADO DE PESQUISA

Políticas/Governança

Fontes de dados

Extração

Processamento

Publicação

𝐹

2

𝐹

1

𝐹

3

𝐹

𝑛

𝐸

1

𝐸

2

𝐸

3

𝐸

𝑛

Armazenamento,

arquivamento (descarte)

𝐹

𝑖

𝐹

𝑖

𝐹

𝑖

’’..

𝑃

(19)

A Plataforma Harvard

Dataverse

(20)

PRINCIPAIS ETAPAS PREVISTAS PARA

IMPLEMENTAÇÃO

Demanda

Decisões

iniciais

POC

Produção

Revisão

Implementação do DATAVERSE

Verificação de demanda junto a comunidade acadêmica.

Duas decisões precisam ser feitas antes do início da implementação: 1) formas de autenticação; 2) uso interno ou externo.

Prova de conceito do ambiente, com um grupo restrito de pessoas. Pode ser necessária interação com a comunidade de Harvard.

A entrada em produção marca o suporte oficial da instituição à

plataforma, buscando sempre o engajamento da comunidade

acadêmica.

Como software livre, a plataforma é sempre passível de contribuições, além de revisões em relação à demanda inicial. DOI, ~R$ 6.000/ano. ORCID, ~R$ 16.500/ano.

(21)

ARQUITETURA INICIAL PROPOSTA,

acesso interno no início do projeto

(pro

xy

reve

rso)

Se

rvi

ço

W

eb

A

pa

ch

e

G

la

ssf

ish

Ind

exa

do

r So

lr

Ba

se

d

e d

ad

os

Po

stg

re

SQL

RSe

rve

Autenticação no AD Via OAuth Um servidor Dataverse: • 2 vCPU • 8 GB RAM • 100 GB de armazenamento Administração: Sistema de Bibliotecas Comunidade FGV • Escolas, • Centros, • Institutos, • etc Dificuldades iniciais:

Autenticação integrada, a forma de autenticação precisa ser debatida, pois dependendo da opção, há custo e mão de obra especializada para implementação.

A diferença entre possuir um repositório próprio e usar o de Harvard precisa ser compreendida pela comunidade acadêmica. Mais de 600 universidades usam repositório próprio, indexadas pelo portal de Harvard.

(22)

Obrigada!

Equipe:

TI

Júlio César Chaves:

julio.chaves@fgv.br

Iuri Ferreira:

Iuri.ferreira@fgv.br

Felipe Vinhas:

felipe.vinhas@fgv.br

Biblioteca Digital

Maria do Socorro Almeida:

maria.socorro@fgv.br

Márcia Bacha:

marcia.bacha@fgv.br

Referências

Documentos relacionados

Figura 38 – Acompanhamento diário de peso dos animais tratados com ENSJ39 via oral e intraperitoneal, LE39 e LBR via intraperitoneal para avaliação da toxicidade aguda.. Dados

Assim, este trabalho buscou descrever o processo de construção do Plano de Desenvolvimento Institucional da Universidade Federal de Viçosa e verificar a presença

O relatório encontra-se dividido em 4 secções: a introdução, onde são explicitados os objetivos gerais; o corpo de trabalho, que consiste numa descrição sumária das

Os principais resultados obtidos pelo modelo numérico foram que a implementação da metodologia baseada no risco (Cenário C) resultou numa descida média por disjuntor, de 38% no

Bendito louvado seja Nosso Senhor Jesus Cristo Para sempre seja louvada A Nossa Mãe Maria Santíssima O Minha Mãe, Minha Rainha Tenha de nós compaixão Para nós poder sairmos

El hombre del Tercer Cine, ya sea desde un cine-guerrilla o un cine-acto, con la infinidad de categorías que contienen (cine-carta, cine-poema, cine-ensayo,

regresso à diocese do Porto, para proceder à dedicação do altar da Igreja do Mosteiro de Paço de Sousa (conc. de Penafiel), como nos testemunha um diploma dessa data que regista