• Nenhum resultado encontrado

Wagner Igarash

No documento Anais CONeGOV 2004 (páginas 55-61)

Grupo Stela - Universidade Federal de Santa Catarina - UFSC [email protected]

RESUMO

Plataforma Lattes é um conjunto de sistemas computacionais do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) que visa compatibilizar e integrar as informações em toda interação da Agência com seus usuários. Seu objetivo é aprimorar a qualidade dessas informações e racionalizar o seu preenchimento pelos pesquisadores e estudantes, apoiando principalmente a Agência em suas transações. Atualmente fazem parte da Plataforma Lattes o Diretório dos Grupos de Pesquisa, o Sistema de Currículos Lattes, o Diretório de Instituições, o Sistema Gerencial de Fomento e os Formulários Lattes de propostas. Os dados gerados por esses sistemas são reunidos e organizados em uma arquitetura de informações, denominada Data Warehouse da Plataforma Lattes, para apoio à tomada de decisão. O data warehouse da Plataforma Lattes tem por finalidade estabelecer infra-estrutura de informações e instrumentos para a análise das bases de ciência e tecnologia disponíveis no País, de forma integrada, uniforme e, principalmente, condizente com as demandas dos diferentes atores do sistema nacional de C&T.

Para tanto, segue a estrutura de distribuição de dados adotada entre o CNPq e as instituições, e a visão de divisão de assuntos relacionados aos processos suportados pela Plataforma.

Este artigo apresenta a arquitetura de data warehouse da Plataforma Lattes bem como os seus data marts e áreas de apresentação.

PALAVRAS-CHAVE: Plataforma Lattes, Data Warehouse, Sistema de Informação.

1.

INTRODUÇÃO

Os avanços expressivos das tecnologias da informação e da comunicação (TIC) têm transformado o mundo numa sociedade digitalmente conectada, que continuamente funciona 365 dias por ano, 7 dias por semana, 24 horas por dia. Entre os principais indutores dessa mudança, destacam-se a internet e a world wide web – que adicionaram uma nova e indispensável dimensão – e a academia, o comércio e o governo. O governo é uma organização responsável por um conjunto de serviços oferecidos direta ou indiretamente à população. Serviços são a face pública do governo, que é essencialmente um prestador de serviços, principalmente de serviços de informação (UNITED NATIONS, DPEPA, 2001).

A inclusão da dimensão “e” nos governos, com seus princípios de funcionamento na Sociedade da Informação, é apresentada no estudo das Nações Unidas sobre programas de governo eletrônico. Segundo as Nações Unidas, o governo desempenha quatro funções distintas: (a) determina as políticas e estruturas regulatórias; (b) entrega os programas e serviços de governo para o cidadão; (c) usa a infra-estrutura de informação para desenvolver práticas administrativas internas; e (d) inter-relaciona-se com os cidadãos no processo democrático de governo (UNITED NATIONS, DPEPA, 2001).

Nessa inclusão surge então a e-governança, que consiste na adoção pelo setor público das modernas TIC para entregar a todos os cidadãos: serviços melhorados, informação confiável e conhecimento para facilitar o acesso ao processo de governo e encorajar a participação ativa do cidadão. Resulta no comprometimento dos tomadores de decisão no estreitamento da parceria entre o cidadão e o setor público.

Osborne e Gaebler (1992) sugerem mudanças nas práticas de gestão do governo com base em princípios do empreendedorismo. Em “Reinventando o governo: como o espírito empreendedor está transformando o setor público”, os autores apontam dez princípios para orientar as novas práticas, alguns dos quais, atualmente, alguns autores contestam. Porém, para o início dos anos 90, o movimento “Reinventando o Governo” contribuía para algumas mudanças.

Castells (1999) reforça a necessidade de novas formas de atuação do governo utilizando tecnologias disponíveis associadas às práticas de gestão neoliberais: “O estado rede”.

O que se percebe é que o movimento de deixar cada vez mais transparentes as ações do governo, ou seja, levar a informação para o cidadão, está cada vez mais presente. A oferta de serviços baseados em TI cresce significativamente. O computador faz parte do dia-a-dia das pessoas e das empresas e, cada vez mais, da relação entre os diferentes agentes da sociedade. Zhu et al. (2002, p. 69) afirmam que “para permanecerem competitivos, fornecedores de serviços estão progressivamente oferecendo a seus clientes opções de serviços baseados em TI” e ainda que o rápido desenvolvimento das tecnologias da informação e da comunicação durante os anos 90 tem viabilizado a empresas e órgãos do governo introduzir mais e mais serviços baseados na tecnologia high tech.

A tecnologia da maioria dos novos projetos de sistemas de informações foi ou está sendo desenvolvida através de uma técnica denominada data warehousing (DW). Os projetos de DW têm como propósito a concepção de sistemas baseados na estruturação de um “armazém” de dados, organizados para atender às necessidades de tomada de decisão e tendo como origem os dados gerados pelas operações cotidianas da organização. Segundo o instituto IDC, em 2000 foram gastos mais de U$ 5 bilhões de dólares apenas em soluções de data warehousing baseadas em pacote (BORT, 2001).

Plataforma Lattes é um conjunto de sistemas computacionais do CNPq que visa a compatibilizar e integrar as informações em toda interação da Agência com seus usuários. Seu objetivo é aprimorar a qualidade dessas informações e racionalizar o seu preenchimento pelos pesquisadores e estudantes.

O data warehouse da Plataforma Lattes tem por finalidade estabelecer infra-estrutura de informações e instrumentos para a análise das bases de ciência e tecnologia disponíveis no País, de forma integrada, uniforme e, principalmente, condizente com as demandas dos diferentes atores do sistema nacional de C&T. Para tanto, segue a estrutura de distribuição de dados adotada entre o CNPq e as instituições, e a visão de divisão de assuntos relacionados aos processos suportados pela Plataforma. Para apresentar a arquitetura estruturada para o CNPq, é exibida uma discussão da técnica data warehousing, seus principais elementos, as fases da construção e os aspectos de implementação. Posteriormente, fundamenta-se a arquitetura utilizada, segundo o contexto da construção de DWs.

2.

DATA WAREHOUSING

Datawarehousing consiste em técnica de desenvolvimento de sistemas de informações em que a preparação dos dados e do ambiente é baseada em um DW. Segundo Inmon (1997, p. 33), DW é “um conjunto de dados baseado em assuntos, integrado, não volátil e variável em relação ao tempo, de apoio às decisões gerenciais”. Analisando essa definição, podem-se abstrair as seguintes características:

DW é baseado em assuntos: o DW é projetado com o intuito de fornecer informações estratégicas sobre o negócio;

DW é integrado: ao projetar-se o modelo de dados do DW, tem-se o cuidado de eliminar as redundâncias e as possibilidades de respostas ambíguas;

DW não é volátil: o princípio da alimentação de dados no DW é o de que, em determinados períodos, serão extraídos dados dos sistemas operacionais e armazenados no DW. Uma vez armazenado, o dado não sofrerá alterações;

DW é variável em relação ao tempo: com o acúmulo de dados sobre diversos períodos, o DW fornecerá subsídios para análises do negócio em tempos diferentes, possibilitando análises de regressões, tendências, etc.

O esquema de funcionamento de um DW pode ser dividido em processos básicos: a extração de dados dos sistemas operacionais, o armazenamento dos dados e a apresentação de informações, conforme ilustrado na Figura 1 (SELL, 2001).

Por “extração de dados” entende-se a concepção ou aquisição e parametrização das ferramentas que realizarão as tarefas de coleta, limpeza, transformação e migração dos dados operacionais ao DW. A realização das tarefas desta fase constitui um dos processos mais complexos no data warehousing (KIMBALL,1998; INMON, 1997).

Figura 1 - Data Warehousing

Fonte: Adaptado de Armstrong (2004).

No conceito de armazenamento dos dados é fundamental a concepção de repositório de informações, núcleo do ambiente do DW. Nesse estarão organizados os dados extraídos dos sistemas que atuam sobre as operações da organização e que serão transformados para atenderem a seus processos de tomada de decisão (INMON, 1997; KIMBALL, 1998).

A apresentação das informações do DW envolve a interface que o decisor terá para requisitar e ver atendidas suas solicitações (feitas em aplicações clientes e atendidas pelo computador servidor que atua junto ao DW) (TANLER, 1998).

Todo o processamento no DW é orientado pelos metadados. Definido como “dados sobre os dados”, o metadado é um repositório de informações sobre as regras de formação dos dados, a origem, as modificações, etc. Assim, o metadado tem como função incluir todo e qualquer dado necessário para atender às necessidades do projetista, do administrador do DW e a utilização da informação por parte dos usuários finais (BRACKETT, 1996).

Arquiteturas de DW

A arquitetura do DW determina como se dá a organização de seus componentes, e sua definição constitui tarefa crucial para o projeto, devido à grande dependência existente entre a implementação dos componentes e sua organização. Os componentes de um DW são distribuídos em três áreas: extração, armazenamento e apresentação (Figura 1).

Várias são as arquiteturas descritas na literatura e propostas por empresas de consultoria especializada, entre as principais figuram a Top-Down, a Bottom-Up e a BUS. As diferenças entre essas arquiteturas referem-se à forma de implementação das áreas do DW, principalmente da área de apresentação e de armazenamento.

Fonte: Adaptado de Firestone (2000).

A arquitetura Top-Down foi introduzida por Inmon (1997) e é caracterizada pela existência de um DW centralizado que reúne todos os dados relativos à organização e uma série de data marts derivados do DW (Figura 2). O modelo adotado no DW normalmente é entidade- relacionamento (baseado em modelagem de bancos de dados relacionais). Nos data marts utiliza-se modelo dimensional (específico para a teoria de DW). A área de extração é composta de uma única área de estágio e de um único mecanismo de extração.

A arquitetura Bottom-Up caracteriza-se pelo armazenamento e pela extração a partir da criação incremental de vários data marts independentes, com metadados e área de extração individualizadas, no conjunto, formando as fontes de dados do DW. A área de extração é composta de áreas de estágio e mecanismos de extração distintos para cada data mart. Esta arquitetura é conhecida também por legamart, devido à coleção de data marts não integrados, ilustrada na Figura 3 (VASCONCELOS, 1999; FIRESTONE, 2004).

Figura 3 - A arquitetura Bottom-Up

Fonte: Adaptado de Firestone (2004).

A arquitetura BUS foi introduzida por Kimball (1998) e caracteriza-se por sua estrutura de armazenamento composta de vários data marts planejados e integrados através do metadado único e de tabelas de fatos e

Ferramenta de Extração Sistema 1 Sistema 2 Data Warehouse Data Mart A Data Mart B Área de Estágio Metadados Sistema 1 Sistema 2 Data Mart B Área de Estágio B Ferramenta de Extração B Data Mart A Área de Estágio A Ferramenta de Extração A Metadado A Metadado B

dimensões padronizadas. Antes de iniciar a construção do DW, são definidos os data marts a serem construídos e as dimensões e os fatos comuns. Cada data mart é construído respeitando a pré-estruturação dos fatos e das dimensões comuns. O DW é composto da união dos data marts, sendo coordenado pelos metadados (Figura 4).

Figura 4 - A arquitetura BUS

Fonte: Adaptado de Firestone (2004).

A área de extração é composta de uma única área de estágio e de um mecanismo de extração único. Algumas variações desta arquitetura são discutidas em Firestone (2004), as quais apresentam áreas de extração independentes e alternativas ao esquema de metadados originalmente proposto. Há, ainda, variações das arquiteturas citadas quanto ao ODS (Operational Data Store), repositório de integração dos dados operacionais, à área de extração ou às organizações de metadados e da área de armazenamento nos estudos de Firestone (2004), Tanler (1998) e Kimball (1998).

3.

ARQUITETURA DE DATA WAREHOUSE DA PLATAFORMA

LATTES

Nos últimos quatro anos, a Plataforma Lattes tem comprovado a viabilidade de um projeto nacional de concepção de informações, integrada e harmônica aos diferentes atores do sistema brasileiro (e internacional) de C&T. O aumento acentuado na cobertura da base nacional de C&T e a melhora significativa na qualidade das informações disponíveis permitem análises e avaliações da atividade científica nacional, anteriormente inviabilizada pela ausência de fontes de dados.

Esses desenvolvimentos constituíram-se em passo fundamental na concepção de sistemas interoperativos e articulados, cuja fonte de informação pode estar em qualquer um dos atores institucionais do cenário de C&T (universidades, agências ou instituições de pesquisa). Essencial, a uniformização atende às atividades de operação em C&T, mas por si só não viabiliza estatísticas cruzadas e indicadores globais de C&T. Por exemplo, dados como a evolução do fomento à pesquisa no País, por instituição, região, apresentados segundo área do conhecimento e na forma de instrumentos e anos de sua aplicação, são de difícil obtenção quando a informação de origem encontra-se em sistemas de operação das instituições envolvidas (ainda que uniformizados semanticamente).

Sistema 1

Sistema 2

Área de

Estágio

Ferramenta de

Extração

Data Mart A

Data Mart A

Data Mart A

Data Warehouse

BUS

Metadados

O data warehouse da Plataforma Lattes é formado pela reunião de data marts1 integrados, projetados para agregar dados associados ao fomento (bolsas, auxílios integrados e passagens), aos currículos dos pesquisadores e estudantes e ao diretório de grupos de pesquisa, além de outros dados contextuais.

Através do cruzamento dos dados associados aos data marts, é possível se obter um panorama geral das atividades de pesquisa e o reflexo do fomento sobre a produtividade e a formação de pesquisadores e estudantes ao longo do tempo. As informações podem ser obtidas através da utilização de variadas ferramentas de publicação que compõem a área de apresentação da Plataforma Lattes.

Entre os componentes da área de apresentação, figuram:

Portal Lattes de C&T: portal de integração nacional dos atores de Ciência e Tecnologia que visa

disponibilizar as informações da Plataforma Lattes em formatos e sínteses específicas para cada grupo de usuários atores em C&T;

Portal Internacional de C&T: agrega serviços e recursos que promovam a integração dos atores de C&T

dos diversos países participantes de um programa de intercâmbio de dados;

Portal dos Grupos de Pesquisa: subsidiará a formação de comunidades virtuais temáticas com base nas

informações do Diretório de Grupos de Pesquisa, além de disponibilizar várias informações censitárias e históricas;

Sistemas Extratores: instrumentos de extração e disponibilização dos dados de C&T do CNPq, segundo

padronização estabelecida com as instituições interessadas e de acordo com as normas estabelecidas pela Agência;

Instrumentos de Link-Análises: instrumentos que permitem estudos de correlações de variáveis nas

diferentes unidades de informação concebidas na Plataforma Lattes (CVs, grupos, projetos, auxílios, bolsas, etc.);

Instrumentos Analistas Lattes: métodos e instrumentos de investigação, indução, avaliação e análises de

C&T no âmbito do CNPq (exemplo, estratificação de pesquisadores e grupos de pesquisa);

Instrumentos Lattes Mining: ações de pesquisa e desenvolvimento de métodos e instrumentos de

investigação, avaliação e extração de conhecimento a partir das bases de dados da Plataforma Lattes.

Os dados inseridos no repositório de dados de cada data mart são extraídos a partir dos sistemas operacionais componentes da Plataforma Lattes, através de aplicações desenvolvidas nas linguagens de programação Java (SUN) e PL/SQL (Oracle). Os dados são coletados junto aos sistemas e inseridos em um repositório denominado área de estágio. Nessa área, os dados são tratados e consolidados para posterior incorporação nos data marts correspondentes. Esse processo é ilustrado na Figura 5.

A arquitetura do data warehouse prevê ainda a replicação de dados, permitindo que os dados associados aos currículos dos pesquisadores sejam mantidos também nas universidades e nos institutos de pesquisa, possibilitando que a própria universidade gerencie a publicação dos dados e possa integrá-los aos seus sistemas internos. Essa solução é parte integrante do Sistema Lattes Institucional, o qual será descrito mais adiante.

1 Repositório de dados orientados a assuntos, que, reunidos, constituem um data warehouse (KIMBALL,

Figura 5 - Processo de Carga e Publicação de Dados

A seguir são apresentados os data marts componentes da arquitetura de Data Warehouse da Plataforma Lattes.

No documento Anais CONeGOV 2004 (páginas 55-61)