• Nenhum resultado encontrado

FREDERICO CLÁUDIO PEIXINHO

N/A
N/A
Protected

Academic year: 2021

Share "FREDERICO CLÁUDIO PEIXINHO"

Copied!
115
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

FREDERICO CLÁUDIO PEIXINHO

SISTEMA DE APOIO À DECISÃO APLICADO À GESTÃO DE

RECURSOS HÍDRICOS SUBTERRÂNEOS

RIO DE JANEIRO

2012

(2)

FREDERICO CLÁUDIO PEIXINHO

SISTEMA DE APOIO À DECISÃO APLICADO À GESTÃO DE RECURSOS

HÍDRICOS SUBTERRÂNEOS

Dissertação apresentada ao Curso de Mestrado Profissional em Computação Aplicada do Centro de Ciências e Tecnologia - CCT da Universidade Estadual do Ceará, como requisito parcial para a obtenção do grau Mestre em Computação Aplicada.

Orientador(a): Prof. Dr. Flávio Luis de Mello

RIO DE JANEIRO 2012

(3)

F363m Peixinho, Frederico Cláudio

Sistema de Apoio à Decisão aplicado à Gestão de Recursos Hídricos Subterrâneos. — Rio de Janeiro, 2012.

125 p. : il.

Orientador: Prof.Flávio Luis de Mello, D. Sc. (UFRJ) Monografia (Mestrado em Computação Aplicada) – Universidade Estadual do Ceará, Mestrado Profissional em Computação Aplicada.

1. SAD. 2. Sistema de Apoio à Decisão. I. Universidade Estadual do Ceará, Mestrado Profissional em Computação Aplicada.

(4)

FREDERICO CLÁUDIO PEIXINHO

SISTEMA DE APOIO À DECISÃO APLICADO À GESTÃO DOS RECURSOS HÍDRICOS SUBTERRÂNEOS

Dissertação apresentada ao Mestrado Profissional em Computação Aplicada do Centro de Ciências e Tecnologia – CCT da Universidade Estadual do Ceará, como requisito parcial para a obtenção do grau Mestre em Computação Aplicada.

Aprovada em: 21/03/2012

BANCA EXAMINADORA

_______________________________________________ Prof. Dr. Flávio Luis de Mello, D.Sc. (Orientador)

Universidade Federal do Rio de Janeiro – UFRJ

________________________________________________ Prof. Dr. Luiz Felipe Coutinho, D.E.

Instituto Militar de Engenharia – IME

________________________________________________ Prof. Dr. Airton Fontenele Sampaio Xavier, D.Sc.

Universidade Estadual do Ceará – UECE

________________________________________________ Prof. Dr. Marcos José Negreiros Gomes, D.Sc.

(5)

DEDICATÓRIA

À minha esposa e filhas que sempre estiveram presentes me estimulando e compartilhando os momentos de dificuldades e renúncias.

(6)

AGRADECIMENTOS

A Deus por me permitir transitar na vida terrena com o compromisso do aprimoramento intelectual e moral, tendo a ciência e o saber, como fio condutor para o meu progresso espiritual.

À UFRJ – Escola Politécnica da Universidade Federal do Rio de Janeiro, uma referência no ensino superior.

Aos professores, do Mestrado Profissional em Computação Aplicada da UECE, que tanto contribuíram com seus ensinamentos, incentivos e apoio a este trabalho.

Em especial, aos professores José Francisco Julião, DSc. (MPCOMP), e Airton Xavier,

DSc. (UECE), que transferiram com maestria os seus conhecimentos e saberes, bem como

incentivaram e apoiaram no desenvolvimento desta dissertação.

Igualmente e em especial, aos professores Flávio Luis de Mello, DSc. (UFRJ) e Edilberto

Strauss, Ph.D. (UFRJ) que me orientaram e incentivaram, respectivamente, na condução

deste trabalho.

Aos colegas do Mestrado Profissional em Computação Aplicada, realizada na UFRJ – Rio de Janeiro, pelo estímulo e contribuição.

Aos colegas de trabalho, Ricardo Villafan, Maria Antonieta Mourão, Francisco Barbosa,

Marcos Nóbrega, Josias Lima, Leonardo da Matta, Maria Cristina Maio e parentes Carolina Carneiro Peixinho e Priscila Peixinho Fiorindo, que contribuíram com sugestões,

material e informações.

A todos que direta ou indiretamente contribuíram com sugestões, material e informações e que por lapso ou esquecimento não foram citados.

(7)

―Ergo a cabeça ela não treme se a busco não a encontro vazia.‖ Aristóteles Damasceno Peixinho, meu pai.

(8)

RESUMO

Esta dissertação apresenta uma metodologia, apoiada no Business Intelligence (BI), para oferecer apoio à decisão do setor de recursos hídricos subterrâneos, dado que este recurso é vital e estratégico para a implementação das políticas públicas e a melhoria da qualidade de vida da população de uma dada região. A ideia fundamental consistiu em propor um modelo para projetar um sistema de apoio à decisão, a partir da base de dados operacional, que enriquecida e sintetizada, resulta numa base de dados referencial, servindo esta de suporte para a construção de um repositório de dados (Data Warehouse) para em seguida, utilizar tecnologias OLAP (On-line Analytical Processing) e algoritmos de Mineração de Dados

(Data Minning). A abordagem metodológica se apoia nos principais componentes do BI -

Base de Dados (Data Warehouse), Análise de Negócio (OLAP e Data Mining), Monitoria e Avaliação do Desempenho (Business Performance Management). Neste sentido, este trabalho contribuiu para internalizar a cultura de BI no ambiente de recursos hídricos subterrâneos; fomentar o uso pelos tomadores de decisão de ferramentas mais apropriadas na gestão de recursos hídricos subterrâneos; enriquecer a base de dados de poços profundos administrada pelo sistema de apoio à decisão; aumentar da eficácia no armazenamento, operação e gestão de base de dados de águas subterrâneas; e melhorar a produtividade e a qualidade dos serviços prestados em recursos hídricos subterrâneos.

Palavras - Chave: Data Warehouse, OLAP, Data Mining, Business Performance

(9)

ABSTRACT

This dissertation aims to present a methodology, based on Business Intelligence (BI) to provide decision support to managers and business analysts in the field of groundwater resources, considering that this resource is vital and strategic to the implementation of public policies and improved quality of life in a given region. The fundamental idea is to propose a methodology to extract a basic framework that will support the construction of data repository (Data Warehouse) from the enriched and synthesized operational database. Then, the next steps consists of the application of OLAP technology (Online Analytical Processing) and Data Mining algorithms (Data Mining), to provide historical and current data of performance, and a better understanding of the usage profile and the use of groundwater resources. The methodological approach relies on major components of BI - Database (Data Warehouse), business analysis (OLAP and Data Mining), performance assessment (Business Performance Management) and user interface (Dashboard) - applied to the groundwater operational database. Thus, the present study contributed to: internalize the culture of BI in groundwater resources environment; promote the use of appropriate tools by decision makers in the management of groundwater resources; enrich the deep wells database that is managed by support system decision; increase efficiency in operating and managing groundwater database; and improve the productivity and the quality of services rendered in groundwater resources.

Key-words: Data Warehouse, OLAP, Data Mining, Business Performance Management,

(10)

LISTA DE FIGURAS

Figura 1- Distribuição da Água na Terra ... 16

Figura 2 - Distribuição Percentual do Povoamento do Banco de Dados SIAGAS ... 23

Figura 3 - Etapas do Processo KDD ... 29

Figura 4 - Estrutura e Visualização do Data Warehouse ... 35

Figura 5 - Interatividade entre Funcionalidades e Técnicas de Mineração de dados .... 47

Figura 6 - Funcionalidades em Mineração de Dados ... 48

Figura 7 - Sub-funcionalidades da Análise e do Descobrimento ... 49

Figura 8 - Gráfico de Nível d’água de um Poço – USGS ... 61

Figura 9 - Modelo Conceitual do SAD Aplicado aos Recursos Hídricos Subterrâneos.. 64

Figura 10 - Modelo de Negócio do SAD Aplicado aos Recursos Hídricos Subterrâneos ... 68

Figura 11 - Modelo de Dados SIAGAS ... 72

Figura 12 - Módulo de Entrada de Dados ... 73

Figura 13 - Módulo de Consulta na Web – cruzamento de informação espacial e Tabular ... 74

Figura 14 - Módulo de Consulta na Web – espacialização de dados ... 74

Figura 15 - Módulo de Análise e Interpretação de Dados – relatórios ... 75

Figura 16 - Rede RIMAS – Mapa de Situação dos Aquíferos ... 76

Figura 17 - Mapa de Distribuição dos Poços Cadastrados na Base de Dados ... 78

Figura 18 - Arquitetura de um Operacional Data Store (ODS) ... 81

Figura 19 - Modelo Lógico do MGE ... 88

Figura 20 - Modelo Conceitual do SAD ... 93

Figura 21: Mapa de Localização dos Poços ... 98

Figura 22 - Mapas de Isovalores de Qualidade de Água ... 99

(11)

LISTA DE TABELAS

Tabela 1 - Os quatro níveis de dados do ambiente arquitetural de um

data warehouse ... 36

Tabela 2 - Exemplos de consultas referentes aos quatro níveis de dados ... 37

Tabela 3 - Funcionalidades e suas técnicas para mineração de dados ... 50

Tabela 4 - Quadro geral de atributos relevantes cadastrados na base de dados ... 80

(12)

LISTA DE ABREVIAÇÕES E SIGLAS

ANA Agência Nacional de Águas BI Business Intelligence

BPM Business Performance Management

BSC Balanced Scorecard

CPRM Companhia de Pesquisas e Recursos Minerais DM Data Mining

DNAEE Departamento Nacional de Águas e Energia Elétrica DW Data Warehouse

EIS Executive Information Systems

ETL Extration, Transformation and Load

KDD Knowledge Discovery in Data Bases

ODS Operational Data Store

OLAM On-line Analytical Mining

OLAP On-Line Analytical Processing OLTP On-line Transaction Processing

OMS Organização Mundial da Saúde

PNRH Política Nacional de Recursos Hídricos

PNUMA Programa das Nações Unidas para o Meio Ambiente

RIMAS Rede Integrada de Monitoramento das Águas Subterrâneas do Brasil ROLAP Relational On-Line Analytical Processing

SIAGAS Sistema de Informações de Águas Subterrâneas SAD Sistema de Apoio à Decisão

SNIRH Sistema Nacional de Informações sobre Recursos Hídricos SQL Strutured Query Language

SGB Serviço Geológico do Brasil USGS United State Geological Survey

WEKA Waikato Environment for Knowlegde Analysis

(13)

SUMÁRIO 1 – INTRODUÇÃO ... 15 1.1 Contextualização ... 15 1.2 Justificativa ... 21 1.3 Objetivos ... 23 1.4 Estrutura da Dissertação ... 24 2 – FUNDAMENTAÇÃO TEÓRICA ... 26 2.1 Contextualização ... 26

2.2 Sistema de Apoio à Decisão ... 27

2.3 O processo de Busca do Conhecimento em Banco de Dados ... 29

2.4 Data Warehouse ... 31

2.5 Data Mart ... 32

2.6 Metadados ... 34

2.7 Granularidade ... 34

2.8 Visão Geral do Processo de Data Warehouse ... 34

2.9 Arquitetura Geral do Data Warehouse ... 36

2.10 Processo de Extração, Transformação e Carga – ETL ... 39

2.11 Modelagem Multidimensional ... 40

2.12 Análise de Negócios e Visualização de Dados ... 41

2.13 Tecnologia OLAP ... 42

2.14 Multidimensionalidade – Cubo de Dados ... 43

2.15 Data Mining ... 44

2.15.1 Funcionalidades da Mineração de Dados ... 46

2.15.2 Análise Descritiva... 48

2.15.3 Análise de Prognóstico ... 49

2.15.4 Técnicas para Obtenção das Funcionalidades ... 50

2.15.5 Algumas técnicas e algoritmos utilizados na mineração de dados ... 52

2.15.6 Abordagem de Mineração de Dados ... 54

2.16 Business Performance Management ... 55

2.16.1 Balanced Scorecard ... 56

2.16.2 Arquitetura do BPM ... 58

2.16.3 Dashboard e Scorecards ... 58

2.17 Trabalhos Relacionados ... 59

3 – MODELO CONCEITUAL DE SOSTEMA DE APOIO À DECISÃO – SAD ... 63

3.1 Descrição Geral ... 63

3.2 Modelo de Negócio ... 65

3.2.1 Modelo de Proposta de Valor ... 65

3.2.2 Modelo de Interface do Usuário ... 66

3.2.3 Modelo de Operação . ... 67

3.2.4 Modelo Estratégico ... 68

3.2.5 Modelo Econômico ... 70

3.3 Descrição do Sistema Operacional – SIAGAS/RIMAS ... 71

3.4 Preprocessamento ... 77

3.5 Estrutura do Data Store Operacional ... 80

3.6 Data Warehouse Departamental ... 82

(14)

3.7.1 Análise do Negócio das Águas Subterrâneas ... 83

3.7.2 Relatórios e Consultas para Visualização dos Dados... 85

3.8 Business Performance Management (BPM) ... 87

4 – SAD APLICADO A ESTUDO DE CASO ... 90

4.1 Critérios para Seleção de Projeto Piloto ... 90

4.2 Caracterização da Empresa ... 90

4.3 Projeto Piloto ... 91

4.4 Diagnóstico do Estado da Arte do Sistema de Apoio à Decisão Aplicado aos Recursos Hídricos Subterrâneos... 92

4.5 Implantação do Modelo Proposto na Área do Projeto Piloto ... 93

4.5.1 Preprocessamento: Análise de Consistência e Enriquecimento da Base de Dados ... 93

4.5.2 Base de Dados Operacional/ Data Store Operacional... 94

4.5.3 Criação de Data Warehouse ... 94

4.5.4 Análise do Negócio ... 95

4.5.5 Business Performance Management – BPM ... 99

5 – CONSIDERAÇÕES FINAIS ... 102

REFERÊNCIAS BIBLIOGRÁFICAS ... 104

(15)

1 INTRODUÇÃO

Este capítulo introdutório descreve as principais motivações para realização do trabalho, apresenta os objetivos e a justificativa da pesquisa e finaliza expondo a estrutura e organização da dissertação.

1.1 Contextualização

A abundância e a escassez de água tem tido, através dos tempos, profundas repercussões na evolução dos povos, influenciando em certas regiões, em função das disponibilidades hídricas, as condições de florescimento, fixação e desenvolvimento das civilizações (CUNHA, 1980).

A água é um bem vital e estratégico para a humanidade e representa uma moeda de negociação cada vez mais valiosa entre as nações. Na atualidade as mudanças climáticas, o crescimento populacional, o aumento vertiginoso da concentração urbana, os desastres naturais, envolvendo eventos hidrológicos extremos e a deficiente infraestrutura hídrica (saneamento básico) são os principais fatores que têm trazido enormes prejuízos sociais e econômicos, principalmente, às populações menos assistidas.

Segundo (TUNDIZI, 2003, p.7), é falsa a aparente concepção de que a água doce é abundante. Somente 2,5 % da água do planeta é disponível como água doce. Destes 2,5 %, cerca de 75% estão congelados nas calotas polares e cerca de 10% estão reservados aos aquíferos. Portanto 15% dos 3% de água doce estão disponíveis. A figura 1 apresenta a distribuição da água na Terra. Vale considerar que o suprimento global tem reduzido gradativamente com o aumento da população, dos usos múltiplos e com a perda do mecanismo de retenção da água.

(16)

FIGURA 1 - Distribuição da Água na Terra

Fonte: REBOUÇAS (2002), adaptado de SHIKLOMANOV(1998)

O mapa mundial assinala que está se ampliando as regiões do planeta com enorme ―déficit” hídrico e com consequentes problemas relacionados à saúde pública.

De acordo com o relatório sobre Economias Verde lançado em Estocolmo pelo Programa das Nações Unidas para o Meio Ambiente (PNUMA) durante a Conferência da Semana Mundial da Água, em agosto de 2011, quase 1 bilhão de pessoas não têm acesso à água; 2,6 bilhões não têm acesso ao saneamento básico; e 1,4 milhões de crianças menores de cinco anos morrem a cada ano como resultado da falta de acesso à água potável e aos serviços adequados de saneamento básico UNESCO/UNEP (United Nations Environmental, 2011).

Estudos técnicos mundiais indicam que mais de 76 milhões de pessoas, a maioria crianças, morrerão de doenças relacionadas com a água até 2020, a não ser que se adotem medidas urgentes para recuperar os mananciais hídricos do planeta.

Segundo a Organização Mundial de Saúde (OMS), em relatório produzido em 2000, estima-se que 04 (quatro) bilhões de casos de diarreias ocorrem a cada ano, matando cinco milhões de pessoas. No Brasil, morrem atualmente 29 pessoas/dia por doenças decorrentes da qualidade da água e do não tratamento de esgotos.

O Brasil, país de dimensão continental, possui uma grande disponibilidade hídrica, distribuída de forma desigual em relação à densidade populacional. A produção total das águas doces, no Brasil, representa 53% do continente sul-americano (334.000 m3/s) e 12% do total mundial (1.488.00 m3/s) (REBOUÇAS, 1996). Os principais problemas em recursos hídricos no Brasil são:

(17)

 escassez de água, principalmente, na região semi-árida brasileira;

 desastres naturais envolvendo eventos hidrológicos extremos (secas e inundações);

 conflitos de uso da água principalmente nas regiões decorrentes dos seus usos múltiplos;

 contaminação das águas superficiais e subterrâneas.

Para enfrentar estes problemas, no âmbito da gestão dos recursos hídricos, foi instituída pela Lei 9.433, em 08 de janeiro de 1997, uma nova Política Nacional de Recursos Hídricos - PNRH, fundamentada nos princípios da gestão descentralizada e participativa.

Todavia, os efeitos negativos dos problemas acima apontados – em especial a escassez de água decorrente das estiagens e secas no semiárido - sobre a população são manifestados pela fome, sede e miséria e estão atrelados à extrema vulnerabilidade da estrutura econômico-social e à baixa eficácia de mecanismos adotados para o aproveitamento, preservação, controle e gestão dos recursos hídricos e para o fortalecimento da economia local.

Os problemas sociais decorrentes da seca inserem-se nas grandes questões de ordem nacional, dada à magnitude e o número de pessoas atingidas. Com vistas a minimizar os perversos efeitos da estiagem, o governo tem adotado medidas de intervenção de natureza emergencial, destinadas a assegurar os meios mínimos de subsistência das populações nos períodos mais críticos, ou de caráter permanente que visam ao fortalecimento da infraestrutura local, a partir da execução de obras públicas (barragens, açudes, poços tubulares, etc.).

Um exemplo deste fato foi o Programa Emergencial de Combate aos Efeitos da Seca, instituído em 1998, através do Decreto nº 2618, de 05.06.1998 que teve como meta a perfuração, recuperação de poços tubulares e a implantação de dessalinizadores nos municípios inseridos no Polígono das Secas.

Como aspectos positivos deste Programa merecem ser destacados o modelo participativo de tomada de decisão; a validação técnica das obras era feita por órgão independente e credenciado (Companhia de Pesquisa de Recursos Minerais - CPRM) e a execução de obras (construção e recuperação de poços) que resultaram na melhor relação custo-benefício do empreendimento.

Não obstante os pontos positivos deste Programa, muitos problemas estruturais e recorrentes permaneceram, dentre os quais se destacam:

(18)

 gestão e controle ineficaz, pelo Estado, das águas subterrâneas, sob os quais detêm competência legal, visando o disciplinamento do seu uso. Como resultado agravam-se os problemas de superexplotação (excesso de retirada de água) e contaminação dos aquíferos;

 inexistência de um sistema permanente de monitoramento e controle da perfuração de poços. Diversos órgãos têm bases de dados próprias, na maioria, desatualizadas e despadronizadas.

De acordo com a cartilha elaborada pelo Ministério de Meio Ambiente, em 2001, relativa ao Programa de Águas Subterrâneas (KETTLELHUT, 2001), são os seguintes desafios a serem enfrentados nesta área:

 a necessidade da gestão integrada da água com base nos instrumentos da Política Nacional de Recursos Hídricos;

 o controle dos usos e da qualidade das águas insatisfatórios, em face da dispersão e falta de articulação legal e institucional;

 as legislações existentes apresentavam lacunas e até mesmo conflitos carecendo de ajustes para promover uma gestão integrada dos recursos hídricos;

 existência de reconhecida carência de conhecimentos básicos em águas subterrâneas, que necessitam ser rapidamente desenvolvidos;

 a necessidade de mobilização social que resulte na vigilância da sociedade sobre o uso e controle racionais das águas subterrâneas.

A CPRM - o Serviço Geológico do Brasil – (SGB), estabeleceu como diretriz estratégica desenvolver um Sistema de Informações de Águas Subterrâneas – SIAGAS, o qual foi implantado em 1996. A referida instituição definiu como estratégia manter estreita articulação com outros organismos provedores de dados, em especial os órgãos estaduais gestores dos recursos hídricos, firmando Acordos de Cooperação Técnica, de modo a garantir um padrão de referência nesta área e possibilitar a integração de bases de dados. Nesta vertente, ela priorizou o Programa de Água Subterrânea para a região Nordeste, em particular, o ―Cadastramento de Fontes de Abastecimento por Água Subterrânea‖.

Neste sentido, a empresa vem realizando desde 1998 o citado cadastramento, inicialmente, nos estados do Ceará e Sergipe, ampliando sua atuação para todo o território nacional.

A alimentação da base de dados do SIAGAS é feita através das fichas de poços, fornecidas por entidades públicas e privadas. Estas fichas, elaboradas à época da construção

(19)

do poço, apresentavam inconsistências (coordenadas geográficas incorretas) e imprecisões (campos não preenchidos) que estão sendo depuradas pelo SGB.

Em 2009, a CPRM implantou a Rede Integrada de Monitoramento de Águas Subterrâneas do Brasil – RIMAS que se constitui numa nova fonte de dados de poços para base de dados operacional de águas subterrâneas. Os dados gerados nesta rede além de serem mais representativos e confiáveis têm a característica de registrar variações temporais dos parâmetros hidrogeológicos, permitindo avaliar o comportamento dos processos hidrológicos e gerar relatórios que possam estabelecer tendências e avaliar cenários sobre a utilização dos recursos hídricos subterrâneos.

O monitoramento das águas subterrâneas, através da rede RIMAS, gerando dados contínuos e completos; a coleta e medição dirigida de parâmetros nos poços existentes; a alimentação da base de dados com poços oriundos do processo de outorga pelo uso da água são procedimentos que resultam no enriquecimento da base de dados operacional de águas subterrâneas e contribui para melhorar o sistema de apoio à decisão em recursos hídricos.

A base de dados operacional de águas subterrâneas conta com expressiva quantidade de poços cadastrados e tem a tendência, nos próximos anos, de aumentar significativamente o volume de dados armazenados. Este cenário sinaliza para que se disponha de ferramentas de gerenciamento eficaz de armazenamento de dados, com o uso de sistemas inteligentes, baseados em descoberta de conhecimento.

Segundo (RAMOS et al.,1989), a área geocientífica, em especial, a hidrologia – ciência que estuda a ocorrência, a distribuição o movimento e propriedades da água na atmosfera, na superfície e no subsolo terrestre - envolve a realização de estudos de fenômenos de natureza estocástica (precipitação, vazão, níveis de água, etc.), exigindo a formação de séries hidrológicas extensas para se ter uma melhor predição e representatividade do fenômeno analisado.

O ambiente de negócio que as organizações, de um modo geral, operam hoje em dia é cada vez mais competitivo, complexo e com rápidas mudanças. As instituições que atuam em recursos hídricos estão submetidas a um tipo especial de pressão do ambiente público e da sociedade no sentido de garantir o fornecimento dados, informações e conhecimentos hidrológicos para atender a política de recurso hídrico à gestão e aproveitamento racional dos recursos hídricos. Tomar decisões neste campo exige quantidades consideráveis de dados oportunos e relevantes, além de informações e conhecimento. Desta forma essas organizações devem buscar inovar suas práticas de gestão da informação no sentido de dar maior eficácia a tomada de decisão

(20)

Atualmente, manipula-se uma grande base de dados, exigindo a utilização de sistema de suporte à gerência, envolvendo o uso de altas tecnologias para análise, prospecção e visualização de informações. Para isso torna-se importante a utilização do Business

Intelligence (BI), um termo ―guarda chuva‖ que engloba ferramentas, arquitetura, bases de

dados, data warehouse, gerenciamento de desempenho, metodologias, tudo integrado em uma suíte de software. Os principais objetivos do BI são permitir o acesso interativo aos dados (às vezes em tempo real), proporcionar a manipulação desses dados e fornecer aos gerentes e analistas de negócios a capacidade de realizar análises aprimoradas para tomada de decisão (TURBAN et al., 2008).

Diante de um ambiente globalizado, a tecnologia de informação torna-se uma importante aliada na aplicação das políticas públicas, principalmente, daquelas voltadas para melhoria da qualidade de vida da população, nas áreas de recursos hídricos, meio ambiente e saúde pública. As empresas começam a perceber a necessidade de terem maior agilidade, disponibilidade e confiabilidade das suas informações, para que possam tomar as melhores decisões. A Business Intelligence (BI) vem ao encontro dessa realidade, pois utiliza, de forma integrada, seus principais componentes - Base de dados (Data Warehouse - DW), Análise de Negócio ( Online Transaction Processing- OLAP e Data Mining - DM), Gestão e Análise de Desempenho (Business Performance Management – BPM) para melhorar a tomada de decisão. Portanto, a gestão aleatória dará lugar à inteligência de negócio (GOUVEIA,2009).

O avanço tecnológico tem possibilitado o armazenamento de grandes e múltiplas quantidades de dados. É necessário fazer melhor uso destes, através de técnicas de enriquecimento de dados, para conferir maior eficácia na tomada de decisão.

Uma análise preliminar da base de dados operacional de poços profundos administrada pelo Sistema de Informações de Águas Subterrâneas (SIAGAS) indica que a mesma tem uma grande quantidade de dados permitindo obter informações utilizadas nas políticas públicas relacionadas com recursos hídricos, tais como: a) gestão das águas subterrâneas; b) avaliação hidrogeológica; c) revitalização ou recuperação de poços; d) superexplotação e contaminação dos aquíferos, dentre outros. Todavia, é necessário realizar o enriquecimento e a depuração dos dados, que pelo seu histórico, apresentam inconsistências e falhas, de modo a agregar maior valor à base de dados. Por exemplo enriquecer a base de dados com dados de perfil litológico e construtivo dos poços e hidroquímicos para utiliza-los na avaliação das disponibilidades hídricas subterrâneas e na gestão da qualidade das águas dos aquíferos, respectivamente.

(21)

O Sistema de Apoio à Decisão aplicado aos Recursos Hídricos Subterrâneos é uma ferramenta que auxilia os planejadores, analistas de negócio e gerentes da área de recursos hídricos na tomada de decisão. A partir dos dados históricos e atuais, situações, métricas e desempenho é possível escolher a solução mais apropriada.

Esta dissertação apresenta um modelo conceitual, baseado em BI de um sistema de apoio à decisão aplicado à gestão de recursos hídricos subterrâneos.

1.2 Justificativa

Partindo do pressuposto que a água é um bem natural e estratégico, constata-se que o Brasil tem uma disponibilidade hídrica superficial de 251.900 m3/s, cujo potencial corresponde a 53% do total referente à América do Sul e 12% da água doce do planeta.

Em relação às águas subterrâneas, nosso país dispõe de um sistema aquífero fissural que ocupa 53% do território nacional e possui bacias sedimentares que ocupam 42% da superfície do país.

Não obstante, devido ao grande volume de água doce, disponível no Brasil, existem desafios a serem enfrentados relativos à sua gestão e aproveitamento, pois 80% da produção hídrica brasileira se concentram em três grandes unidades hidrográficas: Amazonas, São Francisco e Paraná (PEIXINHO; FEITOSA, 2008).

Além disso, embora o potencial hídrico subterrâneo no Brasil seja significativo, o seu aproveitamento ainda é relativamente pequeno, devido à tradição histórica brasileira de realizar em maior escala o aproveitamento das águas superficiais. Isto decorreu do fato do setor elétrico ter exercido, ao longo de mais de 60 anos, a liderança no aproveitamento dos recursos hídricos para a geração de energia, efetuando um monitoramento hidrológico contínuo nas principais bacias hidrográficas e garantindo um rico acervo de informações sobre o regime hidrológico brasileiro.

A evolução histórica dos recursos hídricos, em nosso país, demonstra que ficou a cargo do Ministério de Minas e Energia, através do Departamento Nacional de Energia Elétrica (DNAEE), extinto em 1996, a incumbência de realizar a gestão dos recursos hídricos, até a promulgação da Lei 9.433, que instituiu a Política Nacional de Recursos Hídricos.

A implantação da Política Nacional de Recursos Hídricos, em 1997, estabeleceu uma nova configuração no modelo de gestão das águas no Brasil, obedecendo a princípios que privilegiam a participação e a descentralização nos processos decisórios, novos atores sugiram

(22)

neste processo, destacando-se os Conselhos, Comitês e Agências de Bacias. Além disso, instituiu instrumentos para a gestão dos recursos hídricos.

Entre os principais desafios em recursos hídricos no Brasil destacam-se:

1. Cheias – esse fenômeno hidrológico ocorre nas principais bacias hidrográficas brasileiras (Nordeste, Centro-Oeste, Sul e Sudeste) provocando inundações principalmente associadas a escorregamentos de encostas, resultando em desastres naturais com enormes prejuízos sócio-econômicos (Sul e Sudeste). 2. Conflitos de Uso – características das regiões Sul e Sudeste aonde a oferta de

águas é insuficiente para atender a demanda de múltiplos usos.

3. Contaminação das Águas – ocorre, na maioria das regiões densamente povoadas e/ou que tem um saneamento básico deficitário.

4. Escassez de água – com ocorrência predominantemente nas bacias da região Nordeste.

O ―déficit hídrico‖ existente no Nordeste associado à elevada densidade populacional levou a se buscar, de forma alternativa, o aproveitamento dos recursos hídricos subterrâneos através da exploração de poços profundos.

A deficiência no processo de gestão e controle das águas subterrâneas, em especial, do processo de perfuração de poços tem resultado em ineficiência no sistema de recursos hídricos com elevados desperdícios de água e baixa produtividade para atendimento a população.

O SIAGAS compõe o Sistema Nacional de Informações sobre os Recursos Hídricos da Política Nacional de Recursos Hídricos e visa apoiar a pesquisa, os estudos, a gestão e o aproveitamento das águas subterrâneas.

Dentre os principais desafios nesta área merecem destaques: a) a necessidade de internalizar o uso da ferramenta SIAGAS nos órgãos gestores estaduais de recursos hídricos, que detêm o poder legal sobre as águas subterrâneas, permitindo a padronização e intercâmbio dos dados, a nível nacional; b) a necessidade de enriquecimento da base de dados relativo a dados geológicos, hidrodinâmicos e hidroquímicos (vide figura 2); e c) ter à disposição um sistema de apoio à decisão em recursos hídricos.

(23)

0 10 20 30 40 50 60 70 80 90 100 NORTE

SIAGAS - Cadastro de Poços ENTIDADE

PROPRIETÁRIO USO FORMAÇÃO LITOLOGIA SITUAÇÃO N. ESTÁTICO N. DINÂMICO VAZÃO PH CONDUTIVIDADE FERRO CLORETO SÓLIDOS TOTAIS COLIFORMES

FIGURA 2 – Distribuição Percentual do Povoamento do Banco de Dados SIAGAS Fonte: Base de Dados SIAGAS – www.cprm.gov.br

O gráfico da figura 2 apresenta a distribuição dos registros de poços existentes na base de dados administrada pelo SIAGAS, por tipo de atributo, da região Norte. A análise da distribuição destes dados mostra que existem poucos registros sobre dados hidroquímicos (pH, condutividade, cloretos, etc) e mediana quantidade sobre informações hidrodinâmicas (nível estático e dinâmico, vazão, etc), enquanto que dados gerais (entidade, proprietário, etc) existem praticamente 100% de registros armazenados. Esta condição se apresenta nas demais regiões do país.

A intenção é despertar o interesse dos pesquisadores, gestores e usuários dos recursos hídricos subterrâneos, na adequada produção de dados, armazenamento, recuperação e difusão de informações, bem como no uso de Sistema de Apoio à Decisão aplicado aos Recursos Hídricos Subterrâneos, baseado em Business Intelligence.

Desta forma a motivação da pesquisa está orientada pelos seguintes aspectos:

 tornar a base de dados de água subterrânea referência em qualidade dos dados, para dar suporte à pesquisa, estudos, gestão e aproveitamento das águas subterrâneas;

 motivar os órgãos gestores e intervenientes na utilização das ferramentas SIAGAS e SAD, no processo de gestão das águas subterrâneas;

 aumentar a eficácia do programa de águas subterrâneas.

1.3 Objetivos

A água subterrânea é parte integrante do ciclo hidrológico, representando 98% das águas doces e líquidas do planeta. Elas são responsáveis pela alimentação e pela regularização

(24)

(perenização) dos rios, dos córregos, dos lagos e outros, permitindo que estes continuem fluindo na época de estiagem/seca.

As referidas águas têm importância estratégica, pois normalmente apresentam elevado padrão de qualidade, físico-química e bacteriológica. Além disso, não são afetadas por períodos de estiagens prolongados e sua obra de captação (poço) pode ser construída próxima ao local da demanda.

No Brasil, devido à extensa rede de drenagem fluvial e expressiva disponibilidade hídrica superficial, ao longo do tempo, se utilizou das águas superficiais em detrimento das águas subterrâneas. O crescente consumo e aproveitamento das águas têm proporcionado o uso mais intenso das águas subterrâneas.

A gestão eficaz das águas subterrâneas pressupõe a existência de sistemas de informações que as organizem e lhes dêem representatividade e confiabilidade.

Os resultados deste trabalho poderão ser aproveitados pelos profissionais envolvidos em projetos de Data Warehouse e Análise de Negócio, bem como o uso de ferramentas para manipulação e análise de dados tais como: Data Mining, Business

Performance Management e Dashboard.

Objetivo geral

O objetivo geral da pesquisa é projetar um modelo conceitual de um Sistema de Apoio à Decisão, apoiado em BI, aplicado aos recursos hídricos subterrâneos, composto das seguintes etapas:

Projetar um Sistema de Apoio à Decisão (SAD) baseado no BI.

Estruturar uma Base de Dados Referencial (Data Store Operacional- ODS ).

 Fornecer aos tomadores de decisão ferramentas de consulta e análise de negócios

Objetivo específicos

 Estabelecer critérios para o enriquecimento da base de dados

 Implementar programa de cadastramento de poços seletivos

 Promover a modernização do sistema de informações de águas subterrâneas

 Simular a aplicação do SAD numa área piloto

1.4 Estrutura da Dissertação

A presente dissertação está estruturada em 5 capítulos, em que o 1º já foi exposto, e os demais estão descritos a seguir. O Capítulo 2 configura o estado da arte da pesquisa e tem

(25)

por finalidade apresentar os principais conceitos envolvidos com o tema da dissertação, sob a forma de revisão bibliográfica.

O capítulo 3 descreve a metodologia para construção do modelo conceitual de um Sistema de Apoio à Decisão, baseado em BI, analisando os componentes do modelo que envolve o Sistema Operacional (SIAGAS/RIMAS), Data Store Operacional, Data

Warehouse, OLAP, Data Mining e Business Performance Management - BPM.

O capítulo 4 apresenta um protótipo do modelo conceitual SAD aplicado aos recursos hídricos subterrâneos em Porto Velho – Rondônia.

O capítulo 5 apresenta a conclusão do trabalho, finalizando a dissertação com os resultados e contribuições relevantes, dificuldades encontradas e as indicações para trabalhos futuros.

(26)

2 FUNDAMENTAÇÃO TEÓRICA

Este capítulo configura o estado da arte da dissertação e busca discutir os requisitos relacionados aos Sistemas de Apoio à Decisão, Data Warehouse, OLAP, Data Mining e Business Performance Intelligence. São apresentados os principais conceitos e a importância dos processos decisórios, mostrando a relevância para a utilização do Business Intelligence.

2.1 Contextualização

A hidrologia é uma ciência de natureza estocástica, ou seja, não determinística, necessitando formar séries históricas extensas para a sua utilização racional e eficiente na gestão e no aproveitamento dos recursos hídricos. Portanto, dispor de uma base de dados hidrológica confiável e representativa é fundamental para dela extrair informações valiosas na aplicação dos recursos hídricos.

Atualmente, o Brasil dispõe de um banco de dados de hidrologia de superfície, construído ao longo dos 90 anos de levantamento hidrometeorológico para atender, primordialmente, o aproveitamento hidroenergético. São mais de 500 milhões de dados de precipitação, evaporação, níveis d’água, descargas líquidas e sólidas dos rios, qualidade da água e armazenamento em uma base de dados administrada pelo Sistema Nacional de Informações sobre Recursos Hídricos.

No entanto, o mesmo não se pode dizer em relação à formação da base de dados de água subterrânea. Historicamente, prevaleceu, em nosso país, a gestão e o aproveitamento dos recursos hídricos superficiais. Mais recentemente, a Companhia de Pesquisa de Recursos Minerais - CPRM, implantou o Sistema de Informações de Águas Subterrâneas – SIAGAS, que permitiu formar uma base de dados de águas subterrâneas que hoje conta com cerca de 215.000 poços cadastrados.

O SIAGAS tem sido utilizado como um instrumento importante de tomada de decisão no campo da gestão e aproveitamento dos recursos hídricos subterrâneos, obtendo o reconhecimento do Conselho Nacional de Recursos Hídricos - CNRH, que recomenda a sua adoção pelos órgãos gestores e os usuários de informações hidrogeológicas. Além disso, o SIAGAS foi implantado em Cuba e existe a perspectiva de sua utilização pelos Serviços Geológicos dos países ibero-americanos.

(27)

Não obstante, devido ao ineficiente controle exercido pelos órgãos gestores dos recursos hídricos, cujo domínio é estadual, tem resultado numa base de dados com muitas falhas e inconsistências, limitando a sua utilização, principalmente nas aplicações seguintes:

 aumento do conhecimento sobre a disponibilidade e vulnerabilidade hídrica;

 melhoria da eficiência das obras hídricas; e

 gestão e controle da contaminação das águas subterrâneas, dentre outros. Neste sentido, torna-se importante adotar um sistema de apoio à decisão que proporcione uma avaliação crítica das informações de água subterrânea, auxiliando os gestores a definir tendências, apontar problemas e absorver decisões inteligentes.

2.2 Sistema de Apoio à Decisão

O Sistema de Apoio à Decisão, baseado em BI, se utiliza de várias tecnologias, dentre elas, Data Warehouse, Data Mart, Sistema Gerenciadores de Banco de Dados, Processamento Analítico On-line (OLAP), Banco de Dados Multidimensionais, Mineração de Dados (Data Minning), entre outros.

Segundo GOUVEIA (2009), as Ferramentas de Apoio à Decisão (FAD) fazem parte do conceito BI ou Inteligência do Negócio e constituem o conjunto de tecnologias que permitem o cruzamento de informações, o suporte à análise dos indicadores de desempenho de um negócio. Com elas, é possível apresentar informações dos negócios, sob forma gráfica, simulando a ocorrência e oferecendo maior capacidade de análise para descobrimento de novos conhecimentos e padrões.

De acordo com TURBAN et al. (2009), o termo BI foi cunhado pelo Gartner

Group em meados da década de 1990. Todavia outra fonte indica que este termo apareceu em

1958 num trabalho de Hans Peter Luhn, pesquisador da IBM. Este conceito, todavia, iniciou muito antes, com os sistemas de geração de relatório SIG na década de 1970. Neste período os sistemas de geração de relatórios eram estáticos, bidimensionais e não possuíam recursos de análise. No início dos anos 80 surgiu o conceito de sistema de informações executivas (EIS). Foram introduzidos na década de 1990 recursos de geração de relatórios dinâmicos e multidimensionais (ad hoc ou sob demanda), prognósticos, análise de tendências e detalhamento e fatores críticos de sucesso. O uso desses recursos e alguns novos apareceram sob o nome de BI. Em 2005 incorporou-se ao BI recurso de inteligência artificial, bem como poderosos recursos de análise, tais como: ferramentas OLAP, relatórios de visualização ―ad hoc‖ e Data Mining.

(28)

O maior objetivo do BI é definir regras e técnicas que permitam as empresas gerenciar os seus dados transformando-os em depósitos estruturados de informações, independente de sua origem. Entre os depósitos de informações estruturados destaca-se o

Data Warehouse, que armazena informações em estruturas dimensionais e representa uma

forma de dar suporte a tomada de decisões.

Esta evolução dos Sistemas de Apoio à Decisão (SAD) foi em função da necessidade das organizações estarem focadas na captação, compreensão e exploração dos seus dados, em face do ciclo de negócio estar cada vez mais apertado, exigindo uma decisão melhor e mais rápida. Os gerentes precisam de informações certas, na hora certa e no lugar

certo. O uso do SAD decorreu, também, do crescente aumento da quantidade de dados

armazenados em meio eletrônico, da constante diminuição do custo de armazenamento de dados e do aumento da eficiência das tecnologias de informações.

De acordo com ELMASRI (2005), os bancos de dados de apoio à decisão são extensos, com elevado grau de indexação e envolvem muitas redundâncias. As chaves quase sempre envolvem um componente temporal e as consultas são normalmente complexas.

Os sistemas de banco de dados para apoio à decisão diferem dos sistemas de banco de dados operacional ou transacional, pelo fato daqueles serem quase sempre exclusivamente para leitura/consulta e, dificilmente, para atualizações como é o caso destes últimos. Por esta razão verifica-se dificuldade de manipular grande número de variáveis e de dados históricos. Daí a necessidade de extrair informações relevantes da base de dados transacional ou operacional. Os bancos de dados operacionais possuem algumas características, como dinamismo, incompletudes, redundâncias e ruídos que os tornam inapropriados à função de extração de informações para apoio à decisão.

Segundo TURBAN et al. (2009), o BI tem quatro grandes componentes: um data

warehouse, composto de dados fontes; a análise de negócios, um conjunto de ferramentas

para manipular e analisar dados no data warehouse, o qual inclui o data mining; business

performance management (BPM) para monitoramento e análise de desempenho e uma interface com o usuário (como o dashboard).

No caso do data warehouse, estamos diante de um ambiente técnico enquanto que o ambiente de análise está mais voltado para o analista de negócio. O usuário pode se conectar ao sistema por meio de interface do usuário, como navegador e a alta administração pode usar o BPM e o dashboard.

(29)

2.3 O processo de Busca do Conhecimento em Banco de Dados

Com o aumento exponencial da quantidade de dados armazenada em base de dados, o homem necessita de ferramentas computacionais que o auxiliem na análise, interpretação e na construção de relacionamento de dados. Nesta vertente, o objetivo aqui é realizar a extração em grandes bases de dados informações desconhecidas e válidas que possam ser utilizadas para tomada de decisões.

Para atender esta nova realidade surge uma nova linha de pesquisa denominada Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases –

KDD), mas popularmente, denominada de Mineração de dados (PEIXINHO, 2009).

O KDD surge como um amplo conceito de busca do conhecimento e envolve diversas áreas de conhecimento, dentre as quais merecem destaque:

 Estatística

Data Warehousing

 Reconhecimento de Padrões

 Inteligência Computacional e Aprendizado de Máquinas

 Banco de Dados

A título de ilustração, segue a figura 3 em que cada etapa da execução do processo KDD possui uma interseção com as demais. Desta forma os resultados obtidos numa fase podem ser utilizados para melhorar os resultas das próximas fases. Este procedimento revela uma interatividade, na perspectiva de melhorar os resultados a cada interação (GOUVEIA, 2009).

FIGURA 3 – Etapas do Processo KDD

(30)

O KDD, quando abordado sob a ótica do resultado, é definido como um processo de extração trivial de informação, implícita, previamente desconhecida e potencialmente útil, a partir dos dados armazenados em banco de dados. Conceituado sob a ótica de processo, o KDD é considerado como uma tarefa de descoberta de conhecimento intensivo, consistindo de interações complexas, feitas ao longo do tempo entre o homem e uma grande base de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.

O KDD também é considerado como sendo um processo composto de etapas operacionais de pré-processamento, mineração de dados e pós-processamento (GOLDSCHMIDT et. al., 2005).

A etapa de pré-processamento refere-se à execução de tarefas de captação, organização e tratamento de dados. Em seguida, temos a etapa de Data Mining, considerada essencial, relacionada com a extração do conhecimento útil no âmbito da aplicação KDD. O pós-processamento, algumas vezes dispensável, tem o objetivo de viabilizar a avaliação da utilidade do conhecimento descoberto (GOLDSCHMIDT et. al., 2005).

A complexidade do processo KDD está diretamente associada à dificuldade em perceber e interpretar adequadamente inúmeros fatos observáveis durante o processo e na dificuldade em conjugar dinamicamente tais interpretações de forma a decidir quais ações devem ser realizadas em cada caso (GOLDSCHMIDT et. al., 2005). Ao analista cabe a difícil tarefa de orientar o processo KDD.

O processo de descoberta de conhecimento envolve seis estágios, a saber: 1) Seleção, 2) Limpeza, 3) Codificação, 4) Enriquecimento, e 5) Mineração de Dados e 6) Relatórios.

As organizações passaram a utilizar-se de duas categorias de banco de dados: o banco de dados transacional para atender operações normais e o Data Warehouse para dar suporte às decisões estratégicas, ao prover uma sólida plataforma de dados históricos integrados a partir dos quais é possível fazer análises.

A seleção dos dados é extraída do banco de dados transacional e, para facilitar este processo, eles são copiados para um banco de dados separado, ou mesmo para o próprio

Data Warehouse.

O estágio de Limpeza dos dados é feito através de algoritmos com o objetivo de depurá-los. Ele abrange qualquer tratamento realizado sobre os dados selecionados de forma a garantir a qualidade (completude, veracidade e integridade) dos fatos por eles representados.

(31)

A codificação dos dados, por sua vez, é realizada de modo que eles fiquem em condições de serem usados como entrada dos algoritmos de reconhecimento de padrões. Esta é uma atividade criativa que deve ser realizada diversas vezes para se obter a melhor solução.

O enriquecimento dos dados consiste em buscar mais informações que possam ser reunidas aos registros existentes, aprimorando-os para que estes contribuam no processo de descoberta de conhecimento.

Por fim, a etapa de mineração de dados, que alguns autores consideram com sinônimo da Descoberta de Conhecimento em Bases de Dados, envolve a aplicação de algoritmos sobre os dados, na busca de conhecimento implícito e útil. Nesta etapa são definidos técnicas e algoritmos a serem utilizados no problema em questão, tais como: Ferramenta de Consulta, Técnicas Estatísticas, Visualização, Processamento Analítico on-line (ferramenta OLAP), Árvores de Decisão, Redes Neurais, Regras de Associação e Algoritmo Genético.

2.4 Data Warehouse

O DATA WAREHOUSING é um ambiente computacional onde os usuários extraem informações estratégicas que os ajudam a conduzir seu processo de negócio. A seguir, abordaremos definições e conceitos sobre o referido ambiente computacional.

O produto do DATA WAREHOUSING é o DATA WAREHOUSE(DW), um conjunto de dados produzidos para dar suporte à decisão, de interesse dos níveis gerenciais da organização. Segundo TURBAN et al., (2009), os dados são, normalmente, estruturados de modo a estarem disponíveis em um formato pronto para as atividades de processamento analítico (p. ex. processamento analítico on line [OLAP], data mining, consultas, geração de relatórios, outras aplicações de suporte à decisão). De acordo com INMON (2005), o termo é definido como ―um depósito de dado orientado por assunto, integrado, não volátil, variável com o tempo, para apoiar as decisões da gerência‖.

Uma maneira de apresentar o data warehousing é recorrer as suas características fundamentais:

Orientação por assunto. Os dados são organizados por assunto pormenorizado, como vendas, produto ou clientes, e contem informações relevantes para tomada de decisão, permitindo avaliar o desempenho da organização. Um data

(32)

orientados por processo e lidam com transações que atualizam o banco de dados.

Integrado. A integração é uma característica de um data warehouse. Os dados advindos de diferentes fontes como BD operacionais, arquivos textos, sistemas legados, etc. devem estar em formato consistente. Aparecem conflitos de nomenclatura e discrepância entre unidades de medidas a serem superados.

Variável no tempo (série temporal). Um data warehouse mantém dados históricos e por conseguinte detectam tendências, variações e relações de longo prazo que permitem fazer previsões e comparações.

Não-volátil. Após os dados serem inseridos no data warehouse não podem ser alterados ou atualizados. Os dados obsoletos são descartados e as alterações são consideradas como dados novos. Portanto o banco de dados está disposto para otimizações e consultas.

Segundo TURBAN et al. (2009), as características adicionais de um data

warehouse que podem ser incluídas são as seguintes:

Baseado em Web. Os data warehouses são desenvolvidos para ambiente informatizado eficiente baseado na Web;

Relacional/multidimensional. Um data warehouse usa tanto um estrutura relacional como multidimensional;

Cliente/Servidor. Um data warehouse, para proporcionar acesso mais fácil, usa arquitetura cliente/servidor.

Em tempo real. Os data warehouse mais recentes já incluem recursos de acesso e análise em tempo real.

Inclui metadados. O uso do metadados (dado sobre dado) no data warehouse tem a finalidade de informar como os dados estão organizados e como usa-lo de forma mais eficiente.

Portanto, o data warehouse (DW) é um repositório de dados especiais, enquanto que o data warehousing é um processo inteiro. Existem três tipos de data warehouses: data

mart (DM), data store operacional (ODS) e data warehouses empresariais (EDW).

2.5 Data Mart

(33)

“Um Data Mart é um Data Warehouse de menor capacidade e complexidade usado para atender a uma unidade específica de negócios. Portanto, são tipicamente mais fáceis de construir e manter.”

Segundo TURBAN et al. (2009:58), um data warehouse une banco de dados de toda a empresa; já um data mart, geralmente, é menor e se concentra em um assunto ou departamento específico. O Data Mart é um subconjunto de um Data Warehouse, que consiste em uma única área temática (p. ex., marketing, produção). Um Data Mart pode ser

dependente ou independente. Um Data Mart dependente é um subconjunto criado

diretamente do Data Warehouse. Uma vantagem é ter um modelo de dados consistentes e para toda a empresa, além de produzir dados de qualidade. Um Data Mart independente é um Data Warehouse pequeno, projetado para uma unidade estratégica de negócios (UEN) ou um departamento, mas cuja fonte não seja um EDW. Ele é útil nas seguintes condições (GOUVEIA, 2009):

 Os dados devem estar segregados para melhorar o desempenho do sistema do ponto de vista do usuário;

 Deve ter cópia dos dados onde somente às pessoas autorizadas tenham acesso;

 Em ambiente corporativo é importante que seja fortalecido o conceito de propriedade em banco de dados.

Data stores operacionais

Segundo TURBAN et al. (2009:58) o data store operacional (ODS) proporciona uma forma de arquivar informações recentes para consumo. Este tipo de banco de dado constantemente usado na área de preparação temporária de um Data Warehouse. Ao contrário dos conteúdos estáticos de um DW, os conteúdos de um ODS são atualizados durante o curso das operações comerciais. Um ODS é usado para decisões de curto prazo e envolve operações de consolidação de vários sistemas-fonte, permitindo uma visão integrada e quase em tempo real dos dados voláteis e correntes. Portanto o ODS pode-se considerar como um tipo especial e intermediário de base de dados entre a base de dados operacional e o Data

Warehouse.

O DW é periodicamente alimentado adotando o método incremental ou de substituição total dos dados históricos.

Data warehouse empresarial

Um data warehouse empresarial (EDW) é um data warehouse em grande escala e utilizado por toda a organização. Esta dimensão lhe proporciona meios para integrar dados

(34)

oriundos de muitas fontes em um formato padronizado, possibilitando maior eficiência das aplicações deste BI até suporte a decisão.

2.6 Metadados

Os metadados são componentes muito importantes dentro do ambiente, pois ajudam a identificar e localizar os demais dados do DW. Eles descrevem a estrutura e alguns significados a respeito dos dados e contribuem para seu uso eficiente ou ineficiente (TURBAN et al., 2009). Em termos de uso, os metadados podem ser definidos como técnico ou de negócios. Segundo KASSAM (2002 apud TURBAN, 2009:59), os metadados de negócios incluem informações que aumentam a compreensão sobre os dados tradicionais (estruturados). O seu principal objetivo é oferecer contexto aos dados relatados, isto é, informações enriquecedoras que conduzem à geração do conhecimento. Existem considerações éticas a serem observadas na coleta e posse de informações contidas nos metadados, inclusive questões de natureza intelectual e de privacidade que surgem no estágio de desenvolvimento do projeto.

2.7 Granularidade

A granularidade diz respeito ao nível de detalhamento das informações que estão armazenadas no Data Warehouse. Segundo INMON (1997), constitui a informação mais importante do projeto. Quanto maior o nível de detalhamento dos dados, menor é a granularidade do DW. A granularidade está ligada ao volume dos dados armazenados e, consequentemente, determina o grau de consulta que pode ser extraído da base de dados. Ao definir um nível mais detalhado, o usuário terá informações em qualquer nível de agregação e maior será o detalhamento da consulta. Cabe a equipe de sistemas, projetar adequadamente o

Data Warehouse de maneira a atender satisfatoriamente às consultas e análises dos gerentes,

com tempos de resposta satisfatórios e com tamanho e crescimento do banco de dados perfeitamente gerenciável.

2.8 Visão Geral do Processo de Data Warehouse

Muitas organizações, sejam elas públicas ou privadas, têm, constantemente, gerado dados e informações em níveis cada vez maiores e os armazenam em sistemas informatizados. Manter e usar estes dados e informações, num ambiente extremamente competitivo e dinâmico, se torna uma tarefa bastante complexa, principalmente quando se

(35)

considera questões de escalabilidade. Também aumenta cada vez mais o número de usuários que deseja acessar as informações contínuas e cada vez mais confiáveis e representativas, exigindo que as organizações criem data warehouses – armazéns com grande quantidade de dados, em série temporal para o suporte à decisão. Na figura 4 é mostrado o conceito de data

warehouse. Os principais componentes de um processo de data warehousing, segundo

TURBAN et al. (2009), são os seguintes:

FIGURA 4 – Estrutura e Visualização do Data Warehouse Fonte: TURBAN et al. (2009)

Fonte de Dados. Os dados são coletados em múltiplas fontes, através de sistemas operacionais independentes ou integrados.

Extração de Dados. Os dados são extraídos com um software personalizado ou comercial chamado ETL (extração, transformação e carga).

Carregamento dos Dados. Os dados são carregados numa área intermediária, para serem transformados e limpos e, posteriormente, enviados para carga no

data warehouse.

Banco de Dados Abrangente. É o banco de dados empresarial que fornece informações relevantes resumidas e detalhadas extraídas de diversas fontes de dados.

Metadados. Os metadados são utilizados pelo pessoal de TI e pelos usuários. Ele dispõe de regras para organizar resumos de dados, com facilidades de indexação e busca, as quais podem ser realizadas por ferramentas da Web.

(36)

Ferramentas de milddleware. São ferramentas para acesso ao data warehouse. Usuários avançados podem criar suas próprias consultas em SQL.

2.9 Arquitetura Geral do Data Warehouse

Segundo GOUVEIA (2009), ao se projetar um Data Warehouse há de considerar dois tipos de dados: dados primitivos (operacionais ou atômicos) e dados derivados. Os dados primitivos são atuais, passíveis de atualização e processados repetidamente. Enquanto os dados derivados são, em geral, valores históricos baseados em assuntos ou negócios, resumidos, ou refinados e são processados de forma heurística (INMON, 2005).

A escolha do dado primitivo para armazenamento no DW tem vantagens e desvantagens. O maior benefício é dispor de uma base mais rica para efetuar a pesquisa, proporcionando uma análise mais profunda e cuidadosa dos dados, permitindo avaliar, a partir do histórico, tendências, fazer previsões ou elaborar cenários. A principal desvantagem é a ocupação de maior área para armazenamento dos dados e a exigência de maior capacidade de processamento para que não haja perda de performance na consulta e análise dos dados.

Já a escolha dos dados derivados para armazenamento no DW apresenta, também, vantagens e desvantagens. O maior benefício é que os dados já estão resumidos e no formato apropriado para consulta. Além de ocupar menos espaço para armazenamento, o processamento é mais rápido. Como desvantagem a sumarização reduz a capacidade de pesquisa e análise. Normalmente as empresas adotam ambas as forma de armazenamento.

De acordo com INMON (2005) existem 04 (quatro) níveis do ambiente arquitetural de um Data Warehouse: 1) Nível Operacional, 2) Nível Atômico, 3) Nível Departamental; e 4) Nível Individual, como mostra a Tabela 1.

TABELA 1 – Os quatro níveis de dados do ambiente arquitetural de um data warehouse

Nível Operacional Nível Atômico Nível

Departamental

Nível Individual

Dados detalhados Dados mais granular Dados paroquial (restritos)

Dados temporários

Dia a dia (cotidiano) valores atuais Variáveis no tempo (histórico) Alguns derivados e alguns primitivos

Consulta ―ad hoc‖

Alta Probabilidade de Acesso

Picos de Acesso Tipos de

Departamento

(37)

Orientado à Aplicação

Orientado a Assunto Orientado por departamento de negócio

Baseado em PCs ou estações de Trabalho

Fonte: Adaptação (INMON, 2005)

Segundo GOUVEIA (2009), o nível operacional de dados está relacionado com aplicação envolvendo dados primitivos e atende ao processamento de transações de alta performance. O nível atômico ou Data Warehouse contem dados primitivos que não sofrem atualizações, além de alguns dados derivados. Já o nível departamental contem quase exclusivamente dados derivados. Este nível é definido de acordo com a necessidade dos usuários finais adaptadas às necessidades do Departamento. E o nível individual de dados é onde muitas análises heurísticas são realizadas. Na tabela 2 são apresentados os 04 (quatro) níveis de dados.

TABELA 2 – Exemplos de consultas referentes aos quatro níveis de dados

Nível Operacional Nível Atômico Nível

Departamental Nível Individual -Qual a vazão de produção do poço neste momento? - Qual o histórico de médias de vazões produção. Vazão produção captada no poço analisado está aumentando? - Quais são as tendências em relação ao setor analisado? Medição da vazão de produção (Abril de 2011): 2 m3 /h. Ponto no 10001 Maio a Agosto de 2010 Vazão de produção = 2,5 m3 /h. Ponto no 10001 Maio a Agosto de 2007 = 2,5 m3 /h. Inspecionar os poços para constar a sua situação em termos de estado de funcionamento (paralisado, abandonado e não instalado) Setembro a Dezembro de 2010 Vazão bombeada = 3,0 m3 /h . Ponto no 10001 Setembro a Dezembro de 2007: 2,5 m3 /h. Janeiro a Abril de 2007: 3,0 m3 /h. Janeiro a Abril de 2007: 2,5 m3 /h.

No nível operacional considera a vazão produção do poço para atender o consumo de um dado cliente, a partir do último levantamento efetuado.

(38)

No nível atômico ou de Data Warehouse a consulta possibilita extrair informação sobre o histórico da vazão de produção no poço para consumo de um dado cliente, no período de considerado.

No terceiro nível, ou seja, Data Mart obtêm-se informações de maior complexidade e orientada ao negócio para tomada de decisão. Como exemplo, poderia considerar uma relação de todos os usuários de poços, por tipo de uso. Como consulta neste nível tem-se: qual a tendência do volume de água produzido do poço num período considerado. O retorno desta consulta são as médias de volume bombeado agrupado por períodos.

O nível individual possibilita a previsão de informações fornecendo projeções de cenários por meio de análises heurísticas. Os dados neste nível são geralmente temporários e de pequenas proporções (GOUVEIA, 2009).

No que tange a arquitetura básica de data warehousing, segundo TURBAN et al. (2009), a mais comum são as de duas e três camadas. HOFFER et al. (2007) as distinguem pela divisão do Data Warehouse em três partes:

O data warehouse composto dos dados e do software associados.

Software de aquisição dados que extrai os dados de sistemas legados e fontes externas.

Software de cliente (front-end) que permite o usuário acessar e analisar os dados a partir do data warehouse.

O data warehouse integrado a Internet produz o data warehousing baseado na Web. Sua arquitetura de três camadas inclui PC cliente, servidor de Web e servidor de aplicação. No lado do cliente é necessário uma conexão a Internet e um navegador de Web. No lado do servidor é usado um servidor Web para gerenciar o fluxo de entrada e a saída de informações entre o servidor e o cliente. Esta tarefa é apoiada por um Data Warehouse e um servidor de aplicação (TURBAN, et. al., 2009).

Segundo ARYYACHANDRA e WATSON (2005), existem 10 fatores que afetam a decisão relativa à seleção de arquitetura, descritos a seguir.

 Interdependência de informações entre as unidades da organização

 Demanda de informações da alta administração

Nível de urgência de um data warehouse

 Natureza das tarefas do usuário final

Referências

Documentos relacionados

En este sentido, el concepto de interés general, ahora abierto a la participación por exigencias de un Estado que se presenta como social y democrático de Derecho, presenta

ed è una delle cause della permanente ostilità contro il potere da parte dell’opinione pubblica. 2) Oggi non basta più il semplice decentramento amministrativo.

29 Table 3 – Ability of the Berg Balance Scale (BBS), Balance Evaluation Systems Test (BESTest), Mini-BESTest and Brief-BESTest 586. to identify fall

Em estudos mais aprofundados, tem-se a análise dinâmica não linear geométrica de estruturas laminadas modeladas com elementos tridimensionais de barra considerando o efeito

O procedimento de autorização no mercado dos produtos farmacêuticos homeopáticos envolve um registo simplificado, uma vez que estes não têm indicações terapêuticas e como tal

82 6.21 Opinião sobre o aumento de eficiência de utilização que a conjugação de uma nova visualização e de técnicas de aprendizagem num cliente de e-mail web (Spidious)

For additional support to design options the structural analysis of the Vila Fria bridge was carried out using a 3D structural numerical model using the finite element method by

da quem praticasse tais assaltos às igrejas e mosteiros ou outros bens da Igreja, 29 medida que foi igualmente ineficaz, como decorre das deliberações tomadas por D. João I, quan-