• Nenhum resultado encontrado

SISTEMA DE APOIO À DECISÃO APLICADA AOS RECURSOS HÍDRICOS SUBTERRÂNEOS

N/A
N/A
Protected

Academic year: 2021

Share "SISTEMA DE APOIO À DECISÃO APLICADA AOS RECURSOS HÍDRICOS SUBTERRÂNEOS"

Copied!
126
0
0

Texto

(1)

Universidade Estadual do Ceará (UECE)

Pró-Reitoria de Pós Graduação e Pesquisa (PROPGq)

Centro Federal de Educação Tecnológica do Ceará (CEFET-CE) Diretoria de Pesquisa e Pós-Graduação (DIPPG)

Universidade Federal do Rio de Janeiro (UFRJ)

Escola Politécnica – Departamento de Eletrônica e de Computação

SISTEMA DE APOIO À DECISÃO APLICADA AOS

RECURSOS HÍDRICOS SUBTERRÂNEOS

FREDERICO CLÁUDIO PEIXINHO

Dissertação de Mestrado

Rio de Janeiro – RJ

(2)

SISTEMA DE APOIO À DECISÃO APLICADA AOS RECURSOS HÍDRICOS SUBTERRÂNEOS

Frederico Cláudio Peixinho

DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DO PROGRAMA DE MESTRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA DA UNIVERSIDADE ESTADUAL DO CEARÁ, COMO PARTE DOS REQUISITOS

NECESSÁRIOS PARA A CERTIFICAÇÃO DE CONCLUSÃO DO CURSO

Aprovada por:

_______________________________________________ Prof. Flávio Luis de Mello, D. Sc. (Orientador)

________________________________________________ Prof. Luiz Felipe Coutinho, De. (Examinador)

________________________________________________ Prof. Airton Fontenele Sampaio Xavier, LDc (Examinador)

________________________________________________ Prof: Guilherme Lincoln Aguiar Ellery, DSc. (Examinador)

RIO DE JANEIRO, RJ – BRASIL Março/2012

(3)

PEIXINHO, FREDERICO CLÁUDIO

Sistema de Apoio à Decisão aplicado aos Recursos Hídricos Subterrâneos [Rio de Janeiro] 2012

VII, 125 P. 29,7 cm (UECE, Mestrado, MPCOMP, 2012)

Dissertação – Universidade Estadual do Ceará, UECE

1. Sistema de Apoio à Decisão I. I. POLI/UFRJ II. Título (série)

(4)

DEDICATÓRIA

À minha esposa e filhas que sempre estiveram presentes me estimulando e compartilhando os momentos de dificuldades e renúncias.

(5)

“Ergo a cabeça ela não treme se a busco não a encontro vazia.” Aristóteles Damasceno Peixinho, meu pai.

(6)

AGRADECIMENTOS

A Deus por me permitir transitar na vida terrena com o compromisso do aprimoramento intelectual e moral, tendo a ciência e o saber, como fio condutor para o meu progresso espiritual.

À UFRJ – Escola Politécnica da Universidade Federal do Rio de Janeiro, uma referência no ensino superior.

Aos professores, do Mestrado Profissional em Computação Aplicada da UECE, que tanto contribuíram com seus ensinamentos, incentivos e apoio a este trabalho.

Em especial, aos professores José Francisco Julião, DSc. (UECE), e Francisco Xavier, DSc. (UECE), que transferiram com maestria os seus conhecimentos e saberes, bem como incentivaram e apoiaram no desenvolvimento desta dissertação.

Igualmente e em especial, aos professores Flávio Luis de Mello, DSc. (UFRJ) e Edilberto Strauss, Ph.D. (UFRJ) que me orientaram e incentivaram, respectivamente, na condução deste trabalho.

Aos colegas do Mestrado Profissional em Computação Aplicada, realizada na UECE – Rio de Janeiro, pelo estímulo e contribuição.

Aos colegas de trabalho, Ricardo Villafan, Maria Antonieta Mourão, Francisco Barbosa, Marcos Nóbrega, Josias Lima, Leonardo da Matta, Maria Cristina Maio e parentes Carolina Carneiro Peixinho e Priscila Peixinho Fiorindo, que contribuíram com sugestões, material e informações.

A todos que direta ou indiretamente contribuíram com sugestões, material e informações e que por lapso ou esquecimento não foram citados.

(7)

SISTEMA DE APOIO À DECISÃO APLICADO AOS RECURSOS HÍDRICOS SUBTERRÂNEOS

Frederico Cláudio Peixinho Março/2012

Orientador: Flávio Luis de Mello

Esta dissertação apresenta uma metodologia, apoiada no Business Intelligence

(BI), para oferecer apoio à decisão do setor de recursos hídricos subterrâneos, dado que

este recurso é vital e estratégico para a implementação das políticas públicas e a melhoria da qualidade de vida da população de uma dada região. A ideia fundamental consistiu em propor um modelo para projetar um sistema de apoio à decisão, a partir da base de dados operacional, que enriquecida e sintetizada, resulta numa base de dados referencial, servindo esta de suporte para a construção de um repositório de dados (Data

Warehouse) para em seguida, utilizar tecnologias OLAP (On-line Analytical Processing) e algoritmos de Mineração de Dados (Data Minning). A abordagem

metodológica se apoia nos principais componentes do BI - Base de Dados (Data

Warehouse), Análise de Negócio (OLAP e Data Mining), Monitoria e Avaliação do

Desempenho (Business Performance Management). Neste sentido, vislumbra-se, com o uso deste modelo de sistema de apoio à decisão, o aumento da eficácia no armazenamento, operação e gestão de dados de poços profundos, já que este ambiente constitui fonte de informações estratégicas para a gestão e o aproveitamento racional dos recursos hídricos subterrâneos.

Palavras chave: Data Warehouse, OLAP, Data Mining, Business Performance

(8)

DECISION SUPPORT SYSTEM APPLIED TO GROUNDWATER RESOURCES Frederico Cláudio Peixinho

March/2012 Advisor: Flávio Luis de Mello

This dissertation aims to present a methodology, based on Business Intelligence (BI) to provide decision support to managers and business analysts in the field of groundwater resources, considering that this resource is vital and strategic to the implementation of public policies and improved quality of life in a given region. The fundamental idea is to propose a methodology to extract a basic framework that will support the construction of data repository (Data Warehouse) from the enriched and synthesized operational database. Then, the next steps consists of the application of OLAP technology (Online Analytical Processing) and Data Mining algorithms (Data Minning), to provide historical and current data of performance, and a better understanding of the usage profile and the use of groundwater resources. The methodological approach relies on major components of BI - Database (Data Warehouse), business analysis (OLAP and Data Mining), performance assessment (Business Performance Management) and user interface (Dashboard) - applied to the groundwater operational database. Thus, it is expected that the use of this decision support system based on Data Warehouse and other components, increases efficiency in storage, data management and operation of deep wells, since this environment is a source of strategic information for management and rational exploitation of groundwater resources.

Keywords: Data Warehouse, OLAP, Data Mining, Business Performance Management, Information System for Groundwater.

(9)

SIGLAS ANA Agência Nacional de Águas

BI Business Intelligence

BPM Business Performance Management BSC Balanced Scorecard

CPRM Companhia de Pesquisas e Recursos Minerais DM Data Mining

DNAEE Departamento Nacional de Águas e Energia Elétrica

DW Data Warehouse

EIS Executive Information Systems

ETL Extration, Transformation and Load

KDD Knowledge Discovery in Data Bases

ODS Operational Data Store OLAM On-line Analytical Mining

OLAP On-Line Analytical Processing OLTP On-line Transaction Processing

OMS Organização Mundial da Saúde

PNRH Política Nacional de Recursos Hídricos

PNUMA Programa das Nações Unidas para o Meio Ambiente

RIMAS Rede Integrada de Monitoramento das Águas Subterrâneas do Brasil ROLAP Relational On-Line Analytical Processing

SIAGAS Sistema de Informações de Águas Subterrâneas SAD Sistema de Apoio à Decisão

SNIRH Sistema Nacional de Informações sobre Recursos Hídricos SQL Strutured Query Language

SGB Serviço Geológico do Brasil USGS United State Geological Survey

WEKA Waikato Environment for Knowlegde Analysis

(10)

Sumário

Capítulo 1 – Introdução 13 1.1 Contextualização 13 1.2 Justificativa 19 1.3 Objetivos 22 1.4 Estrutura da Dissertação 23

Capítulo 2 – Fundamentação Teórica 25

2.1 Contextualização 25

2.2 Sistema de Apoio à Decisão 26

2.3 O processo de Busca do Conhecimento em Banco de Dados 28

2.4 Data Warehouse 31

2.5 Data Mart 32

2.6 Metadados 34

2.7 Granularidade 34

2.8 Visão Geral do Processo de Data Warehouse 34

2.9 Arquitetura Geral do Data Warehouse 36

2.10 Processo de Extração, Transformação e Carga – ETL 40

2.11 Modelagem Multidimensional 41

2.12 Análise de Negócios e Visualização de Dados 42

2.13 Tecnologia OLAP 44

2.14 Multidimensionalidade – Cubo de Dados 45

2.15 Data Mining 46

2.15.1 Funcionalidades da Mineração de Dados 48

2.15.2 Análise Descritiva 50

2.15.3 Análise de Prognóstico 51

2.15.4 Técnicas para Obtenção das Funcionalidades 52 2.15.5 Algumas técnicas e algoritmos utilizados na mineração de dados 54

2.15.6 Abordagem de Mineração de Dados 57

2.16 Business Performance Management 58

2.16.1 Balanced Scorecard 59

2.16.2 Arquitetura do BPM 61

2.16.3 Dashboard e Scorecards 62

(11)

Capítulo 3 – Modelo Conceitual de Sistema de Apoio à Decisão – SAD 67

3.1 Descrição Geral 67

3.2 Modelo de Negócio 69

3.2.1 Modelo de Proposta de Valor 69

3.2.2 Modelo de Interface do Usuário 71

3.2.3 Modelo de Operação 72

3.2.4 Modelo Estratégico 74

3.2.5 Modelo Econômico 75

3.3 Descrição do Sistema Operacional – SIAGAS/RIMAS 76

3.4 Preprocessamento 84

3.5 Estrutura do Data Store Operacional 88

3.6 Data Warehouse Departamental 89

3.7 Análise de Negócios e Visualização de Dados 91 3.7.1 Análise do Negócio das Águas Subterrâneas 91 3.7.2 Relatórios e Consultas para Visualização dos Dados 93

3.8 Business Performance Management (BPM) 95

Capítulo 4 – SAD aplicado a Estudo de Caso 99

4.1 Critérios para Seleção de Projeto Piloto 99

4.2 Caracterização da Empresa 99

4.3 Projeto Piloto 100

4.4 Diagnóstico do Estado da Arte do Sistema

de Apoio à Decisão Aplicado aos Recursos Hídricos Subterrâneos 101 4.5 Implantação do Modelo Proposto na Área do Projeto Piloto 102 4.5.1 Preprocessamento: Análise de Consistência

e Enriquecimento da Base de Dados 103

4.5.2 Base de Dados Operacional/ Data Store Operacional 103

4.5.3 Criação de Data Warehouse 104

4.5.4 Análise do Negócio 105

4.5.5 Business Performance Management – BPM 110

Capítulo 5 – Conclusão 113

Bibliografia 115

(12)

Lista de Figuras

Figura 1: Distribuição da Água na Terra

Figura 2: Distribuição Percentual do Povoamento do Banco de Dados SIAGAS Figura 3: Etapas do Processo KDD

Figura 4: Estrutura e Visualização do Data Warehouse

Figura 5: Interatividade entre Funcionalidades e Técnicas de Mineração de dados Figura 6: Funcionalidades em Mineração de Dados

Figura 7: Sub-funcionalidades da Análise e do Descobrimento Figura 8: Gráfico de Nível d’água de um Poço – USGS

Figura 9: Modelo Conceitual do SAD Aplicado aos Recursos Hídricos Subterrâneos Figura 10: Modelo de Negócio do SAD Aplicado aos Recursos Hídricos Subterrâneos Figura 11: Modelo de Dados SIAGAS

Figura 12: Módulo de Entrada de Dados

Figura 13: Módulo de Consulta na Web – cruzamento de informação espacial e tabular Figura 14: Módulo de Consulta na Web – espacialização de dados

Figura 15: Módulo de Análise e Interpretação de Dados – relatórios Figura 16: Rede RIMAS – Mapa de Situação dos Aquíferos

Figura 17: Mapa de Distribuição dos Poços Cadastrados na Base de Dados Figura 18: Arquitetura de um Operacional Data Store (ODS)

Figura 19: Modelo Lógico do MGE Figura 20: Modelo Conceitual do SAD Figura 21: Mapa de Localização dos Poços

Figura 22: Mapas de Isovalores de Qualidade de Água

(13)

Lista de Tabelas

Tabela 1: Os quatro níveis de dados do ambiente arquitetural de um data warehouse Tabela 2: Exemplos de consultas referentes aos quatro níveis de dados

Tabela 3: Funcionalidades e suas técnicas para mineração de dados

Tabela 4: Quadro geral de atributos relevantes cadastrados na base de dados Tabela 5: Tabela de anexos da dissertação

(14)

Capítulo 1 - Introdução

Este capítulo introdutório descreve as principais motivações para realização do trabalho, apresenta os objetivos e a justificativa da pesquisa e finaliza expondo a estrutura e organização da dissertação.

1.1 Contextualização

A abundância e a escassez de água tem tido, através dos tempos, profundas repercussões na evolução dos povos, influenciando em certas regiões, em função das disponibilidades hídricas, as condições de florescimento, fixação e desenvolvimento das civilizações (CUNHA et al., 1980).

A água é um bem vital e estratégico para a humanidade e representa uma moeda de negociação cada vez mais valiosa entre as nações. Na atualidade as mudanças climáticas, o crescimento populacional, o aumento vertiginoso da concentração urbana, os desastres naturais, envolvendo eventos hidrológicos extremos e a deficiente infraestrutura hídrica (saneamento básico) são os principais fatores que têm trazido enormes prejuízos sociais e econômicos, principalmente, às populações menos assistidas.

Segundo TUNDIZI (2003), é falsa a aparente concepção de que a água doce é abundante. Somente 3% da água do planeta é disponível como água doce. Destes 3%, cerca de 75% estão congelados nas calotas polares e cerca de 10% estão reservados aos aquíferos. Portanto 15% dos 3% de água doce estão disponíveis. A figura 1 apresenta a distribuição da água na Terra. Vale considerar que o suprimento global tem reduzido gradativamente com o aumento da população, dos usos múltiplos e com a perda do mecanismo de retenção da água.

(15)

Figura 1 - Distribuição da Água na Terra Fonte: (TUNDIZI, 2003)

O mapa mundial assinala que estamos ampliando as regiões do planeta com enorme “déficit” hídrico e com consequentes problemas relacionados à saúde pública.

De acordo com o relatório sobre Economias Verde lançado em Estocolmo pelo Programa das Nações Unidas para o Meio Ambiente (PNUMA) durante a Conferência da Semana Mundial da Água, em agosto de 2011, quase 1 bilhão de pessoas não têm acesso à água; 2,6 bilhões não têm acesso ao saneamento básico; e 1,4 milhões de crianças menores de cinco anos morrem a cada ano como resultado da falta de acesso à água potável e aos serviços adequados de saneamento básico (UNEP, 2011).

Estudos técnicos mundiais indicam que mais de 76 milhões de pessoas, a maioria crianças, morrerão de doenças relacionadas com a água até 2020, a não ser que se adotem medidas urgentes para recuperar os mananciais hídricos do planeta.

Segundo a Organização Mundial de Saúde (OMS), em relatório produzido em 2000, estima-se que 04 (quatro) bilhões de casos de diarreias ocorrem a cada ano, matando cinco milhões de pessoas. No Brasil, morrem atualmente 29 pessoas/dia por doenças decorrentes da qualidade da água e do não tratamento de esgotos.

(16)

O Brasil, país de dimensão continental, possui uma grande disponibilidade hídrica, distribuída de forma desigual em relação à densidade populacional. A produção total das águas doces, no Brasil, representa 53% do continente sul-americano (334.000 m3/s) e 12% do total mundial (1.488.00 m3/s) (REBOUÇAS 1996). Os principais problemas em recursos hídricos no Brasil são:

 escassez de água, principalmente, na região semi-árida brasileira;

 desastres naturais envolvendo eventos hidrológicos extremos (secas e inundações);

 conflitos de uso da água principalmente nas regiões decorrentes dos seus usos múltiplos;

 contaminação das águas superficiais e subterrâneas.

Para enfrentar estes problemas, no âmbito da gestão dos recursos hídricos, foi instituída pela Lei 9.433, em 08 de janeiro de 1997, uma nova Política Nacional de Recursos Hídricos - PNRH, fundamentada nos princípios da gestão descentralizada e participativa.

Todavia, os efeitos negativos dos problemas acima apontados – em especial a escassez de água decorrente das estiagens e secas no semiárido - sobre a população são manifestados pela fome, sede e miséria e estão atrelados à extrema vulnerabilidade da estrutura econômico-social e à baixa eficácia de mecanismos adotados para o aproveitamento, preservação, controle e gestão dos recursos hídricos e para o fortalecimento da economia local.

Os problemas sociais decorrentes da seca inserem-se nas grandes questões de ordem nacional, dada à magnitude e o número de pessoas atingidas. Com vistas a minimizar os perversos efeitos da estiagem, o governo tem adotado medidas de intervenção de natureza emergencial, destinadas a assegurar os meios mínimos de subsistência das populações nos períodos mais críticos, ou de caráter permanente que visam ao fortalecimento da infraestrutura local, a partir da execução de obras públicas (barragens, açudes, poços tubulares, etc.).

Um exemplo deste fato foi o Programa Emergencial de Combate aos Efeitos da Seca, instituído em 1998, através do Decreto nº 2618, de 05.06.1998 que teve como

(17)

meta a perfuração, recuperação de poços tubulares e a implantação de dessalinizadores nos municípios inseridos no Polígono das Secas.

Como aspectos positivos deste Programa merecem ser destacados o modelo participativo de tomada de decisão; a validação técnica das obras era feita por órgão independente e credenciado (Companhia de Pesquisa de Recursos Minerais - CPRM) e a execução de obras (construção e recuperação de poços) que resultaram na melhor relação custo-benefício do empreendimento.

Não obstante os pontos positivos deste Programa, muitos problemas estruturais e recorrentes permaneceram, dentre os quais se destacam:

 gestão e controle ineficaz, pelo Estado, das águas subterrâneas, sob os quais detêm competência legal, visando o disciplinamento do seu uso. Como resultado agravam-se os problemas de superexplotação (excesso de retirada de água) e contaminação dos aquíferos;

 inexistência de um sistema permanente de monitoramento e controle da perfuração de poços. Diversos órgãos têm bases de dados próprias, na maioria, desatualizadas e despadronizadas.

De acordo com a cartilha elaborada pelo Ministério de Meio Ambiente, em 2001, relativa ao Programa de Águas Subterrâneas KETTLELHUT (2001), observamos os seguintes desafios a serem enfrentados nesta área:

 a necessidade da gestão integrada da água com base nos instrumentos da Política Nacional de Recursos Hídricos;

 o controle dos usos e da qualidade das águas insatisfatórios, em face da dispersão e falta de articulação legal e institucional;

 as legislações existentes apresentavam lacunas e até mesmo conflitos carecendo de ajustes para promover uma gestão integrada dos recursos hídricos;

 existência de reconhecida carência de conhecimentos básicos em águas subterrâneas, que necessitam ser rapidamente desenvolvidos;

 a necessidade de mobilização social que resulte na vigilância da sociedade sobre o uso e controle racionais das águas subterrâneas.

(18)

A CPRM - o Serviço Geológico do Brasil – (SGB), estabeleceu como diretriz estratégica desenvolver um Sistema de Informações de Águas Subterrâneas – SIAGAS, o qual foi implantado em 1996. A referida instituição definiu como estratégia manter estreita articulação com outros organismos provedores de dados, em especial os órgãos estaduais gestores dos recursos hídricos, firmando Acordos de Cooperação Técnica, de modo a garantir um padrão de referência nesta área e possibilitar a integração de bases de dados. Nesta vertente, ela priorizou o Programa de Água Subterrânea para a região Nordeste, em particular, o “Cadastramento de Fontes de Abastecimento por Água Subterrânea”.

Neste sentido, a empresa vem realizando desde 1998 o citado cadastramento, inicialmente, nos estados do Ceará e Sergipe, ampliando sua atuação para todo o território nacional.

A alimentação da base de dados do SIAGAS é feita através das fichas de poços, fornecidas por entidades públicas e privadas. Estas fichas, elaboradas à época da construção do poço, apresentavam inconsistências (coordenadas geográficas incorretas) e imprecisões (campos não preenchidos) que estão sendo depuradas pelo SGB.

Em 2009, a CPRM implantou a Rede Integrada de Monitoramento de Águas Subterrâneas do Brasil – RIMAS que se constitui numa nova fonte de dados de poços para base de dados operacional de águas subterrâneas. Os dados gerados nesta rede além de serem mais representativos e confiáveis têm a característica de registrar variações temporais dos parâmetros hidrogeológicos, permitindo avaliar o comportamento dos processos hidrológicos e gerar relatórios que possam estabelecer tendências e avaliar cenários sobre a utilização dos recursos hídricos subterrâneos.

O monitoramento das águas subterrâneas, através da rede RIMAS, gerando dados contínuos e completos; a coleta e medição dirigida de parâmetros nos poços existentes; a alimentação da base de dados com poços oriundos do processo de outorga pelo uso da água são procedimentos que resultam no enriquecimento da base de dados operacional de águas subterrâneas e contribui para melhorar o sistema de apoio à decisão em recursos hídricos.

(19)

A base de dados operacional de águas subterrâneas conta com expressiva quantidade de poços cadastrados e tem a tendência, nos próximos anos, de aumentar significativamente o volume de dados armazenados. Este cenário sinaliza para que se disponha de ferramentas de gerenciamento eficaz de armazenamento de dados, com o uso de sistemas inteligentes, baseados em descoberta de conhecimento.

Segundo (RAMOS et al.,1989), a área geocientífica, em especial, a hidrologia – ciência que estuda a ocorrência, a distribuição o movimento e propriedades da água na atmosfera, na superfície e no subsolo terrestre - envolve a realização de estudos de fenômenos de natureza estocástica (precipitação, vazão, níveis de água, etc.), exigindo a formação de séries hidrológicas extensas para se ter uma melhor predição e representatividade do fenômeno analisado.

Assim, consoante LACERDA (2010), verificamos que em um ambiente competitivo, complexo e com rápidas mudanças, as empresas submetidas às pressões diversas devem buscar inovar suas práticas de gerenciamento, de modo a melhorar seu desempenho, garantindo vantagens competitivas em relação os concorrentes.

Atualmente, manipula-se uma grande base de dados, exigindo a utilização de sistema de suporte à gerência, envolvendo o uso de altas tecnologias para análise, prospecção e visualização de informações. Para isso torna-se importante a utilização do

Business Intelligence (BI), um termo “guarda chuva” que engloba ferramentas,

arquitetura, bases de dados, data warehouse, gerenciamento de desempenho, metodologias, tudo integrado em uma suíte de software. Os principais objetivos do BI são permitir o acesso interativo aos dados (às vezes em tempo real), proporcionar a manipulação desses dados e fornecer aos gerentes e analistas de negócios a capacidade de realizar análises aprimoradas para tomada de decisão (TURBAN et al., 2008).

Diante de um ambiente globalizado, a tecnologia de informação torna-se uma importante aliada na aplicação das políticas públicas, principalmente, daquelas voltadas para melhoria da qualidade de vida da população, nas áreas de recursos hídricos, meio ambiente e saúde pública. As empresas começam a perceber a necessidade de terem maior agilidade, disponibilidade e confiabilidade das suas informações, para que possam tomar as melhores decisões. A Business Intelligence (BI) vem ao encontro dessa

(20)

realidade, pois utiliza, de forma integrada, seus principais componentes - Base de dados (Data Warehouse - DW), Análise de Negócio ( Online Transaction Processing- OLAP e Data Mining - DM), Gestão e Análise de Desempenho (Business Performance

Management – BPM) para melhorar a tomada de decisão. Portanto, a gestão aleatória

dará lugar à inteligência de negócio (GOUVEIA,2009).

O avanço tecnológico tem possibilitado o armazenamento de grandes e múltiplas quantidades de dados. É necessário fazer melhor uso destes, através de técnicas de enriquecimento de dados, para conferir maior eficácia na tomada de decisão.

Uma análise preliminar da base de dados operacional de poços profundos administrada pelo Sistema de Informações de Águas Subterrâneas (SIAGAS) indica que a mesma tem um conteúdo extraordinário de dados permitindo extrair informações muito úteis destinadas às políticas públicas relacionadas com recursos hídricos, tais como: a) gestão das águas subterrâneas; b) avaliação hidrogeológica; c) revitalização de poços; d) superexplotação e contaminação dos aquíferos, dentre outros. Todavia, é necessário realizar o enriquecimento e depuração dos dados, que pelo seu histórico, apresentam inconsistências e falhas, de modo a agregar maior valor à base de dados.

Dispor de um Sistema de Apoio à Decisão aplicado aos Recursos Hídricos Subterrâneos constitui uma valiosa ferramenta para planejadores, analistas de negócio e gerentes da área de recursos hídricos, que a partir da análise de dados históricos e atuais, situações, métricas e desempenho, podem tomar as melhores decisões.

Esta dissertação apresenta um modelo conceitual, baseado em BI de um sistema de apoio à decisão aplicado aos recursos hídricos subterrâneos.

1.2 Justificativa

Partindo do pressuposto que a água é um bem natural e estratégico, verificamos que o Brasil tem uma disponibilidade hídrica superficial de 251.900 m3/s, cujo potencial corresponde a 53% do total referente à América do Sul e 12% da água doce do planeta.

(21)

Em relação às águas subterrâneas, nosso país dispõe de um sistema aquífero fissural que ocupa 53% do território nacional e possui bacias sedimentares que ocupam 42% da superfície do país.

Não obstante, devido ao grande volume de água doce, disponível no Brasil, observamos enormes desafios a serem enfrentados relativos à sua gestão e aproveitamento, pois 80% da produção hídrica brasileira se concentram em três grandes unidades hidrográficas: Amazonas, São Francisco e Paraná (PEIXINHO & FEITOSA, 2008).

Além disso, embora o potencial hídrico subterrâneo no Brasil seja bastante expressivo, o seu aproveitamento ainda é relativamente pequeno, devido à tradição histórica brasileira de realizar em maior escala o aproveitamento das águas superficiais. Isto decorreu do fato do setor elétrico ter exercido, ao longo de mais de 60 anos, a liderança no aproveitamento dos recursos hídricos para a geração de energia, efetuando um monitoramento hidrológico contínuo nas principais bacias hidrográficas e garantindo um rico acervo de informações sobre o regime hidrológico brasileiro.

A evolução histórica dos recursos hídricos, em nosso país, demonstra que ficou a cargo do Ministério de Minas e Energia, através do Departamento Nacional de Energia Elétrica (DNAEE), extinto em 1996, a incumbência de realizar a gestão dos recursos hídricos, até a promulgação da Lei 9.433, que instituiu a Política Nacional de Recursos Hídricos.

A implantação da Política Nacional de Recursos Hídricos, em 1997, estabeleceu uma nova configuração no modelo de gestão das águas no Brasil, obedecendo a princípios que privilegiam a participação e a descentralização nos processos decisórios, novos atores sugiram neste processo, destacando-se os Conselhos, Comitês e Agências de Bacias. Além disso, instituiu instrumentos para a gestão dos recursos hídricos.

Entre os principais desafios em recursos hídricos no Brasil destacam-se:

1. Cheias – esse fenômeno hidrológico ocorre nas principais bacias hidrográficas brasileiras (Nordeste, Centro-Oeste, Sul e Sudeste) provocando inundações principalmente associadas a escorregamentos de encostas,

(22)

resultando em desastres naturais com enormes prejuízos sócio-econômicos (Sul e Sudeste).

2. Conflitos de Uso – características das regiões Sul e Sudeste aonde a oferta de águas é insuficiente para atender a demanda de múltiplos usos.

3. Contaminação das Águas – ocorre, na maioria das regiões densamente povoadas e/ou que tem um saneamento básico deficitário.

4. Escassez de água – com ocorrência predominantemente nas bacias da região Nordeste.

O “déficit hídrico” existente no Nordeste associado à elevada densidade populacional levou a se buscar, de forma alternativa, o aproveitamento dos recursos hídricos subterrâneos através da exploração de poços profundos.

A deficiência no processo de gestão e controle das águas subterrâneas, em especial, do processo de perfuração de poços tem resultado em ineficiência no sistema de recursos hídricos com elevados desperdícios de água e baixa produtividade para atendimento a população.

O SIAGAS compõe o Sistema Nacional de Informações sobre os Recursos Hídricos da Política Nacional de Recursos Hídricos e visa apoiar a pesquisa, os estudos, a gestão e o aproveitamento das águas subterrâneas.

Dentre os principais desafios nesta área merecem destaques: a) a necessidade de internalizar o uso da ferramenta SIAGAS nos órgãos gestores estaduais de recursos hídricos, que detêm o poder legal sobre as águas subterrâneas, permitindo a padronização e intercâmbio dos dados, a nível nacional; b) a necessidade de enriquecimento da base de dados relativo a dados geológicos, hidrodinâmicos e hidroquímicos (vide figura 2); e c) ter à disposição um sistema de apoio à decisão em recursos hídricos.

(23)

0 10 20 30 40 50 60 70 80 90 100 NORTE

SIAGAS - Cadastro de Poços ENTIDADE

PROPRIETÁRIO USO FORMAÇÃO LITOLOGIA SITUAÇÃO N. ESTÁTICO N. DINÂMICO VAZÃO PH CONDUTIVIDADE FERRO CLORETO SÓLIDOS TOTAIS COLIFORMES

Figura 2 – Distribuição Percentual do Povoamento do Banco de Dados SIAGAS

A motivação da pesquisa está orientada pelos seguintes aspectos:

 tornar a base de dados de água subterrânea referência em qualidade dos dados, para dar suporte à pesquisa, estudos, gestão e aproveitamento das águas subterrâneas;

 motivar os órgãos gestores e intervenientes na utilização das ferramentas SIAGAS e SAD, no processo de gestão das águas subterrâneas;

 aumentar a eficácia do programa de águas subterrâneas.

1.3 Objetivos

A água subterrânea é parte integrante do ciclo hidrológico, representando 98% das águas doces e líquidas do planeta. Elas são responsáveis pela alimentação e pela regularização (perenização) dos rios, dos córregos, dos lagos e outros, permitindo que estes continuem fluindo na época de estiagem/seca.

As referidas águas têm importância estratégica, pois normalmente apresentam elevado padrão de qualidade, físico-química e bacteriológica. Além disso, não são afetadas por períodos de estiagens prolongados e sua obra de captação (poço) pode ser construída próxima ao local da demanda.

No Brasil, devido à grande e rica rede de drenagem fluvial, historicamente, se utilizou as águas superficiais em detrimento das águas subterrâneas predominantemente.

(24)

O crescente consumo e aproveitamento das águas têm proporcionado o uso mais intenso das águas subterrâneas.

A gestão eficaz das águas subterrâneas pressupõe a existência de sistemas de informações que as organizem e lhes dêem representatividade e confiabilidade.

Assim, a intenção é despertar o interesse dos pesquisadores, gestores e usuários dos recursos hídricos subterrâneos, na adequada produção de dados, armazenamento, recuperação e difusão de informações, bem como no uso de Sistema de Apoio à Decisão aplicado aos Recursos Hídricos Subterrâneos, baseado em Business Intelligence. Consequentemente, os resultados deste trabalho terão validade para os profissionais envolvidos em projetos de Data Warehouse e Análise de Negócio, bem como o uso de ferramentas para manipulação e análise de dados tais como: Data Mining, Business

Performance Management e Dashboard.

Objetivo geral

O objetivo geral da pesquisa é projetar um modelo conceitual de um Sistema de Apoio à Decisão, apoiado em BI, aplicado aos recursos hídricos subterrâneos, composto das seguintes etapas:

Projetar um Sistema de Apoio à Decisão (SAD) baseado no BI.

Estruturar uma Base de Dados Referencial (Data Store Operacional- ODS ). Objetivo específicos

 Estabelecer critérios para o enriquecimento da base de dados

 Simular a aplicação do SAD numa área piloto

1.4 Estrutura da Dissertação

A presente dissertação está estruturada em 5 capítulos, em que o 1º já foi exposto, e os demais estão descritos a seguir. O Capítulo 2 configura o estado da arte da pesquisa e tem por finalidade apresentar os principais conceitos envolvidos com o tema da dissertação, sob a forma de revisão bibliográfica.

O capítulo 3 descreve a metodologia para construção do modelo conceitual de um Sistema de Apoio à Decisão, baseado em BI, analisando os componentes do modelo

(25)

que envolve o Sistema Operacional (SIAGAS/RIMAS), Data Store Operacional, Data

Warehouse, OLAP, Data Mining e Business Performance Management - BPM.

O capítulo 4 apresenta um protótipo do modelo conceitual SAD aplicado aos recursos hídricos subterrâneos em Porto Velho – Rondônia.

O capítulo 5 retoma as discussões gerais do trabalho de forma conclusiva, finalizando a dissertação com os resultados e contribuições relevantes, dificuldades encontradas e as indicações para trabalhos futuros.

(26)

Capítulo 2 – Fundamentação Teórica

Este capítulo configura o estado da arte da dissertação e busca discutir os requisitos relacionados aos Sistemas de Apoio à Decisão, Data Warehouse, OLAP, Data Mining e Business Performance Intelligence. São apresentados os principais conceitos e a importância dos processos decisórios, mostrando a relevância para a utilização do Business Intelligence.

2.1 Contextualização

A hidrologia é uma ciência de natureza estocástica, ou seja, não determinística, necessitando formar séries históricas extensas para a sua utilização racional e eficiente na gestão e no aproveitamento dos recursos hídricos. Portanto, dispor de uma base de dados hidrológica confiável e representativa é fundamental para dela extrair informações valiosas na aplicação dos recursos hídricos.

Atualmente, o Brasil dispõe de um banco de dados de hidrologia de superfície bastante expressivo, construído ao longo dos 90 anos de levantamento hidrometeorológico para atender, primordialmente, o aproveitamento hidroenergético. São mais de 500 milhões de dados de precipitação, evaporação, níveis d’água, descargas líquidas e sólidas dos rios, qualidade da água e armazenamento em uma base de dados administrada pelo Sistema Nacional de Informações sobre Recursos Hídricos.

No entanto, o mesmo não se pode dizer em relação à formação da base de dados de água subterrânea. Historicamente, prevaleceu, em nosso país, a gestão e o aproveitamento dos recursos hídricos superficiais. Mais recentemente, o Serviço Geológico do Brasil, implantou o Sistema de Informações de Águas Subterrâneas – SIAGAS, que permitiu formar uma base de dados de águas subterrâneas que hoje conta com cerca de 215.000 poços cadastrados.

O SIAGAS tem sido utilizado como um instrumento importante de tomada de decisão no campo da gestão e aproveitamento dos recursos hídricos subterrâneos, obtendo o reconhecimento do Conselho Nacional de Recursos Hídricos - CNRH, que recomenda a sua adoção pelos órgãos gestores e os usuários de informações

(27)

hidrogeológicas. Além disso, o SIAGAS foi implantado em Cuba e existe a perspectiva de sua utilização pelos Serviços Geológicos dos países ibero-americanos.

Não obstante, devido ao controle frágil exercido pelos órgãos gestores dos recursos hídricos, cujo domínio é estadual, tem resultado numa base de dados com muitas falhas e inconsistências, limitando a sua utilização, principalmente nas aplicações seguintes:

 aumento do conhecimento sobre a disponibilidade e vulnerabilidade hídrica;

 melhoria da eficiência das obras hídricas; e

 gestão e controle da contaminação das águas subterrâneas, dentre outros. Neste sentido, torna-se importante adotar um sistema de apoio à decisão que proporcione uma avaliação crítica das informações de água subterrânea, auxiliando os gestores a definir tendências, apontar problemas e absorver decisões inteligentes.

2.2 Sistema de Apoio à Decisão

O Sistema de Apoio à Decisão, baseado em BI, se utiliza de várias tecnologias, dentre elas, Data Warehouse, Data Mart, Sistema Gerenciadores de Banco de Dados, Processamento Analítico On-line (OLAP), Banco de Dados Multidimensionais, Mineração de Dados (Data Minning), entre outros.

Segundo GOUVEIA (2009), as Ferramentas de Apoio à Decisão (FAD) fazem parte do conceito BI ou Inteligência do Negócio e constituem o conjunto de tecnologias que permitem o cruzamento de informações, o suporte à análise dos indicadores de desempenho de um negócio. Com elas, é possível apresentar informações dos negócios, sob forma gráfica, simulando a ocorrência e oferecendo maior capacidade de análise para descobrimento de novos conhecimentos e padrões.

De acordo com TURBAN et al. (2009), o termo BI foi cunhado pelo Gartner

Group em meados da década de 1990. Este conceito, todavia, iniciou muito antes, com

os sistemas de geração de relatório SIG na década de 1970. Neste período os sistemas de geração de relatórios eram estáticos, bidimensionais e não possuíam recursos de análise. No início dos anos 80 surgiu o conceito de sistema de informações executivas

(28)

(EIS). Foram introduzidos na década de 1990 recursos de geração de relatórios dinâmicos e multidimensionais (ad hoc ou sob demanda), prognósticos, análise de tendências e detalhamento e fatores críticos de sucesso. O uso desses recursos e alguns novos apareceram sob o nome de BI. Em 2005 incorporou-se ao BI recurso de inteligência artificial, bem como poderosos recursos de análise.

O maior objetivo do BI é definir regras e técnicas que permitam as empresas gerenciar os seus dados transformando-os em depósitos estruturados de informações, independente de sua origem. Entre os depósitos de informações estruturados destaca-se o Data Warehouse, que armazena informações em estruturas dimensionais e representa uma forma de dar suporte a tomada de decisões.

Esta evolução dos Sistemas de Apoio à Decisão (SAD) foi em função da necessidade das organizações estarem focadas na captação, compreensão e exploração dos seus dados, em face do ciclo de negócio estar cada vez mais apertado, exigindo uma decisão melhor e mais rápida. Os gerentes precisam de informações certas, na hora

certa e no lugar certo. O uso do SAD decorreu, também, do crescente aumento da

quantidade de dados armazenados em meio eletrônico, da constante diminuição do custo de armazenamento de dados e do aumento da eficiência das tecnologias de informações. De acordo com ELMASRI (2005), os bancos de dados de apoio à decisão são extensos, com elevado grau de indexação e envolvem muitas redundâncias. As chaves quase sempre envolvem um componente temporal e as consultas são normalmente complexas.

Os sistemas de banco de dados para apoio à decisão diferem dos sistemas de banco de dados tradicionais, pelo fato daqueles serem quase sempre para leitura/consulta e, dificilmente, para atualizações. Por esta razão verifica-se dificuldade de manipular grande número de variáveis e de dados históricos. Daí a necessidade de extrair informações relevantes da base de dados transacional ou operacional.

Segundo TURBAN et al. (2009), o BI tem quatro grandes componentes: um

data warehouse, composto de dados fontes; a análise de negócios, um conjunto de

(29)

mining; business performance management (BPM) para monitoramento e análise de

desempenho e uma interface com o usuário (como o dashboard).

No caso do data warehouse, estamos diante de um ambiente técnico enquanto que o ambiente de análise está mais voltado para o analista de negócio. O usuário pode se conectar ao sistema por meio de interface do usuário, como navegador e a alta administração pode usar o BPM e o dashboard.

2.3 O processo de Busca do Conhecimento em Banco de Dados

Com o aumento exponencial da quantidade de dados armazenada em base de dados, o homem necessita de ferramentas computacionais que o auxiliem na análise, interpretação e na construção de relacionamento de dados. Nesta vertente, o objetivo aqui é realizar a extração em grandes bases de dados informações desconhecidas e válidas que possam ser utilizadas para tomada de decisões.

Para atender esta nova realidade surge uma nova linha de pesquisa denominada Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases

– KDD), mas popularmente, denominada de Mineração de dados (PEIXINHO, 2009).

O KDD surge como um amplo conceito de busca do conhecimento e envolve diversas áreas de conhecimento, dentre as quais merecem destaque:

 Estatística

Data Warehousing

 Reconhecimento de Padrões

 Inteligência Computacional e Aprendizado de Máquinas

 Banco de Dados

A título de ilustração, segue a figura 3 em que cada etapa da execução do processo KDD possui uma interseção com as demais. Desta forma os resultados obtidos numa fase podem ser utilizados para melhorar os resultas das próximas fases. Este procedimento revela uma interatividade, na perspectiva de melhorar os resultados a cada interação (GOUVEIA, 2009).

(30)

Figura 3 – Etapas do Processo KDD Fonte: Adaptação de SYMEONIDIS, et al. (2005)

O KDD, quando abordado sob a ótica do resultado, é definido como um processo de extração trivial de informação, implícita, previamente desconhecida e potencialmente útil, a partir dos dados armazenados em banco de dados. Conceituado sob a ótica de processo, o KDD é considerado como uma tarefa de descoberta de conhecimento intensivo, consistindo de interações complexas, feitas ao longo do tempo entre o homem e uma grande base de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.

O KDD também é considerado como sendo um processo composto de etapas operacionais de pré-processamento, mineração de dados e pós-processamento (GOLDSCHMIDT et. al., 2005).

A etapa de pré-processamento refere-se à execução de tarefas de captação, organização e tratamento de dados. Em seguida, temos a etapa de Data Mining, considerada essencial, relacionada com a extração do conhecimento útil no âmbito da aplicação KDD. O pós-processamento, algumas vezes dispensável, tem o objetivo de viabilizar a avaliação da utilidade do conhecimento descoberto (GOLDSCHMIDT et. al., 2005).

A complexidade do processo KDD está diretamente associada à dificuldade em perceber e interpretar adequadamente inúmeros fatos observáveis durante o processo e na dificuldade em conjugar dinamicamente tais interpretações de forma a decidir quais

(31)

ações devem ser realizadas em cada caso (GOLDSCHMIDT et. al., 2005). Ao analista cabe a difícil tarefa de orientar o processo KDD.

O processo de descoberta de conhecimento envolve seis estágios, a saber: 1) Seleção, 2) Limpeza, 3) Codificação, 4) Enriquecimento, e 5) Mineração de Dados e 6) Relatórios.

As organizações passaram a utilizar-se de duas categorias de banco de dados: o banco de dados transacional para atender operações normais e o Data Warehouse para dar suporte às decisões estratégicas, ao prover uma sólida plataforma de dados históricos integrados a partir dos quais é possível fazer análises.

A seleção dos dados é extraída do banco de dados transacional e, para facilitar este processo, eles são copiados para um banco de dados separado, ou mesmo para o próprio Data Warehouse.

O estágio de Limpeza dos dados é feito através de algoritmos com o objetivo de depurá-los. Ele abrange qualquer tratamento realizado sobre os dados selecionados de forma a garantir a qualidade (completude, veracidade e integridade) dos fatos por eles representados.

A codificação dos dados, por sua vez, é realizada de modo que eles fiquem em condições de serem usados como entrada dos algoritmos de reconhecimento de padrões. Esta é uma atividade criativa que deve ser realizada diversas vezes para se obter a melhor solução.

O enriquecimento dos dados consiste em buscar mais informações que possam ser reunidas aos registros existentes, aprimorando-os para que estes contribuam no processo de descoberta de conhecimento.

Por fim, a etapa de mineração de dados, que alguns autores consideram com sinônimo da Descoberta de Conhecimento em Bases de Dados, envolve a aplicação de algoritmos sobre os dados, na busca de conhecimento implícito e útil. Nesta etapa são definidos técnicas e algoritmos a serem utilizados no problema em questão, tais como: Ferramenta de Consulta, Técnicas Estatísticas, Visualização, Processamento Analítico

(32)

on-line (ferramenta OLAP), Árvores de Decisão, Redes Neurais, Regras de Associação e Algoritmo Genético.

2.4 Data Warehouse

O DATA WAREHOUSING é um ambiente computacional onde os usuários extraem informações estratégicas que os ajudam a conduzir seu processo de negócio. A seguir, abordaremos definições e conceitos sobre o referido ambiente computacional.

O produto do DATA WAREHOUSING é o DATA WAREHOUSE(DW), um conjunto de dados produzidos para dar suporte à decisão, de interesse dos níveis gerenciais da organização. Segundo TURBAN et al., (2009), os dados são, normalmente, estruturados de modo a estarem disponíveis em um formato pronto para as atividades de processamento analítico (p. ex. processamento analítico on line [OLAP], data mining, consultas, geração de relatórios, outras aplicações de suporte à decisão). De acordo com INMON (2005), o termo é definido como “um depósito de dado orientado por assunto, integrado, não volátil, variável com o tempo, para apoiar as decisões da gerência”.

Uma maneira de apresentar o data warehousing é recorrer as suas características fundamentais:

Orientação por assunto. Os dados são organizados por assunto pormenorizado, como vendas, produto ou clientes, e contem informações relevantes para tomada de decisão, permitindo avaliar o desempenho da organização. Um data warehouse difere de um banco de dado operacional, por que estes são orientados por processo e lidam com transações que atualizam o banco de dados.

Integrado. A integração é uma característica de um data warehouse. Os dados advindos de diferentes fontes como BD operacionais, arquivos textos, sistemas legados, etc. devem estar em formato consistente. Aparecem conflitos de nomenclatura e discrepância entre unidades de medidas a serem superados.

(33)

Variável no tempo (série temporal). Um data warehouse mantém dados históricos e por conseguinte detectam tendências, variações e relações de longo prazo que permitem fazer previsões e comparações.

Não-volátil. Após os dados serem inseridos no data warehouse não podem ser alterados. Os dados obsoletos são descartados e as alterações são consideradas como dados novos.

Segundo TURBAN et al. (2009), as características adicionais de um data

warehouse que podem ser incluídas são as seguintes:

Baseado em Web. Os data warehouses são desenvolvidos para ambiente informatizado eficiente baseado na Web;

Relacional/multidimensional. Um data warehouse usa tanto um estrutura relacional como multidimensional;

Cliente/Servidor. Um data warehouse, para proporcionar acesso mais fácil, usa arquitetura cliente/servidor.

Em tempo real. Os data warehouse mais recentes já incluem recursos de acesso e análise em tempo real.

Inclui metadados. O uso do metadados (dado sobre dado) no data

warehouse tem a finalidade de informar como os dados estão organizados e

como usa-lo de forma mais eficiente.

Portanto, o data warehouse (DW) é um repositório de dados especiais, enquanto que o data warehousing é um processo inteiro. Existem três tipos de data warehouses:

data mart (DM), data store operacional (ODS) e data warehouses empresariais

(EDW).

2.5 Data Mart

De acordo com GOUVEIA (2009 apud KIMBAL, et al.2002: 36):

“Um Data Mart é um Data Warehouse de menor capacidade e complexidade usado para atender a uma unidade específica de negócios. Portanto, são tipicamente mais fáceis de construir e manter.”

(34)

Segundo TURBAN et al. (2009:58), um data warehouse une banco de dados de toda a empresa; já um data mart, geralmente, é menor e se concentra em um assunto ou departamento específico. O Data Mart é um subconjunto de um Data Warehouse, que consiste em uma única área temática (p. ex., marketing, produção). Um Data Mart pode ser dependente ou independente. Um Data Mart dependente é um subconjunto criado diretamente do Data Warehouse. Uma vantagem é ter um modelo de dados consistentes e para toda a empresa, além de produzir dados de qualidade. Um Data Mart independente é um Data Warehouse pequeno, projetado para uma unidade estratégica de negócios (UEN) ou um departamento, mas cuja fonte não seja um EDW. Ele é útil nas seguintes condições (GOUVEIA, 2009):

 Os dados devem estar segregados para melhorar o desempenho do sistema do ponto de vista do usuário;

 Deve ter cópia dos dados onde somente às pessoas autorizadas tenham acesso;

 Em ambiente corporativo é importante que seja fortalecido o conceito de propriedade em banco de dados.

Data stores operacionais

O data store operacional (ODS) é um tipo de banco de dado constantemente usado na área de preparação temporária de um Data Warehouse. Ele difere do Data

Warehouse porque seu conteúdo pode ser atualizado durante o curso das operações

comerciais. Um ODS é usado para decisões de curto prazo e envolve operações de consolidação de vários sistemas-fonte, permitindo uma visão integrada e quase em tempo real dos dados voláteis e correntes.

Data warehouse empresarial

Um data warehouse empresarial (EDW) é um data warehouse em grande escala e utilizado por toda a organização. Esta dimensão lhe proporciona meios para integrar dados oriundos de muitas fontes em um formato padronizado, possibilitando maior eficiência das aplicações deste BI até suporte a decisão.

(35)

2.6 Metadados

Os metadados são componentes muito importantes dentro do ambiente, pois ajudam a identificar e localizar os demais dados do DW. Eles descrevem a estrutura e alguns significados a respeito dos dados e contribuem para seu uso eficiente ou ineficiente (TURBAN et al., 2009). Em termos de uso, os metadados podem ser definidos como técnico ou de negócios. Segundo KASSAM (2002 apud TURBAN, 2009:59), os metadados de negócios incluem informações que aumentam a compreensão sobre os dados tradicionais (estruturados). O seu principal objetivo é oferecer contexto aos dados relatados, isto é, informações enriquecedoras que conduzem à geração do conhecimento. Existem considerações éticas a serem observadas na coleta e posse de informações contidas nos metadados, inclusive questões de natureza intelectual e de privacidade que surgem no estágio de desenvolvimento do projeto.

2.7 Granularidade

A granularidade diz respeito ao nível de detalhamento das informações que estão armazenadas no Data Warehouse. Segundo INMON (1997), constitui a informação mais importante do projeto. Quanto maior o nível de detalhamento dos dados, menor é a granularidade do DW. A granularidade está ligada ao volume dos dados armazenados e, consequentemente, determina o grau de consulta que pode ser extraído da base de dados. Ao definir um nível mais detalhado, o usuário terá informações em qualquer nível de agregação e maior será o detalhamento da consulta. Cabe a equipe de sistemas, projetar adequadamente o Data Warehouse de maneira a atender satisfatoriamente às consultas e análises dos gerentes, com tempos de resposta satisfatórios e com tamanho e crescimento do banco de dados perfeitamente gerenciável.

2.8 Visão Geral do Processo de Data Warehouse

Muitas organizações, sejam elas públicas ou privadas, têm, constantemente, gerado dados e informações em níveis cada vez maiores e os armazenam em sistemas informatizados. Manter e usar estes dados e informações, num ambiente extremamente competitivo e dinâmico, se torna uma tarefa bastante complexa, principalmente quando se considera questões de escalabilidade. Também aumenta cada vez mais o número de usuários que deseja acessar as informações contínuas e cada vez mais confiáveis e

(36)

representativas, exigindo que as organizações criem data warehouses – armazéns com grande quantidade de dados, em série temporal para o suporte à decisão. Na figura 4 é mostrado o conceito de data warehouse. Os principais componentes de um processo de

data warehousing, segundo TURBAN et al. (2009), são os seguintes:

Figura 4 – Estrutura e Visualização do Data Warehouse

Fonte de Dados. Os dados são coletados em múltiplas fontes, através de sistemas operacionais independentes ou integrados.

Extração de Dados. Os dados são extraídos com um software personalizado ou comercial chamado ETL (extração, transformação e carga).

Carregamento dos Dados. Os dados são carregados numa área intermediária, para serem transformados e limpos e, posteriormente, enviados para carga no

data warehouse.

Banco de Dados Abrangente. É o banco de dados empresarial que fornece informações relevantes resumidas e detalhadas extraídas de diversas fontes de dados.

Metadados. Os metadados são utilizados pelo pessoal de TI e pelos usuários. Ele dispõe de regras para organizar resumos de dados, com facilidades de indexação e busca, as quais podem ser realizadas por ferramentas da Web.

(37)

Ferramentas de milddleware. São ferramentas para acesso ao data

warehouse. Usuários avançados podem criar suas próprias consultas em

SQL.

2.9 Arquitetura Geral do Data Warehouse

Segundo GOUVEIA (2009), ao se projetar um Data Warehouse há de considerar dois tipos de dados: dados primitivos (operacionais ou atômicos) e dados derivados. Os dados primitivos são atuais, passíveis de atualização e processados repetidamente. Enquanto os dados derivados são, em geral, valores históricos baseados em assuntos ou negócios, resumidos, ou refinados e são processados de forma heurística (INMON, 2005).

A escolha do dado primitivo para armazenamento no DW tem vantagens e desvantagens. O maior benefício é dispor de uma base mais rica para efetuar a pesquisa, proporcionando uma análise mais profunda e cuidadosa dos dados, permitindo avaliar, a partir do histórico, tendências, fazer previsões ou elaborar cenários. A principal desvantagem é a ocupação de maior área para armazenamento dos dados e a exigência de maior capacidade de processamento para que não haja perda de performance na consulta e análise dos dados.

Já a escolha dos dados derivados para armazenamento no DW apresenta, também, vantagens e desvantagens. O maior benefício é que os dados já estão resumidos e no formato apropriado para consulta. Além de ocupar menos espaço para armazenamento, o processamento é mais rápido. Como desvantagem a sumarização reduz a capacidade de pesquisa e análise. Normalmente as empresas adotam ambas as forma de armazenamento.

De acordo com INMON (2005) existem 04 (quatro) níveis do ambiente arquitetural de um Data Warehouse: 1) Nível Operacional, 2) Nível Atômico, 3) Nível Departamental; e 4) Nível Individual, como mostra a Tabela 1.

(38)

Tabela 1 – Os quatro níveis de dados do ambiente arquitetural de um data warehouse Nível Operacional Nível Atômico Nível

Departamental

Nível Individual

Dados detalhados Dados mais granular Dados paroquial (restritos)

Dados temporários

Dia a dia (cotidiano) valores atuais Variáveis no tempo (histórico) Alguns derivados e alguns primitivos

Consulta “ad hoc”

Alta Probabilidade de Acesso

Picos de Acesso Tipos de Departamento

Heurístico

Orientado à Aplicação

Orientado a Assunto Orientado por departamento de negócio

Baseado em PCs ou estações de Trabalho

Fonte: Adaptação (INMON, 2005)

Segundo GOUVEIA (2009), o nível operacional de dados está relacionado com aplicação envolvendo dados primitivos e atende ao processamento de transações de alta performance. O nível atômico ou Data Warehouse contem dados primitivos que não sofrem atualizações, além de alguns dados derivados. Já o nível departamental contem quase exclusivamente dados derivados. Este nível é definido de acordo com a necessidade dos usuários finais adaptadas às necessidades do Departamento. Na tabela 2 são apresentados os 04 (quatro) níveis de dados.

(39)

Tabela 2 – Exemplos de consultas referentes aos quatro níveis de dados Nível Operacional Nível Atômico Nível

Departamental Nível Individual -Qual a vazão de produção do poço neste momento? - Qual o histórico de médias de vazões produção. Vazão produção captada no poço analisado está aumentando? - Quais são as tendências em relação ao setor analisado? Medição da vazão de produção (Abril de 2011): 2 m3 /h. Ponto no 10001 Maio a Agosto de 2010 Vazão de produção = 2,5 m3 /h. Ponto no 10001 Maio a Agosto de 2007 = 2,5 m3 /h. Inspecionar os poços para constar a sua situação em termos de estado de funcionamento (paralisado, abandonado e não instalado) Setembro a Dezembro de 2010 Vazão bombeada = 3,0 m3 /h . Ponto no 10001 Setembro a Dezembro de 2007: 2,5 m3 /h. Janeiro a Abril de 2007: 3,0 m3 /h. Janeiro a Abril de 2007: 2,5 m3 /h.

No nível operacional considera a vazão produção do poço para atender o consumo de um dado cliente, a partir do último levantamento efetuado.

No nível atômico ou de Data Warehouse a consulta possibilita extrair informação sobre o histórico da vazão de produção no poço para consumo de um dado cliente, no período de considerado.

No terceiro nível, ou seja, Data Mart obtêm-se informações de maior complexidade e orientada ao negócio para tomada de decisão. Como exemplo, poderia considerar uma relação de todos os usuários de poços, por tipo de uso. Como consulta neste nível tem-se: qual a tendência do volume de água produzido do poço num período considerado. O retorno desta consulta são as médias de volume bombeado agrupado por períodos.

(40)

O nível individual possibilita a previsão de informações fornecendo projeções de cenários por meio de análises heurísticas. Os dados neste nível são geralmente temporários e de pequenas proporções (GOUVEIA, 2009).

No que tange a arquitetura básica de data warehousing, segundo TURBAN et al. (2009), a mais comum são as de duas e três camadas. HOFFER et al. (2007) as distinguem pela divisão do Data Warehouse em três partes:

O data warehouse composto dos dados e do software associados.

Software de aquisição dados que extrai os dados de sistemas legados e fontes externas.

Software de cliente (front-end) que permite o usuário acessar e analisar os dados a partir do data warehouse.

O data warehouse integrado a Internet produz o data warehousing baseado na Web. Sua arquitetura de três camadas inclui PC cliente, servidor de Web e servidor de aplicação. No lado do cliente é necessário uma conexão a Internet e um navegador de Web. No lado do servidor é usado um servidor Web para gerenciar o fluxo de entrada e a saída de informações entre o servidor e o cliente. Esta tarefa é apoiada por um Data

Warehouse e um servidor de aplicação (TURBAN, et. al., 2009).

Segundo ARYYACHANDRA e WATSON (2005), existem 10 fatores que afetam a decisão relativa à seleção de arquitetura, descritos a seguir.

 Interdependência de informações entre as unidades da organização

 Demanda de informações da alta administração

Nível de urgência de um data warehouse

 Natureza das tarefas do usuário final

 Limitação de recursos

Visão estratégica do data warehouse antes da implementação

 Compatibilidade com os sistemas existentes

 Capacidade interna da equipe de Tecnologia de Informação (TI)

 Questões de natureza técnica

(41)

Estes fatores guardam semelhança com os descritos na literatura para sistemas de informações, Sistema de Apoio à Decisão e Business Intelligence (BI). Não obstante a importância das questões técnicas prevalecem as questões de ordem comportamental, como a satisfação das necessidades de informação da Alta Administração e o envolvimento do usuário no processo de desenvolvimento.

2.10 Processo de Extração, Transformação e Carga - ETL

Para a construção de um DW é necessário manipular uma grande quantidade de dados e organizá-los de maneira estruturada num DW. Esta manipulação dos dados é feita através de um processo de Extração, Transformação e Carga (Extraction

Transformation and Load).

Esta etapa é vista com uma das mais críticas de um projeto de DW, pois uma falha no processo de carregamento do DW pode trazer consequências imprevisíveis posteriormente. A etapa de extração, como o próprio nome diz, realiza a extração de dados de uma ou mais fontes. Em muitos projetos de DW é necessário fazer a extração de vários dados, que estão espalhados em sistemas operacionais e fontes externas. A fase de transformação é responsável pela conversão dos dados extraídos de sua forma anterior para a que deve estar. A carga corresponde a colocação dos dados no Data

Warehouse.

Primeiramente, os dados passam por limpeza ou filtragem onde o objetivo é garantir a integridade dos dados, deixando-os em um estado consistente antes de serem carregados no DW.

Em seguida é necessário deixar os dados de forma homogênea visando a sua integridade, uma das principais características do ambiente de DW.

A última etapa do processo de ETL é a carga propriamente dita dos dados extraídos e transformados para o DW. Existem hoje no mercado várias ferramentas, de código aberto, que auxiliam a execução dessa fase do projeto, tais como: Kettlei, O CloverETL2 e o Talend Open Studio3.

(42)

2.11 Modelagem Multidimensional

A modelagem de dados é uma das mais importantes diferenças entre um ambiente operacional e um ambiente de DW. Em um ambiente operacional normalmente se emprega o modelo Entidade e Relacionamento (ER) para garantir o desempenho das transações, eliminado a redundância dos dados. Já no ambiente de DW necessitamos de uma técnica que suporte o ambiente de análise multidimensional de dados.

Em banco de dados que manipulam multidimensões existem, basicamente, dois tipos principais de estruturas ou esquemas, o esquema estrela (star schema) e o esquema floco de neve (snowflakeschema). Cada um dos esquemas possui suas características que serão descritas mais adiante, no entanto, qualquer que seja o esquema utilizado, existem três elementos básicos:

fato: um fato é uma coleção de itens de dados, cada fato representa um item, um evento de negócio de uma empresa. É representado pelos valores numéricos e implementado pelas tabelas denominadas tabelas de fato;

dimensões: são os elementos que participam de um fato, as dimensões determinam o contexto de um assunto de negócios;

medidas: são os atributos numéricos que representam um fato, a performance de um indicador de negócios relativo às dimensões que participam desse fato.

Uma medida é determinada pela combinação das dimensões que participam de um fato e estão localizadas como atributos de um fato. A ideia principal da modelagem multidimensional é que quase todos os tipos de dados de negócio podem ser representados por um cubo de dados, onde as células do cubo contêm os valores medidos e os lados definem as dimensões.

Um cubo nos permite representar um modelo tridimensional, entretanto usualmente um modelo dimensional consiste de mais de três dimensões, o que é definido com um hipercubo. A visualização de um hipercubo é muito difícil, desta forma adota-se a referência cubo para qualquer modelo multidimensional.

Referências

Documentos relacionados

 Conhecimento pode ser definido como sendo informações que foram analisadas e avaliadas sobre a sua confiabilidade,. sua relevância e

Por exemplo, se você escolher a opção “Menus Dados” do menu “Apoio”, ou clicar sobre o ícone “Atualizar Dados Pessoais”, será apresentado o

Superdimensionou o mercado e trouxe um modelo que não caiu no gosto (e no.. bolso) dos brasileiros

Os componentes de um sistema especialista incluem uma base de conhecimento e módulos de software que realizam inferências sobre o conhecimento e comunicam respostas para

c) Qual o custo de oportunidade de cada hora de funcionamento quando a empresa se vê obrigada a aumentar a cadência para 600 unidades/hora, correspondente a um

ATENÇÃO : QUALQUER FRAUDE DETECTADA NESTE TESTE IMPLICARÁ A REPROVAÇÃO NO CORRENTE ANO LECTIVO NESTA DISCIPLINA E SERÁ PARTICIPADA AO CONSELHO DIRECTIVO PARA

Projetos: A PROMON conta hoje com mais de 20 aplicações Keyword destinadas a apoio a decisão (SAD) e localização de cadastros. Linguagem utilizada: Os projetos são desenvolvidos

38 Os agidos são actores que somente sentem as consequências positivas ou negativas da implementação de uma decisão, não intervindo activamente no processo de tomada de decisão