Business intelligence: análise do perfil socioeconômico dos candidatos ao ENEM- Exame Nacional do Ensino Médio

(1)

CRISTINA MARTINS DERLEI EDSON DE FARIA

BUSINESS INTELLIGENCE:

ANÁLISE DO PERFIL SOCIOECONÔMICO DOS CANDIDATOS AO ENEM - EXAME NACIONAL DO ENSINO MÉDIO

Palhoça 2010

(2)

Projeto de Trabalho de Conclusão de Curso apresentado ao Curso de Graduação em Sistemas de Informação da Universidade do Sul de Santa Catarina, como requisito parcial à obtenção do título de Bacharel em Sistemas de Informação.

Orientador: Prof. Aran Bey Tcholakian Morales, Dr.

Palhoça 2010

(3)

Este trabalho de Conclusão de Curso foi julgado adequado à obtenção do título de Bacharel em Sistemas de Informação e aprovado em sua forma final pelo Curso de Sistemas de Informação, da Universidade do Sul de Santa Catarina.

Palhoça, 24 de junho de 2010.

________________________________________________

Profº. e orientador Aran Bey Tcholakian Morales, Dr. Universidade do Sul de Santa Catarina

________________________________________________ Profª. Mauro Notarnicola Madeira, Dr.

Universidade do Sul de Santa Catarina

________________________________________________ Jovelino Domingos Cardoso Júnior

Secretaria de Estado da Educação de Santa Catarina Gerência de Tecnologia da Informação

(4)

Dedico este trabalho aos meus pais, porque sem eles nada disso seria possível, por me ensinarem a ter caráter, humildade, amor, carinho e respeito, gestos e valores cada vez mais raros de se encontrar, e principalmente, por sempre acreditarem que eu era capaz de vencer, tanto esta, como todas as outras caminhadas que já fiz, e que ainda farei. À minha irmã pelo apoio e compreensão, pelos sempre bons e alegres momentos que me oferece. A uma pessoa em especial, Sidney Lourenço Dal Sasso que diretamente contribuiu para meu crescimento pessoal e esteve disposto a me ajudar em todas as horas, além do carinho e confiança à mim depositados, e a todos os meus familiares, amigos e colegas, que direta ou indiretamente, ajudaram-me a dar mais esse passo na vida.

Cristina

Dedico este trabalho aos meus pais, por tudo o que me ensinaram e me ajudaram a conquistar, sempre com muito amor, carinho e dedicação. À minha namorada pelo apoio, compreensão e aos sempre bons e alegres momentos que me proporciona, e a todos familiares, amigos e colegas, que direta ou indiretamente, contribuíram para a conquista deste desafio.

(5)

AGRADECIMENTOS

Agradeço primeiramente a Deus, aos meus pais e à minha irmã por tudo, pois sem esse amor nada seria possível. Ao meu colega e amigo Derlei Edson de Faria pela sua dedicação e companheirismo. A todos os bons professores que estiveram à minha frente e que me engrandeceram com seu conhecimento, em especial ao professor e orientador desta monografia Dr. Aran Bey Tcholakian Morales, pela sua disponibilidade, interesse e orientação. A Sidney Lourenço Dal Sasso e Rodrigo de Souza Ribeiro por todo o apoio prestado e o carinho de sempre. E a todos os meus amigos e colegas.

Cristina

Agradeço primeiramente, aos meus pais por me proporcionarem todo o alicerce necessário para mais essa conquista, à minha colega e grande amiga Cristina Martins pelo companheirismo e dedicação, à minha namorada pelo carinho e compreensão, ao professor e orientador Dr. Aran Bey Tcholakian Morales por toda atenção e orientação, e a todos os colegas e amigos.

(6)

RESUMO

Vivemos em uma sociedade que valoriza o conhecimento e utiliza como seu principal recurso a informação, fator que motiva a competitividade. Para melhores desempenhos neste contexto, é preciso embasamento em informações dadas como relevantes, e isso causa a diferença entre os resultados positivos e negativos. Atualmente, com o intuito de gerar e propagar o conhecimento, as pessoas mantêm seu foco na educação. Porém, é necessário avaliar suas reais condições nas escolas, com avaliações de estruturas físicas e educacionais, dando ênfase ao Ensino Médio, por anteceder um passo muito importante: a entrada no mercado de trabalho. A inexistência de dados nem sempre é o motivo para a falta de consciência dessas informações, mas sim a dificuldade no acesso destes em faces analíticas, seja por formato ou quantidade. A partir dessa necessidade, realizou-se a presente proposta, o qual teve início capturando junto ao Instituto Nacional de Estudos e Pesquisas Anísio Teixeira (INEP) os dados relativos ao ENEM referente ao último ano de realização do exame, 2008. Desenvolveu-se então, uma arquitetura BI para a transformação dos dados operacionais para a extração e geração de informações. Para isso, fez-se um levantamento dos dados contidos nos arquivos texto, criou-se duas bases de dados no PostgreSQL 8.3, sendo uma relacional e uma multidimensional, cuja modelagem foi feita no DB Designer 4.0 e utilizando-se o Kettle Spoon 3.2.0 da suíte Pentanho, criou-se dois scripts ETL, sendo o primeiro para carregar os dados dos arquivos texto para a base relacional e o segundo para classificar e sumarizar os dados contidos na base relacional e inseri-los na base multidimensional. Concluído o Data

Warehouse (DW), foram feitas análises a partir de gráficos dinâmicos gerados pela ferramenta

front-end Microsoft Excel 2007, a fim de demonstrar o resultado do trabalho realizado e o

valor das informações encontradas.

Palavras chave: Business Intelligence. Perfil Candidatos. Análise de dados. Informações.

(7)

ABSTRACT

We live in a society that values knowledge and uses information as its main feature, a factor that drives competitiveness. In this context, for better performance is necessary to be based on information provided as relevant, and this causes the difference between positive and negative results. Nowadays, people keep their focus on education, in order to generate and propagate knowledge. However, it is necessary to check the actual conditions of knowledge in schools, assessing the physical structure and educational facilities, especially in high school, because it comes before a crucial stage: entering into the labor market. The non-existence of data is not always the reason for the lack of awareness of this information, but the difficulty in accessing these faces in analytical, either by format or quantity. This proposal is originated this need, from data obtained from ENEM (by National Institute of Studies and Research Anísio Teixeira - INEP), referring to the last year of the examination in 2008. Then was developed a BI architecture for the transformation of operational data for extracting and generating information. For this, a search was made of the data contained in text files, were created two databases in PostgreSQL 8.3 (relational and multidimensional), whose modeling was done in DB Designer 4.0 and using the Kettle Spoon's suite 3.2.0 Pentanho, and more two ETL scripts were created, the first being for loading data from text files to a relational database and the second to classify and summarize the data in the relational database and insert them into the multidimensional database. After completion of the Data Warehouse (DW), analysis were performed from the dynamic charts, generated by the front-end tool Microsoft Excel 2007 with the purpose of demonstrating the result of work done and value of information obtained.

(8)

LISTA DE ILUSTRAÇÕES

Figura 1 - Arquitetura de um sistema BI. ... 23

Figura 2 - Dados, Informação e Conhecimento. ... 24

Figura 3 - Processos ETL. ... 28

Figura 4 - Arquitetura Genérica de Data Warehouse. ... 32

Figura 5 - Implementação Top Down. ... 35

Figura 6 - Implementação Button Up. ... 36

Figura 7 - Star-Schema (Esquema Estrela) ... 39

Figura 8 - Exemplo de um Modelo Dimensional. ... 40

Figura 9 - Composição Básica de uma Tabela Fato. ... 41

Figura 10 - Drill Down. ... 44

Figura 11 - Roll Up. ... 45

Figura 12 - Drill Across. ... 46

Figura 13 - Slice and Dice. ... 47

Figura 14 – Arquitetura BI – Solução Proposta ... 55

Figura 15 – Modelo Dimensional. ... 63

(9)

LISTA DE GRÁFICOS

Gráfico 1 – Total de inscritos no ENEM nos dez maiores municípios de Santa Catarina. ... 67

Gráfico 2 – Qual sexo? Moram sozinhos? ... 68

Gráfico 3 - Em que tipo de escola cursa ou cursou o Ensino Médio? ... 68

Gráfico 4 – Avaliação da estrutura da escola no Ensino Médio (Biblioteca, Salas de Aula e laboratórios). ... 69

Gráfico 5 – Avaliação do Ensino Médio quanto Língua Estrangeira e Acesso a Computadores/Recursos de Informática. ... 70

Gráfico 6 – Conhecimento dos professores e maneira como é transmitido aos alunos... 71

Gráfico 7 – Avaliação de conduta dos professores de Ensino Médio. ... 72

Gráfico 8 – Trabalhou durante o Ensino Médio? Qual a avaliação? ... 73

Gráfico 9 – Os conhecimentos são adequados ao mercado? O inscrito se considera preparado com o Ensino Médio? ... 74

Gráfico 10 – Nota para a formação no Ensino Médio. ... 74

Gráfico 11 – Renda familiar dos inscritos. ... 75

Gráfico 12 – Pai e Mãe: não estudou, ensino médio completo ou superior completo. ... 76

Gráfico 13 – Possuem casa própria e automóvel? ... 77

Gráfico 14 – Possuem computador, acesso à Internet e TV? ... 77

Gráfico 15 – Participaram de cursos extracurriculares: pré-vestibular, língua estrangeira e computação ou informática. ... 78

Gráfico 16 – Motivo para prestar o ENEM. ... 79

Gráfico 17 – Freqüência que lê revistas de Informação e revistas científicas. ... 80

Gráfico 18 – Interesse em política nacional e municipal... 80

Gráfico 19 – A principal decisão que alunos pretendem tomar após concluir o Ensino Médio. ... 81

Gráfico 20 – Escolha das Profissões... 82

Gráfico 21 – Ajuda na profissão: pais, escola ou trabalho? ... 83

Gráfico 22 – Estímulo financeiro, facilidade de obter emprego ou identificação com a profissão? ... 83

Gráfico 23 – Notas da prova objetiva. ... 84

(10)

LISTA DE QUADROS

Quadro 1 - Comparativo OLTP versus OLAP. ... 42 Quadro 2 – Tecnologias Utilizadas. ... 66

(11)

LISTA DE SIGLAS

AED – Análise Exploratória de Dados BI – Business Intelligence

DM – Data Mart DW – Data Warehouse

ENEM – Exame Nacional do Ensino Médio ER – Entity Relationship

ERP - Enterprise Resource Planning ETL – Extract Transform and Load

INEP – Instituto Nacional de Estudos e Pesquisas Anísio Teixeira ODS – Operational Data Storage

OLAP – On-line Analytic Processing OLTP – On-line Transaction Processing SQL – Structured Query Language

(12)

SUMÁRIO 1 INTRODUÇÃO... 15 1.1 PROBLEMÁTICA ... 16 1.2 OBJETIVOS ... 17 1.2.1 Objetivo Geral ... 17 1.2.2 Objetivos Específicos... 17 1.3 JUSTIFICATIVA ... 18 1.4 ESTRUTURA DA MONOGRAFIA ... 19 2 REVISÃO BIBLIOGRÁFICA ... 20 2.1 INTRODUÇÃO ... 20

2.2 SISTEMAS DE APOIO À DECISÃO ... 20

2.3 BUSINESS INTELLIGENCE (BI) ... 21

2.3.1 Arquitetura BI – Principais Componentes ... 23

2.3.1.1 Dados, Informações e Conhecimento ... 24

2.3.1.2 ODS (Operational Data Storage) ... 25

2.3.1.3 ETL (Extract, Transform and Load) ... 25

2.3.1.4 Data Warehouse... 25

2.3.1.5 Data Mart ... 26

2.3.1.6 Ferramentas Front-end... 26

2.4 ETL (EXTRACT, TRANSFORM AND LOAD) ... 27

2.5 DATA WAREHOUSE ... 28

2.5.1 Características ... 29

2.5.2 Arquitetura ... 30

2.5.2.1 Tipos de Arquitetura ... 30

2.5.2.1.1 Arquitetura Global ... 30

2.5.2.1.2 Arquitetura de Data Mart Independente ... 31

2.5.2.1.3 Arquitetura de Data Marts Integrados ... 31

2.5.2.2 Componentes de uma Arquitetura de Data Warehouse ... 32

2.5.3 Implementação de um DW ... 34

2.5.3.1 Tipos de Implementação... 34

(13)

2.5.3.1.2 Implementação Button Up ... 35

2.5.3.1.3 Implementação Combinada ... 36

2.5.3.2 Considerações Sobre a Implementação de um DW ... 37

2.5.4 Modelagem Dimensional ... 38

2.5.4.1 Tabelas Fato... 40

2.5.4.2 Tabelas Dimensão ... 41

2.6 ANÁLISE DE DADOS ... 41

2.6.1 OLTP versus OLAP ... 42

2.6.2 OLTP (On-line Transaction Processing) ... 42

2.6.3 OLAP (On-line Analytic Processing)... 43

2.6.3.1 Drill-Down ... 44

2.6.3.2 Roll-Up ... 44

2.6.3.3 Drill Across ... 45

2.6.3.4 Drill Throught ... 46

2.6.3.5 Slice and Dice ... 46

2.6.3.6 Pivot ... 47

2.6.4 Análises Exploratórias de Dados (AED) ... 48

2.6.5 Mineração de Dados e suas Técnicas ... 48

2.7 CONSIDERAÇÕES FINAIS DO CAPÍTULO ... 52

3 MÉTODO ... 53

3.1 CARACTERIZAÇÃO DO TIPO DE PESQUISA ... 53

3.2 ETAPAS METODOLÓGICAS ... 53

3.3 ARQUITETURA DA SOLUÇÃO ... 54

3.4 DELIMITAÇÕES ... 55

3.5 CONSIDERAÇÕES FINAIS DO CAPÍTULO ... 56

4 AMBIENTE DE BI PARA ANÁLISES DOS DADOS DO ENEM ... 57

4.1 PROPOSTA DE SOLUÇÃO ... 64

4.2 TECNOLOGIAS UTILIZADAS ... 65

4.3 ANÁLISES ... 67

4.3.1 Avaliação do Ensino Médio ... 69

4.3.2 Família e Recursos ... 75

4.3.3 Interesses e Profissão ... 79

4.3.4 Desempenho no ENEM ... 84

(14)

5 CONCLUSÕES E TRABALHOS FUTUROS ... 86

5.1 CONCLUSÕES ... 86

5.2 TRABALHOS FUTUROS ... 87

REFERÊNCIAS ... 89

APÊNDICE A – SCRIPT SQL PARA CRIAÇÃO DO DW ... 92

APÊNDICE B – MODELO DIMENSIONAL ... 98

(15)

1 INTRODUÇÃO

Visando a um conhecimento mais abrangente do perfil socioeconômico dos candidatos para a realização do Exame Nacional do Ensino Médio (ENEM) e com o intuito de expor alguns pontos falhos das instituições de Ensino Médio em Santa Catarina, realizou-se uma pesquisa para análise de dados disponibilizados pelo INEP relativos ao ENEM do ano de 2008, com a finalidade de fundamentar a tomada de decisões, imprescindíveis para um processo de melhoramento contínuo.

Vivemos cada vez mais em uma sociedade que valoriza o conhecimento, sintetiza novas orientações voltadas ao aprendizado, estimula a competitividade, a globalização e a inovação e utiliza a informação como seu principal recurso.

Dentro deste contexto de apoio à decisão e uso de recursos de tecnologia de informação e conhecimento é que apresentamos algumas características importantes sobre o

Business Intelligence, que é basicamente uma combinação de dados com ferramentas

analíticas, com o objetivo de disponibilizar informações relevantes.

Nessa perspectiva, este projeto visa à implementação de uma arquitetura para moldar dados operacionais brutos em informação estratégica. A arquitetura proposta é composta pela base de dados operacionais; utilização dos sistemas de extração, transformação e carga; modelagem dimensional lógica e física do repositório de dados (Data Warehouse); e a utilização de uma ferramenta para a visualização e análise de dados.

Conforme opinião de Inmon (1997), segundo a qual, o processamento informacional ou analítico é o processamento que atende às necessidades dos gestores durante as tomadas de decisão. Este termo significa SAD (Sistema de Apoio à Decisão) e examina os aspectos de dados para detectar as tendências.

“O Data Warehouse é o alicerce do processamento dos SADs” (Inmon, 1997, p.33).

Assim, o tratamento de todas as informações foi feito através do Data Warehouse, realizando-se as análises e, posteriormente, a apresentação dos resultados expostos nesta pesquisa.

(16)

1.1 PROBLEMÁTICA

Criado em 1998 para alunos concluintes ou que já concluíram o ensino médio, o Exame Nacional do Ensino Médio (ENEM) tem por objetivo avaliar o desempenho dos estudantes ao fim da escolaridade básica.

Para atingir esse objetivo, existe um legado de informações operacionais imenso, o qual representa um valioso conhecimento sobre o perfil socioeconômico de cada candidato, opiniões de seu interesse e planos futuros.

A principal dificuldade é a transformação dos dados brutos em informações estratégicas que auxiliem na avaliação das condições que os candidatos possuem durante a sua formação, avaliando o nível de oportunidade de acordo com os dados repassados pelos estudantes cadastrados.

Ao longo do tempo, com a divulgação e o amadurecimento do ENEM, vieram juntamente com o mesmo, o crescimento do número de inscritos, dos cerca de 160 mil inscritos, em 1998, saltaram para 4 milhões de inscritos na edição do Exame de 2008. Conseqüentemente com a multiplicação do número de participantes, o aumento em grande escala da geração das informações foi considerável, portanto formando uma grande massa de dados, cuja manipulação se torna cada vez mais complexa.

A complexidade da disponibilização de dados coerentes para subsidiar o processo decisório em sua totalidade, representando o esforço para o aperfeiçoamento e gestão, independentemente de área que se atue, se torna uma grande necessidade para os gestores que dependem dessas informações corretas e em tempo hábil para as iniciativas decisórias.

Segundo Barbieri (2001), as informações vitais para as tomadas de decisões estratégicas estão escondidas em milhares de tabelas e arquivos inacessíveis aos “mortais”, ligadas por relacionamentos e correlações transacionais, numa anatomia inadequada para os tomadores de decisão.

De encontro ao problema mencionado por Barbieri (2001), é exposta como solução a utilização de técnicas de uma arquitetura chamada Business Intelligence.

De acordo com Colavito et al., o BI (Business Intelligence) surgiu para simplificar as operações de negócio das empresas e apresenta-se como a melhor opção de apoio à decisão, pois com o uso de seus relatórios, garante-se uma visão da empresa/instituição, que será útil para informar, analisar, otimizar e planejar todos os processos.

(17)

Embasados nas informações supracitadas, a pesquisa utilizou o conceito, técnicas e as ferramentas de BI para moldar os dados operacionais em informações relevantes com o intuito de construir uma arquitetura que permita o acesso a essas informações de forma fácil e ágil.

1.2 OBJETIVOS

1.2.1 Objetivo Geral

Desenvolvimento de uma arquitetura de BI para a transformação dos dados operacionais do ENEM 2008, contidos em arquivos no formato texto, em um mais adequado para a realização de análises que permitissem a extração de informações explícitas e implícitas sobre o perfil dos alunos do Ensino Médio. As informações foram moldadas, conforme as análises necessárias para a construção do perfil socioeconômico dos candidatos à realização do Exame Nacional do Ensino Médio (ENEM) e com o intuito de expor alguns pontos falhos dessas instituições em Santa Catarina.

1.2.2 Objetivos Específicos

Modelar e criar uma base dimensional definindo as dimensões e a granularidade dos dados;

Criação e execução de scripts para a transformação dos dados contidos em arquivos no formato texto e carga dos mesmos para a base dimensional, utilizando a ferramenta de ETL Kettle;

(18)

Realizar a análise dos dados do modelo dimensional utilizando a ferramenta de análise de dados do aplicativo Microsoft Office Excel;

Expor os resultados obtidos pelas análises através da funcionalidade de geração de diagramas e informações dinâmicas do aplicativo Excel.

1.3 JUSTIFICATIVA

Atualmente estamos na era da economia da informação sendo um resultado da “Revolução Informacional” caracterizada pelos efeitos da difusão das Tecnologias da Informação e Comunicações através da economia, utilizando a inteligência competitiva, estratégias e a conversão dos mais variados tipos de informações como benefícios (Lastres et. al. (1999, p. 35)). Nesta era, possuímos muitas empresas e conseqüentemente uma enorme exigência no mercado. O BI atua na gestão de conhecimentos, dedicado a captura e modelagem de dados trabalhando com a inteligência competitiva, o mesmo contempla várias linhas de conceitos, não se aplicando somente no mercado de negócios, mas também provendo benefícios em prol da sociedade.

Desta forma, os benefícios propiciados pela utilização de um BI para auxílio de obtenção de informações corretas, dispostas de forma simples e ágil, podem resultar em um melhoramento considerável na gestão de Ensino Médio, abrindo portas para a inclusão destes estudantes aos cursos superiores e, conseqüentemente, instigando-os o acesso às informações, conhecimento e cultura, impactando diretamente na sociedade, proporcionando um melhor padrão de vida.

Os fatores implicantes para a escolha do tema e a construção da arquitetura BI estão relacionados à importância da transformação das informações brutas em conhecimento.

Esta proposta agrega valor a uma grande massa de dados que, moldada pode proporcionar em sua gestão, melhorias no sistema de ensino médio em Santa Catarina, bem como, nas Universidades do Estado, pois terão o conhecimento da realidade dos candidatos.

(19)

1.4 ESTRUTURA DA MONOGRAFIA

A pesquisa está dividida em 05 capítulos, sendo que o capítulo 1 apresenta o tema, a problemática, os objetivos, a justificativa, e a estrutura da monografia.

O capítulo 2 enfatiza a arquitetura dos sistemas de BI, focando os sistemas de extração, transformação e carga (ETL), o repositório de dados, do tipo Data Warehouse e as aplicações de Front-end, como ferramentas OLAP, ferramentas de análise exploratória de dados e técnicas de mineração de dados. O capítulo 3 apresenta a metodologia adotada para o desenvolvimento do trabalho, o capítulo 4 aborda a modelagem e desenvolvimento do protótipo desenvolvido e o capítulo 5 as conclusões e trabalhos futuros.

(20)

2 REVISÃO BIBLIOGRÁFICA

2.1 INTRODUÇÃO

Este capítulo visa apresentar os principais conceitos do ambiente de BI, baseados nos principais autores da área, bem como, algumas conclusões obtidas por meio de pesquisas efetuadas.

2.2 SISTEMAS DE APOIO À DECISÃO

Conforme Furlan et al. (1994, p. 157), há tempos, quando se iniciava um processo de informatização nas empresas, desenvolviam-se vários sistemas com o intuito de atender as diferentes necessidades primordiais do negócio. Com o passar do tempo, os executivos passavam a receber vários relatórios impressos, primeiro em formulários contínuos e depois em folhas impressas a laser, onde muitos apresentavam informações conflitantes entre si, colocando em questão sua verdadeira utilidade. Contribuindo muito pouco para o que já era de conhecimento do executivo, esses relatórios conflitantes acabaram tornando-se irrelevantes para o processo de decisões estratégicas e prioritárias.

Segundo Turban et. al. (2009, p. 21), atualmente o ambiente de negocio no qual as empresas operam está se tornando cada vez mais complexo e mutante. As empresas, privadas ou públicas, sentem crescentes pressões forçando-as a responder rapidamente a condições que estão em constante mutação, além da exigência de inovações na maneira operante. Essas atividades exigem das empresas agilidade, tomadas de decisão rápidas e freqüentes, sejam elas estratégicas, táticas e operacionais, algumas das quais são muito complexas.

Segundo Serra (2002, p. 77), o grande desafio no gerenciamento de qualquer processo é a análise dos fatos/informações relacionados a seu dever. Essa análise deve ser

(21)

feita de tal forma que seja possível detectar tendências e tomar decisões eficientes e em tempo hábil, utilizando as ferramentas e dados disponíveis para este propósito. O mesmo também afirma que há uma extrema necessidade das empresas de captar, compreender e explorar os seus dados para dar suporte a estas tomadas de decisão, o qual vem se tornando cada vez mais uma obrigação competitiva, visto que há uma redução constante no tempo do ciclo de negócios.

Segundo Singh (2001, p. 382), a maioria das organizações não sofre pela ausência, mas sim pela abundância de dados redundantes e inconsistentes, difíceis de acessar e usar para fins de tomada de decisão, e então, administrar com eficiência.

O Universo empresarial hoje padece de um mal clássico. Possui uma montanha de dados, mas enfrenta grande dificuldade na extração de informações a partir dela. Essa crescente inundação de informações dificulta o processo de tomada de decisão, na medida em que a alta e a média gerência se sentem impotentes no processo de sua busca e recuperação (BARBIERI, 2001, p. 34).

O acúmulo de informações nas rotinas organizacionais e relatórios desintegrados são fatores que causam pontos falhos em uma empresa, diferentemente de informações tratadas, relatórios consistentes e integrados que se tornam armas estratégicas de investimento no atual mercado que se encontra cada vez mais competitivo.

Conforme Turban et al. (2009, p. 21), o processo de tomada de decisões pode e exige quantidades consideráveis de dados, informações e conhecimento. O correto processamento/utilização destas informações deve ser feito de forma rápida e com freqüência em tempo real, exigindo na maioria dos casos algum suporte computadorizado. É para realizar este suporte que surgiu o conceito de Business Intelligence (BI).

2.3 BUSINESS INTELLIGENCE (BI)

Barbieri (2001, p. 34) cita que em linhas gerais o BI (Business Intelligence) é a utilização de várias fontes de informação de forma a auxiliar na definição de estratégias de negócio no mercado competitivo.

Segundo o mesmo autor supracitado, Barbieri (2001, p. 34) “os Sistemas legados e os emergentes Enterprise Resource Planning [ERP], sistemas integrados corporativos, não

(22)

trazem as informações gerencias na sua forma mais palatável”, ou seja, as empresas que ainda não possuem o conceito de BI em sua política utilizam a seguinte frase: “Não se sabe o que se sabe e não se sabe o que não se sabe”.

As informações vitais para tomadas de decisões estão escondidas em milhares de tabelas e arquivos inacessíveis aos mortais, ligadas por relacionamento e correlações transacionais, numa anatomia inadequada para os tomadores de decisão. Dessa forma, o conhecimento corporativo e as informações externas não estão prontamente disponíveis. O Jogo de palavras que melhor define essa situação é: “Não se sabe o que se sabe e não se sabe o que não sabe”. O objetivo maior das técnicas de BI neste contexto está exatamente na definição de regras e técnicas para a formatação adequada destes volumes de dados, visando transformá-los em depósitos estruturados de informações, independente de sua origem. (BARBIERI, 2001, p.34).

Para Serra (2002, p. 77), as funções primordiais dos sistemas de BI são as seguintes:

* Extração e integração de dados de múltiplas fontes; * Reutilização de experiência;

*Análise de dados contextualizados; * Trabalho com hipóteses;

* Busca de relações de causa e efeito;

*Transformação dos registros obtidos em informação útil para processo decisório.

De acordo com Colavito et al. (2009, p. 5), o BI surgiu para simplificar as operações de negócio das empresas e apresenta-se como a melhor opção de apoio à decisão, pois por meio de seus relatórios garante uma visão da empresa, que será útil para informar, analisar, otimizar e planejar.

Benefícios do BI:

* Permite uma aproximação integrada e colaborativa para capturar, criar, organizar e utilizar todos os ativos de informação de uma empresa;

* Torna possível uma antecipação às mudanças bruscas no mercado e às ações sobre os competidores;

* Amplia o conhecimento sobre o negócio;

* Auxilia na implementação de novas ferramentas gerenciais;

*Permite maior conhecimento sobre novas tecnologias, produtos ou serviços que possam afetar direta e indiretamente o negócio. (COLAVITO et. al. 2009, p. 5).

Os sistemas de BI tornaram-se essenciais aos gestores das empresas, as quais buscam aproveitar as oportunidades que um mercado em constante transformação pode oferecer.

(23)

2.3.1 Arquitetura BI – Principais Componentes

Conforme descrições na figura 1, os principais componentes de BI são as fontes de dados (dados operacionais), o componente ETL (Extração, carga e transformação de dados), o componente Repositório de dados (Data Warehouse ou Data Marts) e o acesso ao usuário (Front-end (OLAP)).

Todos componentes supracitados comungam em uma arquitetura BI com objetivo de transformar os dados em informações e conhecimento relevante para o processo de tomada de decisões (Morales, 2009, p. 9).

Figura 1 - Arquitetura de um sistema BI. Fonte: Morales, 2009, p. 8.

(24)

2.3.1.1 Dados, Informações e Conhecimento

Segundo Santos et. al. (2009, slide 6) dados são base para informação, em que tudo pode ser capturado pelos nossos órgãos dos sentidos, em princípio, não tem valor agregado e não permitem conectividade e entendimento. Informação é a base para o conhecimento, agrega valor aos dados, tem relevância e propósito e é um conhecimento codificado. Já o conhecimento tem um processo cognitivo que mistura vários elementos: experiência, valor, verdade fundamental, discernimento (julgamento) e pode ser associada.

A figura 2 mostra um comparativo entre dados, informação e conhecimento.

Figura 2 - Dados, Informação e Conhecimento.

(25)

2.3.1.2 ODS (Operational Data Storage)

Conforme Machado (2008, p. 37), Operational Data Storage “Representa um armazenamento intermediário dos dados, facilitando a integração dos dados do ambiente operativo antes de sua atualização no Data Warehouse.”

Tem o papel de armazenar informações correntes, ou seja, dados de forma temporária, com o objetivo de facilitar o processamento desses dados para a carga no Data

Warehouse, servindo de base para análises do ambiente operativo, pois sua granularidade é

condizente com os sistemas deste ambiente, este não é uma componente indispensável para um data warehouse, mas sim é uma decisão de projeto (Machado, 2008, p. 37-38).

2.3.1.3 ETL (Extract, Transform and Load)

Machado (2004, p. 42) ETL é o processo de extração, transformação e carga dos dados.

Barbieri (2001, p. 74) define ETL como sendo uma etapa responsável pela transferência dos dados de sua fonte original para uma base de dados dimensional.

2.3.1.4 Data Warehouse

Segundo Serra (2002, p. 140) “É um banco de dados voltado ao suporte de decisão de usuários finais, derivado de diversos outros bancos de dados operacionais”.

Serra (2002, p. 140), ainda completa citando que o Data Warehouse “é um conjunto de diversas tecnologias, como ferramentas de extração e conversão, banco de dados voltados para consultas complexas, ferramentas inteligentes de prospecção e análise de dados e ferramentas de administração e gerenciamento”.

(26)

Para Inmom (2000, p. 33) ”um Data Warehouse é um conjunto de dados baseado em assuntos, integrado, não-volátil, e variável em relação ao tempo, de apoio às decisões gerenciais”.

Segundo Inmom (200, p. 33) de todos os aspectos mais importantes do Data

Warehouse o fato de ele ser integrado é o que mais se destaca.

2.3.1.5 Data Mart

Segundo Serra (2002, p. 136) um Data Mart é um pequeno data warehouse aplicado para grupo de pequenas pessoas, como por exemplo, para setores de uma empresa, este tipo de utilização pode servir como experimento para a implantação de Data Warehouse. O menor tempo de implantação, menor custo e os correntes avanços tecnológicos também são fatores que atraem na escolha por um data mart. A diferença entre um data warehouse e um

data mart está relacionada apenas com o tamanho e o escopo do problema a ser resolvido.

Conforme Serra (2002, p. 138), como há a implantação de data marts para futuramente se ter um data warehouse, também acontece o oposto, dar-se-á quando as organizações acumulam grandes volumes de dados históricos para suporte à decisão que se mostram pouco ou nunca utilizados, assim elas podem contrair as informações necessárias de seu data warehouse em data mart mais focado.

2.3.1.6 Ferramentas Front-end

Segundo Morales (2009, p. 9) front-end são aplicações, as quais são a parte visível ao usuário de um projeto de BI.

Esse componente é composto pelas ferramentas de análise de dados Data Mining, descrito no item “2.6.5 Mineração de Dados e suas Técnicas”, pelo OLAP descrito no item “2.6.3 OLAP (On-line Analytic Processing)” e pelos relatórios gerados a partir desses dois itens.

(27)

Esta é parte integrante da estrutura do Data Warehouse que será disposta aos usuários finais.

2.4 ETL (EXTRACT, TRANSFORM AND LOAD)

ETL ou da sigla, em português ETC, de acordo com Barbieri (2001, p. 74), “Nessa etapa deverão ser definidos os processos requeridos de transformação do modelo Fonte para o modelo Dimensional”, ou seja, é a extração, transformação e carga dos dados do modelo original para o dimensional.

Segundo Barbieri (2001, p. 75) o conceito de extração dos dados e seu tratamento que são a ETL podem ser divididos em:

*Filtro de Dados: Relaciona os procedimentos e condições para se eliminar os elementos de dados indesejáveis no modelo Dimensional. Por exemplo, desejamos que somente Ordens de Compra com valores totais maiores que R$1.000,00 sejam consideradas no sistema gerencial em projeto.

*Integração de Dados: Define a forma de se correlacionar informações existentes em fontes distintas, e que deverão ser integradas no sistema gerencial. Suponha que alguns dados de fornecedor estejam no BD de Fornecedores corporativo da empresa, mas que algumas informações específicas, de interesse da área objeto do sistema aplicativo, estejam em planilhas locais. A integração dessas informações se torna fundamental para os requisitos do sistema e deverá ser previsto nessa fase. Outro exemplo poderia ser o caso de dados que estão codificados em um ambiente (por exemplo, o código do fornecedor embute região) e que deverão ser decodificados a fim de facilitar o seu uso, associando-se a ele uma informação explícita sobre região. *Condensação de Dados: Define forma de se reduzir volumes de dados visando obter informações resumidas e sumariadas. Normalmente essas sumarizações acontecem nas dimensões dos dados, como tempo e geografia. Um exemplo seria a sumarização em termos semanais de dados diários de venda, ou o resumo em níveis geográficos, como por exemplo, vendas por região.

*Conversão de Dados: Define os procedimentos para se transformar dados em unidades, formatos e dimensões diferentes.

*Derivação de Dados: Define os meios e fórmulas para de produzir dados virtuais, a partir de dados existentes. (BARBIERI, 2001, p.75).

O ETL pode ser aplicado, conforme mencionado acima por Barbieri (2001) em quantas etapas precisarem para integração dos dados.

(28)

Figura 3 - Processos ETL.

Fonte: TURBAN et. al., 2009, p. 72.

2.5 DATA WAREHOUSE

O Data Warehouse pode ser definido como um banco de dados, porém, construído especialmente para servir como suporte a aplicações de análise de dados para tomada de decisões. Conforme Turban et. al (2009), os dados nele contidos são normalmente estruturados para atender as atividades de processamento analítico, como por exemplo, OLAP e Data Mining,

Turban et. al (2009), define o Data Warehouse como um repositório de dados atuais e históricos, e um conjunto de dados organizado para oferecer suporte à tomada de decisões, sendo então de grande interesse aos gerentes de toda a organização.

Para Machado (2004, p. 20, 43), o Data Warehouse representa uma base dados capaz de disponibilizar, de forma integrada, a história da empresa, dados de clientes, de fornecedores e operacionais, informações que encontram-se distribuídas pelos sistemas operacionais da empresa e em fontes externas que serão utilizadas nos sistemas de apoio à decisão.

Inmon (1997) descreve o Data Warehouse como “um conjunto de dados baseado em assuntos, integrado, não-volátil, e variável em relação ao tempo, de apoio às decisões gerenciais”.

(29)

Resumidamente, o Data Warehouse é, portanto, um conjunto de processos, ferramentas e recursos que armazenam e manipulam dados, aglutinados de fontes heterogêneas, orientados por assuntos, variáveis com o tempo e não-voláteis, cujo objetivo é gerenciar e disponibilizar informações de negócios precisas e inteligíveis para que os indivíduos possam tomar decisões efetivas, dado suporte ao processo de tomada de decisão estratégica da empresa. (FIALHO, 2006, p.146).

2.5.1 Características

Algumas das características essenciais de um Data Warehouse são citadas por Serra (2002), Machado (2004) e Turban et al. (2009), como orientação por assunto, integração, variável no tempo e não volatilidade, as quais são explicadas na seqüência.

A orientação por assunto define a organização dos dados por áreas de interesse da organização, como vendas, produtos ou clientes, contendo especificamente as informações relevantes à tomada de decisões.

Visto que o DW contém dados de diversas outras fontes, há uma grande possibilidade de que estes estejam em formatos diferentes, então, é necessário padronizá-los para uma representação única, eliminando as inconsistências. Este é o conceito de integração. Machado (2004) afirma que “em ambientes de múltiplas plataformas sistêmicas, a característica de integração se torna fundamental, pois necessitamos de unicidade de informações”.

O DW é variável em relação ao tempo, ou seja, armazenam dados históricos. Segundo Turban et al. (2009), esta característica dá suporte ao processo decisório, pois possibilita a detecção de tendências, variações, relações de longo prazo para previsão e comparações.

A não volatilidade define que no DW existem somente duas operações básicas, inserção e seleção, ou seja, após inserir os dados os mesmos não serão mais alterados, justamente para manter os dados históricos.

Machado (2004) ainda descreve algumas características do Data Warehouse que o distingue de outros sistemas convencionais de armazenamento de dados, tais como:

Extração de dados de fontes heterogêneas;

Transformação e integração dos dados antes de sua carga final; Normalmente requer máquina e suporte próprio;

(30)

Visualização dos dados em diferentes níveis. Os dados do DW podem ou não ser extraídos para um nível mais específico, os Data Marts, e a partir deste para um banco de dados individual;

Utilização de ferramentas voltadas para acesso com diferentes níveis de apresentação; Dados somente são inseridos, não existindo atualização.

2.5.2 Arquitetura

2.5.2.1 Tipos de Arquitetura

Para Machado (2004, p. 47), a escolha da arquitetura a ser utilizada em um projeto de Data Warehouse, além de fazer parte do escopo gerencial do projeto, deve levar em conta fatores relacionados à infra-estrutura disponível, ao ambiente de negócio, à abrangência desejada, à capacitação dos empregados da empresa e aos recursos disponíveis para tal investimento.

Os tipos de arquitetura apresentados por Machado (2004), que serão mostrados a seguir são: global, independente e integrada. Elas determinam a localização do Data

Warehouse ou Data Marts, ou seja, se estarão localizados em uma instalação central ou

distribuídos em instalações remotas ou locais, administradas de maneira centralizada ou independente.

(31)

Neste modelo, o projeto e a construção do DW são baseados nas necessidades da empresa, consolidando um repositório de dados de suporte à decisão disponível em toda a empresa.

A arquitetura global ainda pode ser classificada como centralizada ou distribuída, de acordo com a sua localização.

A arquitetura global centralizada possui apenas um Data Warehouse e é utilizada quando a empresa possui apenas uma sede.

A arquitetura global distribuída é utilizada quando a empresa possui várias sedes (locais de instalação).

Tanto na distribuída como na centralizada, o Data Warehouse é administrado por um departamento de Tecnologia da Informação, o qual é responsável por definir os dados que serão carregados no DW e quando deverão ser atualizados, bem como definir as permissões de acesso aos mesmos.

2.5.2.1.2 Arquitetura de Data Mart Independente

Como o próprio nome sugere, esta arquitetura é composta por Data Marts independentes uns dos outros, controlados por um grupo específico de usuários e que atendem exclusivamente as necessidades específicas e departamentais destes. Neste modelo, não existe conectividade entre os Data Marts dos diversos departamentos ou áreas de negócio da empresa.

Como já foi dito, a administração dos Data Marts é realizado pelas suas respectivas áreas de negócio ou departamentos, cabendo ao departamento de Tecnologia da Informação apenas o auxílio na manutenção técnica do ambiente.

(32)

Neste modelo, os Data Marts são implementados separadamente por áreas de negócio ou departamentos, porém, ao contrário da arquitetura independente, eles são interconectados e os usuários de um determinado departamento podem acessar e utilizar dados de um Data Mart de outro departamento. Esta característica provê uma visão corporativa mais ampla das informações.

Com relação à administração e controle dos Data Marts, neste modelo são pontos mais críticos, portanto, ficando sob responsabilidade do departamento de Tecnologia da Informação e não dos departamentos como no caso dos Data Marts independentes.

2.5.2.2 Componentes de uma Arquitetura de Data Warehouse

Autores como Serra (2002), Clemes (2001) e Gonçalves (2002), apresentam uma arquitetura genérica de Data Warehouse, considerando os seus principais e mais comuns componentes, conforme a figura 4.

Figura 4 - Arquitetura Genérica de Data Warehouse. Fonte: CLEMES, 2001, p. 45.

(33)

“Corresponde aos dados das bases de dados operacionais da organização e de fontes de dados externas que serão tratados e integrados, compondo o data warehouse”. (CLEMES, 2001, p. 45).

b) Camada de Acesso à Informação

É a camada através da qual os usuários finais interagem com o DW. Representa as ferramentas de manipulação, análise e apresentação de dados, como por exemplo, o Microsoft Excel.

c) Camada de Acesso aos Dados

Segundo Gonçalves (2002, p. 34), é uma interface entre as ferramentas de acesso à informação e os bancos de dados operacionais, comunicando-se com diversos sistemas de bancos de dados, sistemas de arquivos e fontes que utilizam protocolos de comunicação distintos, caracterizando-a como um acesso universal de dados.

d) Camada de Metadados

Nesta camada estão localizadas as informações sobre os dados mantidos pela empresa, os metadados, que também são conhecidos como dicionário de dados.

De acordo com Serra (2002, p. 151), uma grande variedade de metadados é indispensável para manter a funcionalidade de um Data Warehouse, desde os dados referente às visões dos usuários até os dados sobre os bancos de dados operacionais.

e) Camada de Gerenciamento de Processos

Conforme Serra (2002, p. 151), esta camada é responsável pelo controle das tarefas realizadas para construir e manter as informações do dicionário de dados e do Data

Warehouse atualizadas e consistentes.

f) Camada de Transporte

É a camada responsável pelo transporte das informações através da rede. Segundo Serra (2002), nela é realizada a separação das aplicações operacionais das aplicações de apoio à decisão, incluindo também a coleta de mensagens e transações e a entrega das mesmas em seus destinos e tempos determinados.

(34)

g) Camada do Data Warehouse

Gonçalves (2002, p. 35), define esta camada como o Data Warehouse propriamente dito, o local de fato onde os dados estão armazenados.

h) Camada de Gerenciamento e Replicação

“Esta camada inclui todos os processos necessários para selecionar, editar, resumir, combinar e carregar o data warehouse e as correspondentes informações de acesso a partir das bases operacionais e fontes externas”. (SERRA, 2002, p. 152).

2.5.3 Implementação de um DW

2.5.3.1 Tipos de Implementação

Segundo os autores Machado (2004) e Barbieri (2001), são três os tipos de implementação de projetos de Data Warehouse: top down, button up e a convergência das duas. O segundo autor, refere-se à implementação top dowm como “Abordagem de Bill Inmon” e à button up como “Abordagem de Ralph Kimball”, por serem os precursores de cada uma delas.

A opção por um tipo de implementação é influenciada por fatores como a infra-estrutura de Tecnologia da Informação, a arquitetura escolhida, o escopo da implementação, os recursos disponíveis e principalmente pela necessidade ou não de acesso corporativo dos dados, assim como pelo retorno de investimento desejado e velocidade de implementação. (MACHADO, 2004, p. 52).

(35)

Segundo Barbieri (2001), esta abordagem segue o estilo mais tradicional de construção de bancos de dados, no qual se buscava uma forte interação entre todos os dados espalhados pelos diversos departamentos da empresa. Conforme apresentado na figura 5, o ponto central da metodologia é o Data Warehouse propriamente dito, que segundo o mesmo autor, “significa um grande depósito central de informações empresariais tratadas, limpas e integradas, construído inicialmente, e de onde outros pequenos depósitos secundários (Data

Marts, ou mercado de dados) são originados e construídos”.

Conforme Machado (2004, p. 52), antes de se iniciar a implementação “devem ser tomadas as decisões sobre as fontes de dados que serão utilizadas, segurança, estruturas de dados, qualidade de dados a ser considerada, padrões de dados e vários modelos de dados dos sistemas transacionais atuais devem estar completos [...]”.

Figura 5 - Implementação Top Down. Fonte: MACHADO, 2004, p. 53.

Na figura acima, primeiramente os dados dos sistemas transacionais são extraídos, transformados e integrados para um ODS, na seqüência, esses dados e os metadados são transferidos para o DW, do qual serão extraídos e carregados para os Data Marts. (MACHADO, 2004, p. 52).

(36)

Esta abordagem, segundo Barbieri (2001, p. 53), segue um estilo mais simples, apontando para projetos de Data Marts independentes que deverão ser integrados na medida da sua evolução, conforme mostrado na figura 6. “Os projetos serão menores, independentes, focando áreas ou assuntos específicos e terão sua conexão com o passar do tempo, desde que mantidas a compatibilidade dimensional entre chaves das tabelas”.

Este tipo de implementação permite que o planejamento e o desenho dos Data Marts possam ser realizados sem esperar que seja definida uma infra-estrutura corporativa para Data Warehouse na empresa. Essa infra-estrutura não deixará de existir, só que ela poderá ser implementada incrementalmente conforme forem sendo realizados os Data Marts. (MACHADO, 2004, p. 54).

De acordo com Machado (2004, p. 54), “o processo começa com a extração, transformação e a integração dos dados para um ou mais Data Marts, os quais são modelados, normalmente, com base em um modelo dimensional”.

Figura 6 - Implementação Button Up. Fonte: MACHADO, 2004, p. 55.

(37)

A implementação combinada prevê a convergência entre as implementações top down e button up, buscando uma nova abordagem a partir dos pontos positivos de cada uma delas.

Conforme Machado (2004), nessa Abordagem é realizada a modelagem de dados do Data Warehouse de visão macro e na seqüência é feita a implementação de partes deste modelo, as quais constituirão os Data Marts. Ainda de acordo com o mesmo autor, “cada

Data Mart pode ser gerado a partir do macromodelo de dados do Data Warehouse e integrado

ao modelo físico do Data Warehouse”.

Segundo Machado (2004), “a principal vantagem dessa abordagem é a garantia de consistência dos dados, obtida em virtude do modelo de dados para os Data Marts ser único, possibilitando realizar o mapeamento e controle dos dados”.

2.5.3.2 Considerações Sobre a Implementação de um DW

Segundo Serra (2002, p. 159), o sucesso de um projeto de Data Warehouse depende diretamente da estratégia adotada, tais como a arquitetura e tipo de implementação que serão utilizadas, adequando-a as características e necessidades do ambiente para o qual será implementado.

A especificação de requisitos para o desenvolvimento de qualquer sistema é um dos pontos cruciais para o seu sucesso, no entanto, deve-se levar em conta que esta etapa possui suas particularidades pelo fato de estarmos tratando de um ambiente de apoio à decisão. Serra (2002, p. 161), cita algumas das diferenças relacionadas à especificação de requisitos para sistemas de um ambiente operacional e para sistemas de um ambiente de suporte à decisão, conforme abaixo:

Enquanto em um ambiente operacional os requisitos são claramente identificados, no ambiente de apoio à decisão são indeterminados, pois dependem das necessidades de informação individuais de seus usuários;

Em ambientes operacionais os requisitos são relativamente estáveis ao longo do tempo, enquanto em ambientes de suporte à decisão são instáveis, pois dependem das variações das necessidades de informações dos tomadores de decisão.

(38)

Serra (2002, p. 163), aponta nove pontos que constituem definições a serem feitas em um projeto de DW, os quais são chamados de pontos de decisão e correspondem a etapas do projeto. São elas:

Os processos e, por conseqüência, a identidade das tabelas de fatos; A granularidade de cada tabela de fatos;

As dimensões de cada tabela de fatos; Aos fatos, incluindo fatos pré-calculados; Os atributos das dimensões;

Como acompanhar mudanças graduais em dimensões;

As agregações, dimensões heterogêneas, minidimensões e outras decisões de projeto físico;

Duração histórica do banco de dados;

A urgência com que se dá a extração e carga para o data warehouse.

Para Serra (2002, p. 165), a granularidade refere-se ao nível de detalhe que os dados são mantidos no DW, sendo que, quanto maior este nível, menor será o nível de granularidade. O mesmo considera este ponto como uma questão fundamental em um projeto de DW, pois afeta na quantidade de dados que serão armazenados e, ao mesmo tempo, limita os tipos de consulta que poderão ser respondidas pelo sistema.

2.5.4 Modelagem Dimensional

A modelagem de dados utilizada em um projeto de Data Warehouse não é a mesma aplicada nos bancos de dados convencionais, os quais utilizam o modelo ER (Entity

Relationship). Como o modelo ER não atende às necessidades impostas em um projeto de

DW, então surgiu a modelagem dimensional ou multidimensional.

Serra (2002), define a modelagem dimensional como sendo uma técnica de projeto de banco de dados para Data Warehouse, onde os dados são organizados em cubos, nos quais as informações procuradas estão localizadas na interseção de suas arestas.

A modelagem multidimensional é uma técnica de concepção e visualização de um modelo de dados de um conjunto de medidas que descreve aspectos comuns de negócios. É utilizada especialmente para sumarizar e reestruturar dados e apresentá-los em visões que suportem a análise dos valores desses dados. (MACHADO, 2004, p. 79).

(39)

“A modelagem dimensional permite que o usuário perceba os dados numa forma próxima de seu entendimento, com várias perspectivas possíveis, dentre elas o tempo e o espaço”. (BARBIERI, 2001, p. 80).

Serra (2002, p. 47), descreve que o princípio da modelagem dimensional é o relacionamento entre as tabelas de dimensão e a tabela fato, formando os esquemas de estrutura. Estes irão definir os elementos de composição dos cubos e variam de acordo com sua estrutura, podendo ser do tipo star-schema, snowflacke ou parent-child.

O tipo de esquema de estrutura abordado neste trabalho é o star-schema (esquema estrela), ilustrado na figura 7, visto que é o mais utilizado em projetos de Data Warehouse.

Figura 7 - Star-Schema (Esquema Estrela) Fonte: MACHADO, 2004, p. 93.

De acordo com Barbieri (2001, p. 81), “o produto final da modelagem Dimensional é a produção de modelo conceitual dimensional, formado por tabelas Fato e tabelas Dimensão”, conforme exemplo mostrado na figura 8.

(40)

Figura 8 - Exemplo de um Modelo Dimensional. Fonte: BARBIERI, 2001, p. 82.

2.5.4.1 Tabelas Fato

Machado (2004, p. 100), define fato como tudo aquilo que pode ser representado por meio de valores numéricos, sendo que o conjunto destes é denominado de métricas ou medidas. Um fato é evolutivo e muda suas medidas ao longo do tempo, podendo esta evolução ser questionada ao longo de um espaço de tempo.

As tabelas Fato servem para armazenar medidas numéricas associadas a eventos de negócio. Uma tabela Fato contém vários fatos, correspondentes a cada uma de suas linhas. Cada fato pode armazenar uma ou mais medidas numéricas, que constituem os calores objetos da análise dimensional. Possuem como chave-primária, normalmente um campo multi-key, formado pelas chaves-primárias das dimensões com que ela se relacionam. Normalmente armazenam muito mais linhas do que as tabelas Dimensão, e merecem cuidado especial em função do seu alto volume. Contém dados normalmente aditivos (manipulados por soma, média, etc.) e relativamente estáticos. (BARBIERI, 2001, p. 81).

(41)

Figura 9 - Composição Básica de uma Tabela Fato. Fonte: BARBIERI, 2001, p. 82.

2.5.4.2 Tabelas Dimensão

Segundo Machado (2004, p. 80), as dimensões são os elementos que participam de um fato e determinam o contexto de um assunto de negócios. “São as possíveis formas de visualizar os dados, ou seja, são os ‘por’ dos dados: ‘por mês’, ‘por país’, ‘por produto’, ‘por região’, etc.”.

As tabelas Dimensão representam entidades de negócios e constituem as estruturas de entrada que servem para armazenar informações como tempo, geografia, produto, cliente, etc. As tabelas Dimensão têm uma relação 1:N com a tabela Fato, e possuem um número significativamente menor de linhas do que as tabelas Fato. Possuem múltiplas colunas de informação, algumas das quais representam a sua hierarquia. Apresentam sempre uma chave primária, que lhes confere unicidade, chave essa que participa da tabela Fato, como parte da sua chave múltipla. Devem ser entendidas como as tabelas que realizam os filtros de valores aplicados na manipulação dos fatos e por onde as consultas entram no ambiente do DW/DM. (BARBIERI, 2001, p. 81).

2.6 ANÁLISE DE DADOS

O objetivo principal do sistema BI é possibilitar a análise de dados. Neste ponto que ocorrem as transformações dos dados (dados operacionais) advindos do componente OLTP em informações utilizado OLAP.

(42)

Em seguida, serão apresentados alguns conceitos, técnicas e ferramentas referentes à análise de dados.

2.6.1 OLTP versus OLAP

OLTP (On-line Transaction Processing) é a parte integrante do sistema de apoio operacional, enquanto o OLAP (On-line Analytic Processing) é parte integrante do sistema de apoio decisório. No quadro 1, é realizado um comparativo entre OLTP e OLAP, destacando suas principais características.

OLTP OLAP

Relacional Multidimensional Individualizados Sumarizados

Presente Histórico

Um registro de cada vez Muitos registros por vez Orientados ao processo Orientados ao negócio Quadro 1 - Comparativo OLTP versus OLAP.

Fonte: SERRA, 2002, p. 157.

2.6.2 OLTP (On-line Transaction Processing)

Segundo Morales (2009, p. 6) ”Os sistemas OLTP tem a tarefa de monitorar e processar as funções básicas e rotineiras de uma organização, tais como processamento da folha de pagamento, faturamento, estoque, etc.”.

(43)

2.6.3 OLAP (On-line Analytic Processing)

Conforme Serra (2002, p. 156) OLAP refere-se ao tipo de processamento e ferramentas voltados para a análise de dados e apoio a processos de gestão por meio da visão multidimensional.

“É [OLAP] o conjunto de ferramentas que possibilita efetuar a exploração de dados de um Data Wharehouse.” (MACHADO, 2008, p. 86).

“A atividade para qual, OLAP é útil: operações e apoio á decisão”. (THOMSEN, 2002, p. 5).

O termo processamento analítico on-line (OLAP- Online Analytical Processing) descreve o processamento analítico de dados assim que ocorrem as transações. As ferramentas OLAP podem analisar dados para refletir as necessidades de negócios reais. (TURBAN et. al., 2005, p.88).

Os conceitos de OLAP incluem a noção ou idéia de múltiplas dimensões hierárquicas e podem ser usados por qualquer um para que se pense mais claramente a respeito do mundo, seja o mundo material de estala atômica à escala galáctica, o mundo econômico dos micro agentes às macro economias, ou o mundo social dos relacionamentos interpessoais aos internacionais. Em outras palavras, mesmo sem qualquer tipo de linguagem formal, é útil apenas sermos capazes de pensar em termos de um mundo multidimensional e com múltiplos níveis, independente de sua posição na vida. O termo OLAP (On-line Analytical Processing), hoje muito difundido, traduzido para Processamento Analítico On-line, representa essa característica de se trabalhar os dados, como operadores dimensionais, possibilitando uma forma múltipla e combinada de análise. (THOMSEN, 2002, p.5). A importância da boa informação pode ser considerada como a diferença em valor entre decisões certas e decisões erradas, onde as decisões são tomadas baseadas nessa informação. Assim, OLAP, como qualquer outra forma de processamento de informação, precisa oferecer informações existentes, oportunas, precisas e inteligíveis. (THOMSEN, 2002, p. 8).

“As ferramentas OLAP são as aplicações às quais os usuários finais têm acesso para extrair os dados de suas bases e construir os relatórios capazes de responder às suas questões gerenciais.” (MACHADO, 2008, p. 86).

Em base dessa definição, abaixo apresentaremos algumas operações definidas como básicas do OLAP segundo (MACHADO, 2008, p. 86).

(44)

2.6.3.1 Drill-Down

Segundo Machado (2008, p. 87), “o Drill Down ocorre quando o usuário aumenta o nível de detalhe da informação, diminuindo o nível de granularidade”, conforme exemplificado na figura 10.

“Drill-Down aumenta o nível de detalhe, ir para o menor grão”. (MACHADO, 2008, p.88).

Figura 10 - Drill Down.

Fonte: MACHADO, 2008, p. 88.

2.6.3.2 Roll-Up

Segundo Machado (2008, p. 87), o Roll Up é a operação inversa ao Drill Down, “ocorre quando o usuário aumenta o nível de granularidade, diminuindo o nível de detalhamento da informação”, conforme exemplificado na figura 11.

“Roll-Up diminui o nível de detalhe, subir para o maior grão”. (MACHADO, 2008, p. 88).

(45)

Figura 11 - Roll Up.

Fonte: MACHADO, 2008, p. 87.

2.6.3.3 Drill Across

“Ocorre quando o usuário pula um nível intermediário dentro de uma mesma dimensão”. (MACHADO, 2008, p. 89).

Conforme exemplificado por MACHADO (2008, p. 89) na figura 12, tem-se uma dimensão tempo composta por ano, semestre, trimestre, mês e dia, o Drill Across acontece quando o usuário vai direto de ano para semestre ou mês.

(46)

Figura 12 - Drill Across. Fonte: MACHADO, 2008, p. 89.

2.6.3.4 Drill Throught

“Ocorre quando o usuário passa de uma informação contida em uma dimensão para uma

outra”. (MACHADO, 2008, p. 90).

2.6.3.5 Slice and Dice

Para Machado (2008, p. 90) “São operações para realizar navegação por meio dos dados na visualização de um cubo”.

Quanto ao seu significado, Machado (2008, p. 90) expõe, “Slice and dice significa em uma forma simplista a redução do escopo dos dados em análise, além de mudar a ordem das dimensões, mudando dessa forma a orientação segundo a qual os dados são visualizados”, conforme exemplificado na figura 13.

(47)

Figura 13 - Slice and Dice. Fonte: MACHADO, 2008, p. 91.

2.6.3.6 Pivot

“É o ângulo pelo qual os dados são vistos ou trocados. Na prática, corresponde à modificação na posição das dimensões em um gráfico ou troca de linhas por colunas em uma tabela. Uma característica de planilhas eletrônicas”. (Machado 2008, p. 93).

(48)

2.6.4 Análises Exploratórias de Dados (AED)

Segundo Morales (2009, p. 9) a análise exploratória de dados ou a mineração de dados possibilita a descoberta de informações implícitas (que não estavam disponíveis de forma clara) e que também podem ser úteis para as organizações.

Ou seja, tornar clara as informações para uso de forma estratégica para organizações.

AED consiste em resumir e organizar os dados coletados por meio de tabelas, gráficos ou medidas numéricas, e a partir desses dados resumidos, interpreta-os.

Para Carvalho (2001, p. 7), mineração de dados consiste mais especificamente em descobrir relações entre produtos, classificar consumidores, prever vendas, localizar áreas geográficas potencialmente lucrativas para novas filiais, inferir necessidades, entre outras.

2.6.5 Mineração de Dados e suas Técnicas

“A expressão, Mineração de Dados, mais popular, é, na realidade, uma das etapas da Descoberta de Conhecimento em Bases de Dados.” (GOLDSCHIMIDT; PASSOS, 2005, p. 2).

Para Thomsen (2002, p. 237) com a visualização apropriada e consistente dos dados se descobre padrões e melhores práticas que ao encontro dos objetivos das organizações auxiliam em tomadas de decisões assertivas.

Carvalho (2001, p. 7) trata o Data Warehouse como a memória da empresa e o

Data Mining como a Inteligência da empresa.

Para criar relações um-para-um em uma grande empresa, o proprietário humano precisa ser substituído por uma máquina capaz de tratar grandes números, o computador. A memória do proprietário é substituída por um grande banco de dados denominado data warehouse, enquanto a capacidade de aprendizado é substituída por técnicas de Inteligência Artificial e Estatísticas genericamente denominadas de Datamining (Mineração de Dados). (CARVALHO, 2001, p. 6).

Datamining é o uso de técnicas automáticas de exploração de grandes quantidades de dados de forma a descobrir novos padrões e relações que, devido ao volume de

(49)

dados, não seriam facilmente descobertos a olho nu pelo ser humano (CARVALHO, 2001, p. 6).

Carvalho (2001, p. 7) ainda expõe algumas justificativas de porque as técnicas de

data mining passaram a ser usadas como exploração de dados:

“O volume de dados disponível é enorme atualmente. Datamining é uma técnica que só se aplica a grandes massas de dados, pois necessita disto para calibrar seus algoritmos e extrair dos dados conclusões confiáveis.” (CARVALHO, 2001, p. 7). “Os dados estão sendo organizados: [...] Data warehousing, os dados de várias fontes

estão sendo organizados e padronizados [...]”. (CARVALHO, 2001, p. 7).

“Os recursos computacionais são potentes: o datamining necessita de muitos recursos computacionais para operar seus algoritmos sobre grande quantidade de dados.” (CARVALHO, 2001, p. 7).

“A competição empresarial exige técnicas mais modernas de decisão: [...] empresas buscam adquirir dados para analisar melhor seus caminhos futuros por meio dos sistemas de apoio a decisão.” (CARVALHO, 2001, p. 7).

“Programas comerciais de datamining já podem ser adquiridos: [...] técnicas de datamining são antigas conhecidas da Inteligência Artificial, [...] já saíram dos laboratórios para as empresas.” (CARVALHO, 2001, p.7).

Conforme a afirmação de Carvalho (2001, p. 27), “Tanto nos data warehouse empresarias, quanto em pequenos bancos de dados pessoais, os dados a serem utilizados no

datamining precisam ser preparados”.

Para esta preparação, Carvalho (2001, p. 27) expõe ainda algumas tarefas a serem realizadas:

Tarefa 1 - Seleção dos dados:

Nem todo o data warehouse precisa ser vasculhado pelas ferramentas do datamining. Em muitas situações, o fenômeno estudado está registrado apenas em uma parte da grande massa de dados existente, enquanto em outros casos nem todos os campos de informação de cada registro precisam ser considerados. Tanto a limitação da massa de dados a ser explorada quanto a redução do número de variáveis consideradas na análise são fatores importantes, pois tornam o processo de mineração de dados mais eficiente e eficaz. Estes dois processos são realizados com base no sentimento do analista ou em técnicas estatísticas. (CARVALHO, 2001, p. 27).