Sistemas de Apoio a Decisão
(Inteligência nos Negócios - Business Inteligente)
Sistemas de Informação/Ciências da Computação
Aran Bey Tcholakian Morales, Dr. Eng. (Unidade 1)
2
1. Inteligência nos Negócios
(BI-Business Intelligence)
4
Quais são os objetivos dos sistemas de informação e da tecnologia
da informação nas empresas e organizações?
O avanço da tecnologia da informação e a disseminação dos
sistemas de informação contribuem para as organizações automatizarem e controlarem os seus processos e as suas operações.
Automatizar e controlar os processos e operações, garantem a
quantidade e a qualidade de dados que atendem às necessidades de informação das organizações e, nesse sentido, atingir o objetivo
principal da tecnologia da informação: informar.
5
Por que as empresas e as organizações necessitam de informação sobre os seus processos e as suas operações?
Os dados (dos sistemas transacionais ) são insumos para as
necessidades gerenciais de informação (e conhecimento) que dão apoio aos processos de gestão e decisão das organizações.
De outra forma, ter dados precisos e exatos é um fator essencial para a geração de informação (e conhecimento) que permitem melhorar a qualidade dos processos de gestão e decisão.
Isto significa que os dados são ativos de informação (e
conhecimento).
6
Muitas organizações possuem projetos de informática,
representados pelos seus sistemas transacionais (sistemas de apoio à operação), os quais dão suporte ao cotidiano da organização
(sistemas que controlam seus processos e suas operações). Possuir projetos de informática não significa ter a informação disponível para suprir as necessidades gerenciais de apoio aos
processos de gestão e de decisão.
7
Quando as organizações perceberam esse fato, começaram a
desenvolver os seus projetos de informação como complemento aos de informática.
Desta forma, foi necessário desenvolver repositórios de dados adequados para o processo de decisão (Data Warehouse).
Os DW levaram as organizações a ter repositórios de dados
baseado em assuntos, integrado, não volátil, variável em relação ao tempo (repositórios de apoio aos processos de gestão e decisão
dos analistas de negócios e da gerência).
8
O DW é um repositório de dados que facilita a transformação dos
dados, através do processo de descoberta, em informação e
conhecimento. Em outros termos os dados são ativos de informação e conhecimento, e os DW facilitam esta transformação.
Para que a transformação e descoberta se concretizem, surge a necessidade de haver técnicas de análise dos dados.
As técnicas de análises de dados procuram identificar padrões,
relações e tendências que auxiliem na interpretação dos dados e na
extração de informações explícitas e informações implícitas
(conhecimento), com o objetivo de suprir as necessidades gerenciais de apoio aos processos de gestão e de decisão das organizações.
9
O conceito de análise de dados engloba ferramentas de
processamento analítico (OLAP), ferramentas de análise exploratória
de dados (AED) e ferramentas de extração de conhecimento
(processo de descoberta em banco de dados – KDD/mineração de
dados), as quais possibilitam a descoberta de informações (explícitas
e implícitas) que possam ser úteis às organizações.
10
O conjunto de conceitos, metodologias e tecnologias que, fazendo uso de sistemas que apoiam os processos de gestão e de decisão, são chamados de sistemas de BI.
O objetivo dos sistemas de BI é definir regras e técnicas para a
formação adequada dos dados da organização, para transformar os
dados em informações e conhecimentos relevantes para suprir as
necessidades gerenciais de apoio aos processos de gestão e de
decisão.
11
Pergunta de pesquisa:
Como descobrir informações e conhecimentos de fontes de dados que possam ser úteis aos analistas de negócios da organização para auxiliar nos processos de gestão e decisão da própria organização? A pergunta “esconde” duas outras perguntas:
Como representar as fontes de dados que “facilitem” a descoberta de informações e conhecimentos (para auxiliar nos processos de gestão e decisão)?
Quais são as ferramentas e técnicas que “permitem” a descoberta de informações e conhecimentos?
12
BI
Dados (OLTP e outras fontes) Data Warehouse/Data Marts
Ferramentas OLAP Mineração de dados - KDD Interpretação/ Avaliação Decisões Análise de dados Análises dos tomadores de decisão
Fundamentação da disciplina
Dados Informação Conhecimento Análise exploratória de dados13
14
Pesquisa do Gartner (2012) realizada com mais de dois mil CIOs em todo mundo identificou as prioridades para a TI.
15
FONTE: Estudo de Mercado: BI – Rodrigo Lanna e Alexis Frick – http://www.stratmarket.com.br/
16
Das fontes de dados estruturadas da organização, podemos descobrir
ativos de informação e conhecimento que auxiliam nos processos de
gestão e decisão da própria organização.
Ao mesmo tempo, as organizações identificaram outras fontes que poderiam ser ativos de informação e conhecimento de seu interesse.
São fontes semiestruturadas e não estruturadas com dados
provenientes de fontes internas e externas a organização: redes sociais, blogs, manuais, e-mails, chats, GPS, sensores, arquivos de áudio e de imagens.
picture from Big Data Integration
21
Dessa forma, além dos dados gerados pela organização, temos dados provenientes de fora da organização, semiestruturados e não
estruturados . São dados com uma grande variedade de formatos,
gerados em alta velocidade e em grande volume.
A partir dessas caraterísticas, surgiu o conceito de Big Data, que
traz a necessidade e desafios de se dispor de tecnologias capazes de
capturar, armazenar, gerenciar e analisar esses dados.
O conceito Big Data pode ser resumidamente definido como uma
coleção de dados (ativos de informação e conhecimento) de extremo
volume, alta velocidade de geração e grande diversidade de formatos.
Essas caraterísticas nos dados fazem necessário dispor de tecnologias capazes de capturar, armazenar, gerenciar e analisar esses dados.
Big Data permite entender não só o perfil do consumidor com base
nos registros de seus sistemas transacionais (OLTP), como também seu comportamento nas redes sociais, hábito de consumo, intenção de
compras, relevância e influência.
Volume dos dados: excede os limites físicos de ser escalável de forma
vertical (em 2012, foram gerados 1,2 zettabyte de dados; a previsão para 2020 é 35 zettabytes)
Velocidade de geração dos dados: faz com que a captura, o
processamento e as análises dos dados tenham uma validade de tempo menor.
Variedade dos dados: impõe desafios na integração e análise de
diferentes formatos de dados (dados estruturados, não estruturados, imagens, vídeos, dados de sensores, etc.);
Sistemas de BI e Big Data:
29
Pergunta de pesquisa da disciplina:
A extensão “natural” da pergunta de pesquisa: como descobrir informações e conhecimento a partir de fontes de dados
semiestruturadas e não estruturadas.
Insights << informação << dados
30
A pergunta:
Como representar as fontes de dados que “facilitem” a descoberta de informações e conhecimentos?
É estendida para:
Como capturar, armazenar e gerenciar dados com o volume, a velocidade e a variedade com que são gerados?
31
A pergunta:
Quais são as ferramentas e técnicas que “permitem” a descoberta de informações e conhecimentos?
É estendida para:
Quais são as ferramentas e técnicas que “permitem” analisar o
volume, a velocidade e a variedade de dados gerados para a
descoberta de informações e conhecimentos?
Online gaming Ad serving Sensor data Internet commerce SaaS, Web 2.0 Mobile platforms Financial trade ▪ Structured data ▪ ACID guarantees ▪ Relational/SQL ▪ Real-time analytics NewSQL ▪ Unstructured data ▪ Eventual consistency ▪ Schemaless ▪ KV, document NoSQL Other OLAP data stores Analytic Datastore
High Velocity
High Volume
Fonte: VoltDB
Apresentação
Algumas tecnologias associadas para capturar, armazenar, gerenciar e analisar o Big
Data
34
BI
Fontes internas da organização e externas à organização
DW e estruturas de representação) Ferramentas OLAP Técnicas analíticas Interpretação/ Avaliação Decisões Análise de dados Análises dos tomadores de decisão Dados Informação Conhecimento Análise exploratória de dados
35
A informação e o conhecimento sempre estiveram presentes nas organizações. A sua importância e a necessidade de gestão (gestão
da informação e do conhecimento) têm aumentado devido à
percepção de bens intangíveis, os quais precisam ser gerenciados como qualquer outro bem tangível.
36
A informação e o conhecimento de interesse das organizações estão presentes nos dados dos sistemas transacionais, nos documentos, manuais e sites, e-mails e chat, blogs, redes sociais e outras fontes. É o chamado conhecimento explícito, que pode ser formalizado,
sistematizado, comunicado e partilhado entre os indivíduos.
O conhecimento organizacional está também de forma tácita nos próprios colaboradores da organização, conhecimento tácito, difícil de ser capturado e formalizado.
A gestão do conhecimento organizacional refere-se à gestão de todos os ativos de conhecimento da organização.
37
A gestão do conhecimento não somente consiste na descoberta (que é uma forma de aquisição). Consiste também no seguinte:
- na criação (essencial para o processo de inovação);
- na modelagem e no armazenamento (diz respeito à representação e à integração do conhecimento que permita ser acessado e
compartilhado para a socialização do conhecimento);
- e na manipulação do conhecimento, que permite a utilização e o
reúso, assim como extrair outras informações (por elaboração de
informações já disponíveis) ou inferir outras informações novas (por
aprendizado).
39
Ementa
Informação e decisão. Dados, informação e conhecimento. Sistemas transacionais e de apoio a decisão. Data Warehouse: motivação,
conceitos, definição, características e arquiteturas de
implementação. Modelo Dimensional: fatos, dimensões, medidas e granularidade. Sistemas ETL: extração limpeza, transformação e
carga de um modelo dimensional. Área de apresentação:
características das ferramentas OLAP. Mineração de dados: processo de descoberta do conhecimento em banco de dados. Técnicas de mineração: agrupamentos, classificação e regras de associação.
40
Objetivo Geral
A informação e o conhecimento são diferenciais necessários ao processo decisório das organizações. Apenas armazenar dados já
não é o suficiente. As organizações buscam transformar os dados em informação e em conhecimento sobre seus clientes, colaboradores, processos e assuntos de negócio.
O objetivo da disciplina é: apresentar metodologias, técnicas,
ferramentas e elementos necessários que permitam compreender a importância da construção de estruturas de dados que permitam a extração e aquisição de informações e conhecimentos dessas
estruturadas para auxilio aos processos de gestão e de decisão da organização.
41
Objetivos Específicos
Para alcançar o objetivo geral se faz necessário:
• Construir estruturas de dados para projetos de informação: conceitos básicos de Data Warehouse;
• Elaborar e interpretar informações: processamento analítico on-line (OLAP) e análises exploratória de dados (AED);
• Adquirir conhecimento: processo de extração de conhecimento em bases de dados (KDD) e técnicas de mineração de dados.
42
Unidade 1: O processo decisório nas organizações
Carga horária: 6 horas aula Conteúdo.
1. Informação, conhecimento e o processo decisório nas organizações. 2. Sistemas de Informação (SI): Sistema OLTP e Sistema SAG.
3. Dados, Informação e Conhecimento.
4. Inteligência nos Negócios (BI-Business Intelligence): Sistemas de BI. 5. Arquitetura de um Sistema de BI.
43
Unidade 2: Estrutura de dados para a construção de sistema de BI
Carga horária: 24 horas aula Conteúdo.
1. Data Warehouse (DW) DW: a memória da organização.
2. Modelo dimensional: conceitos e características. Fatos, dimensões e medidas. Modelo Estrela.
2. ETL: Extração, limpeza, transformação e carga de dados. Ferramentas de ETL: Pentaho Data Integration.
3. Construção de modelos dimensionais lógicos e físicos.
Ferramentas de modelagem de dados: SQL Power Architec. SGBD: base de dados PostgreSql.
44
Unidade 3: Extração e descoberta de informação e conhecimento
Carga horária: 30 horas aula Conteúdo.
1. Área de apresentação de um DW: navegando e visualizando os dados da organização com técnicas e ferramentas de processamento analítico – OLAP.
Ferramentas OLAP: Mondrian Schema Workbench, Pentaho BI Server, Saiku , Excel. .
2. Processo de Descoberta de Conhecimento em Bancos de dados (KDD). Mineração de Dados: Tarefas, técnicas e algoritmos.
Ferramentas de mineração de dados: RapidMiner.
45
Formas de Avaliação:
No transcorrer do semestre teremos quatro avaliações:
1. Trabalho em grupo de pesquisa bibliográfica; 2. Prova individual de modelagem dimensional;
3. Trabalho em grupo de modelagem dimensional e análises de dados; 4. Prova individual de análises de dados (utilizando ferramentas e técnicas
de OLAP e de Mineração de Dados);
As avaliações terão o mesmo peso, e os trabalhos poderão ser feitos em grupos de até duas pessoas.
46
Bibliografia principal (DW e BI)
1. INMON, W. H. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997.
2. KIMBALL, R. The Data Warehouse Toolkit: guia completo para modelagem dimensional. Rio de Janeiro: Campus, 2002.
3. LEME FILHO, Trajano. Business Intelligence no Microsoft Excel. Rio de Janeiro: Axcel Books do Brasil, 2004.
4. Machado, F. N. Tecnologia e projeto de Data Warehouse: uma visão multidimensional. São Paulo: Érica, 2004.
5. TURBAN, Efrain; SHARDA, Ramesh; ARONSON, Jay; KING, David. BUSINESS
INTELLIGENCE: um enfoque gerencial para a inteligência do negócio. Porto
Alegre: Bookman, 2009.
47
Bibliografia principal (OLAP, AED e KDD)
1. THOMSEM, Erik. OLAP: construindo sistemas de informações dimensionais. Rio de Janeiro: Campus, 2002.
2. LAPPONI, J. C. Estatística usando Excel. São Paulo: Lapponi Treinamento e Editora, 2000.
3. TAN, P.; STEINBACH, M.; KUMAR, V. Introdução a mineração de dado. Rio de Janeiro, Editora Ciência Moderna, 2009.
48
Bibliografia complementar
1. BARBIERI, C. BI-Business Intelligence: modelagem e tecnologia. Rio de Janeiro: Axcel Books do Brasil, 2001.
2. LAUDON, K. C.; LAUDON, J. P. Sistemas de informação com
Internet. 4. ed. Rio de Janeiro: LTC, 1999.
3. O’BRIAN, J. A. Sistemas de informação e as decisões gerenciais
na era da Internet. São Paulo: Saraiva, 2001.
• DataWarehouse:
– Banco de dados: PostgreSQL;
– Modelagem: SQL Power Architect; • ETL:
– SQLs;
– PDI (Kettle) (Pentaho )
• Análises de dados: OLAP, AED, Mineração de Dados: – Excel;
– BiServer (Pentaho); – RapidMiner ;
50
BI
Fontes internas da organização e externas à organização
DW e estruturas de representação) Ferramentas OLAP Técnicas analíticas Interpretação/ Avaliação Decisões Análise de dados Análises dos tomadores de decisão Dados Informação Conhecimento Análise exploratória de dados
51
52
Sistemas de informação
“ [...] é um conjunto interdependente de pessoas, estruturas organizacionais, software, hardware, processos e métodos
Interligados com o objetivo de facilitar o planejamento e o controle em organizações, de forma que as informações se tornem
utilizáveis na coordenação do fluxo de trabalho de uma organização [...] ”
(LAUDON; LAUDON, 1998).
53 Hardware Pessoas Software Tele-Comunicações Procedimentos Banco de Dados Mainframes DW Data Mart DB Transacional
Sistemas de BI
54
Sistemas de Informação
Visão operacional
da TI
Visão estratégica
da TI
Sistemas de apoio
às operações
(Sistemas OLTP)
Sistemas de apoio
à gerência
(Sistemas SAG)
55
Características Visão operacional da TI Visão estratégica da TI Características dos sistemas
Função Monitorar e processar as funções básicas e rotineiras do
dia a dia
Elaboração das informações que
sejam pertinentes (embasar) ao
processo decisório Forma Baseado em transações Baseado em análises Representante Representado pelos sistemas
OLPT
Representado pelos sistemas de apoio à gerência (SAG)
Características dos dados
Natureza Dados atuais Dados históricos Organização Por processo ou sistema
de informação
Orientado a assuntos de negócios
Conteúdo Armazenam dados em detalhe Dados sumarizados Modelo Modelo relacional (ER) Modelo dimensional
56
Características Visão operacional da TI Visão estratégica da TI Características dos usuários e responsáveis
Tipo de usuário Comunidade operacional Tomadores de decisão, analistas de negócios Representante
na empresa
Gerente ou diretor de informática
Diretor de informação, analista de negócios
Responsabilidade do representante
Qualidade dos dados e funcionamento dos serviços
de informática
Qualidade da informação para decidir
Forma de uso Processo repetitivo, estruturado
Processo analítico, heurístico Tipo de decisão Suporte a decisões cotidianas
(diárias)
Suporte a decisões estratégicas (em longo prazo)
57
Os sistemas de BI são a evolução dos SAG.
Os sistemas de BI são um conjunto de conceitos, metodologias e tecnologias que, fazendo uso de fatos ou de acontecimentos e
Sistemas baseados nesses fatos, apoiam o processo de tomada de decisão.
Conhecido também por Inteligência Empresarial, ou Inteligência nos Negócios, o termo BI é usado como guarda-chuva.
58
O objetivo das técnicas de BI é definir regras e técnicas para a
formação adequada dos dados da organização, visando transformá-los em depósitos de informações e conhecimento que atendam às necessidades dos processos de gestão e de decisão.
Em outras palavras, isso quer dizer transformar os dados em
informações e conhecimentos relevantes para suprir as necessidades gerenciais de apoio aos processos de gestão e de decisão.
59
Sistemas de BI
Equipe técnica que desenvolve e
60
A arquitetura de um sistema típico de BI é composta das seguintes partes:
• Módulo ETL (back-end): componente dedicado à Extração, à
Transformação e à carga (Load) dos dados.
A extração é a parte responsável pela coleta dos dados.
A transformação unifica os formatos e faz a “limpeza” dos registros incompletos e das inconsistências dos dados. Os dados tratados são
carregados em um repositório de dados comum.
61
• Repositório de dados: estrutura de armazenamento de
informações como Data Warehouse e Data Marts (repositório de dados baseados em assuntos de negócios, integrado, não volátil, variável em relação ao tempo).
• Aplicações de front-end: são as ferramentas de análise de dados com a possibilidade da descoberta de informações explícitas e implícitas que pudessem ser úteis para as organizações
(ferramentas de processamento analítico (OLAP), de análise
exploratória de dados (AED) e processo de descoberta de conhecimento em bancos de dados (KDD)).
62
O valor do BI para o negócio da empresa
O valor do BI resulta de uma boa análise das necessidades de
informação (requisitos para o DW), da pertinência e da qualidade das fontes de coleta (dados) e da qualidade das análises e informações extraídas (análises de dados) para os analistas de negócio.
63
64
Os dados são uma entidade puramente sintática, sem significado nem semântica (não carregam caráter informativo). No contexto dos sistemas de informação, dados são registros de transações.
Os dados são os componentes básicos (matéria-prima) a partir dos quais a informação é criada. O dado deve então ser trabalhado
para que se torne uma informação e seja utilizável.
65
Exemplo:
A tabela acima constitui apenas um conjunto de dados, pois
somente com ela não se pode estabelecer um contexto nem um
significado.
Podemos até imaginar alguns significados, mas não há como assegurar sua validade.
Dados, Informação e Conhecimento
L Pr DV M P JN
A 1.000 10 6 1.866,67 2
66
Informação são dados formatados de uma maneira inteligível e útil
ao usuário. Informar é dar forma, relevância e propósito aos dados.
Informação são dados em um contexto dotado de semântica.
Um conjunto de dados representa uma informação para uma pessoa quando ela consegue perceber suas relações com outros dados e/ou
informações que lhe definem um contexto.
Os “outros dados e/ou informações” que já lhe são familiares podem ser lembranças, impressões, experiências, etc., tendo dessa forma condições de transformar dados em informações por meio de sua
interpretação.
67
Exemplo: na tabela anterior, se for esclarecido que se trata de uma comparação
entre as condições de venda de um produto nas Lojas (L) A e B, incluindo o Preço de Venda (PV), Desconto à Vista (DV), prazo em Meses (M), Valor da Prestação (P), Juro Nominal (JN) declarado, e se esses termos e conceitos fazem sentido
para mim, passo a entender o contexto e o significado dos dados, que se
constituem em uma informação para mim.
Para uma pessoa não habituada a compras a prazo, os dados podem fazer menos sentido, não transmitindo a mesma informação. 68
Dados, Informação e Conhecimento
L Pr DV M P JN
A 1.000 10 6 1.866,67 2
Informação é uma visão pessoal sobre um conjunto de dados - as relações percebidas associam ao dado um significado próprio, na
medida em que são específicas para cada indivíduo, pois dependem de suas capacidades e experiências anteriores. Assim, um mesmo conjunto de dados não gera a mesma informação para diferentes pessoas.
Informação é, portanto, a leitura que cada indivíduo faz de um
conjunto de dados, é o significado que o indivíduo atribui ao "internalizar" esses dados.
69
70
Conhecimento é um tipo de informação mais estruturada, com alto
grau de refinamento, com valor agregado, carregada de entendimento sobre um domínio.
Pode-se dizer que o conhecimento é subjetivo e depende muito do usuário (analista de negócios), que requer uma vivência sobre o assunto para estabelecer novas relações, tirar novas conclusões, fazer novas inferências, agregar novas informações e reformular
significados.
Nesse sentido, envolve fatores intangíveis como crenças pessoais, perspectivas, insights, intuições e interpretações.
Exemplo: com referência à mesma tabela anterior, se tenho
conhecimentos sobre juros e sobre as vendas do comércio a prazo, sou capaz de interpretar as informações com maior profundidade, por exemplo, deduzindo como cada loja aplica os juros e calculando os juros reais cobrados por cada uma delas.
71
72
Sendo assim, o conhecimento pode ser definido como estratégias (modelos, métodos, regras, técnicas, mecanismos) usadas por uma pessoa (ou máquina) para interpretar, analisar e responder
apropriadamente às situações de um determinado assunto.
Por esse motivo, o conhecimento deve ser adquirido de forma
construtivista, em que o processo de descoberta é guiado por
hipóteses, numa interação entre o analista do negócio e os dados.
73
Exemplo: em um sistema de vendas, podemos ter o seguinte: Informações:
Vendas por mês dos últimos anos; crescimento das vendas;
sazonalidade dos produtos; total de faturamento; lucratividade dos produtos, etc.
Conhecimentos:
Saber o retorno das campanhas publicitárias; identificar o perfil do cliente para um novo produto; saber se existe venda “conjunta” (arroz e feijão); identificar os clientes para uma mala direta; etc.
74
Dados, Informação e Conhecimento
Dados Informação Conhecimento
São simples observações ou fatos sobre eventos
São dados dotados de relevância (semântica) e
propósito
Informação com valor agregado e entendimento sobre o domínio
Fácil de estruturar e capturar por sistemas
Facilmente
contextualizada por sistemas
De difícil estruturação, captura e apresentação Facilmente transferível Transferível com certa
dose de esforço
De difícil transferência Claro, apresentável Apresentação por gráficos,
indicadores, índices.
De difícil apresentação e compartilhamento
Frequentemente quantificado
Exige análises, contexto e medições humanas
Inclui interpretação, reflexão e contexto
75
O processo de construir um modelo para representar um conjunto de
dados com o propósito de encontrar padrões, tendências e relações
interessantes entre os dados é o principal objetivo das técnicas de
análises de dados.
Os modelos construídos têm o intuito de facilitar as análises e
as visualizações dos dados para os analistas de negócios, na procura de informações (explícitas e implícitas) que auxiliem nos processos de gestão e decisão da organização.
76
Dados, Informação e Conhecimento
ID Sexo Cidade Idade Comprou?
1 M Floripa 25 S 2 M Criciúma 21 S 3 F Floripa 23 S 4 F Criciúma 34 S 5 F Floripa 30 N 6 M Blumenau 21 N 7 M Blumenau 20 N 8 F Blumenau 18 N 9 F Floripa 34 N 10 M Floripa 55 N
Idade Cidade 27 Blumenau Criciúma Floripa
SIM NÂO Cidade
Idade
Não Sim
Floripa
Sim Não
Dados, Informação e Conhecimento
Se Cidade = Blumenau então comprou = Não; Se Cidade = Criciúma então comprou = Sim;
Se Cidade = Floripa e Idade > 27 então comprou = Não; Se Cidade = Floripa e Idade <= 27 então comprou = Sim;
78
BI
Fontes internas da organização e externas à organização
DW e estruturas de representação) Ferramentas OLAP Técnicas analíticas Interpretação/ Avaliação Decisões Análise de dados Análises dos tomadores de decisão Dados Informação Conhecimento Análise exploratória de dados