• Nenhum resultado encontrado

Motivação: inundação de informação. Data warehouse. Inteligência computacional aplicada em finanças, comércio e indústria

N/A
N/A
Protected

Academic year: 2021

Share "Motivação: inundação de informação. Data warehouse. Inteligência computacional aplicada em finanças, comércio e indústria"

Copied!
11
0
0

Texto

(1)

Inteligência computacional aplicada em

finanças, comércio e indústria

Parte I: Data mining e data warehouse

Leandro dos Santos Coelho

Pontifícia Universidade Católica do Paraná

PPGEPS - Pós-Graduação em Engenharia de Produção e Sistemas Laboratório de Automação e Sistemas, Curitiba, PR, Brasil

Homepage: www.produtronica.pucpr.br/leandro E-mail: leandro.coelho@pucpr.br

Programa de Especialização em Inteligência Computacional

2

Motivação: inundação de informação

• “Morrendo de sede por conhecimento em um oceano de dados”

• Problema de análise de dados para tomada de decisão:

BD da AT&T: 100 TBytes

BD da Wal-Mart: 20 milhões de transações por dia

Data Warehouse da Mobil: armazena 100 TBytes

BD da NASA Earth Observing System:

recebe de satélites 50 GBytes/hora

3

Data warehouse

• É um repositório de múltiplas fontes de dados

heterogêneas, organizado num mesmo site sob um

esquema unificado, com o objetivo de facilitar

tomadas de decisões gerenciais.

• A tecnologia de data warehouse inclui limpeza

dos dados, integração dos dados e um processo

analítico on-line (OLAP).

4

(2)

5

Características dos produtos de

OLAP

• acessar dados de um conjunto de base de dados

• permitir ao usuário especificar que elementos de

dados extrair

• permitir ao usuário selecionar um subconjunto de

dados para análise

• definir tabelas com múltiplos níveis

• criação de gráficos

6

Cubo

Cubo

Um Um depósito depósito multidimensional

multidimensional parapara

resultados

resultadosde de buscabuscaprépré-

-calculados

calculados e e informaçãoinformação

Terminologia em OLAP

7

Terminologia em OLAP

Tempo

Produtos

Lo

cal

iza

ção

Dimensão

Dimensão

Um

Um atributoatributoestruturalestruturalde de um

um cubocuboquequeatuaatuacomocomo

um

um índiceíndicequequeatua para atua para

identificação

identificação de de valores em valores em

uma matriz

uma matriz

multidimensional.

multidimensional.

Se

Se todastodasas as dimensões dimensões tem tem

um

um membromembrosimples simples

slecionado

slecionadoentãoentãoum um célulacélula

simples é

simples é definidadefinida..

8

Membros

Membros

Um

Um nomenomediscretodiscretoouou

identificador

identificadorutilizadoutilizadoparapara

identificar

identificara a posiçãoposiçãode um de um

item de dado e

item de dado e descriçãodescrição

com

com umaumadimensãodimensão..

Tempo

Produtos

Lo

cal

iza

ção

Chin a Chin a Peru Peru Ja o Ja o Itá lia Itá lia Janeiro Janeiro Fevereiro Fevereiro Março

Março AbrilAbril Café Café Maça Maça Chá Chá Feijão Feijão

Terminologia em OLAP

(3)

9 January January Se m1 Se m1 Se m2 Se m2 Se gunda Se gunda Te a Te a AM AM PMPM Se m3 Se m3 Fevereiro Fevereiro Março

Março AbrilAbril

Hierarquia

Hierarquia

Relações

Relaçõesde de paipai--filhofilhocom a com a

dimensão

dimensão. .

Um

Um membromembroapresentado apresentado

em detalhes

em detalhesde de umauma

dimensão

dimensãoé o de é o de nívelnívelmaismais

baixo

baixoememsuasuahierárquiahierárquia

Tempo

Produtos

Lo

cal

iza

ção

Chin a Chin a Peru Peru Ja o Ja o Itá lia Itá lia Café Café Maças Maças Chá Chá Feijão Feijão Janeiro Janeiro Fevereiro Fevereiro Março

Março AbrilAbril

Terminologia em OLAP

10

Nível

Nível

Posição

Posição com com uma uma

hierarquia

hierarquia..

Isto

Istoé, Janeiro e é, Janeiro e Fevereiro Fevereiro estão

estãono no nívelnívelMêsMêsdo do

Tempo

Tempo

Segunda

Segunda, , Terça estão Terça estão no no

nível

nível DiaDia

Janeirom Janeirom Se m1 Se m1 Se m2 Se m2 Fevereiro Fevereiro Se m1 Se m1 Se m2 Se m2 Março

Março AbrilAbril

Tempo

Produtos

Lo

cal

iza

ção

Chin a Chin a Peru Peru Ja o Ja o Itá lia Itá lia Café Café Maça Maça Chá Chá Feijão Feijão

Terminologia em OLAP

11

Medidas

Medidas

Dados

Dados numéricosnuméricosde de

interesse

interesse. .

Isto

Istoé, é, quantidadesquantidades, , valoresvalores

de de venda venda

Tempo

Produtos

Lo

cal

iza

ção

Chin a Chin a Peru Peru Ja o Ja o Itá lia Itá lia Janeiro Janeiro Fevereiro Fevereiro Março

Março AbrilAbril Café Café Maças Maças Chá Chá Feijão Feijão R$4,25

Terminologia em OLAP

12

Exemplo

Exemplo

de

de

uma arquitetura integrada

uma arquitetura integrada

data

warehouse

Extrai Transforma Lê Atualiza

Máquina

OLAP

Análise

Busca

Relatórios

Data mining

Monitor & Integrador Metadados

Fontes de dados

Front-End Tools

Serve

data marts Operacional

BDs

outras

fontes

Armazenamento

de dados

Servidor OLAP

(4)

13

Business intelligence

• Principais características

- retirar dados de diversas fontes e integrá-los

- analisar dados

- usar hipóteses em busca de relações de causa/efeito

- transformar dados em informação

14

usuários

usuários

de

de

negócios

negócios

data

data

mart

mart

snapshot snapshot

c

cubo multi-dim.

d

dados

dados

operacionais

operacionais

…tais como:

e

Arquitetura de Business intelligence

15

Converter

dados em

informação

Usar um

procedimento

claro de tomada

de decisão

Tomar decisões melhores

mais rapidamente

Business

Intelligence

Propósito de Business intelligence

16

Data Mining e Business intelligence

Potencial incremento para o suporte a decisões

em negócios Usuário final

Analista de negócios Analista de dados Analista de BD Tomada de decisão

Apresentação dos dados

Técnicas de visualização

Data Mining

Descoberta da informação

Exploração de dados

OLAP, MDA

Análise estatística, acesso ao BD e relatórios

Data Warehouses / Data Marts

Fontes de dados

(5)

17

Exemplo de conhecimento extraído

"

Banco de dados de lojas de produtos eletrônicos

"

OLAP

Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data dd/mm/aaaa?

Data mining (mineração de dados)

Se (idade < 18) E (profissão = "estudante")

Então (compra= "videogame") (90%)

Utilidade: estratégias de marketing.

18

Data mining: um procedimento de

descoberta de conhecimento

Data mining —

núcleo do

procedimento de descoberta de conhecimento

limpeza dos dados

integração dos dados base de dados data warehouse dados de tarefas relevantes seleção data mining avaliação de padrões 19

Evolução Perguntas Tecnologia Disponível

Características

Coleção de dados 1960

“Qual foi meu rendimento total nos últimos cinco

anos?”

Computadores, fitas, discos

Retrospectiva, Dados estáticos como

resposta

Acesso aos dados 1980

“Qual foi meu rendimento no Brasil no último janeiro?” RDBMS, SQL, ODBC Retrospectiva, dados dinâmicos a nível de registros como resposta Data Warehousing & suporte a decisão 1990

“Qual foi meu rendimento no Brasil no último janeiro? Do sul até o

nordeste?” Processamento analítico on-line, banco de dados multidimensionais, Data Warehousing Retrospectiva, dados dinâmicos em múltiplos níveis como

resposta

Data Mining Atualmente

“Porque alguns produtos são mais vendidos na

região sul?” Algoritmos avançados, computadores multiprocessados, BD grandes e poderosos Retrospectivo, Informações (perspectivas) como resposta 20

O que é data mining ?

• Data mining

(conhecimento descoberto de dados)

– Extração de padrões interessantes

(

não-trivial, implícito,

desconhecido previamente e útil potencialmente) ou

conhecimento de uma grande quantidade de dados

– Nomes alternativos

Knowledge discovery (mining) in databases (KDD),

knowledge extraction, data/pattern analysis, data

archeology, data dredging, information harvesting,

business intelligence, etc.

(6)

21

• Análise de dados e suporte à decisão

– Análise de dados e gerenciamento

• Marketing direcionado, gerenciamento do relacionamento com os consumidores, análise de mercado, perfil de consumidor

– Análise de risco e gerenciamento

• Previsão, controle de qualidade, análise competitiva – Detecção de fraudes e detecção de padrões não-usuais (outliers)

• Outras aplicações

– Mineração de textos (novos grupos, email, documentos) e Web mining – DNA e análise em bioinformática

Porque data mining? Aplicações potenciais

22

Porque data mining? Aplicações potenciais

• Vendas

- identificar padrões de comportamento dos consumidores - encontrar características dos consumidores baseado na região

demográfica

- prever quais consumidores serão atingidos nas campanhas de

marketing

• Finanças

- detectar padrões de fraudes no uso dos cartões de crédito

- identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito

- identificar regras de estocagem a partir dos dados do mercado - encontrar correlações escondidas nas bases de dados

23

• Seguros e Planos de Saúde

- determinar quais procedimentos médicos são requisitados ao mesmo tempo

- prever quais consumidores comprarão novas apólices - identificar comportamentos fraudulentos

• Medicina

- caracterizar o comportamento dos pacientes para prever novas consultas

- identificar terapias de sucessos para diferentes doenças

Porque data mining? Aplicações potenciais

24

Análise corporativa e

gerenciamento de risco

• Planejamento de finanças e acesso à avaliação

– análise do fluxo de pagamentos e previsão – análise de contingência para avaliação – análise cruzada e análise de séries temporais

• Planejamento de recursos

– resumo e comparação dos recursos e gastos

• Competição

– monitorar competidores e direções do mercado

– agrupar consumidores em class e um procedimento de preços baseado em classes

(7)

25

Processo integrado da cadeia de

suprimentos (supply chain)

26

• 2900 lojas em 6 países; 3500 fornecedores (data warehouse com

7,5 Tbytes de informações atualizadas continuamente)

ComputerWorld, Maio 1997

Empresas representativas (em cadeia de

suprimentos) que usam data mining

http://www.walmart.com

27

Datamation, Maio 1996

Empresas representativas (em cadeia de

suprimentos) que usam data mining

http://www.shopko.com/president.html

28

• data warehouse com 1 Tbyte de informações atualizadas

continuamente

Exame, Abril 1997

Empresas representativas (em cadeia de

suprimentos) que usam data mining

(8)

29

Telephony, Janeiro 1997

Empresas representativas (em cadeia de

suprimentos) que usam data mining

30

Detecção de fraudes e mineração de

padrões não-usuais

• Abordagens:

clustering

construção de modelos para fraudes, análise de outlier

• Aplicações: serviço de cartão de crédito, telecomunicações

– Gerenciamento financeiro: transações financeiras suspeitas

– Telecomunicações: fraudes em chamadas telefônicas

• Modelo de chamada telefônica: destino da chamada,

duração, hora do dia ou semana. Padrões de análise

que desviam de uma forma esperada

– Anti-terrorismo

31

• Engenharia Biomédica: sequ. DNA / projeto genoma

• Telecomunicações (monitoramento customizado de terra e

linhas telefônicas móveis): AT&T, MCI, Verizon

• Dados geoespaciais: U.S. National Spatial Data Infrastructure

• Dados climáticos e ecosistemas (satélites de observação da

Terra): NASA

• Negócios: IBM (IBM’s Data Abstraction Research Group;

exemplos são os sistemas ATM-SE e UPA)

• Astronomia: Sloan Digital Sky Survey (

www.sdss.org

), gera

5TB de dados anualmente

Empresas com aplicações de data mining

• Em 2002, o mercado de data-mining/business intelligence era de $486

milhões. Worldwide Business Intelligence Forecast and Analysis, 2003-2007 (Dan Vesset, IDC, June 2003)

32

(9)

33

Sistemas de data mining

34

Funcionalidades do data mining

• Descrição de conceitos: caracterização e discriminação

– Generalizar, sumarizar, e contraste de características de

dados

• Associação

(

correlação e causalidade)

• Classificação e previsão

– Construir modelos (funções) que descrevem e distinguem

classes ou conceitos para previsões futuras

– Apresentação: árvores de decisão, regras de classificação,

redes neurais

– Prever alguns valores numéricos desconhecidos ou perdidos

35

Principais técnicas de data mining

árvore de

decisão

regras

associativas

descoberta

de regras

ID3 (Quinlan, 1986) C4.5 (Quinlan, 1992) (Agrawal, Imielinski, e Swami, 1993) (Platetsky-Shapiro, 1991)

http://www-users.cs.umn.edu/~ptan/dmclass/dmtoods.html

http://www.cse.unsw.edu.au/~quinlan/ 36

http://www.kdnuggets.com

(10)

37

http://www.kdnuggets.com/polls/dm_tools_oct_2000.htm

38 Inteligência artificial Data Mining Núcleo de usuários OLAP

Consulta & Relatório

Distribuição de relatórios estático HTML relatório visão Sofisticação analítica

O custo para empregar novas ferramentas analíticas

começará a ser proibitivo para as empresas

Número de usuários

Organizações adaptarão uma plataforma simples e integrada para suportar a maioria das necessidades de Business Intelligence.

Tendência 39

http://www.angoss.com

http://www.attar.com/

http://www.businessobjects.com

http://www.cognos.com/

http://www-3.ibm.com/software/data/iminer/

http://www.kxen.com/

http://www.magnify.com/

http://www.microsoft.com/

Vendedores e ferramentas de data mining

40

http://www.mineit.co.uk/index.html

http://otn.oracle.com/products/bi/odm/odmining.html

http://www.salford-systems.com/

http://www.sas.com/

http://www.spss.com/press/template_view.cfm?pr_id=605

http://www.statsoft.com/

(11)

41

Desenvolvedores nacionais de data mining

http://www.godigital.com.br/

42

Desenvolvedores nacionais de data mining

http://www.rci.com.br/

Referências

Documentos relacionados

Neste contexto, a Simulação de Monte Carlo se apresentou como uma ferramenta em potencial para a projeção de cenários em custos, tanto quando se tem dados históricos

Los productos y servicios mencionados pueden ser marcas registradas, marcas de servicio o nombres de marca de TEREX Corporation o de sus filiales en Estados Unidos de América y

Desta forma, para lidar com os diferentes critérios, considerando a informação qualitativa e a imprecisão presente nela, o objetivo desta pesquisa é criar um

interesse da Linguística contemporânea pelos discursos do dia -a -dia, pelas interações verbais devidamente contextualizadas e pela forma como a lin- guagem desempenha um papel

Micro processadores e controladores Componentes B´ asicos Mem´ orias Arquiteturas Processamento Pinagem Exemplos Arquitetura do Arduino.. Micro processadores e controladores

São apresentadas e discutidas as imagens dos resultados dos exames (radiografias, ressonância nuclear magnética, ultrassonografia), do pós-operatório (PO) e da evolução para

Nesse sentido, podemos analisar que a base de conhecimento para o ensino vai sendo gradualmente construída, tendo como sustentação quatro fontes bási- cas: os conteúdos específi

FR VLL, etc.), uma rede metro Ethernet baseada em MPLS pode ser suporte de transporte não somente para tráfego IP/Ethernet mas para virtualmente qualquer tráfego da rede dos