Inteligência computacional aplicada em
finanças, comércio e indústria
Parte I: Data mining e data warehouse
Leandro dos Santos Coelho
Pontifícia Universidade Católica do Paraná
PPGEPS - Pós-Graduação em Engenharia de Produção e Sistemas Laboratório de Automação e Sistemas, Curitiba, PR, Brasil
Homepage: www.produtronica.pucpr.br/leandro E-mail: leandro.coelho@pucpr.br
Programa de Especialização em Inteligência Computacional
2
Motivação: inundação de informação
• “Morrendo de sede por conhecimento em um oceano de dados”
• Problema de análise de dados para tomada de decisão:
BD da AT&T: 100 TBytes
BD da Wal-Mart: 20 milhões de transações por dia
–
Data Warehouse da Mobil: armazena 100 TBytes
–
BD da NASA Earth Observing System:
–
recebe de satélites 50 GBytes/hora
3
Data warehouse
• É um repositório de múltiplas fontes de dados
heterogêneas, organizado num mesmo site sob um
esquema unificado, com o objetivo de facilitar
tomadas de decisões gerenciais.
• A tecnologia de data warehouse inclui limpeza
dos dados, integração dos dados e um processo
analítico on-line (OLAP).
4
5
Características dos produtos de
OLAP
• acessar dados de um conjunto de base de dados
• permitir ao usuário especificar que elementos de
dados extrair
• permitir ao usuário selecionar um subconjunto de
dados para análise
• definir tabelas com múltiplos níveis
• criação de gráficos
6Cubo
Cubo
–
–
Um Um depósito depósito multidimensionalmultidimensional parapara
resultados
resultadosde de buscabuscaprépré-
-calculados
calculados e e informaçãoinformação
Terminologia em OLAP
7Terminologia em OLAP
Tempo
Produtos
Lo
cal
iza
ção
Dimensão
Dimensão
–
–
UmUm atributoatributoestruturalestruturalde de um
um cubocuboquequeatuaatuacomocomo
um
um índiceíndicequequeatua para atua para
identificação
identificação de de valores em valores em
uma matriz
uma matriz
multidimensional.
multidimensional.
Se
Se todastodasas as dimensões dimensões tem tem
um
um membromembrosimples simples
slecionado
slecionadoentãoentãoum um célulacélula
simples é
simples é definidadefinida..
8
Membros
Membros
–
–
Um
Um nomenomediscretodiscretoouou
identificador
identificadorutilizadoutilizadoparapara
identificar
identificara a posiçãoposiçãode um de um
item de dado e
item de dado e descriçãodescrição
com
com umaumadimensãodimensão..
Tempo
Produtos
Lo
cal
iza
ção
Chin a Chin a Peru Peru Japã o Ja pão Itá lia Itá lia Janeiro Janeiro Fevereiro Fevereiro MarçoMarço AbrilAbril Café Café Maça Maça Chá Chá Feijão Feijão
Terminologia em OLAP
9 January January Se m1 Se m1 Se m2 Se m2 Se gunda Se gunda Te rç a Te rç a AM AM PMPM Se m3 Se m3 Fevereiro Fevereiro Março
Março AbrilAbril
Hierarquia
Hierarquia
–
–
Relações
Relaçõesde de paipai--filhofilhocom a com a
dimensão
dimensão. .
Um
Um membromembroapresentado apresentado
em detalhes
em detalhesde de umauma
dimensão
dimensãoé o de é o de nívelnívelmaismais
baixo
baixoememsuasuahierárquiahierárquia
Tempo
Produtos
Lo
cal
iza
ção
Chin a Chin a Peru Peru Ja pão Japã o Itá lia Itá lia Café Café Maças Maças Chá Chá Feijão Feijão Janeiro Janeiro Fevereiro Fevereiro MarçoMarço AbrilAbril
Terminologia em OLAP
10
Nível
Nível
–
–
Posição
Posição com com uma uma
hierarquia
hierarquia..
Isto
Istoé, Janeiro e é, Janeiro e Fevereiro Fevereiro estão
estãono no nívelnívelMêsMêsdo do
Tempo
Tempo
Segunda
Segunda, , Terça estão Terça estão no no
nível
nível DiaDia
Janeirom Janeirom Se m1 Se m1 Se m2 Se m2 Fevereiro Fevereiro Se m1 Se m1 Se m2 Se m2 Março
Março AbrilAbril
Tempo
Produtos
Lo
cal
iza
ção
Chin a Chin a Peru Peru Ja pão Japã o Itá lia Itá lia Café Café Maça Maça Chá Chá Feijão FeijãoTerminologia em OLAP
11Medidas
Medidas
–
–
DadosDados numéricosnuméricosde de
interesse
interesse. .
Isto
Istoé, é, quantidadesquantidades, , valoresvalores
de de venda venda
Tempo
Produtos
Lo
cal
iza
ção
Chin a Chin a Peru Peru Japã o Ja pão Itá lia Itá lia Janeiro Janeiro Fevereiro Fevereiro MarçoMarço AbrilAbril Café Café Maças Maças Chá Chá Feijão Feijão R$4,25
Terminologia em OLAP
12Exemplo
Exemplo
de
de
uma arquitetura integrada
uma arquitetura integrada
…
…
data
warehouse
Extrai Transforma Lê AtualizaMáquina
OLAP
Análise
Busca
Relatórios
Data mining
Monitor & Integrador MetadadosFontes de dados
Front-End Tools
Serve
data marts OperacionalBDs
outrasfontes
Armazenamento
de dados
Servidor OLAP13
Business intelligence
• Principais características
- retirar dados de diversas fontes e integrá-los
- analisar dados
- usar hipóteses em busca de relações de causa/efeito
- transformar dados em informação
14
usuários
usuários
de
de
negócios
negócios
data
data
mart
mart
snapshot snapshot
c
cubo multi-dim.d
dados
dados
operacionais
operacionais
…tais como:e
Arquitetura de Business intelligence
15
Converter
dados em
informação
Usar um
procedimento
claro de tomada
de decisão
Tomar decisões melhores
mais rapidamente
Business
Intelligence
Propósito de Business intelligence
16
Data Mining e Business intelligence
Potencial incremento para o suporte a decisões
em negócios Usuário final
Analista de negócios Analista de dados Analista de BD Tomada de decisão
Apresentação dos dados
Técnicas de visualização
Data Mining
Descoberta da informação
Exploração de dados
OLAP, MDA
Análise estatística, acesso ao BD e relatórios
Data Warehouses / Data Marts
Fontes de dados
17
Exemplo de conhecimento extraído
"Banco de dados de lojas de produtos eletrônicos
"
OLAP
Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data dd/mm/aaaa?
Data mining (mineração de dados)
Se (idade < 18) E (profissão = "estudante")
Então (compra= "videogame") (90%)
Utilidade: estratégias de marketing.
18
Data mining: um procedimento de
descoberta de conhecimento
Data mining —
núcleo doprocedimento de descoberta de conhecimento
limpeza dos dados
integração dos dados base de dados data warehouse dados de tarefas relevantes seleção data mining avaliação de padrões 19
Evolução Perguntas Tecnologia Disponível
Características
Coleção de dados 1960
“Qual foi meu rendimento total nos últimos cinco
anos?”
Computadores, fitas, discos
Retrospectiva, Dados estáticos como
resposta
Acesso aos dados 1980
“Qual foi meu rendimento no Brasil no último janeiro?” RDBMS, SQL, ODBC Retrospectiva, dados dinâmicos a nível de registros como resposta Data Warehousing & suporte a decisão 1990
“Qual foi meu rendimento no Brasil no último janeiro? Do sul até o
nordeste?” Processamento analítico on-line, banco de dados multidimensionais, Data Warehousing Retrospectiva, dados dinâmicos em múltiplos níveis como
resposta
Data Mining Atualmente
“Porque alguns produtos são mais vendidos na
região sul?” Algoritmos avançados, computadores multiprocessados, BD grandes e poderosos Retrospectivo, Informações (perspectivas) como resposta 20
O que é data mining ?
• Data mining
(conhecimento descoberto de dados)
– Extração de padrões interessantes
(não-trivial, implícito,
desconhecido previamente e útil potencialmente) ou
conhecimento de uma grande quantidade de dados
– Nomes alternativos
Knowledge discovery (mining) in databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information harvesting,
business intelligence, etc.
21
• Análise de dados e suporte à decisão
– Análise de dados e gerenciamento• Marketing direcionado, gerenciamento do relacionamento com os consumidores, análise de mercado, perfil de consumidor
– Análise de risco e gerenciamento
• Previsão, controle de qualidade, análise competitiva – Detecção de fraudes e detecção de padrões não-usuais (outliers)
• Outras aplicações
– Mineração de textos (novos grupos, email, documentos) e Web mining – DNA e análise em bioinformática
Porque data mining? Aplicações potenciais
22
Porque data mining? Aplicações potenciais
• Vendas
- identificar padrões de comportamento dos consumidores - encontrar características dos consumidores baseado na região
demográfica
- prever quais consumidores serão atingidos nas campanhas de
marketing
• Finanças
- detectar padrões de fraudes no uso dos cartões de crédito
- identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito
- identificar regras de estocagem a partir dos dados do mercado - encontrar correlações escondidas nas bases de dados
23
• Seguros e Planos de Saúde
- determinar quais procedimentos médicos são requisitados ao mesmo tempo
- prever quais consumidores comprarão novas apólices - identificar comportamentos fraudulentos
• Medicina
- caracterizar o comportamento dos pacientes para prever novas consultas
- identificar terapias de sucessos para diferentes doenças
Porque data mining? Aplicações potenciais
24
Análise corporativa e
gerenciamento de risco
• Planejamento de finanças e acesso à avaliação
– análise do fluxo de pagamentos e previsão – análise de contingência para avaliação – análise cruzada e análise de séries temporais
• Planejamento de recursos
– resumo e comparação dos recursos e gastos
• Competição
– monitorar competidores e direções do mercado
– agrupar consumidores em class e um procedimento de preços baseado em classes
25
Processo integrado da cadeia de
suprimentos (supply chain)
26
• 2900 lojas em 6 países; 3500 fornecedores (data warehouse com
7,5 Tbytes de informações atualizadas continuamente)
ComputerWorld, Maio 1997
Empresas representativas (em cadeia de
suprimentos) que usam data mining
http://www.walmart.com
27
Datamation, Maio 1996
Empresas representativas (em cadeia de
suprimentos) que usam data mining
http://www.shopko.com/president.html
28
• data warehouse com 1 Tbyte de informações atualizadas
continuamente
Exame, Abril 1997
Empresas representativas (em cadeia de
suprimentos) que usam data mining
29
Telephony, Janeiro 1997
Empresas representativas (em cadeia de
suprimentos) que usam data mining
30
Detecção de fraudes e mineração de
padrões não-usuais
• Abordagens:
clustering
construção de modelos para fraudes, análise de outlier
• Aplicações: serviço de cartão de crédito, telecomunicações
– Gerenciamento financeiro: transações financeiras suspeitas
– Telecomunicações: fraudes em chamadas telefônicas
• Modelo de chamada telefônica: destino da chamada,
duração, hora do dia ou semana. Padrões de análise
que desviam de uma forma esperada
– Anti-terrorismo
31
• Engenharia Biomédica: sequ. DNA / projeto genoma
• Telecomunicações (monitoramento customizado de terra e
linhas telefônicas móveis): AT&T, MCI, Verizon
• Dados geoespaciais: U.S. National Spatial Data Infrastructure
• Dados climáticos e ecosistemas (satélites de observação da
Terra): NASA
• Negócios: IBM (IBM’s Data Abstraction Research Group;
exemplos são os sistemas ATM-SE e UPA)
• Astronomia: Sloan Digital Sky Survey (
www.sdss.org
), gera
5TB de dados anualmente
Empresas com aplicações de data mining
• Em 2002, o mercado de data-mining/business intelligence era de $486milhões. Worldwide Business Intelligence Forecast and Analysis, 2003-2007 (Dan Vesset, IDC, June 2003)
32
33
Sistemas de data mining
34
Funcionalidades do data mining
• Descrição de conceitos: caracterização e discriminação
– Generalizar, sumarizar, e contraste de características de
dados
• Associação
(
correlação e causalidade)
• Classificação e previsão
– Construir modelos (funções) que descrevem e distinguem
classes ou conceitos para previsões futuras
– Apresentação: árvores de decisão, regras de classificação,
redes neurais
– Prever alguns valores numéricos desconhecidos ou perdidos
35
Principais técnicas de data mining
árvore de
decisão
regras
associativas
descoberta
de regras
ID3 (Quinlan, 1986) C4.5 (Quinlan, 1992) (Agrawal, Imielinski, e Swami, 1993) (Platetsky-Shapiro, 1991)http://www-users.cs.umn.edu/~ptan/dmclass/dmtoods.html
http://www.cse.unsw.edu.au/~quinlan/ 36http://www.kdnuggets.com
37
http://www.kdnuggets.com/polls/dm_tools_oct_2000.htm
38 Inteligência artificial Data Mining Núcleo de usuários OLAPConsulta & Relatório
Distribuição de relatórios estático HTML relatório visão Sofisticação analítica
O custo para empregar novas ferramentas analíticas
começará a ser proibitivo para as empresas
Número de usuários
Organizações adaptarão uma plataforma simples e integrada para suportar a maioria das necessidades de Business Intelligence.
Tendência 39
http://www.angoss.com
http://www.attar.com/
http://www.businessobjects.com
http://www.cognos.com/
http://www-3.ibm.com/software/data/iminer/
http://www.kxen.com/
http://www.magnify.com/
http://www.microsoft.com/
Vendedores e ferramentas de data mining
40
http://www.mineit.co.uk/index.html
http://otn.oracle.com/products/bi/odm/odmining.html
http://www.salford-systems.com/
http://www.sas.com/
http://www.spss.com/press/template_view.cfm?pr_id=605
http://www.statsoft.com/
41
Desenvolvedores nacionais de data mining
http://www.godigital.com.br/
42