M
INERAÇÃO DED
ADOSO bj ti d Mi ã d D d é t i
` O objetivo da Mineração de Dados é extrair ou
minerar conhecimento de grandes volumes de dados.a os.
` A mineração de dados é formada por um
conjunto de ferramentas e técnicas que através
d d l i d di i
do uso de algoritmos de aprendizagem tais como redes neurais ou estatística, são capazes de explorar um conjunto de dados, extraindo ou explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões nestes dados e auxiliando na descoberta de conhecimento.
E h i d d
` Esse conhecimento pode ser apresentado por
essas ferramentas de diversas formas:
agrupamentos, hipóteses, regras, árvores de agrupamentos, hipóteses, regras, árvores de decisão, grafos, ou dendrogramas.
M
OTIVAÇÃOA i f
i
ã d
i
d i
|
A informatização dos meios produtivos
permitiu a geração de grandes volumes de
dados:
dados:
y Transações eletrônicas;
y Novos equipamentos científicos e industriais para Novos equipamentos científicos e industriais para
observação e controle;
y Dispositivos de armazenamento em massa;
A
i
d i f
ã
i
|
Aproveitamento da informação permite
ganho de competitividade: “conhecimento é
poder (e poder = $$!)”
poder (e poder = $$!)
C
ONHECIMENTO $ Volume Valor Informação Conhec. Dados l óM
OTIVAÇÃO|
Os recursos de análise de dados
tradicionais são inviáveis para
acompanhar esta evolução
|
Solução:
y ferramentas de automatização das tarefas repetitivas e
sistemática de análise de dados
f t d íli t f iti d
y ferramentas de auxílio para as tarefas cognitivas da
análise
y integração das ferramentas em sistemas apoiando o
processo completo de descoberta de conhecimento para tomada de decisão
A
PLICAÇÃO|
Um problema do mundo dos negócios:
entender o perfil dos clientes
y desenvolvimento de novos produtos;
y controle de estoque em postos de distribuição;
y propaganda mal direcionada gera maiores
gastos e desestimula o possível interessado a
f t d d
procurar as ofertas adequadas;
D
ESCOBERTA DE
C
ONHECIMENTO EM
B
ANCOS DE
D
ADOS
| “O processo não trivial de extração de
informações implícitas, anteriormente
desconhecidas e potencialmente úteis de uma desconhecidas, e potencialmente úteis de uma fonte de dados”;
| O que é um padrão interessante ? (válido,
| O que é um padrão interessante ? (válido,
T
RANSFORMAR DADOS| em informação e conhecimento
úteis para o suporte à decisão
y úteis para o suporte à decisão,
y gerenciamento de negócios, controle de produção
y análise de mercado ao projeto de engenharia e exploração análise de mercado ao projeto de engenharia e exploração
KDD
XD
ATAM
ININGMi
ã d d d é
d
|
Mineração de dados é o passo do processo
de KDD que produz um conjunto de
padrões sob um custo computacional
padrões sob um custo computacional
aceitável;
|
KDD utiliza algoritmos de data mining
|KDD utiliza algoritmos de data mining
para extrair padrões classificados como
“conhecimento” Incorpora também tarefas
conhecimento . Incorpora também tarefas
como escolha do algoritmo adequado,
processamento e amostragem de dados e
p
g
E
TAPAS DOP
ROCESSO| Seleção
| Seleção
| Pré-processamento
| Transformaçãoç
| Data mining (aprendizagem)
| Interpretação e Avaliação
S
ELEÇÃO DED
ADOSS l i d d d d
| Selecionar ou segmentar dados de acordo com
critérios definidos:
E T d
ã
|
Ex.: Todas as pessoas que são
proprietárias de carros é um
b
j
t d d d d t
i d
subconjunto de dados determinado.
11 11
P
RÉ-P
ROCESSAMENTO| Estágio de limpeza dos dados, onde informações
julgadas desnecessárias são removidas.
R fi ã d d d
| Reconfiguração dos dados para assegurar
formatos consistentes (identificação)
| Ex : sexo = “F” ou “M” | Ex. : sexo F ou M sexo = “M” ou “H” 12 12 Processo
T
RANSFORMAÇÃO| Transformam-se os dados em formatos
utilizáveis. Esta depende da técnica data mining usada
usada.
|
Disponibilizar os dados de maneira usável
e a egá el
e navegável.
13 13
D
ATAM
ININGÉ d d i d d d
| É a verdadeira extração dos padrões de
comportamento dos dados (exemplos)
14 14
I
NTERPRETAÇÃO EA
VALIAÇÃO| Identificado os padrões pelo sistema, estes são
interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas
suporte a tomada de decisões humanas
15 15
E
TAPAS DOP
ROCESSOO d KDD é i t ti it ti
| O processo de KDD é interativo, iterativo,
cognitivo e exploratório, envolvendo vários passos
| muitas decisões sendo feitas pelo analista ( | muitas decisões sendo feitas pelo analista (
E
TAPAS DOP
ROCESSOTé i d é t t f ã d
| Técnicas de pré-processamento e transformação de
dados são aplicadas para aumentar a qualidade e o poder de expressão dos dados a serem minerados poder de expressão dos dados a serem minerados.
| Estas fases tendem a consumir a maior parte do
tempo dedicado ao processo de KDD p p (aproximadamente 70%).
I
NTRODUÇÃO AM
INERAÇÃO DED
ADOS ` De que se trata ?` Dados VS Informação
` Data mining e aprendizado de maquina ` Estruturas das descrições
` Estruturas das descrições
◦ Regras: classificação e associação ◦ Arvores de decisão
` Bases de Dados
◦ Weather, contact lens, CPU performance, labor negotiation
data, soybean classification data, soybean classification
` Áreas de aplicações
◦ Financeiras, imagens, previsão de carga, diagnostico de
d f it i li d d
D
ADOSVS I
NFORMAÇÃO`
A sociedade produz grande quantidade de
dados
◦ Fontes: Empresas, medicina, economia,
geográfica ambiente, esporte, etc.
`
Os dados brutos são inúteis: é necessário
técnicas que automaticamente extraiam
informação delas.
I
NFORMAÇÃO É ESSENCIAL|
Exemplo 1: fertilização em vidro
| Dados: embriões descritos por 60 características
y Problema: selecionar os embriões que vão
sobreviver
y Dados: registros históricos de embriões
|
Exemplo 2: Seleção de gado
y Dados: gado descrito por 700 características y Problema: seleção de gadoç g
y Data: registros históricos com a decisão dos
M
INERAÇÃO DED
ADOSE
ã
`Extração
◦ implícita, previamente desconhecida ◦ previamente desconhecida, ◦ Potencialmente útil`
Necessidades: programas que detectem
padrões e regularidades em dados
padrões e regularidades em dados
`Padrões fortes ⇒ boas predições
◦ Problema 1:a maior parte dos padrões não são Problema 1:a maior parte dos padrões não são interessantes
◦ Problema 2: os padrões podem não ser exatos
bl
T
ÉCNICAS DEA
PRENDIZADO DEM
ÁQUINAS`
Algoritmos para adquirir descrições
estruturadas de exemplos
`
Descrições estruturadas representam
padrões explicitamente
p
p
◦ Pode ser usada para predição em novas
situações
◦ Pode ser usada para entender e explicar como
se deriva uma predição
`
Os métodos se originam de inteligência
artificial, estatística e pesquisas em bases
de dados
D
ESCRIÇÕESE
STRUTURADAS Exemplo: Regras IF-ThenIf tear production rate = reduced
th d ti
then recommendation = none
Otherwise, if age = young and astigmatic = no then recommendation = soft
Recommended lenses Tear production rate
Astigmatism Spectacle prescription Age Soft Normal No Hypermetrope Young None Reduced No Myope Young Hard Normal Yes Myope Presbyopic None Reduced No Hypermetrope Pre-presbyopic Soft Normal No Hypermetrope Young … … … … … Hard Normal Yes Myope Presbyopic
P
ODEM AS MÁQUINAS APRENDER| Definições: O processo de aprendizagem pode ser
definido como o modo como os seres adquirem
novos conhecimentos desenvolvem competências novos conhecimentos, desenvolvem competências e mudam o comportamento
O
PROBLEMA: W
EATHER| Condições para jogar
Play Windy Humidity Temperature Outlook Yes False High Hot Overcast No True High Hot Sunny No False High Hot Sunny … … … … … Yes False Normal Mild Rainy Yes False High Hot Overcast
If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes
If humidity = normal then play = yes If none of the above then play = yesp y y
E
XEMPLO DE PREVISÃO(I)
Análise de crédito
| Um hiperplano paralelo de
separação: pode ser
interpretado diretamente x o o sem crédito p
como uma regra:
y se a renda é menor que t, então o crédito não deve
x x x x x o o o o o o ser liberado | Exemplo: y árvores de decisão; débito x o o o ; y indução de regras renda t x: exemplo recusado o: exemplo aceito p Métodos
E
XEMPLO DE PREVISÃO(II)
Análise de crédito
| Hiperplano oblíquo: melhor
separação: x o o sem crédito separação: | Exemplos: y regressão linear; x x x x x o o o o o o y perceptron; débito x o o o renda t x: exemplo recusado o: exemplo aceito p Métodos
E
XEMPLO DE PREVISÃO(III)
Análise de crédito
| Superfície não linear:
melhor poder de x o o sem crédito classificação, pior interpretação; | Exemplos: x x x x x o o o o o o | Exemplos: y perceptrons multicamadas; ã ã li débito x o o o y regressão não-linear; renda t x: exemplo recusado o: exemplo aceito p Métodos
E
XEMPLO DE PREVISÃO(IV)
Análise de crédito | Métodos baseado em exemplos; x o o sem crédito | Exemplos: y k-vizinhos mais próximos; x x x x x o o o o o o p ; y raciocínio baseado em casos; débito x o o o renda t x: exemplo recusado o: exemplo aceito p MétodosC
LASSIFICAÇÃO XA
SSOCIAÇÃO| Regras de Classificação: Predizem o valor de um
atributo (a classificação do exemplo)
If outlook = sunny and humidity = high then play = no
| Regras de Associação: Predizem o valor de um
t ib t bit á i ( bi ã )
atributo arbitrário (ou combinação)
If temperature = cool then humidity = normal If humidity = normal and windy = falsey y
then play = yes
If outlook = sunny and play = no then humidity = high
If windy = false and play = no
D
ADOSN
UMÉRICOS ED
ISCRETOS 90 80 S No False 85 85 Sunny Play Windy Humidity Temperature Outlook Yes False 80 75 Rainy Yes False 86 83 Overcast No True 90 80 Sunny … … … … … yIf outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes
If humidity < 85 then play = yes
L
ENTESRecommended lenses Tear production rate
Astigmatism Spectacle prescription Age None Reduced Yes Myope
Young Myope No Normal Soft Young Myope No Reduced None Young
Recommended lenses Tear production rate
Astigmatism Spectacle prescription Age hard Normal Yes Hypermetrope
Young Hypermetrope Yes Reduced None Young Hypermetrope No Normal Soft Young Hypermetrope No Reduced None Young Myope Yes Normal Hard Young
N R d d
N H t
P b i Myope Yes Normal Hard Pre-presbyopic Myope Yes Reduced None Pre-presbyopic Myope No Normal Soft Pre-presbyopic Myope No Reduced None Pre-presbyopicYoung Hypermetrope Yes Normal hard
None Reduced Yes Hypermetrope Pre-presbyopic None Normal Yes Hypermetrope Pre-presbyopic None Reduced No Myope Presbyopic Soft Normal No Hypermetrope
Pre-presbyopic Hypermetrope No Reduced None Pre-presbyopic None Reduced No Myope Presbyopic None Normal No Myope Presbyopic None Reduced Yes Myope Presbyopic Hard Normal Yes Myope Presbyopic None Reduced No Hypermetrope Presbyopic Soft Normal No Hypermetrope
Presbyopic Hypermetrope No Normal Soft Presbyopic None Reduced Yes Hypermetrope Presbyopic None Normal Yes Hypermetrope Presbyopic
U
M CONJUNTO CORRETO E COMPLETO DER
EGRASf d i d d h d i
If tear production rate = reduced then recommendation = none If age = young and astigmatic = no
and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no
If age pre presbyopic and astigmatic no
and tear production rate = normal then recommendation = soft If age = presbyopic and spectacle prescription = myope
and astigmatic = no then recommendation = none
f l i i h d i i
If spectacle prescription = hypermetrope and astigmatic = no and tear production rate = normal then recommendation = soft If spectacle prescription = myope and astigmatic = yes
and tear production rate = normal then recommendation = hardp If age young and astigmatic = yes
and tear production rate = normal then recommendation = hard If age = pre-presbyopic
and spectacle prescription = hypermetrope and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none
C
LASSIFICANDO AS FLORESIRIS
Type Petal width Petal length Sepal width Sepal lengthA parte de imagem com identificação de relação rId3 não foi encontrada no arquivo.
2 1 Iris setosa 0.2 1.4 3.0 4.9 Iris setosa 0.2 1.4 3.5 5.1 … 52 51 Iris versicolor 1.5 4.5 3.2 6.4 Iris versicolor 1.4 4.7 3.2 7.0 … Iris virginica 1 9 5 1 2 7 5 8 102 101 6.3 3.3 6.0 2.5 Iris virginica … Iris virginica 1.9 5.1 2.7 5.8 102
If petal length < 2.45 then Iris setosa If sepal width < 2.10 then Iris versicolor ...
P
REDIÇÃO DAP
ERFORMANCE DECPU
| Exemplo 209 diferentes configurações
Channels Performance Cache (Kb) Main memory (Kb) Cycle time (ns) 128 CHMAX 16 CHMIN 198 256 6000 256 125 1 PRP CACH MMAX MMIN MYCT 0 32 0 8 67 32 8000 512 480 208 … 269 32 32000 8000 29 2 0 0 0 0 45 0 4000 1000 480 209 67 32 8000 512 480 208
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
Função Linear
Á
REAS DEA
PLICAÇÃO| O resultado do aprendizado
y Aplicações financeiras
i d d i
y Previsão de consumo de energia
y Diagnostico de defeitos em maquinas V d M k ti
y Vendas e Marketing y Agronomia
E
MPRÉSTIMOS(
AMERICAN EXPRESS)
D d
i á i
i f
õ
`
Dados: questionário com informações
financeiras e pessoais
`
P
t D
di h i
t d ?
`
Pergunta: Deve o dinheiro ser prestado?
`
Um método estatístico simples cobre 90% dos
casos
casos
`
Os casos no limite são decisão dos
especialistas
especialistas
`
Porém: 50% dos casos limites causam falha
`Solução: rejeitar todos os casos de limite?
`Solução: rejeitar todos os casos de limite?
◦ No! os casos do limite são dos consumidores mais ativos.
A
PRENDIZADO DEM
ÁQUINA1000 l
d
i
d
`
1000 exemplos de treinamento, casos de
limite
`
20 t ib t
`20 atributos:
◦ idade
◦ Anos de trabalho no ultimo emprego ◦ Anos de trabalho no ultimo emprego ◦ Anos no endereço atual
◦ Anos no banco ◦ otros,…
`
Regras aprendidas: 70% dos casos corretos
◦ Especialistas humanos 50%
`
As regras podem ser usadas para explicar as
decisões aos consumidores
G
ENERALIZAÇÃO COM BUSCA`
Aprendizado Indutivo: encontrar um
conceito que se ajuste aos dados
`
Exemplo: regras como linguagem de
descrição
ç
◦ Espaço de busca: Enorme, finito.
`
Solução simples:
`
Solução simples:
◦ Enumerar as regras
Eli i d i õ ã j t
◦ Eliminar as descrições que não se ajustam
E
NUMERAR O ESPAÇO DE CONCEITOSE
l W
h
`
Exemplo Weather
◦ 4 x 4 x 3 x 3 x 2 = 288 possíveis combinações
14 2 7 1034 j í i
◦ com 14 regras ⇒ 2.7x1034 conjunto possíveis
`
Em outros problemas práticos:
◦ Mais de uma descrição pode sobreviver
◦ Pode não sobreviver uma descrição
A li g g lhid d ã d
x A linguagem escolhida pode não ser capaz de
representar o domínio ou os dados podem conter ruído
U
f
d
li
`
Uma outra forma de generalização:
algoritmos heurísticos
F
AVORECIMENTO(
BIAS)
`
Decisões importantes em sistemas de
aprendizado:
◦ Linguagem das descrições dos conceitos
◦ Ordem na qual o espaço de busca será explorado
F b i li ã j d
◦ Formas que a sobre especialização no conjunto de treinamento é evitada
`
Essas formas de escolha são “bias” da busca:
`Essas formas de escolha são bias da busca:
◦ Linguagem Busca
◦ Busca