• Nenhum resultado encontrado

O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de

N/A
N/A
Protected

Academic year: 2021

Share "O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de"

Copied!
42
0
0

Texto

(1)
(2)

M

INERAÇÃO DE

D

ADOS

O bj ti d Mi ã d D d é t i

` O objetivo da Mineração de Dados é extrair ou

minerar conhecimento de grandes volumes de dados.a os.

` A mineração de dados é formada por um

conjunto de ferramentas e técnicas que através

d d l i d di i

do uso de algoritmos de aprendizagem tais como redes neurais ou estatística, são capazes de explorar um conjunto de dados, extraindo ou explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões nestes dados e auxiliando na descoberta de conhecimento.

E h i d d

` Esse conhecimento pode ser apresentado por

essas ferramentas de diversas formas:

agrupamentos, hipóteses, regras, árvores de agrupamentos, hipóteses, regras, árvores de decisão, grafos, ou dendrogramas.

(3)

M

OTIVAÇÃO

A i f

i

ã d

i

d i

|

A informatização dos meios produtivos

permitiu a geração de grandes volumes de

dados:

dados:

y Transações eletrônicas;

y Novos equipamentos científicos e industriais para Novos equipamentos científicos e industriais para

observação e controle;

y Dispositivos de armazenamento em massa;

A

i

d i f

ã

i

|

Aproveitamento da informação permite

ganho de competitividade: “conhecimento é

poder (e poder = $$!)”

poder (e poder = $$!)

(4)

C

ONHECIMENTO $ Volume Valor Informação Conhec. Dados l ó

(5)

M

OTIVAÇÃO

|

Os recursos de análise de dados

tradicionais são inviáveis para

acompanhar esta evolução

|

Solução:

y ferramentas de automatização das tarefas repetitivas e

sistemática de análise de dados

f t d íli t f iti d

y ferramentas de auxílio para as tarefas cognitivas da

análise

y integração das ferramentas em sistemas apoiando o

processo completo de descoberta de conhecimento para tomada de decisão

(6)

A

PLICAÇÃO

|

Um problema do mundo dos negócios:

entender o perfil dos clientes

y desenvolvimento de novos produtos;

y controle de estoque em postos de distribuição;

y propaganda mal direcionada gera maiores

gastos e desestimula o possível interessado a

f t d d

procurar as ofertas adequadas;

(7)

D

ESCOBERTA DE

C

ONHECIMENTO EM

B

ANCOS DE

D

ADOS

| “O processo não trivial de extração de

informações implícitas, anteriormente

desconhecidas e potencialmente úteis de uma desconhecidas, e potencialmente úteis de uma fonte de dados”;

| O que é um padrão interessante ? (válido,

| O que é um padrão interessante ? (válido,

(8)

T

RANSFORMAR DADOS

| em informação e conhecimento

úteis para o suporte à decisão

y úteis para o suporte à decisão,

y gerenciamento de negócios, controle de produção

y análise de mercado ao projeto de engenharia e exploração análise de mercado ao projeto de engenharia e exploração

(9)

KDD

X

D

ATA

M

INING

Mi

ã d d d é

d

|

Mineração de dados é o passo do processo

de KDD que produz um conjunto de

padrões sob um custo computacional

padrões sob um custo computacional

aceitável;

|

KDD utiliza algoritmos de data mining

|

KDD utiliza algoritmos de data mining

para extrair padrões classificados como

“conhecimento” Incorpora também tarefas

conhecimento . Incorpora também tarefas

como escolha do algoritmo adequado,

processamento e amostragem de dados e

p

g

(10)

E

TAPAS DO

P

ROCESSO

| Seleção

| Seleção

| Pré-processamento

| Transformaçãoç

| Data mining (aprendizagem)

| Interpretação e Avaliação

(11)

S

ELEÇÃO DE

D

ADOS

S l i d d d d

| Selecionar ou segmentar dados de acordo com

critérios definidos:

E T d

ã

|

Ex.: Todas as pessoas que são

proprietárias de carros é um

b

j

t d d d d t

i d

subconjunto de dados determinado.

11 11

(12)

P

-P

ROCESSAMENTO

| Estágio de limpeza dos dados, onde informações

julgadas desnecessárias são removidas.

R fi ã d d d

| Reconfiguração dos dados para assegurar

formatos consistentes (identificação)

| Ex : sexo = “F” ou “M” | Ex. : sexo F ou M sexo = “M” ou “H” 12 12 Processo

(13)

T

RANSFORMAÇÃO

| Transformam-se os dados em formatos

utilizáveis. Esta depende da técnica data mining usada

usada.

|

Disponibilizar os dados de maneira usável

e a egá el

e navegável.

13 13

(14)

D

ATA

M

INING

É d d i d d d

| É a verdadeira extração dos padrões de

comportamento dos dados (exemplos)

14 14

(15)

I

NTERPRETAÇÃO E

A

VALIAÇÃO

| Identificado os padrões pelo sistema, estes são

interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas

suporte a tomada de decisões humanas

15 15

(16)

E

TAPAS DO

P

ROCESSO

O d KDD é i t ti it ti

| O processo de KDD é interativo, iterativo,

cognitivo e exploratório, envolvendo vários passos

| muitas decisões sendo feitas pelo analista ( | muitas decisões sendo feitas pelo analista (

(17)

E

TAPAS DO

P

ROCESSO

Té i d é t t f ã d

| Técnicas de pré-processamento e transformação de

dados são aplicadas para aumentar a qualidade e o poder de expressão dos dados a serem minerados poder de expressão dos dados a serem minerados.

| Estas fases tendem a consumir a maior parte do

tempo dedicado ao processo de KDD p p (aproximadamente 70%).

(18)

I

NTRODUÇÃO A

M

INERAÇÃO DE

D

ADOS ` De que se trata ?

` Dados VS Informação

` Data mining e aprendizado de maquina ` Estruturas das descrições

` Estruturas das descrições

◦ Regras: classificação e associação ◦ Arvores de decisão

` Bases de Dados

◦ Weather, contact lens, CPU performance, labor negotiation

data, soybean classification data, soybean classification

` Áreas de aplicações

◦ Financeiras, imagens, previsão de carga, diagnostico de

d f it i li d d

(19)

D

ADOS

VS I

NFORMAÇÃO

`

A sociedade produz grande quantidade de

dados

◦ Fontes: Empresas, medicina, economia,

geográfica ambiente, esporte, etc.

`

Os dados brutos são inúteis: é necessário

técnicas que automaticamente extraiam

informação delas.

(20)

I

NFORMAÇÃO É ESSENCIAL

|

Exemplo 1: fertilização em vidro

| Dados: embriões descritos por 60 características

y Problema: selecionar os embriões que vão

sobreviver

y Dados: registros históricos de embriões

|

Exemplo 2: Seleção de gado

y Dados: gado descrito por 700 características y Problema: seleção de gadoç g

y Data: registros históricos com a decisão dos

(21)

M

INERAÇÃO DE

D

ADOS

E

ã

`

Extração

◦ implícita, previamente desconhecida ◦ previamente desconhecida, ◦ Potencialmente útil

`

Necessidades: programas que detectem

padrões e regularidades em dados

padrões e regularidades em dados

`

Padrões fortes ⇒ boas predições

◦ Problema 1:a maior parte dos padrões não são Problema 1:a maior parte dos padrões não são interessantes

◦ Problema 2: os padrões podem não ser exatos

bl

(22)

T

ÉCNICAS DE

A

PRENDIZADO DE

M

ÁQUINAS

`

Algoritmos para adquirir descrições

estruturadas de exemplos

`

Descrições estruturadas representam

padrões explicitamente

p

p

◦ Pode ser usada para predição em novas

situações

◦ Pode ser usada para entender e explicar como

se deriva uma predição

`

Os métodos se originam de inteligência

artificial, estatística e pesquisas em bases

de dados

(23)

D

ESCRIÇÕES

E

STRUTURADAS Exemplo: Regras IF-Then

If tear production rate = reduced

th d ti

then recommendation = none

Otherwise, if age = young and astigmatic = no then recommendation = soft

Recommended lenses Tear production rate

Astigmatism Spectacle prescription Age Soft Normal No Hypermetrope Young None Reduced No Myope Young Hard Normal Yes Myope Presbyopic None Reduced No Hypermetrope Pre-presbyopic Soft Normal No Hypermetrope Young … … … … … Hard Normal Yes Myope Presbyopic

(24)

P

ODEM AS MÁQUINAS APRENDER

| Definições: O processo de aprendizagem pode ser

definido como o modo como os seres adquirem

novos conhecimentos desenvolvem competências novos conhecimentos, desenvolvem competências e mudam o comportamento

(25)

O

PROBLEMA

: W

EATHER

| Condições para jogar

Play Windy Humidity Temperature Outlook Yes False High Hot Overcast No True High Hot Sunny No False High Hot Sunny … … … … … Yes False Normal Mild Rainy Yes False High Hot Overcast

If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

If humidity = normal then play = yes If none of the above then play = yesp y y

(26)

E

XEMPLO DE PREVISÃO

(I)

Análise de crédito

| Um hiperplano paralelo de

separação: pode ser

interpretado diretamente x o o sem crédito p

como uma regra:

y se a renda é menor que t, então o crédito não deve

x x x x x o o o o o o ser liberado | Exemplo: y árvores de decisão; débito x o o o ; y indução de regras renda t x: exemplo recusado o: exemplo aceito p Métodos

(27)

E

XEMPLO DE PREVISÃO

(II)

Análise de crédito

| Hiperplano oblíquo: melhor

separação: x o o sem crédito separação: | Exemplos: y regressão linear; x x x x x o o o o o o y perceptron; débito x o o o renda t x: exemplo recusado o: exemplo aceito p Métodos

(28)

E

XEMPLO DE PREVISÃO

(III)

Análise de crédito

| Superfície não linear:

melhor poder de x o o sem crédito classificação, pior interpretação; | Exemplos: x x x x x o o o o o o | Exemplos: y perceptrons multicamadas; ã ã li débito x o o o y regressão não-linear; renda t x: exemplo recusado o: exemplo aceito p Métodos

(29)

E

XEMPLO DE PREVISÃO

(IV)

Análise de crédito | Métodos baseado em exemplos; x o o sem crédito | Exemplos: y k-vizinhos mais próximos; x x x x x o o o o o o p ; y raciocínio baseado em casos; débito x o o o renda t x: exemplo recusado o: exemplo aceito p Métodos

(30)

C

LASSIFICAÇÃO X

A

SSOCIAÇÃO

| Regras de Classificação: Predizem o valor de um

atributo (a classificação do exemplo)

If outlook = sunny and humidity = high then play = no

| Regras de Associação: Predizem o valor de um

t ib t bit á i ( bi ã )

atributo arbitrário (ou combinação)

If temperature = cool then humidity = normal If humidity = normal and windy = falsey y

then play = yes

If outlook = sunny and play = no then humidity = high

If windy = false and play = no

(31)

D

ADOS

N

UMÉRICOS E

D

ISCRETOS 90 80 S No False 85 85 Sunny Play Windy Humidity Temperature Outlook Yes False 80 75 Rainy Yes False 86 83 Overcast No True 90 80 Sunny … … … … … y

If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes

If humidity < 85 then play = yes

(32)

L

ENTES

Recommended lenses Tear production rate

Astigmatism Spectacle prescription Age None Reduced Yes Myope

Young Myope No Normal Soft Young Myope No Reduced None Young

Recommended lenses Tear production rate

Astigmatism Spectacle prescription Age hard Normal Yes Hypermetrope

Young Hypermetrope Yes Reduced None Young Hypermetrope No Normal Soft Young Hypermetrope No Reduced None Young Myope Yes Normal Hard Young

N R d d

N H t

P b i Myope Yes Normal Hard Pre-presbyopic Myope Yes Reduced None Pre-presbyopic Myope No Normal Soft Pre-presbyopic Myope No Reduced None Pre-presbyopicYoung Hypermetrope Yes Normal hard

None Reduced Yes Hypermetrope Pre-presbyopic None Normal Yes Hypermetrope Pre-presbyopic None Reduced No Myope Presbyopic Soft Normal No Hypermetrope

Pre-presbyopic Hypermetrope No Reduced None Pre-presbyopic None Reduced No Myope Presbyopic None Normal No Myope Presbyopic None Reduced Yes Myope Presbyopic Hard Normal Yes Myope Presbyopic None Reduced No Hypermetrope Presbyopic Soft Normal No Hypermetrope

Presbyopic Hypermetrope No Normal Soft Presbyopic None Reduced Yes Hypermetrope Presbyopic None Normal Yes Hypermetrope Presbyopic

(33)

U

M CONJUNTO CORRETO E COMPLETO DE

R

EGRAS

f d i d d h d i

If tear production rate = reduced then recommendation = none If age = young and astigmatic = no

and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no

If age pre presbyopic and astigmatic no

and tear production rate = normal then recommendation = soft If age = presbyopic and spectacle prescription = myope

and astigmatic = no then recommendation = none

f l i i h d i i

If spectacle prescription = hypermetrope and astigmatic = no and tear production rate = normal then recommendation = soft If spectacle prescription = myope and astigmatic = yes

and tear production rate = normal then recommendation = hardp If age young and astigmatic = yes

and tear production rate = normal then recommendation = hard If age = pre-presbyopic

and spectacle prescription = hypermetrope and spectacle prescription = hypermetrope

and astigmatic = yes then recommendation = none

If age = presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none

(34)
(35)

C

LASSIFICANDO AS FLORES

IRIS

Type Petal width Petal length Sepal width Sepal length

A parte de imagem com identificação de relação rId3 não foi encontrada no arquivo.

2 1 Iris setosa 0.2 1.4 3.0 4.9 Iris setosa 0.2 1.4 3.5 5.1 … 52 51 Iris versicolor 1.5 4.5 3.2 6.4 Iris versicolor 1.4 4.7 3.2 7.0 … Iris virginica 1 9 5 1 2 7 5 8 102 101 6.3 3.3 6.0 2.5 Iris virginica … Iris virginica 1.9 5.1 2.7 5.8 102

If petal length < 2.45 then Iris setosa If sepal width < 2.10 then Iris versicolor ...

(36)

P

REDIÇÃO DA

P

ERFORMANCE DE

CPU

| Exemplo 209 diferentes configurações

Channels Performance Cache (Kb) Main memory (Kb) Cycle time (ns) 128 CHMAX 16 CHMIN 198 256 6000 256 125 1 PRP CACH MMAX MMIN MYCT 0 32 0 8 67 32 8000 512 480 208 … 269 32 32000 8000 29 2 0 0 0 0 45 0 4000 1000 480 209 67 32 8000 512 480 208

PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX

Função Linear

(37)

Á

REAS DE

A

PLICAÇÃO

| O resultado do aprendizado

y Aplicações financeiras

i d d i

y Previsão de consumo de energia

y Diagnostico de defeitos em maquinas V d M k ti

y Vendas e Marketing y Agronomia

(38)

E

MPRÉSTIMOS

(

AMERICAN EXPRESS

)

D d

i á i

i f

õ

`

Dados: questionário com informações

financeiras e pessoais

`

P

t D

di h i

t d ?

`

Pergunta: Deve o dinheiro ser prestado?

`

Um método estatístico simples cobre 90% dos

casos

casos

`

Os casos no limite são decisão dos

especialistas

especialistas

`

Porém: 50% dos casos limites causam falha

`

Solução: rejeitar todos os casos de limite?

`

Solução: rejeitar todos os casos de limite?

◦ No! os casos do limite são dos consumidores mais ativos.

(39)

A

PRENDIZADO DE

M

ÁQUINA

1000 l

d

i

d

`

1000 exemplos de treinamento, casos de

limite

`

20 t ib t

`

20 atributos:

◦ idade

◦ Anos de trabalho no ultimo emprego ◦ Anos de trabalho no ultimo emprego ◦ Anos no endereço atual

◦ Anos no banco ◦ otros,…

`

Regras aprendidas: 70% dos casos corretos

◦ Especialistas humanos 50%

`

As regras podem ser usadas para explicar as

decisões aos consumidores

(40)

G

ENERALIZAÇÃO COM BUSCA

`

Aprendizado Indutivo: encontrar um

conceito que se ajuste aos dados

`

Exemplo: regras como linguagem de

descrição

ç

◦ Espaço de busca: Enorme, finito.

`

Solução simples:

`

Solução simples:

◦ Enumerar as regras

Eli i d i õ ã j t

◦ Eliminar as descrições que não se ajustam

(41)

E

NUMERAR O ESPAÇO DE CONCEITOS

E

l W

h

`

Exemplo Weather

◦ 4 x 4 x 3 x 3 x 2 = 288 possíveis combinações

14 2 7 1034 j í i

◦ com 14 regras ⇒ 2.7x1034 conjunto possíveis

`

Em outros problemas práticos:

◦ Mais de uma descrição pode sobreviver

◦ Pode não sobreviver uma descrição

A li g g lhid d ã d

x A linguagem escolhida pode não ser capaz de

representar o domínio ou os dados podem conter ruído

U

f

d

li

`

Uma outra forma de generalização:

algoritmos heurísticos

(42)

F

AVORECIMENTO

(

BIAS

)

`

Decisões importantes em sistemas de

aprendizado:

◦ Linguagem das descrições dos conceitos

◦ Ordem na qual o espaço de busca será explorado

F b i li ã j d

◦ Formas que a sobre especialização no conjunto de treinamento é evitada

`

Essas formas de escolha são “bias” da busca:

`

Essas formas de escolha são bias da busca:

◦ Linguagem Busca

◦ Busca

Referências

Documentos relacionados

De maneira sucinta, porém objetiva, este artigo, propôs dirimir possíveis controvérsias à visão do Tratado da Amizade, bem como explicitar relevantes avanços no

Com a Proposta, nas transmissões de bens e prestações de serviços efectuadas por sujeitos passivos que tenham relações especiais (entidades relacionadas nos termos

This last point requires particular attention, because, if taken at face value, it would seem to suggest that if an independent calculation could conclusively establish that the

Little e Amyra El Khalili; também foi dissertado sobre a Agroecologia, entendida como um caminho para uma agricultura mais sustentável; sobre a ciência homeopatia e sua aplicação

A amostra foi composta por 3.075 idosos do banco de dados do Projeto Fibra UNICAMP, os quais foram avaliados por meio de questionário sociodemográfico,

Em uma amostra de oito indivíduos, observaram, pelas telerradiografias em norma lateral pré-cirúrgica imediata e pós-cirúrgica tardia, alta correlação entre o movimento do ponto

Neste tópico foi dados aos alunos o questionamento a respeito de sua pontualidade e cumprimento dos horários estabelecidos nos respectivos cursos de graduação da IES.