• Nenhum resultado encontrado

Motivação. Gigantes, Monstros & Leis. Gigantes, Monstros & Leis. Gigantes, Monstros & Leis. Gigantes, Monstros & Leis

N/A
N/A
Protected

Academic year: 2021

Share "Motivação. Gigantes, Monstros & Leis. Gigantes, Monstros & Leis. Gigantes, Monstros & Leis. Gigantes, Monstros & Leis"

Copied!
11
0
0

Texto

(1)

Extração de

Conhecimento

de Bases de

Dados

(KDD)

Huei Diana Lee

Motivação

Tecnologia limitada

Armazenamento de

pequenos volumes

de dados (Mbytes)

Consultas aos Dados

Não existiam

ferramentas para

auxiliar a análise das

informações obtidas

Grandes av anços

tecnológicos na área de TI

Armazenamento de

grandes v olumes de dados

(Tbytes, Pbyte...)

Necessidade de conhecer

e entender a BD

O conhecimento extraído

de uma BD dev e ser usado

para auxiliar as tomadas

de decisões

Presente/Futuro

Passado

Surge uma

necessidade

!

Gigantes, Monstros & “Leis”

Biblioteca do Congresso (EUA) (2014)

~525 Terabytes de arquivos de dados web

~7 Petabytes – 15 milhões de objetos

digitalizados

Etimologia

Gigabyte (10

9

) termo do Latim Gigas para

Gigante

Terabye (10

12

) termo do Grego Teras para

Monstro

Próximos prefixos: Peta (10

15

= 1000

5

), Exa (10

18

)

e então

Zeta (10

21

)

Yota (10

24

)

3

Gigantes, Monstros & “Leis”

Lei de Moore (1965): Capacidade de

processamento dobra a cada 18 meses

(CPU, memória, cache)

Capacidade de armazenamento dobra

a cada 10 meses

4

Gigantes, Monstros & “Leis”

O que estas duas “leis” combinadas

produzem?

Um gap crescente entre nossa habilidade

de gerar dados e nossa habilidade de

utilizá-los

5

Gigantes, Monstros & “Leis”

Exemplos de fontes de dados:

Redes sociais

Máquinas de busca e recuperação de dados

Compartilhamento de medias

Bolsa de valores

Sensores meteorológicos

Monitoramento de pacientes

Sistemas de aquisição de dados e controle:

Automóveis

Aviões

Torres de celulares

Plantas energéticas

Seguradoras

6

(2)

https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ 9 https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ 10 https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ 11 https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ 12 https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/

(3)

https://www.domo.com/blog/2016/06/data-never-sleeps-4-0/

A cada minuto todos os dias

isso acontece na internet:

Tweeter: 347mil tweets

Youtube: 300 horas de nov os v ídeos

Facebook:

3 milhões de shares 4 milhões de likes

Google: 4 milhões de buscas

Por dia:

500 milhões de tw eets

40 milhões de tw eets compartilhados M ais de 4 milhões de horas de conteúdo “upados” M ais de1 bilhão de minutos de vídeos Vine assitidos 4,3 bilhões de mensagens do Facebook 5,75 bilhões de likes no Facebook 6 bilhões de buscar do Google

15

https://www.gwava.com/blog/internet-data-created-daily

Gigantes, Monstros & “Leis”

Big Data

Março 2012: Gov erno EUA anunciou “Big

Data Research and Dev elopment I nitiative”

com o inv estimento de U$ 200 milhões

Gartner:

Investimento de $ 34 – 232 bilhões até 2016 em

Big Data

Até 2015, 4,4 milhões de empregos em IT serão

criados para dar suporte a Big Data (EUA 1,9

milhões)

16

http:/ /www .gart ner. com/ news room/ id/2 2008 15 http:/ /www .gart ner. com/ news room/ id/2 2079 15

Gigantes, Monstros & “Leis”

O que é Big Data?

Volume

Variedade

Velocidade

Veracidade

Áreas de interação:

SGBD – Sistemas Gerenciadores de BD

Data warehouse

OLAP – Online Analitycal Processing

Vizualização

Data Mining e KDD – Knwledge Discovery in

Databases

17

Motivação

18

Pirâmide do Conhecimento

Passado

Consultas

à BD

Presente/Futuro

Obtenção do

Conhecimento

Utilização do

Conhecimento

(4)

Introdução

O objetiv o da extração de

conhecimento é descobrir

situações anômalas e/ou

interessantes, tendências, padrões

e seqüências nos dados.

Extração de Conhecimento

de Base de Dados (KDD)

KDD - Knowledge Discovery in Databases

Pesquisadores norte-americanos

Criação de Métodos e Ferramentas

Auxiliar a Obtenção do Conhecimento

KDD ≠ Data Mining

Processo de KDD

Introdução

21

Exemplos:

Introdução

Qual produto de alta lucratividade venderia mais

com a promoção de um item de baixa

lucratividade, analisando os dados dos últimos

dez anos?

Quais são os clientes potenciais para praticar

fraudes?

Quais clientes gostariam de comprar o novo

produto X?

Que genes são determinantes para o diagnóstico

de um determinado tipo de doença?

22

Exemplos de aplicações

MasterCard:

identificar perfis de clientes

monitorar reações a campanhas

publicitárias

identificar nov as tendências e possív eis

nov os produtos

23

Exemplos de aplicações

National Geographic

integração de múltiplas fontes de dados

multimídia

ferramenta para otimizar as campanhas

online e marketing

​possibilidade de fazer os times se

comunicarem por meio dos dados

(5)

Exemplos de aplicações

DHL

monitoramento de temperatura

v isibilização dos dados

correlação entre os dados

Exemplos de aplicações

Dell:

Problema: 50% dos clientes da Dell

encomendam computadores pelo site na web.

Porém, a taxa de retenção é de 0,5% (visitantes

da página que se tornam clientes)

Abordagem para Solução: Pela sequência de

clicks, agrupar clientes e desenvolver o website

de modo a maximizar o número de clientes que

eventualmente comprarão

Benefício: Aumento de vendas

Exemplos de aplicações

Sistemas de recomendação:

Oportunidade de negócio: Usuários

av aliam items na w eb. Como usar essa

informação de outros usuários para inferir

av aliações para um usuário em particular?

Solução: Usar filtragem colaborativ a

Benefício: Aumento na rentabilidade por

meio de “cross selling”

27

Exemplos de aplicações

Análise de risco / Detecção de fraude:

Problema: Reduzir o risco de empréstimos

para “maus” pagadores

Solução: Criar modelos de baseados em

dados prév ios de bons e maus pagadores

Benefício: Decréscimo no custo com maus

débitos

28

Etapas do Processo KDD

29 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO BASE DE DADOS/

Pré-Processamento

Etapas do Processo KDD

30 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

BASE DE DADOS/

(6)

Etapas do Processo KDD

CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO BASE DE DADOS/

Mineração de Dados

Etapas do Processo KDD

CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO BASE DE DADOS/

Pós-Processamento

Etapas do Processo KDD

33 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

BASE DE DADOS/

Considera-se nessa etapa:

•Condições e metas do usuário final

•Estudo de viabilidades e custos da aplicação do

processo

•Verificação do tipo e quantidade do conhecimento

disponível antes de iniciar o processo de KDD

•Identificação dos gargalos do domínio

•Especificação do modo como o conhecimento

extraído vai ser utilizado

Etapas do Processo KDD

34 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO BASE DE DADOS/

Etapas do Processo KDD

35 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

BASE DE DADOS/

Alguns problemas da extração de conhecimento a partir de grandes

dados:

•Limitação dos métodos de Data Mining quanto ao volume de dados

•Espaço de busca combinatoriamente explosivo

•Possibilidade de extração de padrões pouco significativos

Esta etapa pode ser dividida em: seleção da amostra, e preparação

e redução da amostra

Etapas do Processo KDD

36 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

BASE DE DADOS/

A seleção de uma amostra significativa considera os seguinte fatores:

•O tamanho da amostra

•Estratégias para obtenção da amostra

•Homogeneidade dos dados

•Dinâmica dos dados

Amostra que

represente com maior

(7)

Etapas do Processo KDD

CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

BASE DE DADOS/

A preparação e redução da amostra envolve a observação dos

seguintes aspectos:

•Eliminação dos registros duplicados, lixo nos dados.

•Tratamento de ruídos nos dados

•Manipulação de valores de atributos ausentes

•Encontrar métodos para reduzir efetivamente o número de

variáveis a serem consideradas no processo

Etapas do Processo KDD

CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO BASE DE DADOS/

Etapas do Processo KDD

39 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

BASE DE DADOS/

Data Mining (DM) ou Mineração de Dados (MD) envolve a utilização

de algoritmos para extração de padrões válidos, compreensíveis e

potencialmente úteis nos dados.

Esses algoritmos consistem da combinação de três componentes:

•Modelo

•Função do modelo

•Representação do modelo

•Critério de preferência (Bias)

•Algoritmo de busca

Etapas do Processo KDD

40 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO BASE DE DADOS/

Etapas do Processo KDD

41 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

BASE DE DADOS/

É necessário que os usuários do processo de KDD possam entender e

julgar a utilidade do conhecimento extraído.

A avaliação do conhecimento é uma tarefa complexa que envolve:

•A utilização de métodos para “filtrar” o conhecimento extraído

•A observação de critérios de desempenho

•A consideração de técnicas de visualização

Etapas do Processo KDD

42 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

(8)

Etapas do Processo KDD

CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃO

DOS DADOS DADO PREPARADO

BASE DE DADOS/

Pressupõe a verificação e a solução de potenciais

conflitos com o conhecimento previamente extraído

antes do processo iniciar.

O conhecimento extraído pode ser:

•Organizado pelo analista dentro de um novo

modelo

•Utilizado para refinar um modelo existente ou

•Simplesmente documentado e informado ao

usuário final

Base de

Dados

AM

Estatística

Mineração

De Dados

Visualização

Áreas que Apoiam o DM

Aprendizado de Máquina

O principal objetiv o de um sistema de

aprendizado é extrair conceitos expressos

em alguma linguagem, por exemplo,

regras de decisão capazes de serem

aplicadas a nov os casos.

Base de Dados

SGBD e Data Warehouse

OLAP

45

Áreas que Apoiam o DM

Estatística

Modelos Estatísticos

Seleção, Amostragem e Inferências

Overfitting

Tratamento de ruídos

Missing values

Visualização

Ferramentas de Visualização

46

Tarefas em Mineração de

Dados

(focadas em Aprendizado

de Máquina)

Predição:

Classificação

Regressão

Clustering

Associação

Classificação: Qual caixa?

Regressão

Regressão

Regressão

Regressão

C luste ring

. .

.

.

....

.

.

.

.

.

.

.

.

.

.

.

Asso ciação

Α Α Α Α Α Α Α Α Β Β Β Β Χ Χ Χ Χ ∆ ∆ ∆ ∆ Β Β Β Β ΧΧΧΧ ∆∆∆∆

Predição

Estimativa ou prognóstico de um

possível valor de um dado ausente

Provável distribuição futura do valor

baseado no conjunto histórico dos

dados analisados

Exemplo: potencial salário de um

empregado pode ser previsto

baseado na distribuição de salários de

empregados com as mesmas

características

(9)

Classificação

Etiqueta, rótulo ou categoria de um dado

em um conjunto de classes conhecidas

Modelo de classificação é construído

baseado nas características dos dados

no conjunto treinado

Exemplo: regras de classificação a

respeito de doenças podem ser extraídas

de um conjunto de casos conhecidos e

usado para fazer um diagnóstico em

novos pacientes baseado em seus

sintomas

Classificação

Clustering

Categorização, segmentação ou

agrupamento:

objetivo é agrupar objetos

identificando grupos (clusters) baseadas em

certos atributos

Critério de agrupamento:

maximizar as

similaridades e minimizar as diferenças mediante

algum critério

Exemplo:

um conjunto de novas doenças

podem ser agrupadas em várias categorias

baseadas nas similaridades de seus sintomas, e os

sintomas comuns das doenças podem ser usados

para descrever um grupo de doenças

51

Clustering

Estratégias de Clustering:

Particionais:

construir várias partições e

avaliá-las segundo algum critério

Hierárquicos:

criar uma decomposição

hierárquica do conjunto de objetos usando

algum critério

52

Associação

Regras de associação:

tentam descobrir

associações ou conexões entre objetos

a

1

a

2

... ∧ a

n

b

1

b

2

... ∧ b

n

significa que os objetos b

1

b

2

... ∧ b

n

tendem

a aparecer com os objetos a

1

a

2

... ∧ a

n

dentro de um conjunto de dados

Exemplo:

pode-se descobrir que um conjunto

de sintomas acontece com freqüência junto a um

outro conjunto de sintomas, e então, estudar os

motivos dessa associação

53

Evolução

(10)

Ferramentas

Várias ferramentas comerciais:

Relativ amente caras

Maioria não apresenta suporte para todas

as etapas de KDD

Aprov eitando a “onda data mining”

Centros de pesquisas e empresas

desenvolvem ferramentas de domínio

público

Ferramentas

Ferramentas Comerciais:

MineSet™ - Silicon Graphics

Enterprise Miner™ - SAS Institute

Intelligent Miner™ - IBM

Orange

Pentaho

Ferramentas de Domínio Público:

Pentaho

Orange

W EKA - Univ . de W aikato na Nov a Zelândia

Bayesian Knowledge Discovery

Algoritmos diversos, tais como C4.5, CN2 entre outros

MineSet

Ferramenta da Silicon Graphics para

auxiliar processo de Mineração de Dados

Possibilita visualização de dados

multidimensionais

Oferece utilização de algoritmos de

mineração de dados e visualização

gráfica dos modelos extraídos

57

Visualização de uma Árvore de

Decisão

58

WEKA

59 60

“All things good to know

are difficult to learn”

(11)

Material baseado em:

Notas Didáticas: Profa. Huei Diana Lee

Notas Didáticas: Profa. Maria Carolina

Monard e Ronaldo Cristiano Prati.

Notas Didáticas: Prof. Walter Nagai

Notas Didáticas: Prof. E. Keogh

Notas Didáticas: Prof. Nitin Patel

Referências

Documentos relacionados

Mesmo que o Guia tivesse entendido suas intenções e viajasse em lugares onde não houvessem monstros, Muyoung sempre encontraria uma maneira de atrair monstros para ele.. Como

a) Falsa: Encontrar monstros era um bom sinal, segundo a tradição. Obviamente, não se rezava para os monstros..... d) Falsa: Monstros rezando só pode ser uma brincadeira de

Os telescópios de raios-X mostram que os quasares e as suas galáxias companheiras são fontes brilhantes em raios-X.. Enquanto isso, porém, os astrônomos descobriram muitos

Deus [apontar para cima] poupou Calebe e Josué [polegares para cima] porque eles encora- jaram o povo a seguir ao

Está expresso no artigo 22 da Lei de Diretrizes e Bases da Educação Nacional (1996), que a educação básica tem por finalidades desenvolver o educando, assegurar-lhe a

Foi sugerido também a implantação tanto no estoque aberto quanto no estoque fechado a utilização de Cantilevers deixando o layout mais enxuto e dinâmico para empresa, maximizando

O Rotary de hoje, mais forte com mais de 1,2 milhão de associados, nos faz sentir em casa, não apenas no nosso pequeno grupo, mas também em nossos clubes diversos, em todos

Talvez ilustração não seja a melhor definição para essas imagens, como os ensaios mesmos dis- cutem: a imagem é responsável por conceder novos sentidos às narrativas e não