• Nenhum resultado encontrado

Unidade 6 Introdução à Mineração de Dados

N/A
N/A
Protected

Academic year: 2022

Share "Unidade 6 Introdução à Mineração de Dados"

Copied!
65
0
0

Texto

(1)

Unidade 6

Introdução à Mineração de Dados

UFCG/CEEI/DSC Int. Banco de Dados e Mineração de Dados Prof. Cláudio Baptista, PhD

Unidade 2 Cláudio Baptista Banco de Dados I

(2)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

Problema dos dias atuais: O Tsunami de Dados

Porém precisamos transformar estes dados em informação/conhecimento!!!!!

Motivação

Motivação

(3)

Unidade 2 Cláudio Baptista Banco de Dados I

O Problema da Explosão dos Dados

• Informatização generalizada

– negócios, governos, pesquisas

• Armazenamento

– maior capacidade, menor custo

• Evolução da coleta de dados

– Leitores de código de barras, Sensores, ...

(4)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

• Armazenamento do RAMAC (Random Access Method of

Accounting and Control), IBM, 1956.

• 50 discos de 24 pol. De diâmetro.

• Quase 5 megabytes

• Custo: Us$ 160.000

Motivação

Motivação

(5)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

• Crescimento explosivo na capacidade de gerar, coletar e armazenar dados:

– Científicos: imagens, sinais.

– Sociais: censos, pesquisas.

– Econômicos e comerciais: transações bancárias e comerciais, compras,

– ligações telefônicas, acessos à web, transações com código de barras e RFID.

– Segurança: acessos à sistemas em rede (logs), e-mails corporativos, registro de atividades.

Motivação

Motivação

(6)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

• Justificativas para este aumento:

– Barateamento de componentes e ambientes computacionais:

Redução do custo de armazenamento:

Us$ 370/M (em 1981)→ Us$ 0.0032/M (em 2008

– Exigências científicas/sociais.

– Mudança de paradigmas!

Motivação

Motivação

(7)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

YouTube: 45 terabytes de vídeos em 2006.

Flickr: 2.2 bilhões de imagens.

GenBank: coleções de sequências, mais de 100.000 organismos, 360 gigabytes.

• Yahoo!: 100 terabytes.

• AT&T: 93 terabytes.

• Amazon: 24 terabytes.

Motivação

Motivação

(8)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

• Mídia impressa, filmes, mídia magnética e ótica

produziram aproximadamente 5 exabytes de novos dados em 2002.

• 1 exabyte = 1.024 petabytes = 1.048.576 terabytes.

– Consumidor americano típico gera 100G de dados em sua vida:

• 26 exabytes para a população presente. ∼

– Quantos registros de ligações telefônicas?

• Quantas transações de cartões por dia?

• Quantos acessos a diversos servidores de informação?

O que você tem no seu disco rígido?

Motivação

Motivação

(9)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

• 1 terabyte = 200 dólares

• Transmitir 1 petabyte em uma rede de

100Mb/s: 86 milhões de segundos = 2 anos e 9 meses.

• 1 petabyte = pilha de 2.2 km de altura em

DVDs. 100 computadores criando DVDs, cada DVD em meia hora: 46 dias para copiar um petabyte.

Motivação

Motivação

(10)

Unidade 2 Cláudio Baptista Banco de Dados I

Evolução das Tecnologias de BD

1960s:

• Sistemas de arquivos armazenavam dados de acordo com os formatos definidos pelos usuários.

1970s:

• Moldelo de dados relacional, Implementação de SGBD relacional.

1980s:

• SGBD, modelos de dados avançados (relacional-estendido, OO, dedutivo, etc.) e aplicações vbaseadas em DBMS (espacial,

científico, etc.)

1990s – 2000s:

• Armazéns de dados, mineração de dados, banco de dados

multimídia, banco de dados Web.

(11)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

Mas o que é feito destes dados?

• Localizar, filtrar é relativamente simples...

• Indexar pode ser mais complicado.

Como identificar..

• Padrões (“X” acontece se...)

• Exceções (isto é diferente de... por causa de...)

• Tendências (ao longo do tempo, “Y” deve acontecer...)

• Correlações (se “M” acontece, “N” também deve acontecer.)

• O que existe de interessante nestes dados? Como definir“interessante”?

Informação, e não dados, valem dinheiro / tempo / conhecimento!

Motivação

Motivação

(12)

Unidade 2 Cláudio Baptista Banco de Dados I

Motivação

(13)

Unidade 2 Cláudio Baptista Banco de Dados I

Dado, Informação, Conhecimento

Dado é algo bruto; é a matéria-prima da qual podemos extrair informação.

Informação é o dado processado, com significado e contexto bem definido.

Conhecimento é o uso inteligente da informação;

é a informação contextualizada e utilizada na

prática.

(14)

Unidade 2 Cláudio Baptista Banco de Dados I

O que é Data Mining?

(15)

Unidade 2 Cláudio Baptista Banco de Dados I

O que é Data Mining

(16)

Unidade 2 Cláudio Baptista Banco de Dados I

O que é?

Certos nomes são mais freqüentes em certas regiões do Brasil (Cacciola, Armani, Gutierrez… na Grande São Paulo)

Agrupar documentos por similaridade de contexto (p.e. Amazônia)

O que não é?

Achar um número de telefone em um

catálogo

Procurar numa máquina de busca informação sobre “Amazônia”

O Que É / Não É Mineração de Dados?

(17)

Unidade 2 Cláudio Baptista Banco de Dados I

Idéias mestras de “machine learning” / AI,

“pattern recognition”, estatística e banco de dados

Estatística / Pattern Recognition Machine

Learning / AI

Data Mining

Banco de Dados

Origens da Expressão

Mineração de Dados

(18)

Unidade 2 Cláudio Baptista Banco de Dados I

Mineração de Dados

• Mineração de Dados é uma tecnologia capaz de descobrir padrões de informação ‘escondidos’ em um BD

– Padrão  Freqüência, Repetição  BD desnormalizado

• Outras denominações

– Análise de Dados Exploratória – Descoberta Dirigida a Dados – Aprendizagem Indutiva

• Implementa o conceito de consulta aberta ou semi-aberta

– Consultas tradicionais são fechadas, ou completamente definidas

(19)

Unidade 2 Cláudio Baptista Banco de Dados I

– Consulta: Pode não ser bem formada, ou

formulada imprecisamente. O minerador pode nem mesmo saber exatamente o que ele quer ver

– Dados: Como se trata de descobrir padrões (repetições), dados normalizados (sem

repetições) não facilitam a tarefa de mineração.

A solução é gerar arquivos intermediários não normalizados do BD operacional normalizado – Saída: Não é um subconjunto do BD. Em vez

disso, é o resultado de alguma análise sobre o conteúdo do BD

Consultas Abertas ou Semi-abertas

(20)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

Motivação

Mineração de Dados: Por que ?

• Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc

– Dados de comércio eletrônico, – Dados de navegação na internet

– Dados de compras de clientes em grandes lojas de departamentos, supermercados,

– Dados de transações bancárias, ou de cartão de crédito

• Computadores mais baratos e mais potentes

• Pressão da Competição

Ponto de Vista Comercial

Ponto de Vista Comercial

(21)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

Motivação

Mineração de Dados - Por que ?

• Frequentemente existe informa ç ão “ escondida ” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais.

• Analistas humanos podem levar semanas para

correlacionar e descobrir alguma informa ç ão útil dentro de uma grande massa de dados.

• Boa parte dos dados nunca é analisado: “ cemit é rio ” de

dados.

(22)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

Motivação

Mineração de Dados: Por que ?

• Técnicas de Mineração podem ajudar analistas:

– Entender e prever as necessidades dos clientes – Descobrir fraudes

– Descobrir perfis de comportamento de clientes

• Técnicas de Mineração podem ajudar cientistas:

– Classificar e segmentar dados

– Formular hipóteses

(23)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 6 Cláudio Baptista

Motivação

Exemplos

• Qual o perfil do cliente que consome mais ?

• Que produtos são comprados conjuntamente ? E em sequência ?

• Meu site web tem uma boa estrutura ?

• Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ?

• Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no

ecossistema tais como secas, furacões, enchentes ?

(24)

Unidade 2 Cláudio Baptista Banco de Dados I

Exemplo 1

(25)

Unidade 2 Cláudio Baptista Banco de Dados I

Exemplo 2

(26)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 2 Cláudio Baptista Banco de Dados I

Motivação

Dados, Informação, Conhecimento

(27)

Unidade 2 Cláudio Baptista Banco de Dados I

Unidade 6 Cláudio Baptista

Motivação

(28)

Unidade 2 Cláudio Baptista Banco de Dados I

A descoberta do conhecimento

(29)

Unidade 2 Cláudio Baptista Banco de Dados I

A descoberta do conhecimento

(30)

Unidade 2 Cláudio Baptista Banco de Dados I

A descoberta do conhecimento

(31)

Unidade 2 Cláudio Baptista Banco de Dados I

Estatística x Data Mining

(32)

Unidade 2 Cláudio Baptista Banco de Dados I

Arquitetura de Sistemas de Mineração

(33)

Unidade 2 Cláudio Baptista Banco de Dados I

Tarefas de Mineração

Tarefa ato de descobrir um certo tipo de padrão

 Regras de Associação

 Análise de Sequências

 Classificação

 Agrupamento

 Outliers

(34)

Unidade 2 Cláudio Baptista Banco de Dados I

Modelos e Padrões

• Outra definição de Mineração de Dados

Tecnologia que visa extrair automaticamente conhecimento útil, confiável e não trivial  ‘minério’  de um banco de dados 

‘mina’

• O conhecimento deve ser apresentado segundo um modelo formal

– Modelo de regras de classificação: se <condição> então <classe>

– Instância do modelo: se taxa_de_produção_de_lágrima =

‘reduzida’ então tipo_de_lente = ‘nenhum’

• Não faremos mais distinção entre modelo e instância

• Um modelo é confiável na medida em que ele possa ser considerado um padrão

– Padrão  freqüência significativa no banco de dados

(35)

Unidade 2 Cláudio Baptista Banco de Dados I

• Modelos são induzidos (ou inferidos) por algoritmos de mineração

– Existem muitos algoritmos de mineração

• Não existe o melhor algoritmo

– Que fazer?

– Diversos algoritmos poderiam implementar o nosso robô

– Experimentemos alguns deles

• Biblioteca WEKA

(36)

Unidade 2 Cláudio Baptista Banco de Dados I

• Tipos de modelo

Preditivo

• Faz predição acerca de valores de dados usando resultados conhecidos de outros dados

– O exemplo de motivação é de predição

• Em geral, a modelagem é baseada em dados

históricos, para fazer predição (ou previsão) sobre novos dados

Descritivo

• Identifica padrões ou relacionamentos em dados, históricos ou não

– Importante para se conhecer os dados

(37)

Unidade 2 Cláudio Baptista Banco de Dados I

05/01/22 Mestrado em Ciencia da Computacao

2008 37

Tarefas de Mineração de Dados

Tarefas Preditivas

– predizer o valor de um determinado atributo baseado nos valores de outros atributos

Classificação – Predição

Tarefas Descritivas

– Derivar « padrões » : correlações, tendências,

anomalias, agrupamentos dentro de uma grande massa de dados.

Regras de Associação – Padrões Sequenciais –

Agrupamentos - Anomalias

(38)

Unidade 2 Cláudio Baptista Banco de Dados I

Modelo

Preditivo Descritivo

Classificação

Regressão

Série Temporal

Clustering Síntese

Regras de Associação Descoberta de

Seqüências

(39)

Unidade 2 Cláudio Baptista Banco de Dados I

Exemplo de Motivação 3

Um robot que prescreve lentes de contato

– Oftalmologista: quais as condições gerais – padrões – pelas quais eu sempre tenho receitado lentes de contato duras? ou

gelatinosas? ou não tenho recomendo o uso de lentes?

(40)

Unidade 2 Cláudio Baptista Banco de Dados I

ca teg ór ico

ca teg ór ico

ca teg ór ico

cla sse

Conj.

Teste

Conj.

Treinamento Clasificador Modelo

Induzido

Caracterização do Problema:

Classificatório

(41)

Unidade 2 Cláudio Baptista Banco de Dados I idade acuidade visual astigmatismo taxa de produção

de lágrima

tipo de lente

jovem míope não reduzida nenhum

jovem míope não normal gelatinosa

jovem míope sim reduzida nenhum

jovem míope sim normal dura

jovem hipermétrope não reduzida nenhum

jovem hipermétrope não normal gelatinosa

(42)

Unidade 2 Cláudio Baptista Banco de Dados I

jovem hipermétrope sim reduzida nenhum

jovem hipermétrope sim normal dura

maduro míope não reduzida nenhum

maduro míope não normal gelatinosa

maduro míope sim reduzida nenhum

maduro míope sim normal dura

maduro hipermétrope não reduzida nenhum

(43)

Unidade 2 Cláudio Baptista Banco de Dados I

maduro hipermétrope não normal gelatinosa

maduro hipermétrope sim reduzida nenhum

maduro hipermétrope sim normal nenhum

idoso míope não reduzida nenhum

idoso míope não normal nenhum

idoso míope sim reduzida nenhum

idoso míope sim normal dura

(44)

Unidade 2 Cláudio Baptista Banco de Dados I

idoso hipermétrope não reduzida nenhum

idoso hipermétrope não normal gelatinosa

idoso hipermétrope sim reduzida nenhum

idoso hipermétrope sim normal nenhum

(45)

Unidade 2 Cláudio Baptista Banco de Dados I

se taxa_de_produção_de_lágrima = ‘reduzida’ então tipo_de_lente = ‘nenhum’

– Padrão expressado em forma de regra se <condição> então

<classe>

– Regra se ... então é um modelo de conhecimento

• Existem muitos modelos de conhecimento

• A regra se verifica em todos os casos em que a taxa de produção de lágrima é reduzida?

– Via de regra, não há certeza, apenas probabilidade

• Quantas e quais são as outras regras para não receitar

lente de contato (somente da amostra, podemos extrair

mais três regras – verifique)

(46)

Unidade 2 Cláudio Baptista Banco de Dados I

• Quão confiável é uma regra?

se idade = ‘maduro’ e acuidade_visual =

‘hipermétrope’ e astigmatismo = ‘sim’ e taxa_de_produção_de_lágrima = ‘normal’

então tipo_de_lente = ‘nenhum’

– Ela se verifica em somente um caso da amostra

• Provavelmente, não tem validade estatística

• Qual a freqüência mínima estatisticamente

aceitável?

(47)

Unidade 2 Cláudio Baptista Banco de Dados I

• Regras expressas em forma de árvore de decisão (próximo slide)

– Algoritmo WEKA, J48

(48)

Unidade 2 Cláudio Baptista Banco de Dados I

(49)

Unidade 2 Cláudio Baptista Banco de Dados I

Modelos e Padrões

• Outra definição de Mineração de Dados

Tecnologia que visa extrair automaticamente conhecimento útil, confiável e não trivial  ‘minério’  de um banco de dados 

‘mina’

• O conhecimento deve ser apresentado segundo um modelo formal

– Modelo de regras de classificação: se <condição> então <classe>

– Instância do modelo: se taxa_de_produção_de_lágrima =

‘reduzida’ então tipo_de_lente = ‘nenhum’

• Não faremos mais distinção entre modelo e instância

• Um modelo é confiável na medida em que ele possa ser considerado um padrão

– Padrão  freqüência significativa no banco de dados

(50)

Unidade 2 Cláudio Baptista Banco de Dados I

Exemplo de Motivação 4

(51)

Unidade 2 Cláudio Baptista Banco de Dados I

Questões:

• Existe algum padrão nas diferenças de tempo?

Existe algo fora de um padrão?

• Podemos caracterizar as situações de trânsito em função do tempo e das rotas?

• Podemos escolher a melhor das rotas em função do tempo?

• Podemos prever o horário da chegada a partir

dos outros dados?

(52)

Unidade 2 Cláudio Baptista Banco de Dados I

Técnicas – Visão Geral

Classificação: aprendizado de uma função que pode ser usada para mapear dados em uma

de várias classes discretas definidas previamente.

• Se sair na hora X e o tempo estiver Y vai chegar

atrasado.

(53)

Unidade 2 Cláudio Baptista Banco de Dados I

Técnicas – Visão Geral

Regressão ou Predição: aprendizado de uma função que pode ser usada para mapear os valores associados aos dados em um ou mais valores reais.

• Se sair na hora X e o tempo estiver Y vai chegar N

minutos depois.

(54)

Unidade 2 Cláudio Baptista Banco de Dados I

Técnicas – Visão Geral

Agrupamento (ou clustering): identificação de grupos de dados onde os dados tem

características semelhantes aos do mesmo

grupo e onde os grupos tenham características diferentes entre si.

– As rotas B e C têm características semelhantes.

(55)

Unidade 2 Cláudio Baptista Banco de Dados I

Técnicas – Visão Geral

Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras que descreve o comportamento e relação entre os valores dos dados).

– A rota A tem sinais com duração menor.

(56)

Unidade 2 Cláudio Baptista Banco de Dados I

Técnicas – Visão Geral

Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão

esperado mas não o fazem.

– As rotas B e C tem características semelhantes

exceto entre os horários X e Y.

(57)

Unidade 2 Cláudio Baptista Banco de Dados I

Técnicas – Visão Geral

Identificação de associações: identificação de grupos de dados que apresentam co-

ocorrência entre si (ex. cesta de compras).

– A rota C com chuva causa atraso de mais de N

minutos.

(58)

Unidade 2 Cláudio Baptista Banco de Dados I

Técnicas – Visão Geral

• Para facilitar a representação:

– Dados em uma única tabela.

– Cada linha na tabela é uma instância ou amostra (registros).

– Cada coluna na tabela é um atributo (campos).

– Cada instância da base de dados tem os mesmos

campos e que cada campo tem o mesmo tipo de valor.

– Eventualmente um atributo para uma instância pode

ser desconhecido ou estar faltando.

(59)

Unidade 2 Cláudio Baptista Banco de Dados I 59

Dados

Um atributo é uma propriedade ou característica de um objeto

Ex: estado civil, imposto pago, temperatura, etc.

 Atributo é também conhecido

como variável, campo, característica.

 Uma coleção de atributos descrevem um objeto

 Objeto é também conhecido como um registro, tupla, amostra, instância, entidade ou observação

Tid Refund Marital Status

Taxable

Income Cheat

1 Yes Single 125K No 2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No 10 No Single 90K Yes

10

Atributos

Objetos

(60)

Unidade 2 Cláudio Baptista Banco de Dados I 60

Tipos de Atributos:

Qualitativo (ou Categórico) atributos

representam categorias distintas categories ao invés de números. Operações matemáticas

(adição, subtração) não fazem sentido Ex: cor do olho, endereço IP, CEP

Quantitativo (ou Numérico) atributos são números e podem ser tratados como tais.

Ex: peso, salário, número de TVs, temperatura

(61)

Unidade 2 Cláudio Baptista Banco de Dados I 61

Tipos de Atributos

Os atributos Qualitativos são:

Nominal = categorias sem ordem

Ordinal = categorias com noção de ordem

Os atributos Quantitativos sã:o

Intervalo = sem possibilidade de divisão

Razão = com possibilidade de divisão

(62)

Unidade 2 Cláudio Baptista Banco de Dados I 62

Tipos de Atributos:

Alguns exemplos:

Nominal

Ex: CPF, cor do olho, CEPOrdinal

Ex: ranking (ex., sabor de batata frita numa escala de 1-10), notas, altura {alto, médio,

baixo}

Intervalo

Ex: datas em calendário, temperaturas em Celsius ou Fahrenheit

Razão

Ex: temperatura em Kelvin, tamanho, hora

(63)

Unidade 2 Cláudio Baptista Banco de Dados I

Atributos Discretos x Contínuos

Atributos Discretos

– Tem apenas somente um conjunto finito ou contável infinito de valores

– Ex: CEP, o conjunto de palavras de uma coleção de documentos

– Frequentemente representados como variávies inteiras

Atributos Contínuos

– Tem números reais como valores de atributos – Ex: temperatura, umidade, pressão

– Frequentemente representados como variávies de

ponto flutuante

(64)

Unidade 2 Cláudio Baptista Banco de Dados I

Atributos Discretos x Contínuos

Atributos Qualitativos (categóricos) são sempre discretos

Atributos Quantitativos (numéricos)

podem ser discretos ou contínuos

(65)

Unidade 2 Cláudio Baptista Banco de Dados I

Pré-processamento

• Atributos com representação inadequada para tarefa e algoritmo.

• Atributos cujos valores não tenham informações adequadas.

• Excesso de atributos (podem ser redundantes ou desnecessários).

• Atributos insuficientes.

• Excesso de instâncias (afetam tempo de processamento).

• Instâncias insuficientes.

• Instâncias incompletas (sem valores para alguns atributos).

Referências

Documentos relacionados

A não uniformização quanto ao método de referência pode promover diferenças entre as curvas de calibração geradas por laboratórios de dosimetria citogenética, que podem

O Portal da Transparência do Governo Federal (2013) explicita o controle social previsto nas prefeituras e convida o cidadão a exercer o seu papel de fiscal, reafirmando

Cite this article as: Silva Júnior et al.: COPD Assessment Test (CAT) score as a predictor of major depression among subjects with chronic obstructive pulmonary disease and

Os resultados relativos ao estudo dos preditores de VAD sugerem um fraco poder preditor dos parâmetros avaliados na consulta pré-anestésica, sendo que, apenas na classificação

As coletas foram realizadas mensalmente, exceto no momento de uma rápida troca na população de mosquitos, uma vez que as cap- turas eram realizadas cada 2 ou 3

O fígado de ratinho foi o modelo de estudo escolhido por várias razões: (1) pelo menos três transportadores ABC peroxissomais (ALDP, ALDPR, PMP70) coexistem neste órgão;

Crotalus durissus collilineatus Venom

Also statistics about the types and quantities of goods transported around European Union and about the transport modes used for it are presented, especially focusing on