Unidade 6
Introdução à Mineração de Dados
UFCG/CEEI/DSC Int. Banco de Dados e Mineração de Dados Prof. Cláudio Baptista, PhD
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
• Problema dos dias atuais: O Tsunami de Dados
• Porém precisamos transformar estes dados em informação/conhecimento!!!!!
Motivação
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
O Problema da Explosão dos Dados
• Informatização generalizada
– negócios, governos, pesquisas
• Armazenamento
– maior capacidade, menor custo
• Evolução da coleta de dados
– Leitores de código de barras, Sensores, ...
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
• Armazenamento do RAMAC (Random Access Method of
Accounting and Control), IBM, 1956.
• 50 discos de 24 pol. De diâmetro.
• Quase 5 megabytes
• Custo: Us$ 160.000
Motivação
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
• Crescimento explosivo na capacidade de gerar, coletar e armazenar dados:
– Científicos: imagens, sinais.
– Sociais: censos, pesquisas.
– Econômicos e comerciais: transações bancárias e comerciais, compras,
– ligações telefônicas, acessos à web, transações com código de barras e RFID.
– Segurança: acessos à sistemas em rede (logs), e-mails corporativos, registro de atividades.
Motivação
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
• Justificativas para este aumento:
– Barateamento de componentes e ambientes computacionais:
• Redução do custo de armazenamento:
Us$ 370/M (em 1981)→ Us$ 0.0032/M (em 2008
– Exigências científicas/sociais.
– Mudança de paradigmas!
Motivação
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
• YouTube: 45 terabytes de vídeos em 2006.
• Flickr: 2.2 bilhões de imagens.
• GenBank: coleções de sequências, mais de 100.000 organismos, 360 gigabytes.
• Yahoo!: 100 terabytes.
• AT&T: 93 terabytes.
• Amazon: 24 terabytes.
Motivação
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
• Mídia impressa, filmes, mídia magnética e ótica
produziram aproximadamente 5 exabytes de novos dados em 2002.
• 1 exabyte = 1.024 petabytes = 1.048.576 terabytes.
– Consumidor americano típico gera 100G de dados em sua vida:
• 26 exabytes para a população presente. ∼
– Quantos registros de ligações telefônicas?
• Quantas transações de cartões por dia?
• Quantos acessos a diversos servidores de informação?
• O que você tem no seu disco rígido?
Motivação
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
• 1 terabyte = 200 dólares
• Transmitir 1 petabyte em uma rede de
100Mb/s: 86 milhões de segundos = 2 anos e 9 meses.
• 1 petabyte = pilha de 2.2 km de altura em
DVDs. 100 computadores criando DVDs, cada DVD em meia hora: 46 dias para copiar um petabyte.
Motivação
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
Evolução das Tecnologias de BD
– 1960s:
• Sistemas de arquivos armazenavam dados de acordo com os formatos definidos pelos usuários.
– 1970s:
• Moldelo de dados relacional, Implementação de SGBD relacional.
– 1980s:
• SGBD, modelos de dados avançados (relacional-estendido, OO, dedutivo, etc.) e aplicações vbaseadas em DBMS (espacial,
científico, etc.)
– 1990s – 2000s:
• Armazéns de dados, mineração de dados, banco de dados
multimídia, banco de dados Web.
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
• Mas o que é feito destes dados?
• Localizar, filtrar é relativamente simples...
• Indexar pode ser mais complicado.
• Como identificar..
• Padrões (“X” acontece se...)
• Exceções (isto é diferente de... por causa de...)
• Tendências (ao longo do tempo, “Y” deve acontecer...)
• Correlações (se “M” acontece, “N” também deve acontecer.)
• O que existe de interessante nestes dados? Como definir“interessante”?
• Informação, e não dados, valem dinheiro / tempo / conhecimento!
Motivação
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
Dado, Informação, Conhecimento
– Dado é algo bruto; é a matéria-prima da qual podemos extrair informação.
– Informação é o dado processado, com significado e contexto bem definido.
– Conhecimento é o uso inteligente da informação;
é a informação contextualizada e utilizada na
prática.
Unidade 2 Cláudio Baptista Banco de Dados I
O que é Data Mining?
Unidade 2 Cláudio Baptista Banco de Dados I
O que é Data Mining
Unidade 2 Cláudio Baptista Banco de Dados I
O que é?
– Certos nomes são mais freqüentes em certas regiões do Brasil (Cacciola, Armani, Gutierrez… na Grande São Paulo)
– Agrupar documentos por similaridade de contexto (p.e. Amazônia)
O que não é?
– Achar um número de telefone em um
catálogo
– Procurar numa máquina de busca informação sobre “Amazônia”
O Que É / Não É Mineração de Dados?
Unidade 2 Cláudio Baptista Banco de Dados I
• Idéias mestras de “machine learning” / AI,
“pattern recognition”, estatística e banco de dados
Estatística / Pattern Recognition Machine
Learning / AI
Data Mining
Banco de Dados
Origens da Expressão
Mineração de Dados
Unidade 2 Cláudio Baptista Banco de Dados I
Mineração de Dados
• Mineração de Dados é uma tecnologia capaz de descobrir padrões de informação ‘escondidos’ em um BD
– Padrão Freqüência, Repetição BD desnormalizado
• Outras denominações
– Análise de Dados Exploratória – Descoberta Dirigida a Dados – Aprendizagem Indutiva
• Implementa o conceito de consulta aberta ou semi-aberta
– Consultas tradicionais são fechadas, ou completamente definidas
Unidade 2 Cláudio Baptista Banco de Dados I
– Consulta: Pode não ser bem formada, ou
formulada imprecisamente. O minerador pode nem mesmo saber exatamente o que ele quer ver
– Dados: Como se trata de descobrir padrões (repetições), dados normalizados (sem
repetições) não facilitam a tarefa de mineração.
A solução é gerar arquivos intermediários não normalizados do BD operacional normalizado – Saída: Não é um subconjunto do BD. Em vez
disso, é o resultado de alguma análise sobre o conteúdo do BD
Consultas Abertas ou Semi-abertas
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
Motivação
Mineração de Dados: Por que ?
• Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc
– Dados de comércio eletrônico, – Dados de navegação na internet
– Dados de compras de clientes em grandes lojas de departamentos, supermercados,
– Dados de transações bancárias, ou de cartão de crédito
• Computadores mais baratos e mais potentes
• Pressão da Competição
Ponto de Vista Comercial
Ponto de Vista Comercial
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
Motivação
Mineração de Dados - Por que ?
• Frequentemente existe informa ç ão “ escondida ” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais.
• Analistas humanos podem levar semanas para
correlacionar e descobrir alguma informa ç ão útil dentro de uma grande massa de dados.
• Boa parte dos dados nunca é analisado: “ cemit é rio ” de
dados.
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
Motivação
Mineração de Dados: Por que ?
• Técnicas de Mineração podem ajudar analistas:
– Entender e prever as necessidades dos clientes – Descobrir fraudes
– Descobrir perfis de comportamento de clientes
• Técnicas de Mineração podem ajudar cientistas:
– Classificar e segmentar dados
– Formular hipóteses
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 6 Cláudio Baptista
Motivação
Exemplos
• Qual o perfil do cliente que consome mais ?
• Que produtos são comprados conjuntamente ? E em sequência ?
• Meu site web tem uma boa estrutura ?
• Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ?
• Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no
ecossistema tais como secas, furacões, enchentes ?
Unidade 2 Cláudio Baptista Banco de Dados I
Exemplo 1
Unidade 2 Cláudio Baptista Banco de Dados I
Exemplo 2
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
Motivação
Dados, Informação, Conhecimento
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 6 Cláudio Baptista
Motivação
Unidade 2 Cláudio Baptista Banco de Dados I
A descoberta do conhecimento
Unidade 2 Cláudio Baptista Banco de Dados I
A descoberta do conhecimento
Unidade 2 Cláudio Baptista Banco de Dados I
A descoberta do conhecimento
Unidade 2 Cláudio Baptista Banco de Dados I
Estatística x Data Mining
Unidade 2 Cláudio Baptista Banco de Dados I
Arquitetura de Sistemas de Mineração
Unidade 2 Cláudio Baptista Banco de Dados I
Tarefas de Mineração
Tarefa ato de descobrir um certo tipo de padrão
Regras de Associação
Análise de Sequências
Classificação
Agrupamento
Outliers
Unidade 2 Cláudio Baptista Banco de Dados I
Modelos e Padrões
• Outra definição de Mineração de Dados
– Tecnologia que visa extrair automaticamente conhecimento útil, confiável e não trivial ‘minério’ de um banco de dados
‘mina’
• O conhecimento deve ser apresentado segundo um modelo formal
– Modelo de regras de classificação: se <condição> então <classe>
– Instância do modelo: se taxa_de_produção_de_lágrima =
‘reduzida’ então tipo_de_lente = ‘nenhum’
• Não faremos mais distinção entre modelo e instância
• Um modelo é confiável na medida em que ele possa ser considerado um padrão
– Padrão freqüência significativa no banco de dados
Unidade 2 Cláudio Baptista Banco de Dados I
• Modelos são induzidos (ou inferidos) por algoritmos de mineração
– Existem muitos algoritmos de mineração
• Não existe o melhor algoritmo
– Que fazer?
– Diversos algoritmos poderiam implementar o nosso robô
– Experimentemos alguns deles
• Biblioteca WEKA
Unidade 2 Cláudio Baptista Banco de Dados I
• Tipos de modelo
– Preditivo
• Faz predição acerca de valores de dados usando resultados conhecidos de outros dados
– O exemplo de motivação é de predição
• Em geral, a modelagem é baseada em dados
históricos, para fazer predição (ou previsão) sobre novos dados
– Descritivo
• Identifica padrões ou relacionamentos em dados, históricos ou não
– Importante para se conhecer os dados
Unidade 2 Cláudio Baptista Banco de Dados I
05/01/22 Mestrado em Ciencia da Computacao
2008 37
Tarefas de Mineração de Dados
• Tarefas Preditivas
– predizer o valor de um determinado atributo baseado nos valores de outros atributos
Classificação – Predição
• Tarefas Descritivas
– Derivar « padrões » : correlações, tendências,
anomalias, agrupamentos dentro de uma grande massa de dados.
Regras de Associação – Padrões Sequenciais –
Agrupamentos - Anomalias
Unidade 2 Cláudio Baptista Banco de Dados I
Modelo
Preditivo Descritivo
Classificação
Regressão
Série Temporal
Clustering Síntese
Regras de Associação Descoberta de
Seqüências
Unidade 2 Cláudio Baptista Banco de Dados I
Exemplo de Motivação 3
• Um robot que prescreve lentes de contato
– Oftalmologista: quais as condições gerais – padrões – pelas quais eu sempre tenho receitado lentes de contato duras? ou
gelatinosas? ou não tenho recomendo o uso de lentes?
Unidade 2 Cláudio Baptista Banco de Dados I
ca teg ór ico
ca teg ór ico
ca teg ór ico
cla sse
Conj.
Teste
Conj.
Treinamento Clasificador Modelo
Induzido
Caracterização do Problema:
Classificatório
Unidade 2 Cláudio Baptista Banco de Dados I idade acuidade visual astigmatismo taxa de produção
de lágrima
tipo de lente
jovem míope não reduzida nenhum
jovem míope não normal gelatinosa
jovem míope sim reduzida nenhum
jovem míope sim normal dura
jovem hipermétrope não reduzida nenhum
jovem hipermétrope não normal gelatinosa
Unidade 2 Cláudio Baptista Banco de Dados I
jovem hipermétrope sim reduzida nenhum
jovem hipermétrope sim normal dura
maduro míope não reduzida nenhum
maduro míope não normal gelatinosa
maduro míope sim reduzida nenhum
maduro míope sim normal dura
maduro hipermétrope não reduzida nenhum
Unidade 2 Cláudio Baptista Banco de Dados I
maduro hipermétrope não normal gelatinosa
maduro hipermétrope sim reduzida nenhum
maduro hipermétrope sim normal nenhum
idoso míope não reduzida nenhum
idoso míope não normal nenhum
idoso míope sim reduzida nenhum
idoso míope sim normal dura
Unidade 2 Cláudio Baptista Banco de Dados I
idoso hipermétrope não reduzida nenhum
idoso hipermétrope não normal gelatinosa
idoso hipermétrope sim reduzida nenhum
idoso hipermétrope sim normal nenhum
Unidade 2 Cláudio Baptista Banco de Dados I
• se taxa_de_produção_de_lágrima = ‘reduzida’ então tipo_de_lente = ‘nenhum’
– Padrão expressado em forma de regra se <condição> então
<classe>
– Regra se ... então é um modelo de conhecimento
• Existem muitos modelos de conhecimento
• A regra se verifica em todos os casos em que a taxa de produção de lágrima é reduzida?
– Via de regra, não há certeza, apenas probabilidade
• Quantas e quais são as outras regras para não receitar
lente de contato (somente da amostra, podemos extrair
mais três regras – verifique)
Unidade 2 Cláudio Baptista Banco de Dados I
• Quão confiável é uma regra?
• se idade = ‘maduro’ e acuidade_visual =
‘hipermétrope’ e astigmatismo = ‘sim’ e taxa_de_produção_de_lágrima = ‘normal’
então tipo_de_lente = ‘nenhum’
– Ela se verifica em somente um caso da amostra
• Provavelmente, não tem validade estatística
• Qual a freqüência mínima estatisticamente
aceitável?
Unidade 2 Cláudio Baptista Banco de Dados I
• Regras expressas em forma de árvore de decisão (próximo slide)
– Algoritmo WEKA, J48
Unidade 2 Cláudio Baptista Banco de Dados I
Unidade 2 Cláudio Baptista Banco de Dados I
Modelos e Padrões
• Outra definição de Mineração de Dados
– Tecnologia que visa extrair automaticamente conhecimento útil, confiável e não trivial ‘minério’ de um banco de dados
‘mina’
• O conhecimento deve ser apresentado segundo um modelo formal
– Modelo de regras de classificação: se <condição> então <classe>
– Instância do modelo: se taxa_de_produção_de_lágrima =
‘reduzida’ então tipo_de_lente = ‘nenhum’
• Não faremos mais distinção entre modelo e instância
• Um modelo é confiável na medida em que ele possa ser considerado um padrão
– Padrão freqüência significativa no banco de dados
Unidade 2 Cláudio Baptista Banco de Dados I
Exemplo de Motivação 4
Unidade 2 Cláudio Baptista Banco de Dados I
Questões:
• Existe algum padrão nas diferenças de tempo?
Existe algo fora de um padrão?
• Podemos caracterizar as situações de trânsito em função do tempo e das rotas?
• Podemos escolher a melhor das rotas em função do tempo?
• Podemos prever o horário da chegada a partir
dos outros dados?
Unidade 2 Cláudio Baptista Banco de Dados I
Técnicas – Visão Geral
• Classificação: aprendizado de uma função que pode ser usada para mapear dados em uma
de várias classes discretas definidas previamente.
• Se sair na hora X e o tempo estiver Y vai chegar
atrasado.
Unidade 2 Cláudio Baptista Banco de Dados I
Técnicas – Visão Geral
• Regressão ou Predição: aprendizado de uma função que pode ser usada para mapear os valores associados aos dados em um ou mais valores reais.
• Se sair na hora X e o tempo estiver Y vai chegar N
minutos depois.
Unidade 2 Cláudio Baptista Banco de Dados I
Técnicas – Visão Geral
• Agrupamento (ou clustering): identificação de grupos de dados onde os dados tem
características semelhantes aos do mesmo
grupo e onde os grupos tenham características diferentes entre si.
– As rotas B e C têm características semelhantes.
Unidade 2 Cláudio Baptista Banco de Dados I
Técnicas – Visão Geral
• Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras que descreve o comportamento e relação entre os valores dos dados).
– A rota A tem sinais com duração menor.
Unidade 2 Cláudio Baptista Banco de Dados I
Técnicas – Visão Geral
• Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão
esperado mas não o fazem.
– As rotas B e C tem características semelhantes
exceto entre os horários X e Y.
Unidade 2 Cláudio Baptista Banco de Dados I
Técnicas – Visão Geral
• Identificação de associações: identificação de grupos de dados que apresentam co-
ocorrência entre si (ex. cesta de compras).
– A rota C com chuva causa atraso de mais de N
minutos.
Unidade 2 Cláudio Baptista Banco de Dados I
Técnicas – Visão Geral
• Para facilitar a representação:
– Dados em uma única tabela.
– Cada linha na tabela é uma instância ou amostra (registros).
– Cada coluna na tabela é um atributo (campos).
– Cada instância da base de dados tem os mesmos
campos e que cada campo tem o mesmo tipo de valor.
– Eventualmente um atributo para uma instância pode
ser desconhecido ou estar faltando.
Unidade 2 Cláudio Baptista Banco de Dados I 59
Dados
Um atributo é uma propriedade ou característica de um objeto
Ex: estado civil, imposto pago, temperatura, etc.
Atributo é também conhecido
como variável, campo, característica.
Uma coleção de atributos descrevem um objeto
Objeto é também conhecido como um registro, tupla, amostra, instância, entidade ou observação
Tid Refund Marital Status
Taxable
Income Cheat
1 Yes Single 125K No 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No 10 No Single 90K Yes
10