Extração de
Conhecimento
de Bases de
Dados
(KDD)
Huei Diana Lee
Motivação
Tecnologia limitada
Armazenamento de
pequenos volumes
de dados (Mbytes)
Consultas aos Dados
Não existiam
ferramentas para
auxiliar a análise das
informações obtidas
Grandes av anços
tecnológicos na área de TI
Armazenamento de
grandes v olumes de dados
(Tbytes, Pbyte...)
Necessidade de conhecer
e entender a BD
O conhecimento extraído
de uma BD dev e ser usado
para auxiliar as tomadas
de decisões
Presente/Futuro
Passado
Surge uma
necessidade
!
Gigantes, Monstros & “Leis”
Biblioteca do Congresso (EUA) (2014)
~525 Terabytes de arquivos de dados web
~7 Petabytes – 15 milhões de objetos
digitalizados
Etimologia
Gigabyte (10
9) termo do Latim Gigas para
Gigante
Terabye (10
12) termo do Grego Teras para
Monstro
Próximos prefixos: Peta (10
15= 1000
5), Exa (10
18)
e então
Zeta (10
21)
Yota (10
24)
3
Gigantes, Monstros & “Leis”
Lei de Moore (1965): Capacidade de
processamento dobra a cada 18 meses
(CPU, memória, cache)
Capacidade de armazenamento dobra
a cada 10 meses
4
Gigantes, Monstros & “Leis”
O que estas duas “leis” combinadas
produzem?
Um gap crescente entre nossa habilidade
de gerar dados e nossa habilidade de
utilizá-los
5
Gigantes, Monstros & “Leis”
Exemplos de fontes de dados:
Redes sociais
Máquinas de busca e recuperação de dados
Compartilhamento de medias
Bolsa de valores
Sensores meteorológicos
Monitoramento de pacientes
Sistemas de aquisição de dados e controle:
Automóveis
Aviões
Torres de celulares
Plantas energéticas
Seguradoras
6https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ 9 https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ 10 https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ 11 https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/ 12 https://www.domo.com/blog /2016/06/data-never-sleeps-4-0/
https://www.domo.com/blog/2016/06/data-never-sleeps-4-0/
A cada minuto todos os dias
isso acontece na internet:
Tweeter: 347mil tweets
Youtube: 300 horas de nov os v ídeos
Facebook:
3 milhões de shares 4 milhões de likes
Google: 4 milhões de buscas
Por dia:
500 milhões de tw eets
40 milhões de tw eets compartilhados M ais de 4 milhões de horas de conteúdo “upados” M ais de1 bilhão de minutos de vídeos Vine assitidos 4,3 bilhões de mensagens do Facebook 5,75 bilhões de likes no Facebook 6 bilhões de buscar do Google
15
https://www.gwava.com/blog/internet-data-created-daily
Gigantes, Monstros & “Leis”
Big Data
Março 2012: Gov erno EUA anunciou “Big
Data Research and Dev elopment I nitiative”
com o inv estimento de U$ 200 milhões
Gartner:
Investimento de $ 34 – 232 bilhões até 2016 em
Big Data
Até 2015, 4,4 milhões de empregos em IT serão
criados para dar suporte a Big Data (EUA 1,9
milhões)
16
http:/ /www .gart ner. com/ news room/ id/2 2008 15 http:/ /www .gart ner. com/ news room/ id/2 2079 15
Gigantes, Monstros & “Leis”
O que é Big Data?
Volume
Variedade
Velocidade
Veracidade
Áreas de interação:
SGBD – Sistemas Gerenciadores de BD
Data warehouse
OLAP – Online Analitycal Processing
Vizualização
Data Mining e KDD – Knwledge Discovery in
Databases
17Motivação
18Pirâmide do Conhecimento
Passado
Consultas
à BD
Presente/Futuro
Obtenção do
Conhecimento
Utilização do
Conhecimento
Introdução
O objetiv o da extração de
conhecimento é descobrir
situações anômalas e/ou
interessantes, tendências, padrões
e seqüências nos dados.
Extração de Conhecimento
de Base de Dados (KDD)
KDD - Knowledge Discovery in Databases
Pesquisadores norte-americanos
Criação de Métodos e Ferramentas
Auxiliar a Obtenção do Conhecimento
KDD ≠ Data Mining
Processo de KDD
Introdução
21Exemplos:
Introdução
Qual produto de alta lucratividade venderia mais
com a promoção de um item de baixa
lucratividade, analisando os dados dos últimos
dez anos?
Quais são os clientes potenciais para praticar
fraudes?
Quais clientes gostariam de comprar o novo
produto X?
Que genes são determinantes para o diagnóstico
de um determinado tipo de doença?
22
Exemplos de aplicações
MasterCard:
identificar perfis de clientes
monitorar reações a campanhas
publicitárias
identificar nov as tendências e possív eis
nov os produtos
23
Exemplos de aplicações
National Geographic
integração de múltiplas fontes de dados
multimídia
ferramenta para otimizar as campanhas
online e marketing
possibilidade de fazer os times se
comunicarem por meio dos dados
Exemplos de aplicações
DHL
monitoramento de temperatura
v isibilização dos dados
correlação entre os dados
Exemplos de aplicações
Dell:
Problema: 50% dos clientes da Dell
encomendam computadores pelo site na web.
Porém, a taxa de retenção é de 0,5% (visitantes
da página que se tornam clientes)
Abordagem para Solução: Pela sequência de
clicks, agrupar clientes e desenvolver o website
de modo a maximizar o número de clientes que
eventualmente comprarão
Benefício: Aumento de vendas
Exemplos de aplicações
Sistemas de recomendação:
Oportunidade de negócio: Usuários
av aliam items na w eb. Como usar essa
informação de outros usuários para inferir
av aliações para um usuário em particular?
Solução: Usar filtragem colaborativ a
Benefício: Aumento na rentabilidade por
meio de “cross selling”
27
Exemplos de aplicações
Análise de risco / Detecção de fraude:
Problema: Reduzir o risco de empréstimos
para “maus” pagadores
Solução: Criar modelos de baseados em
dados prév ios de bons e maus pagadores
Benefício: Decréscimo no custo com maus
débitos
28Etapas do Processo KDD
29 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO BASE DE DADOS/
Pré-Processamento
Etapas do Processo KDD
30 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
BASE DE DADOS/
Etapas do Processo KDD
CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO BASE DE DADOS/
Mineração de Dados
Etapas do Processo KDD
CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO BASE DE DADOS/
Pós-Processamento
Etapas do Processo KDD
33 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
BASE DE DADOS/
Considera-se nessa etapa:
•Condições e metas do usuário final
•Estudo de viabilidades e custos da aplicação do
processo
•Verificação do tipo e quantidade do conhecimento
disponível antes de iniciar o processo de KDD
•Identificação dos gargalos do domínio
•Especificação do modo como o conhecimento
extraído vai ser utilizado
Etapas do Processo KDD
34 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO BASE DE DADOS/
Etapas do Processo KDD
35 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
BASE DE DADOS/
Alguns problemas da extração de conhecimento a partir de grandes
dados:
•Limitação dos métodos de Data Mining quanto ao volume de dados
•Espaço de busca combinatoriamente explosivo
•Possibilidade de extração de padrões pouco significativos
Esta etapa pode ser dividida em: seleção da amostra, e preparação
e redução da amostra
Etapas do Processo KDD
36 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
BASE DE DADOS/
A seleção de uma amostra significativa considera os seguinte fatores:
•O tamanho da amostra
•Estratégias para obtenção da amostra
•Homogeneidade dos dados
•Dinâmica dos dados
Amostra que
represente com maior
Etapas do Processo KDD
CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
BASE DE DADOS/
A preparação e redução da amostra envolve a observação dos
seguintes aspectos:
•Eliminação dos registros duplicados, lixo nos dados.
•Tratamento de ruídos nos dados
•Manipulação de valores de atributos ausentes
•Encontrar métodos para reduzir efetivamente o número de
variáveis a serem consideradas no processo
Etapas do Processo KDD
CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO BASE DE DADOS/
Etapas do Processo KDD
39 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
BASE DE DADOS/
Data Mining (DM) ou Mineração de Dados (MD) envolve a utilização
de algoritmos para extração de padrões válidos, compreensíveis e
potencialmente úteis nos dados.
Esses algoritmos consistem da combinação de três componentes:
•Modelo
•Função do modelo
•Representação do modelo
•Critério de preferência (Bias)
•Algoritmo de busca
Etapas do Processo KDD
40 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO BASE DE DADOS/
Etapas do Processo KDD
41 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
BASE DE DADOS/
É necessário que os usuários do processo de KDD possam entender e
julgar a utilidade do conhecimento extraído.
A avaliação do conhecimento é uma tarefa complexa que envolve:
•A utilização de métodos para “filtrar” o conhecimento extraído
•A observação de critérios de desempenho
•A consideração de técnicas de visualização
Etapas do Processo KDD
42 CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
Etapas do Processo KDD
CONSOLIDAÇÃO E UTILIZAÇÃO DO CONHECIMENTO DADO PREPARADO DOMÍNIO DA APLICAÇÃO BASE DE DADOS DOMÍNIO DA APLICAÇÃO SELEÇÃO E PREPARAÇÃO DOS DADOS VISUALIZAÇÃO BASE DE DADOS DATA MINING AVALIAÇÃO PADRÕES/ MODELOS SELEÇÃO E PREPARAÇÃODOS DADOS DADO PREPARADO
BASE DE DADOS/
Pressupõe a verificação e a solução de potenciais
conflitos com o conhecimento previamente extraído
antes do processo iniciar.
O conhecimento extraído pode ser:
•Organizado pelo analista dentro de um novo
modelo
•Utilizado para refinar um modelo existente ou
•Simplesmente documentado e informado ao
usuário final
Base de
Dados
AM
Estatística
Mineração
De Dados
Visualização
Áreas que Apoiam o DM
Aprendizado de Máquina
O principal objetiv o de um sistema de
aprendizado é extrair conceitos expressos
em alguma linguagem, por exemplo,
regras de decisão capazes de serem
aplicadas a nov os casos.
Base de Dados
SGBD e Data Warehouse
OLAP
45
Áreas que Apoiam o DM
Estatística
Modelos Estatísticos
Seleção, Amostragem e Inferências
Overfitting
Tratamento de ruídos
Missing values
Visualização
Ferramentas de Visualização
46Tarefas em Mineração de
Dados
(focadas em Aprendizadode Máquina)
Predição:
Classificação
Regressão
Clustering
Associação
Classificação: Qual caixa?
Regressão
Regressão
Regressão
Regressão
C luste ring
. .
.
.
....
.
.
.
.
.
.
.
.
.
.
.
Asso ciação
Α Α Α Α Α Α Α Α Β Β Β Β Χ Χ Χ Χ ∆ ∆ ∆ ∆ Β Β Β Β ΧΧΧΧ ∆∆∆∆Predição
Estimativa ou prognóstico de um
possível valor de um dado ausente
Provável distribuição futura do valor
baseado no conjunto histórico dos
dados analisados
Exemplo: potencial salário de um
empregado pode ser previsto
baseado na distribuição de salários de
empregados com as mesmas
características
Classificação
Etiqueta, rótulo ou categoria de um dado
em um conjunto de classes conhecidas
Modelo de classificação é construído
baseado nas características dos dados
no conjunto treinado
Exemplo: regras de classificação a
respeito de doenças podem ser extraídas
de um conjunto de casos conhecidos e
usado para fazer um diagnóstico em
novos pacientes baseado em seus
sintomas
Classificação
Clustering
Categorização, segmentação ou
agrupamento:
objetivo é agrupar objetos
identificando grupos (clusters) baseadas em
certos atributos
Critério de agrupamento:
maximizar as
similaridades e minimizar as diferenças mediante
algum critério
Exemplo:
um conjunto de novas doenças
podem ser agrupadas em várias categorias
baseadas nas similaridades de seus sintomas, e os
sintomas comuns das doenças podem ser usados
para descrever um grupo de doenças
51
Clustering
Estratégias de Clustering:
Particionais:
construir várias partições e
avaliá-las segundo algum critério
Hierárquicos:
criar uma decomposição
hierárquica do conjunto de objetos usando
algum critério
52
Associação
Regras de associação:
tentam descobrir
associações ou conexões entre objetos
a
1
∧
a
2
∧
... ∧ a
n
→
b
1
∧
b
2
∧
... ∧ b
n
significa que os objetos b
1∧
b
2∧
... ∧ b
ntendem
a aparecer com os objetos a
1∧
a
2∧
... ∧ a
ndentro de um conjunto de dados
Exemplo:
pode-se descobrir que um conjunto
de sintomas acontece com freqüência junto a um
outro conjunto de sintomas, e então, estudar os
motivos dessa associação
53
Evolução
Ferramentas
Várias ferramentas comerciais:
Relativ amente caras
Maioria não apresenta suporte para todas
as etapas de KDD
Aprov eitando a “onda data mining”
Centros de pesquisas e empresas
desenvolvem ferramentas de domínio
público
Ferramentas
Ferramentas Comerciais:
MineSet™ - Silicon Graphics
Enterprise Miner™ - SAS Institute
Intelligent Miner™ - IBM
Orange
Pentaho
Ferramentas de Domínio Público:
Pentaho
Orange
W EKA - Univ . de W aikato na Nov a Zelândia
Bayesian Knowledge Discovery
Algoritmos diversos, tais como C4.5, CN2 entre outros
MineSet
Ferramenta da Silicon Graphics para
auxiliar processo de Mineração de Dados
Possibilita visualização de dados
multidimensionais
Oferece utilização de algoritmos de
mineração de dados e visualização
gráfica dos modelos extraídos
57
Visualização de uma Árvore de
Decisão
58
WEKA
59 60