Mineração Visual de Dados (Visual Data Mining) Mineração Visual de Dados (Visual Data Mining)
Pós-Graduação em Ciência da Computação Pós-Graduação em Ciência da Computação CCM – 202 - Sistemas de Banco de Dados CCM – 202 - Sistemas de Banco de Dados
Considerações Iniciais
Considerações Iniciais
•
Pontos Relevantes;•
Motivação (O Porquê);Roteiro da Apresentação
Roteiro da Apresentação
•
Mineração de Dados•
Mineração Visual de Dados•
Classificação das Técnicas de VisualizaçãoRoteiro da Apresentação
Roteiro da Apresentação
• Mineração de Dados
•
Mineração Visual de Dados•
Classificação das Técnicas de VisualizaçãoIntrodução
Introdução
Mineração de Dados pode ser visto como umaevolução natural da tecnologia de Banco de Dados.
Introdução
Introdução
De acordo com Elmasri & Navathe(2005):“Mineração de Dados é a descoberta de novas
informações em função de padrões ou regras em grandes quantidades de dados”.
Na prática, precisa ser realizado em:
•
Grandes Arquivos;Introdução
Introdução
Já para Han & Kamber(2006): “Mineração deDados é extrair ou ‘minerar’ conhecimento de um grande amontoado de dados.”
Descoberta do Conhecimento
Descoberta do Conhecimento
O resultado da mineração pode ser descobrir os seguintes tipos de conhecimentos(informações) novos:
•
Regras de Associação;•
Hierarquias de Classificação;•
Padrões Sequenciais;•
Padrões com Séries Temporais;Regras de Associação
Regras de Associação
Principais Regras de Associação utilizadas:•
Modelo dos Carrinhos de Supermercado;•
Algoritmo Apriori;•
Algoritmo por Amostragem;Regras de Associação
Regras de Associação
Exemplos:•
Quando uma mulher compra uma bolsa em umaloja, ela está propensa a comprar sapatos.
•
Uma imagem de Raio X contendo característicasde A e B provavelmente exibirá também características de C.
Regras de Associação
Regras de Associação
Utilizar Regras de Associação na vida real écomplicado pelos seguintes fatores:
•
A cardinalidade(número de registros) de itens namaioria da vezes é extremamente grande;
• Transações variam dependendo de alguns fatores,
como localização, clima, tornando a amostragem difícil;
• As classificações de itens existem em múltiplas dimensões;
Classificação
Classificação
É o processo de encontrar um modelo quedescreva classes diferentes de dados. E as classes são predeterminadas.
Exemplo: Clientes de banco podem ser:
•
Risco Baixo;•
Risco Justo(Médio);•
Risco Alto.Classificação
Classificação
O modelo de aprendizado é realizado usando um treinamento com um conjunto de dados que jáforam classificados.
O modelo de está normalmente em forma de Árvore de Decisão ou um Conjunto de Regras.
Árvore de Decisão
Árvore de Decisão
Idade Renda Salário Casado Risco Justo Sim Risco Justo Risco Alto Não >= 50 .000 < 20.0 00 >= 20 .000 Risco Baixo <=50 .000 < 5.000 Risco Baixo Risco Alto < 25 <= 5.000 >= 25Padrões Sequencias
Padrões Sequencias
Uma sequência de ações ou eventos éinvestigada.
Exemplo: Se um paciente fez ponte de safena
para artérias bloqueadas, depois desenvolveu um uréia alta no sangue no período de um ano, ele está propenso a sofrer problemas de renais nos próximos dezoito meses.
Padrões com Séries Temporais Padrões com Séries Temporais
Similaridades podem ser encontradas em
posições de uma série temporal de dados, que é uma sequência de dados tomados a intervalos
regulares.
Exemplo: Dois produtos mostraram o mesmo
padrão no verão(série temporal), mas diferentes no inverno(outra série).
Clustering (Agrupamento)
Clustering (Agrupamento)
Dada população de eventos ou novos itenspodem ser particionados em conjuntos de elementos ‘similares’.
Exemplo: Em uma determinada empresa é importante determinar grupos de clientes que tenham padrões parecidos de compras.
Chamado de Aprendizado
Data Mining x Data Warehouse
Data Mining x Data Warehouse A proposta do Data Warehouse é sustentar a
tomada de decisão com dados. A Data Mining pode ser usado em conjunto com DW.
Descoberta de conhecimento em bancos de dados
Descoberta do Conhecimento
Descoberta do Conhecimento
Lembrando!
Mineração de Dados precisa ser precedida por
significativa preparação de dados antes que ela
possa gerar informação significativa que influencie as tomadas de decisões.
Os resultados da mineração podem ser mostrados em uma variedade de formatos, como listagens,
Roteiro da Apresentação
Roteiro da Apresentação
• Mineração de Dados
•
Mineração Visual de Dados•
Classificação das Técnicas de VisualizaçãoMineração
Mineração
Visual de Dados
Visual de Dados
A idéia básica da exploração visual de dados é apresentar o dado em uma forma visual que possa:
•
Permitir o humano entender a informação;•
Tomar decisões;•
Interagir diretamente com a informaçãoBenefícios
Benefícios
Dentre vários benefícios da exploração visual de dados destacamos:•
Facilidade de entendimento de dados nãohomogêneos com clareza;
•
É intuitiva não requer conhecimento complexode matemática, estática, algoritmos ou parâmetros;
Benefícios
Benefícios
Como resultado, Mineração Visual de Dadospermite:
•
Rápida exploração dos dados•
Otimiza os resultados, principalmente em casosonde algoritmos são falhos.
De acordo com Keim(2002): “Mineração visual
traz grau muito maior de confiança nos resultados da exploração. E leva a uma alta demanda por
Dimensionalidade
Dimensionalidade O número de atributos pode mudar de um
conjunto de dados para outro.
Exemplo: Para descrever uma pessoa usamos por volta de 5 atributos(sexo, raça, altura, cabelo e
porte físico).
Para descrever um cliente de uma seguradora pode-se ter diversos atributos(nome, idade, filhos...).
Roteiro da Apresentação
Roteiro da Apresentação
• Mineração de Dados
•
Mineração Visual de Dados•
Classificação das Técnicas de VisualizaçãoClassificações
Classificações
Duas abordagens apresentadas:•
Classificação de Daniel A. Keim (InformationVisualization and Visual Data Mining(2002));
•
Classificação de José F. Rodrigues Jr., AgmaJ. M. Traina, Maria Cristina F. de Oliveira,
Caetano Traina Jr. (Reviewing Data Visualization
Classificações
Classificações
Duas abordagens apresentadas:
•
Classificação de Daniel A. Keim (Information Visualization and Visual Data Mining(2002));•
Classificação de José F. Rodrigues Jr., AgmaJ. M. Traina, Maria Cristina F. de Oliveira,
Caetano Traina Jr. (Reviewing Data Visualization
Classificação de Keim
Classificação de Keim
As técnicas de visualização podem serclassificadas em três critérios:
•
Dados para serem visualizados;•
Técnicas de visualização;Classificação de Keim
Visualização de Tipos de Dados
Visualização de Tipos de Dados Utilizando a divisão de Keim (2002), dados podem ser:
•
Dados unidimensionais (Ex. Estação do ano);•
Dados bidimensionais (Ex. Coordenadas demapa);
•
Dados multidimensionais (Ex. TabelasVisualização de Tipos de Dados
Visualização de Tipos de Dados E tipos de dados mais complexos:
•
Texto, Hypertexto (Ex. Artigo de jornal edocumentos da web);
•
Hierarquia e Grafos (Ex. Chamadas telefônicas);•
Algoritmos e Software (Ex. Operação deTécnicas de Visualização
Técnicas de Visualização
Já as técnicas são divididas da seguinte forma:•
Padrão 2D/3D(Ex. Gráfico de barra);•
Transformado Geograficamente(Ex.Coordenadas paralelas);
•
Baseado em ícones(Ex. Star icon);•
Pixel denso(Ex. Segmentos de Círculos);Técnicas de Interação e distorção
Técnicas de Interação e distorção
Além das técnicas de visualização, para uma eficaz exploração de dados, é necessário usar algum tipo de técnica de interação e distorção.
•
Técnicas de interação permite analise dos dadospara interagir diretamente com as visualizações e os objetivos de exploração.
•
Técnicas de Distorção traz a idéia básica demostrar porções de dados com alto nível de detalhes.
Técnicas de Interação e distorção
Técnicas de Interação e distorção
Estão divididas:
•
Projeção interativa;•
Filtragem interativa;•
Aproximação(zooming) interativa;•
Distorção interativa;•
Ligando e pintando(Linking and Brushing)Classificações
Classificações
Duas abordagens apresentadas:
•
Classificação de Daniel A. Keim (InformationVisualization and Visual Data Mining(2002));
•
Classificação de José F. Rodrigues Jr., AgmaJ. M. Traina, Maria Cristina F. de Oliveira, Caetano Traina Jr. (Reviewing Data
Visualization - an Analytical Taxonomical Study(2006)).
Classificação de Rodrigues et al Classificação de Rodrigues et al
Fizeram uma revisão de algumas classificações chegando a seguinte:
• Espacialização;
• Estímulos pré-atentos;
Espacialização
Espacialização
Está divida da seguinte forma:•
Estrutura de exposição(Ex. TreeMaps e Grafos);•
Padronizada(Ex. Barra de Pixel e Gráfico Pizza);•
Projeção(Ex. Paralelas coordenadas);Estímulos Pré-atentos
Estímulos Pré-atentos
Desempenha um papel crucial na promoção de um importante ganho na visualização, ou seja, uma melhor e mais rápida compreensão dos dados.•
Posição;•
Forma;•
Cor.Esta divisão estão estritamente ligada a
Hibridismo
Hibridismo
Define-se abordagens hibridas muitas técnicas de visualizações encontradas na literatura,principalmente as que permitem visualização mais complexas
Técnicas de Interação
Técnicas de Interação
Ao contrário de Keim, nessa classificaçãovisualização e interação são técnicas disjuntas, porém com uma forte sinergia.
•
Paramétricos;•
Visão de transformação;•
Filtragem;•
Detalhes sobre demanda;Roteiro da Apresentação
Roteiro da Apresentação
• Mineração de Dados
•
Mineração Visual de Dados•
Classificação das Técnicas de VisualizaçãoTécnicas de Visualização
Técnicas de Visualização
Divisão para apresentação:•
Técnicas para visualização de dados simples;•
Técnicas para visualização de relacionamentosentre duas variáveis;
•
Técnicas para visualização de mais de duasvariáveis.
Variáveis simples
Variáveis simples
•
Histograma 5 10 15 20 P e rc e n t o f T o ta lDuas Variáveis
Duas Variáveis
•
Gráfico de Dispersão(Scatterplot) 0 20 40 60 80 100 V3 0 20 40 60 80 100 V 4Duas Variáveis
Duas Variáveis
•
Gráfico de Dispersão(Scatterplot)Number of weeks sectors used in a year
P e tr o l s ta ti o n s 1 0 2 0 3 0 4 0 5 0
Duas Variáveis
Duas Variáveis
•
Gráfico de Contorno 12100 12600 13100 13600 DATESTAT 20 40 60 80 A G E A 649.8 1299.6 1949.3 2599.1 3248.9 3898.7 4548.4Mais de Duas Variáveis
Mais de Duas Variáveis
•
Matriz de Gráfico de DispersãoCycle 0 5000 10000 15000 20000 25000 30000 0 50 100 150 200 250 0 25 50 75 100 125 150 175 050001000015000200002500030000 Minmem Maxmem 0 50100150200250 Cache Minchann 0255075100125150175 Maxchann Relperf 0 200 400 600 800 1000 1200 1400 020040060080010001200 0 10000 20000 30000 40000 50000 60000 0 10 20 30 40 50 600 800 1000 1200
Mais de Duas Variáveis
Mais de Duas Variáveis
•
Matriz de Gráfico de Dispersão relevando poucaestrutura dos dados.
V7 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 0.000.250.500.751.001.251.501.752.00 0.000.250.500.751.001.251.501.752.00 V8 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 V9 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 0.000.250.500.751.001.251.501.752.00
Mais de Duas Variáveis
Mais de Duas Variáveis
Mais de Duas Variáveis
Mais de Duas Variáveis
•
Coordenadas Paralelas Count1 Count3 Count5 Count7 Min MaxMais de Duas Variáveis
Mais de Duas Variáveis
Mais de Duas Variáveis
Mais de Duas Variáveis
Mais de Duas Variáveis
Mais de Duas Variáveis
Mais de Duas Variáveis
Software de Data Mining
Software de Data Mining
•
VisTree(http://gbdi.icmc.usp.br/~junio/VisTree/VisTree.htm)
•
Weka Data MiningDesafios de Pesquisa
Desafios de Pesquisa
Desenvolvimento de técnicas de
visualização escaláveis para grandes
bases (terabytes ou exabytes)
Referências Bibliográficas
Referências Bibliográficas
• Elmasri, Ramez; Navathe, Shamkant B. Sistemas de banco de dados. 4 ed. São Paulo: Addison Wesley, 2005.
• Han, Jiawei; Kamber, Micheline. Data Mining Concepts and Techniques. 2 ed. San Francisco: Elsevier, 2006.
• Hand, David; Mannila, Heikki; Smyth, Padhraic. Principles of Data Mining. 2 ed. Massachusetts: Mit Press, 2001.
• Kim, D. A. (2002). Information Visualization and Visual Data Mining. IEEE Transactions on Visualization and Computer Graphics, Vol. 8, N°.1.
• Rodrigues Jr, J. F.; Traina, A. J. M.; Oliveira, M. C. F. de; Traina Jr, C. (2006). Reviewing Data Visualization: an Analytical Taxonomical Study. IEEE Proceedings of the Information Visualization (IV’06).
Artigo Para Leitura
Artigo Para Leitura
•
Daniel A. Keim (2002). Information Visualizationand Visual Data Mining.
• Fazer um resumo do artigo para entregar;
• Mínimo de 1 e máximo de 3 páginas;
Mineração de Dados Visual (Visual Data Mining) Mineração de Dados Visual (Visual Data Mining)
Cledson Diego de Marchi
Cledson Diego de Marchi
Pós-Graduação em Ciência da Computação Pós-Graduação em Ciência da Computação CCM – 202 - Sistemas de Banco de Dados CCM – 202 - Sistemas de Banco de Dados