MineracaoVisualDados

(1)

Mineração Visual de Dados (Visual Data Mining) Mineração Visual de Dados (Visual Data Mining)

Pós-Graduação em Ciência da Computação Pós-Graduação em Ciência da Computação CCM – 202 - Sistemas de Banco de Dados CCM – 202 - Sistemas de Banco de Dados

(2)

Considerações Iniciais

•

Pontos Relevantes;

•

Motivação (O Porquê);

(3)

Roteiro da Apresentação

•

Mineração de Dados

•

Mineração Visual de Dados

•

Classificação das Técnicas de Visualização

(4)

Roteiro da Apresentação

• Mineração de Dados

•

(5)

Introdução

Mineração de Dados pode ser visto como uma

evolução natural da tecnologia de Banco de Dados.

(6)

Introdução

De acordo com Elmasri & Navathe(2005):

“Mineração de Dados é a descoberta de novas

informações em função de padrões ou regras em grandes quantidades de dados”.

Na prática, precisa ser realizado em:

•

Grandes Arquivos;

(7)

Introdução

Já para Han & Kamber(2006): “Mineração de

Dados é extrair ou ‘minerar’ conhecimento de um grande amontoado de dados.”

(8)

Descoberta do Conhecimento

O resultado da mineração pode ser descobrir os seguintes tipos de conhecimentos(informações) novos:

•

Regras de Associação;

•

Hierarquias de Classificação;

•

Padrões Sequenciais;

•

Padrões com Séries Temporais;

(9)

Regras de Associação

Principais Regras de Associação utilizadas:

•

Modelo dos Carrinhos de Supermercado;

•

Algoritmo Apriori;

•

Algoritmo por Amostragem;

(10)

Regras de Associação

Exemplos:

•

Quando uma mulher compra uma bolsa em uma

loja, ela está propensa a comprar sapatos.

•

Uma imagem de Raio X contendo características

de A e B provavelmente exibirá também características de C.

(11)

Regras de Associação

Utilizar Regras de Associação na vida real é

complicado pelos seguintes fatores:

•

A cardinalidade(número de registros) de itens na

maioria da vezes é extremamente grande;

• Transações variam dependendo de alguns fatores,

como localização, clima, tornando a amostragem difícil;

• As classificações de itens existem em múltiplas dimensões;

(12)

Classificação

É o processo de encontrar um modelo que

descreva classes diferentes de dados. E as classes são predeterminadas.

Exemplo: Clientes de banco podem ser:

•

Risco Baixo;

•

Risco Justo(Médio);

•

Risco Alto.

(13)

Classificação

O modelo de aprendizado é realizado usando um treinamento com um conjunto de dados que já

foram classificados.

O modelo de está normalmente em forma de Árvore de Decisão ou um Conjunto de Regras.

(14)

Árvore de Decisão

Idade Renda Salário Casado Risco Justo Sim Risco Justo Risco Alto Não >= 50 .000 < 20.0 00 >= 20 .000 Risco Baixo <=50 .000 < 5.000 Risco Baixo Risco Alto < 25 <= 5.000 >= 25

(15)

Padrões Sequencias

Uma sequência de ações ou eventos é

investigada.

Exemplo: Se um paciente fez ponte de safena

para artérias bloqueadas, depois desenvolveu um uréia alta no sangue no período de um ano, ele está propenso a sofrer problemas de renais nos próximos dezoito meses.

(16)

Padrões com Séries Temporais Padrões com Séries Temporais

Similaridades podem ser encontradas em

posições de uma série temporal de dados, que é uma sequência de dados tomados a intervalos

regulares.

Exemplo: Dois produtos mostraram o mesmo

padrão no verão(série temporal), mas diferentes no inverno(outra série).

(17)

Clustering (Agrupamento)

Dada população de eventos ou novos itens

podem ser particionados em conjuntos de elementos ‘similares’.

Exemplo: Em uma determinada empresa é importante determinar grupos de clientes que tenham padrões parecidos de compras.

Chamado de Aprendizado

(18)

Data Mining x Data Warehouse

Data Mining x Data Warehouse A proposta do Data Warehouse é sustentar a

tomada de decisão com dados. A Data Mining pode ser usado em conjunto com DW.

Descoberta de conhecimento em bancos de dados

(19)

Descoberta do Conhecimento

Lembrando!

Mineração de Dados precisa ser precedida por

significativa preparação de dados antes que ela

possa gerar informação significativa que influencie as tomadas de decisões.

Os resultados da mineração podem ser mostrados em uma variedade de formatos, como listagens,

(20)

Roteiro da Apresentação

• Mineração de Dados

•

Mineração Visual de Dados

•

(21)

Mineração

Visual de Dados

A idéia básica da exploração visual de dados é apresentar o dado em uma forma visual que possa:

•

Permitir o humano entender a informação;

•

Tomar decisões;

•

Interagir diretamente com a informação

(22)

Benefícios

Dentre vários benefícios da exploração visual de dados destacamos:

•

Facilidade de entendimento de dados não

homogêneos com clareza;

•

É intuitiva não requer conhecimento complexo

de matemática, estática, algoritmos ou parâmetros;

(23)

Benefícios

Como resultado, Mineração Visual de Dados

permite:

•

Rápida exploração dos dados

•

Otimiza os resultados, principalmente em casos

onde algoritmos são falhos.

De acordo com Keim(2002): “Mineração visual

traz grau muito maior de confiança nos resultados da exploração. E leva a uma alta demanda por

(24)

Dimensionalidade

Dimensionalidade O número de atributos pode mudar de um

conjunto de dados para outro.

Exemplo: Para descrever uma pessoa usamos por volta de 5 atributos(sexo, raça, altura, cabelo e

porte físico).

Para descrever um cliente de uma seguradora pode-se ter diversos atributos(nome, idade, filhos...).

(25)

Roteiro da Apresentação

•

Classificação das Técnicas de Visualização

(26)

Classificações

Duas abordagens apresentadas:

•

Classificação de Daniel A. Keim (Information

Visualization and Visual Data Mining(2002));

•

Classificação de José F. Rodrigues Jr., Agma

J. M. Traina, Maria Cristina F. de Oliveira,

Caetano Traina Jr. (Reviewing Data Visualization

(27)

Classificações

•

Classificação de Daniel A. Keim (Information Visualization and Visual Data Mining(2002));

•

J. M. Traina, Maria Cristina F. de Oliveira,

Caetano Traina Jr. (Reviewing Data Visualization

(28)

Classificação de Keim

As técnicas de visualização podem ser

classificadas em três critérios:

•

Dados para serem visualizados;

•

Técnicas de visualização;

(29)

Classificação de Keim

(30)

Visualização de Tipos de Dados

Visualização de Tipos de Dados Utilizando a divisão de Keim (2002), dados podem ser:

•

Dados unidimensionais (Ex. Estação do ano);

•

Dados bidimensionais (Ex. Coordenadas de

mapa);

•

Dados multidimensionais (Ex. Tabelas

(31)

Visualização de Tipos de Dados

Visualização de Tipos de Dados E tipos de dados mais complexos:

•

Texto, Hypertexto (Ex. Artigo de jornal e

documentos da web);

•

Hierarquia e Grafos (Ex. Chamadas telefônicas);

•

Algoritmos e Software (Ex. Operação de

(32)

Técnicas de Visualização

Já as técnicas são divididas da seguinte forma:

•

Padrão 2D/3D(Ex. Gráfico de barra);

•

Transformado Geograficamente(Ex.

Coordenadas paralelas);

•

Baseado em ícones(Ex. Star icon);

•

Pixel denso(Ex. Segmentos de Círculos);

(33)

Técnicas de Interação e distorção

Além das técnicas de visualização, para uma eficaz exploração de dados, é necessário usar algum tipo de técnica de interação e distorção.

•

Técnicas de interação permite analise dos dados

para interagir diretamente com as visualizações e os objetivos de exploração.

•

Técnicas de Distorção traz a idéia básica de

mostrar porções de dados com alto nível de detalhes.

(34)

Técnicas de Interação e distorção

Estão divididas:

•

Projeção interativa;

•

Filtragem interativa;

•

Aproximação(zooming) interativa;

•

Distorção interativa;

•

Ligando e pintando(Linking and Brushing)

(35)

Classificações

•

Classificação de Daniel A. Keim (Information

Visualization and Visual Data Mining(2002));

•

J. M. Traina, Maria Cristina F. de Oliveira, Caetano Traina Jr. (Reviewing Data

Visualization - an Analytical Taxonomical Study(2006)).

(36)

Classificação de Rodrigues et al Classificação de Rodrigues et al

Fizeram uma revisão de algumas classificações chegando a seguinte:

• _{Espacialização};

• Estímulos pré-atentos;

(37)

Espacialização

Está divida da seguinte forma:

•

Estrutura de exposição(Ex. TreeMaps e Grafos);

•

Padronizada(Ex. Barra de Pixel e Gráfico Pizza);

•

Projeção(Ex. Paralelas coordenadas);

(38)

Estímulos Pré-atentos

Desempenha um papel crucial na promoção de um importante ganho na visualização, ou seja, uma melhor e mais rápida compreensão dos dados.

•

Posição;

•

Forma;

•

Cor.

Esta divisão estão estritamente ligada a

(39)

Hibridismo

Define-se abordagens hibridas muitas técnicas de visualizações encontradas na literatura,

principalmente as que permitem visualização mais complexas

(40)

Técnicas de Interação

Ao contrário de Keim, nessa classificação

visualização e interação são técnicas disjuntas, porém com uma forte sinergia.

•

Paramétricos;

•

Visão de transformação;

•

Filtragem;

•

Detalhes sobre demanda;

(41)

Roteiro da Apresentação

•

(42)

Técnicas de Visualização

Divisão para apresentação:

•

Técnicas para visualização de dados simples;

•

Técnicas para visualização de relacionamentos

entre duas variáveis;

•

Técnicas para visualização de mais de duas

variáveis.

(43)

Variáveis simples

•

Histograma 5 10 15 20 P e rc e n t o f T o ta l

(44)

Duas Variáveis

•

Gráfico de Dispersão(Scatterplot) 0 20 40 60 80 100 V3 0 20 40 60 80 100 V 4

(45)

Duas Variáveis

•

Gráfico de Dispersão(Scatterplot)

Number of weeks sectors used in a year

P e tr o l s ta ti o n s 1 0 2 0 3 0 4 0 5 0

(46)

Duas Variáveis

•

Gráfico de Contorno 12100 12600 13100 13600 DATESTAT 20 40 60 80 A G E A 649.8 1299.6 1949.3 2599.1 3248.9 389_8.7 454_8.4

(47)

Mais de Duas Variáveis

•

Matriz de Gráfico de Dispersão

Cycle 0 5000 10000 15000 20000 25000 30000 0 50 100 150 200 250 0 25 50 75 100 125 150 175 050001000015000200002500030000 Minmem Maxmem 0 50100150200250 Cache Minchann 0255075100125150175 Maxchann Relperf 0 200 400 600 800 1000 1200 1400 020040060080010001200 0 10000 20000 30000 40000 50000 60000 0 10 20 30 40 50 600 800 1000 1200

(48)

Mais de Duas Variáveis

•

Matriz de Gráfico de Dispersão relevando pouca

estrutura dos dados.

V7 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 0.000.250.500.751.001.251.501.752.00 0.000.250.500.751.001.251.501.752.00 V8 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 V9 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 0.000.250.500.751.001.251.501.752.00

(49)

Mais de Duas Variáveis

(50)

Mais de Duas Variáveis

•

Coordenadas Paralelas Count1 Count3 Count5 Count7 Min Max

(51)

Mais de Duas Variáveis

(52)

Mais de Duas Variáveis

(53)

Mais de Duas Variáveis

(54)

Mais de Duas Variáveis

(55)

Mais de Duas Variáveis

(56)

Software de Data Mining

•

VisTree

(http://gbdi.icmc.usp.br/~junio/VisTree/VisTree.htm)

•

Weka Data Mining

(57)

Desafios de Pesquisa

Desenvolvimento de técnicas de

visualização escaláveis para grandes

bases (terabytes ou exabytes)

(58)

Referências Bibliográficas

• Elmasri, Ramez; Navathe, Shamkant B. Sistemas de banco de dados. 4 ed. São Paulo: Addison Wesley, 2005.

• Han, Jiawei; Kamber, Micheline. Data Mining Concepts and Techniques. 2 ed. San Francisco: Elsevier, 2006.

• Hand, David; Mannila, Heikki; Smyth, Padhraic. Principles of Data Mining. 2 ed. Massachusetts: Mit Press, 2001.

• Kim, D. A. (2002). Information Visualization and Visual Data Mining. IEEE Transactions on Visualization and Computer Graphics, Vol. 8, N°.1.

• Rodrigues Jr, J. F.; Traina, A. J. M.; Oliveira, M. C. F. de; Traina Jr, C. (2006). Reviewing Data Visualization: an Analytical Taxonomical Study. IEEE Proceedings of the Information Visualization (IV’06).

(59)

Artigo Para Leitura

•

Daniel A. Keim (2002). Information Visualization

and Visual Data Mining.

• Fazer um resumo do artigo para entregar;

• Mínimo de 1 e máximo de 3 páginas;

(60)

Mineração de Dados Visual (Visual Data Mining) Mineração de Dados Visual (Visual Data Mining)

Cledson Diego de Marchi

Pós-Graduação em Ciência da Computação Pós-Graduação em Ciência da Computação CCM – 202 - Sistemas de Banco de Dados CCM – 202 - Sistemas de Banco de Dados