• Nenhum resultado encontrado

MineracaoVisualDados

N/A
N/A
Protected

Academic year: 2021

Share "MineracaoVisualDados"

Copied!
60
0
0

Texto

(1)

Mineração Visual de Dados (Visual Data Mining) Mineração Visual de Dados (Visual Data Mining)

Pós-Graduação em Ciência da Computação Pós-Graduação em Ciência da Computação CCM – 202 - Sistemas de Banco de Dados CCM – 202 - Sistemas de Banco de Dados

(2)

Considerações Iniciais

Considerações Iniciais

Pontos Relevantes;

Motivação (O Porquê);

(3)

Roteiro da Apresentação

Roteiro da Apresentação

Mineração de Dados

Mineração Visual de Dados

Classificação das Técnicas de Visualização

(4)

Roteiro da Apresentação

Roteiro da Apresentação

Mineração de Dados

Mineração Visual de Dados

Classificação das Técnicas de Visualização

(5)

Introdução

Introdução

Mineração de Dados pode ser visto como uma

evolução natural da tecnologia de Banco de Dados.

(6)

Introdução

Introdução

De acordo com Elmasri & Navathe(2005):

“Mineração de Dados é a descoberta de novas

informações em função de padrões ou regras em grandes quantidades de dados”.

Na prática, precisa ser realizado em:

Grandes Arquivos;

(7)

Introdução

Introdução

Já para Han & Kamber(2006): “Mineração de

Dados é extrair ou ‘minerar’ conhecimento de um grande amontoado de dados.”

(8)

Descoberta do Conhecimento

Descoberta do Conhecimento

O resultado da mineração pode ser descobrir os seguintes tipos de conhecimentos(informações) novos:

Regras de Associação;

Hierarquias de Classificação;

Padrões Sequenciais;

Padrões com Séries Temporais;

(9)

Regras de Associação

Regras de Associação

Principais Regras de Associação utilizadas:

Modelo dos Carrinhos de Supermercado;

Algoritmo Apriori;

Algoritmo por Amostragem;

(10)

Regras de Associação

Regras de Associação

Exemplos:

Quando uma mulher compra uma bolsa em uma

loja, ela está propensa a comprar sapatos.

Uma imagem de Raio X contendo características

de A e B provavelmente exibirá também características de C.

(11)

Regras de Associação

Regras de Associação

Utilizar Regras de Associação na vida real é

complicado pelos seguintes fatores:

A cardinalidade(número de registros) de itens na

maioria da vezes é extremamente grande;

• Transações variam dependendo de alguns fatores,

como localização, clima, tornando a amostragem difícil;

• As classificações de itens existem em múltiplas dimensões;

(12)

Classificação

Classificação

É o processo de encontrar um modelo que

descreva classes diferentes de dados. E as classes são predeterminadas.

Exemplo: Clientes de banco podem ser:

Risco Baixo;

Risco Justo(Médio);

Risco Alto.

(13)

Classificação

Classificação

O modelo de aprendizado é realizado usando um treinamento com um conjunto de dados que já

foram classificados.

O modelo de está normalmente em forma de Árvore de Decisão ou um Conjunto de Regras.

(14)

Árvore de Decisão

Árvore de Decisão

Idade Renda Salário Casado Risco Justo Sim Risco Justo Risco Alto Não >= 50 .000 < 20.0 00 >= 20 .000 Risco Baixo <=50 .000 < 5.000 Risco Baixo Risco Alto < 25 <= 5.000 >= 25

(15)

Padrões Sequencias

Padrões Sequencias

Uma sequência de ações ou eventos é

investigada.

Exemplo: Se um paciente fez ponte de safena

para artérias bloqueadas, depois desenvolveu um uréia alta no sangue no período de um ano, ele está propenso a sofrer problemas de renais nos próximos dezoito meses.

(16)

Padrões com Séries Temporais Padrões com Séries Temporais

Similaridades podem ser encontradas em

posições de uma série temporal de dados, que é uma sequência de dados tomados a intervalos

regulares.

Exemplo: Dois produtos mostraram o mesmo

padrão no verão(série temporal), mas diferentes no inverno(outra série).

(17)

Clustering (Agrupamento)

Clustering (Agrupamento)

Dada população de eventos ou novos itens

podem ser particionados em conjuntos de elementos ‘similares’.

Exemplo: Em uma determinada empresa é importante determinar grupos de clientes que tenham padrões parecidos de compras.

Chamado de Aprendizado

(18)

Data Mining x Data Warehouse

Data Mining x Data Warehouse A proposta do Data Warehouse é sustentar a

tomada de decisão com dados. A Data Mining pode ser usado em conjunto com DW.

Descoberta de conhecimento em bancos de dados

(19)

Descoberta do Conhecimento

Descoberta do Conhecimento

Lembrando!

Mineração de Dados precisa ser precedida por

significativa preparação de dados antes que ela

possa gerar informação significativa que influencie as tomadas de decisões.

Os resultados da mineração podem ser mostrados em uma variedade de formatos, como listagens,

(20)

Roteiro da Apresentação

Roteiro da Apresentação

• Mineração de Dados

Mineração Visual de Dados

Classificação das Técnicas de Visualização

(21)

Mineração

Mineração

Visual de Dados

Visual de Dados

A idéia básica da exploração visual de dados é apresentar o dado em uma forma visual que possa:

Permitir o humano entender a informação;

Tomar decisões;

Interagir diretamente com a informação

(22)

Benefícios

Benefícios

Dentre vários benefícios da exploração visual de dados destacamos:

Facilidade de entendimento de dados não

homogêneos com clareza;

É intuitiva não requer conhecimento complexo

de matemática, estática, algoritmos ou parâmetros;

(23)

Benefícios

Benefícios

Como resultado, Mineração Visual de Dados

permite:

Rápida exploração dos dados

Otimiza os resultados, principalmente em casos

onde algoritmos são falhos.

De acordo com Keim(2002): “Mineração visual

traz grau muito maior de confiança nos resultados da exploração. E leva a uma alta demanda por

(24)

Dimensionalidade

Dimensionalidade O número de atributos pode mudar de um

conjunto de dados para outro.

Exemplo: Para descrever uma pessoa usamos por volta de 5 atributos(sexo, raça, altura, cabelo e

porte físico).

Para descrever um cliente de uma seguradora pode-se ter diversos atributos(nome, idade, filhos...).

(25)

Roteiro da Apresentação

Roteiro da Apresentação

• Mineração de Dados

Mineração Visual de Dados

Classificação das Técnicas de Visualização

(26)

Classificações

Classificações

Duas abordagens apresentadas:

Classificação de Daniel A. Keim (Information

Visualization and Visual Data Mining(2002));

Classificação de José F. Rodrigues Jr., Agma

J. M. Traina, Maria Cristina F. de Oliveira,

Caetano Traina Jr. (Reviewing Data Visualization

(27)

Classificações

Classificações

Duas abordagens apresentadas:

Classificação de Daniel A. Keim (Information Visualization and Visual Data Mining(2002));

Classificação de José F. Rodrigues Jr., Agma

J. M. Traina, Maria Cristina F. de Oliveira,

Caetano Traina Jr. (Reviewing Data Visualization

(28)

Classificação de Keim

Classificação de Keim

As técnicas de visualização podem ser

classificadas em três critérios:

Dados para serem visualizados;

Técnicas de visualização;

(29)

Classificação de Keim

(30)

Visualização de Tipos de Dados

Visualização de Tipos de Dados Utilizando a divisão de Keim (2002), dados podem ser:

Dados unidimensionais (Ex. Estação do ano);

Dados bidimensionais (Ex. Coordenadas de

mapa);

Dados multidimensionais (Ex. Tabelas

(31)

Visualização de Tipos de Dados

Visualização de Tipos de Dados E tipos de dados mais complexos:

Texto, Hypertexto (Ex. Artigo de jornal e

documentos da web);

Hierarquia e Grafos (Ex. Chamadas telefônicas);

Algoritmos e Software (Ex. Operação de

(32)

Técnicas de Visualização

Técnicas de Visualização

Já as técnicas são divididas da seguinte forma:

Padrão 2D/3D(Ex. Gráfico de barra);

Transformado Geograficamente(Ex.

Coordenadas paralelas);

Baseado em ícones(Ex. Star icon);

Pixel denso(Ex. Segmentos de Círculos);

(33)

Técnicas de Interação e distorção

Técnicas de Interação e distorção

Além das técnicas de visualização, para uma eficaz exploração de dados, é necessário usar algum tipo de técnica de interação e distorção.

Técnicas de interação permite analise dos dados

para interagir diretamente com as visualizações e os objetivos de exploração.

Técnicas de Distorção traz a idéia básica de

mostrar porções de dados com alto nível de detalhes.

(34)

Técnicas de Interação e distorção

Técnicas de Interação e distorção

Estão divididas:

Projeção interativa;

Filtragem interativa;

Aproximação(zooming) interativa;

Distorção interativa;

Ligando e pintando(Linking and Brushing)

(35)

Classificações

Classificações

Duas abordagens apresentadas:

Classificação de Daniel A. Keim (Information

Visualization and Visual Data Mining(2002));

Classificação de José F. Rodrigues Jr., Agma

J. M. Traina, Maria Cristina F. de Oliveira, Caetano Traina Jr. (Reviewing Data

Visualization - an Analytical Taxonomical Study(2006)).

(36)

Classificação de Rodrigues et al Classificação de Rodrigues et al

Fizeram uma revisão de algumas classificações chegando a seguinte:

Espacialização;

• Estímulos pré-atentos;

(37)

Espacialização

Espacialização

Está divida da seguinte forma:

Estrutura de exposição(Ex. TreeMaps e Grafos);

Padronizada(Ex. Barra de Pixel e Gráfico Pizza);

Projeção(Ex. Paralelas coordenadas);

(38)

Estímulos Pré-atentos

Estímulos Pré-atentos

Desempenha um papel crucial na promoção de um importante ganho na visualização, ou seja, uma melhor e mais rápida compreensão dos dados.

Posição;

Forma;

Cor.

Esta divisão estão estritamente ligada a

(39)

Hibridismo

Hibridismo

Define-se abordagens hibridas muitas técnicas de visualizações encontradas na literatura,

principalmente as que permitem visualização mais complexas

(40)

Técnicas de Interação

Técnicas de Interação

Ao contrário de Keim, nessa classificação

visualização e interação são técnicas disjuntas, porém com uma forte sinergia.

Paramétricos;

Visão de transformação;

Filtragem;

Detalhes sobre demanda;

(41)

Roteiro da Apresentação

Roteiro da Apresentação

• Mineração de Dados

Mineração Visual de Dados

Classificação das Técnicas de Visualização

(42)

Técnicas de Visualização

Técnicas de Visualização

Divisão para apresentação:

Técnicas para visualização de dados simples;

Técnicas para visualização de relacionamentos

entre duas variáveis;

Técnicas para visualização de mais de duas

variáveis.

(43)

Variáveis simples

Variáveis simples

Histograma 5 10 15 20 P e rc e n t o f T o ta l

(44)

Duas Variáveis

Duas Variáveis

Gráfico de Dispersão(Scatterplot) 0 20 40 60 80 100 V3 0 20 40 60 80 100 V 4

(45)

Duas Variáveis

Duas Variáveis

Gráfico de Dispersão(Scatterplot)

Number of weeks sectors used in a year

P e tr o l s ta ti o n s 1 0 2 0 3 0 4 0 5 0

(46)

Duas Variáveis

Duas Variáveis

Gráfico de Contorno 12100 12600 13100 13600 DATESTAT 20 40 60 80 A G E A 649.8 1299.6 1949.3 2599.1 3248.9 3898.7 4548.4

(47)

Mais de Duas Variáveis

Mais de Duas Variáveis

Matriz de Gráfico de Dispersão

Cycle 0 5000 10000 15000 20000 25000 30000 0 50 100 150 200 250 0 25 50 75 100 125 150 175 050001000015000200002500030000 Minmem Maxmem 0 50100150200250 Cache Minchann 0255075100125150175 Maxchann Relperf 0 200 400 600 800 1000 1200 1400 020040060080010001200 0 10000 20000 30000 40000 50000 60000 0 10 20 30 40 50 600 800 1000 1200

(48)

Mais de Duas Variáveis

Mais de Duas Variáveis

Matriz de Gráfico de Dispersão relevando pouca

estrutura dos dados.

V7 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 0.000.250.500.751.001.251.501.752.00 0.000.250.500.751.001.251.501.752.00 V8 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 V9 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 0.000.250.500.751.001.251.501.752.00

(49)

Mais de Duas Variáveis

Mais de Duas Variáveis

(50)

Mais de Duas Variáveis

Mais de Duas Variáveis

Coordenadas Paralelas Count1 Count3 Count5 Count7 Min Max

(51)

Mais de Duas Variáveis

Mais de Duas Variáveis

(52)

Mais de Duas Variáveis

(53)

Mais de Duas Variáveis

Mais de Duas Variáveis

(54)

Mais de Duas Variáveis

(55)

Mais de Duas Variáveis

(56)

Software de Data Mining

Software de Data Mining

VisTree

(http://gbdi.icmc.usp.br/~junio/VisTree/VisTree.htm)

Weka Data Mining

(57)

Desafios de Pesquisa

Desafios de Pesquisa

Desenvolvimento de técnicas de

visualização escaláveis para grandes

bases (terabytes ou exabytes)

(58)

Referências Bibliográficas

Referências Bibliográficas

• Elmasri, Ramez; Navathe, Shamkant B. Sistemas de banco de dados. 4 ed. São Paulo: Addison Wesley, 2005.

• Han, Jiawei; Kamber, Micheline. Data Mining Concepts and Techniques. 2 ed. San Francisco: Elsevier, 2006.

• Hand, David; Mannila, Heikki; Smyth, Padhraic. Principles of Data Mining. 2 ed. Massachusetts: Mit Press, 2001.

• Kim, D. A. (2002). Information Visualization and Visual Data Mining. IEEE Transactions on Visualization and Computer Graphics, Vol. 8, N°.1.

• Rodrigues Jr, J. F.; Traina, A. J. M.; Oliveira, M. C. F. de; Traina Jr, C. (2006). Reviewing Data Visualization: an Analytical Taxonomical Study. IEEE Proceedings of the Information Visualization (IV’06).

(59)

Artigo Para Leitura

Artigo Para Leitura

Daniel A. Keim (2002). Information Visualization

and Visual Data Mining.

• Fazer um resumo do artigo para entregar;

• Mínimo de 1 e máximo de 3 páginas;

(60)

Mineração de Dados Visual (Visual Data Mining) Mineração de Dados Visual (Visual Data Mining)

Cledson Diego de Marchi

Cledson Diego de Marchi

Pós-Graduação em Ciência da Computação Pós-Graduação em Ciência da Computação CCM – 202 - Sistemas de Banco de Dados CCM – 202 - Sistemas de Banco de Dados

Referências

Documentos relacionados

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

Silva e Márquez Romero, no prelo), seleccionei apenas os contextos com datas provenientes de amostras recolhidas no interior de fossos (dado que frequentemente não há garantia

Essa intersecção vem de encontro com a minha formação no curso de licenciatura em Língua de Sinais Brasileira, Português como Segunda Língua- (LSB/PSL) na

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco 

 Numéricos das das Propriedades Propriedades do do Ar Ar Úmido, Úmido, Cartas Cartas Psicrométricas, Psicrométricas, Processos Processos Psicrométricos, Psicrométricos,

Mas ele é ( verbo ser, no Presente do Indicativo ) apenas um gato e não tinha tido ( verbo ter, no Pretérito Mais-Que-Perfeito Simples do Indicativo ) tempo de aprender (

Posteriormente, em Junho de 1999, ingressei no grupo Efacec, onde fui responsável pela elaboração de projetos e propostas para a construção de Estações de Tratamento