• Nenhum resultado encontrado

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

N/A
N/A
Protected

Academic year: 2021

Share "Introdução à Mineração de Dados com Aplicações em Ciências Espaciais"

Copied!
57
0
0

Texto

(1)

Introdução à Mineração de Dados com

Aplicações em Ciências Espaciais

Escola de Verão do Laboratório Associado de

Computação e Matemática Aplicada

(2)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 2 /57

Programa

Dia 1: Apresentação dos conceitos de mineração de dados,

motivação e alguns exemplos.

Dia 2: Algoritmos de classificação supervisionada e

aplicações.

Dia 3: Algoritmos de classificação não-supervisionada e

aplicações. Algoritmos de mineração de associações.

Dia 4: Visualização e mineração de dados. Outros algoritmos

(3)

(4)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 4 /57

Visualização

Pode ser usada no início do processo de mineração...

– Para ter uma idéia da distribuição dos dados ou de relações entre

os dados para formulação de hipóteses.

– Para selecionar atributos ou regiões de dados.

– Para ter uma idéia de que tipos de algoritmos podem trazer

resultados para estes dados.

Pode ser usada no final do processo de mineração...

– Para ver as informações/regras/grupos/etc. obtidos: sumarização

do conhecimento.

– Para ver distribuições contextualizadas (isto é, com conhecimento

adicional adquirido integrado).

(5)

Objetivos de Visualização

Análise exploratória:

– Temos os dados, não temos hipótese sobre os mesmos. – Busca visual por padrões, estruturas, etc.

Análise para confirmação:

– Temos os dados e hipótese sobre os mesmos. – Busca visual para confirmar ou rejeitar.

Apresentação

(6)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 6 /57

Conceitos de Visualização

Edward Tufte, The Visual Display of Quantitative Information:

– “... gráficos sobre dados podem fazer muito mais do que

simplesmente ser substitutos para pequenas tabelas estatísticas. Na sua melhor concepção, gráficos são

instrumentos para compreender informação quantitativa.”

– “Frequentemente a forma mais efetiva de descrever, explorar e

sumarizar um conjunto de números – mesmo um conjunto com muitos números – é ver figuras destes números.”

– “Adicionalmente, de todas as formas de analisar e comunicar

informação estatística, gráficos bem feitos sobre dados são geralmente ao mesmo tempo a mais simples e mais

(7)

Supergráficos

ht tp :/ /v is ua lth in km ap .n in g. co m /

(8)
(9)
(10)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 10 /57

(11)
(12)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 12 /57

(13)

Visualização

Desafios:

– Subjetividade / Interpretabilidade. – Métodos e técnicas específicos.

– Limitações de hardware (humano e máquina!) – Número de dimensões (atributos) dos dados. – Número de instâncias para visualização.

– “Empilhamento” e ordenação.

Vantagens:

– Inerentemente exploratório.

(14)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 14 /57

Visualização: Técnicas Geométricas

Idéia básica: transformações e projeções usando arranjos em

um número menor de dimensões.

Scatterplot Matrices: K atributos em grade KxK.

Prosection Views: Scatterplot Matrices com mecanismos de

seleção (drill-down).

Parallel Coordinates: muito bom para dados mistos, requer

exploração e rearranjos.

(15)
(16)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 16 /57

(17)

Visualização: Prosection Views

(18)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 18 /57

(19)
(20)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 20 /57

(21)

Visualização: Parallel Coordinates

● Origem do vinho a partir de conteúdo físico-químico (13 atributos)

(22)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 22 /57

(23)
(24)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 24 /57

Visualização: Parallel Coordinates

Fabian Fischer, Florian Mansmann, Daniel A. Keim, Stephan Pietzko, and Marcel Waldvogel. Large-Scale Network Monitoring for Visual Analysis of Attacks. VizSec 2008 (LNCS 5210)

(25)

12x12 SOM, Dados em 8 dimensões. T=0 R=25 Lr=0.9

(26)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 26 /57

12x12 SOM, Dados em 8 dimensões. T=40 R=16.7 Lr=0.74

(27)

12x12 SOM, Dados em 8 dimensões. T=320 R=1 Lr=0.18

(28)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 28 /57

12x12 SOM, Dados em 8 dimensões. T=480 R=1 Lr=0.1

(29)
(30)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 30 /57

Visualização: Técnicas Baseadas em Ícones

Idéia básica: usamos duas dimensões para mostrar ícones

que representam outras dimensões adicionais.

– Interpretação deve ser feita com legendas!

Chernoff faces: atributos das faces (geometria, olhos,

excentricidade, curvaturas, etc.) representam outras dimensões.

Stick figures: dimensões adicionais mapeadas para ângulos e

(31)
(32)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 32 /57

Visualização: Chernoff Faces

Exemplo de H. Chernoff,

(33)

Visualização: Stick Figures

(34)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 34 /57

Visualização: Stick Figures

(35)

Visualização: Técnicas Baseadas em Pixels

Idéia básica: ícones pequenos, uso de cores, geometria

simples.

– Interpretação mais instintiva, menos uso de legendas.

– Distribui pixels em duas dimensões que podem ou não ser

índices (podendo ou não causar artefatos!).

– Existem várias maneiras de organizar pixels em duas

(36)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 36 /57

Visualização: Grouping Technique

(37)
(38)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 38 /57

Técnicas de Visualização: Grouping Technique

(39)

Visualização: Técnicas Hierárquicas

Idéia básica: particionamento das dimensões em

subdimensões.

Dimensional Stacking: Particionamento de N dimensões em

conjuntos de 2 dimensões.

Worlds-within-Worlds: Particionamento de N dimensões em

conjuntos de 3 dimensões.

Treemap: Preenche área de visualização alternando eixos X e Y.

Cone Trees: Visualização interativa de dados hierárquicos.

(40)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 40 /57

Visualização: Dimensional Stacking

(41)
(42)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 42 /57

Visualização: Cone Trees

(43)
(44)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 44 /57

Visualização: Técnicas Baseadas em Grafos

Idéia básica: conjunto de pontos (vértices) ligados por linhas

(as arestas).

– Representam conexões ou ligações de alguma forma.

– Enorme variabilidade na organização geométrica dos vértices

e arestas.

– Representações gráficas diferentes para vértices e arestas.

(45)
(46)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 46 /57

Técnicas de Visualização: Grafos

Um Sistema de Recomendação de Publicações Científicas Baseado em Avaliação de Conteúdo,

(47)
(48)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 48 /57

Visualização: Técnicas Tridimensionais

Idéia básica: recursos de computação gráfica para usar

dimensão adicional na exibição dos gráficos.

Muito mais efetivo para display do que para impressão.Devem ser interativos (pan, zoom, rotação, etc.)

(49)
(50)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 50 /57

Visualização: Mapas

Idéia básica: plotagem de elementos sobre coordenadas

geográficas.

– Valores, categorias, etc. podem ser representados como

ícones, pixels, etc.

(51)

Técnicas de Visualização: Mapas

42.1695 -87.9588 12 37.0 127.5 12

(52)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 52 /57

(53)
(54)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 54 /57

Classificação do risco da esquistossomose no estado de Minas Gerais, Relatório Final de Flávia de

Toledo Martins, disciplina CAP-359, INPE.

(55)

Técnicas de Visualização: Comentários

Esta taxonomia é incompleta e imperfeita.

Técnicas podem pertencer a mais de uma categoria ou

mesmo usar elementos de várias.

Implementação de técnicas deve considerar também:

Interatividade com o gráfico em si (seleção, drill-down). – Interatividade com os dados usados para o gráfico (filtros,

(56)

ELAC 2012 http://www.lac.inpe.br/~rafael.santos Dia 4: 56 /57

Próximos passos...

Dia 1: Apresentação dos conceitos de mineração de dados,

motivação e alguns exemplos.

Dia 2: Algoritmos de classificação supervisionada e

aplicações.

Dia 3: Algoritmos de classificação não-supervisionada e

aplicações. Algoritmos de mineração de associações.

Dia 4: Visualização e mineração de dados. Outros algoritmos

(57)

Mais informações em...

http://www.lac.inpe.br/~rafael.santos

– http://www.lac.inpe.br/~rafael.santos/dmapresentacoes.jsp – http://www.lac.inpe.br/~rafael.santos/cap359-2010.jsp

Referências

Documentos relacionados

Taxas mensais de predação de sementes nos frutos verdes de Syagrus romanzoffiana (Cham.) Glassman obtidos nas 20 parcelas (0,25m²) sob as plantas-mãe no Parque Municipal da Lagoa

A comarca do Serro Frio teria o quadro mais estável, tanto na comparação com a dinâmica demográfica quanto na comparação entre os dados da distribuição de eleitores de 1822 e

Efficiency of microbial protein supply (g CP.kg -1 /ApDMO) of heifers grazing brachiaria-grass fertilized with mineral nitrogen (FP) or intercropped with forage peanut (IP)..

O solo de um aterro sanitário deve ser o menos permeável possível, para impedir a contaminação de águas subterrâneas e do solo localizado em camadas mais

A comunidade inteira está em festa, mesmo as pessoas de outras religiões que não participam nas atividades eclesiais da igreja católica em si, realizando outro tipo de

de seu nome, dentro dos cargos indicados para a realização de prova na(s) instituição(ões) de ensino. A disposição de carteiras segue o padrão disponibilizado para

A pesquisa teve como objetivo relacionar a distribuição de lucros com a gestão de pessoas, e para responder alcançar o objetivo, foi observado os dados da demonstração de

Na primeira forma, o movimento de um objeto é pensado como resultante de dois movimentos tais como, por exemplo, quando dois sistemas de coordenadas estão em

The finite-difference approximations used in (8.17) are consistent with second-order accuracy in space, although we cannot really determine the order of accuracy until the

imagens, estruturas e localização expressavam as experiências sociais da morte e produziam memórias do passado (Hope, 2011), já que as estruturas extravagantes dos túmulos

Reprodutor positivo para todas as características de crescimento, maternas e reprodutivas no PMGZ. Reprodutor positivo para todas as características de crescimento e maternas do

No entanto, conforme vimos, essa repressão correspondia também a uma política econômica, visto que desequilibrava o conflito social entre capital e trabalho, fortalecendo o

Na análise sobre o Princípio da Complementariedade de Niels Bohr (qualquer objeto quântico é onda e partícula e estas são duas maneiras complementares do objeto

Para maiores informações sobre a partida do motor, consulte o manual de ins- truções do mesmo. Tenha certeza de que o disco não esteja em conta- to com o chão antes de dar

Esta minha amiga é uma defensora de um mundo mais cheio de paz, como a maioria de nós.. Tivemos uma passagem de ano maravilhosa com os seus familiares e vizinhanças, mas como é

A representação proposta consiste em reescrever a projeção planar da célula na forma matricial, cujos elementos são os Fatores de Preenchimento (Fp), definidos como a fração de

Apesar da constatação de Ising que o modelo não representava a realidade física de um cristal ferromagneto em uma dimensão, em 1944 Lars Onsager (ONSAGER, 1944) conseguiu com um

Unidade 2 Cláudio Baptista Banco de Dados I.!. Unidade 2 Cláudio Baptista Banco de

O ciclo de vida de um projeto consiste nas fases do mesmo que são determinadas a partir das necessidades de gerenciamento e controle, a natureza do projeto em si e sua de

Este diesel foi adquirido da Refinaria Presidente Getúlio Vargas (REPAR), logo que saiu do processo de Hidrotratamento, não recebendo assim nenhuma mistura de biodiesel,

• El diámetro de la apertura para la conexión al conducto de salida de humos debe corresponder por lo menos al diámetro del conducto de humos. La apertura debería estar provista

Físicas) e do IMPA (Instituto Nacional de Matemática Pura e Aplicada). 7 Engenheiro Civil e Doutor em Ciências Físicas e Matemáticas, além de Professor da Escola Politécnica..

Da mesma forma, os níveis críticos inferior e superior de B, na parte aérea da planta, foram estimados pela substituição das doses de B correspondentes nas equações de regressão,