• Nenhum resultado encontrado

Aula 04: Dados Profa. Ms. Rosângela da Silva Nunes

N/A
N/A
Protected

Academic year: 2021

Share "Aula 04: Dados Profa. Ms. Rosângela da Silva Nunes"

Copied!
44
0
0

Texto

(1)

1 de 44

Aula 04: Dados

(2)

2 de 44

Visualização da informação

“Uso de representações visuais, interativas e suportadas

por computador de dados abstratos para ampliar a

cognição”

Stuart Card, Information visualization, in A. Sears and J.A. Jacko (eds.), The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging

(3)

3 de 44

Porque visualização?

Uma grande quantidade de informação pode ser condensada

em uma simples visualização

“Uma imagem vale mais que mil palavras”

Foto tirada por Nick

Ut, Vietnã, 1972, Prêmio Pulitzer

(4)

4 de 44

Exemplo

(5)

5 de 44

(6)

6 de 44

Métodos de visualização

Orientada a pixel

Projeção geométrica

Iconográfica

Hierárquica

(7)

7 de 44

Orientada a pixel

Mapea o conjunto de valores de cada atributo em

pixels na tela

(8)

8 de 44

Orientada a pixel

(a) Representing a data record

(9)

9 de 44

Iris data

@RELATION iris

@ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL

@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 7.0,3.2,4.7,1.4,Iris-versicolor 6.4,3.2,4.5,1.5,Iris-versicolor 6.9,3.1,4.9,1.5,Iris-versicolor 5.5,2.3,4.0,1.3,Iris-versicolor 6.3,3.3,6.0,2.5,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 7.1,3.0,5.9,2.1,Iris-virginica 6.3,2.9,5.6,1.8,Iris-virginica 6.5,3.0,5.8,2.2,Iris-virginica

(10)

10 de 44

(11)

11 de 44

Projeção geométrica

Matriz de scatterplot

Landscape

Table lens

Coordenadas paralelas

(12)

12 de 44

(13)

13 de 44

(14)

14 de 44

(15)

15 de 44

(16)

16 de 44

(17)

17 de 44

(18)

18 de 44

Iconográfica

As dimensões de um conjunto de dados são mapeadas

para certas características dos ícones

Métodos

Faces de Chernoff

Stick Figures

(19)

19 de 44

Faces de Chernoff

10 Parâmetros

Head Eccenntricity

Eye Eccentricity

Pupil Size

Eyebrow Slope

Nose Size

Mouth Vertical Offset

Eye Spacing

Eye Size

Mouth Width

Mouth Openness

(20)

20 de 44

Stick Figures

(21)

21 de 44

Hierárquica

Visualização dos dados usando um particionamento

hierárquicos em subespaços

Métodos

Dimensional stacking

Tree-Map

Cone Trees

Info Cube

Hierarquical Tree

(22)

22 de 44

Dimensional Stacking

Visualization of oil mining data with longitude and latitude mapped to the outer x-, y-axes and ore grade and depth mapped to the inner x-, y-axes

(23)

23 de 44

Tree Map

Schneiderman@UMD: Tree-Map of a File System Schneiderman@UMD: Tree-Map to support large data sets of a million items

(24)

24 de 44

Info Cube

Técnica de

visualização em 3-d

onde a informação

é mostrada em

cubos aninhados

semi-transparentes

(25)

25 de 44

(26)

26 de 44

(27)

27 de 44

Complexas

(28)

28 de 44

Interatividade

(29)

29 de 44

Similaridade e Diferença

Similaridade

Medida numérica que mostra o quão próximos estão

dois objetos

Valores maiores quando os objetos são parecidos

Valores frequentemente estão num intervalo [0,1]

(30)

30 de 44

Similaridade e Diferença

Diferença

Medida numérica que mostra o quão diferente são dois

objetos

Valores menores quando os objetos são mais diferentes

Limite superior varia

Proximidade

(31)

31 de 44

dissimilaridade

Matriz de dados

n objetos

p dimensões

Matriz de dissimilaridade

Registra somente a distância

Matriz triangular

np

x

...

nf

x

...

n1

x

...

...

...

...

...

ip

x

...

if

x

...

i1

x

...

...

...

...

...

1p

x

...

1f

x

...

11

x

0

...

)

2

,

(

)

1

,

(

:

:

:

)

2

,

3

(

)

...

n

d

n

d

0

d

d(3,1

0

d(2,1)

0

(32)

32 de 44

Matriz de dados

standard deviation

(33)

33 de 44

(34)

34 de 44

Medida de proximidade para atributos

nominais

Pode ter 2 ou mais estados

Ex: vermelho, amarelo, azul, verda

Método 1

m: #coincidências , p: # variáveis

Método 2

Criar um atributo binário para cada m estado nominal

p

m

p

j

i

(35)

35 de 44

binários

Tabela de contingência

Atributos simétricos

Atributos assimétricos

Object

i

Object

j

(36)

36 de 44

Medida de proximidade para atributos

binários

Coeficiente Jaccard

(37)

37 de 44

binários

Exemplo

Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4

Jack M

Y

N

P

N

N

N

Mary F

Y

N

P

N

P

N

Jim

M

Y

P

N

N

N

N

75 . 0 2 1 1 2 1 ) , ( 67 . 0 1 1 1 1 1 ) , ( 33 . 0 1 0 2 1 0 ) , ( = + + + = = + + + = = + + + = mary jim d jim jack d mary jack d

(38)

38 de 44

Distância entre atributos numéricos

Distância Minkowski

Onde

i

= (

x

i1

,

x

i2

, …,

x

ip

) e

j

= (

x

j1

,

x

j2

, …,

x

jp

)

são dois

objetos p-dimensionais e h é a ordem

Propriedades

d(i, j) > 0 se i ≠ j e d(i,i) = 0

d(i,j) = d(j,i)

d(i, j)

d(i, k) + d(k, j)

(39)

39 de 44

Casos especiais de distância Minkowski

h = 1 ( L

1

norm) :

Distância Manhattan

h = 2 ( L

2

norm) :

Distância Euclidiana

h

→∞

( L

norm) :

Distância suprema

|

|

...

|

|

|

|

)

,(

2

2

1

1

x

j

ix

jx

ix

p

jx

p

ix

j

i

d

=

+

+

+

)

|

|

...

|

|

|

(|

)

,

(

2 2 2 2 2 1 1

x

j

x

i

x

j

x

i

p

x

j

p

i

x

j

i

d

=

+

+

+

(40)

40 de 44

Exemplo: Distância Minkowski

point attribute 1 attribute 2

x1 1 2 x2 3 5 x3 2 0 x4 4 5 L x1 x2 x3 x4 x1 0 x2 5 0 x3 3 6 0 x4 6 1 7 0 L2 x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 x4 4.24 1 5.39 0 L x1 x2 x3 x4 x1 0 x2 3 0 x3 2 5 0 x4 3 1 5 0

Manhattan (L

1

)

Euclidean (L

2

)

Supremum

0 2 4 2 4 x1 x2 x3 x4

(41)

41 de 44

Atributos ordinais

Pode ser discreto ou contínuo

A ordem é importante

Método

Substitui

x

if

pelo rank

Normalizar a nova variável para o intervalo [0,1]

Computar a diferença como se fosse um atributo

numérico intervalar

}

,...,

1

{

f if

M

r

1

1

=

f if if

M

r

z

(42)

42 de 44

Objetos com atributos mistos

Combinar todos os atributos em uma única matriz de

dissimilaridade

Transformar todos os atributos numa única escala

entre [0,1]

Calcular d

ij(f)

confome medidas estudados

considerando o tipo de cada atributo

Calcular a diferença entre os objetos

) ( 1 ) ( ) ( 1

)

,

(

f ij p f f ij f ij p f

d

j

i

d

δ

δ

= =

Σ

Σ

=

(43)

43 de 44

Um documento pode ser representado por centenas

de atributos, cada um registrando a frequência de

uma palavra ou de uma frase no documento

Se d

1

e d

2

são dois vetores (ex: vetor de frequência

de documentos)

cos(d1

, d

2) = (d1 . d2) /||d1|| ||d2||

Onde . é o produto interno entre os vetores e ||d|| é a

norma de d

(44)

44 de 44

Exemplo: Similaridade Cosseno

Encontre a similaridade entre os documentos 1 e 2

d

1

= (5, 0, 3, 0, 2, 0, 0, 2, 0, 0)

d

2

= (3, 0, 2, 0, 1, 1, 0, 1, 0, 1)

d

1

.

d

2

= 5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1 = 25

||d

1

||= (5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)

0.5

=(42)

0.5

= 6.481

||d

2

||= (3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)

0.5

=(17)

0.5

= 4.12

cos(d

1

, d

2

) = 0.94

Referências

Documentos relacionados