1 de 44
Aula 04: Dados
2 de 44
Visualização da informação
“Uso de representações visuais, interativas e suportadas
por computador de dados abstratos para ampliar a
cognição”
Stuart Card, Information visualization, in A. Sears and J.A. Jacko (eds.), The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging
3 de 44
Porque visualização?
Uma grande quantidade de informação pode ser condensada
em uma simples visualização
“Uma imagem vale mais que mil palavras”
Foto tirada por Nick
Ut, Vietnã, 1972, Prêmio Pulitzer
4 de 44
Exemplo
5 de 44
6 de 44
Métodos de visualização
Orientada a pixel
Projeção geométrica
Iconográfica
Hierárquica
7 de 44
Orientada a pixel
Mapea o conjunto de valores de cada atributo em
pixels na tela
8 de 44
Orientada a pixel
(a) Representing a data record
9 de 44
Iris data
@RELATION iris
@ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 7.0,3.2,4.7,1.4,Iris-versicolor 6.4,3.2,4.5,1.5,Iris-versicolor 6.9,3.1,4.9,1.5,Iris-versicolor 5.5,2.3,4.0,1.3,Iris-versicolor 6.3,3.3,6.0,2.5,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 7.1,3.0,5.9,2.1,Iris-virginica 6.3,2.9,5.6,1.8,Iris-virginica 6.5,3.0,5.8,2.2,Iris-virginica
10 de 44
11 de 44
Projeção geométrica
Matriz de scatterplot
Landscape
Table lens
Coordenadas paralelas
12 de 44
13 de 44
14 de 44
15 de 44
16 de 44
17 de 44
18 de 44
Iconográfica
As dimensões de um conjunto de dados são mapeadas
para certas características dos ícones
Métodos
Faces de Chernoff
Stick Figures
19 de 44
Faces de Chernoff
10 Parâmetros
Head Eccenntricity
Eye Eccentricity
Pupil Size
Eyebrow Slope
Nose Size
Mouth Vertical Offset
Eye Spacing
Eye Size
Mouth Width
Mouth Openness
20 de 44
Stick Figures
21 de 44
Hierárquica
Visualização dos dados usando um particionamento
hierárquicos em subespaços
Métodos
Dimensional stacking
Tree-Map
Cone Trees
Info Cube
Hierarquical Tree
22 de 44
Dimensional Stacking
Visualization of oil mining data with longitude and latitude mapped to the outer x-, y-axes and ore grade and depth mapped to the inner x-, y-axes
23 de 44
Tree Map
Schneiderman@UMD: Tree-Map of a File System Schneiderman@UMD: Tree-Map to support large data sets of a million items
24 de 44
Info Cube
Técnica de
visualização em 3-d
onde a informação
é mostrada em
cubos aninhados
semi-transparentes
25 de 44
26 de 44
27 de 44
Complexas
28 de 44
Interatividade
29 de 44
Similaridade e Diferença
Similaridade
Medida numérica que mostra o quão próximos estão
dois objetos
Valores maiores quando os objetos são parecidos
Valores frequentemente estão num intervalo [0,1]
30 de 44
Similaridade e Diferença
Diferença
Medida numérica que mostra o quão diferente são dois
objetos
Valores menores quando os objetos são mais diferentes
Limite superior varia
Proximidade
31 de 44
dissimilaridade
Matriz de dados
n objetos
p dimensões
Matriz de dissimilaridade
Registra somente a distância
Matriz triangular
np
x
...
nf
x
...
n1
x
...
...
...
...
...
ip
x
...
if
x
...
i1
x
...
...
...
...
...
1p
x
...
1f
x
...
11
x
0
...
)
2
,
(
)
1
,
(
:
:
:
)
2
,
3
(
)
...
n
d
n
d
0
d
d(3,1
0
d(2,1)
0
32 de 44
Matriz de dados
standard deviation
33 de 44
34 de 44
Medida de proximidade para atributos
nominais
Pode ter 2 ou mais estados
Ex: vermelho, amarelo, azul, verda
Método 1
m: #coincidências , p: # variáveis
Método 2
Criar um atributo binário para cada m estado nominal
p
m
p
j
i
35 de 44
binários
Tabela de contingência
Atributos simétricos
Atributos assimétricos
Object
i
Object
j
36 de 44
Medida de proximidade para atributos
binários
Coeficiente Jaccard
37 de 44
binários
Exemplo
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
Jack M
Y
N
P
N
N
N
Mary F
Y
N
P
N
P
N
Jim
M
Y
P
N
N
N
N
75 . 0 2 1 1 2 1 ) , ( 67 . 0 1 1 1 1 1 ) , ( 33 . 0 1 0 2 1 0 ) , ( = + + + = = + + + = = + + + = mary jim d jim jack d mary jack d38 de 44
Distância entre atributos numéricos
Distância Minkowski
Onde
i
= (
x
i1,
x
i2, …,
x
ip) e
j
= (
x
j1,
x
j2, …,
x
jp)
são dois
objetos p-dimensionais e h é a ordem
Propriedades
d(i, j) > 0 se i ≠ j e d(i,i) = 0
d(i,j) = d(j,i)
d(i, j)
≤
d(i, k) + d(k, j)
39 de 44
Casos especiais de distância Minkowski
h = 1 ( L
1norm) :
Distância Manhattan
h = 2 ( L
2norm) :
Distância Euclidiana
h
→∞
( L
∞norm) :
Distância suprema
|
|
...
|
|
|
|
)
,(
2
2
1
1
x
j
ix
jx
ix
p
jx
p
ix
j
i
d
=
−
+
−
+
+
−
)
|
|
...
|
|
|
(|
)
,
(
2 2 2 2 2 1 1x
j
x
i
x
j
x
i
px
j
pi
x
j
i
d
=
−
+
−
+
+
−
40 de 44
Exemplo: Distância Minkowski
point attribute 1 attribute 2
x1 1 2 x2 3 5 x3 2 0 x4 4 5 L x1 x2 x3 x4 x1 0 x2 5 0 x3 3 6 0 x4 6 1 7 0 L2 x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 x4 4.24 1 5.39 0 L∞ x1 x2 x3 x4 x1 0 x2 3 0 x3 2 5 0 x4 3 1 5 0
Manhattan (L
1)
Euclidean (L
2)
Supremum
0 2 4 2 4 x1 x2 x3 x441 de 44
Atributos ordinais
Pode ser discreto ou contínuo
A ordem é importante
Método
Substitui
x
ifpelo rank
Normalizar a nova variável para o intervalo [0,1]
Computar a diferença como se fosse um atributo
numérico intervalar
}
,...,
1
{
f ifM
r
∈
1
1
−
−
=
f if ifM
r
z
42 de 44
Objetos com atributos mistos
Combinar todos os atributos em uma única matriz de
dissimilaridade
Transformar todos os atributos numa única escala
entre [0,1]
Calcular d
ij(f)confome medidas estudados
considerando o tipo de cada atributo
Calcular a diferença entre os objetos
) ( 1 ) ( ) ( 1
)
,
(
f ij p f f ij f ij p fd
j
i
d
δ
δ
= =Σ
Σ
=
43 de 44
Um documento pode ser representado por centenas
de atributos, cada um registrando a frequência de
uma palavra ou de uma frase no documento
Se d
1e d
2são dois vetores (ex: vetor de frequência
de documentos)
cos(d1
, d
2) = (d1 . d2) /||d1|| ||d2||Onde . é o produto interno entre os vetores e ||d|| é a
norma de d
44 de 44