Fundamentos dos Dados

(1)

Fundamentos dos Dados

SCC5836 – Visualização Computacional

Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic

paulovic@icmc.usp.br

Instituto de Ciências Matemáticas e de Computação (ICMC) Universidade de São Paulo (USP)

(2)

Sumário

1 Introdução

2 _{Tipos de Dados}

3 _{Estrutura Dentro e Entre Instâncias} 4 _{Processamento dos Dados}

Metadados e Estatística Valores Faltando Normalização Re-Amostragem

Redução de Dimensionalidade

Mapeando Dimensões Nominais para Números Agregação e Sumarização

(3)

Introdução

Dados podem vir desensores ou serem coletados, também podem ser gerados porsimulações ou computações

Dados podem sercrus (não tratados) ou podem ser derivados por meio de algum processo, como suavização, remoção de ruído, escala ou interpolação

(4)

Introdução

Dados podem vir desensores ou serem coletados, também podem ser gerados porsimulações ou computações

Dados podem sercrus (não tratados) ou podem ser derivados por meio de algum processo, como suavização, remoção de ruído, escala ou interpolação

(5)

Introdução

Dados consistem de n instâncias (r1, r2, r3, . . . , rn)

Cada uma consistindo de m (uma ou mais) observações ou variáveis

(v₁, v₂, v₃, . . . , v_m)

Cada observação pode ser um úniconúmero, símbolo ou cadeia de caracteres, ou uma estrutura mais complexa

(6)

Introdução

Uma variável pode ser

Independente (ivi): seu valor não é afetado ou controlado por outra variável, por exemplo, como tempo em uma série temporal

Dependente (dvj): é afetada pela variação de uma ou mais variáveis independentes

Assim uma instância pode ser definida como ri= (iv1, iv2, . . . , ivmi, dv1, dv2, . . . , dvmd)

Com mio número de variáveis independentes e mdo número de

(7)

Sumário

1 Introdução

2 _{Tipos de Dados}

5 _{Distâncias e Similaridades} 6 _Referências

(8)

Tipos de Dados

Cada variável representa um pedaço de informação e pode ser classificada comoordinal (númerica) e nominal (não-numérica)

Dados ordinais

binários: valores 0 e 1 discretos: valores inteiros

contínuos: representam valores reais

Dados nominais

categóricos: valor de uma lista finita de possibilidades (ex.

vermelho, azul e verde)

ranqueados: valor categórico com uma ordem (ex. pequeno,

médio e grande)

(9)

Tipos de Dados

Cada variável representa um pedaço de informação e pode ser classificada comoordinal (númerica) e nominal (não-numérica) Dados ordinais

Dados nominais

médio e grande)

(10)

Tipos de Dados

Cada variável representa um pedaço de informação e pode ser classificada comoordinal (númerica) e nominal (não-numérica) Dados ordinais

Dados nominais

(11)

Tipos de Dados

Os dados podem também ser classificados considerando

Relação de ordem: os dados podem ser ordenados – variáveis ranqueadas nominais e todas ordinais

Métrica de distância: distâncias podem ser calculadas entre instâncias – variáveis ordinais, mas não é comum em variáveis nominais

Existências de zero absoluto: menor valor fixo – diferenciar variáveis ordinais (ex. peso e saldo bancário) – somente possui zero absoluto se as 4 operações matemáticas puderem ser aplicadas (+, −, × e ÷)

(12)

Tipos de Dados

Os dados podem também ser classificados considerando Relação de ordem: os dados podem ser ordenados – variáveis ranqueadas nominais e todas ordinais

(13)

Tipos de Dados

(14)

Tipos de Dados

Existências de zero absoluto: menor valor fixo – diferenciar variáveis ordinais (ex. peso e saldo bancário) – somente possui zero absoluto se as 4 operações matemáticas puderem ser

(15)

Sumário

1 Introdução

2 _{Tipos de Dados}

3 _{Estrutura Dentro e Entre Instâncias}

4 _{Processamento dos Dados}

(16)

Estrutura Dentro e Entre Instâncias

Os dados são estruturados em termos derepresentação (sintaxe) e tipos derelacionamentos dentro e entre instâncias (semântica)

(17)

Escalares, Vetores e Tensores

Escalar

Uma número individual em uma instância é normalmente chamado deescalar

Múltiplos escalares podem compor um item de dados, referido como multi-dimensional, multi-variado ou multi-campo

Vetor

Múltiplos escalares relacionados podem compor umvetor

Vetores normalmente codificamdireção e magnitude, por

(18)

Escalares, Vetores e Tensores

Escalar

Uma número individual em uma instância é normalmente chamado deescalar

Múltiplos escalares podem compor um item de dados, referido como multi-dimensional, multi-variado ou multi-campo Vetor

Múltiplos escalares relacionados podem compor umvetor

Vetores normalmente codificamdireção e magnitude, por

(19)

Escalares, Vetores e Tensores

Tensores

Escalares e vetores são tipos simples detensores

Um tensor é definido por um rank e a dimensão do espaço no qual está definido

Representado como uma matriz ou vetor

Uma matriz 3 × 3 pode ser usada para representar um tensor de rank 2 no espaço 3D

(20)

Geometria e Grades

Geometria pode ser definida por exemploadicionando as coordenadas de uma instância

Geometria também pode ser definida por meio de umagrade (grid)

O conjunto de dados éestruturado de forma que instâncias de

dados sucessivas estãolocalizadas em posições sucessivas na

grade

Diferentessistemas de coordenadas são usados em conjuntos de dados estruturados como grades

Cartesiano, esférico e hiperbólico

Geometrianão-uniforme (ou irregular) também é comum

A densidade de cálculos, ou medidas, varia sobre o domínio As coordenadas geométricas devem fazer parte dos dados

(21)

Geometria e Grades

grade

(22)

Geometria e Grades

grade

(23)

Geometria e Grades

grade

(24)

Outras Formas de Estruturas

Tempo é outra forma usada para estruturar dados (timestamp), podendo ser medidas uniforme e não-uniformemente tomadas

Topologia também é outra forma de estruturar dados definindo como as instâncias de dados sãoconectadas

Pode ser definida como umavizinhança em uma grade, ou uma

definição dehierarquia ou grafo

Importante parare-amostragem e interpolação

Pode ser definidaexplicitamente ou por meio da estrutura dos dados

(25)

Outras Formas de Estruturas

Tempo é outra forma usada para estruturar dados (timestamp), podendo ser medidas uniforme e não-uniformemente tomadas Topologia também é outra forma de estruturar dados definindo como as instâncias de dados sãoconectadas

Pode ser definida como umavizinhança em uma grade, ou uma

definição dehierarquia ou grafo

Importante parare-amostragem e interpolação

Pode ser definidaexplicitamente ou por meio da estrutura dos dados

(26)

Outras Formas de Estruturas

Exemplos de dados estruturados

MRI (magnetic resonance imagery): densidade (escalar), com

três atributos espaciais, conectividade em uma grade 3D

CFD (computational fluid dynamics): três dimensões para

deslocamento, com uma atributo temporal e três espaciais, conectividade em uma grade 3D (uniforme e não-uniforme)

Financeiros: sem estrutura geométrica, n componentes

possivelmente independentes, nominal e ordinal, com atributo temporal

Sensoriamento remoto: múltiplos canais, com dois ou três

atributos espaciais, um temporal e conectividade por uma grade

Censo: múltiplos campos de todos os tipos, atributos espacial e

temporal, e conectividade dada pela similaridade dos campos

Redes sociais: campos de todos tipos, com vários atributos de

conectividade que podem ser espacial, temporal ou dependente de outros atributos

(27)

Outras Formas de Estruturas

(28)

Outras Formas de Estruturas

(29)

Outras Formas de Estruturas

(30)

Outras Formas de Estruturas

(31)

Outras Formas de Estruturas

(32)

Sumário

1 Introdução

2 _{Tipos de Dados}

4 _{Processamento dos Dados} Metadados e Estatística Valores Faltando Normalização Re-Amostragem

(33)

Processamento dos Dados

Em alguns casos pode ser preferível que dados “cru” sejam visualizados, por exemplo, em aplicações médicas, mas em outros as vezes énecessário alguma forma de

(34)

Sumário

1 Introdução

2 _{Tipos de Dados}

(35)

Metadados e Estatística

Metadados pode ajudar na interpretação dos dados, provendo informação como

ponto de referência para as medidas, unidades usadas nas medidas símbolo usado para valores que faltam resolução das medidas

(36)

Metadados e Estatística

Análise estatística pode prover informação útil como

detecção de valoresespúrios (dados medidos errados)

identificação deagrupamentos similares

(37)

Metadados e Estatística

Cálculos estatísticos mais comuns incluem a média (considerando o atributo j) µj= 1 n n

∑

i=1 (xij) e o desvio padrão σj= s 1 n n

∑

i=1 (xij− µj)2

(38)

Método Simples de Detecção de Anomalia

Supondo que o atributo j tenha uma distribuição Gaussiana N(µj, σj), primeiro transforme os dados para que µj= 0 e σj= 1 Se xijfor o valor do atributo j da instância i e c for uma constante, a probabilidade de que |xij| ≥ c cai rapidamente conforme c aumenta

Se α = prob(|xij| ≥ c), uma instância de dados é um outlier se |xij| ≥ c

(39)

Método Simples de Identificação de Atributos

Redundantes

A correlação indica o quanto dois atributos são (linearmente) relacionados

Sejam xie xjdois atributos, a correlação entre eles é calculada

como

cor(xi, xj) =

cov(xi, xj)

var(xi)var(xj)

com cov(xi, xj)a covariância entre xie xj

cov(xi, xj) = 1 m− 1 m

∑

k=1 (xki− µi)(xkj− µj) e var(xi)a variância de xi var(xi) = σi2

Valores de |cor(xi, xj)|próximos de 1 indicam alta correlação

(40)

Sumário

1 Introdução

2 _{Tipos de Dados}

(41)

Valores Faltando e Limpeza dos Dados

Em dados “reais” é normal quedados estejam faltando ou que estejamerrados

Estratégias comuns para lidar com esses problemas

Descartar as instâncias com defeito: pode representar grande

perda de informação

Assinalar um valorsentinela: cuidado para não usar a sentinela

nos cálculos

(42)

Valores Faltando e Limpeza dos Dados

nos cálculos

(43)

Valores Faltando e Limpeza dos Dados

nos cálculos

(44)

Valores Faltando e Limpeza dos Dados

nos cálculos

(45)

Data Imputation

Dois métodos simples de “imputation” são

Assinalar o valormédio: pode obscurecer valores espúrios

Assinalar um valor baseado novizinho mais próximo: no cálculo

(46)

Data Imputation

Dois métodos simples de “imputation” são

Assinalar o valormédio: pode obscurecer valores espúrios

Assinalar um valor baseado novizinho mais próximo: no cálculo

(47)

Sumário

1 Introdução

2 _{Tipos de Dados}

(48)

Normalização

Problema

Em aplicações que envovlam a comparação entre instâncias de dados dois diferentes cenários podem distorcer os resultados ou torná-los tendenciosos

Quando as normas Euclideanas dos vetores que representam as instâncias são muito diferentes

Quando uma (ou mais) coordenadas desses vetores está em uma escala diferente das outras coordenadas

Uma possível solução nesse cenário é aplicar um processo conhecido comoNormalização

Transformar os dados de forma que os mesmos obedeçam alguma

(49)

Normalização

Problema

Em aplicações que envovlam a comparação entre instâncias de dados dois diferentes cenários podem distorcer os resultados ou torná-los tendenciosos

Quando as normas Euclideanas dos vetores que representam as instâncias são muito diferentes

Quando uma (ou mais) coordenadas desses vetores está em uma escala diferente das outras coordenadas

Uma possível solução nesse cenário é aplicar um processo conhecido comoNormalização

Transformar os dados de forma que os mesmos obedeçam alguma

(50)

Normalização

Para se evitar o primeiro cenário pode-se transformar os dados tornando os vetores que representam as instâncias de dados unitários

x0_ij = xij/||xi|| para 1 ≤ j ≤ m

Os vetores podem ser a linhas ou colunas da matriz que representa os dados

(51)

Normalização

Para se evitar o primeiro cenário pode-se transformar os dados tornando os vetores que representam as instâncias de dados unitários

x0_ij = xij/||xi|| para 1 ≤ j ≤ m

Os vetores podem ser a linhas ou colunas da matriz que representa os dados

(52)

Normalização

Um outro processo de normalização consiste em transformar os dados para que os velores fiquem no intervalo [0, 1]

Nesse, se os valores máximo dmaxe mínimo dminforem conhecidos, fazemos

dnormaizado= (doriginal− dmin)/(dmax− dmin)

Em casos específicos é interessanteusar não os valores máximos e mínimos contidos nos dados, masvalores conhecidos, como nas porcentagens

(53)

Normalização

Um outro processo de normalização consiste em transformar os dados para que os velores fiquem no intervalo [0, 1]

Nesse, se os valores máximo dmaxe mínimo dminforem conhecidos, fazemos

dnormaizado= (doriginal− dmin)/(dmax− dmin)

Em casos específicos é interessanteusar não os valores máximos e mínimos contidos nos dados, masvalores conhecidos, como nas porcentagens

(54)

Normalização

Normalização pode distorcer os dados, por exemplo, na presença de valores espúrios, os dados podem ser “achatados”

Outra normalização conhecida, a“standardization” faz com que a média dos valores seja 0 e o desvio padrão 1

Considerando a média µje o desvio padrão σjdo atributo j, calculamos

(55)

Normalização

Normalização pode distorcer os dados, por exemplo, na presença de valores espúrios, os dados podem ser “achatados” Outra normalização conhecida, a“standardization” faz com que a média dos valores seja 0 e o desvio padrão 1

(56)

Normalização

Normalização pode distorcer os dados, por exemplo, na presença de valores espúrios, os dados podem ser “achatados” Outra normalização conhecida, a“standardization” faz com que a média dos valores seja 0 e o desvio padrão 1

(57)

Sumário

1 Introdução

2 _{Tipos de Dados}

(58)

Re-Amostragem e Extração de Sub-conjuntos

Pode ser interessante em muitos casos preencher “espaços” dentre duas amostras, para issointerpolação é usada para re-amostragem

Interpolação Linear

Dado valores de uma variável d em duas posições A e B, é possível estimar seu valor na posição C fazendo (porcentagem da distância entre A e B)

(xC− xA)/(xB− xA) = (dC− dA)/(dB− dA)

isto é

(59)

Re-Amostragem e Extração de Sub-conjuntos

Pode ser interessante em muitos casos preencher “espaços” dentre duas amostras, para issointerpolação é usada para re-amostragem

Interpolação Linear

Dado valores de uma variável d em duas posições A e B, é possível estimar seu valor na posição C fazendo (porcentagem da distância entre A e B)

(xC− xA)/(xB− xA) = (dC− dA)/(dB− dA)

isto é

(60)

Re-Amostragem e Extração de Sub-conjuntos

Outra forma é usar aequação paramétrica da reta (independente de dimensão)

Um ponto P(t) pode ser descrito em uma reta começando em PA e indo até PBcomo

P(t) = P_A+ Vt

Onde é o vetor de PBaté PA, V = PB− PA

Sabendo a localização PC, calculamos t e usamos o mesmo tipo de equação para calcular o valor do atributo

d(t) = d_A+ Ut

(61)

Re-Amostragem e Extração de Sub-conjuntos

P(t) = P_A+ Vt

d(t) = d_A+ Ut

(62)

Re-Amostragem e Extração de Sub-conjuntos

P(t) = P_A+ Vt

(63)

Re-Amostragem e Extração de Sub-conjuntos

Interpolação Bilinear

É possível estender esse conceito paraduas dimensões, repetindo esse procedimento para cada dimensão

Interpola inicialmente na horizontal (vertical) e então na vertical (horizontal)

(64)

Re-Amostragem e Extração de Sub-conjuntos

Além de expandir os dados também é possívelreduzi-los por meio de amostragem

Isso pode ser feito, por exemplo, selecionandodados

regularmente espaçados, mas pode levar a perda de informação

(mapas)

Outras abordagens envolvem o cálculo dasmédias em vizinhanças ou aseleção aleatória de um pixel em uma determinada região

(65)

Re-Amostragem e Extração de Sub-conjuntos

Além de expandir os dados também é possívelreduzi-los por meio de amostragem

Isso pode ser feito, por exemplo, selecionandodados

regularmente espaçados, mas pode levar a perda de informação

(mapas)

Outras abordagens envolvem o cálculo dasmédias em vizinhanças ou aseleção aleatória de um pixel em uma determinada região

(66)

Re-Amostragem e Extração de Sub-conjuntos

Figura :Imagens em menor resolução da caveira apresentada anteriormente usando replicação de pixels e cálculo de média.

(67)

Sumário

1 Introdução

2 _{Tipos de Dados}

(68)

Redução de Dimensionalidade

Nas situações em que adimensionalidade excede a capacidade da técnica de visualização é necessário uma reduçãopreservando, o máximo possível, informação contida nos dados

Essa redução pode ser feitamanualmente, selecionando os atributos, ou usando algumatécnica, como

Principal Component Analysis (PCA) Multdimensional Scaling (MDS) Self-organizing Maps (SOM)

(69)

Redução de Dimensionalidade

Nas situações em que adimensionalidade excede a capacidade da técnica de visualização é necessário uma reduçãopreservando, o máximo possível, informação contida nos dados

Essa redução pode ser feitamanualmente, selecionando os atributos, ou usando algumatécnica, como

Principal Component Analysis (PCA) Multdimensional Scaling (MDS) Self-organizing Maps (SOM)

(70)

Redução de Dimensionalidade

Figura :Projeção usando PCA do conjunto de dados Iris. Os elementos gráficos (glyphs) representam as 4 variáveis originais – cada linha emanando

(71)

Sumário

1 Introdução

2 _{Tipos de Dados}

(72)

Mapeando Dimensões Nominais para Números

No caso de valoresnominais ranqueados (qualidade do ar), o mapeamento édireto, mas para valores não ranqueados é um problema maiscomplexo (montadoras de carros)

Se as variáveis apresentarempoucos valores diferentes pode-se usarcor ou forma (não implica em uma relação de ordem)

Se existirapenas uma variável nominal podemos

Usar seu valor como umrótulo para a instância – para evitar

problemas de oclusão podemos mostrar mais densamente os rótulo perto do cursor

Podemosassinalar um valor numérico a mesma verificando as

outras variáveis (distâncias) e então usar MDS para definir as coordenadas uni-dimensionais (correspondence analysis)

(73)

Mapeando Dimensões Nominais para Números

Podemosassinalar um valor numérico a mesma verificando as

outras variáveis (distâncias) e então usar MDS para definir as coordenadas uni-dimensionais (correspondence analysis)

(74)

Mapeando Dimensões Nominais para Números

(75)

Sumário

1 Introdução

2 _{Tipos de Dados}

(76)

Agregação e Sumarização

Agregação

Pode ser útilagrupar dados e mostrar um representativo dos mesmos

Pode-se mostrar umamédia ou algum tipo de informação extra,

como o número de elementos do grupo

A agregação tem dois elementos

O método paradefinir os grupos

A abordagem paraapresentar os grupos resultantes

Ponto central éprover informação para ajudar o usuário a decidiranalisar mais a fundo os dados de um grupo

Suporte na detecção da variabilidade, presença de valores espúrios, etc. é essencial

(77)

Agregação e Sumarização

Agregação

Pode ser útilagrupar dados e mostrar um representativo dos mesmos

Pode-se mostrar umamédia ou algum tipo de informação extra,

como o número de elementos do grupo

A agregação tem dois elementos

O método paradefinir os grupos

A abordagem paraapresentar os grupos resultantes

Ponto central éprover informação para ajudar o usuário a decidiranalisar mais a fundo os dados de um grupo

Suporte na detecção da variabilidade, presença de valores espúrios, etc. é essencial

(78)

Agregação e Sumarização

(a) (b)

Figura :Conjunto Iris apresentado usando coordenadas paralelas. (a) conjunto original. (b) os centros e as extensões dos grupos após a agregação.

(79)

Observação Final

Se os dados forem processados e sofrerem alguma mudança, isso deve ser comunicado ao usuário analista

(80)

Sumário

1 Introdução

2 _{Tipos de Dados}

(81)

Distâncias

A forma como a distância (δ (xi, xj)) entre os objetos

multi-dimensionais X é calculada desempenha papel central Distância de Minkowski – família de métricas de distância denominadas normas Lp Lp(xi, xj) = ( m

∑

k=1 |xik− xjk|p) 1 p ₍₁₎

Com p = 1 obtém-se a distância Manhattan (City Block) Com p = 2 tem-se a distância Euclideana

(82)

Distâncias

Propriedades de uma Métrica (Distância) 1 _{Não-Negatividade: ∀x} i, xj∈ X, δ (xi, xj) ≥ 0 2 _{Identidade: ∀x} i, xj∈ X, xi= xj⇔ δ (xi, xj) = 0 3 _{Simetria: ∀x} i, xj∈ X, δ (xi, xj) = δ (xj, xi) 4 _{Desigualdade Triangular: ∀x} i, xj, xk∈ X, δ (xi, xk) ≤ δ (xi, xj) + δ (xj, xk)

(83)

Distâncias

Nem toda dissimilaridade é uma distância (métrica) – não precisa obedecer as propriedades métricas

Uma dissimilaridade pode ser o inverso de uma similaridade s(xi, xj) δ (xi, xj) =_s(x_i_,x1_j₎₊₁ δ (xi, xj) = e−s(xi,xj) δ (xi, xj) = 1 − s0(xi, xj) com s0_(x i, xj) = s(xi,xj)−smin smax−smin

Exemplo conhecido: dissimilaridade do cosseno

(84)

Distâncias Binárias

Para dados binários existem certos tipos de métricas específicas que devem ser usadas

http://people.revoledu.com/kardi/tutorial/Similarity/ BinaryVariables.html

(85)

Distâncias Binárias

p: número de variáveis 1 para ambas instâncias

q: número de variáveis 1 para uma instância e 0 para a outra r: número de variáveis 0 para uma instância e 1 para a outra s: número de variáreis 0 para ambas instâncias

t= p + q + r + s: número total de instâncias

dij= (q + r)/t(simple matching)

dij= (q + r)/(p + q + r)(Jaccard’s distance) dij= (q + r)(Hamming distance)

dij= (p + s)/t(simple matching coefficient) dij= p/t dij= p/(p + q + r)(Jaccard’s corfficient) dij= 2p/(2p + q + r) dij= 2(p + s)/(2(p + s) + q + r) dij= p/(q + r) dij= (p + s)/(q + r)

(86)

Sumário

1 Introdução

2 _{Tipos de Dados}

(87)

Referências

Ward, M., Grinstein, G. G., Keim, D.Interactive data visualization foundations, techniques, and applications. Natick, Mass., A K Peters, 2010.