Análise de Dados Simbólicos: Questões e Perspectivas. Dados Intervalares. Paula Brito. FEP / LIAAD-INESC Porto, LA Univ. of Porto, Portugal

(1)

Análise de Dados Simbólicos:

Questões e Perspectivas.

O caso particular dos

Dados Intervalares

Paula Brito

FEP / LIAAD-INESC Porto, LA Univ. of Porto, Portugal

(2)

Programa

Dos dados clássicos aos dados simbólicos

Variáveis “simbólicas”

Classificação conceptual versus classificação baseada em medidas de proximidade

Classificação não-hierárquica : Nuvens dinâmicas

Estandardização

Um modelo de regressão

Dispersão, associação e combinações lineares de variáveis intervalares

Análise discriminante

Modelização de variáveis intervalares

(3)

Dos dados clássicos

aos dados simbólicos

Análise de Dados Clássica:

Dados são representados numa matriz n x p

cada um dos n indivíduos (em linha) toma um

valor único para cada uma das p variáveis

(em coluna)

Modelo demasiado simples para representar

variabilidade incerteza

(4)

Dos dados clássicos

aos dados simbólicos

Dados simbólicos

_→

novos tipos de

variáveis

:

Variáveis a valores conjunto: os seus valores são subconjuntos de um conjunto subjacente

Variáveis intervalares

Variáveis categóricas multi-valuadas

Variáveis Modais: os seus valores são

distribuições sobre um conjunto subjacente

(5)

Dos dados clássicos aos dados

simbólicos :

Vari

á

veis intervalares

Ω = {ω₁ , ..., ω_n}

Y com domínio subjacente O ⊆ ||||||||

R

I = conjunto de intervalos de O

Y : Ω → I

(6)

Dados Intervalares

Y₁ … Y_j ... Y_p ω₁ [l₁₁ , u₁₁] ... [l_1j , u_1j] ... [l_1p , u_1p] ... ... ... ... ... ... ... ... ω_i [l_i1 , u_i1] ... [l_ij , u_ij] … [l_ip , u_ip] … … … … ω_n [l_n1 , u_n1] … [l_nj , u_nj] … [l_np , u_np]

(7)

Variáveis Modais

Ω = {ω₁ , ..., ω_n}

Y com domínio subjacente O={m₁, …, m_k}

Y : Ω → D ω_i → {m (p i ), , m (p i )} k k 1 1 ω ω L

(8)

A questão central

Os métodos de análise multivariada

baseiam-se com frequência em medidas dispersão.

Como avaliar a dispersão de dados simbólicos ?

Dispersão em torno de um “ponto” central versus medidas de generalidade :

(9)

Análise Classificatória

Métodos baseados em medidas de proximidade vs

métodos conceptuais.

Métodos conceptuais :

usualmente baseados em medidas de generalidade : se “reunirmos” dois elementos, que parte do espaço se “reunirmos” dois elementos, que parte do espaço de descrição é coberto ?

Métodos baseados em medidas de proximidade :

usualmente generalizações dos métodos correspondentes para dados “standard”. No entanto…

(10)

Classificação Hierárquica e Piramidal

Classificação “Numérica” – baseada em proximidades

Indices da Máximo, Mínimo, Média, Diâmetro,…

Ward: inércia (Hardy, 2006)

Classificação Simbólica : as classes são “conceitos”

Generalidade Mínima

Aumento Mínimo da Generalidade

A generalidade é avaliada segundo o método de

(11)

Avaliação da generalidade:

variáveis intervalares

Numa população de idades entre 15 e 60 anos, com salários entre 0 e 10000€_{, considere um grupo descrito por}

[idade ∈ [ 20 , 45]] ∧ [salário ∈ [1000 , 3000]] = e11 ∧ e12

m(Vi) = max Vi – min Vi (amplitude)

[idade ∈ [ 20 , 45]] ∧ [salário ∈ [1000 , 3000]] = e11 ∧ e12

55 , 0 45 25 15 60 20 45 ) 11 e ( G = = − − = 2 , 0 10000 2000 0 10000 1000 3000 ) 12 e ( G = = − − = 11 , 0 2 , 0 * 55 , 0 ) 1 s ( G = =

(12)

Avaliação da generalidade:

variáveis modais

Ao generalisar pelo Máximo

que usa para cada variável j o coeficiente de afinidade

∑ ∏ = = = j k 1 i ij p 1 j _j 1 p k 1 ) a ( G 12

que usa para cada variável j o coeficiente de afinidade (Matusita, 1951)entre (p_1j,…,p_kjj) e a distribuição

uniforme: G1(a) é máximo (=1) para p_ij = 1/k_j, i=1,…k : uniforme

Consideramos uma descrição tanto mais geral quanto

mais as distribuições se aproximarem da uniforme.

Método correpondente para a generalização pelo

(13)

Quais são mais dissemelhantes???

Se O = [0, 100] Sejam I1 = [10, 20] , I2 = [30, 40] Sejam I3 = [10, 100] , I4 = [9, 99] I1 ∪ I2 = [10, 40] G(I ∪ I ) = 30 = 0,3 I1 ∪ I2 = [10, 40] I3 ∪ I4 = [9, 100] 3 , 0 100 30 ) I I ( G ₁ ∪ ₂ = = 91 , 0 100 91 ) I I ( G ₃ ∪ ₄ = =

[

(30 10) (40 20)

]

800 ) I I ( L₂ ₁ ∪ ₂ = − 2 + − 2 1/2 =

[

(100 99) (10 9)

]

2 ) I I ( L₂ ₃ ∪ ₄ = − 2 + − 2 1/2 =

(14)

Quais são mais dissemelhantes???

Este problema não ocorre com dados

clássicos!

d (10, 30) > d (10, 20)

e

(15)

Classificação Hierárquica e Piramidal

Avaliação da Generalidade

Grau de Generalidade

Proporção do espaço de descrição coberto pela descrição da classe p 1 = j ) j (e G = (a) G ∏

[

]

j p 1 j j j j R V e Y a p 1 j ∧ = ∧ = = =

(16)

Algoritmo para classificação

simbólica (conceptual)

Começando com as classes singulares

Em cada etapa formar uma classe (p,s) união de (p₁, s₁) and (p₂ , s₂) tais que

p1, p2 possam ser reunidos, de acordo com

a estrutura escolhida

s = s1 ∪ s2 (completo)

extE s = p

a generalidade G(s) = G(s1 ∪ s2 ) é mínima

(17)

HIPYR

(18)

Classificação não-hierárquica (nuvens

dinâmicas) de dados intervalares

De Carvalho, Brito & Bock :

Método não-hierárquico

Distância L

₂

entre intervalos

18

Abordagem das nuvens dinâmicas

Até à convergência

(19)

Função de Afectação :

Dados os representantes (L₁,…, L_k),

a partição P = {P₁,…, P_k} é definida por:

P_h= {ω ∈ Ω : D(L_h , ω) ≤ D(L_m , ω), 1 ≤ m ≤ k}

Função de Representação :

Dada a partição (P₁,…, P_k),

os representantes (L₁,…, L_k) são definidos por :

L_h = L ∈ L _{: D(P}

(20)

Nuvens dinâmicas para

dados intervalares

Aplicando iterativamente a função de afectação

seguida da função de representação em alternância faz diminiur motonotamente o valor de

∑ = k D(P_h, _h) ) P , L ( W l 20 até que um mínimo local seja atingido.

O método minimiza assim

com respeito à partição P.

∑ = =1 h h h ) , P ( D ) P , L ( W l

∑

∑ ∑

−

+

−

=

= ∈ = k 1 h i P p 1 j 2 hj ij 2 hj ij h

)

]

u

[

]

l

([

))

P

(

L

,

L

(

W

(21)

Estandardização

Os valores de dissemelhanças e os resultados

de uma classificação são fortemente afectados por variações na escala das variáveis.

Algum tipo de estandardização deve ser

efectuada antes do processo de classificação,

Algum tipo de estandardização deve ser

efectuada antes do processo de classificação, por forma a ser possível obter um resultado

'objectivo' ou ‘invariante’ por efeito de escala.

A mesma transformação deve ser aplicada quer

ao limite superior quer ao limite inferior de cada intervalo.

(22)

Estandardização 1

Usa a dispersão dos centros dos intervalos

O primeiro método considera a média e a

dispersão dos centros dos intervalos e

estandardiza por forma a que os pontos centrais dos intervalos resultantes tenham média zero e dispersão 1 em cada dimensão.

dispersão 1 em cada dimensão.

(23)

Estandardização 2

Usa a dispersão dos limites dos intervalos

Avaliar a dispersão de uma variável intervalar

pela dispersão dos limites dos intervalos:

(24)

Estandardização 3

Usa a amplitude global

O terceito método de estandardização transforma,

para cada variável,os intervalos I_ij = [l_ij , u_ij]

(i=1,...,n) por forma a que a amplitude global dos n intervalos transformados seja o intervalo [0,1].

intervalos transformados seja o intervalo [0,1]. Min_j = Min { l_ij , u_ij, i=1,…,n } = Min { l_ij, i=1,…,n }

Max_j = Max { l_ij , u_ij, i=1,…,n } = Max { u_ij, i=1,…,n }

(25)

Resultados Experimentais

Estudos de simulação mostraram que a

estandardização melhora de forma

importante a qualidade da classificação

obtida (identificação de uma estrutura

imposta).

A estandardização 2 forneceu resultados

ligeiramente melhores no caso de classes

mal-separadas com intervalos de grandes

amplitudes.

(26)

Estandardização 2 : Consequências

Medida de “Covariância”

(27)

À procura do modelo de regressão

Y variável dependente X variável independente

(28)

Modelo de Regressão

i =1,..., n

28

α e β minimizam

Este modelo foi obtido independentemente por Neto e De Carvalho por minimização directa do critério (1).

(29)

Resultados Experimentais

Experiências de Monte-Carlo

Simulação de dados intervalares data com

diferentes graus de “linearidade”

Diferentes graus de variabilidade (amplitude

dos intervalos) e qualidade do ajustamento dos intervalos) e qualidade do ajustamento

Performance análoga à obtida pelo

método baseado nos centros (Billard and

Diday)

(MSE nos limites superiores e inferiores, R2 dos limites superiores e inferiores)

(30)

Dispersão, associação e

combinações lineares

(Duarte Silva & Brito)

I

=[

I

_ij

]

_{i=1,...,n, j=1,...,p}

I

_ij

= [l

_ij,

u

_ij

]

ββββ

=[

β

]

ββββ

=[

β

_ij

]

_{i=1,...,p, j=1,...,r}

Z=[Z

_ij

]

_{i=1,...,n, j=1,...,r}

β

Z

=

I

⊗

] , [ _ij _ij ij z z Z =

(31)

Dispersão, associação

e combinações lineares

β

=

β ⊗ I I

S

t

(P2)

ij p j j i β I I 1 ∑ × = β ⊗ = l l

(P1)

       ∑β = ∑β = = = p 1 j j ij i p 1 j j ij i u z l z l l l l

(LC1)

       ∑ β + ∑ β = ∑ β + ∑ β = < β > β < β > β 0 j ij 0 j ij i 0 j ij 0 j ij i j j j j l u z u l z l l l l l l l l l l

(LC2)

β

=

β ⊗ I I

S

t

(P2)

(32)

Dispersão, associação

e combinações lineares

LC1 é apropriada quando os limites

inferiores (respec. superiores) das

diferentes variáveis tendem a ocorrer

simultaneamente

“Correlação Interna” Positiva

LC1 não verifica P1

LC2 verifica P1 e é apropriada na

(33)

Dispersão, associação e

combinações lineares

Medidas de dispersão s

_j2

and associação

s

_jj’

dependem de l

_ij

e de u

_ij

simetricamente

LC1 e LC2 verificam P2

Variâncias de combinações lineares são formas

quadráticas, cujas razões são maximizadas por uma análise tradicional de valores e vectores próprios.

(34)

Análise Discriminante

1. Abordagem Distribucional

Hipótese equidistribucional

(Bertrand, Goupil, 2000) :

Assume-se uma distribuição uniforme

em cada intervalo observado

A dist. empírica de cada variável intervalar

é uma mistura de n leis uniformes

(35)

Análise discriminante

1. Abordagem Distribucional

(

)

n

(

)

2 ij ij n 2 ij ij 2 ij 2 j l u 1 u u l l 1 s =

_∑

+ + − _

_∑

+ _ ∑ = + = n 1 i ij ij j 2 u l n 1 m

(

)

(

)

1 i ij ij 2 1 i 2 ij ij ij 2 ij 2 j l u n 4 1 u u l l n 3 1 s _      + − + + =

∑

= =

(

)(

)

(

) (

)

      +       + − − + + =

∑

= = = n 1 i ' ij ' ij n 1 i ij ij 2 n 1 i ' ij ' ij ij ij ' jj u l u l n 4 1 u l u l n 4 1 s

(36)

Análise discriminante

1. Abordagem Distribucional

A partir destas medidas pode ser obtida a

decomposição em componentes

intra-grupos e (j

w _jj w _jj_'

≠

j’) and entre-grupos .

b_jj_'

grupos e (j

w _jj w _jj_'

≠

j’) and entre-grupos .

b_jj_'

As funções lineares são então

(37)

2. Abordagem dos Vértices

Cada indivíduo é representado pelos vértices do hipercubo respectivo :

⇒ a matriz original é expandida numa matriz de

dimensão (n × 2p₎× _p

Efectua-se uma análise clássica da matriz dos vértices.

Os limites da l-ésima função discriminante no indivíduo ω_isão: } Q q , z { Min z_il = _ql ∈ _i zil = Max{z_ql,q∈ Q_i }

(38)

3. Abordagem dos centros e amplitudes

Cada intervalo é representado pelo seu centro c_ij e

amplitude r_ij

Duas análises clássicas são então efectuadas :

Separadamente para C=[cij] e R=[rij]

(39)

Regras de Classificação

As regras de classificação são obtidas a

partir das representações no espaço

discriminante

Dist. Euclideana

Pontuais

Dist. Euclideana

Dist. Mahalanobis

Intervalares

Dist. Hausdorff

Outras distâncias intervalares

|} | |, Max{| ) , (z_i_l z _j_l = z_i_l − z _j_l z_il − z _jl δ

(40)

Resultados Experimentais

Separação apenas em termos de localização

de centros :

Os métodos que integram explicitamente as

amplitudes têm pior desempenho

Separação em termos de localização de

centros e de amplitudes:

Os métodos que integram explicitamente as

amplitudes têm o melhor desempenho

Métodos baseados em abordagens intervalares

capturam a informação sobre as amplitudes numa certa medida

(41)

Conclusões

A extensão das metodologias clássicas à

análise de dados intervalares levanta

novos problemas:

Como avaliar a dispersão ? Como avaliar a dispersão ?

Como definir combinações lineares ? Que propriedades se mantém válidas ?

(42)

Conclusões

Representações em espaços de baixa

dimensão podem assumir diferentes formas :

Intervalos, põe em evidência a variabilidade

inerente a cada observação

Pontos, permitem distinguir diferentes Pontos, permitem distinguir diferentes

contribuições para a separação entre os grupos

Em geral :

necessidade de

modelos estatísticos

, que abram caminho à estimação e aos testes de hipóteses.

(43)

Uma modelização para variáveis

intervalares

Sejam c_ij e r_ijo centro e a amplitude do intervalo I_ij = Y_j(ω_i).

Admitamos que a distribuição conjunta dos centros Admitamos que a distribuição conjunta dos centros C e dos logaritmos das amplitudes R é multinormal, isto é R*=log R, (C, R*) ~ N(µ, Σ),

[

]

t * R C |µ µ = µ       Σ Σ Σ Σ * R * R C * R * CR CC

(44)

Diferentes configurações

Mod Caracterização

Σ

1 Sem restrições Sem restrições

2 C_j não-correlacionado com Rℓ, ℓ ≠ j Σ_CR* = Σ_R*C diagonal

3 Y ’s independentes Σ ,Σ = Σ , Σ diag.

3 Y_j ’s independentes Σ_CC,Σ_CR* = Σ_R*C, Σ_R*R* diag.

4 C’s não-correlacionados com R’s Σ_CR* = Σ_R*C = 0 5 C’s e R’s não-correlacionados Σ diagonal

Notar que : 2 é um caso particular de 1,

3 e 4 são casos particulares de 2,

(45)

Testar configurações 3, 4 and 5 versus 1:

testar a independência de conjuntos de

variáveis

testes clássicos.

Testar a configuração 2 versus 1 e as

configurações 3, 4 e 5 versus uma mais

geral do que 1

princípio da razão de

verosimilhanças.

(46)

Os e.m.v. para µ and Σ na config. 1 são obviamente

os clássicos.

Prova-se que para as configurações 3, 4 e 5 e.m.v. podem ser obtidos a partir de estimadores

não-restritos inserindo “zeros” onde necessário. restritos inserindo “zeros” onde necessário.

Este resultado não se mantém para a conf. 2 onde Σ não pode ser escrita como uma matriz diagonal por blocos. Não se conhece nenhuma forma “fechada”

para o e.m.v.; a optimização poderá ser efectuada por métodos numéricos.

(47)

ANOVA E MANOVA

Cada variável intervalar Y_j é modelisada por um par (C_j ,R_j*):

análise de variância de Y_j é obtida por uma MANOVA bi-dimensional de (C_j ,R_j*).

Assumindo um modelo a um factor com k níveis (uma partição em k grupos?...):

em k grupos?...):

A hipótese nula consiste em considerar que os μ_•_jℓ são iguais em todos os grupos.

Razão de verosimilhanças (não podem ser garantidas

condições habituais para outros testes).

Mesmo raciocínio para os casos 3, 4 e 5.

A configuração 1 é a clássica,

(48)

Em todos os casos a razão de verosimilhanças λ é assimptoticamente qui-quadrada com _{n − k}g.l.

Uma análise simultânea de todas as variáveis Y ’s pode ser efectuada por uma MANOVA 2p dimensional.

(49)

Perspectivas

Aplicação desta modelização a outros modelos

multivariados.

Limitação do modelo normal :

Impõe uma distribuição simétrica para os centros e

uma relação específica ente a variância a a assimetria uma relação específica ente a variância a a assimetria para as amplitudes.

Modelo mais geral : família das distribuições skew-normal (e.g.Azzalini 1985, 2005).

Esta distribuição generaliza a Gaussiana introduzindo um parâmetro de forma adicional, mantendo muitas das propriedades matemáticas do modelo normal.

(50)

Referências

Brito, P. (2007): "Modelling and Analysing Interval Data". In: "Advances in

Data Analysis", Decker, R., Lenz, H.-J. (Eds.), Series "Studies in

Classificasão, Data Analysis and Knowledge Organizasão", Springer, Berlin, Heidelberg, New-York, 197-208.

Duarte Silva, A. P. , Brito, P. (2006). "Linear Discriminant Analysis for

Interval Data". Computasãoal Statistics, 21, 2, 289-308.

De Carvalho, F., Brito, P., Bock, H.-H. (2006). "Dynamic Clustering for

Interval Data Based on L2 Distance". Computasãoal Statistics, 21, 2, 231-250.

50

250.

Brito, P. (2002). "Hierarchical and Pyramidal Clustering for Symbolic Data",

Journal of the Japanese Society of Computasãoal Statistics, Vol. 15, 2, 231-244.

Brito, P., De Carvalho, F. (2002): "Symbolic Clustering of Constrained

Probabilistic Data". In: "Exploratory Data Analysis in Empirical Research", Opitz, O., Schvaiger, M., (Eds.), Series "Studies in Classificasão, Data

Analysis and Knowledge Organizasão", Springer Verlag, Heidelberg, 12-21.

Brito, P. (2000): "Hierarchical and Pyramidal Clustering with Complete

Symbolic Objects". In: "Analysis of Symbolic Data", Bock, H.-H., Diday, E., (Eds.), Springer Verlag, Berlin-Heidelberg, 312-324.

Brito, P. (1995). "Symbolic Objects : Order Structure and Pyramidal