Análise de Dados Simbólicos:
Questões e Perspectivas.
O caso particular dos
O caso particular dos
Dados Intervalares
Paula Brito
FEP / LIAAD-INESC Porto, LA Univ. of Porto, Portugal
Programa
Dos dados clássicos aos dados simbólicos
Variáveis “simbólicas”
Classificação conceptual versus classificação baseada em medidas de proximidade
Classificação não-hierárquica : Nuvens dinâmicas
Estandardização
Um modelo de regressão
Dispersão, associação e combinações lineares de variáveis intervalares
Análise discriminante
Modelização de variáveis intervalares
Dos dados clássicos
aos dados simbólicos
Análise de Dados Clássica:
Dados são representados numa matriz n x p
cada um dos n indivíduos (em linha) toma um
cada um dos n indivíduos (em linha) toma um
valor único para cada uma das p variáveis
(em coluna)
Modelo demasiado simples para representar
variabilidade incerteza
Dos dados clássicos
aos dados simbólicos
Dados simbólicos
→
novos tipos de
variáveis
:
Variáveis a valores conjunto: os seus valores são subconjuntos de um conjunto subjacente
Variáveis intervalares
Variáveis categóricas multi-valuadas
Variáveis Modais: os seus valores são
distribuições sobre um conjunto subjacente
Dos dados clássicos aos dados
simbólicos :
Vari
á
veis intervalares
Ω = {ω1 , ..., ωn}
Y com domínio subjacente O ⊆ ||||||||
R
R
I = conjunto de intervalos de O
Y : Ω → I
Dados Intervalares
Y1 … Yj ... Yp ω1 [l11 , u11] ... [l1j , u1j] ... [l1p , u1p] ... ... ... ... ... ... ... ... ωi [li1 , ui1] ... [lij , uij] … [lip , uip] … … … … ωn [ln1 , un1] … [lnj , unj] … [lnp , unp]Variáveis Modais
Ω = {ω1 , ..., ωn}
Y com domínio subjacente O={m1, …, mk}
Y : Ω → D ωi → {m (p i ), , m (p i )} k k 1 1 ω ω L
A questão central
Os métodos de análise multivariada
baseiam-se com frequência em medidas dispersão.
Como avaliar a dispersão de dados simbólicos ?
Como avaliar a dispersão de dados simbólicos ?
Dispersão em torno de um “ponto” central versus medidas de generalidade :
Análise Classificatória
Métodos baseados em medidas de proximidade vs
métodos conceptuais.
Métodos conceptuais :
usualmente baseados em medidas de generalidade : se “reunirmos” dois elementos, que parte do espaço se “reunirmos” dois elementos, que parte do espaço de descrição é coberto ?
Métodos baseados em medidas de proximidade :
usualmente generalizações dos métodos correspondentes para dados “standard”. No entanto…
Classificação Hierárquica e Piramidal
Classificação “Numérica” – baseada em proximidades
Indices da Máximo, Mínimo, Média, Diâmetro,…
Ward: inércia (Hardy, 2006)
Classificação Simbólica : as classes são “conceitos”
Generalidade Mínima
Aumento Mínimo da Generalidade
A generalidade é avaliada segundo o método de
Avaliação da generalidade:
variáveis intervalares
Numa população de idades entre 15 e 60 anos, com salários entre 0 e 10000€, considere um grupo descrito por
[idade ∈ [ 20 , 45]] ∧ [salário ∈ [1000 , 3000]] = e11 ∧ e12
m(Vi) = max Vi – min Vi (amplitude)
[idade ∈ [ 20 , 45]] ∧ [salário ∈ [1000 , 3000]] = e11 ∧ e12
55 , 0 45 25 15 60 20 45 ) 11 e ( G = = − − = 2 , 0 10000 2000 0 10000 1000 3000 ) 12 e ( G = = − − = 11 , 0 2 , 0 * 55 , 0 ) 1 s ( G = =
Avaliação da generalidade:
variáveis modais
Ao generalisar pelo Máximo
que usa para cada variável j o coeficiente de afinidade
∑ ∏ = = = j k 1 i ij p 1 j j 1 p k 1 ) a ( G 12
que usa para cada variável j o coeficiente de afinidade (Matusita, 1951)entre (p1j,…,pkjj) e a distribuição
uniforme: G1(a) é máximo (=1) para pij = 1/kj, i=1,…k : uniforme
Consideramos uma descrição tanto mais geral quanto
mais as distribuições se aproximarem da uniforme.
Método correpondente para a generalização pelo
Quais são mais dissemelhantes???
Se O = [0, 100] Sejam I1 = [10, 20] , I2 = [30, 40] Sejam I3 = [10, 100] , I4 = [9, 99] I1 ∪ I2 = [10, 40] G(I ∪ I ) = 30 = 0,3 I1 ∪ I2 = [10, 40] I3 ∪ I4 = [9, 100] 3 , 0 100 30 ) I I ( G 1 ∪ 2 = = 91 , 0 100 91 ) I I ( G 3 ∪ 4 = =[
(30 10) (40 20)]
800 ) I I ( L2 1 ∪ 2 = − 2 + − 2 1/2 =[
(100 99) (10 9)]
2 ) I I ( L2 3 ∪ 4 = − 2 + − 2 1/2 =Quais são mais dissemelhantes???
Este problema não ocorre com dados
clássicos!
d (10, 30) > d (10, 20)
d (10, 30) > d (10, 20)
e
Classificação Hierárquica e Piramidal
Avaliação da Generalidade
Grau de Generalidade
Proporção do espaço de descrição coberto pela descrição da classe p 1 = j ) j (e G = (a) G ∏
[
]
j p 1 j j j j R V e Y a p 1 j ∧ = ∧ = = =Algoritmo para classificação
simbólica (conceptual)
Começando com as classes singulares
Em cada etapa formar uma classe (p,s) união de (p1 , s1) and (p2 , s2) tais que
p1, p2 possam ser reunidos, de acordo com
a estrutura escolhida
s = s1 ∪ s2 (completo) extE s = p a generalidade G(s) = G(s1 ∪ s2 ) é mínimaHIPYR
Classificação não-hierárquica (nuvens
dinâmicas) de dados intervalares
De Carvalho, Brito & Bock :
Método não-hierárquico
Distância L
2entre intervalos
18
Abordagem das nuvens dinâmicas
Até à convergência
Função de Afectação :
Dados os representantes (L1,…, Lk),
a partição P = {P1,…, Pk} é definida por:
Ph = {ω ∈ Ω : D(Lh , ω) ≤ D(Lm , ω), 1 ≤ m ≤ k}
Função de Representação :
Dada a partição (P1,…, Pk),
os representantes (L1,…, Lk) são definidos por :
Lh = L ∈ L : D(P
Nuvens dinâmicas para
dados intervalares
Aplicando iterativamente a função de afectação
seguida da função de representação em alternância faz diminiur motonotamente o valor de
∑ = k D(Ph, h) ) P , L ( W l 20 até que um mínimo local seja atingido.
O método minimiza assim
com respeito à partição P.
∑ = =1 h h h ) , P ( D ) P , L ( W l
∑
∑ ∑
−
+
−
=
= ∈ = k 1 h i P p 1 j 2 hj ij 2 hj ij h)
]
u
u
[
]
l
l
([
))
P
(
L
,
L
(
W
Estandardização
Os valores de dissemelhanças e os resultados
de uma classificação são fortemente afectados por variações na escala das variáveis.
Algum tipo de estandardização deve ser
efectuada antes do processo de classificação,
Algum tipo de estandardização deve ser
efectuada antes do processo de classificação, por forma a ser possível obter um resultado
'objectivo' ou ‘invariante’ por efeito de escala.
A mesma transformação deve ser aplicada quer
ao limite superior quer ao limite inferior de cada intervalo.
Estandardização 1
Usa a dispersão dos centros dos intervalos
O primeiro método considera a média e a
dispersão dos centros dos intervalos e
estandardiza por forma a que os pontos centrais dos intervalos resultantes tenham média zero e dispersão 1 em cada dimensão.
dispersão 1 em cada dimensão.
Estandardização 2
Usa a dispersão dos limites dos intervalos
Avaliar a dispersão de uma variável intervalar
pela dispersão dos limites dos intervalos:
Estandardização 3
Usa a amplitude global
O terceito método de estandardização transforma,
para cada variável,os intervalos Iij = [lij , uij]
(i=1,...,n) por forma a que a amplitude global dos n intervalos transformados seja o intervalo [0,1].
intervalos transformados seja o intervalo [0,1]. Minj = Min { lij , uij, i=1,…,n } = Min { lij, i=1,…,n }
Maxj = Max { lij , uij, i=1,…,n } = Max { uij, i=1,…,n }
Resultados Experimentais
Estudos de simulação mostraram que a
estandardização melhora de forma
importante a qualidade da classificação
obtida (identificação de uma estrutura
imposta).
imposta).
A estandardização 2 forneceu resultados
ligeiramente melhores no caso de classes
mal-separadas com intervalos de grandes
amplitudes.
Estandardização 2 : Consequências
Medida de “Covariância”
À procura do modelo de regressão
Y variável dependente X variável independente
Modelo de Regressão
i =1,..., n
28
α e β minimizam
Este modelo foi obtido independentemente por Neto e De Carvalho por minimização directa do critério (1).
Resultados Experimentais
Experiências de Monte-Carlo
Simulação de dados intervalares data com
diferentes graus de “linearidade”
Diferentes graus de variabilidade (amplitude
dos intervalos) e qualidade do ajustamento dos intervalos) e qualidade do ajustamento
Performance análoga à obtida pelo
método baseado nos centros (Billard and
Diday)
(MSE nos limites superiores e inferiores, R2 dos limites superiores e inferiores)
Dispersão, associação e
combinações lineares
(Duarte Silva & Brito)
I
=[
I
ij]
i=1,...,n, j=1,...,pI
ij= [l
ij,u
ij]
ββββ
=[
β
]
ββββ
=[
β
ij]
i=1,...,p, j=1,...,rZ=[Z
ij]
i=1,...,n, j=1,...,rβ
Z
=
I
⊗
] , [ ij ij ij z z Z =Dispersão, associação
e combinações lineares
β
β
=
β ⊗ I IS
S
t(P2)
ij p j j i β I I 1 ∑ × = β ⊗ = l l(P1)
∑β = ∑β = = = p 1 j j ij i p 1 j j ij i u z l z l l l l(LC1)
∑ β + ∑ β = ∑ β + ∑ β = < β > β < β > β 0 j ij 0 j ij i 0 j ij 0 j ij i j j j j l u z u l z l l l l l l l l l l(LC2)
β
β
=
β ⊗ I IS
S
t(P2)
Dispersão, associação
e combinações lineares
LC1 é apropriada quando os limites
inferiores (respec. superiores) das
diferentes variáveis tendem a ocorrer
simultaneamente
simultaneamente
“Correlação Interna” Positiva
LC1 não verifica P1
LC2 verifica P1 e é apropriada na
Dispersão, associação e
combinações lineares
Medidas de dispersão s
j2and associação
s
jj’dependem de l
ije de u
ijsimetricamente
LC1 e LC2 verificam P2
Variâncias de combinações lineares são formas
quadráticas, cujas razões são maximizadas por uma análise tradicional de valores e vectores próprios.
Análise Discriminante
1. Abordagem Distribucional
Hipótese equidistribucional
(Bertrand, Goupil, 2000) :
Assume-se uma distribuição uniforme
Assume-se uma distribuição uniforme
em cada intervalo observado
A dist. empírica de cada variável intervalar
é uma mistura de n leis uniformes
Análise discriminante
1. Abordagem Distribucional
(
)
n(
)
2 ij ij n 2 ij ij 2 ij 2 j l u 1 u u l l 1 s =∑
+ + − ∑
+ ∑ = + = n 1 i ij ij j 2 u l n 1 m(
)
(
)
1 i ij ij 2 1 i 2 ij ij ij 2 ij 2 j l u n 4 1 u u l l n 3 1 s + − + + =∑
∑
= =(
)(
)
(
) (
)
+ + − − + + =∑
∑
∑
= = = n 1 i ' ij ' ij n 1 i ij ij 2 n 1 i ' ij ' ij ij ij ' jj u l u l n 4 1 u l u l n 4 1 sAnálise discriminante
1. Abordagem Distribucional
A partir destas medidas pode ser obtida a
decomposição em componentes
intra-grupos e (j
w jj w jj'≠
j’) and entre-grupos .
bjj'grupos e (j
w jj w jj'≠
j’) and entre-grupos .
bjj'As funções lineares são então
2. Abordagem dos Vértices
Cada indivíduo é representado pelos vértices do hipercubo respectivo :
⇒ a matriz original é expandida numa matriz de
dimensão (n × 2p) × p
dimensão (n × 2p) × p
Efectua-se uma análise clássica da matriz dos vértices.
Os limites da l-ésima função discriminante no indivíduo ωi são: } Q q , z { Min zil = ql ∈ i zil = Max{zql,q∈ Qi }
3. Abordagem dos centros e amplitudes
Cada intervalo é representado pelo seu centro cij e
amplitude rij
Duas análises clássicas são então efectuadas :
Separadamente para C=[cij] e R=[rij]Regras de Classificação
As regras de classificação são obtidas a
partir das representações no espaço
discriminante
Dist. Euclideana
Pontuais
Dist. Euclideana
Dist. Mahalanobis
Intervalares
Dist. Hausdorff
Outras distâncias intervalares
|} | |, Max{| ) , (zil z jl = zil − z jl zil − z jl δ
Resultados Experimentais
Separação apenas em termos de localização
de centros :
Os métodos que integram explicitamente as
amplitudes têm pior desempenho
Separação em termos de localização de
centros e de amplitudes:
Os métodos que integram explicitamente as
amplitudes têm o melhor desempenho
Métodos baseados em abordagens intervalares
capturam a informação sobre as amplitudes numa certa medida
Conclusões
A extensão das metodologias clássicas à
análise de dados intervalares levanta
novos problemas:
Como avaliar a dispersão ? Como avaliar a dispersão ?
Como definir combinações lineares ? Que propriedades se mantém válidas ?
Conclusões
Representações em espaços de baixa
dimensão podem assumir diferentes formas :
Intervalos, põe em evidência a variabilidade
inerente a cada observação
Pontos, permitem distinguir diferentes Pontos, permitem distinguir diferentes
contribuições para a separação entre os grupos
Em geral :
necessidade de
modelos estatísticos
, que abram caminho à estimação e aos testes de hipóteses.Uma modelização para variáveis
intervalares
Sejam cij e rij o centro e a amplitude do intervalo Iij = Yj(ωi).
Admitamos que a distribuição conjunta dos centros Admitamos que a distribuição conjunta dos centros C e dos logaritmos das amplitudes R é multinormal, isto é R*=log R, (C, R*) ~ N(µ, Σ),
[
]
t * R C |µ µ = µ Σ Σ Σ Σ * R * R C * R * CR CCDiferentes configurações
Mod Caracterização
Σ
1 Sem restrições Sem restrições
2 Cj não-correlacionado com Rℓ, ℓ ≠ j ΣCR* = ΣR*C diagonal
3 Y ’s independentes Σ ,Σ = Σ , Σ diag.
3 Yj ’s independentes ΣCC,ΣCR* = ΣR*C, ΣR*R* diag.
4 C’s não-correlacionados com R’s ΣCR* = ΣR*C = 0 5 C’s e R’s não-correlacionados Σ diagonal
Notar que : 2 é um caso particular de 1,
3 e 4 são casos particulares de 2,
Testar configurações 3, 4 and 5 versus 1:
testar a independência de conjuntos de
variáveis
testes clássicos.
Testar a configuração 2 versus 1 e as
Testar a configuração 2 versus 1 e as
configurações 3, 4 e 5 versus uma mais
geral do que 1
princípio da razão de
verosimilhanças.
Os e.m.v. para µ and Σ na config. 1 são obviamente
os clássicos.
Prova-se que para as configurações 3, 4 e 5 e.m.v. podem ser obtidos a partir de estimadores
não-restritos inserindo “zeros” onde necessário. restritos inserindo “zeros” onde necessário.
Este resultado não se mantém para a conf. 2 onde Σ não pode ser escrita como uma matriz diagonal por blocos. Não se conhece nenhuma forma “fechada”
para o e.m.v.; a optimização poderá ser efectuada por métodos numéricos.
ANOVA E MANOVA
Cada variável intervalar Yj é modelisada por um par (Cj ,Rj*):
análise de variância de Yj é obtida por uma MANOVA bi-dimensional de (Cj ,Rj*).
Assumindo um modelo a um factor com k níveis (uma partição em k grupos?...):
em k grupos?...):
A hipótese nula consiste em considerar que os μ•jℓ são iguais em todos os grupos.
Razão de verosimilhanças (não podem ser garantidas
condições habituais para outros testes).
Mesmo raciocínio para os casos 3, 4 e 5.
A configuração 1 é a clássica,
Em todos os casos a razão de verosimilhanças λ é assimptoticamente qui-quadrada com n − k g.l.
Uma análise simultânea de todas as variáveis Y ’s pode ser efectuada por uma MANOVA 2p dimensional.
Perspectivas
Aplicação desta modelização a outros modelos
multivariados.
Limitação do modelo normal :
Impõe uma distribuição simétrica para os centros e
uma relação específica ente a variância a a assimetria uma relação específica ente a variância a a assimetria para as amplitudes.
Modelo mais geral : família das distribuições skew-normal (e.g.Azzalini 1985, 2005).
Esta distribuição generaliza a Gaussiana introduzindo um parâmetro de forma adicional, mantendo muitas das propriedades matemáticas do modelo normal.
Referências
Brito, P. (2007): "Modelling and Analysing Interval Data". In: "Advances in
Data Analysis", Decker, R., Lenz, H.-J. (Eds.), Series "Studies in
Classificasão, Data Analysis and Knowledge Organizasão", Springer, Berlin, Heidelberg, New-York, 197-208.
Duarte Silva, A. P. , Brito, P. (2006). "Linear Discriminant Analysis for
Interval Data". Computasãoal Statistics, 21, 2, 289-308.
De Carvalho, F., Brito, P., Bock, H.-H. (2006). "Dynamic Clustering for
Interval Data Based on L2 Distance". Computasãoal Statistics, 21, 2, 231-250.
50
250.
Brito, P. (2002). "Hierarchical and Pyramidal Clustering for Symbolic Data",
Journal of the Japanese Society of Computasãoal Statistics, Vol. 15, 2, 231-244.
Brito, P., De Carvalho, F. (2002): "Symbolic Clustering of Constrained
Probabilistic Data". In: "Exploratory Data Analysis in Empirical Research", Opitz, O., Schvaiger, M., (Eds.), Series "Studies in Classificasão, Data
Analysis and Knowledge Organizasão", Springer Verlag, Heidelberg, 12-21.
Brito, P. (2000): "Hierarchical and Pyramidal Clustering with Complete
Symbolic Objects". In: "Analysis of Symbolic Data", Bock, H.-H., Diday, E., (Eds.), Springer Verlag, Berlin-Heidelberg, 312-324.
Brito, P. (1995). "Symbolic Objects : Order Structure and Pyramidal