• Nenhum resultado encontrado

Análise de Dados Simbólicos: Questões e Perspectivas. Dados Intervalares. Paula Brito. FEP / LIAAD-INESC Porto, LA Univ. of Porto, Portugal

N/A
N/A
Protected

Academic year: 2021

Share "Análise de Dados Simbólicos: Questões e Perspectivas. Dados Intervalares. Paula Brito. FEP / LIAAD-INESC Porto, LA Univ. of Porto, Portugal"

Copied!
50
0
0

Texto

(1)

Análise de Dados Simbólicos:

Questões e Perspectivas.

O caso particular dos

O caso particular dos

Dados Intervalares

Paula Brito

FEP / LIAAD-INESC Porto, LA Univ. of Porto, Portugal

(2)

Programa

 Dos dados clássicos aos dados simbólicos

 Variáveis “simbólicas”

 Classificação conceptual versus classificação baseada em medidas de proximidade

 Classificação não-hierárquica : Nuvens dinâmicas

 Estandardização

 Um modelo de regressão

 Dispersão, associação e combinações lineares de variáveis intervalares

 Análise discriminante

 Modelização de variáveis intervalares

(3)

Dos dados clássicos

aos dados simbólicos



Análise de Dados Clássica:

Dados são representados numa matriz n x p

cada um dos n indivíduos (em linha) toma um

cada um dos n indivíduos (em linha) toma um

valor único para cada uma das p variáveis

(em coluna)



Modelo demasiado simples para representar

 variabilidade  incerteza

(4)

Dos dados clássicos

aos dados simbólicos



Dados simbólicos

novos tipos de

variáveis

:

Variáveis a valores conjunto: os seus valores são subconjuntos de um conjunto subjacente

Variáveis intervalares

Variáveis categóricas multi-valuadas

Variáveis Modais: os seus valores são

distribuições sobre um conjunto subjacente

(5)

Dos dados clássicos aos dados

simbólicos :

Vari

á

veis intervalares

Ω = {ω1 , ..., ωn}

Y com domínio subjacente O ⊆ ||||||||

R

R

I = conjunto de intervalos de O

Y : Ω → I

(6)

Dados Intervalares

Y1 … Yj ... Yp ω1 [l11 , u11] ... [l1j , u1j] ... [l1p , u1p] ... ... ... ... ... ... ... ... ωi [li1 , ui1] ... [lij , uij] … [lip , uip] … … … … ωn [ln1 , un1] … [lnj , unj] … [lnp , unp]

(7)

Variáveis Modais

Ω = {ω1 , ..., ωn}

Y com domínio subjacente O={m1, …, mk}

Y : Ω → D ωi → {m (p i ), , m (p i )} k k 1 1 ω ω L

(8)

A questão central



Os métodos de análise multivariada

baseiam-se com frequência em medidas dispersão.

 Como avaliar a dispersão de dados simbólicos ?

 Como avaliar a dispersão de dados simbólicos ?

 Dispersão em torno de um “ponto” central versus medidas de generalidade :

(9)

Análise Classificatória

 Métodos baseados em medidas de proximidade vs

métodos conceptuais.

 Métodos conceptuais :

usualmente baseados em medidas de generalidade : se “reunirmos” dois elementos, que parte do espaço se “reunirmos” dois elementos, que parte do espaço de descrição é coberto ?

 Métodos baseados em medidas de proximidade :

usualmente generalizações dos métodos correspondentes para dados “standard”. No entanto…

(10)

Classificação Hierárquica e Piramidal

 Classificação “Numérica” – baseada em proximidades

 Indices da Máximo, Mínimo, Média, Diâmetro,…

 Ward: inércia (Hardy, 2006)

 Classificação Simbólica : as classes são “conceitos”

 Generalidade Mínima

 Aumento Mínimo da Generalidade

 A generalidade é avaliada segundo o método de

(11)

Avaliação da generalidade:

variáveis intervalares

Numa população de idades entre 15 e 60 anos, com salários entre 0 e 10000€, considere um grupo descrito por

[idade ∈ [ 20 , 45]] ∧ [salário ∈ [1000 , 3000]] = e11 ∧ e12

m(Vi) = max Vi – min Vi (amplitude)

[idade ∈ [ 20 , 45]] ∧ [salário ∈ [1000 , 3000]] = e11 ∧ e12

55 , 0 45 25 15 60 20 45 ) 11 e ( G = = − − = 2 , 0 10000 2000 0 10000 1000 3000 ) 12 e ( G = = − − = 11 , 0 2 , 0 * 55 , 0 ) 1 s ( G = =

(12)

Avaliação da generalidade:

variáveis modais

Ao generalisar pelo Máximo

que usa para cada variável j o coeficiente de afinidade

∑ ∏ = = = j k 1 i ij p 1 j j 1 p k 1 ) a ( G 12

que usa para cada variável j o coeficiente de afinidade (Matusita, 1951)entre (p1j,…,pkjj) e a distribuição

uniforme: G1(a) é máximo (=1) para pij = 1/kj, i=1,…k : uniforme

 Consideramos uma descrição tanto mais geral quanto

mais as distribuições se aproximarem da uniforme.

 Método correpondente para a generalização pelo

(13)

Quais são mais dissemelhantes???

 Se O = [0, 100]  Sejam I1 = [10, 20] , I2 = [30, 40]  Sejam I3 = [10, 100] , I4 = [9, 99]  I1 ∪ I2 = [10, 40] G(I ∪ I ) = 30 = 0,3  I1 ∪ I2 = [10, 40]  I3 ∪ I4 = [9, 100]   3 , 0 100 30 ) I I ( G 12 = = 91 , 0 100 91 ) I I ( G 34 = =

[

(30 10) (40 20)

]

800 ) I I ( L2 12 = − 2 + − 2 1/2 =

[

(100 99) (10 9)

]

2 ) I I ( L2 34 = − 2 + − 2 1/2 =

(14)

Quais são mais dissemelhantes???



Este problema não ocorre com dados

clássicos!

d (10, 30) > d (10, 20)

d (10, 30) > d (10, 20)

e

(15)

Classificação Hierárquica e Piramidal

 Avaliação da Generalidade

Grau de Generalidade

Proporção do espaço de descrição coberto pela descrição da classe p 1 = j ) j (e G = (a) G ∏

[

]

j p 1 j j j j R V e Y a p 1 j ∧ = ∧ = = =

(16)

Algoritmo para classificação

simbólica (conceptual)

Começando com as classes singulares

Em cada etapa formar uma classe (p,s) união de (p1 , s1) and (p2 , s2) tais que

 p1, p2 possam ser reunidos, de acordo com

a estrutura escolhida



s = s1 ∪ s2 (completo)



extE s = p



a generalidade G(s) = G(s1 ∪ s2 ) é mínima

(17)

HIPYR

(18)

Classificação não-hierárquica (nuvens

dinâmicas) de dados intervalares



De Carvalho, Brito & Bock :

Método não-hierárquico



Distância L

2

entre intervalos

18



Abordagem das nuvens dinâmicas

Até à convergência

(19)

Função de Afectação :

Dados os representantes (L1,…, Lk),

a partição P = {P1,…, Pk} é definida por:

Ph = {ω ∈ Ω : D(Lh , ω) ≤ D(Lm , ω), 1 ≤ m ≤ k}

Função de Representação :

Dada a partição (P1,…, Pk),

os representantes (L1,…, Lk) são definidos por :

Lh = L ∈ L : D(P

(20)

Nuvens dinâmicas para

dados intervalares

Aplicando iterativamente a função de afectação

seguida da função de representação em alternância faz diminiur motonotamente o valor de

∑ = k D(Ph, h) ) P , L ( W l 20 até que um mínimo local seja atingido.

O método minimiza assim

com respeito à partição P.

∑ = =1 h h h ) , P ( D ) P , L ( W l

∑ ∑

+

=

= ∈ = k 1 h i P p 1 j 2 hj ij 2 hj ij h

)

]

u

u

[

]

l

l

([

))

P

(

L

,

L

(

W

(21)

Estandardização

 Os valores de dissemelhanças e os resultados

de uma classificação são fortemente afectados por variações na escala das variáveis.

 Algum tipo de estandardização deve ser

efectuada antes do processo de classificação,

 Algum tipo de estandardização deve ser

efectuada antes do processo de classificação, por forma a ser possível obter um resultado

'objectivo' ou ‘invariante’ por efeito de escala.

 A mesma transformação deve ser aplicada quer

ao limite superior quer ao limite inferior de cada intervalo.

(22)

Estandardização 1

Usa a dispersão dos centros dos intervalos

 O primeiro método considera a média e a

dispersão dos centros dos intervalos e

estandardiza por forma a que os pontos centrais dos intervalos resultantes tenham média zero e dispersão 1 em cada dimensão.

dispersão 1 em cada dimensão.

(23)

Estandardização 2

Usa a dispersão dos limites dos intervalos

 Avaliar a dispersão de uma variável intervalar

pela dispersão dos limites dos intervalos:

(24)

Estandardização 3

Usa a amplitude global

 O terceito método de estandardização transforma,

para cada variável,os intervalos Iij = [lij , uij]

(i=1,...,n) por forma a que a amplitude global dos n intervalos transformados seja o intervalo [0,1].

intervalos transformados seja o intervalo [0,1]. Minj = Min { lij , uij, i=1,…,n } = Min { lij, i=1,…,n }

Maxj = Max { lij , uij, i=1,…,n } = Max { uij, i=1,…,n }

(25)

Resultados Experimentais



Estudos de simulação mostraram que a

estandardização melhora de forma

importante a qualidade da classificação

obtida (identificação de uma estrutura

imposta).

imposta).



A estandardização 2 forneceu resultados

ligeiramente melhores no caso de classes

mal-separadas com intervalos de grandes

amplitudes.

(26)

Estandardização 2 : Consequências

Medida de “Covariância”

(27)

À procura do modelo de regressão

Y variável dependente X variável independente

(28)

Modelo de Regressão

i =1,..., n

28

α e β minimizam

Este modelo foi obtido independentemente por Neto e De Carvalho por minimização directa do critério (1).

(29)

Resultados Experimentais



Experiências de Monte-Carlo



Simulação de dados intervalares data com

diferentes graus de “linearidade”

 Diferentes graus de variabilidade (amplitude

dos intervalos) e qualidade do ajustamento dos intervalos) e qualidade do ajustamento



Performance análoga à obtida pelo

método baseado nos centros (Billard and

Diday)

(MSE nos limites superiores e inferiores, R2 dos limites superiores e inferiores)

(30)

Dispersão, associação e

combinações lineares

(Duarte Silva & Brito)



I

=[

I

ij

]

i=1,...,n, j=1,...,p

I

ij

= [l

ij,

u

ij

]

ββββ

=[

β

]



ββββ

=[

β

ij

]

i=1,...,p, j=1,...,r 

Z=[Z

ij

]

i=1,...,n, j=1,...,r

β

Z

=

I

] , [ ij ij ij z z Z =

(31)

Dispersão, associação

e combinações lineares

β

β

=

β ⊗ I I

S

S

t



(P2)

ij p j j i β I I 1 ∑ × = β ⊗ = l l



(P1)

       ∑β = ∑β = = = p 1 j j ij i p 1 j j ij i u z l z l l l l

(LC1)

       ∑ β + ∑ β = ∑ β + ∑ β = < β > β < β > β 0 j ij 0 j ij i 0 j ij 0 j ij i j j j j l u z u l z l l l l l l l l l l

(LC2)

β

β

=

β ⊗ I I

S

S

t



(P2)

(32)

Dispersão, associação

e combinações lineares



LC1 é apropriada quando os limites

inferiores (respec. superiores) das

diferentes variáveis tendem a ocorrer

simultaneamente

simultaneamente

“Correlação Interna” Positiva



LC1 não verifica P1



LC2 verifica P1 e é apropriada na

(33)

Dispersão, associação e

combinações lineares

Medidas de dispersão s

j2

and associação

s

jj’

dependem de l

ij

e de u

ij

simetricamente

LC1 e LC2 verificam P2

Variâncias de combinações lineares são formas

quadráticas, cujas razões são maximizadas por uma análise tradicional de valores e vectores próprios.

(34)

Análise Discriminante

1. Abordagem Distribucional



Hipótese equidistribucional

(Bertrand, Goupil, 2000) :



Assume-se uma distribuição uniforme



Assume-se uma distribuição uniforme

em cada intervalo observado

 A dist. empírica de cada variável intervalar

é uma mistura de n leis uniformes

(35)

Análise discriminante

1. Abordagem Distribucional

(

)

n

(

)

2 ij ij n 2 ij ij 2 ij 2 j l u 1 u u l l 1 s =

+ + −

+  ∑ = + = n 1 i ij ij j 2 u l n 1 m

(

)

(

)

1 i ij ij 2 1 i 2 ij ij ij 2 ij 2 j l u n 4 1 u u l l n 3 1 s      + − + + =

= =

(

)(

)

(

) (

)

      +       + − − + + =

= = = n 1 i ' ij ' ij n 1 i ij ij 2 n 1 i ' ij ' ij ij ij ' jj u l u l n 4 1 u l u l n 4 1 s

(36)

Análise discriminante

1. Abordagem Distribucional

A partir destas medidas pode ser obtida a

decomposição em componentes

intra-grupos e (j

w jj w jj'

j’) and entre-grupos .

bjj'

grupos e (j

w jj w jj'

j’) and entre-grupos .

bjj'

As funções lineares são então

(37)

2. Abordagem dos Vértices

Cada indivíduo é representado pelos vértices do hipercubo respectivo :

⇒ a matriz original é expandida numa matriz de

dimensão (n × 2p) × p

dimensão (n × 2p) × p

Efectua-se uma análise clássica da matriz dos vértices.

Os limites da l-ésima função discriminante no indivíduo ωi são: } Q q , z { Min zil = ql ∈ i zil = Max{zql,q∈ Qi }

(38)

3. Abordagem dos centros e amplitudes

Cada intervalo é representado pelo seu centro cij e

amplitude rij

Duas análises clássicas são então efectuadas :



Separadamente para C=[cij] e R=[rij]

(39)

Regras de Classificação

As regras de classificação são obtidas a

partir das representações no espaço

discriminante

Dist. Euclideana

Pontuais

Dist. Euclideana

Dist. Mahalanobis

Intervalares

Dist. Hausdorff

Outras distâncias intervalares

|} | |, Max{| ) , (zil z jl = zilz jl zil − z jl δ

(40)

Resultados Experimentais

 Separação apenas em termos de localização

de centros :

 Os métodos que integram explicitamente as

amplitudes têm pior desempenho

 Separação em termos de localização de

centros e de amplitudes:

 Os métodos que integram explicitamente as

amplitudes têm o melhor desempenho

 Métodos baseados em abordagens intervalares

capturam a informação sobre as amplitudes numa certa medida

(41)

Conclusões



A extensão das metodologias clássicas à

análise de dados intervalares levanta

novos problemas:

 Como avaliar a dispersão ?  Como avaliar a dispersão ?

 Como definir combinações lineares ?  Que propriedades se mantém válidas ?

(42)

Conclusões



Representações em espaços de baixa

dimensão podem assumir diferentes formas :

Intervalos, põe em evidência a variabilidade

inerente a cada observação

Pontos, permitem distinguir diferentes Pontos, permitem distinguir diferentes

contribuições para a separação entre os grupos

Em geral :

necessidade de

modelos estatísticos

, que abram caminho à estimação e aos testes de hipóteses.

(43)

Uma modelização para variáveis

intervalares

Sejam cij e rij o centro e a amplitude do intervalo Iij = Yji).

Admitamos que a distribuição conjunta dos centros Admitamos que a distribuição conjunta dos centros C e dos logaritmos das amplitudes R é multinormal, isto é R*=log R, (C, R*) ~ N(µ, Σ),

[

]

t * R C |µ µ = µ       Σ Σ Σ Σ * R * R C * R * CR CC

(44)

Diferentes configurações

Mod Caracterização

Σ

1 Sem restrições Sem restrições

2 Cj não-correlacionado com Rℓ, ℓ ≠ j ΣCR* = ΣR*C diagonal

3 Y ’s independentes Σ ,Σ = Σ , Σ diag.

3 Yj ’s independentes ΣCCCR* = ΣR*C, ΣR*R* diag.

4 C’s não-correlacionados com R’s ΣCR* = ΣR*C = 0 5 C’s e R’s não-correlacionados Σ diagonal

Notar que : 2 é um caso particular de 1,

3 e 4 são casos particulares de 2,

(45)

Testar configurações 3, 4 and 5 versus 1:

testar a independência de conjuntos de

variáveis



testes clássicos.

Testar a configuração 2 versus 1 e as

Testar a configuração 2 versus 1 e as

configurações 3, 4 e 5 versus uma mais

geral do que 1



princípio da razão de

verosimilhanças.

(46)

Os e.m.v. para µ and Σ na config. 1 são obviamente

os clássicos.

Prova-se que para as configurações 3, 4 e 5 e.m.v. podem ser obtidos a partir de estimadores

não-restritos inserindo “zeros” onde necessário. restritos inserindo “zeros” onde necessário.

Este resultado não se mantém para a conf. 2 onde Σ não pode ser escrita como uma matriz diagonal por blocos. Não se conhece nenhuma forma “fechada”

para o e.m.v.; a optimização poderá ser efectuada por métodos numéricos.

(47)

ANOVA E MANOVA

Cada variável intervalar Yj é modelisada por um par (Cj ,Rj*):

 análise de variância de Yj é obtida por uma MANOVA bi-dimensional de (Cj ,Rj*).

Assumindo um modelo a um factor com k níveis (uma partição em k grupos?...):

em k grupos?...):

 A hipótese nula consiste em considerar que os μjℓ são iguais em todos os grupos.

 Razão de verosimilhanças (não podem ser garantidas

condições habituais para outros testes).

 Mesmo raciocínio para os casos 3, 4 e 5.

 A configuração 1 é a clássica,

(48)

 Em todos os casos a razão de verosimilhanças λ é assimptoticamente qui-quadrada com n − k g.l.

 Uma análise simultânea de todas as variáveis Y ’s pode ser efectuada por uma MANOVA 2p dimensional.

(49)

Perspectivas

 Aplicação desta modelização a outros modelos

multivariados.

 Limitação do modelo normal :

Impõe uma distribuição simétrica para os centros e

uma relação específica ente a variância a a assimetria uma relação específica ente a variância a a assimetria para as amplitudes.

Modelo mais geral : família das distribuições skew-normal (e.g.Azzalini 1985, 2005).

Esta distribuição generaliza a Gaussiana introduzindo um parâmetro de forma adicional, mantendo muitas das propriedades matemáticas do modelo normal.

(50)

Referências

 Brito, P. (2007): "Modelling and Analysing Interval Data". In: "Advances in

Data Analysis", Decker, R., Lenz, H.-J. (Eds.), Series "Studies in

Classificasão, Data Analysis and Knowledge Organizasão", Springer, Berlin, Heidelberg, New-York, 197-208.

 Duarte Silva, A. P. , Brito, P. (2006). "Linear Discriminant Analysis for

Interval Data". Computasãoal Statistics, 21, 2, 289-308.

 De Carvalho, F., Brito, P., Bock, H.-H. (2006). "Dynamic Clustering for

Interval Data Based on L2 Distance". Computasãoal Statistics, 21, 2, 231-250.

50

250.

 Brito, P. (2002). "Hierarchical and Pyramidal Clustering for Symbolic Data",

Journal of the Japanese Society of Computasãoal Statistics, Vol. 15, 2, 231-244.

 Brito, P., De Carvalho, F. (2002): "Symbolic Clustering of Constrained

Probabilistic Data". In: "Exploratory Data Analysis in Empirical Research", Opitz, O., Schvaiger, M., (Eds.), Series "Studies in Classificasão, Data

Analysis and Knowledge Organizasão", Springer Verlag, Heidelberg, 12-21.

 Brito, P. (2000): "Hierarchical and Pyramidal Clustering with Complete

Symbolic Objects". In: "Analysis of Symbolic Data", Bock, H.-H., Diday, E., (Eds.), Springer Verlag, Berlin-Heidelberg, 312-324.

 Brito, P. (1995). "Symbolic Objects : Order Structure and Pyramidal

Referências

Documentos relacionados

 Direito recebe informações de outros subsistemas sociais  Processa segundo a sua linguagem interna..  Envia informações para os

Explorando as questões relativas às comunidades disciplinares e epistêmicas, o artigo de Tânia Beraldo e Ozerina Oliveira, “Comunidades Epistêmicas e desafios da

Ocorre que foi o fornecimento de outra tabela, associado ao interesse em observar o céu, de pelo menos usar a tabela, que fez o participante se interessar em saber interpretar o

Terça-Feirq Noite 02 Maria Fernanda Cattani.. 2 PROGRAMA DE MONITORIAS HISTOLOGIA E EMBRIOLOGIA Segunda Feira Quarta-Feira Quinta-Feira Quinta-Feira Sexta-Feira Noite

Essa versão não altera nenhuma anterior Este medicamento é indicado quando se tem dificuldade para expectorar e há muita secreção densa e viscosa, tais como: bronquite crônica e

A combinação dessas dimensões resulta em quatro classes de abordagem comunicativa, que podem ser exemplificadas da seguinte forma: interativo/dialógico: professor e

O que estamos tentando fazer na PUCRS é atrair, manter e formar os melhores estudantes, criar novos laboratórios de pesquisa, gerar capital intelectual e estimular a interação e

Segundo dados da Secretaria de Direitos Humanos do Governo Federal (BRASIL, SDH-GF, 2012) 6 , o número de idosos que compõem a população brasileira tem aumentado gradualmente,