Nos cenários analisados o critério AIC apresentou uma tendência para a sobreestimação do número de componentes e o critério PC para a subestimação do número de componentes

(1)

( ) ( )

'

ˆ ˆ

1 1

ˆ 1 ^N ^S ^{s s} ^s ^{s s} ^s

C ns

n s

f f

N p

λ λ

= =

⎛ ∂ ∂ ⎞

= −

∑ ∑

⎜⎜⎝ ∂ θ θ ∂ θ θ⎟⎟⎠

xθ xθ

V θ θ (A.2.14)

Windham e Cutler (1992) comparam o desempenho do critério MIR e do procedimento MIREV (que é descrito no Apêndice 4) com o dos critérios AIC e PC, com base num conjunto de dados experimentais, obtidos por simulação Monte Carlo, de distribuições mistura normais bivariadas. Concluem que o critério MIREV apresenta um bom desempenho, especialmente quando existe uma grande sobreposição nas distribuições mistura. Nos cenários analisados o critério AIC apresentou uma tendência para a sobreestimação do número de componentes e o critério PC para a subestimação do número de componentes. Posteriormente, Cutler e Windham (1994) estudam o comportamento dos quatro critérios apresentados (entre 10 critérios seleccionados), obtendo resultados menos favoráveis (em termos relativos) para os critérios MIR, ALL, ANC e WID.

(2)

Considerem-se as matrizes F (A.2.1), F _c (A.2.2) já descritas e as matrizes V e V_C, definidas de acordo com (A.2.9) e (A.2.10), respectivamente,

( ) ( )

^´

logL logL E

⎛∂ ∂ ⎞

⎜ ⎟

= ⎜ ∂ ∂ ⎟

⎝ ⎠

xθ xθ

V θ θ (A.2.9)

( ) ( )

^'

1

S s s s s s s

C ns

s

f f

E p λ λ

=

⎛ ∂ ∂ ⎞

⎜ ⎟

= ⎜ ∂ ∂ ⎟

⎝

∑

^x^θ ^x^θ ⎠

V θ θ (A.2.10)

em que p_ns são as usuais probabilidades à posteriori de pertença aos segmentos.

O desenvolvimento do critério WID é motivado pela observação de que, se o modelo ajustado é correcto, F V= . Logo, partindo da relação F V F− = _c−V_c, obtém-se (A.2.11).

( )

1 2 1 2 1 2 1 2

c c c c c

− − − = − − −

F F V F I F V F (A.2.11)

Da expressão (A.2.11) decorre que uma forma de avaliar a ‘qualidade do ajustamento’ é comparar F_c⁻^{1 2}V F_{c c}⁻^{1 2} com a matriz identidade.

A medida proposta, WID, é dada por:

( )

WID max 1 _s

s λ

= − , (A.2.12)

em que λ₁,...,λ_S são os valores próprios de F_c⁻^{1 2}V F_{c c}⁻^{1 2}. O número estimado de componentes é determinado pela minimização de WID.

Em estudos de simulação Cutler e Windham (1994) propõem a determinação das matrizes F_c e V_c a partir de (A.2.13) e (A.2.14), respectivamente:

( )

2λ

⎛ ∂ xθ ⎞

(3)

1 1

1−θ_v₊ −θ_v θ_v−θ_v₋ converge para o critério MIR (A.2.6), em que | . | é uma norma conveniente do espaço euclidiano.

1 1

1 ^S ^S

S S

MIR θ θ

θ θ⁺ ₋

= − −

− (A.2.6)

Tal como o critério PC, o critério MIR não permite distinguir entre S=1 e S >1, dado que MIR₍_S₌₁₎ ≥MIR₍_S_>₁₎.

ALL E ANC – CRITÉRIO DA VEROSIMILHANÇA AJUSTADA E CRITÉRIO DO NÚMERO DE COMPONENTES AJUSTADO

Cutler e Windham (1994) propõem duas novas medidas de validação, obtidas a partir do critério MIR, a referir: critério da verosimilhança ajustada (ALL), ‘Adjusted Log- Likelihood’ (A.2.7) e critério do número de componentes ajustado (ANC), ‘Adjusted Number of Component’s (A.2.8):

( ) ( )

(

( ) ( )¹

)

ALL_s =MIR _s logL_s −logL (A.2.7)

em que logL_{( )}₁ é o valor da função de verosimilhança maximizada para um modelo com uma componente;.

( )

_{( )}

ANC_s = S−1 MIR _s (A.2.8)

O número de componentes a escolher deve maximizar os critérios MIR, ALL e ANC.

Para soluções monosegmento, o critério MIR assume o valor 1, pelo que os três critérios apenas são utilizados para a comparação de soluções com S >1.

WID – DISCREPÂNCIA DA INFORMAÇÃO INTRA-COMPONENTE

Cutler e Windham (1994) propõem ainda uma medida da discrepância de informação intra-componente, designada por WID, ‘Within Component Information Discrepancy’.

(4)

( ( ) )

2

2 1

log

S s s s

C ns

s s

E p λ f

=

⎛ ∂ ⎞

⎜ ⎟

= − ⎜⎝

∑

∂ ^x^θ ⎟⎠

F θ (A.2.2)

Windham e Cutler (1992) propõe a estimação das matrizes F e F_c através de ˆF (A.2.3) e F^ˆ_c (A.2.4), respectivamente.

2 2 ˆ 1

1 log

ˆ ^N

n

L

N ₌ ⁼

⎛∂ ⎞

= −

∑

⎜⎝ ∂ θ θ⎟⎠

F θ (A.2.3)

( )

2

2 ˆ

1 1

1 log

ˆ ^N ^S ^{s s} ^s

C ns

n s s

f N p

λ

= = =

⎧ ∂ ⎡ ⎤ ⎫

⎪ ⎣ ⎦ ⎪

=

∑ ∑

⎨⎪⎩ ∂ θ θ⎬⎪⎭ xθ

F θ (A.2.4)

A matriz F F_C⁻¹ , denominada por Windham e Cutler (1992) por matriz do rácio de informação (‘Ratio Information Matrix’), é uma medida da proporção de informação sobre os parâmetros disponível sem o conhecimento das pertenças aos segmentos das observações. No contexto da análise mistura, pode ser interpretada como a capacidade dos dados amostrais distinguirem as componentes da mistura (Windham e Cutler, 1992). O novo critério proposto, denominado por MIR – Minimum Information Ratio, varia, deste modo, entre 0 e 1: um valor elevado para o MIR sugere um bom agrupamento e um valor baixo um agrupamento fraco.

O critério MIR pode ser estimado facilmente quando o algoritmo EM é utilizado na obtenção das estimativas para os parâmetros do modelo. Louis (1982) e Sundberg (1976) mostraram que a taxa de convergência do algoritmo EM é o maior valor próprio de Ι−F F_c⁻¹ ; deste modo, o critério MIR pode ser calculado como (A.2.5):

(

¹

)

1 _c

MIR= − −I F F⁻ = 1- taxa de convergência do algoritmo EM (A.2.5) A taxa de convergência do algoritmo EM pode ser estimada a partir de rácios de distâncias entre iterações sucessivas. Em particular, se

{ }

θv é uma sequência de

(5)

APÊNDICE 2.CRITÉRIOS MIR

Cutler e Windham (1994) e Windham e Cutler (1992) propuseram a utilização de quatro medidas para a validação do número de componentes existentes num modelo mistura, a referir: Rácio de Informação Mínimo (MIR) ‘Mininum Information Ratio’ (Windham e Cutler, 1992), Verosimilhança Ajustada (ALL), ‘Adjusted Log-Likelihood’, Número de Componentes Ajustado (ANC), ‘Adjusted Number of Components’ e Informação da Discrepância Intra-componente (WID) ‘Within Component Infomation Discrepancy’

(Cutler e Windham, 1994). Este conjunto de critérios é particularmente interessante, na medida em que não se baseiam no princípio de penalização do logL , (tal como os critérios de classificação), podendo mesmo ser calculados com base na taxa de convergência do algoritmo EM quando este é utilizado na estimação dos parâmetros das componentes da mistura.

MIR – CRITÉRIO DO RÁCIO DE INFORMAÇÃO MÍNIMO

Windham e Cutler (1992) demonstram, com base em experiências numéricas, que a magnitude do menor valor próprio da matriz F F_c⁻¹ pode ser um bom indicador do número de componentes existentes numa mistura. A matriz F (A.2.1) é a usual matriz de informação de Fisher e a matriz F_c (A.2.2) a matriz de informação para a amostra classificada, ‘classification likelihood’, i.e., a matriz de informação de Fisher associada à função lnL_c. Denote-se esse valor próprio por m_S, supondo que se está a ajustar uma mistura com S componentes. A motivação subjacente ao critério MIR é a de que, heuristicamente, um valor elevado para o menor valor próprio m_s, 1,...,s= S, sugere um bom ajustamento dos dados, enquanto que um valor baixo sugere um ajustamento fraco. A matriz F mede a quantidade máxima de informação sobre os parâmetros que pode ser obtida a partir da amostra sem o conhecimento das pertenças aos segmentos dos consumidores. Quando essas probabilidades são conhecidas (i.e., estimadas), então é possível obter a matriz de Informação de Fisher da amostra classificada F_c.

2 2

logL E⎛∂ ⎞

= − ⎜ ⎟

⎝ ∂ ⎠

F θ (A.2.1)