( ) ( )
'ˆ ˆ
1 1
ˆ 1 N S s s s s s s
C ns
n s
f f
N p
λ λ
= =
= =
⎛ ∂ ∂ ⎞
= −
∑ ∑
⎜⎜⎝ ∂ θ θ ∂ θ θ⎟⎟⎠xθ xθ
V θ θ (A.2.14)
Windham e Cutler (1992) comparam o desempenho do critério MIR e do procedimento MIREV (que é descrito no Apêndice 4) com o dos critérios AIC e PC, com base num conjunto de dados experimentais, obtidos por simulação Monte Carlo, de distribuições mistura normais bivariadas. Concluem que o critério MIREV apresenta um bom desempenho, especialmente quando existe uma grande sobreposição nas distribuições mistura. Nos cenários analisados o critério AIC apresentou uma tendência para a sobreestimação do número de componentes e o critério PC para a subestimação do número de componentes. Posteriormente, Cutler e Windham (1994) estudam o comportamento dos quatro critérios apresentados (entre 10 critérios seleccionados), obtendo resultados menos favoráveis (em termos relativos) para os critérios MIR, ALL, ANC e WID.
Considerem-se as matrizes F (A.2.1), F c (A.2.2) já descritas e as matrizes V e VC, definidas de acordo com (A.2.9) e (A.2.10), respectivamente,
( ) ( )
´logL logL E
⎛∂ ∂ ⎞
⎜ ⎟
= ⎜ ∂ ∂ ⎟
⎝ ⎠
xθ xθ
V θ θ (A.2.9)
( ) ( )
'1
S s s s s s s
C ns
s
f f
E p λ λ
=
⎛ ∂ ∂ ⎞
⎜ ⎟
= ⎜ ∂ ∂ ⎟
⎝
∑
xθ xθ ⎠V θ θ (A.2.10)
em que pns são as usuais probabilidades à posteriori de pertença aos segmentos.
O desenvolvimento do critério WID é motivado pela observação de que, se o modelo ajustado é correcto, F V= . Logo, partindo da relação F V F− = c−Vc, obtém-se (A.2.11).
( )
1 2 1 2 1 2 1 2
c c c c c
− − − = − − −
F F V F I F V F (A.2.11)
Da expressão (A.2.11) decorre que uma forma de avaliar a ‘qualidade do ajustamento’ é comparar Fc−1 2V Fc c−1 2 com a matriz identidade.
A medida proposta, WID, é dada por:
( )
WID max 1 s
s λ
= − , (A.2.12)
em que λ1,...,λS são os valores próprios de Fc−1 2V Fc c−1 2. O número estimado de componentes é determinado pela minimização de WID.
Em estudos de simulação Cutler e Windham (1994) propõem a determinação das matrizes Fc e Vc a partir de (A.2.13) e (A.2.14), respectivamente:
( )
2λ
⎛ ∂ xθ ⎞
1 1
1−θv+ −θv θv−θv− converge para o critério MIR (A.2.6), em que | . | é uma norma conveniente do espaço euclidiano.
1 1
1 S S
S S
MIR θ θ
θ θ+ −
= − −
− (A.2.6)
Tal como o critério PC, o critério MIR não permite distinguir entre S=1 e S >1, dado que MIR(S=1) ≥MIR(S>1).
ALL E ANC – CRITÉRIO DA VEROSIMILHANÇA AJUSTADA E CRITÉRIO DO NÚMERO DE COMPONENTES AJUSTADO
Cutler e Windham (1994) propõem duas novas medidas de validação, obtidas a partir do critério MIR, a referir: critério da verosimilhança ajustada (ALL), ‘Adjusted Log- Likelihood’ (A.2.7) e critério do número de componentes ajustado (ANC), ‘Adjusted Number of Component’s (A.2.8):
( ) ( )
(
( ) ( )1)
ALLs =MIR s logLs −logL (A.2.7)
em que logL( )1 é o valor da função de verosimilhança maximizada para um modelo com uma componente;.
( )
( )
( )ANCs = S−1 MIR s (A.2.8)
O número de componentes a escolher deve maximizar os critérios MIR, ALL e ANC.
Para soluções monosegmento, o critério MIR assume o valor 1, pelo que os três critérios apenas são utilizados para a comparação de soluções com S >1.
WID – DISCREPÂNCIA DA INFORMAÇÃO INTRA-COMPONENTE
Cutler e Windham (1994) propõem ainda uma medida da discrepância de informação intra-componente, designada por WID, ‘Within Component Information Discrepancy’.
( ( ) )
2
2 1
log
S s s s
C ns
s s
E p λ f
=
⎛ ∂ ⎞
⎜ ⎟
= − ⎜⎝
∑
∂ xθ ⎟⎠F θ (A.2.2)
Windham e Cutler (1992) propõe a estimação das matrizes F e Fc através de ˆF (A.2.3) e Fˆc (A.2.4), respectivamente.
2 2 ˆ 1
1 log
ˆ N
n
L
N = =
⎛∂ ⎞
= −
∑
⎜⎝ ∂ θ θ⎟⎠F θ (A.2.3)
( )
2
2 ˆ
1 1
1 log
ˆ N S s s s
C ns
n s s
f N p
λ
= = =
⎧ ∂ ⎡ ⎤ ⎫
⎪ ⎣ ⎦ ⎪
=
∑ ∑
⎨⎪⎩ ∂ θ θ⎬⎪⎭ xθF θ (A.2.4)
A matriz F FC−1 , denominada por Windham e Cutler (1992) por matriz do rácio de informação (‘Ratio Information Matrix’), é uma medida da proporção de informação sobre os parâmetros disponível sem o conhecimento das pertenças aos segmentos das observações. No contexto da análise mistura, pode ser interpretada como a capacidade dos dados amostrais distinguirem as componentes da mistura (Windham e Cutler, 1992). O novo critério proposto, denominado por MIR – Minimum Information Ratio, varia, deste modo, entre 0 e 1: um valor elevado para o MIR sugere um bom agrupamento e um valor baixo um agrupamento fraco.
O critério MIR pode ser estimado facilmente quando o algoritmo EM é utilizado na obtenção das estimativas para os parâmetros do modelo. Louis (1982) e Sundberg (1976) mostraram que a taxa de convergência do algoritmo EM é o maior valor próprio de Ι−F Fc−1 ; deste modo, o critério MIR pode ser calculado como (A.2.5):
(
1)
1 c
MIR= − −I F F− = 1- taxa de convergência do algoritmo EM (A.2.5) A taxa de convergência do algoritmo EM pode ser estimada a partir de rácios de distâncias entre iterações sucessivas. Em particular, se
{ }
θv é uma sequência deAPÊNDICE 2.CRITÉRIOS MIR
Cutler e Windham (1994) e Windham e Cutler (1992) propuseram a utilização de quatro medidas para a validação do número de componentes existentes num modelo mistura, a referir: Rácio de Informação Mínimo (MIR) ‘Mininum Information Ratio’ (Windham e Cutler, 1992), Verosimilhança Ajustada (ALL), ‘Adjusted Log-Likelihood’, Número de Componentes Ajustado (ANC), ‘Adjusted Number of Components’ e Informação da Discrepância Intra-componente (WID) ‘Within Component Infomation Discrepancy’
(Cutler e Windham, 1994). Este conjunto de critérios é particularmente interessante, na medida em que não se baseiam no princípio de penalização do logL , (tal como os critérios de classificação), podendo mesmo ser calculados com base na taxa de convergência do algoritmo EM quando este é utilizado na estimação dos parâmetros das componentes da mistura.
MIR – CRITÉRIO DO RÁCIO DE INFORMAÇÃO MÍNIMO
Windham e Cutler (1992) demonstram, com base em experiências numéricas, que a magnitude do menor valor próprio da matriz F Fc−1 pode ser um bom indicador do número de componentes existentes numa mistura. A matriz F (A.2.1) é a usual matriz de informação de Fisher e a matriz Fc (A.2.2) a matriz de informação para a amostra classificada, ‘classification likelihood’, i.e., a matriz de informação de Fisher associada à função lnLc. Denote-se esse valor próprio por mS, supondo que se está a ajustar uma mistura com S componentes. A motivação subjacente ao critério MIR é a de que, heuristicamente, um valor elevado para o menor valor próprio ms, 1,...,s= S, sugere um bom ajustamento dos dados, enquanto que um valor baixo sugere um ajustamento fraco. A matriz F mede a quantidade máxima de informação sobre os parâmetros que pode ser obtida a partir da amostra sem o conhecimento das pertenças aos segmentos dos consumidores. Quando essas probabilidades são conhecidas (i.e., estimadas), então é possível obter a matriz de Informação de Fisher da amostra classificada Fc.
2 2
logL E⎛∂ ⎞
= − ⎜ ⎟
⎝ ∂ ⎠
F θ (A.2.1)