• Nenhum resultado encontrado

Nos cenários analisados o critério AIC apresentou uma tendência para a sobreestimação do número de componentes e o critério PC para a subestimação do número de componentes

N/A
N/A
Protected

Academic year: 2023

Share "Nos cenários analisados o critério AIC apresentou uma tendência para a sobreestimação do número de componentes e o critério PC para a subestimação do número de componentes"

Copied!
5
0
0

Texto

(1)

( ) ( )

'

ˆ ˆ

1 1

ˆ 1 N S s s s s s s

C ns

n s

f f

N p

λ λ

= =

= =

⎛ ∂ ∂ ⎞

= −

∑ ∑

⎜⎜⎝ ∂ θ θθ θ⎟⎟⎠

V θ θ (A.2.14)

Windham e Cutler (1992) comparam o desempenho do critério MIR e do procedimento MIREV (que é descrito no Apêndice 4) com o dos critérios AIC e PC, com base num conjunto de dados experimentais, obtidos por simulação Monte Carlo, de distribuições mistura normais bivariadas. Concluem que o critério MIREV apresenta um bom desempenho, especialmente quando existe uma grande sobreposição nas distribuições mistura. Nos cenários analisados o critério AIC apresentou uma tendência para a sobreestimação do número de componentes e o critério PC para a subestimação do número de componentes. Posteriormente, Cutler e Windham (1994) estudam o comportamento dos quatro critérios apresentados (entre 10 critérios seleccionados), obtendo resultados menos favoráveis (em termos relativos) para os critérios MIR, ALL, ANC e WID.

(2)

Considerem-se as matrizes F (A.2.1), F c (A.2.2) já descritas e as matrizes V e VC, definidas de acordo com (A.2.9) e (A.2.10), respectivamente,

( ) ( )

´

logL logL E

⎛∂ ∂ ⎞

⎜ ⎟

= ⎜ ∂ ∂ ⎟

⎝ ⎠

V θ θ (A.2.9)

( ) ( )

'

1

S s s s s s s

C ns

s

f f

E p λ λ

=

⎛ ∂ ∂ ⎞

⎜ ⎟

= ⎜ ∂ ∂ ⎟

xθ xθ

V θ θ (A.2.10)

em que pns são as usuais probabilidades à posteriori de pertença aos segmentos.

O desenvolvimento do critério WID é motivado pela observação de que, se o modelo ajustado é correcto, F V= . Logo, partindo da relação F V F− = cVc, obtém-se (A.2.11).

( )

1 2 1 2 1 2 1 2

c c c c c

= −

F F V F I F V F (A.2.11)

Da expressão (A.2.11) decorre que uma forma de avaliar a ‘qualidade do ajustamento’ é comparar Fc1 2V Fc c1 2 com a matriz identidade.

A medida proposta, WID, é dada por:

( )

WID max 1 s

s λ

= − , (A.2.12)

em que λ1,...,λS são os valores próprios de Fc1 2V Fc c1 2. O número estimado de componentes é determinado pela minimização de WID.

Em estudos de simulação Cutler e Windham (1994) propõem a determinação das matrizes Fc e Vc a partir de (A.2.13) e (A.2.14), respectivamente:

( )

2λ

⎛ ∂

(3)

1 1

1−θv+θv θvθv converge para o critério MIR (A.2.6), em que | . | é uma norma conveniente do espaço euclidiano.

1 1

1 S S

S S

MIR θ θ

θ θ+

= − −

− (A.2.6)

Tal como o critério PC, o critério MIR não permite distinguir entre S=1 e S >1, dado que MIR(S=1) ≥MIR(S>1).

ALL E ANC – CRITÉRIO DA VEROSIMILHANÇA AJUSTADA E CRITÉRIO DO NÚMERO DE COMPONENTES AJUSTADO

Cutler e Windham (1994) propõem duas novas medidas de validação, obtidas a partir do critério MIR, a referir: critério da verosimilhança ajustada (ALL), ‘Adjusted Log- Likelihood’ (A.2.7) e critério do número de componentes ajustado (ANC), ‘Adjusted Number of Component’s (A.2.8):

( ) ( )

(

( ) ( )1

)

ALLs =MIR s logLs −logL (A.2.7)

em que logL( )1 é o valor da função de verosimilhança maximizada para um modelo com uma componente;.

( )

( )

( )

ANCs = S−1 MIR s (A.2.8)

O número de componentes a escolher deve maximizar os critérios MIR, ALL e ANC.

Para soluções monosegmento, o critério MIR assume o valor 1, pelo que os três critérios apenas são utilizados para a comparação de soluções com S >1.

WID – DISCREPÂNCIA DA INFORMAÇÃO INTRA-COMPONENTE

Cutler e Windham (1994) propõem ainda uma medida da discrepância de informação intra-componente, designada por WID, ‘Within Component Information Discrepancy’.

(4)

( ( ) )

2

2 1

log

S s s s

C ns

s s

E p λ f

=

⎛ ∂ ⎞

⎜ ⎟

= − ⎜⎝

xθ ⎟⎠

F θ (A.2.2)

Windham e Cutler (1992) propõe a estimação das matrizes F e Fc através de ˆF (A.2.3) e Fˆc (A.2.4), respectivamente.

2 2 ˆ 1

1 log

ˆ N

n

L

N = =

⎛∂ ⎞

= −

⎜⎝ ∂ θ θ⎟⎠

F θ (A.2.3)

( )

2

2 ˆ

1 1

1 log

ˆ N S s s s

C ns

n s s

f N p

λ

= = =

⎧ ∂ ⎡ ⎤ ⎫

⎪ ⎣ ⎦ ⎪

=

∑ ∑

⎨⎪⎩ ∂ θ θ⎬⎪⎭

F θ (A.2.4)

A matriz F FC1 , denominada por Windham e Cutler (1992) por matriz do rácio de informação (‘Ratio Information Matrix’), é uma medida da proporção de informação sobre os parâmetros disponível sem o conhecimento das pertenças aos segmentos das observações. No contexto da análise mistura, pode ser interpretada como a capacidade dos dados amostrais distinguirem as componentes da mistura (Windham e Cutler, 1992). O novo critério proposto, denominado por MIR – Minimum Information Ratio, varia, deste modo, entre 0 e 1: um valor elevado para o MIR sugere um bom agrupamento e um valor baixo um agrupamento fraco.

O critério MIR pode ser estimado facilmente quando o algoritmo EM é utilizado na obtenção das estimativas para os parâmetros do modelo. Louis (1982) e Sundberg (1976) mostraram que a taxa de convergência do algoritmo EM é o maior valor próprio de ΙF Fc1 ; deste modo, o critério MIR pode ser calculado como (A.2.5):

(

1

)

1 c

MIR= − −I F F = 1- taxa de convergência do algoritmo EM (A.2.5) A taxa de convergência do algoritmo EM pode ser estimada a partir de rácios de distâncias entre iterações sucessivas. Em particular, se

{ }

θv é uma sequência de

(5)

APÊNDICE 2.CRITÉRIOS MIR

Cutler e Windham (1994) e Windham e Cutler (1992) propuseram a utilização de quatro medidas para a validação do número de componentes existentes num modelo mistura, a referir: Rácio de Informação Mínimo (MIR) ‘Mininum Information Ratio’ (Windham e Cutler, 1992), Verosimilhança Ajustada (ALL), ‘Adjusted Log-Likelihood’, Número de Componentes Ajustado (ANC), ‘Adjusted Number of Components’ e Informação da Discrepância Intra-componente (WID) ‘Within Component Infomation Discrepancy’

(Cutler e Windham, 1994). Este conjunto de critérios é particularmente interessante, na medida em que não se baseiam no princípio de penalização do logL , (tal como os critérios de classificação), podendo mesmo ser calculados com base na taxa de convergência do algoritmo EM quando este é utilizado na estimação dos parâmetros das componentes da mistura.

MIR – CRITÉRIO DO RÁCIO DE INFORMAÇÃO MÍNIMO

Windham e Cutler (1992) demonstram, com base em experiências numéricas, que a magnitude do menor valor próprio da matriz F Fc1 pode ser um bom indicador do número de componentes existentes numa mistura. A matriz F (A.2.1) é a usual matriz de informação de Fisher e a matriz Fc (A.2.2) a matriz de informação para a amostra classificada, ‘classification likelihood’, i.e., a matriz de informação de Fisher associada à função lnLc. Denote-se esse valor próprio por mS, supondo que se está a ajustar uma mistura com S componentes. A motivação subjacente ao critério MIR é a de que, heuristicamente, um valor elevado para o menor valor próprio ms, 1,...,s= S, sugere um bom ajustamento dos dados, enquanto que um valor baixo sugere um ajustamento fraco. A matriz F mede a quantidade máxima de informação sobre os parâmetros que pode ser obtida a partir da amostra sem o conhecimento das pertenças aos segmentos dos consumidores. Quando essas probabilidades são conhecidas (i.e., estimadas), então é possível obter a matriz de Informação de Fisher da amostra classificada Fc.

2 2

logL E⎛∂ ⎞

= − ⎜ ⎟

⎝ ∂ ⎠

F θ (A.2.1)

Referências

Documentos relacionados

Para aprofundar a compreensão de como as mulheres empreendedoras do município de Coxixola-PB adquirem sucesso em seus negócios, aplicou-se uma metodologia de

Era de conhecimento de todos e as observações etnográficas dos viajantes, nas mais diversas regiões brasileiras, demonstraram largamente os cuidados e o apreço

de lôbo-guará (Chrysocyon brachyurus), a partir do cérebro e da glândula submaxilar em face das ino- culações em camundongos, cobaios e coelho e, também, pela presença

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Neste estudo foram estipulados os seguintes objec- tivos: (a) identifi car as dimensões do desenvolvimento vocacional (convicção vocacional, cooperação vocacio- nal,

O relatório encontra-se dividido em 4 secções: a introdução, onde são explicitados os objetivos gerais; o corpo de trabalho, que consiste numa descrição sumária das