Análise Multivariada
Aula 3: Análise Fatorial
Prof. Admir Antonio Betarelli Junior
Juiz de Fora
Análise Fatorial
ACP procura selecionar um n° mínimo de componentes, não correlacionados, para expressar o máximo possível da variância total.
AF procura também reduzir a dimensionalidade das informações originais, porém selecionando fatores
latentes, não correlacionados, que possam expressar as interpendências ou a variância comum das variáveis
originais.
Análise Fatorial
Total
Comum Específica o erro
Variância
Ou melhor, essa nova técnica, mais elaborada, procura
identificar os processos latentes que poderiam produzir
as interrelações das variáveis.
Análise Fatorial
Qualidade do serviço
Qualidade da comida Fatores
Variáveis
Tempo de espera Limpeza e higiene
Funcionários amigáveis
Preferência ou gosto Temperatura
Frescor
Restaurante Fast-food
Objetivos gerais
identificação da estrutura: deriva dimensões subjacentes que, quando interpretada e compreendida, descrevem a estrutura das variáveis individuais originais.
redução dos dados: descrevem os dados em um número
muito menor de conceitos do que as variáveis individuais
originais.
Quando usar?
Quando a preocupação principal é identificar poucos fatores
latentes que poderiam expressar as interpendências das variáveis originais.
Recomenda-se: o tamanho mínimo n=50 > p; p=5 por fator;
correlação 0,30.
No caso de haver muitas observações com dados omissos em
algumas das variáveis, o usuário deverá avaliar até que ponto suas análises são válidas.
Alguns softwares, automaticamente, eliminam o elemento amostral com dados omissos da execução dos cálculos correspondentes.
Modelo ortogonal
Se considerarmos___, o vetor aleatório _____________
e o vetor de médias _, o modelo postura que X linearmente dependente de variáveis aleatórias não observadas, ________, e fontes adicionais de variação, _______.
__ é a carga fatorial (loading) da i-ésima variável no fator j.
X [X1, X2,, X p]μ
Fm
F
F1, 2,,
p
1, 2,,
p m
pm p
p p
p
m m
m m
F F
F X
F F
F X
F F
F X
2 2 1
1
2 2
2 22 1
21 2
2
1 1
2 12 1
11 1
1
) 1 ) (
1 ( ) ) (
1
(px pxm mx px
F ε μ L
X
ij
Modelo ortogonal
Diante do grande número de variáveis latentes e para tornar útil o modelo, suposições são impostas:
os fatores são ortogonais e têm variância unitária.
os erros não são
correlacionados e mesma variância.
os fatores e erros são independentes
0 ) ( )
, ( )
) ( )
( )
; 0 ) ( )
; )
( )
( )
; 0 ) ( )
2 1
) (
) (
εF ε F
ε ε ε
ε
F F F
F
E COV
e
E COV
d
E c
I E
COV b
E a
p pxp
mxm
Modelo ortogonal
L ε L
ε Fε
L L
εF L
F F μ L
μ X X
ε ε LFε
ε LF LF
ε LF ε LF
μ LF μ X
X
( ) ( ) ( ) )
( )
)(
( : então
) ( )
( )
)(
( ) )(
(
que se - Sabe
0 0
E E
E E
E
I
m p j
pj m
j
jp pj
m
j
jp j m
j j m
j
j j
m
j
jp j m
j
j j m
j j
l l
l
l l l
l l
l l l
l l
0
0 0
0 0
2 1
1 2 1
1 2 1
2 2 1
1 2
1 1 1
2 1 1
2 1
Modelo ortogonal
Do resultado anterior, verifica-se que:
ou seja, a i-ésima comunalidade é a soma dos quadrados das cargas fatoriais da i-ésima variável nos m fatores comuns. A COV(X, F) é:
Dessa maneira, é possível usar a matriz ____para entender e interpretar os fatores de ___ .
km im k
i k
i ik
k i
k i
i i
específica iância
i de
comunalida
im i
i ii
i
X X COV
h X
Var
1 1 2 2
2 var
2 2
2 2
1
) ,
( ) (
ij j
i
I
COV
E E
E E
COV
) , (
) ( )
( ]
[(
] [(
) , (
0
F X
L εF
F F L ε)F
LF μ)F
X F
X
) (pxmL F
Modelo ortogonal
Exemplo 9.1 em Johnson e Wichern (2002, p.480):
2
2 17 2
1 4
19 17
1 4
: ) ( :
3 1 4 2
8 6
2 1
1 1 7
4
8 1
6 1
2 7
1 4
68 47
23 12
47 38
5 2
23 5
57 30
12 2
30 19
. var 2
2 2
2 2
12 2
11 2
1
1 1
m h
X Var X
de de
Comunalida
específica de
comunalida
L Σ L
Modelo ortogonal
Observações sobre o valor de m fatores:
Quando m=p: .
Quando m=1, as soluções obtidas serão, em geral, inconsistentes.
Quando m>1, existem mais de uma solução, que é a base para uma importante característica: a rotação fatorial.
A análise fatorial procede impondo condições que permitam estimar ____e____. A matriz de carga fatorial é, então, rotacionada por algum critério “de fácil interpretação”. Depois que os fatores são obtidos, adquire-se os escores fatoriais.
0
LL
L
Principais métodos de estimação
Método de componentes principais (MCP): mais utilizado, não exige a suposição de distribuição normal.
Método de fatores principais (MFP): refinamento de MCP.
Método de Máxima verossimilhança (MMV): supõe
distribuição normal das variáveis.
Componentes principais (MCP)
Utiliza-se a decomposição espectral para a fatoração da matriz:
Se m<p, terá __ e (p-m) pares _____ desconsiderados. Com m fixo:
Porque os elementos fora diagonal não são reproduzidos pelo modelo fatorial.
a matriz residual, serve como critério de qualidade do modelo ( )
m m
se
e e
Λ e O L
L L L
L ΛO
O Λ O
Σ OΛ
1 1, 2 2, ,
0
) (
)
) (
) ) )
2 1
2 1
1 1
1
L L
L L L
L
e e L
L
e e e
e e
e
MRES d
h diag
c b a
i ii m
j ij ii
i m
i
i i i
p
m i
i i i m
i
i i i p
i
i i i
) , (i ei
0
Componentes principais (MCP)
O MCP gera a estimação de autovalores para cada fator. O 1º fator teria:
Logo a proporção do j-ésimo fator:
Lembre-se: a escolha da matriz de correlação é desejável, pois retira as influências de escala das variáveis. Para ___:
1 1
1 1
1 1 1 1 21 2
21 2
11
p e e e e
p traço
traço ou
j j
j
) ( )
(Σ Ρ
Λ O L
pxpΡ
m
j ij i
1
1 2
MCP: critérios de seleção dos fatores
Screeplot: autovalores de maiores proporções.
Raiz latente: considera-se apenas os fatores com λ
i> 1.
Interpretabilidade dos fatores e a parcimônia.
Escolha a priori.
OBS: o modelo é inútil se as variáveis não são
correlacionadas.
Método de fatores principais (MFP)
Processo iterativo => refinamento de MCP, com valor prévio de m. A diagonal principal de __ é substituída por ________, estimadas inicialmente por MCP.
Dessa nova matriz _, estima-se _______________, gerando uma 2ª estimativa para comunalidades __.
É repetido até que as diferenças entre as comunalidades de duas interações sucessivas sejam desprezíveis.
R
i
hi*2 1
2
* 1
1 2
* 1
*
*
*)( ) (
p p
p
h r
r h
R
L L
R*
e mem
L* ˆ*1 1,,, ˆ*
2
*
hi
Método de fatores principais (MFP)
Existem problemas.
Em algum estágio, alguns λ
ipodem ser negativos, então, inconsistentes para uma matriz p.d..
O problema Heywood, que em algum estágio do processo, ___________ => inconsistente com a definição de variância.
MCP e MVM são as mais recomendadas.
Dica: quando ______, deve-se pensar em: ↑n e/ou eliminar as variáveis.
0
2 1
* i
hi
6 .
2 0
* hi
Máxima Verossimilhança (MMV)
Define-se previamente o valor de m. Neste método, asume-se ____________________________________.
A função verossimilhança é:
que depende das matrizes __ e __, por meio da matriz de correlação __. Assim, encontra-se __e __ que __________ .
Nem sempre a convergência é alcançada, que deve ocorrer para ↑m. Aliás, ∆m→ ∆ __, ≠ do que MCP.
Recomenda-se: 1º MCP →2º.MMV, mesmo _________.
) , 0 (
~ ),
, 0 (
~ ),
, 0 (
~ )
, (
~ Np μ Σ Z Np Ρ F Np I e ε Np
X
Ρ LL
L L L
L
Ρ
n
j
j n j
np Z Z
L
1
1 2 2
) ( ) (
) 2 (
exp 1 )
2 ( ) 1 , 0 (
Lˆ ˆ MAX L(0,Ρ)
L
Ρ
Lˆ
) , (
~ μ Σ
X Np
Rotação dos Fatores
Ambiguidades das cargas fatoriais podem dificultar a interpretação dos fatores gerados.
Assim, a matriz __pode ser rotacionada por algum critério “de fácil interpretação”. Os eixos dos fatores originais são rotacionados até o alcance de outra posição
Dois tipos:
Ortogonais: mante-se a perpendicularidade dos fatores.
Oblíquas: permite a correlação entre os fatores comuns.
pxmL
Rotação Ortogonal
Fator II
Fator I
Fator I rotacionado Fator II rotacionado
-1.0 -.50 0 +.50 +1.0
+1.0
+.50
V1 V2
V3 V4 V5
Rotação Oblíqua
Fator II
Fator I
Fator I:
rotação oblíqua Fator II: rotação
ortogonal
-1.0 -.50 0 +.50 +1.0
+1.0
+.50
V1 V2
V3 V4 V5
Fator II: rotação oblíqua
Fator I:
rotação ortogonal
Rotação ortogonal
Neste, as propriedades estatísticas dos fatores ficam inalteradas, embora as cargas fatoriais sejam diferentes.
Seja __ , tal que _________ , então:
F e F* têm mesmas propriedades. Cargas fatoriais ≠
s, mas __será a mesma.
Não se alteram: ____________________, ___ e ___.
mxmT TT TT I
) )(
(
) ( )
(
0 ) ( )
(
*
*
*
*
*
*
*
*
L L L
T LT L
L
T F T
F
F T
F ε
F ε L
F T μ LT
X
F L
I COV
COV
E E
I
L
2
hi ]
) )(
[( * *
L L
MRES
Principais critérios para encontrar T
Varimax: encontra variáveis altamente correlacionadas com o fator e de baixa correlação com outro.
MAX a variação dos quadrados das cargas fatoriais nas colunas de __. Quartimax: faz com que as variáveis tenham cargas altas em um fator e tão baixas quanto possível em outros.
MAX a variação dos quadrados das cargas nas linhas de ___.. Cuidado: gera um fator geral como o 1º fator, em que a maioria das variáveis têm cargas altas.
Orthomax: combinação entre Varimax e Quartimax. Pouco aceito.
pxmL
pxmL
MCP e rotação ortogonal varimax
Exemplo 9.3 em Johnson e Wichern (2002, p.487):
93 . 5 0
81 . 1 85 . ˆ 2
ˆ1 2 p
98 . 0 )
82 . 0 ( ) 56 . 0 ˆ (
ˆ ˆ
ˆ 2 2 2
12 2
11 2
1 2 2
1
j
h ij
MCP e rotação ortogonal varimax
Exemplo 9.3 em Johnson e Wichern (2002, p.487):
1º fator: fator nutricional.
2º fator: fator gosto.
Rotação não ortogonal: oblíqua
Ao contrário dos ortogonais, essa rotação não preserva a estrutura de ajuste original do modelo fatorial.
Portanto, altera __________________, __ e __.
Os fatores passam a ser correlacionados e, portanto, rompe com as suposições do modelo linear, que é inconsistente para a estimação das matrizes __ e __.
Também implica numa maior dificuldade de interpretação dos fatores.
] )
)(
[( * *
L L
MRES hi2
Lˆ ˆ
Escores fatoriais
A obtenção dos escores tem algumas vantagens:
1. representa todas as cargas das variáveis (loading) no fator.
2. é uma boa maneira para a redução completa dos dados.
3. por serem ortogonais, evitam complicações de multicolinearidade.
Deve-se estimá-los, visto que existem valores desconhecidos __e __ , _______, para cada observação em _____ou ___.
fj ε j j 1,2,...,n )
(xj μ (z j)
Escores fatoriais
Por exemplo, para cada elemento amostral no conjunto de variáveis padronizadas, o seu escore sobre um determinado fator latente é:
sendo __ ,_________, os pesos de ponderação de cada variável ___ no fator __ .
Há três formas básicas para estimar os escores.
1. Método ad hoc: maior carga fatorial ou média das maiores cargas fatoriais (nunca usar)
pj p j
j
j w z w z w z
f 1 1 2 2
wi i 1,2,..., p
Zi f
Escores fatoriais
Modelo linear:
2. Mínimos Quadrados Ponderados - Bartlett (1937):
como__________ pode ser ≠ por variável, o autor propôs:
Não requer conhecimento da distribuição das variáveis.
3. Método de regressão (MV): se __ e __ são estimados por MV, então, para cada observação, tem-se:
i
Var(εi)
ε μ LF
X μ LF
ε X
ε1 ( )1( ) Min
ε LF ε Z
μ LF
X ou
jW j
j W
j
mxp mxp
ou f L Ψ L LΨ z μ
Ψ x L Ψ L
L
f 1 1 1
ˆ ˆ ˆ ˆ ˆ ( ) ˆ ˆ ˆ ˆ ˆ ˆ
ˆ 1 1 1
Lˆ ˆ )
( ˆ )
ˆ ( ˆ
ˆ Lˆ LL Ψ x μ
fj 1 j fˆj Lˆ(LˆLˆ Ψˆ )1zj
Validação do Modelo
A partir da escolha prévia de m, verifica-se até que ponto a matriz L denota bem a relação entre X e F. Passos:
1.
Estime L por MCP, interprete os fatores e aplique a rotação varimax. Houve ∆ significativas com a rotação?
2.
Estime L por MFP ou MV e compare com o passo (1).
3.
Repita o 1º e o 2º passos, porém ∆ sensivelmente
m(px. do valor inicial) e cheque se houve grandes ∆.
4.
Se o conjunto de dados for grande, divida-o aleatoriamente
em 2 partes, fatore-as e compare as suas soluções. Há
consistência nas soluções encontradas?
Teste de m na AF por “MV”
Se ____________________, ________ e n grande, então:
A estatística de teste de Bartlett (1954) é dada por:
Sob a hipótese nula, a estatística T tem ________com ____________graus de liberdade. Se T ≥ Tc, com um α, rejeita-se H
0.
Cautela, pois para n grande e m pequeno em relação a p, o teste apresenta a tendência de rejeitar H0.
) , 0 (
~ )
, (
~ μ Σ Z Ρ
X Np Np F ~ Np(0,I)
m aumentar H
suficiente m
H :
:
1 0
p
i
m p
n T
1
ˆ ˆ ˆ 6 ln
) 1 5 4
2 (
1 R
Ψ L
L
2
] )
)[(
2 / 1
( pm 2pm
] )
)[(
2 / 1
( p m 2 p m
Critério de Kaiser-Meyer-Olkin (KMO)
Os autores sugerem que, para uma AF adequada, a matriz R
-1deve ser próxima de uma diagonal. Medida de adequacidade:
em que R
iké a correlação entre X
ie X
k; e Q
iké a correlação parcial entre X
ie X
k, quando as outras (p-2) variáveis são mantidas constantes.
Se ________________, R
-1é px. de uma diagonal. Um ajuste adequado do modelo: __________.
k i
ik k
i
ik k i
ik
Q R
R
KMO 2 2
2
1
0
KMO
Qik
80 .
0 KMO
Teste de esfericidade de Bartlett
Se as variáveis são correlacionadas, pode-se testar se R é próxima de uma matriz :
Para testar H
0, tem-se que calcular a estatística T:
A estatística T tem ______ com _______ graus de liberdade. Se T ≥ Tc, para um α, rejeita-se H
0.
I H
I H
pxp pxp
R R :
:
1 0
p
i
P i
N T
1
ˆ ) ln(
11 6 2
1
2
) 1 ( ) 2 / 1
( p p
1/2)p(p 1)
Orientações de Hair et al. (1998)
a) Formulação do problema.
b) Construção da matriz de correlação.
c) Determinação do método de AF.
d) Determinação do número de fatores.
e) Rotação dos fatores.
f) Interpretação dos fatores e cálculo das cargas fatoriais.
g) Determinação do ajuste do modelo.
Comparação ACP e AF
FA
I1 I2 I3
PCA
I1 I2 I3