MAE 0330
ANÁLISE MULTIVARIADA DE DADOS
Análise Fatorial
Júlia M Pavan Soler
pavan@ime.usp.br
Análise de Componentes Principais
Considere os seguintes dados:
Em um estudo com camundongos, o peso corporal (em gramas) de 150 fêmeas foi medido logo após o nascimento de suas primeiras 4 ninhadas. A seguir, são apresentados o vetor de médias e a matriz de correlação dos dados obtidos.
39,88; 45,08; 48,11; 49,95 X 1 6625 , 0 7386 , 0 6363 , 0 6625 , 0 1 6925 , 0 6329 , 0 7386 , 0 6925 , 0 1 7501 , 0 6363 , 0 6329 , 0 7501 , 0 1 RObtenção dos CP associados à variação do peso das fêmeas após o nascimento da ninhada a partir da matriz de correlação:
*
0
*
*
*
*
*;
;
P
P
R
Y
Corr
R
Y
Cov
Y
E
Y
Y
Y
Cov
Y
E
Y
CP das variáveis padronizadasY1* Y2* Y3* Y4* Var(Z) %Ac. Z1 -0,493521 -0,52195 -0,487185 -0,496645 3,05841 0,764603 Z2 0,713166 0,190885 -0,585422 -0,33502 0,38233 0,095582 Z3 -0,232722 0,143263 -0,645125 0,713533 0,34178 0,085445 Z4 0,440082 -0,818906 0,061198 0,363285 0,21748 0,054371
Análise de Componentes Principais
Dados: Peso das fêmeas após o nascimento das quatro primeiras ninhadas:
Y1* Y2* Y3* Y4* Var(Z) %Ac.
Coeficiente -0,493521 -0,52195 -0,487185 -0,496645 Z1 Correl -0,863662 -0,913412 -0,852574 -0,869129 %Var(Y*/Z) 0,745911 0,834322 0,726882 0,755385 3,05841 0,764603 Coeficiente 0,713166 0,190885 -0,585422 -0,33502 Z2 Correl 0,442163 0,118349 -0,362962 -0,207712 %Var(Y*/Z) 0,195508 0,014006 0,131741 0,043144 0,38233 0,860185 Coeficiente -0,232722 0,143263 -0,645125 0,713533 Z3 Correl -0,134979 0,083092 -0,374173 0,413849 %Var(Y*/Z) 0,018219 0,006904 0,140005 0,171271 0,34178 0,94563 Coeficiente 0,440082 -0,818906 0,061198 0,363285 Z4 Correl 0,206838 -0,384886 0,028763 0,170744 %Var(Y*/Z) 0,042782 0,148137 0,000827 0,029153 0,21748 1 Var(Y*) 1 1 1 1 4
Z1, sozinho, explica 76% da variância total das variáveis padronizadas Em Z1 todas as variáveis recebem “pesos/cargas” parecidos
Típico de matriz de correlação uniforme
Análise de Componentes Principais
Y1 Y2 Y3 Y4 Var(Z) %Ac. Coeficiente -0,454143 -0,494127 -0,512301 -0,535855 Z1 Correl 0,84619 0,90426 0,86158 0,8819 %Var(Y/Z) 0,716038 0,817686 0,74232 0,777748 3779,01 0,763728 Coeficiente 0,284291 0,224061 -0,855476 0,37032 Z2 Correl 0,18639 0,14428 0,50626 0,21612 %Var(Y/Z) 0,034741 0,020817 0,256299 0,046708 468,25 0,85836 Coeficiente -0,679181 -0,18158 0,034226 0,710331 Z3 Correl 0,43768 0,11492 0,0199 0,40432 %Var(Y/Z) 0,191564 0,013207 0,000396 0,163475 452,13 0,949734 Coeficiente 0,501644 -0,820161 0,067363 0,266744 Z4 Correl 0,23979 0,38505 0,02906 0,11262 %Var(Y/Z) 0,057499 0,148264 0,000844 0,012683 248,72 1 Var(Y) 1088,4 1128,41 1336,15 1395,15 4948,11
Y
Cov
Y
P
P
E
Y
;
Obtenção dos CP dos dados de peso das fêmeas após o nascimento das ninhadas: CP das variáveis originais (obtidos da matriz )
32,9909;33,5918;36,5534;37,3517
s
Padrão típico de R com padrão uniforme e homocedasticidade
Análise de Componentes Principais e
Análise Fatorial
Como obter as variáveis originais a partir das componentes principais?
Z
P
Y
Y
Y
P
P
Z
P
Y
Z
...
Y
Z
;
Y
2 2 1 1 .
P
Y
a
Y
a
Y
a
Y
P
Z
P
P
P
p pj j j j j
p jp j j j jP
Z
a
Z
a
Z
a
Z
Y
.
1 1
2 2
...
a
ijP
a
jiP
;
;
Pense neste sistema de equações como a expressão das variáveis Y em função de um conjunto de “fatores comuns” Z
Análise de Componentes Principais e
Análise Fatorial
1 4 4 4 1 4
P
Y
*
Z
1 4 4 4 1 4*
P
Z
Y
Para os dados (padronizados) de peso das fêmeas após o nascimento das ninhadas:
Escreva as expressões que descrevem as variáveis Y* em função de Z
Z1, sozinho, explica 76% da variabilidade total dos dados padronizados parece natural reduzir o problema para uma única dimensão
Pense na seguinte situação: Há interesse em modelar Y* em função de um único “fator comum” Como encontrar tal fator ?
Y1* Y2* Y3* Y4*
Z1 -0,493521 -0,52195 -0,487185 -0,496645 Z2 0,713166 0,190885 -0,585422 -0,33502 Z3 -0,232722 0,143263 -0,645125 0,713533 Z4 0,440082 -0,818906 0,061198 0,363285 Z1 Z2 Z3 Z4 Y1* -0,493521 0,713166 -0,232722 0,440082 Y2* -0,52195 0,190885 0,143263 -0,818906 Y3* -0,487185 -0,585422 -0,645125 0,061198 Y4* -0,496645 -0,33502 0,713533 0,363285
Análise de Componentes Principais e
Análise Fatorial
Para os dados de peso das fêmeas após o nascimento das ninhadas temos:
1 4 4 4 1 4
P
Y
*
Z
1 4 4 4 1 4*
P
Z
Y
As “cargas” atribuídas às variáveis Z devem levar em conta as variâncias destas variáveis. Neste caso, Y pode ser expresso em termos de fatores comuns, denotados por F, tal que: Cov ( F ) = I
Y1* Y2* Y3* Y4*
Z1 -0,493521 -0,52195 -0,487185 -0,496645 Z2 0,713166 0,190885 -0,585422 -0,33502 Z3 -0,232722 0,143263 -0,645125 0,713533 Z4 0,440082 -0,818906 0,061198 0,363285 Z1 Z2 Z3 Z4 Y1* -0,493521 0,713166 -0,232722 0,440082 Y2* -0,52195 0,190885 0,143263 -0,818906 Y3* -0,487185 -0,585422 -0,645125 0,061198 Y4* -0,496645 -0,33502 0,713533 0,363285
F
P
Y
Z
P
Y
2 / 1 1 4 4 4 2 / 1 4 4 2 / 1 4 4 1 4*
*
novas cargas F1 F2 F3 F4 Y1* -0,863085 0,440969 -0,136054 0,205233 Y2* -0,912803 0,118029 0,083754 -0,381898 Y3* -0,852004 -0,36198 -0,377152 0,02854Análise de Componentes Principais e
Análise Fatorial
Neste caso, o fator F1 recebe os maiores pesos
Pode-se expressar Y* em função do “fator comum” F1
Nesta aproximação (redução) pode-se adicionar um “fator específico” denotado por e, tal que Y* pode ser modelado como:
Y1* = -0,863085 F1 + e1 Y2* = -0,912803 F1 + e2 Y3* = -0,852004 F1 + e3 Y4* = -0,868548 F1 + e4
Vamos então formalizar o procedimento de encontrar fatores comuns e específicos a um conjunto de variáveis !
F P Y Z P Y 2 / 1 2 / 1 2 / 1 1 4 * *
F Cov
Z I Cov Z F41 1/2 1/2 1/2 1/21/2 F1 F2 F3 F4 Y1* -0,863085 0,440969 -0,136054 0,205233 Y2* -0,912803 0,118029 0,083754 -0,381898 Y3* -0,852004 -0,36198 -0,377152 0,02854 Y4* -0,868548 -0,20715 0,417144 0,169419Análise Multivariada de Dados
Unidades Amostrais 1 2 … j … p 1 Y11 Y12 Y1j Y1p 2 Y21 Y22 Y2j Y2p … … … … i Yi1 Yi2 Yij Yip … … … … n Yn1 Yn2 Ynj Ynp Variáveis Objetivos: Descrever a inter-relação entre as variáveis, isto é, obter fatores comuns à todas as p variáveis obter constructos, variáveis latentes (não observáveis)
Descrever a estrutura de dependência entre as variáveis por meio da construção de fatores (comuns e específicos)
Variáveis e Constructos
Planejamento de Experimentos: Unidades Amostrais Variáveis de Interesse Estrutura de Tratamento Estrutura de Planejamento …Variáveis Observáveis (concretas) ex.: peso, altura, temperatura, glicemia, etc. Constructos: variáveis (latentes) que não podem ser medidas diretamente e, em geral, requerem a observação de muitas variáveis para sua caracterização ex.: QI, QE, ansiedade, susceptibilidade, satisfação, sindrome metabólica, etc..
Uma das utilidades da análise fatorial é a identificação de constructos existentes em um conjunto de dados
Escala IDATE – Questionário de Ansiedade (Projeto CEA-IME/USP)
O nível de ansiedade pode ser medido por meio de um instrumento denominado IDATE. Deve-se avaliar cada frase atribuindo-se nota entre 1 a 4, tal que: 1 (nunca ocorre)
4 (ocorre quase sempre) Em geral, utiliza-se a Soma dos escores para medir ansiedade.
Soma dos escores: 20-80
Item Descrição
1 Sinto-me bem
2 Canso-me facilmente 3 Tenho vontade de chorar
4 Gostaria de ser feliz como as outras pessoas parecem ser
5 Perco oportunidades porque não consigo tomar decisões rápidas 6 Sinto-me descansado
7 Sinto-me calmo, ponderado e senhor de mim mesmo
8 Sinto que as dificuldades estão se acumulando de tal forma que não consigo resolver
9 Preocupo-me demais com as coisas sem importância 10 Sou feliz
11 Deixo-me afetar muito pelas coisas 12 Não tenho confiança em mim mesmo 13 Sinto-me seguro
14 Evito ter que enfrentar crises e problemas 15 Sinto-me deprimido
16 Estou satisfeito
17 Às vezes idéias sem importância me entram na cabeça
18 Levo as coisas tão a sério que não consigo tirá-las da cabeça 19 Sou uma pessoa estável
Aplicação do questionário Idate a 1.110 estudantes universitários (Andrade et al., 2001)
Avaliação da Matriz de
Correlação: formação de dois conjuntos de variáveis com alta correlação intra bloco e baixa correlação entre blocos:
B1=(Y1, Y10, Y13, Y16)
B2=(Y9, Y11, Y17, Y18)
B1: variáveis ligadas ao
constructo “satisfação pessoal”
B2: var. ligadas ao constructo “dificuldade em lidar com
problemas” Escala IDATE – Questionário de Ansiedade
Item Descrição
1 Sinto-me bem
2 Canso-me facilmente 3 Tenho vontade de chorar
4 Gostaria de ser feliz como as outras pessoas parecem ser
5 Perco oportunidades porque não consigo tomar decisões rápidas 6 Sinto-me descansado
7 Sinto-me calmo, ponderado e senhor de mim mesmo
8 Sinto que as dificuldades estão se acumulando de tal forma que não consigo resolver
9 Preocupo-me demais com as coisas sem importância 10 Sou feliz
11 Deixo-me afetar muito pelas coisas 12 Não tenho confiança em mim mesmo 13 Sinto-me seguro
14 Evito ter que enfrentar crises e problemas 15 Sinto-me deprimido
16 Estou satisfeito
17 Às vezes idéias sem importância me entram na cabeça 18 Levo as coisas tão a sério que não consigo tirá-las da cabeça 19 Sou uma pessoa estável
Y1 Y10 Y13 Y16 Y9 Y11 Y17 Y18 Y1 1 Y10 0,576 1 Y13 0,385 0,473 1 Y16 0,513 0,661 0,541 1 Y9 -0,137 -0,162 -0,308 -0,224 1 Y11 -0,204 -0,24 -0,376 -0,322 0,459 1 Y17 -0,182 -0,203 -0,326 -0,251 0,525 0,456 1 Y18 -0,324 -0,33 -0,367 -0,398 0,401 0,48 0,478 1
A existência de correlações relativamente altas entre as variáveis de um mesmo bloco, indicam a possibilidade de que tais variáveis medem algo em comum variáveis ligadas a um mesmo constructo
A Análise Fatorial nos permite não somente identificar constructos, como também nos fornece meios para medi-los.
Análise Fatorial
Como explicar o comportamento de variáveis observadas em função de um conjunto de variáveis latentes (não observáveis, constructos)?
p m pm p p p p m m m m p
e
F
F
F
Y
e
F
F
F
Y
e
F
F
F
Y
...
...
...
...
Y
2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1 1
:
:
,...,
:
,...,
ij 1 1
p me
e
e
F
F
f
fatores comuns fatores específicos cargas fatoriais 1 1 1
p m m
p pY
e
Y
f
Notação MatricialAnálise Fatorial
e
Y
Y
f
Y
1Y
2Y
p . . .e
1e
2e
p . . .F
1F
2F
m . . .Diagrama de caminho de um modelo de Análise Fatorial ortogonal
Var. Observadas: retângulos
Var. Latentes (constructo): círculos Erros: sem representação gráfica As setas partem de uma variável independente e atingem uma variável dependente
Se existirem correlações (entre os fatores específicos ou mesmo os comuns), estas devem ser
Análise Fatorial
e
Y
Y
p1
f
e
mCov
e
diag
p
E
e
Cov
I
Cov
,...,
0
0
,
1
f
f
Y
Cov
e
Cov
pp
f
Matriz de Covariância marginal de Y:
Suposições do modelo de fatores ortogonais:
p m pm p p p p m m m m e F F F Y e F F F Y e F F F Y
... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1
componente de covariância devido ao fator comum componente de covariância devido ao fator específico Decomposição muito particular!Análise Fatorial
e
Y
Y
p1
f
Matriz de Covariância marginal de Y:
p m pm p p p p m m m m e F F F Y e F F F Y e F F F Y ... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1
j jm j j jY
Var
(
)
21
22
...
2
depende dos fatores comuns e específicos 2 2 2 2 1 2...
jm j j jh
Comunalidade da variável Yj Proporção da Var(Yj) explicada pelo conjunto dos fatores comuns
j j jY
Var
h
h
2 2
j j jh
Y
Var
(
)
2
EspecificidadeAnálise Fatorial
e
Y
Y
p1
f
p m pm p p p p m m m m e F F F Y e F F F Y e F F F Y ... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1
j j j jm j j jh
Y
Var
(
)
21
22
...
2
2
m j jm j j j j j jY
Y
Cov
(
,
')
1
'1
2
'2
...
' depende somentedos fatores comuns
j j jY
Var
h
h
2 2
p j j p j j Y Var h H 1 1 2 2
p j j p j jk F Y Var H k 1 1 2 2 % da Var(Yj) explicada pelo conjunto dosfatores comuns
% da Variância Total de Y explicada pelo conjunto dos
fatores comuns
% da Variância Total explicada pelo fator
Análise Fatorial
e
Y
Y
p1
f
p m pm p p p p m m m m e F F F Y e F F F Y e F F F Y
... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1 Matriz de Covariância entre as variáveis Y e F:
jk k k
jk k m jm k jk j k jF
F
Cov
F
F
F
F
Cov
F
Y
Cov
;
;
...
...
)
,
(
1 1Interpretação das cargas fatoriais: são as covariâncias entre as variáveis observadas originais e os fatores comuns
j j jk j jk k jh
Y
Var
F
Y
Corr
2)
,
(
Análise Fatorial
Exemplo 1. Suponha que um conjunto de dados (4 variáveis mensuradas em n indivíduos) apresente a seguinte matriz de covariância:
60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 20 , 0 40 , 0 60 , 1 20 , 0 0 0 0 0 96 , 0 0 0 0 0 52 , 0 0 0 0 0 28 , 1
Mostre que, neste caso, vale a igualdade:
20 , 0 0 0 0 0 96 , 0 0 0 0 0 52 , 0 0 0 0 0 28 , 1 60 , 0 20 , 0 20 , 1 40 , 0 20 , 1 00 , 1 20 , 0 60 , 1 60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 20 , 0 40 , 0 60 , 1 00 , 2 32 , 1 96 , 0 16 , 2 96 , 0 00 , 2 44 , 0 68 , 1 32 , 1 44 , 0 00 , 2 80 , 0 16 , 2 68 , 1 80 , 0 00 , 4
28
,
1
72
,
2
4
72
,
2
40
,
0
60
,
1
1 2 1 1 2 12 2 11 11 2 2 2 12 2 11 2 1
h
h
comunalidade + especificidade de Y1 ; 00 , 2 32 , 1 96 , 0 16 , 2 96 , 0 00 , 2 44 , 0 68 , 1 32 , 1 44 , 0 00 , 2 80 , 0 16 , 2 68 , 1 80 , 0 00 , 4 Seja,Análise Fatorial
Exemplo 1. Suponha que um conjunto de dados apresente a seguinte matriz de covariância: ; 00 , 2 32 , 1 96 , 0 16 , 2 96 , 0 00 , 2 44 , 0 68 , 1 32 , 1 44 , 0 00 , 2 80 , 0 16 , 2 68 , 1 80 , 0 00 , 4 60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 20 , 0 40 , 0 60 , 1 20 , 0 0 96 , 0 52 , 0 0 28 , 1
Tal que, neste caso:
Logo, Y pode ser modelado em termos de fatores comuns e específicos:
4 2 1 4 4 3 2 1 3 3 2 2 1 2 2 1 2 1 1 1 60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 200 , 0 40 , 0 60 , 1 e F F Y e F F Y e F F Y e F F Y
Nota: Esta é uma particular solução para . Note que, para qualquer matriz ortogonal, tem-se:
*
;
I
*
*
Isto permite a rotação de eixos
Análise Fatorial
Exemplo 1. Suponha que um conjunto de dados apresente a seguinte matriz de covariância: 00 , 2 32 , 1 96 , 0 16 , 2 96 , 0 00 , 2 44 , 0 68 , 1 32 , 1 44 , 0 00 , 2 80 , 0 16 , 2 68 , 1 80 , 0 00 , 4 60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 20 , 0 40 , 0 60 , 1 20 , 0 0 96 , 0 52 , 0 0 28 , 1
4 2 1 4 4 3 2 1 3 3 2 2 1 2 2 1 2 1 1 1 60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 200 , 0 40 , 0 60 , 1 e F F Y e F F Y e F F Y e F F Y ²j1 ²j2 h²j % Var j Y1 2,56 0,16 2,72 68 1,28 Y2 0,04 1,44 1,48 74 0,52 Y3 1 0,04 1,04 52 0,96 Y4 1,44 0,36 1,8 90 0,2 Total 5,4 2 7,04 % Var 50,4 20 70,4
Y
;
tr
;
Var
j Interprete os resultados! Calcule:Análise Fatorial
e
Y
Y
p1
f
p m pm p p p p m m m m e F F F Y e F F F Y e F F F Y
... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1Como obter os componentes COMUNS (), ESPECÍFICOS () e Escores Fatoriais (fi) do modelo ?
Método de Componentes Principais
Análise Fatorial via
Componentes Principais
e
Y
f
2 2 2
1 2 1 1 1 1 1 1 1 1 1 1,...,
,...,
,...,
...
...
...
p p m m m m m m p p p m m mh
h
diag
a
a
a
a
a
a
a
a
a
a
a
a
P
P
jk k jk
a
m k jk jj j 1 2
Aproximação usando m componentes define os termos comuns! Componente específico da variância de YjAnálise Fatorial via
Componentes Principais
e
Y
f
Obtenção do modelo de fatores comuns e específicos
2
1 1 1...
j jj jk j jk m m mh
diag
a
a
a
a
a
Note: Para os elementos fora da diagonal de a aproximação pode não ser boa!! Um critério de bondade de ajuste é:
resR
Matriz residual 2 2 2 2 1 m...
p m resR
S.Q. das entradas deAnálise Fatorial via
Componentes Principais
1
4
,
0
7
,
0
4
,
0
1
9
,
0
7
,
0
9
,
0
1
Exemplo 2. Considere a matriz de covariância de Y=(Y1 Y2 Y3) dada por:
Obter a solução do modelo fatorial para Y via Componentes Principais:
e
Y
f
?
?
Análise Fatorial via
Componentes Principais
1
4
,
0
7
,
0
4
,
0
1
9
,
0
7
,
0
9
,
0
1
Considere o exemplo em que obtivemos a solução matemática dos componentes e . Agora vamos obter a solução via CP:
Autovalores: 2,35364 0,61602 0,03035 0,643624 -0,111080 0,757238 0,576635 -0,580180 -0,575225 0,503230 0,806878 -0,309365 Matriz dos autovetores: 3 1 3 3 2 1 2 2 1 1 1 1 1 1 1
772
,
0
885
,
0
987
,
0
772
,
0
885
,
0
987
,
0
5032
,
0
5766
,
0
6436
,
0
35
,
2
1
e
F
Y
e
F
Y
e
F
Y
e
Y
a
a
m
f
Análise Fatorial via
Componentes Principais
1
4
,
0
7
,
0
4
,
0
1
9
,
0
7
,
0
9
,
0
1
3 1 3 3 2 1 2 2 1 1 1 1772
,
0
885
,
0
987
,
0
e
F
Y
e
F
Y
e
F
Y
e
Y
f
Matriz de covariância amostral de Y
0,4040
0
0
0
0,2168
0
0
0
0,0258
0,5960
0,6832
0,7620
0,6832
0,7832
0,8735
0,7620
0,8735
0,9742
1
4
,
0
7
,
0
4
,
0
1
9
,
0
7
,
0
9
,
0
1
tr
= 3 : variância totalA variância total está preservada mas os termos fora da diagonal podem não estar bem aproximados!
Análise Fatorial via
Componentes Principais
1
4
,
0
7
,
0
4
,
0
1
9
,
0
7
,
0
9
,
0
1
Variável Fator1 Comunalidade Especificidade Var 1 0,987 0,975 1-0,975=0,0258 Var 2 0,885 0,783 1-0,783=0,2168 Var 3 0,772 0,596 1-0,596=0,4040 Variância 2,3536 0,6466 % Var 78,5% 21,5%
tr
= 3 : variância total Interprete os resultados!Análise Fatorial via
Componentes Principais
00 , 1 45 , 0 63 , 0 45 , 0 00 , 1 61 , 0 63 , 0 61 , 0 00 , 1Exemplo 3. Agora considere a seguinte matriz de covariância e obtenha o modelo fatorial via CP:
Autovalores: 2,13027 0,55049 0,31924 Autovetores: Adote m=2 ! -0,612978 0,034862 -0,789330 -0,554792 -0,730297 0,398587 -0,562550 0,682239 0,466997 Discuta os resultados!
Análise Fatorial via CP
tr
= 3 : variância total 00 , 1 45 , 0 63 , 0 45 , 0 00 , 1 61 , 0 63 , 0 61 , 0 00 , 1Variável Fator1 Fator2 Comunalidade % Explic Especif
Var 1 -0,895 0,026 0,801 0,801 0,199 Var 2 -0,810 -0,542 0,949 0,949 0,051 Var 3 -0,821 0,506 0,930 0,930 0,070 Variância 2,1303 0,5505 2,6808 0,320 % Explic 0,710 0,183 0,8933 0,107 2,6808/3 0,801/1; Var(Y1)=1 1-0,801
Análise Fatorial
Exercício: Considere o conjunto de dados dos pardais de Manly (1994):
Y1* = 0,8591 F1 + e1 Y2* = 0,8779 F1 + e2 Y3* = 0,8567 F1 + e3 Y4* = 0,8951 F1 + e4 Y5* = 0,7562 F1 + e5 Matrix CORR1 1,00000 0,73496 0,66181 0,64528 0,60512 0,73496 1,00000 0,67374 0,76851 0,52901 0,66181 0,67374 1,00000 0,76319 0,52627 0,64528 0,76851 0,76319 1,00000 0,60665 0,60512 0,52901 0,52627 0,60665 1,00000
Análise Fatorial via Máxima
Verossimilhança
Estimação dos Componentes do Modelo Fatorial via Máxima Verossimilhança
p p p p
p N μ ,Σ
Y 1 ~ 1
Suponha que os fatores comuns F e os específicos
e
seguem distribuição Normal, tal que, a distribuição marginal de Y é :
n i i i e L n np 1 2 1 2 / 2 / 2 1 ) | , , ( μ Y Σ μ Y 1 Σ Y Então, para uma amostra de n vetores independentes de Y a função de verossimilhan-ça de , e é dada por:
Maximizar L é equivalente a minimizar a seguinte medida de distância: ln ’ + + tr ( S ’ + -1) – ln S - p
que toma o valor zero se (’ + ) é igual a S (matriz de covariância amostral de Y). Não existe solução explícita para os estimadores de e que minimizem a função
Análise Fatorial via Máxima
Verossimilhança
Estimação dos Componentes do Modelo Fatorial via Máxima Verossimilhança
A solução via MVS é comumente obtida considerando a matriz de correlação de Y, R (equivalente a maximizar a função de verossimilhança dos dados
padronizados, Y*). Assim, é necessário minimizar
ln R R’ + R + tr ( R R R’ + R -1) – ln R - p
Assim, a solução para a decomposição da matriz de covariância é:
2 / 1 2 / 1 2 / 1 ˆ ˆ ; ˆ ˆ jj jj jj R p p s R s s m p D D D
Análise Fatorial
00 , 1 45 , 0 63 , 0 45 , 0 00 , 1 61 , 0 63 , 0 61 , 0 00 , 1Variável F1 F2 Comunalid Especif F1 F2 Comunalid Especif Y1 -0,895 0,026 0,801 0,199 0,733 0,127 0,554 0,446 Y2 -0,81 -0,542 0,949 0,051 0,897 -0,38 0,949 0,051 Y3 -0,821 0,506 0,93 0,067 0,755 0,6 0,93 0,067 Variância 2,1303 0,5505 2,6808 0,032 1,9136 0,5199 2,4335 0,564 % Explic 0,71 0,183 0,894 0,0106 0,638 0,173 0,811 0,188 CP Max. Veross.
Solução do Modelo Fatorial para a extração dos componentes (comuns e específicos) via Componentes Principais e os estimadores de
Máxima Verossimilhança:
(Uso do R, MINITAB, …)
As comunalidades obtidas via CP são usadas como valores iniciais no algoritmo iterativo de maximização da função de verossimilhança
Análise Fatorial
00 , 1 45 , 0 63 , 0 45 , 0 00 , 1 61 , 0 63 , 0 61 , 0 00 , 1Matriz Residual via Componentes Principais:
Matriz Residual via Máxima Verossimilhança:
0,000000 0,100858 0,117951 0,100858 0,000000 -0,059242 0,117951 -0,059242 0,000000
0,000000 -0,0007590 -0,000385 -0,000759 0,0000000 -0,000765 -0,000385 -0,0007650 0,000000 A solução por máxima verossimilhança apresenta melhor resultado na aproximação de apesar da % da variância total
Análise Fatorial – Rotação dos Fatores
e
Y
Y
p1
f
p p p p p F F e Y e F F Y e F F Y 2 2 1 1 2 2 22 1 21 2 2 1 2 12 1 11 1 1 ...
Ψ
Φ
Φ
e
Cov
Y
Cov
f
solução
é
solução
é
*
*
*
;
*
Seja
I
*= Geometricamente é uma rotação de eixos (novos fatores)
Podemos buscar rotações que conduzam a soluções fáceis de interpretar (médias, contrastes, formas canônicas)
Análise Fatorial – Rotação dos Fatores
Geografia Inglês História Aritmética Algebra Geometria
1 0,439 0,41 0,288 0,329 0,248 0,439 1 0,351 0,354 0,32 0,329 R = 0,41 0,351 1 0,164 0,19 0,181 0,288 0,354 0,164 1 0,595 0,47 0,329 0,32 0,19 0,595 1 0,464 0,248 0,329 0,181 0,47 0,464 1
Variável Fator1 Fator2 Comunalidade
Geogr 0,553 0,429 0,49 Inglês 0,568 0,288 0,406 Hist 0,392 0,45 0,356 Aritm 0,74 -0,273 0,623 Algebra 0,724 -0,211 0,569 Geom 0,595 -0,132 0,372 Variance 2,2094 0,6057 2,8151 % Var 0,368 0,101 0,469
• Solução da análise fatorial via máxima verossimilhança
• F1: cargas positivas resposta média fator de inteligência geral • F2: metade das cargas é positiva e metade é negativa fator bipolar
Análise Fatorial – Rotação dos Fatores
F1 F2 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,5 0,4 0,3 0,2 0,1 0,0 -0,1 -0,2 -0,3 0 0 Cargas Fatoriais V1 V2 V3 V6 V5 V4• Os eixos originais podem ser rotacionados de tal forma que todos os pontos caem no 1° quadrante
• As variáveis V4, V5 e V6 (da área exata) recebem carga alta em F1* e baixa em F2* • As variáveis V1, V2 e V3 (da área de humanas) recebem carga alta em F2* e carga moderada/baixa em F1*
F1*: habilidade matemática
F2*: habilidade verbal
Nos novos eixos o fator de inteligência geral (F1) está particionado nos fatores F1* e F2*
Análise Fatorial – Rotação dos Fatores
F1 F2 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,5 0,4 0,3 0,2 0,1 0,0 -0,1 -0,2 -0,3 0 0 Cargas Fatoriais V1 V2 V3 V6 V5 V4Rotação de 200 eixos originais
cos
cos
sen
sen
Cosseno de 200 = 0,9397 Seno de 200 = 0,3420 ;
*
I
Obtenha também ascoordenadas sob uma rotação de 40 graus (Everitt, 2007). Obtenha as novas
coordenadas sob uma rotação de 20 graus nos eixos originais (sentido horário)
Análise Fatorial – Rotação dos Fatores
Variável Fator1 Fator2 Comunalid Fator1* Fator2* Comunalid
Geogr 0,553 0,429 0,49 0,232 0,66 0,49 Inglês 0,568 0,288 0,406 0,321 0,551 0,406 Hist 0,392 0,45 0,356 0,085 0,591 0,356 Aritm 0,74 -0,273 0,623 0,77 0,173 0,623 Algebra 0,724 -0,211 0,569 0,723 0,215 0,569 Geom 0,595 -0,132 0,372 0,572 0,213 0,372 Variance 2,2094 0,6057 2,8151 1,6057 1,2094 2,8151 % Var 0,368 0,101 0,469 0,268 0,202 0,469
Fatores Originais Fatores Rotacionados
habilidade matemática
habilidade verbal
As comunalidades são invariantes por rotação ortogonal dos fatores
*
*
(=400)Análise Fatorial – Rotação dos Fatores
Não existe uma solução única para representar os fatores Como escolher e obter uma solução/rotação ?
*jk
Φ*
: novas cargas dos fatores rotacionadosNa prática o objetivo dos métodos de rotação é SIMPLIFICAR as linhas e colunas da matrix de cargas para facilitar a interpretação
p m pm p p p p m m m m
e
F
F
F
Y
e
F
F
F
Y
e
F
F
F
Y
...
...
...
...
2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1
pm p p m m
...
...
...
...
1 1 2 22 21 1 12 11e
Y
f
Matriz de Cargas linhas Variabilid. das variáveis Yjcolunas variabilidade dos fatores Fk
Conseguir valores 0’s e 1’s
Análise Fatorial – Rotação dos Fatores
Não existe uma solução única para representar os fatores Como escolher e obter uma solução/rotação ?
Rotação Varimax:
*jk
Φ*
: novas cargas dos fatores rotacionados
p j jk k m k p j k jk m k kp
p
V
V
1 1 1 2 1;
2 2 * j jk jkh
: proporção da comunalidade de Yj explicada por Fk Seja:A matriz de rotação varimax é escolhida de tal forma a maximizar V (soma das variâncias de jk) espera-se que algumas das novas cargas sejam altas e outras baixas, facilitando a interpretação dos fatores (maximizar a variabilidade dos fatores/colunas de ).
Análise Fatorial – Rotação dos Fatores
Não existe uma solução única para representar os fatores Como escolher e obter uma solução/rotação ?
Métodos de Rotação Ortogonal:
Rotação Varimax: simplifica as colunas da matriz de cargas
Rotação Quartimax: simplifica as linhas da matriz de cargas
Rotação Equimax: é um compromisso entre as duas outras técnicas
Existem ainda as rotações obliquas. Neste caso, as comunalidades não são invariantes.
Análise Fatorial – Rotação dos Fatores
Variável Fator1 Fator2 Comunalid Fator1* Fator2* Comunalid
Geogr 0,553 0,429 0,49 0,232 0,66 0,49 Inglês 0,568 0,288 0,406 0,321 0,551 0,406 Hist 0,392 0,45 0,356 0,085 0,591 0,356 Aritm 0,74 -0,273 0,623 0,77 0,173 0,623 Algebra 0,724 -0,211 0,569 0,723 0,215 0,569 Geom 0,595 -0,132 0,372 0,572 0,213 0,372 Variance 2,2094 0,6057 2,8151 1,6057 1,2094 2,8151 % Var 0,368 0,101 0,469 0,268 0,202 0,469
Fatores Originais Fatores Rotacionados
Variável Fator1 Fator2 Comunalid Fator1* Fator2* Comunalid
Geogr 0,26 0,65 0,49 0,232 0,66 0,49 Inglês 0,344 0,536 0,406 0,321 0,551 0,406 Hist 0,111 0,587 0,356 0,085 0,591 0,356 Aritm 0,777 0,139 0,623 0,77 0,173 0,623 Algebra 0,731 0,184 0,569 0,723 0,215 0,569 Geom 0,58 0,188 0,372 0,572 0,213 0,372 Variance 1,6733 1,1418 2,8151 1,6057 1,2094 2,8151 % Var 0,279 0,19 0,469 0,268 0,202 0,469
Análise Fatorial – Escores Fatoriais
Escore Fatorial: valor que cada indivíduo na amostra tem para cada um dos fatores comuns
e
Y
Y
p1
f
p p p p p F F e Y e F F Y e F F Y 2 2 1 1 2 2 22 1 21 2 2 1 2 12 1 11 1 1 ... i i i p iY
e
Y
( 1)
f
pi i p i p p pi i i i i i i i i e F F Y e F F Y e F F Y 2 2 1 1 2 2 22 1 21 2 2 1 2 12 1 11 1 1 ... Para o indivíduoi
: Qual o valor de ?f
i,
i
1
,
2
,...,
n
Análise Fatorial – Escores Fatoriais
2 / 1 ) 1 (
Y
e
Z
D
jY
i p i
f
i if
i i Qual o valor de ?f
i,
i
1
,
2
,...,
n
Método de Mínimos Quadrados Ponderados (Bartlett):
Supondo , e conhecidos modelo de regressão linear heterocedástico O preditor de
f
i é dado por:
i iY
1 1 1ˆf
Coeficiente do fator (px1) (mxp) Método de Componentes Principais: m primeiros
Análise Fatorial – Escores Fatoriais
i i i p iY
e
Y
( 1)
f
Qual o valor de ?i
n
i,
1
,
2
,...,
f
Método da Regressão: ( , e são assumidos conhecidos)
O preditor de
f
i é dado por:
i i i
Y
Y
1 1ˆf
m m p i i p i m m iI
N
e
N
e
I
N
0
0
,
0
~
,
0
~
,
0
~
f
f
m m p i i p i i iI
N
Y
N
e
Y
~
0
,
~
0
,
f
f
1
1
;
~
/
i m i m iY
N
Y
I
f
Coeficiente do fator (mxp)Análise Fatorial
ID X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 1 4,1 0,6 6,9 4,7 2,4 2,3 5,2 0 32 4,2 1 0 1 1 2 1,8 3,0 6,3 6,6 2,5 4,0 8,4 1 43 4,3 0 1 0 1 3 3,4 5,2 5,7 6,0 4,3 2,7 8,2 1 48 5,2 0 1 1 2 4 2,7 1,0 7,1 5,9 1,8 2,3 7,8 1 32 3,9 0 1 1 1 5 6,0 0,9 9,6 7,8 3,4 4,6 4,5 0 58 6,8 1 0 1 3 6 1,9 3,3 7,9 4,8 2,6 1,9 9,7 1 45 4,4 0 1 1 2 … 97 6,1 0,5 9,2 4,8 3,3 2,8 7,1 0 60 5,2 1 0 1 3 98 2,0 2,8 5,2 5,0 2,4 2,7 8,4 1 38 3,7 0 1 0 1 99 3,1 2,2 6,7 6,8 2,6 2,9 8,4 1 42 4,3 0 1 0 1 100 2,5 1,8 9,0 5,0 2,2 3,0 6,0 0 33 4,4 1 0 0 1Análise Fatorial
Quantos Fatores usar ?
Factor Number Ei g e n v a lu e 6 5 4 3 2 1 2,5 2,0 1,5 1,0 0,5 0,0 Scree Plot de X1, X2, X3, X4, X6 e X7
Critério Scree : o número de fatores é escolhido quando a diferença de explicação entre os fatores tende a se estabilizar
Usar dois ou três fatores.
Lembrar que na solução via CP o k-ésimo autovalor representa a “explicação” da variância
total devida ao Fator k
k p j jk
1 2Análise Fatorial
Arquivo HATCO (Hair et al., 2005)
Variable Fator1 Fator2 Comunalidade X1 0,627 -0,514 0,658 X2 -0,759 0,068 0,58 X3 0,73 -0,337 0,646 X4 -0,494 -0,798 0,882 X6 -0,425 -0,832 0,872 X7 -0,767 0,168 0,616 Variance 2,5135 1,7395 4,253 % Var 0,419 0,29 0,709
Análise Fatorial
Interpretação dos Fatores:
First Factor S e co n d F a ct o r 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 0,00 -0,25 -0,50 -0,75 X7 X6 X4 X3 X2 X1 Loading Plot de X1, X2, X3, X4, X6 e X7
Análise Fatorial
Arquivo HATCO (Hair et al., 2005)
Variável Fator1 Fator2 Comunalidade Fator1 Fator2 Comunalidade
X1 0,627 -0,514 0,658 -0,787 0,194 0,658 X2 -0,759 0,068 0,58 0,714 0,266 0,58 X3 0,73 -0,337 0,646 -0,804 -0,011 0,646 X4 -0,494 -0,798 0,882 0,102 0,933 0,882 X6 -0,425 -0,832 0,872 0,025 0,934 0,872 X7 -0,767 0,168 0,616 0,764 0,179 0,616 Variance 2,5135 1,7395 4,253 2,3698 1,8832 4,253 % Var 0,419 0,29 0,709 0,395 0,314 0,709
Fatores Originais - CP Fatores Rotacionados - Varimax
X1, X2 e X3: variáveis associadas a preço do produto (X7: qualidade) X4 e X6: variáveis associadas à imagem da CO
Como validar os resultados de uma Análise Fatorial? Valor básico Imagem
Análise Fatorial
Arquivo HATCO (Hair et al., 2005)
F1 F2 2 1 0 -1 -2 3 2 1 0 -1 -2
Escores dos Fatores
Variável Fator1 Fator2
X1 -0,352 0,159 X2 0,289 0,095 X3 -0,345 0,05 X4 -0,02 0,499 X6 -0,053 0,504 X7 0,317 0,044
Coeficientes dos Fatores
Aplicação: Uso dos Fatores para Análise de diagnóstico de valores discrepantes (como pode ser feito com os Componentes Principais).
i i Y 1 ˆf Matriz (mxp) dos coeficientes dos fatoresAnálise Fatorial
Arquivo HATCO (Hair et al., 2005)
X8=0 X8=1 t valor p X1 4,19167 2,5 8,07 0 X2 1,94833 2,9875 -4,56 0 X3 8,62167 6,8025 8,83 0 X4 5,21333 5,3 -0,4 0,686 X6 2,69167 2,625 0,45 0,652 X7 6,09 8,2925 -9,9 0 F1 -0,639618 0,959427 -13,77 0 F2 0,052188 -0,078282 0,68 0,499
Aplicação: Os Fatores podem ser usados em análises adicionais
Teste de Diferenças entre as Médias das variáveis X de acordo com o tamanho das empresas (X8)
Valor básico Imagem
Componentes Principais x Análise Fatorial
Ambas buscam uma Redução de Dimensionalidade, por explicar um
conjunto de dados multivariados usando um conjunto menor de variáveis
CONTUDO, os critérios de otimalidade usados em cada caso são
diferentes:
An.F. é ótima no sentido de explicar as covariâncias/correlações entre as
variáveis por meio de fatores comuns.
An.C.P. explica a variância total das variáveis observadas.
Na análise de C.P. se o número de componentes retidos é aumentado,
isto NÃO altera os anteriores, mas isto pode não acontecer na Análise
Fatorial, principalmente sob a solução de MVS.
Cálculo dos escores em C.P. tem solução única. No caso de A.F. (via
MVS) existem diferentes procedimentos inferenciais propostos.
Componentes Principais x Análise Fatorial
As análises de C.P. via matriz de covariância (
=Cov(Y)) ou de correlação
(R=Cov(Y*) são diferentes. Na Análise Fatorial via MVS a solução para a
matriz de covariância é obtida da solução da matriz de correlação:
jj s
s D s
D
jj
jj * , com n como divisor de
2 / 1 2 / 1
*,
2 / 1
jj sD
Teste (assintótico) da adequação do modelo fatorial:
geral
estrutura
com
:
:
1 0
H
H
A estatística da razão de verossimilhanças (sob normalidade) é:
n S n L L ˆ ˆ ˆ ln ln 2 1 0