MAE 0330 ANÁLISE MULTIVARIADA DE DADOS. Análise Fatorial. Júlia M Pavan Soler

(1)

MAE 0330

ANÁLISE MULTIVARIADA DE DADOS

Análise Fatorial

Júlia M Pavan Soler

pavan@ime.usp.br

(2)

Análise de Componentes Principais

Considere os seguintes dados:

Em um estudo com camundongos, o peso corporal (em gramas) de 150 fêmeas foi medido logo após o nascimento de suas primeiras 4 ninhadas. A seguir, são apresentados o vetor de médias e a matriz de correlação dos dados obtidos.





  39,88; 45,08; 48,11; 49,95 X              1 6625 , 0 7386 , 0 6363 , 0 6625 , 0 1 6925 , 0 6329 , 0 7386 , 0 6925 , 0 1 7501 , 0 6363 , 0 6329 , 0 7501 , 0 1 R

Obtenção dos CP associados à variação do peso das fêmeas após o nascimento da ninhada a partir da matriz de correlação:

 

*

0  

*

 

*

*;

;

















P

R

Y

Corr

R

Y

Cov

Y

E

Y

Cov

Y

E

Y



CP das variáveis padronizadas

Y1* Y2* Y3* Y4* Var(Z) %Ac. Z1 -0,493521 -0,52195 -0,487185 -0,496645 3,05841 0,764603 Z2 0,713166 0,190885 -0,585422 -0,33502 0,38233 0,095582 Z3 -0,232722 0,143263 -0,645125 0,713533 0,34178 0,085445 Z4 0,440082 -0,818906 0,061198 0,363285 0,21748 0,054371

(3)

Análise de Componentes Principais

Dados: Peso das fêmeas após o nascimento das quatro primeiras ninhadas:

Y1* Y2* Y3* Y4* Var(Z) %Ac.

Coeficiente -0,493521 -0,52195 -0,487185 -0,496645 Z1 Correl -0,863662 -0,913412 -0,852574 -0,869129 %Var(Y*/Z) 0,745911 0,834322 0,726882 0,755385 3,05841 0,764603 Coeficiente 0,713166 0,190885 -0,585422 -0,33502 Z2 Correl 0,442163 0,118349 -0,362962 -0,207712 %Var(Y*/Z) 0,195508 0,014006 0,131741 0,043144 0,38233 0,860185 Coeficiente -0,232722 0,143263 -0,645125 0,713533 Z3 Correl -0,134979 0,083092 -0,374173 0,413849 %Var(Y*/Z) 0,018219 0,006904 0,140005 0,171271 0,34178 0,94563 Coeficiente 0,440082 -0,818906 0,061198 0,363285 Z4 Correl 0,206838 -0,384886 0,028763 0,170744 %Var(Y*/Z) 0,042782 0,148137 0,000827 0,029153 0,21748 1 Var(Y*) 1 1 1 1 4

 Z1, sozinho, explica 76% da variância total das variáveis padronizadas  Em Z1 todas as variáveis recebem “pesos/cargas” parecidos

Típico de matriz de correlação uniforme

(4)

Análise de Componentes Principais

Y1 Y2 Y3 Y4 Var(Z) %Ac. Coeficiente -0,454143 -0,494127 -0,512301 -0,535855 Z1 Correl 0,84619 0,90426 0,86158 0,8819 %Var(Y/Z) 0,716038 0,817686 0,74232 0,777748 3779,01 0,763728 Coeficiente 0,284291 0,224061 -0,855476 0,37032 Z2 Correl 0,18639 0,14428 0,50626 0,21612 %Var(Y/Z) 0,034741 0,020817 0,256299 0,046708 468,25 0,85836 Coeficiente -0,679181 -0,18158 0,034226 0,710331 Z3 Correl 0,43768 0,11492 0,0199 0,40432 %Var(Y/Z) 0,191564 0,013207 0,000396 0,163475 452,13 0,949734 Coeficiente 0,501644 -0,820161 0,067363 0,266744 Z4 Correl 0,23979 0,38505 0,02906 0,11262 %Var(Y/Z) 0,057499 0,148264 0,000844 0,012683 248,72 1 Var(Y) 1088,4 1128,41 1336,15 1395,15 4948,11

 

Y

Cov

 

Y

P

E

Y

;



















Obtenção dos CP dos dados de peso das fêmeas após o nascimento das ninhadas: CP das variáveis originais (obtidos da matriz )







 32,9909;33,5918;36,5534;37,3517

s

Padrão típico de R com padrão uniforme e homocedasticidade

(5)

Análise de Componentes Principais e

Análise Fatorial

Como obter as variáveis originais a partir das componentes principais?

Z

P

Y

P

Z

P

Y

Z

...

Y

Z

;

Y

2 2 1 1 .





































P

Y

a

Y

a

Y

a

Y

P

Z

P

p pj j j j j



p jp j j j j

P

Z

a

Z

a

Z

a

Z

Y



_.



₁ ₁



₂ ₂



...



 

a

_ij

P

 

a

_ji

P



;





;

Pense neste sistema de equações como a expressão das variáveis Y em função de um conjunto de “fatores comuns” Z

(6)

Análise de Componentes Principais e

Análise Fatorial

1 4 4 4 1 4



P





Y

*



Z

1 4 4 4 1 4

*

_



P

_

Z

_

Y

Para os dados (padronizados) de peso das fêmeas após o nascimento das ninhadas:

 Escreva as expressões que descrevem as variáveis Y* em função de Z

 Z1, sozinho, explica 76% da variabilidade total dos dados padronizados  parece natural reduzir o problema para uma única dimensão

 Pense na seguinte situação: Há interesse em modelar Y* em função de um único “fator comum”  Como encontrar tal fator ?

Y1* Y2* Y3* Y4*

Z1 -0,493521 -0,52195 -0,487185 -0,496645 Z2 0,713166 0,190885 -0,585422 -0,33502 Z3 -0,232722 0,143263 -0,645125 0,713533 Z4 0,440082 -0,818906 0,061198 0,363285 Z1 Z2 Z3 Z4 Y1* -0,493521 0,713166 -0,232722 0,440082 Y2* -0,52195 0,190885 0,143263 -0,818906 Y3* -0,487185 -0,585422 -0,645125 0,061198 Y4* -0,496645 -0,33502 0,713533 0,363285

(7)

Análise de Componentes Principais e

Análise Fatorial

Para os dados de peso das fêmeas após o nascimento das ninhadas temos:

1 4 4 4 1 4



P





Y

*



Z

1 4 4 4 1 4

*

_



P

_

Z

_

Y

As “cargas” atribuídas às variáveis Z devem levar em conta as variâncias destas variáveis. Neste caso, Y pode ser expresso em termos de fatores comuns, denotados por F, tal que: Cov ( F ) = I

Y1* Y2* Y3* Y4*

Z1 -0,493521 -0,52195 -0,487185 -0,496645 Z2 0,713166 0,190885 -0,585422 -0,33502 Z3 -0,232722 0,143263 -0,645125 0,713533 Z4 0,440082 -0,818906 0,061198 0,363285 Z1 Z2 Z3 Z4 Y1* -0,493521 0,713166 -0,232722 0,440082 Y2* -0,52195 0,190885 0,143263 -0,818906 Y3* -0,487185 -0,585422 -0,645125 0,061198 Y4* -0,496645 -0,33502 0,713533 0,363285





F

P

Y

Z

P

Y

2 / 1 1 4 4 4 2 / 1 4 4 2 / 1 4 4 1 4

*











_    _  novas cargas F1 F2 F3 F4 Y1* -0,863085 0,440969 -0,136054 0,205233 Y2* -0,912803 0,118029 0,083754 -0,381898 Y3* -0,852004 -0,36198 -0,377152 0,02854

(8)

Análise de Componentes Principais e

Análise Fatorial



 Neste caso, o fator F1 recebe os maiores pesos

 Pode-se expressar Y* em função do “fator comum” F1

 Nesta aproximação (redução) pode-se adicionar um “fator específico” denotado por e, tal que Y* pode ser modelado como:

Y1* = -0,863085 F1 + e1 Y2* = -0,912803 F1 + e2 Y3* = -0,852004 F1 + e3 Y4* = -0,868548 F1 + e4

Vamos então formalizar o procedimento de encontrar fatores comuns e específicos a um conjunto de variáveis !





F P Y Z P Y 2 / 1 2 / 1 2 / 1 1 4 * *        

 

F Cov

 

Z I Cov Z F₄_₁  1/2   1/2 1/2  1/21/2  F1 F2 F3 F4 Y1* -0,863085 0,440969 -0,136054 0,205233 Y2* -0,912803 0,118029 0,083754 -0,381898 Y3* -0,852004 -0,36198 -0,377152 0,02854 Y4* -0,868548 -0,20715 0,417144 0,169419

(9)

Análise Multivariada de Dados

Unidades Amostrais 1 2 … j … p 1 Y11 Y12 Y1j Y1p 2 Y₂₁ Y₂₂ Y_2j Y_2p … … … … i Y_i1 Y_i2 Y_ij Y_ip … … … … n Yn1 Yn2 Ynj Ynp Variáveis Objetivos:

 Descrever a inter-relação entre as variáveis, isto é, obter fatores comuns à todas as p variáveis  obter constructos, variáveis latentes (não observáveis)

 Descrever a estrutura de dependência entre as variáveis por meio da construção de fatores (comuns e específicos)

(10)

Variáveis e Constructos

Planejamento de Experimentos:  Unidades Amostrais  Variáveis de Interesse  Estrutura de Tratamento  Estrutura de Planejamento  …

Variáveis Observáveis (concretas)  ex.: peso, altura, temperatura, glicemia, etc. Constructos: variáveis (latentes) que não podem ser medidas diretamente e, em geral, requerem a observação de muitas variáveis para sua caracterização  ex.: QI, QE, ansiedade, susceptibilidade, satisfação, sindrome metabólica, etc..

Uma das utilidades da análise fatorial é a identificação de constructos existentes em um conjunto de dados

(11)

Escala IDATE – Questionário de Ansiedade (Projeto CEA-IME/USP)

O nível de ansiedade pode ser medido por meio de um instrumento denominado IDATE. Deve-se avaliar cada frase atribuindo-se nota entre 1 a 4, tal que: 1 (nunca ocorre)

4 (ocorre quase sempre) Em geral, utiliza-se a Soma dos escores para medir ansiedade.

Soma dos escores: 20-80

Item Descrição

1 Sinto-me bem

2 Canso-me facilmente 3 Tenho vontade de chorar

4 Gostaria de ser feliz como as outras pessoas parecem ser

5 Perco oportunidades porque não consigo tomar decisões rápidas 6 Sinto-me descansado

7 Sinto-me calmo, ponderado e senhor de mim mesmo

8 Sinto que as dificuldades estão se acumulando de tal forma que não consigo resolver

9 Preocupo-me demais com as coisas sem importância 10 Sou feliz

11 Deixo-me afetar muito pelas coisas 12 Não tenho confiança em mim mesmo 13 Sinto-me seguro

14 Evito ter que enfrentar crises e problemas 15 Sinto-me deprimido

16 Estou satisfeito

17 Às vezes idéias sem importância me entram na cabeça

18 Levo as coisas tão a sério que não consigo tirá-las da cabeça 19 Sou uma pessoa estável

(12)

Aplicação do questionário Idate a 1.110 estudantes universitários (Andrade et al., 2001)

Avaliação da Matriz de

Correlação: formação de dois conjuntos de variáveis com alta correlação intra bloco e baixa correlação entre blocos:

B1=(Y1, Y10, Y13, Y16)

B2=(Y9, Y11, Y17, Y18)

B1: variáveis ligadas ao

constructo “satisfação pessoal”

B2: var. ligadas ao constructo “dificuldade em lidar com

problemas” Escala IDATE – Questionário de Ansiedade

Item Descrição

1 Sinto-me bem

2 Canso-me facilmente 3 Tenho vontade de chorar

4 Gostaria de ser feliz como as outras pessoas parecem ser

5 Perco oportunidades porque não consigo tomar decisões rápidas 6 Sinto-me descansado

7 Sinto-me calmo, ponderado e senhor de mim mesmo

8 Sinto que as dificuldades estão se acumulando de tal forma que não consigo resolver

9 Preocupo-me demais com as coisas sem importância 10 Sou feliz

11 Deixo-me afetar muito pelas coisas 12 Não tenho confiança em mim mesmo 13 Sinto-me seguro

14 Evito ter que enfrentar crises e problemas 15 Sinto-me deprimido

16 Estou satisfeito

17 Às vezes idéias sem importância me entram na cabeça 18 Levo as coisas tão a sério que não consigo tirá-las da cabeça 19 Sou uma pessoa estável

(13)

Y1 Y10 Y13 Y16 Y9 Y11 Y17 Y18 Y1 1 Y10 0,576 1 Y13 0,385 0,473 1 Y16 0,513 0,661 0,541 1 Y9 -0,137 -0,162 -0,308 -0,224 1 Y11 -0,204 -0,24 -0,376 -0,322 0,459 1 Y17 -0,182 -0,203 -0,326 -0,251 0,525 0,456 1 Y18 -0,324 -0,33 -0,367 -0,398 0,401 0,48 0,478 1

A existência de correlações relativamente altas entre as variáveis de um mesmo bloco, indicam a possibilidade de que tais variáveis medem algo em comum  variáveis ligadas a um mesmo constructo

A Análise Fatorial nos permite não somente identificar constructos, como também nos fornece meios para medi-los.

(14)

Análise Fatorial

Como explicar o comportamento de variáveis observadas em função de um conjunto de variáveis latentes (não observáveis, constructos)?

p m pm p p p p m m m m p

e

F

Y

e

F

Y

e

F

Y

































...

Y

2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1 1









 

:

,...,

:

,...,

ij 1 1















p m

e

F

f

fatores comuns fatores específicos cargas fatoriais 1 1 1    









p m m



p p

Y

e

Y



f

Notação Matricial

(15)

Análise Fatorial

e

Y











f



Y

₁

Y

₂

Y

_p . . .

e

₁

e

₂

e

_p . . .

F

₁

F

₂

F

_m . . .

Diagrama de caminho de um modelo de Análise Fatorial ortogonal

Var. Observadas: retângulos

Var. Latentes (constructo): círculos Erros: sem representação gráfica As setas partem de uma variável independente e atingem uma variável dependente

Se existirem correlações (entre os fatores específicos ou mesmo os comuns), estas devem ser

(16)

Análise Fatorial

e

Y

_p_₁











f



 

e

m

Cov

 

e

diag



_p



E

e

Cov

I

Cov



,...,

0

0 ,

1







f

 

Y

Cov



e



Cov





_p__p





f



Matriz de Covariância marginal de Y:

Suposições do modelo de fatores ortogonais:

p m pm p p p p m m m m e F F F Y e F F F Y e F F F Y                  













... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1















componente de covariância devido ao fator comum componente de covariância devido ao fator específico Decomposição muito particular!

(17)

Análise Fatorial

e

Y

_p_₁











f



 Matriz de Covariância marginal de Y:

p m pm p p p p m m m m e F F F Y e F F F Y e F F F Y                               ... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1













j jm j j j

Y

Var

(

)





2₁





2₂



...





2





 depende dos fatores comuns e específicos 2 2 2 2 1 2

...

_jm j j j

h













__{Comunalidade da variável Yj}

 Proporção da Var(Yj) explicada pelo conjunto dos fatores comuns

 

j _j j

Y

Var

h

2 2



j j j

h

Y

Var

(

)



2





Especificidade

(18)

Análise Fatorial

e

Y

_p_₁











f



p m pm p p p p m m m m e F F F Y e F F F Y e F F F Y                               ... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1













j j j jm j j j

h

Y

Var

(

)





2₁





2₂



...





2







2





m j jm j j j j j j

Y

Cov

(

,

_'

)





₁



_'₁





₂



_'₂



...





_' __{depende somente}

dos fatores comuns

 

j _j j

Y

Var

h

2 2



 



   _p j j p j j Y Var h H 1 1 2 2

 



   _p j j p j jk F Y Var H k 1 1 2 2  % da Var(Yj) explicada pelo conjunto dos

fatores comuns

% da Variância Total de Y explicada pelo conjunto dos

fatores comuns

% da Variância Total explicada pelo fator

(19)

Análise Fatorial

e

Y

_p_₁











f















... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1

 Matriz de Covariância entre as variáveis Y e F:







jk k k



jk k m jm k jk j k j

F

Cov

F

Cov

F

Y

Cov









;

...

)

,

(

₁ ₁

Interpretação das cargas fatoriais: são as covariâncias entre as variáveis observadas originais e os fatores comuns

 

j _j jk _j jk k j

h

Y

Var

F

Y

Corr









2

)

,

(

(20)

Análise Fatorial

Exemplo 1. Suponha que um conjunto de dados (4 variáveis mensuradas em n indivíduos) apresente a seguinte matriz de covariância:

              60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 20 , 0 40 , 0 60 , 1               20 , 0 0 0 0 0 96 , 0 0 0 0 0 52 , 0 0 0 0 0 28 , 1

Mostre que, neste caso, vale a igualdade:













                                            20 , 0 0 0 0 0 96 , 0 0 0 0 0 52 , 0 0 0 0 0 28 , 1 60 , 0 20 , 0 20 , 1 40 , 0 20 , 1 00 , 1 20 , 0 60 , 1 60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 20 , 0 40 , 0 60 , 1 00 , 2 32 , 1 96 , 0 16 , 2 96 , 0 00 , 2 44 , 0 68 , 1 32 , 1 44 , 0 00 , 2 80 , 0 16 , 2 68 , 1 80 , 0 00 , 4

28 ,

1

72 ,

2

4

72 ,

2

40 ,

0

60 ,

1

1 2 1 1 2 12 2 11 11 2 2 2 12 2 11 2 1































h

comunalidade + especificidade de Y1 ; 00 , 2 32 , 1 96 , 0 16 , 2 96 , 0 00 , 2 44 , 0 68 , 1 32 , 1 44 , 0 00 , 2 80 , 0 16 , 2 68 , 1 80 , 0 00 , 4               _Seja,

(21)

Análise Fatorial

Exemplo 1. Suponha que um conjunto de dados apresente a seguinte matriz de covariância: ; 00 , 2 32 , 1 96 , 0 16 , 2 96 , 0 00 , 2 44 , 0 68 , 1 32 , 1 44 , 0 00 , 2 80 , 0 16 , 2 68 , 1 80 , 0 00 , 4                             60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 20 , 0 40 , 0 60 , 1               20 , 0 0 96 , 0 52 , 0 0 28 , 1

Tal que, neste caso:













Logo, Y pode ser modelado em termos de fatores comuns e específicos:

4 2 1 4 4 3 2 1 3 3 2 2 1 2 2 1 2 1 1 1 60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 200 , 0 40 , 0 60 , 1 e F F Y e F F Y e F F Y e F F Y                    

Nota: Esta é uma particular solução para . Note que, para qualquer matriz ortogonal, tem-se:



_*





_;







_I





_*



_*























Isto permite a rotação de eixos

(22)

Análise Fatorial

Exemplo 1. Suponha que um conjunto de dados apresente a seguinte matriz de covariância:                00 , 2 32 , 1 96 , 0 16 , 2 96 , 0 00 , 2 44 , 0 68 , 1 32 , 1 44 , 0 00 , 2 80 , 0 16 , 2 68 , 1 80 , 0 00 , 4               60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 20 , 0 40 , 0 60 , 1               20 , 0 0 96 , 0 52 , 0 0 28 , 1













4 2 1 4 4 3 2 1 3 3 2 2 1 2 2 1 2 1 1 1 60 , 0 20 , 1 20 , 0 00 , 1 20 , 1 200 , 0 40 , 0 60 , 1 e F F Y e F F Y e F F Y e F F Y                     ²j1 ²j2 h²j % Var j Y1 2,56 0,16 2,72 68 1,28 Y2 0,04 1,44 1,48 74 0,52 Y3 1 0,04 1,04 52 0,96 Y4 1,44 0,36 1,8 90 0,2 Total 5,4 2 7,04 % Var 50,4 20 70,4

 

Y

;

tr



;

Var

_j Interprete os resultados! Calcule:

(23)

Análise Fatorial

e

Y

_p_₁











f















... ... ... ... 2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1

Como obter os componentes COMUNS (), ESPECÍFICOS () e Escores Fatoriais (f_i) do modelo ?

 Método de Componentes Principais

(24)

Análise Fatorial via

Componentes Principais

e

Y









f













2 2 2



1 2 1 1 1 1 1 1 1 1 1 1

,...,

...

p p m m m m m m p p p m m m

h

diag

a

P































































jk k jk



a

















m k jk jj j 1 2







Aproximação usando m componentes  define os termos comuns! Componente específico da variância de Y_j

(25)

Análise Fatorial via

Componentes Principais

e

Y









f



Obtenção do modelo de fatores comuns e específicos

 







2



1 1 1

...

j jj jk j jk m m m

h

diag

a



































Note: Para os elementos fora da diagonal de  a aproximação pode não ser boa!! Um critério de bondade de ajuste é:



















res

R

Matriz residual 2 2 2 2 1 m

...

p m res

R





_





_





S.Q. das entradas de

(26)

Análise Fatorial via

Componentes Principais

















1

4 ,

0

7 ,

0

4 ,

0

1

9 ,

0

7 ,

0

9 ,

0

1

Exemplo 2. Considere a matriz de covariância de Y=(Y₁ Y₂ Y₃) dada por:

Obter a solução do modelo fatorial para Y via Componentes Principais:

e

Y









f



?



















(27)

Análise Fatorial via

Componentes Principais

















1

4 ,

0

7 ,

0

4 ,

0

1

9 ,

0

7 ,

0

9 ,

0

1

Considere o exemplo em que obtivemos a solução matemática dos componentes  e . Agora vamos obter a solução via CP:

Autovalores: 2,35364 0,61602 0,03035 0,643624 -0,111080 0,757238 0,576635 -0,580180 -0,575225 0,503230 0,806878 -0,309365 Matriz dos autovetores: 3 1 3 3 2 1 2 2 1 1 1 1 1 1 1

772 ,

0

885 ,

0

987 ,

0

772 ,

0

885 ,

0

987 ,

0 5032

,

0 5766

,

0 6436

,

0

35 ,

2

1 e

F

Y

e

F

Y

e

F

Y

e

Y

a

m











































































f

(28)

Análise Fatorial via

Componentes Principais

















1

4 ,

0

7 ,

0

4 ,

0

1

9 ,

0

7 ,

0

9 ,

0

1

3 1 3 3 2 1 2 2 1 1 1 1

772 ,

0

885 ,

0

987 ,

0 e

F

Y

e

F

Y

e

F

Y

e

Y































f

Matriz de covariância amostral de Y













































0,4040

0

0 0,2168

0

0 0,0258

0,5960

0,6832

0,7620

0,6832

0,7832

0,8735

0,7620

0,8735

0,9742

1

4 ,

0

7 ,

0

4 ,

0

1

9 ,

0

7 ,

0

9 ,

0

1 











tr

 = 3 : variância total

A variância total está preservada mas os termos fora da diagonal podem não estar bem aproximados!

(29)

Análise Fatorial via

Componentes Principais

















1

4 ,

0

7 ,

0

4 ,

0

1

9 ,

0

7 ,

0

9 ,

0

1

Variável Fator1 Comunalidade Especificidade Var 1 0,987 0,975 1-0,975=0,0258 Var 2 0,885 0,783 1-0,783=0,2168 Var 3 0,772 0,596 1-0,596=0,4040 Variância 2,3536 0,6466 % Var 78,5% 21,5%

tr

 = 3 : variância total Interprete os resultados!

(30)

Análise Fatorial via

Componentes Principais

            00 , 1 45 , 0 63 , 0 45 , 0 00 , 1 61 , 0 63 , 0 61 , 0 00 , 1

Exemplo 3. Agora considere a seguinte matriz de covariância e obtenha o modelo fatorial via CP:

Autovalores: 2,13027 0,55049 0,31924 Autovetores: Adote m=2 ! -0,612978 0,034862 -0,789330 -0,554792 -0,730297 0,398587 -0,562550 0,682239 0,466997 Discuta os resultados!

(31)

Análise Fatorial via CP

tr

 = 3 : variância total             00 , 1 45 , 0 63 , 0 45 , 0 00 , 1 61 , 0 63 , 0 61 , 0 00 , 1

Variável Fator1 Fator2 Comunalidade % Explic Especif

Var 1 -0,895 0,026 0,801 0,801 0,199 Var 2 -0,810 -0,542 0,949 0,949 0,051 Var 3 -0,821 0,506 0,930 0,930 0,070 Variância 2,1303 0,5505 2,6808 0,320 % Explic 0,710 0,183 0,8933 0,107 2,6808/3 0,801/1; Var(Y₁)=1 1-0,801

(32)

Análise Fatorial

Exercício: Considere o conjunto de dados dos pardais de Manly (1994):

Y1* = 0,8591 F1 + e1 Y2* = 0,8779 F1 + e2 Y3* = 0,8567 F1 + e3 Y4* = 0,8951 F1 + e4 Y5* = 0,7562 F1 + e5 Matrix CORR1 1,00000 0,73496 0,66181 0,64528 0,60512 0,73496 1,00000 0,67374 0,76851 0,52901 0,66181 0,67374 1,00000 0,76319 0,52627 0,64528 0,76851 0,76319 1,00000 0,60665 0,60512 0,52901 0,52627 0,60665 1,00000

(33)

Análise Fatorial via Máxima

Verossimilhança

Estimação dos Componentes do Modelo Fatorial via Máxima Verossimilhança



_ _ 



 p p p p

p N μ ,Σ

Y ₁ ~ ₁

Suponha que os fatores comuns F e os específicos

e

seguem distribuição Normal, tal que, a distribuição marginal de Y é :

 

          _    n i i i e L _n np 1 2 1 2 / 2 / 2 1 ) | , , ( μ Y Σ μ Y 1 Σ Y  

Então, para uma amostra de n vetores independentes de Y a função de verossimilhan-ça de ,  e  é dada por:

 Maximizar L é equivalente a minimizar a seguinte medida de distância: ln  ’ +   + tr ( S  ’ +  -1) – ln _S_{- p}

que toma o valor zero se (’ + ) é igual a S (matriz de covariância amostral de Y).  Não existe solução explícita para os estimadores de  e  que minimizem a função

(34)

Análise Fatorial via Máxima

Verossimilhança

Estimação dos Componentes do Modelo Fatorial via Máxima Verossimilhança

 A solução via MVS é comumente obtida considerando a matriz de correlação de Y, R (equivalente a maximizar a função de verossimilhança dos dados

padronizados, Y*). Assim, é necessário minimizar

ln  _R_R’ + _R  + tr ( R  _R_R’ + _R -1) – ln _R_{- p}

Assim, a solução para a decomposição da matriz de covariância  é:

2 / 1 2 / 1 2 / 1 ˆ ˆ ; ˆ ˆ jj jj jj R p p s R s s m p  D    D  D  _ _

(35)

Análise Fatorial

            00 , 1 45 , 0 63 , 0 45 , 0 00 , 1 61 , 0 63 , 0 61 , 0 00 , 1

Variável F1 F2 Comunalid Especif F1 F2 Comunalid Especif Y1 -0,895 0,026 0,801 0,199 0,733 0,127 0,554 0,446 Y2 -0,81 -0,542 0,949 0,051 0,897 -0,38 0,949 0,051 Y3 -0,821 0,506 0,93 0,067 0,755 0,6 0,93 0,067 Variância 2,1303 0,5505 2,6808 0,032 1,9136 0,5199 2,4335 0,564 % Explic 0,71 0,183 0,894 0,0106 0,638 0,173 0,811 0,188 CP Max. Veross.

Solução do Modelo Fatorial para a extração dos componentes (comuns e específicos) via Componentes Principais e os estimadores de

Máxima Verossimilhança:

(Uso do R, MINITAB, …)

 As comunalidades obtidas via CP são usadas como valores iniciais no algoritmo iterativo de maximização da função de verossimilhança

(36)

Análise Fatorial

            00 , 1 45 , 0 63 , 0 45 , 0 00 , 1 61 , 0 63 , 0 61 , 0 00 , 1

Matriz Residual via Componentes Principais:

Matriz Residual via Máxima Verossimilhança:

0,000000 0,100858 0,117951 0,100858 0,000000 -0,059242 0,117951 -0,059242 0,000000





































0,000000 -0,0007590 -0,000385 -0,000759 0,0000000 -0,000765 -0,000385 -0,0007650 0,000000

 A solução por máxima verossimilhança apresenta melhor resultado na aproximação de  apesar da % da variância total

(37)

Análise Fatorial – Rotação dos Fatores

e

Y

_p_₁











f



p p p p p F F e Y e F F Y e F F Y             2 2 1 1 2 2 22 1 21 2 2 1 2 12 1 11 1 1 ...         

 

























Ψ

Φ

e

Cov

Y

Cov

f

solução

é

solução

é

*

;

*

Seja



























 



















 





I

*=  Geometricamente é uma rotação de eixos (novos fatores)

 Podemos buscar rotações que conduzam a soluções fáceis de interpretar (médias, contrastes, formas canônicas)

(38)

Análise Fatorial – Rotação dos Fatores

Geografia Inglês História Aritmética Algebra Geometria

1 0,439 0,41 0,288 0,329 0,248 0,439 1 0,351 0,354 0,32 0,329 R = 0,41 0,351 1 0,164 0,19 0,181 0,288 0,354 0,164 1 0,595 0,47 0,329 0,32 0,19 0,595 1 0,464 0,248 0,329 0,181 0,47 0,464 1

Variável Fator1 Fator2 Comunalidade

Geogr 0,553 0,429 0,49 Inglês 0,568 0,288 0,406 Hist 0,392 0,45 0,356 Aritm 0,74 -0,273 0,623 Algebra 0,724 -0,211 0,569 Geom 0,595 -0,132 0,372 Variance 2,2094 0,6057 2,8151 % Var 0,368 0,101 0,469

• Solução da análise fatorial via máxima verossimilhança

• F1: cargas positivas resposta média  fator de inteligência geral • F2: metade das cargas é positiva e metade é negativa fator bipolar

(39)

Análise Fatorial – Rotação dos Fatores

F1 F2 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,5 0,4 0,3 0,2 0,1 0,0 -0,1 -0,2 -0,3 0 0 Cargas Fatoriais V1 V2 V3 V6 V5 V4

• Os eixos originais podem ser rotacionados de tal forma que todos os pontos caem no 1° quadrante

• As variáveis V4, V5 e V6 (da área exata) recebem carga alta em F1* e baixa em F2* • As variáveis V1, V2 e V3 (da área de humanas) recebem carga alta em F2* e carga moderada/baixa em F1*

F1*: habilidade matemática

 F2*: habilidade verbal

Nos novos eixos o fator de inteligência geral (F1) está particionado nos fatores F1* e F2*

(40)

Análise Fatorial – Rotação dos Fatores

F1 F2 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,5 0,4 0,3 0,2 0,1 0,0 -0,1 -0,2 -0,3 0 0 Cargas Fatoriais V1 V2 V3 V6 V5 V4

Rotação de 200_{eixos originais}





















cos

sen

Cosseno de 200_{= 0,9397} Seno de 200_{= 0,3420} 

;

*











I



Obtenha também as

coordenadas sob uma rotação de 40 graus (Everitt, 2007). Obtenha as novas

coordenadas sob uma rotação de 20 graus nos eixos originais (sentido horário)

(41)

Análise Fatorial – Rotação dos Fatores

Variável Fator1 Fator2 Comunalid Fator1* Fator2* Comunalid

Geogr 0,553 0,429 0,49 0,232 0,66 0,49 Inglês 0,568 0,288 0,406 0,321 0,551 0,406 Hist 0,392 0,45 0,356 0,085 0,591 0,356 Aritm 0,74 -0,273 0,623 0,77 0,173 0,623 Algebra 0,724 -0,211 0,569 0,723 0,215 0,569 Geom 0,595 -0,132 0,372 0,572 0,213 0,372 Variance 2,2094 0,6057 2,8151 1,6057 1,2094 2,8151 % Var 0,368 0,101 0,469 0,268 0,202 0,469

Fatores Originais Fatores Rotacionados

habilidade matemática

habilidade verbal

 As comunalidades são invariantes por rotação ortogonal dos fatores

*























(=400₎

(42)

Análise Fatorial – Rotação dos Fatores

Não existe uma solução única para representar os fatores Como escolher e obter uma solução/rotação ?

 

*

jk

Φ*







: novas cargas dos fatores rotacionados

Na prática o objetivo dos métodos de rotação é SIMPLIFICAR as linhas e colunas da matrix de cargas para facilitar a interpretação

p m pm p p p p m m m m

e

F

Y

e

F

Y

e

F

Y































...

2 2 1 1 2 2 2 22 1 21 2 2 1 1 2 12 1 11 1 1













pm p p m m



...

1 1 2 22 21 1 12 11

e

Y









f



_{Matriz de Cargas} linhas  Variabilid. das variáveis Yj

colunas  variabilidade dos fatores Fk

Conseguir valores 0’s e 1’s

(43)

Análise Fatorial – Rotação dos Fatores

 Rotação Varimax:

 

*

jk

Φ*







: novas cargas dos fatores rotacionados







 



   















_



p j jk k m k p j k jk m k k

p

V

1 1 1 2 1

;



2 2 * j jk jk

h







: proporção da comunalidade de Yj explicada por Fk Seja:

A matriz de rotação varimax  é escolhida de tal forma a maximizar V (soma das variâncias de _jk)  espera-se que algumas das novas cargas sejam altas e outras baixas, facilitando a interpretação dos fatores (maximizar a variabilidade dos fatores/colunas de ).

(44)

Análise Fatorial – Rotação dos Fatores

Métodos de Rotação Ortogonal:

 Rotação Varimax: simplifica as colunas da matriz de cargas

 Rotação Quartimax: simplifica as linhas da matriz de cargas

 Rotação Equimax: é um compromisso entre as duas outras técnicas

Existem ainda as rotações obliquas. Neste caso, as comunalidades não são invariantes.

(45)

Análise Fatorial – Rotação dos Fatores

Geogr 0,553 0,429 0,49 0,232 0,66 0,49 Inglês 0,568 0,288 0,406 0,321 0,551 0,406 Hist 0,392 0,45 0,356 0,085 0,591 0,356 Aritm 0,74 -0,273 0,623 0,77 0,173 0,623 Algebra 0,724 -0,211 0,569 0,723 0,215 0,569 Geom 0,595 -0,132 0,372 0,572 0,213 0,372 Variance 2,2094 0,6057 2,8151 1,6057 1,2094 2,8151 % Var 0,368 0,101 0,469 0,268 0,202 0,469

Fatores Originais Fatores Rotacionados

Geogr 0,26 0,65 0,49 0,232 0,66 0,49 Inglês 0,344 0,536 0,406 0,321 0,551 0,406 Hist 0,111 0,587 0,356 0,085 0,591 0,356 Aritm 0,777 0,139 0,623 0,77 0,173 0,623 Algebra 0,731 0,184 0,569 0,723 0,215 0,569 Geom 0,58 0,188 0,372 0,572 0,213 0,372 Variance 1,6733 1,1418 2,8151 1,6057 1,2094 2,8151 % Var 0,279 0,19 0,469 0,268 0,202 0,469

(46)

Análise Fatorial – Escores Fatoriais

Escore Fatorial: valor que cada indivíduo na amostra tem para cada um dos fatores comuns

e

Y

_p_₁











f



p p p p p F F e Y e F F Y e F F Y             2 2 1 1 2 2 22 1 21 2 2 1 2 12 1 11 1 1 ...          i i i p i

Y

e

Y

₍ _₁₎











f



pi i p i p p pi i i i i i i i i e F F Y e F F Y e F F Y             2 2 1 1 2 2 22 1 21 2 2 1 2 12 1 11 1 1 ...          Para o indivíduo

i

: Qual o valor de ?

_f

_i

_,

_i



₁

_,

₂

_,...,

_n

(47)

Análise Fatorial – Escores Fatoriais

2 / 1 ) 1 (  



Y









e





Z

D

_j

Y

_i _p _i



f

_i _i

f

_i _i _ Qual o valor de ?

_f

_i

_,

_i



₁

_,

₂

_,...,

_n

 Método de Mínimos Quadrados Ponderados (Bartlett):

Supondo ,  e  conhecidos  modelo de regressão linear heterocedástico O preditor de

f

_i é dado por:

























   i i

Y

1 1 1

ˆf

Coeficiente do fator (px1) (mxp)

 Método de Componentes Principais: m primeiros

(48)

Análise Fatorial – Escores Fatoriais

i i i p i

Y

e

Y

₍ _₁₎











f



Qual o valor de ?

_i

_n

i

,



1 ,

2 ,...,

f

 Método da Regressão: (  ,  e  são assumidos conhecidos)

O preditor de

f

_i é dado por:































 







i i i

Y

1 1

ˆf









_







































_ m m p i i p i m m i

I

N

e

N

e

I

N

0

0 ,

0 ~

,

0 ~

,

0 ~

f





_







































 























_ m m p i i p i i i

I

N

Y

N

e

Y

~

0 ,

~

0 ,

f













1







1





;

~

/

_i _m _i _m i

Y

N

Y



I

f

Coeficiente do fator (mxp)

(49)

Análise Fatorial

ID X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 1 4,1 0,6 6,9 4,7 2,4 2,3 5,2 0 32 4,2 1 0 1 1 2 1,8 3,0 6,3 6,6 2,5 4,0 8,4 1 43 4,3 0 1 0 1 3 3,4 5,2 5,7 6,0 4,3 2,7 8,2 1 48 5,2 0 1 1 2 4 2,7 1,0 7,1 5,9 1,8 2,3 7,8 1 32 3,9 0 1 1 1 5 6,0 0,9 9,6 7,8 3,4 4,6 4,5 0 58 6,8 1 0 1 3 6 1,9 3,3 7,9 4,8 2,6 1,9 9,7 1 45 4,4 0 1 1 2 … 97 6,1 0,5 9,2 4,8 3,3 2,8 7,1 0 60 5,2 1 0 1 3 98 2,0 2,8 5,2 5,0 2,4 2,7 8,4 1 38 3,7 0 1 0 1 99 3,1 2,2 6,7 6,8 2,6 2,9 8,4 1 42 4,3 0 1 0 1 100 2,5 1,8 9,0 5,0 2,2 3,0 6,0 0 33 4,4 1 0 0 1

(50)

Análise Fatorial

Quantos Fatores usar ?

Factor Number Ei g e n v a lu e 6 5 4 3 2 1 2,5 2,0 1,5 1,0 0,5 0,0 Scree Plot de X1, X2, X3, X4, X6 e X7

Critério Scree : o número de fatores é escolhido quando a diferença de explicação entre os fatores tende a se estabilizar

 Usar dois ou três fatores.

Lembrar que na solução via CP o k-ésimo autovalor representa a “explicação” da variância

total devida ao Fator k

k p j jk









1 2

(51)

Análise Fatorial

Arquivo HATCO (Hair et al., 2005)

Variable Fator1 Fator2 Comunalidade X1 0,627 -0,514 0,658 X2 -0,759 0,068 0,58 X3 0,73 -0,337 0,646 X4 -0,494 -0,798 0,882 X6 -0,425 -0,832 0,872 X7 -0,767 0,168 0,616 Variance 2,5135 1,7395 4,253 % Var 0,419 0,29 0,709

(52)

Análise Fatorial

Interpretação dos Fatores:

First Factor S e co n d F a ct o r 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 0,00 -0,25 -0,50 -0,75 X7 X6 X4 X3 X2 X1 Loading Plot de X1, X2, X3, X4, X6 e X7

(53)

Análise Fatorial

Variável Fator1 Fator2 Comunalidade Fator1 Fator2 Comunalidade

X1 0,627 -0,514 0,658 -0,787 0,194 0,658 X2 -0,759 0,068 0,58 0,714 0,266 0,58 X3 0,73 -0,337 0,646 -0,804 -0,011 0,646 X4 -0,494 -0,798 0,882 0,102 0,933 0,882 X6 -0,425 -0,832 0,872 0,025 0,934 0,872 X7 -0,767 0,168 0,616 0,764 0,179 0,616 Variance 2,5135 1,7395 4,253 2,3698 1,8832 4,253 % Var 0,419 0,29 0,709 0,395 0,314 0,709

Fatores Originais - CP Fatores Rotacionados - Varimax

 X1, X2 e X3: variáveis associadas a preço do produto (X7: qualidade)  X4 e X6: variáveis associadas à imagem da CO

 Como validar os resultados de uma Análise Fatorial? Valor básico Imagem

(54)

Análise Fatorial

F1 F2 2 1 0 -1 -2 3 2 1 0 -1 -2

Escores dos Fatores

Variável Fator1 Fator2

X1 -0,352 0,159 X2 0,289 0,095 X3 -0,345 0,05 X4 -0,02 0,499 X6 -0,053 0,504 X7 0,317 0,044

Coeficientes dos Fatores

Aplicação: Uso dos Fatores para Análise de diagnóstico de valores discrepantes (como pode ser feito com os Componentes Principais).





 





   _i i Y 1 ˆf Matriz (mxp) dos coeficientes dos fatores

(55)

Análise Fatorial

X8=0 X8=1 t valor p X1 4,19167 2,5 8,07 0 X2 1,94833 2,9875 -4,56 0 X3 8,62167 6,8025 8,83 0 X4 5,21333 5,3 -0,4 0,686 X6 2,69167 2,625 0,45 0,652 X7 6,09 8,2925 -9,9 0 F1 -0,639618 0,959427 -13,77 0 F2 0,052188 -0,078282 0,68 0,499

Aplicação: Os Fatores podem ser usados em análises adicionais

 Teste de Diferenças entre as Médias das variáveis X de acordo com o tamanho das empresas (X8)

Valor básico Imagem

(56)

Componentes Principais x Análise Fatorial



Ambas buscam uma Redução de Dimensionalidade, por explicar um

conjunto de dados multivariados usando um conjunto menor de variáveis



CONTUDO, os critérios de otimalidade usados em cada caso são

diferentes:

 An.F. é ótima no sentido de explicar as covariâncias/correlações entre as

variáveis por meio de fatores comuns.

 An.C.P. explica a variância total das variáveis observadas.

 Na análise de C.P. se o número de componentes retidos é aumentado,

isto NÃO altera os anteriores, mas isto pode não acontecer na Análise

Fatorial, principalmente sob a solução de MVS.

 Cálculo dos escores em C.P. tem solução única. No caso de A.F. (via

MVS) existem diferentes procedimentos inferenciais propostos.

(57)

Componentes Principais x Análise Fatorial

 As análises de C.P. via matriz de covariância (



=Cov(Y)) ou de correlação

(R=Cov(Y*) são diferentes. Na Análise Fatorial via MVS a solução para a

matriz de covariância é obtida da solução da matriz de correlação:

jj s

s D s

D

jj

jj * , com n como divisor de

2 / 1 2 / 1   

*,

2 / 1







jj s

D

 Teste (assintótico) da adequação do modelo fatorial:

geral

estrutura

com

:

₁ 0













H



H

A estatística da razão de verossimilhanças (sob normalidade) é:

        ___ _   n S n L L ˆ ˆ ˆ ln ln 2 1 0

Usando a correção de Bartlett, rejeita-se H0 a um nível de significância α se:









_

_

( ) ˆ ˆ ˆ ln 6 / 5 4 2 1



2₍ ₎2 _/₂



m p m p n S m p n  _ _ _         ___ _    