Análise Multivariada

(1)

Análise Multivariada

Aula 3: Análise Fatorial

Prof. Admir Antonio Betarelli Junior

Juiz de Fora

(2)

Análise Fatorial

 ACP procura selecionar um n° mínimo de componentes, não correlacionados, para expressar o máximo possível da variância total.

 AF procura também reduzir a dimensionalidade das informações originais, porém selecionando fatores

latentes, não correlacionados, que possam expressar as interpendências ou a variância comum das variáveis

originais.

(3)

Análise Fatorial

Total

Comum Específica o erro

Variância

 Ou melhor, essa nova técnica, mais elaborada, procura

identificar os processos latentes que poderiam produzir

as interrelações das variáveis.

(4)

Análise Fatorial

Qualidade do serviço

Qualidade da comida Fatores

Variáveis

Tempo de espera Limpeza e higiene

Funcionários amigáveis

Preferência ou gosto Temperatura

Frescor

Restaurante Fast-food

(5)

Objetivos gerais

 identificação da estrutura: deriva dimensões subjacentes que, quando interpretada e compreendida, descrevem a estrutura das variáveis individuais originais.

 redução dos dados: descrevem os dados em um número

muito menor de conceitos do que as variáveis individuais

originais.

(6)

Quando usar?



Quando a preocupação principal é identificar poucos fatores

latentes que poderiam expressar as interpendências das variáveis originais.

 Recomenda-se: o tamanho mínimo n=50 > p; p=5 por fator;

correlação 0,30.



No caso de haver muitas observações com dados omissos em

algumas das variáveis, o usuário deverá avaliar até que ponto suas análises são válidas.

 Alguns softwares, automaticamente, eliminam o elemento amostral com dados omissos da execução dos cálculos correspondentes.

(7)

Modelo ortogonal

 Se considerarmos_, o vetor aleatório ___________

e o vetor de médias _, o modelo postura que ^X linearmente dependente de variáveis aleatórias não observadas, __, e fontes adicionais de variação, _.

 __ é a carga fatorial (loading) da i-ésima variável no fator j.



^X^ ^^[^X¹^, ^X²^,^^, ^X ^p^]

μ

Fm

F

F₁, ₂,,

p



₁, ₂,,

p m

pm p

p p

p

m m

F F

F X

F F

F X

F F

F X

















































2 2 1

1

2 2

2 22 1

21 2

2

1 1

2 12 1

11 1

1

) 1 ) (

1 ( ) ) (

1

(px pxm mx px

F ε μ L

X   

ij

(8)

Modelo ortogonal

 Diante do grande número de variáveis latentes e para tornar útil o modelo, suposições são impostas:

os fatores são ortogonais e têm variância unitária.

os erros não são

correlacionados e mesma variância.

os fatores e erros são independentes

0 ) ( )

, ( )

) ( )

( )

; 0 ) ( )

; )

( )

; 0 ) ( )

2 1

) (

 



















 



 



εF ε F

ε ε ε

ε

F F F

F

E COV

e

E COV

d

E c

I E

COV b

E a

p pxp

mxm





(9)

Modelo ortogonal

          

 







 

 

 



 







L ε L

ε Fε

L L

εF L

F F μ L

μ X X

ε ε LFε

ε LF LF

ε LF ε LF

μ LF μ X

X

















( ) ( ) ( ) )

( )

)(

( : então

) ( )

( )

)(

( ) )(

(

que se - Sabe

0 0

E E

E

I



































m p j

pj m

j

jp pj

m

j

jp j m

j j m

j

j j

m

j

jp j m

j

j j m

j j

l l

l

l l l

l l

l l l

l l





















0

0 0

2 1

1 2 1

2 2 1

1 2

1 1 1

2 1 1

2 1

(10)

Modelo ortogonal

 Do resultado anterior, verifica-se que:

 ou seja, a i-ésima comunalidade é a soma dos quadrados das cargas fatoriais da i-ésima variável nos m fatores comuns. A COV(X, F) é:

 Dessa maneira, é possível usar a matriz ____para entender e interpretar os fatores de ___ .



km im k

i k

i ik

k i

i i

específica iância

i de

comunalida

im i

i ii

i

X X COV

h X

Var









 



 

   















 1 1 2 2

2 var

2 2

1

) ,

( ) (







ij j

i

I

COV

E E

COV



















 

 

 



 





) , (

) ( )

( ]

[(

] [(

) , (

0

F X

L εF

F F L ε)F

LF μ)F

X F

X

) (pxmL F

(11)

Modelo ortogonal

 Exemplo 9.1 em Johnson e Wichern (2002, p.480):

 2

2 17 2

1 4

19 17

1 4

: ) ( :

3 1 4 2

8 6

2 1

1 1 7

4

8 1

6 1

2 7

1 4

68 47

23 12

47 38

5 2

23 5

57 30

12 2

30 19

. var 2

2 2

12 2

11 2

1

1 1































 



 



 













 





















m h

X Var X

de de

Comunalida

específica de

comunalida







 



L Σ L

(12)

Modelo ortogonal

 Observações sobre o valor de m fatores:

 Quando m=p: .

 Quando m=1, as soluções obtidas serão, em geral, inconsistentes.

 Quando m>1, existem mais de uma solução, que é a base para uma importante característica: a rotação fatorial.

 A análise fatorial procede impondo condições que permitam estimar ____e____. A matriz de carga fatorial é, então, rotacionada por algum critério “de fácil interpretação”. Depois que os fatores são obtidos, adquire-se os escores fatoriais.

 0

 



 LL 

L 

(13)

Principais métodos de estimação

 Método de componentes principais (MCP): mais utilizado, não exige a suposição de distribuição normal.

 Método de fatores principais (MFP): refinamento de MCP.

 Método de Máxima verossimilhança (MMV): supõe

distribuição normal das variáveis.

(14)

Componentes principais (MCP)

 Utiliza-se a decomposição espectral para a fatoração da matriz:

 Se m<p, terá __ e (p-m) pares _____ desconsiderados. Com m fixo:

 Porque os elementos fora diagonal não são reproduzidos pelo modelo fatorial.

a matriz residual, serve como critério de qualidade do modelo ( )





m m



se

e e

Λ e O L

L L L

L ΛO

O Λ O

Σ OΛ



₁ ₁, ₂ ₂, ,

0

 





 





 



) (

)

) (

) ) )

2 1

1 1

1

















 















 



 

 

 













L L

L L L

L

e e L

L

e e e

e e

e

MRES d

h diag

c b a

i ii m

j ij ii

i m

i

i i i

p

m i

i i i m

i

i i i p

i

i i i









) , (_i e_i



0

(15)

Componentes principais (MCP)

 O MCP gera a estimação de autovalores para cada fator. O 1º fator teria:

 Logo a proporção do j-ésimo fator:

 Lembre-se: a escolha da matriz de correlação é desejável, pois retira as influências de escala das variáveis. Para ___:



1 1

 

1 1



1 1 1 1 2

1 2

21 2

11        





   _p e e e e



p traço

traço ou

j j

j  

 

) ( )

(Σ Ρ

Λ O L 

pxpΡ







 ^m

j ij i

1

1 2



(16)

MCP: critérios de seleção dos fatores

 Screeplot: autovalores de maiores proporções.

 Raiz latente: considera-se apenas os fatores com λ

_i

> 1.

 Interpretabilidade dos fatores e a parcimônia.

 Escolha a priori.

 OBS: o modelo é inútil se as variáveis não são

correlacionadas.

(17)

Método de fatores principais (MFP)

 Processo iterativo => refinamento de MCP, com valor prévio de m. A diagonal principal de é substituída por ______, estimadas inicialmente por MCP.

 Dessa nova matriz _, estima-se _____________, gerando uma 2ª estimativa para comunalidades .

 É repetido até que as diferenças entre as comunalidades de duas interações sucessivas sejam desprezíveis.

R

i

hi^*² 1



















 

2

* 1

1 2

* 1

*

*)( ) (

p p

p

h r

r h









 R

L L

R* 



 e _me_m

L^* ˆ^*₁ ₁,,, ˆ^*

2

*

hi

(18)

Método de fatores principais (MFP)

 Existem problemas.

 Em algum estágio, alguns λ

_i

podem ser negativos, então, inconsistentes para uma matriz p.d..

 O problema Heywood, que em algum estágio do processo, ___________ => inconsistente com a definição de variância.

 MCP e MVM são as mais recomendadas.

 Dica: quando ______, deve-se pensar em: ↑n e/ou eliminar as variáveis.

0

2 1

*   _i 

hi 

6 .

2 0

*  hi

(19)

Máxima Verossimilhança (MMV)

 Define-se previamente o valor de m. Neste método, asume-se ____________________________________.

A função verossimilhança é:

 que depende das matrizes e , por meio da matriz de correlação . Assim, encontra-se e que ________ .

 Nem sempre a convergência é alcançada, que deve ocorrer para ↑m. Aliás, ∆m→ ∆ __, ≠ do que MCP.

 Recomenda-se: 1º MCP →2º.MMV, mesmo _________.

) , 0 (

~ ),

, 0 (

~ ),

, 0 (

~ )

, (

~ N_p μ Σ  Z N_p Ρ F N_p I e ε N_p 

X





 





   



 







 Ρ LL

L L L

L

Ρ 

n

j

j n j

np Z Z

L

1

1 2 2

) ( ) (

) 2 (

exp 1 )

2 ( ) 1 , 0 (



Lˆ ˆ MAX L(0,Ρ)

L 

Ρ

Lˆ

) , (

~ μ Σ

X N_p

(20)

Rotação dos Fatores

 Ambiguidades das cargas fatoriais podem dificultar a interpretação dos fatores gerados.

 Assim, a matriz __pode ser rotacionada por algum critério “de fácil interpretação”. Os eixos dos fatores originais são rotacionados até o alcance de outra posição

 Dois tipos:

 Ortogonais: mante-se a perpendicularidade dos fatores.

 Oblíquas: permite a correlação entre os fatores comuns.

pxmL

(21)

Rotação Ortogonal

Fator II

Fator I

Fator I rotacionado Fator II rotacionado

-1.0 -.50 0 +.50 +1.0

+1.0

+.50

V₁ V₂

V₃ V₄ V₅

(22)

Rotação Oblíqua

Fator II

Fator I

Fator I:

rotação oblíqua Fator II: rotação

ortogonal

-1.0 -.50 0 +.50 +1.0

+1.0

+.50

V₁ V₂

V₃ V₄ V₅

Fator II: rotação oblíqua

Fator I:

rotação ortogonal

(23)

Rotação ortogonal

 Neste, as propriedades estatísticas dos fatores ficam inalteradas, embora as cargas fatoriais sejam diferentes.

Seja , tal que _______ , então:

 F e F* têm mesmas propriedades. Cargas fatoriais ≠

^s

, mas __será a mesma.

 Não se alteram: __________________, _ e ___.

mxmT TT TT  I













 















 



 

 



 





) )(

(

) ( )

(

0 ) ( )

(

*

L L L

T LT L

L

T F T

F

F T

F ε

F ε L

F T μ LT

X

F L

I COV

COV

E E

I







L

2

hi  ]

) )(

[( ^* ^*  





 L L

MRES

(24)

Principais critérios para encontrar T

 Varimax: encontra variáveis altamente correlacionadas com o fator e de baixa correlação com outro.

MAX a variação dos quadrados das cargas fatoriais nas colunas de __.

 Quartimax: faz com que as variáveis tenham cargas altas em um fator e tão baixas quanto possível em outros.

MAX a variação dos quadrados das cargas nas linhas de ___..

 Cuidado: gera um fator geral como o 1º fator, em que a maioria das variáveis têm cargas altas.

 Orthomax: combinação entre Varimax e Quartimax. Pouco aceito.

pxmL

(25)

MCP e rotação ortogonal varimax

 Exemplo 9.3 em Johnson e Wichern (2002, p.487):

93 . 5 0

81 . 1 85 . ˆ 2

ˆ1  2    p



98 . 0 )

82 . 0 ( ) 56 . 0 ˆ (

ˆ ˆ

ˆ ² ² ²

12 2

11 2

1 2 2

1 



    





j

h ij

(26)

MCP e rotação ortogonal varimax

 Exemplo 9.3 em Johnson e Wichern (2002, p.487):

 1º fator: fator nutricional.

 2º fator: fator gosto.

(27)

Rotação não ortogonal: oblíqua

 Ao contrário dos ortogonais, essa rotação não preserva a estrutura de ajuste original do modelo fatorial.

 Portanto, altera ______________, e .

 Os fatores passam a ser correlacionados e, portanto, rompe com as suposições do modelo linear, que é inconsistente para a estimação das matrizes e .

 Também implica numa maior dificuldade de interpretação dos fatores.

] )

)(

[( ^* ^*  





 L L

MRES h_i² 

Lˆ ˆ

(28)

Escores fatoriais

 A obtenção dos escores tem algumas vantagens:

1. representa todas as cargas das variáveis (loading) no fator.

2. é uma boa maneira para a redução completa dos dados.

3. por serem ortogonais, evitam complicações de multicolinearidade.

 Deve-se estimá-los, visto que existem valores desconhecidos e , _____, para cada observação em _ou _.

fj ε _j j 1,2,...,n )

(x_j μ (z _j)

(29)

Escores fatoriais

 Por exemplo, para cada elemento amostral no conjunto de variáveis padronizadas, o seu escore sobre um determinado fator latente é:

 sendo ,_____, os pesos de ponderação de cada variável _ no fator __ .

 Há três formas básicas para estimar os escores.

1. Método ad hoc: maior carga fatorial ou média das maiores cargas fatoriais (nunca usar)

pj p j

j

j w z w z w z

f  ₁ ₁  ₂ ₂ 

wi i 1,2,..., p

Zi f

(30)

Escores fatoriais

 Modelo linear:

2. Mínimos Quadrados Ponderados - Bartlett (1937):

como__________ pode ser ≠ por variável, o autor propôs:



Não requer conhecimento da distribuição das variáveis.

3. Método de regressão (MV): se e são estimados por MV, então, para cada observação, tem-se:

i

Var(εi) 

ε μ LF

X μ LF

ε X

ε^¹  (   )^¹(   ) Min

ε LF ε Z

μ LF

X   ou  

   

j

W j

j W

j

mxp mxp

ou f L Ψ L LΨ z μ

Ψ x L Ψ L

L

f ¹ ¹ ¹



 



 

 

 



 

 ^

 

     

 ˆ ˆ ˆ ˆ ˆ ( ) ˆ ˆ ˆ ˆ ˆ ˆ

ˆ ¹ ¹ ¹

Lˆ ˆ )

( ˆ )

ˆ ( ˆ

ˆ Lˆ LL Ψ x μ

f_j    ^¹ _j  fˆ_j  Lˆ(LˆLˆ  Ψˆ )^¹z_j

(31)

Validação do Modelo

 A partir da escolha prévia de m, verifica-se até que ponto a matriz L denota bem a relação entre X e F. Passos:

1.

Estime L por MCP, interprete os fatores e aplique a rotação varimax. Houve ∆ significativas com a rotação?

2.

Estime L por MFP ou MV e compare com o passo (1).

3.

Repita o 1º e o 2º passos, porém ∆ sensivelmente

m

(px. do valor inicial) e cheque se houve grandes ∆.

4.

Se o conjunto de dados for grande, divida-o aleatoriamente

em 2 partes, fatore-as e compare as suas soluções. Há

consistência nas soluções encontradas?

(32)

Teste de m na AF por “MV”

 Se ____________, e n grande, então:

 A estatística de teste de Bartlett (1954) é dada por:

 Sob a hipótese nula, a estatística T tem com ____graus de liberdade. Se T ≥ Tc, com um α, rejeita-se H

₀

.

 Cautela, pois para n grande e m pequeno em relação a p, o teste apresenta a tendência de rejeitar H₀.

) , 0 (

~ )

, (

~ μ Σ Z Ρ

X N_p  N_p F ~ N_p(0,I)

m aumentar H

suficiente m

H :

:

1 0



 









  



    

 ^p

i

m p

n T

1

ˆ ˆ ˆ 6 ln

) 1 5 4

2 (

1 R

Ψ L

L

2

] )

)[(

2 / 1

( pm ²pm



] )

)[(

2 / 1

( p  m ²  p  m

(33)

Critério de Kaiser-Meyer-Olkin (KMO)

 Os autores sugerem que, para uma AF adequada, a matriz R

^-1

deve ser próxima de uma diagonal. Medida de adequacidade:

 em que R

_ik

é a correlação entre X

_i

e X

_k

; e Q

_ik

é a correlação parcial entre X

_i

e X

_k

, quando as outras (p-2) variáveis são mantidas constantes.

 Se ________________, R

^-1

é px. de uma diagonal. Um ajuste adequado do modelo: __________.





 

k i

ik k

i

ik k i

ik

Q R

R

KMO ₂ ₂

2

1

0  

 KMO

Q_ik

80 .

 0 KMO

(34)

Teste de esfericidade de Bartlett

 Se as variáveis são correlacionadas, pode-se testar se R é próxima de uma matriz :

 Para testar H

₀

, tem-se que calcular a estatística T:

 A estatística T tem com _ graus de liberdade. Se T ≥ Tc, para um α, rejeita-se H

₀

.

I H





pxp pxp

R R :

:

1 0

  

 

 

  



 ^p

i

P i

N T

1

ˆ ) ln(

11 6 2

1 

2

) 1 ( ) 2 / 1

( p p

 ₁_/₂₎_p₍_p _₁₎

(35)

Orientações de Hair et al. (1998)

a) Formulação do problema.

b) Construção da matriz de correlação.

c) Determinação do método de AF.

d) Determinação do número de fatores.

e) Rotação dos fatores.

f) Interpretação dos fatores e cálculo das cargas fatoriais.

g) Determinação do ajuste do modelo.

(36)

Comparação ACP e AF

FA

I1 I2 I3

PCA

I1 I2 I3

(37)

Exemplo 9.14 de validação (p.517)

(38)

Exemplo 9.14 de validação (p.517)

(39)

Exemplo 9.14 de validação (p.517)

(40)

Análise Multivariada