Aula12

(1)

9. ANÁLISE FATORIAL

9.1. INTRODUÇÃO

A origem da análise fatorial data do início do século 20, quando Spearman (1904) desenvolveu um método para a criação de um índice geral de inteligência (fator "g") com base nos resultados de vários testes (escalas), que supostamente refletiriam essa aptidão. Tratava-se de um primeiro método de AF, adequado para a estimação de um único fator.

O desenvolvimento inicial de métodos de AF esteve muito ligado ao problema da avaliação de escalas cognitivas e foi responsabilidade de uma série de pesquisado-res da área de psicologia (Spearman, 1904; Thurstone, 1935, 1947 e Burt, 1941, por exemplo). No início, os métodos apresentavam uma característica mais empírica do que formal. Em 1940, com Lawley, surge um primeiro trabalho com maior rigor matemático (em termos de inferência estatística), o que fez com que se aumentasse a aceitação dessas técnicas, nesse meio.

Uma situação comum em várias áreas do conhecimento e, em particular, na psiquiatria, é aquela na qual, para cada elemento de uma amostra, observa-se um grande número de variáveis. Essas variáveis podem ser, por exemplo, um conjunto de itens de uma escala ou os escores obtidos por um indivíduo em diferentes escalas de avaliação. Diante de um quadro como esse, o pesquisador enfrenta dois problemas, que podem ser resolvidos através da análise fatorial:

a) a caracterização dos avaliados, levando-se em conta um conjunto eventualmente grande de variáveis, e

b) a descrição da inter-relação dessas variáveis, eventualmente explicitando uma estrutura de interdependência subjacente aos dados.

Reis (1997) define a AF como "um conjunto de técnicas estatísticas cujo obje-tivo é representar ou descrever um número de variáveis iniciais a partir de um menor número de variáveis hipotéticas". Trata-se de uma técnica estatística multivariada que, a partir da estrutura de dependência existente entre as variáveis de interesse (em geral representada pelas correlações ou covariâncias entre essas variáveis), permite a criação de um conjunto menor de variáveis (variáveis latentes, ou fatores) obtidas como função das variáveis originais.

Além disso, é possível saber o quanto cada fator está associado a cada variável e o quanto o conjunto de fatores explica da variabilidade geral dos dados originais. Note que isso vem de encontro à resolução do problema (a), haja vista que, quando a análise fatorial é bem sucedida, o pesquisador pode trabalhar com um número redu-zido de variáveis sem uma perda muito grande de informações. O problema (b) tam-bém é solucionado, já que cada um desses fatores pode representar uma característica subjacente aos dados. Tome por exemplo Spearman (1904), que interpretou o fator "g" como uma medida de inteligência que estaria implicitamente ligada ao desempe-nho de um conjunto de testes.

(2)

JOHNSON & WICHERN (1999) afirmaram que o propósito essencial da aná-lise fatorial é descrever, se possível, as (inter-relações) relações de covariâncias entre diversas variáveis em termos de algumas quantidades aleatórias, não observáveis, chamadas fatores. Basicamente, o modelo fatorial é motivado pelo seguinte argumen-to:

• Suponhamos que as variáveis podem ser agrupadas por suas correlações, isto é, su-ponhamos que todas as variáveis dentro de um particular grupo sejam altamente correlacionadas entre si, mas tenham correlações relativamente pequenas com vari-áveis em grupos diferentes.

• Então, é admissível que cada grupo de variáveis represente um único fator, que é responsável pelas correlações observadas. Por exemplo (Spearman): os escores em francês, inglês, matemática e música sugeriram a definição de um fator associado à "inteligência". Um segundo grupo de variáveis, representando os escores de apti-dão física, se disponível, pode corresponder a um outro fator. É este tipo de estru-tura que a análise fatorial pretende confirmar.

Afirmaram ainda que a análise fatorial pode ser entendida como uma extensão da análise de componentes principais. Ambas podem ser vistas como tentativas de aproximar a matriz de covariâncias ΣΣ, mas a aproximação baseada no modelo de análise fatorial é mais elaborada. Uma questão primária na análise fatorial é se os dados são consistentes com uma estrutura prescrita.

9.2. O MODELO FATORIAL ORTOGONAL

O vetor observável de variáveis aleatórias Y, com p componentes, tem média

µµ e matriz de covariâncias ΣΣ. O modelo fatorial postula que Y é linearmente

depen-dente de algumas variáveis aleatórias não observáveis F₁, F₂, ..., F_m chamadas fato-res comuns e p adicionais fontes de variação ε₁, ε₂, ..., ε_p, chamados de erros ou, algumas vezes, fatores específicos. Em particular, o modelo de análise fatorial é:

1 Y −−µ₁ = l₁₁F₁ + l₁₂ F₂+ ... + l₁_mF_m+ ε₁ 2 Y −−µ₂= l₂₁F₁ + l₂₂ F₂+ ... + l₂_m F_m+ ε₂ x x xx xx (9.1) p Y −−µ_p= l_p₁F₁ + l_p₂ F₂+ ... + l_pmF_m+ε_p

ou, na notação matricial, como

1) (px µµ − Y = (pxm)L (mxF + 1) (pxεε (9.2) 1)

O coeficiente l é chamado de carga (loading) da i-ésima variável no j-ésimo fator, _ij de modo que a matriz L é a matriz de cargas fatoriais. Note que o i-ésimo fator es-pecífico ε_i está associado somente com a i-ésima resposta Y_i.

(3)

Os p desvios Y_i−µ_i, i = 1, 2, ..., p, são expressos em termos de m + p variáveis aleatórias F₁, F₂, ..., F_m e ε₁, ε₂, ..., ε_p, que não são observáveis. Para uma verifi-cação direta do modelo para as observações de Y₁, Y₂, ..., Y , precisamos fazer al-_p gumas suposições adicionais sobre os vetores F e εε:

• E(F) = 0 e cov(F) = E(FF') = I

• E(εε) = 0 e cov( εε) = E( εε εε') = ΨΨ = diag(ψ₁,ψ₂, ..., ψ_p) (9-3)

• F e εε são independentes, de modo que cov( εε, F) = E( εεF') = 0

Essas suposições e a relação em (9-2) constituem o modelo fatorial ortogonal.

MODELO FATORIAL ORTOGONAL COM m FATORES COMUNS

1)

(pxY = _(pxµµ + ₁₎ (pxm)L (mxF + 1) (pxεε 1)

i

µ = média da variável i

i

ε = i-ésimo fator específico

j

F = j-ésimo fator comum

ij

l = fator de carga (carga fatorial) da i-ésima variável no j-ésimo fator (9-4) Os vetors de variáveis aleatórias não observáveis F e εε satisfazem as seguintes condições:

• E(F) = 0, cov(F) = E(FF') = I

• E(εε) = 0, cov( εε) = E( εε εε') = ΨΨ = diag(ψ₁,ψ₂, ..., ψ_p)

• F e εε são independentes, de modo que cov( εε, F) = E( εεF') = 0

Este modelo fatorial ortogonal implica uma estrutura de covariâncias para Y. Do modelo (9-4), temos

(Y − µµ)(Y − µµ)' = (LF + εε)(LF + εε)' = (LF + εε)((LF)' + εε')

= LFF'L' + εεF'L' + LF εε' + εε εε'

de modo que

ΣΣ = cov(Y) = E(Y − µµ)(Y − µµ)'

= LE(FF')L' + E(εεF')L' + LE(Fε') + E(εεε') = LL' + Ψ Ψ

De (9-4) temos ainda que:

(Y − µµ)F' = (LF + εε)F' = LFF' + εεF'

(4)

ESTRUTURA DE COVARIÂNCIAS PARA O MODELO FATORIAL ORTOGONAL

1. Cov(Y) = ΣΣ = LL' + ΨΨ ou então Var(Y_i) = l_i2₁+ l_i2₂+ ... + l_im2 + ψi cov(Y_i,Y_k) = l_i₁l_k₁ + ... + l_im l_km (9-5) 2. Cov(Y, F) = L ou cov(Y_i,F ) = _j l , i = 1, 2, ..., p e j = 1, 2, ..., m. _ij

Observe que o modelo Y − µµ = LF + ε é linear nos fatores comuns e essa suposição é muito importante e inerente à formulação do modelo fatorial tradicional.

Na expressão Var(Y_i) = σ_ii, a porção (l_i2₁+ l_i2₂+ ... + l_im2 ) explicada pelos m fa-tores comuns é chamada de i-ésima comunalidade e a porção ψ_i é muitas vezes cha-mada de variância específica. Denotando a i-ésima comunalidade por h_i2, temos que

ii

σ = (l_i2₁+ l_i2₂+ ... + l_im2 ) + ψ_i

Var(Y_i) = comunalidade + variância específica ou 2 i h = (l_i2₁+ l_i2₂+ ... + l_im2 ) (9-6) e ii σ = h_i2 + ψ_i, i = 1, 2, ..., p

A i-ésima comunalidade é a soma de quadrados das cargas fatoriais da i-ésima variá-vel nos m fatores comuns.

Exemplo 9.1. (pág.518). Verificar a igualdade ΣΣ = LL' + ΨΨ , onde

ΣΣ =             68 47 23 12 47 38 5 2 23 5 57 30 12 2 30 19 , L =             42 41 32 31 22 21 12 11 l l l l l l l l =             − 8 1 6 1 2 7 1 4 e Ψ = diag(2, 4, 1, 3) Ψ

(5)

A comunalidade de Y₁ é h₁2 = l₁₁2 + l₁₂2 = 4 +2 1 = 17, ou seja, 17/19 = 89,5% da va-2 riância de Y₁ é explicada pelos dois fatores. No quadro seguinte, apresentamos os valores das variâncias, comunalidades, variâncias específicas e a porcentagem da va-riância total que é explicada pelos fatores comuns para cada uma das variáveis:

i σ_ii h_i2 ψi h_i2/σ_ii

1 19 17 2 89,5%

2 57 53 4 93,0%

3 38 37 1 97,4%

4 68 65 3 95,6%

Como Cov(Y, F) = L, podemos comentar que:

• o primeiro fator (F₁) está forte e positivamente associado com as variáveis Y₁ e

2

Y ; fraca e positivamente associado com a variável Y₄ e fraca e negativamente as-sociado com Y₃.

• o segundo fator (F₂) está forte e positivamente associado com as variáveis Y₃ e

4

Y e fraca e positivamente associado com as variáveis Y₁ e Y₂.

• as variáveis Y₃ e Y₄ têm suas variâncias explicadas, em maior proporção, pelos dois fatores (97,4% e 95,6%, respectivamente).

IMPORTANTE:

• O modelo fatorial assume que p + p(p−1)/2 = p(p+1)/2 parâmetros de variâncias e de covariâncias podem ser reproduzidos por pm fatores de carga (ou cargas fato-riais) l e p variâncias específicas _ij ψ_i.

• Quando m = p qualquer matriz de covariâncias ΣΣ pode ser reproduzida exatamente como LL', com Ψ = 0. A vantagem da aplicação da técnica ocorre se m < p. Ψ

• Infelizmente, nem todas matrizes de covariâncias ΣΣ podem ser fatoradas como

LL' + Ψ , onde m é bem menor que p (ver Exemplo 9.2) Ψ

• Quando m ≥ 1, pode ocorrer ambigüidade associada ao modelo fatorial (9-2). Seja

T (m x m ) uma matriz ortogonal (TT' = T'T = I). Então podemos escrever Y − µµ = LF + εε = LTT'F + εε = L∗ F + ∗ εε, onde L = LT e ∗ F = T'F. ∗

Como E(F ) = T'E(F) = 0 e Cov(∗ F ) = T' Cov(F) T = T'T = I (m x m), é possí-∗

vel, com base nas observações em Y, distinguir as cargas L das cargas L . Isto é, ∗

os fatores F e F = T'F têm as mesmas propriedades estatísticas, e mesmo que as ∗

cargas L sejam, em geral, diferentes das cargas L, ambas geram a mesma matriz ∗

de covariâncias ΣΣ. Esta ambigüidade proporciona uma razão para a rotação de fa-tores, desde que as matrizes de rotação sejam ortogonais às coordenadas do siste-ma de X.

(6)

Exemplo 9.2. (p = 3 e m = 1) e matriz de covariâncias ΣΣ =           1 4 . 0 7 . 0 4 . 0 1 9 . 0 7 . 0 9 . 0 1

Usando o modelo (9-4), obtemos

1 Y − µ₁ = l₁₁F₁ + ε₁ 2 Y − µ₂ = l₂₁F₁ + ε₂ 3 Y − µ₃ = l₃₁ F₁ + ε₃

A estrutura de covariâncias ΣΣ = LL' + ΨΨ implica que

1 = l₁₁2 + ψ₁ 0.90 = l₁₁ l₂₁ 0.70 = l₁₁l₃₁ 1 = l₂₁2 + ψ₂ 0.40 = l₂₁l₃₁

1 = l₃₁2 + ψ₃

• O par de equações 0.70 = l₁₁l₃₁ e 0.40 = l₂₁l₃₁ implica que l₂₁ = ₁₁ 70 . 0 40 . 0 l       _{, que} substituída em 0.90 = l₁₁ l₂₁, tem-se l₁₁2 = 1.575 ou l₁₁ = ±1.255.

• Desde que Var(F₁) = 1 e Var(Y₁) = 1 ⇒ l₁₁ = cov(Y₁,F₁) = corr(Y₁,F₁).

• Agora , o coeficiente de correlação não pode ser superior a um (em valor absoluto) e | l₁₁| = 1.255...

• A equação 1 = l₁₁2 + ψ₁ implica em ψ₁ = 1 −l₁₁2 = 1 − 1.575 = −0.575, o que não é satisfatório, já que ψ₁ = Var(ε₁).

IMPORTANTE (continuação)

As cargas fatoriais

∗

L = LT e L (9-9)

proporcionam a mesma representação. As comunalidades fornecidas pelos ele-mentos da diagonal de LL' = (L )(∗ L )' não são afetadas pela escolha da matriz ∗

(7)

9.3. MÉTODOS DE ESTIMAÇÃO

QUESTÃO: Dadas as observações y₁, y₂, ..., y_n feitas em p variáveis (geralmente) correlacionadas, o modelo de fatores (ou fatorial), com um pequeno número de fatores, representa adequadamente os dados? Em essência, este problema esta-tístico consiste em tentar verificar a relação de covariâncias ΣΣ = LL' + ΨΨ .

OBSERVAÇÕES:

• A matriz S estima ΣΣ e se as covariâncias em S (ou as correlações em R ) forem pe-quenas (próximas a zero) o modelo de análise fatorial não será conveniente.

• Se ΣΣ não é uma matriz diagonal então o objetivo da análise consiste em estimar as cargas fatoriais l e as variâncias específicas _ij ψ_i.

• Consideraremos os dois mais populares métodos de estimação de parâmetros: o método dos componentes principais (ou método dos fatores principais) e o método da máxima verossimilhança. É prudente tentar mais de um método de solução, já que se o modelo fatorial é apropriado para o problema, as soluções serão consisten-tes.

• As soluções poderão ser rotacionadas (ver a Seção 9.4) com o intuito de facilitar a interpretação dos fatores.

• Obtidas as cargas fatoriais e as variâncias específicas, os fatores comuns são identi-ficados e são estimados os valores para os fatores, chamados escores fatoriais.

O MÉTODO DOS COMPONENTES PRINCIPAIS

Seja a matriz de covariâncias ΣΣ (p x p) com pares autovalor-autovetor (λ_i, e_i) e λ₁ ≥ λ₂ ≥ ... ≥ λ_p ≥ 0. Então, pela decomposição espectral, temos:

ΣΣ = λ1e1 t 1 e + λ₂ e₂ e₂t + ... + λ_p e_p e t_p = [ λ₁ e₁, λ₂ e₂, ..., λ_p e ] _p               λ λ λ p p 2 2 1 1 e e e M (9-10)

que ajusta a matriz de covariâncias pelo modelo de análise fatorial tendo tantos fato-res quanto variáveis (m = p) e variâncias específicas ψ_i = 0, para todo i. A matriz de cargas fatoriais tem a j-ésima coluna dada por λ_je_j e podemos escrever

(pxp)ΣΣ = (pxp)L (pxp) t L + (pxp) 0 = (pxp) LL' (9-11)

(8)

A menos das constantes λ_j , as cargas fatoriais l correspondem aos coeficientes _ij do j-ésimo componente principal.

Embora a representação da análise fatorial de ΣΣ em (9-11) seja exata, ela não é particularmente útil, já que emprega 'tantos fatores comuns quanto o número de variá-veis e não permite qualquer variação nos fatores específicos εε em (9-4). Preferimos modelos que expliquem a estrutura de covariâncias em termos de um número peque-no de fatores comuns.

Uma abordagem é baseada na seguinte idéia: quando os últimos p − m autova-lores são pequenos, consideramos os m primeiros componentes e escrevemos

ΣΣ ≅ λ1 e1 t 1 e + λ₂ e₂ e₂t + ... + λ_m e_m e_mt ≅ [ λ₁ e₁, λ₂ e₂, ..., λ_m e_m]               λ λ λ m me e e M 2 2 1 1 ≅ ) (px mL ( xp) t mL (9-12)

Essa representação aproximada assume que os fatores específicos εε em (9-4) são de menor importância e podem ser ignorados na fatoração da matriz ΣΣ. Se os fatores específicos são incluídos no modelo , suas variâncias podem ser tomadas como os elementos da diagonal de ΣΣ − L L', onde L L' foi definido em (9-12). Assim

ΣΣ ≅ LL' + Ψ Ψ ≅ [ λ₁ e₁, λ₂ e₂, ..., λ_m e_m]               λ λ λ m me e e M 2 2 1 1 + diag(ψ₁, ..., ψ_p) (9-13) onde ψ_i = σ_ii −

∑

= m j l 1 2 ij , para i = 1, 2, ..., p.

Para aplicar essa abordagem a um conjunto de dados y₁, y₂, ..., y_n, é usual centrar as observações, subtraindo a média amostral y . Daí as observações centradas ficam: y y_j − =             − − − p p y y y y y y j 2 2 j 1 1 j M , j = 1, 2, ..., n (9-14)

(9)

Nos casos onde as unidades das variáveis não são comensuráveis, é usualmente desejável trabalhar com variáveis padronizadas

j z =                       − − − pp p jp 22 2 2 j 11 1 1 j s y y s y y s y y M , j = 1, 2, ..., n

cuja matriz de covariâncias amostrais é igual a matriz de correlações amostrais R das observações y₁, y₂, ..., y_n. A padronização evita os problemas de termos uma variá-vel com variância muito grande influenciando indevidamente a determinação das car-gas fatoriais.

A representação em (9-13), quando aplicada à matriz de covariâncias amostrais

S ou à matriz de correlações amostrais R, é conhecida como solução de componentes

principais.

SOLUÇÃO DO MODELO FATORIAL POR COMPONENTES PRINCIPAIS

A análise fatorial por componentes principais da matriz de covariâncias amos-trais S é especificada em termos dos pares de autovalor-autovetor (λˆ_i, ˆe_i), onde

1

ˆ

λ ≥ λˆ2 ≥ ... ≥ λˆp ≥ 0. Seja m < p o número de fatores comuns. Então a matriz

de cargas fatoriais é dada por

L~ = [ λˆ₁ ˆe₁, λˆ₂ ˆe₂, ..., λˆ_m eˆ_m] (9-15) As estimativas das variâncias específicas correspondem aos elementos da diago-nal da matriz S −L~ L tal que ~t

Ψ Ψ~ = diag(ψ~₁,ψ~₂, ..., ψ~_p) com ψ~_i = s_ii −

∑

= m j ij l 1 2 ~ (9-16) As comunalidades são estimadas como

2 i

~

h = ~l_i₁2+ ~l_i₂2+ ... + ~l_i_m2 (9-17) A análise fatorial por componentes principais da matriz de correlações amostrais é obtida iniciando o processo com R no lugar de S.

Para essa solução por componentes principais, as cargas fatoriais estimadas para um certo fator não se alteram quando o número de fatores aumenta.

(10)

Por exemplo, se m = 1, L~ = [ λˆ₁ ê₁] e se m = 2, L~ = [ λˆ₁ ê₁, λˆ₂ ê₂], onde (λˆ_i, ê_i) , i = 1, 2 são os dois primeiros pares de autovalor-autovetor de S (ou de R).

Pela definição de ΨΨ~ , os elementos da diagonal de S são iguais aos elementos da diagonal de L~ L + ~t ΨΨ~ e os elementos fora da diagonal de S não são usualmente reproduzidos por L~ L + ~t ΨΨ~ .

QUESTÃO: Como selecionar o número de fatores m?

• Por considerações feitas a priori (teoria envolvida, trabalhos de outros pesquisado-res etc.)

• Considerar a matriz de resíduos S −− (L~ L + ~t ΨΨ~ ) resultante da aproximação de S pela solução por componentes principais. Se os elementos fora da diagonal forem pequenos, o valor de m é apropriado. Analiticamente temos

SQ dos valores de S −− (L~ L + ~t ΨΨ~ ) ≤ λ2_m₊₁ + ... + λ2_p (9-19) e um valor pequeno para a SQ dos autovalores desprezados implica um valor pe-queno para a SQ dos erros de aproximação.

• Idealmente, a contribuição dos primeiros (poucos) fatores comuns para a variância amostral das variáveis deve ser grande. A contribuição para a variância amostral

ii

s do primeiro fator comum é ~l_i₁2. A contribuição do primeiro fator comum para o total das variâncias amostrais tr(S) = s₁₁ + ... + s_pp , é então

∑

= m j ij l 1 2 ~ = ( λˆ₁ ˆe₁)'( λˆ₁ ˆe₁) = λˆ₁

desde que o autovetor ˆe₁tem comprimento unitário. Em geral, temos que a propor-ção do total das variâncias amostrais devida ao j-ésimo fator comum é

pp 22 11 j s ... s s ˆ + + + λ

para a análise fatorial baseada em S

p ˆ

j λ

, para a análise fatorial baseada em R

⇒ o número de fatores comuns retidos no modelo é aumentado até que uma pro-porção "conveniente" do total das variâncias amostrais tenha sido explicada.

• Outra convenção (adotada em pacotes estatísticos) consiste em tomar os m autova-lores de R maiores que a unidade, se a matriz de correlações é fatorada, ou igual ao número de autovalores positivos de S se a matriz de covariâncias é fatorada.

• O ideal é reter poucos fatores no modelo, assumindo que eles dão uma "satisfa-tória" interpretação dos dados e produzem um ajuste "satisfatório" de S e R. ver Exemplo 9.3 (página 525)

(11)

ABORDAGEM MODIFICADA − SOLUÇÃO FATORIAL PRINCIPAL

(ver páginas 529-530 do livro do Johnson & Wichern)

O MÉTODO DE MÁXIMA VEROSSIMILHANÇA

Se pudermos assumir que os fatores comuns F e os erros específicos εε são nor-malmente distribuídos, então os estimadores de máxima verossimilhança (MV) das cargas fatoriais L e das variâncias específicas Ψ podem ser obtidos. Quando Ψ F e _j εε _j

são conjuntamente normais, as observações Y_j− µµ = LF +_j εε também são normais e _j

de (4-16), a verossimilhança fica ) , (µµ ΣΣ L = 2 ) 1 ( ) ð 2 ( p n− − 2 ) 1 ( − − n ΣΣ exp

(

)(

)

                − −       −

_∑

= − n j 1 j j 1 tr 2 1 ' y y y y ΣΣ × ₍₂_ð₎ 2 p − 2 1 − ΣΣ exp

(

) (

)

      _ ₋ ₋      − _µµ _ΣΣ− _µµ j 1 j 2 y ' y n (9-25) que depende de L e de Ψ através de ΣΣ = LL' + ΨΨ Ψ . Este modelo não é bem definido, por causa da multiplicidade de escolhas possíveis para L, com base em transforma-ções ortogonais. Para que L esteja bem definida e garanta a unicidade, devemos impor a condição que

L'Ψ L = ∆Ψ−1 ∆ seja uma matriz diagonal (9-26)

Estimativas de máxima verossimilhança Lˆ e Ψˆ podem ser obtidas por maximização Ψ numérica de (9-25), envolvendo processos iterativos.

Resultado 9.1. Seja Y₁, ..., Y_n uma amostra aleatória de uma N_p(µµ,ΣΣ), onde ΣΣ = LL' + Ψ é a matriz de covariâncias para o modelo (9-4) com m fatores comuns. Ψ Os estimadores de máxima verossimilhança Lˆ , Ψˆ e µµˆ = y maximizam (9-25) Ψ sujeito à restrição que Lˆ ' Ψˆ Lˆ seja uma matriz diagonal. Ψ

As estimativas de MV das comunalidades são iguais a

2 i

ˆ

h = ˆl_i2₁+ ˆl_i2₂+ ... + lˆ_i2_m para i = 1, 2, ..., p (9-27) e a proporção do total das variâncias amostrais devida ao j-ésimo fator é igual a

pp 22 11 2 pj 2 j 2 2 j 1 s s s ˆ ˆ ˆ + + + + + + L L l l l (9-28) Ver prova na página 531. (os resultados são análogos se usarmos variáveis padronizadas Z₁, ..., Z_n)

(12)

OBSERVAÇÕES:

• As estimativas de máxima verossimilhança para L e Ψ são obtidas por maximiza-Ψ ção numérica (processo iterativo)

• Estimativas de MV de funções de L e de Ψ são obtidas através das funções de Lˆ Ψ e de Ψˆ , em decorrência da propriedade de invariância dos EMV. Ψ

• Ordinariamente, as observações são padronizadas e a análise fatorial é baseada na matriz de correlações amostrais R. Através da verossimilhança (9-25), são obtidas as EMV's Lˆ_z e ΨΨˆ_z são obtidas utilizando um computador. Embora essa verossi-milhança seja apropriada para S e não para R, esta prática é equivalente a obter as EMV's Lˆ e Ψˆ , baseadas na matriz de covariâncias amostrais S. Ψ

Essa equivalência entre a fatoração de S e de R tem causado confusões me diver-sas discussões publicadas em análise fatorial

Ver Exemplo 9.5 (página 532) e Exemplo 9.6 (página 534)

UM TESTE PARA O NÚMERO DE FATORES COMUNS (GRANDES AMOSTRAS)

A suposição de uma população normal leva diretamente a um teste de adequa-cidade do modelo. Suponha que o modelo com m fatores comuns seja válido. Neste caso ΣΣ = LL' + ΨΨ e testar a adequacidade do modelo com m fatores comuns é equi-valente a testar H0: (pxp)ΣΣ = (pxm) L (mxp) t L + (pxp)Ψ (9-33) Ψ

versus H1: ΣΣ é qualquer outra matriz positiva definida. Quando ΣΣ não tem qualquer forma especial, o máximo da função de verossimilhança [ver resultado (4-11)] é pro-porcio nal a 2 np 2 n − − e S (9-35) Sob H0, o máximo da função de verossimilhança [ver (9-25)] é proporcional a

2 ˆ −n ΣΣ exp

(

)(

)

                − −       −

_∑

= − n j 1 j j 1 ˆ tr 2 1 ' y y y y ΣΣ = Lˆ Lˆ' + ΨΨˆ −n 2 exp

[

(

)

]

   ₊       − LL' − Sn 1 tr 2 1 Ψ Ψ) ) ) (9-35)

e usando o Resultado 5.2, (9-34) e (9-35), a estatística da razão de verossimilhanças para testar H0 é

(13)

−2ln Λ = −2 ln _      maximizada hança verossimil H sob maximizada hança verossimil ₀ = −2 ln 2 n n −         S ΣΣ) + n[tr(ΣΣˆ−1S_n) − p] (9-36) com graus de liberdade

ν −ν0 = 2 1 ) 1 (p+ p − ( 1) 2 1 ) 1 ( [p m+ − m m− ] = 2 1 ] ) [(p−m 2 − p−m (9-37)

Como tr(ΣΣˆ−1S_n) − p = 0 [ver Suplemento A] temos que ΣΣˆ = L ˆˆL'+ Ψˆ é EMV de Ψ

ΣΣ = LL' + ΨΨ . Daí, temos −2ln Λ = n ln         S_n ΣΣ) (9-38) Bartlett (1954) mostrou que a aproximação de quiquadrado para a distribuição de −2ln Λ pode ser melhorada trocando n em (9-38) por (n − 1 − (2p + 4m + 5)/6). Daí, rejeitamos H0 se (n −1 − (2p + 4m + 5)/6) ln _       ₊ S ' L L n ˆ ˆ ˆ _Ψ_Ψ > _[(2 ₎2 _]_/₂ m p m p− − − χ (9-39)

desde que n e n − p sejam grandes.

Uma condição necessária para a aplicação do teste (9-39), já que o número de graus de liberdade é um número positivo, consiste em verificar que

m < 2 1 ) 1 p 8 1 p 2 ( + − + (9-40)

Exemplo 9.7 ( página 538) Refere-se ao Exemplo 9.5 (pág.532) sobre a análise

fato-rial de dados de preço de estoque, que usa o método de estimação de máxima ve-rossimilhança.

O objetivo desse exemplo é testar se o modelo com m = 2 fatores comuns é ade-quado, ou seja, testar a hipótese H0: ΣΣ = LL' + ΨΨ , com m = 2 ao nível α = 5%.

(14)

A estatística do teste em (9-39) é baseado na razão de variâncias generalizadas         S_n ΣΣ) = _       ₊ S ' L L n ˆ ˆ ˆ _Ψ_Ψ

que pode ser escrita como (ver demonstração na pág. 539):

        S_n ΣΣ) = _       ₊ R ' L Lˆ_z ˆ_z ΨΨˆ_z (9-41) Do Exemplo 9.5, temos que

        ₊ R ' L Lˆ _zˆ_z ΨΨˆ_z = 000 . 1 523 . 0 426 . 0 322 . 0 462 . 0 000 . 1 436 . 0 389 . 0 387 . 0 000 . 1 599 . 0 509 . 0 000 . 1 577 . 0 000 . 1 000 . 1 523 . 0 430 . 0 322 . 0 458 . 0 000 . 1 405 . 0 393 . 0 411 . 0 000 . 1 602 . 0 513 . 0 000 . 1 572 . 0 000 . 1 = 1.0065

e usando o fator de correção de Bartlett, para n = 100, p = 5 e m e 2, temos a esta-tística:     ₋ ₋ + + 6 5 8 10 ( 1 100 ln (1.0065) = 0.62 e desde que 2 1 ] )

[(p−m 2 − p−m = 1, o valor crítico χ₁2(5%) = 3,84 não é excedi-do, indicando que a hipótese H0 não deva ser rejeitada. Como P(χ12 > 0.62) ≅ 0.43,

a hipótese H0 não será rejeitada para qualquer nível de significância razoável.

9.4. ROTAÇÃO DE FATORES

É bastante comum fazermos uma rotação dos fatores comuns, tornando mais fáceis as suas interpretações, já que os novos fatores deverão apresentar correlações relativamente fortes com algumas (poucas) variáveis.

(15)

Se Lˆ (pxm) é a matriz estimada das cargas fatoriais então ∗

Lˆ = Lˆ T, onde TT' = T'T = I (9-42)

é uma matriz (p x m) de cargas fatoriais rotacionadas. Além disso, a estimativa da matriz de covariâncias permanece inalterada, já que

n

S = L ˆˆL'+ Ψˆ = LˆTT'Lˆ' + ΨΨ Ψˆ = Lˆ∗ Lˆ ' + ∗ Ψˆ (9-43) Ψ

Essa equação indica que a matriz de resíduos S_n− (L ˆˆL'+ Ψˆ ) = Ψ S_n− (Lˆ∗ Lˆ ' + ∗ Ψˆ ), Ψ

as variâncias específicas ψ_i e as comunalidades hˆ_i2 permanecem inalteradas.

Quando m = 2, a transformação para uma estrutura mais simples pode ser de-terminada graficamente. Um gráfico dos pares de cargas fatoriais (lˆ_i₁, lˆ_i₂), com p pontos, dá uma idéia do ângulo de rotação (φ)ideal. As novas cargas fatoriais l são _i∗_j determinadas através da relação

) 2 ( ˆ px ∗ L = (px2)L ˆ ) 2 2x ( T (9-44) onde T = _      φ φ − φ φ cos sen sen cos

se a rotação for no sentido horário

T = _      φ φ φ − φ cos sen sen cos

se a rotação for no sentido anti-horário

Exemplo 9.8 (página 541): Lawley & Maxwell (1971), com p = 6 variáveis m = 2

fatores comuns e n = 220 estudantes do sexo masculino.

R =                       1 464 . 0 1 470 . 0 595 . 0 1 181 . 0 190 . 0 164 . 0 1 329 . 0 320 . 0 354 . 0 351 . 0 1 248 . 0 329 . 0 288 . 0 410 . 0 439 . 0 1 lgebra Geometry A Arithmetic History English Gaelic

Da Tabela 9.5, podemos perceber que:

• todas as variáveis têm cargas fatoriais positivas com o primeiro fator, que pode ser chamado de fator de inteligência geral;

• cargas fatoriais positivas e negativas com o segundo fator, que não é facilmente identificado.

(16)

Tabela 9.5

Cargas fatoriais estimadas Comunalidade Variável 1 F F₂ hˆ_i2 1. Gaelic 0.553 0.429 0.490 2. English 0.568 0.288 0.406 3. History 0.392 0.450 0.356 4. Arithmetic 0.740 -0.273 0.623 5. Algebra 0.724 -0.211 0.569 6. Geometry 0.595 -0.132 0.372

O gráfico de dispersão com as cargas fatoriais (lˆ_i₁, lˆ_i₂) sugeriu uma rotação dos eixos de φ = 20° no sentido anti-horário (este ângulo pode ser determinado ou medindo-se diretamente no gráfico, ou por cálculo). A partir das novas cargas fato-riais (Tabela 9.6) podemos perceber que:

• as variáveis associadas à matemática têm cargas fatoriais positivas e altas no fator F , e as demais, cargas muito baixas. O primeiro fator pode ser chamado ₁∗ de fator de habilidade matemática.

• similarmente, as três variáveis associadas às línguas têm cargas fatoriais altas no fator F e moderadas e baixas com ₂∗ F . O segundo fator pode ser chamado de ₁∗ fator de habilidade verbal.

Tabela 9.6

Cargas fatoriais estimadas Comunalidade

Variável _∗ 1 F F ₂∗ hˆ_i2 1. Gaelic 0.369 0.594 0.490 2. English 0.433 0.467 0.406 3. History 0.211 0.558 0.356 4. Arithmetic 0.789 0.001 0.623 5. Algebra 0.752 0.054 0.569 6. Geometry 0.604 0.083 0.372

• vale observar que com a rotação, a interpretação dos dois fatores ficou mais sim-ples e que a comunalidade das variáveis não foi alterada.

(17)

Existem diversos métodos de rotação de eixos, mas somente veremos com um pouco de detalhes o Método Varimax, proposto por Kaiser (1958).

O método varimax busca a melhor rotação de eixos, de modo que a nova matriz de cargas L = LT tenha o maior número de coeficientes nulos. Embora essa estru-∗

tura facilite a interpretação dos fatores, raramente existe em soluções fatoriais de dados reais (Morrison, 1976).

Kaiser (1958) definiu a simplicidade de um fator j como a variância de suas cargas fatoriais ao quadrado, isto é

j V =

∑

( )

∑

( )

= = ∗ ∗     − p i p i l p l p 1 2 1 2 ij 2 4 ij ~ 1 ~ 1 , onde ~l = _ij∗ l /_i∗_j hˆ_i, para j = 1, 2, ..., m

Quando a variância atinge um máximo, o fator tem maior interpretabilidade ou simplicidade, no sentido de que as cargas desse fator tendem à unidade ou à zero. O critério é definido como a maximização da soma dessas simplicidades, ou seja,

V =

∑ ∑

( )

∑

( )

= = = ∗ ∗             − n j p i p i p l l p 1 1 2 1 2 ij 4 ij ~ ~ 1 (9-45) Depois que a transformação T é determinada, as cargas fatoriais ~l são multiplicadas _ij∗ por hˆ_i para que as comunalidades originais sejam preservadas.

Exemplo 9.9 (página 544), referente à análise fatorial de dados de preferência de

consumo, já avaliados no Exemplo 9.3.

Tabela 9.7

Cargas fatoriais Cargas fatoriais _rotacionadas Comunalidade Variável 1 F F₂ ∗ 1 F F ₂∗ hˆ_i2 1. Sabor 0.56 0.82 0.02 0.99 0.98 2. Boa compra 0.78 -0.52 0.94 -0.01 0.88 3. Gosto 0.65 0.75 0.13 0.98 0.98 4. Apropriado para snack 0.94 -0.10 0.84 0.43 0.89 5. Fornece energia 0.80 -0.54 0.97 -0.02 0.93

Com base na Tabela 9.7, que apresenta as cargas fatoriais das variáveis antes e depois da rotação feita através do método varimax, podemos perceber que:

(18)

• as variáveis 2, 4 e 5 definem o primeiro fator, pois apresentam cargas altas o fator 1 e baixas com o fator 2). O fator 1 pode er chamado de fator nutricional.

• as variáveis 1 e 3 definem o segundo fator, que pode ser chamado de fator de sabor.

A análise desse exemplo pode ser feita utilizando-se o PROC FACTOR, com os seguinte comandos:

title 'Análise fatorial - Exemplo 9.9 - pág. 544'; data consumo (type=corr);

_type_='CORR';

input _name_ $ taste money flavor snack energy; cards; taste 1.00 . . . . money 0.02 1.00 . . . flavor 0.96 0.13 1.00 . . snack 0.42 0.71 0.50 1.00 . energy 0.01 0.85 0.11 0.79 1.00 ;

proc factor res data=consumo method=prin nfact=2 rotate=varimax preplot plot;

var taste money flavor snack energy; run;

Vale salientar que não vamos entrar com os dados que geraram a matriz de correla-ções e sim, com a própria matriz. Somente com essas informacorrela-ções conseguimos fazer a análise fatorial, mas não conseguimos calcular os escores fatoriais dos indivíduos. Resultando em:

Análise fatorial - Exemplo 9.9 - pág. 544

Initial Factor Method: Principal Components

Prior Communality Estimates: ONE

Eigenvalues of the Correlation Matrix: Total = 5 Average = 1

1 2 3 4 5 Eigenvalue 2.8531 1.8063 0.2045 0.1024 0.0337 Difference 1.0468 1.6018 0.1021 0.0687

Proportion 0.5706 0.3613 0.0409 0.0205 0.0067 Cumulative 0.5706 0.9319 0.9728 0.9933 1.0000

2 factors will be retained by the NFACTOR criterion.

(19)

Factor Pattern FACTOR1 FACTOR2 TASTE 0.55986 0.81610 MONEY 0.77726 -0.52420 FLAVOR 0.64534 0.74795 SNACK 0.93911 -0.10492 ENERGY 0.79821 -0.54323

Variance explained by each factor

FACTOR1 FACTOR2 2.853090 1.806332

Final Communality Estimates: Total = 4.659423

TASTE MONEY FLAVOR SNACK ENERGY 0.979461 0.878920 0.975883 0.892928 0.932231

• apresenta a matriz de cargas fatoriais, a variância explicada pelos fatores e as esti-mativas das comunalidades das variáveis.

Residual Correlations With Uniqueness on the Diagonal

TASTE MONEY FLAVOR SNACK ENERGY TASTE 0.02054 0.01264 -0.01170 -0.02015 0.00644 MONEY 0.01264 0.12108 0.02048 -0.07493 -0.05518 FLAVOR -0.01170 0.02048 0.02412 -0.02757 0.00119 SNACK -0.02015 -0.07493 -0.02757 0.10707 -0.01660 ENERGY 0.00644 -0.05518 0.00119 -0.01660 0.06777

Root Mean Square Off-diagonal Residuals: Over-all = 0.03295235

• apresenta as correlações residuais R −− (L~ L + ~t ΨΨ~ ) e a soma de quadrados dos valores fora da diagonal da matriz de correlações residuais.

Initial Factor Method: Principal Components

Partial Correlations Controlling Factors

TASTE MONEY FLAVOR SNACK ENERGY TASTE 1.00000 0.25352 -0.52556 -0.42959 0.17267 MONEY 0.25352 1.00000 0.37902 -0.65806 -0.60911 FLAVOR -0.52556 0.37902 1.00000 -0.54246 0.02952 SNACK -0.42959 -0.65806 -0.54246 1.00000 -0.19482 ENERGY 0.17267 -0.60911 0.02952 -0.19482 1.00000

Root Mean Square Off-diagonal Partials: Over-all = 0.42844308

(20)

• apresenta os gráficos de dispersão das cargas fatoriais antes e depois da rotação varimax.

Rotation Method: Varimax

Orthogonal Transformation Matrix

1 2 1 0.83571 0.54917 2 -0.54917 0.83571

Rotated Factor Pattern

FACTOR1 FACTOR2 TASTE 0.01970 0.98948 MONEY 0.93744 -0.01123 FLAVOR 0.12856 0.97947 SNACK 0.84244 0.42805 ENERGY 0.96539 -0.01563

FACTOR1 FACTOR2 2.537396 2.122027

Final Communality Estimates: Total = 4.659423

• apresenta a matriz de rotação T, as novas cargas fatoriais, as variâncias explicadas pelos novos fatores e as estimativas das comunalid ades das variáveis.

IMPORTANTE: Como não entramos com os dados originais e sim, com a matriz de correlações entre as variáveis, na janela LOG aparecerá uma mensagem alertando que, as estatísticas que dependem do número de observações (n), não são interpretá-veis:

WARNING: The data set WORK.CONSUMO does not indicate how many observations

were used to compute the CORR matrix. The number of observations has been set to 10000. Statistics that depend on the number of observations (such as p-values) are not interpretable.

O PROC FACTOR disponibiliza diversos métodos de extração dos fatores e outros métodos de rotação de fatores. As informações adicionais podem ser encontradas no Help deste procedimento.

(21)

9.5. ESCORES FATORIAIS

Embora o interesse principal da análise fatorial seja, usualmente, estimar os pa-râmetros do modelo, os valores estimados dos fatores comuns, chamados escores fa-toriais também podem ser requisitados. Essas quantidades, que correspondem aos valores de cada fator para cada indivíduos, são muitas vezes usadas na construção de índices, para fazer diagnósticos ou como entrada em análises subseqüentes.

Os escores fatoriais não são parâmetros do modelo, são valores atribuídos às variáveis hipotéticas e por isso não podem ser estimados no sentido estatístico usual.

Na análise de componentes principais, os componentes eram definidos como funções lineares das variáveis observadas e então os valores de cada componente para cada indivíduo (escores) podiam ser facilmente encontrados. Na análise fatorial, os fatores não são combinações lineares das variáveis observadas e os escores não podem ser encontrados da mesma maneira.

Apresentaremos alguns detalhes sobre dois métodos de estimação dos escores fatoriais: o método dos mínimos quadrados ponderados e o método de regressão. Para ambos os métodos, supomos que os parâmetros do modelo fatorial − L e ΨΨ− já foram estimados através de algum procedimento discutido anteriormente, desprezan-do-se erros de amostragem.

MÉTODO DOS MÍNIMOS QUADRADOS PONDERADOS

Vamos supor que são conhecidos todos os parâmetros do modelo fatorial

1) (px µµ − Y = (pxm)L (mxF + 1) (pxεε 1)

Desde que Var(ε_i)= ψ_i, i = 1, 2, ..., p , Bartlett (1938) sugeriu que o método dos mí-nimos quadrados ponderados seja usado para estimar os valores dos fatores comuns. A soma dos quadrados dos erros, ponderados pelo recíproco de suas variâncias é igual a

∑

= ψ ε p 1 i 2 i i ₌εε ΨΨ-1εε ' = (y− µµ−Lf)'ΨΨ-1(y −µµ−Lf) (9-47) Bartlett propôs escolher as estimativas fˆ de f que minimizam (9-47). A solução [ver Exercício 7.3] é

fˆ = (L'ΨΨ−1L)−1L'ΨΨ−1(y−µµ) (9-48) Motivado por (9-48), nós tomamos estimativas Lˆ , Ψˆ e µµˆ = y como valores verda-Ψ deiros e obtemos os escores fatoriais para o j-ésimo caso como

j

ˆf = 1

) ˆ

(22)

Quando Lˆ e Ψˆ são determinados pelo método da máxima verossimilhança, essas es-Ψ timativas devem satisfazer a condição de unicidade, Lˆ 'ΨΨˆ −1Lˆ = ∆ˆ , uma matriz dia-∆ gonal. Então temos que:

ESCORES FATORIAIS OBTIDOS POR MÍNIMOS QUADRADOS PONDERADOS PARA ESTIMATIVAS DE MÁXIMA VEROSSIMILHANÇA

j ˆf = 1 ) ˆ (L)'ΨΨ-1L) − Lˆ 'ΨΨˆ -1(y_j −y) = ∆∆ˆ−1Lˆ 'ΨΨˆ -1(y_j −y), j = 1, 2, ..., n

ou, se a matriz de correlações foi fatorada (9-50)

j ˆf = 1 z 1 z t z ˆ ) (L) ΨΨ− L) − Lˆt_z ΨΨˆ_z−1z_j = ∆∆ˆ−1 Lˆt_z ΨΨˆ_z−1z_j, j = 1, 2, ..., n onde z = _j D−12(y_j −y) e ρρˆ = Lˆ L_z ˆt_z + ΨΨˆ_z

• Os escores fatoriais gerados por (9-50) têm vetor de médias 0 e covariâncias amos-trais nulas.

• Se forem utilizadas cargas rotacionadas Lˆ = Lˆ T no lugar das cargas originais em ∗

(9-50), os escores obtidos, ˆf , estão relacionados com os ∗_j ˆf por _j ˆf = T'∗_j ˆf , j = 1, _j 2, ..., n.

• Se as cargas fatoriais forem obtidas pelo método dos componentes principais, os escores fatoriais são calculados por

j ˆf = 1 ) (L)'L) − Lˆ '(y_j−y) ou j ˆf = 1 z t z ) (L) L) − Lˆ zt_z _j MÉTODO DA REGRESSÃO

A partir do modelo fatorial original, tratamos inicialmente a matriz de cargas fatoriais L e a matriz de variâncias específicas Ψ , como conhecidas. Quando os fato-Ψ res comuns F e os fatores específicos (ou erros) εε são têm distribuição conjunta nor-mal com média e covariâncias dados por (9-3), a combinação linear Y − µµ = LF + εε tem distribuição N_p(0,LL'+ΨΨ). A distribuição conjunta de (Y − µµ) e F é normal (p+m)-variada com vetor de médias 0 (m+p)x1 e matriz de covariâncias ΣΣ dada por ∗

) ( ) (m+p x m+p ∗ ΣΣ =         + (mxm) (mxp) (pxm) pxp I L' L LL' ) ( ΨΨ (9-52) A distribuição condicional de F | x é normal multivariada com

(23)

média: E(F | y) = L'ΣΣ−1(y−µµ) = L'(LL'+ΨΨ)−1(y −µµ) (9-53) e

covariância: Cov(F | y) = I − L'ΣΣ−1L = I − L'(LL'+ ΨΨ)−1L (9-54) As quantidades L'(LL'+ΨΨ)−1 em (9-53) são os coeficientes de uma regressão (mul-tivariada) dos fatores sobre as variáveis. Estimativas desses coeficientes produzem os escores fatoriais que são análogos às estimativas dos valores médios condicionais na análise de regressão multivariada [ver Capítulo 7].

Dado um vetor de observações y , j = 1, 2, ..., n e tomando as estimativas de _j

máxima verossimilhança Lˆ e Ψˆ como os valores verdadeiros, o j-ésimo vetor de es-Ψ cores fatoriais é dado por:

j

ˆf = Lˆ 'ΣΣˆ−1(y_j −y) = Lˆ '(LˆLˆ'+ΨΨˆ )−1(y_j −y), j = 1, 2, ..., n (9-55) Os cálculos de ˆf podem ser simplificados usando-se a seguinte identidade _j

1 ) ˆ ˆ ˆ ( ˆ _' _L_L_'₊_Ψ_Ψ − L = (I+Lˆ ΨΨˆ −1Lˆ)−1Lˆ'ΨΨˆ −1 (9-56) que permite comparar os escores fatoriais em (9-55), gerados pelo método da regres-são, que denotaremos por ˆf ,com aqueles (9-50) gerados pelo método dos mínimos _jR quadrados ponderados, denotados por ˆf_jMQ. Comparando as expressões temos que

Q M j

ˆf = (I+(Lˆ ΨΨˆ −1Lˆ)−1)f_jR (9-57) Para estimativas de máxima verossimilhança temos que (Lˆ'ΨΨˆ −1Lˆ)−1 = ∆ e se os ∆ˆ−1 elementos da diagonal dessa matriz forem próximos a zero, os escores fatoriais obti-dos pelos dois métoobti-dos serão muito próximos.

Para reduzir os efeitos de uma (possível) incorreta determinação do número de fatores comuns, sugere-se para o cálculo dos escores fatoriais em (9-55) usar S (ma-triz original de covariâncias amostrais) no lugar de = ΣΣˆ LˆLˆ'+ΨˆΨ. Daí temos que:

ESCORES FATORIAIS OBTIDOS POR REGRESSÃO

j

ˆf = Lˆ 'S−1(y_j −y), para j = 1, 2, ..., n

ou, se a matriz de correlações for fatorada, (9-58)

j ˆf = t 1 _j z ˆ _R _z L − , para j = 1, 2, ..., n onde z = _j D−1 2(y_j −y) e ρρˆ = Lˆ L_z ˆt_z + ΨΨˆ_z

(24)

UMA ESTRATÉGIA PARA A ANÁLISE DE FATORES

1. Executar a análise fatorial por componentes principais. (Este método não requer que as matrizes R ou S sejam não-singulares)

(a) Avaliar as observações suspeitas no gráfico de dispersão dos escores fatoriais. Calcular escores padronizados e quadrados de distâncias para cada observa-ção, como descrito na Seção 4.6.

(b) Tentar a rotação varimax.

2. Executar a análise fatorial por máxima verossimilhança, incluindo a rotação varimax

3. Comparar as soluções obtidas nas duas análises fatoriais: (a) As cargas fatoriais de agrupam da mesma maneira?

(b) Faça um gráfico dos escores fatoriais obtidos por componentes principais con-tra os escores da análise por máxima verossimilhança.

4. Repita os três primeiros passos para outro número (m) de fatores comuns. Qual fator extra contribui para o entendimento e interpretação dos dados?

5. Para grandes conjuntos de dados, divida-os pela metade e executa a análise fatori-al em cada uma das partes. Compare os resultados obtidos dos dois subconjuntos e também com aqueles obtidos com os dados completos para checar a estabilida-de da solução.

EXEMPLO

FACHEL, J.M.G. Análise Fatorial, São Paulo, 1976, 81 p., Dissertação [Mestrado] - IME USP.

Objetivo: estudar as causas dos diferentes rendimentos do fumo em uma determinada

região agrária do Rio Grande do Sul, caracterizada por uma grande diversificação quanto à capacidade do uso do solo e geomorfologia.

As informações são relativas à safra de 1971, de 83 propriedades produtoras de fumo, cujos proprietários são fornecedores de fumo à Companhia de Cigarros Souza Cruz. As 17 variáveis analisadas foram as seguintes:

Var 01: Área cultivada com fumo na propriedade (em ha) Var 02: Número de pés de fumo, por m2

Var 03: Número de pés de fumo plantados

Var04: Fumo produzido na propriedade (em kg)

(25)

Var 06: Preço médio pago pela Cia. Souza Cruz (em Cr$/kg) Var 07: Rendimento (em kg/ha)

Var 08: Rendimento (em Cr$/ha)

Var 09: Fertilizantes aplicados (em kg)

Var 10: Inseticidas e fungicidas empregados (em kg) Var 11: Quantidade de lenha consumida (em m3) Var 12: Mão de obra empregada (em dias-homem) Var 13: Renda líquida (em Cr$)

Var 14: Quantidade de inseticidas por pé plantado (em kg) Var 15: Quantidade de adubo por pé plantado (em kg)

Var 16: Quantidade de lenha consumida (em kg) por kg de fumo Var 17: Mão de obra por hectare plantado (em dias-homem)

Tabela 1. Correlações amostrais das 17 variáveis originais

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1 1.00 2 0.15 1.00 3 0.99 0.01 1.00 4 0.74 0.10 0.74 1.00 5 0.64 0.18 0.62 0.94 1.00 6 -0.20 0.13 -0.22 -0.08 0.27 1.00 7 0.28 -0.07 -0.27 0.39 0.43 0.14 1.00 8 -0.31 0.01 -0.32 0.31 0.48 0.53 0.91 1.00 9 0.94 0.04 0.95 0.63 0.54 -0.16 -0.35 -0.37 1.00 10 0.70 0.03 0.71 0.33 0.27 -0.12 -0.40 -0.39 0.73 1.00 11 0.98 0.20 0.99 0.71 0.60 -0.22 -0.29 -0.34 0.95 0.72 1.00 12 0.97 0.03 0.99 0.70 0.59 -0.22 -0.30 -0.35 0.94 0.73 0.99 1.00 13 0.08 0.20 0.66 0.66 0.01 0.47 0.75 0.84 -0.03 -0.22 0.03 0.00 1.00 14 0.01 0.03 0.01 -0.24 -0.22 0.04 -0.29 -0.23 0.09 0.69 0.03 0.04 -0.34 1.00 15 -0.08 0.09 -0.09 -0.27 -0.20 0.18 -0.23 -0.14 0.22 0.12 -0.06 -0.04 -0.25 0.27 1.00 16 0.19 -0.10 0.20 -0.48 -0.52 -0.18 -0.93 -0.86 0.29 0.36 0.23 0.23 -0.82 0.30 0.24 1.00 17 0.22 -0.08 0.24 -0.45 -0.41 -0.17 -0.92 -0.86 0.33 0.42 0.26 0.30 -0.83 0.34 0.28 0.96 1.00

Como sugerido na dissertação, o método de análise fatorial empregado foi o de componentes principais (method = prin), já que na época, o método da máxima ve-rossimilhança ainda não estava disponível. A escolha do número de fatores comuns ficou por conta da opção de considerar somente aqueles os fatores associados às raí-zes características maiores ou iguais a 1 (mineigen = 1). Os comandos usados na aná-lise foram:

proc factor data=Jandyra method=prin mineigen=1; var Var1--Var17;

run;

(26)

Eigenvalues of the Correlation Matrix: Total = 17 Average = 1 1 2 3 4 5 6 Eigenvalue 6.7960 5.3724 1.5706 1.1010 0.9903 0.9202 Difference 1.4237 3.8017 0.4696 0.1107 0.0701 0.1642 Proportion 0.3998 0.3160 0.0924 0.0648 0.0583 0.0541 Cumulative 0.3998 0.7158 0.8082 0.8729 0.9312 0.9853 ...

4 factors will be retained by the MINEIGEN criterion. Factor Pattern

FACTOR1 FACTOR2 FACTOR3 FACTOR4 VAR1 0.95014 0.27796 -0.04896 0.06059 VAR2 0.07960 0.13506 0.34134 0.61446 VAR3 0.94104 0.36292 -0.04790 0.09689 VAR4 0.53782 0.83415 -0.09655 -0.05966 VAR5 0.44235 0.74589 0.08885 -0.09643 VAR6 -0.26827 0.24366 0.69107 0.25640 VAR7 -0.50230 0.79388 -0.01752 -0.25671 VAR8 -0.53810 0.78246 0.26663 -0.10674 VAR9 0.95163 0.14477 0.08427 0.03517 VAR10 0.81232 -0.10119 0.35686 -0.38882 VAR11 0.96238 0.23956 -0.03909 0.08287 VAR12 0.96145 0.21467 -0.06579 -0.01774 VAR13 -0.15477 0.87944 0.12730 0.21962 VAR14 0.19464 -0.39375 0.61264 -0.54146 VAR15 0.05120 -0.32765 0.59152 0.15344 VAR16 0.43520 -0.85466 -0.03059 0.13688 VAR17 0.48244 -0.83079 0.02360 0.10596

FACTOR1 FACTOR2 FACTOR3 FACTOR4 6.796044 5.372367 1.570628 1.101025 Initial Factor Method: Principal Components Final Communality Estimates: Total = 14.840065

VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 VAR7 VAR8 VAR9 0.986101 0.518654 1.028945 0.997944 0.769217 0.674659 0.948762 0.984275 0.934895 VAR10 VAR11 VAR12 VAR13 VAR14 VAR15 VAR16 VAR17

0.948638 0.991964 0.975110 0.861808 0.861432 0.483411 0.939510 0.934742

• os quatro primeiros fatores explicam 87,3% da variância total das variáveis origi-nais;

• as cargas fatoriais, quando a análise é feita a partir da matriz de correlações amos-trais, são os coeficientes de correlação entre as variáveis e os fatores comuns. Neste exemplo, considerou-se importantes na construção dos fatores, as variáveis com coeficiente de correlação (cargas fatoriais) iguais ou superiores a 0,60, em valor absoluto.

• o Fator 1 (Investimento) explica 40% da variabilidade total e envolve as variáveis 1, 3, 9, 10, 11 e 12.

• o Fator 2 (Rendimento) explica 31,6% da variabilidade total e envolve as variáveis 4, 5, 7, 8, 13, 16 e 17.

(27)

• o Fator 3 (Qualidade do fumo) explica 9,3% da variabilidade total e envolve as variáveis 6 e 14;

• o Fator 4 (Espaçamento) explica 6,5% da variabilidade total e envolve a variável 2. A análise pode continuar, fazendo-se uma rotação varimax (rotate = varimax) para tentar melhorar a interpretação dos fatores comuns, usar o método de estimação por máxima verossimilhança etc.

Na pesquisa original, após serem obtidos os escores fatoriais de cada fator para cada uma das propriedades, o autor utilizou um programa de análise discriminante para obter grupos de fumicultores, em relação aos fatores Investimento e Rendimento, principalmente.

Ver EXEMPLO 9.14 (pág. 558)

Resolver o exercício 9.19 (pág. 581) do livro do Johnson & Wichern