• Nenhum resultado encontrado

MAE 5905: Introdu¸c˜ao `a Ciˆencia de Dados

N/A
N/A
Protected

Academic year: 2022

Share "MAE 5905: Introdu¸c˜ao `a Ciˆencia de Dados"

Copied!
44
0
0

Texto

(1)

MAE 5905: Introdu¸ c˜ ao ` a Ciˆ encia de Dados

Pedro A. Morettin

Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo

pam@ime.usp.br http://www.ime.usp.br/∼ pam

Aula 14 23 de junho de 2021

(2)

1 An´alise Fatorial

(3)

Primeiramente observemos que para explicar as rela¸c˜oes entrepvari´aveis s˜ao necess´ariaspcomponentes principais; por esse motivo, o modelo adotado n˜ao ´e o ideal.

O fato de as componentes principais n˜ao serem correlacionadas e ordenadas com variˆancias decrescentes e o fato de que a t´ecnica corresponde a uma fatora¸c˜ao da matriz de covariˆancias da vari´aveis originais fazem com que a aproxima¸c˜ao obtida quando consideramos apenas as primeiras componentes principais seja razo´avel.

No entanto, essa t´ecnica pode introduzir um erro sistem´atico na reprodu¸c˜ao das correla¸c˜oes originais, pois podem existir uma ou mais dessas vari´aveis que sejam muito correlacionadas com as componentes principais desprezadas do que com aquelas retidas na an´alise.

Outra observa¸c˜ao importante, ´e que essa t´ecnica utiliza toda a informa¸c˜ao sobre cada uma das vari´aveis originais, embora seja razo´avel imaginar que uma parcela de sua variabilidade seja espec´ıfica, nada tendo a ver com as demais vari´aveis do conjunto sob investiga¸c˜ao.

Al´em disso, pode-se suspeitar que os “verdadeiros fatores” respons´aveis pela gera¸c˜ao das observa¸c˜oes tenham todos a mesma importˆancia ou que sejam correlacionados entre si.

(4)

Alguns desses problemas podem ser solucionados por meio da t´ecnica de An´alise Fatorial. A ideia que a fundamenta est´a baseada na parti¸c˜ao da variˆancia de cada vari´avel do sistema multivariado numavariˆancia comum e numavariˆancia espec´ıfica. Al´em disso, sup˜oe-se que as correla¸c˜oes entre aspvari´aveis s˜ao geradas por um n´umerom<pdevari´aveis latentes(ou fatores).

Avantagemdessa t´ecnica relativamente `aquela de componentes principais est´a na habilidade de reprodu¸c˜ao da estrutura de correla¸c˜oes originais por meio de um pequeno n´umero de fatores sem os erros sistem´aticos que podem ocorrer quando simplesmente desprezamos algumas componentes principais.

Asdesvantagensda An´alise Fatorial est˜ao na maior dificuldade de c´alculo dos escores fatoriais e na existˆencia de m´ultiplas solu¸c˜oes. Na realidade a estrutura de correla¸c˜oes das vari´aveis originais pode ser igualmente reproduzida por qualquer outro conjunto de vari´aveis latentes de mesma dimens˜ao. A n˜ao ser que se imponham restri¸c˜oes adicionais, infinitas solu¸c˜oes equivalentes sempre existir˜ao.

(5)

Consideremos um vetorX= (X1, . . . ,Xp)>com m´ediaµ= (µ1, . . . , µp)>

e matriz de covariˆanciasΣcom elementosσij,i,j= 1, . . . ,p.

O modelo utilizado para An´alise Fatorial de dados provenientes da observa¸c˜ao dasp vari´aveis agrupadasX1, . . . ,Xp ´e

Xi−µii1F1+. . .+λimFm+ei =

m

X

j=1

λijFj+ei, i = 1, . . . ,p (1)

em queFj´e oj-´esimofator comuma todas as vari´aveis,λij´e o parˆametro (chamado decarga fatorial) que indica a importˆancia desse fator na composi¸c˜ao dai-´esima vari´avel eej´e umfator espec´ıficopara essa vari´avel.

Os coeficientes dos fatores,λij,identificam o peso relativo de cada vari´avel no componente. Quanto maior for o valor absoluto do coeficiente, mais importante ´e a vari´avel correspondente ao estimar o fator. Osescores fatoriaiss˜ao os valores estimados dos fatores.

(6)

Como dito acima, as cargas fatoriais indicam o quanto um fator explica uma vari´avel e variam de -1 a +1.

Cargas pr´oximas de -1 ou +1 indicam que o fator explica fortemente a vari´avel. Cargas pr´oximas de zero indicam que o fator tem pouca influˆencia sobre a vari´avel.

Cargas fatoriais s˜ao dif´ıceis de interpretar quando n˜ao houver rota¸c˜ao.

Esta simplifica a estrutura das cargas e torna os fatores mais claramente distingu´ıveis e f´aceis de interpretar.

H´a diversos m´etodos de rota¸c˜ao (ver abaixo) e devemos escolher aquele que proporciona melhor interpreta¸c˜ao.

(7)

Em nota¸c˜ao matricial, o modelo pode ser escrito como

X−µ=Λf+e (2)

em queΛ´e a matriz com dimens˜aop×mde cargas fatoriais, f= (F1, . . . ,Fm)>´e o vetor cujos elementos s˜ao os fatores comuns e e= (e1, . . . ,ep) ´e um vetor cujos elementos s˜ao os fatores espec´ıficos.

Adicionalmente, supomos queE(f) =0,Cov(f) =Im,E(e) =0e Cov(e) =ψ= diag(ψ1, . . . , ψp) e queCov(f,e) =0. Os elementos deψ s˜ao asvariˆancias espec´ıficas.

(8)

Para avaliar a rela¸c˜ao entre a estrutura de covariˆancias deXe os fatores, observemos que

Cov(Xi,Xk) = Cov(

m

X

j=1

λijFj,

m

X

`=1

λk`F`)

=

m

X

j=1 m

X

`=1

λijλk`E(FjF`) +E(eiej) (3)

=

m

X

j=1 m

X

`=1

λijλk`+E(eiej)

Consequentemente,Cov(Xi,Xk) =σik =Pm

j=1λijλkj sei 6=k e Cov(Xi,Xi) =σii=Pm

j=1λ2ij. O termoPm

j=1λ2ij´e conhecido por comunalidadedai-´esima vari´avel.

Em nota¸c˜ao matricial, podemos escrever Σ=ΛΛ>+ψ e o objetivo ´e estimar os elementos deΛeψ.

(9)

A comunalidade de cada vari´avel ´e a propor¸c˜ao da variabilidade explicada pelos fatores.

Quanto mais pr´oxima de 1, melhor ´e a explica¸c˜ao da vari´avel pelo fator.

Decidimos acrescentar um fator se ele contribuir significativamente ao ajuste de algumas vari´aveis.

A variˆancia de um fator fornece a variabilidade nos dados explicada pelo fator. Se usarmos CP para extrair fatores, e n˜ao usarmos rota¸c˜ao, a variˆancia de cada fator ´e igual ao seu autovalor.

Rota¸c˜ao muda a distribui¸c˜ao da propor¸c˜ao da variabilidade explicada por cada fator. Mas a varia¸c˜ao total explicada por todos os fatores se mant´em.

Quanto maior a variˆancia de um fator, mais ele explica a variabilidade nos dados. A porcentagem da variˆancia explixada por cada fator varia de zero a 1.

(10)

Em An´alise de Componentes Principais, consideramos o modelo linear Y=BXem queY´e o vetor cujos elementos s˜ao as componentes principais eB= (β>1, . . . ,β>p)>´e a matriz cujai-´esima linha cont´em os coeficientes dai-´esima componente principal.

A matriz de covariˆancias deX´e fatorada comoΣ=ΛΛ>. Em An´alise Fatorial, consideramos o modelo linearX=Λf+ee a matriz de covariˆancias deX´e fatorada comoΣ=ΛΛ>+ψ.

Uma diferen¸ca entre os dois enfoques ´e que enquanto a fatora¸c˜ao deΣ´e

´

unica em An´alise de Componentes Principais, ela n˜ao o ´e em An´alise Fatorial, pois seTfor uma matriz ortogonal (i.e.,TT>=Im), obteremos

Σ=ΛΛ>+ψ=ΛTT>Λ>+ψ=ΛT(ΛT)>

e embora as cargas fatoriaisΛTsejam diferentes das cargas fatoriaisΛ, a habilidade de reproduzir a matriz de covariˆanciasΣn˜ao se altera.

Escolhendo matrizes ortogonais diferentes, podemos determinar cargas fatoriais diferentes. A escolha de uma transforma¸c˜ao conveniente ser´a discutida posteriormente.

(11)

Uma an´alise fatorial consiste dos seguintes passos:

a) Estima¸c˜ao dos parˆametros do modelo (λiji) a partir de um conjunto de observa¸c˜oes das vari´aveisX1, . . . ,Xp.

b) Interpreta¸c˜ao dos fatores determinados a partir das cargas fatoriais obtidas em a). Com esse objetivo considera-se arota¸c˜aodos fatores por meio de transforma¸c˜oes ortogonais.

c) Estima¸c˜ao dos valores dos fatores comuns, chamadosescores fatoriaispara cada unidade amostral a partir dos valores das cargas fatoriais e das vari´aveis observadas.

(12)

Existem duas classes de m´etodos para estima¸c˜ao dos parˆametros do modelo fatorial. Na primeira classe consideramos om´etodo de m´axima verossimilhan¸cae na segunda, m´etodos heur´ısticos como om´etodo do fator principalou om´etodo do centroide.

Para o m´etodo de m´axima verossimilhan¸ca, supomos adicionalmente que as vari´aveisX1, . . . ,Xp seguem uma distribui¸c˜ao normal (multivariada) e que o n´umero de fatoresm´e conhecido. Os estimadores s˜ao obtidos por meio da solu¸c˜ao do sistema de equa¸c˜oes (ver Nota de Cap´ıtulo 3)

−1Λ = Λ(Im>ψ−1Λ) (4) diag(S) = diag(ΛΛ>+ψ)

que deve ser resolvido por meio de m´etodos iterativos. Detalhes podem ser encontrados em Morrison (1972).

Uma das vantagens desse m´etodo ´e que as mudan¸cas de escala das vari´aveis originais alteram os estimadores apenas por uma mudan¸ca de escala.

(13)

Se uma das vari´aveisX1, . . . ,Xp for multiplicada por uma constante, os estimadores das cargas fatoriais correspondentes ficam multiplicados pela mesma constante e o estimador da variˆancia espec´ıfica associada fica multiplicado pelo quadrado da constante. Dessa forma, podemos fazer os c´alculos com as vari´aveis padronizadas (substituindo a matriz de

covariˆancias amostralSpela correspondente matriz de correla¸c˜oes amostraisRe posteriormente escrever os resultados em termos das unidades de medida originais).

O m´etodo do fator principal est´a intimamente relacionado com a t´ecnica utilizada na an´alise de componentes principais. Segundo esse m´etodo, os fatores s˜ao escolhidos obedecendo `a ordem decrescente de sua

contribui¸c˜ao `a comunalidade total do sistema multivariado.

Nesse contexto, o processo tem in´ıcio com a determina¸c˜ao de um fatorF1

cuja contribui¸c˜ao `a comunalidade total ´e a maior poss´ıvel; em seguida, um segundo fator n˜ao correlacionado comF1e tal que maximize a

comunalidade residual ´e obtido. O processo continua at´e que a comunalidade total tenha sido exaurida.

(14)

Na pr´atica, as comunalidades e as variˆancias espec´ıficas devem ser estimadas com base nos dados amostrais. Embora existam v´arios m´etodos idealizados para essa finalidade, nenhum se mostra superior aos demais. Dentre os estimadores mais comuns para a comunalidade de uma vari´avelXi, destacamos:

i) o quadrado docoeficiente de correla¸c˜ao m´ultiplaentre a vari´avelXi e as demais;

ii) o maior valor absoluto dos elementos dei-´esima linha da matriz de correla¸c˜oes amostrais;

iii) estimadores obtidos de an´alises preliminares por meio de processos iterativos.

(15)

Outro problema pr´atico ´e a determina¸c˜ao do n´umero de fatores a incluir na an´alise. Os crit´erios mais utilizados para esse fim s˜ao:

i) determina¸c˜ao do n´umero de fatores por meio de algum conhecimento a priori sobre a estrutura dos dados;

ii) n´umero de componentes principais correspondentes a autovalores da matrizRmaiores que 1;

iii) explica¸c˜ao de certa propor¸c˜ao (escolhida arbitrariamente) da comunalidade ou da variˆancia total.

(16)

Um algoritmo comumente utilizado para a obten¸c˜ao das cargas fatoriais e das variˆancias espec´ıficas ´e

i) Obter aspcomponentes principais com base na matriz de correla¸c˜oes amostraisR.

ii) Escolhermfatores segundo um dos crit´erios mencionados.

iii) Substituir os elementos da diagonal principal deRpor estimadores das comunalidades correspondentes por meio de um dos m´etodos descritos acima, obtendo a chamadamatriz de correla¸c˜oes reduzida,R. iv) Extrairmfatores da matrizR, obtendo novos estimadores das

comunalidades que v˜ao substituir aqueles obtidos anteriormente na diagonal principal.

v) Repetir o processo dos itens ii) - iv) at´e que a diferen¸ca entre dois conjuntos sucessivos de estimadores das comunalidades seja desprez´avel.

(17)

O m´etodo do centroide foi desenvolvido por Thurstone (1947) para simplificar os c´alculos mas n˜ao ´e muito utilizado em virtude das recentes facilidades computacionais; os resultados obtidos por interm´edio desse m´etodo n˜ao diferem muito daqueles obtidos pelo m´etodo do fator principal.

Como a interpreta¸c˜ao dos fatores numa an´alise fatorial ´e uma

caracter´ıstica importante em aplica¸c˜oes pr´aticas, pode-se utilizar a t´ecnica derota¸c˜ao dos fatorespara obter resultados mais palat´aveis.

Consideremos um exemplo em que cinco vari´aveisA,B,C,D eE s˜ao representadas num espa¸co fatorial bidimensional conforme a representa¸c˜ao da Figura 1.

(18)

Figura:Representa¸ao de cinco vari´aveis num espa¸co vetorial bidimensional.

(19)

Como ilustrado na Tabela 1, as cargas fatoriais relativas ao fatorF1s˜ao altas e positivas para todas as vari´aveis. Por outro lado, apenas as vari´aveisA,B eC tˆem cargas positivas no fatorF2; as cargas das vari´aveisD eE s˜ao negativas nesse fator.

Tabela:Cargas fatoriais para as vari´aveisA,B,C,DeE

Fatores iniciais Fatores rotacionados Vari´avel F1 F2 FR1 FR2

A 0,75 0,63 0,14 0,95

B 0,69 0,57 0,14 0,90

C 0,80 0,49 0,18 0,92

D 0,85 -0,42 0,94 0,09

E 0,76 -0,42 0,92 0,07

(20)

Dois aglomerados de vari´aveis podem ser identificados na Figura 1: um formado pelas vari´aveisA,B eC e o outro pelas vari´aveisDeE. Apesar disso, esses aglomerados n˜ao s˜ao evidentes nas cargas fatoriais da Tabela 1. Uma rota¸c˜ao do fatores (com os eixos rotuladosFR1eFR2) como aquela indicada na figura juntamente com as novas cargas fatoriais apresentadas na Tabela 1 ressaltam a separa¸c˜ao entre os dois conjuntos de vari´aveis.

Na solu¸c˜ao inicial, cada vari´avel ´e explicada por dois fatores enquanto que na solu¸c˜ao obtida com a rota¸c˜ao dos fatores, apenas um deles ´e suficiente para explicar a correspondente estrutura de covariˆancia.

Em princ´ıpio, tamb´em podemos considerar rota¸c˜oes obl´ıquas, que s˜ao bem mais flex´ıveis, pois os fatores n˜ao precisam ser necessariamente ortogonais.

Essa caracter´ıstica pode at´e ser considerada mais realista, pois a ortogonalidade n˜ao ´e determinante da rela¸c˜ao entre os fatores. Os eixos real¸cados em vermelho na Figura 1 correspondem a uma dessas rota¸c˜oes obl´ıquas.

(21)

O objetivo de qualquer rota¸c˜ao ´e obter fatores interpret´aveis e com a estrutura mais simples poss´ıvel. Nesse sentido, Thurstone (1947) sugere condi¸c˜oes para se obter uma estrutura mais simples, nomeadamente:

i) Cada linha da matriz de cargas fatoriais Λ deve conter pelo menos um valor nulo.

ii) Cada coluna da matriz de cargas fatoriais deveria ter pelo menos tantos valores nulos quantas forem as colunas.

iii) Para cada par de colunas deve haver algumas vari´aveis com cargas fatoriais pequenas numa delas e altas na outra.

iv) Para cada par de colunas uma grande porcentagem das vari´aveis deve ter cargas fatoriais n˜ao nulas em ambas.

v) Para cada par de colunas deve haver somente um pequeno n´umero de vari´aveis com cargas fatoriais altas em ambas.

(22)

Como consequˆencia dessas sugest˜oes,

i) Muitas vari´aveis (representadas como vetores no espa¸co dos fatores) devem ficar pr´oximas dos eixos.

ii) Muitas vari´aveis devem ficar pr´oximas da origem quando o n´umero de fatores for grande.

iii) Somente um pequeno n´umero de vari´aveis ficam longe dos eixos.

(23)

A principal cr´ıtica `as sugest˜oes de Thurstone ´e que na pr´atica poucas s˜ao as situa¸c˜oes que admitem uma simplifica¸c˜ao t˜ao grande. O que se procura fazer ´e simplificar as linhas e colunas da matriz de cargas fatoriais e os m´etodos mais comumente empregados com essa finalidade s˜ao:

M´etodo Varimaxem que se procura simplificar a complexidade fatorial, tentando-se obter fatores com poucos valores grandes e muitos valores nulos ou pequenos na respectiva coluna da matriz de cargas fatoriais.

Ap´os uma rota¸c˜ao Varimax, cada vari´avel original tende a estar associada com poucos (preferencialmente, um) fatores e cada fator tende a se associar com poucas vari´aveis. Esse ´e o m´etodo mais utilizado na pr´atica.

M´etodo Quartimaxem que se procura maximizar o n´umero de fatores necess´arios para explicar cada vari´avel. Em geral, esse m´etodo produz um fator associado em que muitas vari´aveis tˆem cargas altas ou m´edias, o que nem sempre ´e conveniente para a interpreta¸c˜ao.

M´etodo Equimax, uma mistura dos m´etodos Varimax e Quartimax.

M´etodo Promax, utilizado para rota¸c˜oes obl´ıquas.

(24)

Um dos objetivos tanto da An´alise de Componentes Principais quanto da An´alise Fatorial, ´e substituir aspvari´aveis originaisX1, . . . ,Xp por um n´umero menor, digamos,mem an´alises subsequentes.

No caso de componentes principais, podem-se utilizar as estimativas Ybik =βbixk, i= 1, . . . ,mpara substituir os valoresxkobservados para a k-´esima unidade amostral.

Esse processo ´e mais complicado quando lidamos com a obten¸c˜ao dos valores dos fatoresF1, . . . ,Fm(denominadosescores fatoriais) em An´alise Fatorial, que n˜ao podem ser estimados no sentido estat´ıstico usual, pois os fatores n˜ao s˜ao observ´aveis.

Com esse objetivo, om´etodo de Bartlett(1937) consiste em considerar (2) como um modelo de regress˜ao heteroced´atico em que se sup˜oe que as matrizes de cargas fatoriais,Λe de variˆancias espec´ıficasψ, s˜ao conhecidas e se considera o termoecomo um vetor de erros.

(25)

Minimizando

Q(f) =e>ψ−1e= (x−µ−Λf)>ψ−1(x−µ−Λf) obtemos

bf= [Λ>ψ−1Λ]−1Λ>ψ−1(x−µ)

e substituindoΛ,ψeµ, respectivamente, por estimativasΛ,b ψb ex, podemos construir os escores fatoriais para ak-´esima unidade amostral como

bfk= [bΛ>ψb−1bΛ]−1>ψb−1(xk−x).

(26)

Alternativamente, nom´etodo de regress˜ao, sup˜oe-se que os fatores comuns,fe espec´ıficoses˜ao independentes e tˆem distribui¸c˜oes normais multivariadas com dimens˜oesmep, respectivamente, de forma que o par (X−µ,f) tamb´em tem uma distribui¸c˜ao normal multivariada de dimens˜ao p+mcom matriz de covariˆancias

ΛΛ>+ψ Λ Λ> Im

.

Utilizando propriedades da distribui¸c˜ao normal multivariada, segue que a distribui¸c˜ao condicional def dadoX−µtamb´em ´e normal multivariada com vetor de m´edias

E(f|X−µ) =Λ>[ΛΛ>+ψ]−1(X−µ) e matriz de covariˆancias

Cov(f|X−µ) =Im−Λ>[ΛΛ>+ψ]−1Λ.

(27)

multivariada tendo os fatores como vari´aveis respostas eX−µcomo vari´aveis explicativas. Utilizando as estimativasbΛ,ψ, podemos calcular osb escores fatoriais para ak-´esima unidade amostral (com valores das vari´aveis originaisxk) por meio de

bfk=Λb>[bΛbΛ>+ψ]b −1(xk−x).

Pacotes do R que podem ser utilizados para a AF s˜ao opsych, o GPArotatione orobustfa.

Para determinar o n´umero de fatores a considerar, podemos usar v´arios crit´erios:

[1]Teste Scree: devido a Cattel (1966), consiste do gr´afico dos autovalores contra o n´umero de fatores (ou CPs, de uma ACP). Procura-se o ponto (elbow) onde a inclina¸c˜ao muda drasticamente.

[2]Regra de Kaiser–Guttman: devida a Guttman(1954) e Kaiser (1960), ´e similar ao teste scree, mas consideram-se componentes ou fatores com autovalores maiores do que 1. Esse ´e o gr´afico que temos usado.

[3]An´alise paralela: devida a Horn (1965), prop˜oe reter somente

autovalores que sejam superiores ou iguais `a m´edia dos autovalores obtidos

(28)

(a) Gerenv.a.s de acordo com uma N(0,1) independentemente parap vari´aveis;

(b) calcule a matriz de correla¸c˜oes de Pearson;

(c) calcule os autovalores dessa matriz;

(d) repita passos (a)-(c)k vezes;

(e) calcule uma medida de localiza¸c˜ao, ML, para oskvetores de autovalores:

m´edia, mediana,p-quantil etc;

(f) Substitua o valor 1 da regra de Guttman–Kaiser, ou seja, conte o n´umero de autovalores maiores que ML.

H´a, tamb´em, solu¸c˜oes n˜ao gr´aficas a esses testes.

Otima coordenada:´

noc= #{(λi≥1) e (λi ≥λ previsto pelo teste scree K-G}

ou

noc = #{(λi ≥ML e (λi ≥λ previsto pelo teste scree da AP}

Fator de acelera¸c˜ao: coloca ˆenfase na coordenada onde a inclina¸c˜ao da curva muda abruptamente

(29)

Exemplo 1. Num estudo planejado para avaliar o n´ıvel de polui¸c˜ao atmosf´erica por meio de medidas de elementos qu´ımicos depositados em cascas de ´arvores, obtiveram-se observa¸c˜oes da concentra¸c˜ao de Al, Ba, Cu, Fe, Zn, P, Cl, Sr e Ca entre outros elementos em 193 unidades da esp´ecieTipuana tipuna cidade de S˜ao Paulo.

Esses dados constituem um subconjunto daqueles dispon´ıveis em http://www.ime.usp.br/~jmsinger/MorettinSinger/arvores.xlsO objetivo aqui ´e obter um conjunto de fatores que permitam identificar caracter´ısticas comuns a essas vari´aveis. Os resultados provenientes de uma an´alise de componentes principais est˜ao dispostos na Tabela 2.

(30)

Tabela:Coeficientes de componentes principais (CP) para os dados do Exemplo 1

CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9

Al 0.90 -0.11 0.09 0.21 -0.16 0.19 -0.08 -0.17 0.17

Ba 0.88 -0.16 0.09 0.10 -0.10 0.27 0.09 0.31 -0.01

Cu 0.82 0.18 -0.05 -0.23 0.31 -0.18 -0.31 0.08 0.01

Fe 0.95 -0.10 0.07 0.10 -0.03 0.10 0.00 -0.18 -0.19

Zn 0.83 0.16 -0.13 -0.22 0.29 -0.21 0.31 -0.05 0.05

P 0.25 0.69 -0.25 0.53 -0.20 -0.28 0.00 0.05 -0.01

Cl 0.17 0.53 0.60 -0.42 -0.39 -0.07 0.01 0.00 0.00

Mg -0.24 0.22 0.78 0.35 0.40 0.05 0.02 0.00 0.00

Ca -0.20 0.77 -0.33 -0.12 0.15 0.47 0.00 -0.04 0.00

% Var 0.45 0.17 0.13 0.08 0.07 0.06 0.02 0.02 0.01

% Acum 0.45 0.61 0.75 0.83 0.89 0.95 0.97 0.99 1.00

(31)

Uma an´alise da porcentagem da variˆancia explicada pelas componentes principais juntamente com um exame do gr´afico da escarpa sedimentar (scree plot) correspondente, apresentado na Figura 2 sugere que trˆes fatores, que explicam 75% da variˆancia total do sistema de vari´aveis originais poderiam contemplar uma representa¸c˜ao adequada.

2 4 6 8

01234

scree plot

component number

Eigen values of components

Figura:Gr´afico da escarpa sedimentar para os dados do Exemplo 1.

(32)

As cargas fatoriais correspondentes trˆes fatores rotacionados obliquamente juntamente com as comunalidades e especificidades correspondentes est˜ao dispostos na Tabela 3.

Tabela:Cargas fatoriais, comunalidades e especificidades correspondentes a uma an´alise fatorial para os dados do Exemplo 1

Fator 1 Fator 2 Fator 3 Comunalidade Especificidade

Al 0.91 -0.11 0.03 0.82 0.18

Ba 0.86 -0.13 0.00 0.75 0.25

Cu 0.75 0.27 -0.04 0.66 0.34

Fe 0.97 -0.08 0.01 0.95 0.05

Zn 0.74 0.27 -0.13 0.68 0.32

P 0.20 0.47 0.05 0.25 0.75

Cl 0.22 0.27 0.39 0.22 0.78

Mg -0.04 0.02 0.73 0.54 0.46

Ca -0.21 0.67 0.01 0.49 0.51

(33)

Os gr´aficos das Figuras 3 e 4 tamb´em podem ser utilizados para identificar os fatores.

MR1

−1 0 1 2 3 4

0.00.10.20.30.40.5

−3 −2 −1 0 1 2 3

−3−2−10123

MR2

MR1

BaAl Cu Fe

Zn

P Cl Mg

Ca

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

−3 −2 −1 0 1 2 3

−3−2−10123

MR3

MR1

BaAl Cu Fe Zn

P Cl

Mg Ca

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

−3 −2 −1 0 1 2 3

−3−2−10123

MR1

MR2 AlBa

Cu

Fe Zn P Cl Mg Ca

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

MR2

−2 −1 0 1 2

0.00.10.20.30.40.50.6

−3 −2 −1 0 1 2 3

−3−2−10123

MR3

MR2 AlBa

Cu

Fe Zn

P Cl

Mg Ca

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

−3 −2 −1 0 1 2 3

−3−2−10123

MR3 AlBaCuFe

Zn P Cl Mg

Ca

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

−3 −2 −1 0 1 2 3

−3−2−10123

MR3 AlBa CuFe

Zn P Cl Mg

Ca

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

MR3

−2 −1 0 1 2 3

0.00.10.20.30.40.5

Figura:Gr´aficobiplotcorrespondente aos trˆes fatores considerados para os dados do Exemplo 1.

(34)

MR1

0.0 0.2 0.4 0.6

−0.20.00.20.40.60.81.0

0.00.20.40.6

MR2

−0.2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6

0.00.20.40.6

MR3 Factor Analysis

Figura:Gr´afico cartesiano correspondente aos trˆes fatores considerados para os dados do Exemplo 1.

O Fator 1 tem cargas fatoriais concentradas nos elementos Al, Ba, Cu, Fe e Zn, que est˜ao associados `a polui¸c˜ao de origem veicular gerada por desgaste de freios e ressuspens˜ao de poeira; o Fator 2 est´a tem cargas fatoriais

concentradas em P e Ca, caracter´ısticas da sa´ude arb´orea e o Fator 3 tem as cargas fatoriais concentradas em Cl e Mg.

(35)

Exemplo 2. Vamos retomar o Exemplo 1 da Aula 15, em que se pretendia avaliar os efeitos de vari´aveis clim´aticas na ocorrˆencia de suic´ıdios por enforcamento na cidade de S˜ao Paulo.

Nesse exemplo obtivemos duas CPs que explicavam 82% da variˆancia total.

Vamos usar a fun¸c˜aofactanal()do pacotestats. Essa fun¸c˜ao usa MV numa matriz de covariˆancias ou numa matriz de dados.

Obtemos os resultados abaixo:

Call:

factanal(x = clima1, factors = 2, rotation = "varimax") Uniquenesses:

tempmax tempmin tempmed precip nebmed 0.061 0.020 0.005 0.890 0.482 Loadings:

Factor1 Factor2 tempmax 0.932 -0.266 tempmin 0.883 0.447 tempmed 0.997

precip 0.323

nebmed -0.142 0.706 Factor1 Factor2 SS loadings 2.668 0.874 Proportion Var 0.534 0.175 Cumulative Var 0.534 0.708

Test of the hypothesis that 2 factors are sufficient.

(36)

propor¸c˜ao da variabilidade quen˜ao pode ser explicadapela combina¸c˜ao linear dos fatores(variˆancia espec´ıfica). Valor alto para uma vari´avel indica que o fator n˜ao contribui bem para a sua variˆancia. ´E a diagonal da matriz ψ. Nesse caso, os fatores n˜ao contribuem para a variˆancia de Precipita¸c˜ao e Nebulosidade.

A matrizλdas cargas fatoriais ´e dada a seguir:

> load<-fafit\$loadings[,1:2]

Factor1 Factor2 tempmax 0.93205114 -0.26553163 tempmin 0.88305960 0.44690513 tempmed 0.99713621 0.02715943 precip 0.07422757 0.32313465 nebmed -0.14166420 0.70579832 A matrizψ´e dada por

> Psi <-diag(fafit\$uniquenesses)

[,1] [,2] [,3] [,4] [,5]

[1,] 0.0607741 0.00000000 0.000 0.0000 0.0000000 [2,] 0.0000000 0.02048162 0.000 0.0000 0.0000000 [3,] 0.0000000 0.00000000 0.005 0.0000 0.0000000 [4,] 0.0000000 0.00000000 0.000 0.8901 0.0000000 [5,] 0.0000000 0.00000000 0.000 0.0000 0.4817635

A comunalidade ´e obtida tomando os quadrados das cargas:

> apply(fafit\$loadings^2,1,sum)

(37)

N˜ao foi poss´ıvel considerar 3 fatores, pois o programa n˜ao aceita valor maior do que 2 para 5 vari´aveis.

A propor¸c˜ao da variˆancia explicada pelos fatores ´e 70,8%, menor do que as CPs.

A estimativa da matriz Σ ´e dada por

tempmax tempmin tempmed precip tempmax 1.00000048 0.7043893 0.92217026 -0.01661858 tempmin 0.70438926 1.0000001 0.89266839 0.20995790 tempmed 0.92217026 0.8926684 1.00001826 0.08279115 precip -0.01661858 0.2099579 0.08279115 1.00002576 nebmed -0.31945006 0.1903270 -0.12208942 0.21755251

nebmed tempmax -0.3194501 tempmin 0.1903270 tempmed -0.1220894 precip 0.2175525 nebmed 0.9999835

(38)

Amatriz residualestimada ´e

tempmax tempmin tempmed precip nebmed tempmax 0.000000 -0.000390 0.000104 -0.015332 0.009215 tempmin -0.000390 0.000000 0.000035 -0.008720 0.000870 tempmed 0.000104 0.000035 -0.000018 0.003171 -0.000927 precip -0.015332 -0.008720 0.003171 -0.000026 0.072404 nebmed 0.009215 0.000870 -0.000927 0.072404 0.000017 e vemos que os valores s˜ao pr´oximos de zero, indicando que o modelo fatorial est´a adequado.

Para determinar o n´umero de fatores podemos obter os autovalores da matriz de correla¸c˜oes estimada:

> ev<-eigen(cor(clima1)) eigen() decomposition values

[1] 2.70399548 1.41461150 0.71677349 0.14576231 0.01885722 mostrando que tomamos 2 fatores, correspondentes aos valores pr´oprios maiores que 1.

(39)

A seguir temos alguns gr´aficos mencionados anteriormente sobre a determina¸c˜ao do n´umero de fatores.

0.0 0.2 0.4 0.6 0.8 1.0

−0.20.00.20.40.6

Factor1

Factor2

tempmax tempmin

tempmed precip

nebmed

Figura:Gr´afico do fator 1 vs fator 2 para o Exemplo2

(40)

1 2 3 4 5

0.00.51.01.52.02.5

scree plot

component number

Eigen values of components

Figura:Scree plot para Exemplo 2.

(41)

−3 −2 −1 0 1 2 3

−3−2−10123

Biplot from fa

PC1

PC2

tempmax tempmin

tempmed precip

nebmed

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

Figura:Biplot para Exemplo 2.

(42)

1 2 3 4 5

0123

Parallel Analysis

Factors

Eigenvalues

Adjusted Ev (retained) Adjusted Ev (unretained) Unadjusted Ev Random Ev

Figura:An´alise Paralela para Exemplo 2.

(43)

1 2 3 4 5

0.00.51.01.52.02.5

Non Graphical Solutions to Scree Test

Components

Eigenvalues

Eigenvalues (>mean = 2 ) Parallel Analysis (n = 2 ) Optimal Coordinates (n = 2 )

Acceleration Factor (n = 1 )

(OC) (AF)

Figura:Solu¸oes n˜ao gr´aficas para Exemplo 2.

(44)

Bartlett, M.S. (1937). The statistical conception of mental factors. British Journal of Psychology, 28, 97-104.

Hastie, T., Tibshirani, R. and Friedman, J. (2017). The Elements of Statistical Learning, 2nd Edition, Springer.

H¨ardle, W.K. and Simar, L. (2015). Applied Multivariate Statistical Analysis.

Springer.

James, G., Witten, D., Hastie, T. and Tibshirani, R. (2017). Introduction to Statistical Learning. Springer.

Morettin, P. A. e Singer, J. M. (2021). Estat´ıstica e Ciˆencia de Dados. Texto Preliminar, IME-USP.

Morrison, D.F. (1976).Multivariate Statistical Methods, 2nd Ed. New York:

McGraw-Hill.

Thurstone, L.L. (1947). Multiple Factor Analysis: A development and expansion of vectors of the mind.. Chicago: University of Chicago Press.

Referências

Documentos relacionados

A proposta de um modelo de regress˜ ao linear simples pode ser baseada em argumentos te´ oricos, como no caso em que dados s˜ ao coletados para a avalia¸ c˜ ao do espa¸ co

As contribui¸ c˜ oes pioneiras para a ´ area de Redes Neurais (RN) (tamb´ em denominadas redes neuronais, de neurˆ onio), foram as de McCulloch e Pitts (1943), que introduziram a

Inferˆ encia Frequentista, Inferˆ encia Bayesiana Data Mining, Neural Networks, Data Science Statistical Learning, Machine Learning... Aprendizado

Mais comumente, os dados envolvem valores de v´ arias vari´ aveis, obtidos da observa¸ c˜ ao de unidades de investiga¸ c˜ ao que constituem uma amostra de uma popula¸ c˜ ao. A

Para cada vari´ avel preditora cont´ınua n˜ ao suavizada, perde-se um grau de liberdade; para as vari´ aveis suavizadas a atribui¸ c˜ ao de graus de liberdade ´ e mais complexa

A an´ alise de dados amostrais possibilita que se fa¸ ca inferˆ encia sobre a distribui¸ c˜ ao de probabilidades das vari´ aveis de interesse, definidas sobre a popula¸ c˜ ao da

magn´ etica por aquele baseado na medida da distˆ ancia aberta por meio de ultrassonografia, podemos estimar as probabilidades de sucesso para todas as articula¸ c˜ oes e identificar

Em geral, cada linha da matriz de dados corresponde a uma unidade de investiga¸c˜ ao (e.g. uni- dade amostral) e cada coluna, a uma vari´ avel. Uma planilha bem elaborada