ANÁLISE DE COMPONENTES PRINCIPAIS OBJETIVOS:
- Explicar a estrutura de variância-covariância dos dados através de combinações lineares das variáveis originais.
- redução de dados (variáveis)
- muitas vezes é um passo intermediário em maiores investigações (compreender melhor a aproximação dos dados à análise de agrupamentos
COMPONENTES PRINCIPAIS POPULACIONAIS Seja X′=
[
X ,...,1 Xp]
com matriz de var-cov∑
com auto-valores λ1≥λ2 ≥...≥λp >0variáveis em "pé de igualdade" è não existe um conjunto que influência e outro que é influenciado. p p X X X Y1=l1′X=l11 1+l21 2+... l+ 1 M p pp p p p p X X X Y =l′ X=l1 1+l2 2+...+l Temos
( )
Yi = ′i∑
i Var e e i = 1, 2, ..., p( )
Yi,Yj =e′i∑
ej cov i, j = 1,...,pComponentes principais são as combinações lineares Yi,Y2,...,Yp tal que cov
( )
Yi,Yj =0 e( )
YiVar tão grande quanto possível. Definimos:
1a. Comp. Principal ⇒ c.l. Xe1′ que maximiza Var
( )
e1′X com e1′e1=12a. Comp. Principal ⇒ c.l. e′2X que maximiza Var
( )
e′2X com e′2e2 =1 e cov(
e1′X e, ′2X)
=0 Mi-ésima Com. Principal ⇒ c.l. Xe1′ que maximiza Var
( )
e′1X com e′iei =1 e(
,)
0cove′iX e′jX = ∀ i < j
mudança de coordenadas
Teorema (Resultado 8.1)
Seja
∑
a matriz de var-cov. do vetor X′=[
X1,X2,...,Xp]
. Sejam(
λ1,e1) (
, λ2,e2)
,...,(
λp,ep)
os pares de auto-valores e auto-vetores de∑
, onde0 ...
2
1 ≥λ ≥ ≥λp ≥
λ . A i-ésima componente é dada por:
, ... 1 1i pi p i i e X e X Y =eX= + + i = 1, 2, ..., p com essa escolha
( )
Yi i i iV =e′
∑
e =λ( )
, 0covYi Yj =e′i
∑
ej = i≠ jMaximização de formas quadráticas para pontos sobre a esfera unitária. Lema 2-51 (pag. 64. 65) 1 max =λ ′ ′
∑
≠ ee e e 0 e atingido quando e=e1 Temos e1′e1 =1, então( )
1 1 1 1 1 1 1 1 max = ′ =VarY ′ ′ = = ′ ′∑
∑
∑
≠ ee e e e e e e e e 0 e λ Lema 2.52 (pág. 65) 1 1 ... ,2 max + ⊥ ′ = ′∑
λ e e e e e e 0 e k , k = 1. 2. ..., p-1 atingido quando e=ek+1 Para a escolha de e=ek+1 e′k=1ek =0 k = 1. 2. ..., p-1( )
1 1 1 1 1 1 1 1 + + + + + + = + ′ = ′ = ′ =∑
k∑
k k k k k k k e e Var Y e e e e λ Agora( ) ( )
, 0 covYi Yj =ei′∑
ej =ei′λjej =λje′iej = ∀i≠ j Teorema (Resultado 8.2)Seja X′=
[
X1,X2,...,Xp]
com matriz de var-cov∑
com pares de valroes e auto-vetores(
λi,ei)
i = 1, 2, ...,p e λ1≥λ2 ≥...≥λp >0. Sejam Y1,Y2,...,Yp as componentes principais. Então( )
( )
i p i p i p i pp Var X Var Y VarTOTAL∑
∑
= = = + + = = + + = 1 1 1 11 ... σ λ ... λ σ Prova:( )
pp tr∑
=σ11+...+σOBS.: Resultado 2-20 pag. 50
( ) ip (p p) (p p)(p p) p p p i i p i P× × P× × = ′ Λ = ′ =
∑ ∑
e e 1 1 1 λ P=[
e1,...,ep]
= Λ p λ λ λ O M K L 0 0 0 0 2 1 I P P P P′ = ′= P′ é inversa de P e vice-versa. P - é ortogonal( )
∑
=tr(
PΛP′) (
=tr ΛP′P) ( )
=tr ΛI = tr( )
Λ = + + = =tr λ ...1 λp( )
( )
∑
∑
( )
∑
= = = = p i i p i i tr VarY X Var 1 1OBS.: det
( )
det(
)
det(
)
det( )
( det( )
)1 Var Y P P P P i p i = = Λ = ′ Λ = ′ = =
∑
∑
πλ conserva a variância generalizada Definimos: Decomposição SpectralA proporção da variância total devida (explicada) pela i-ésima componente principal é
∑
= = + + + p i i i p i 1 2 1 ... λ λ λ λ λ λ e∑
∑
= = p i i k i i 1 1 λ λproporção explicada pelas k primeiras
componentes. OBS.:
1) em muitos casos a maioria da variância total (80 a 90%) é explicada pelas duas ou três primeiras componentes principais então essas componentes podem substituir as P variáveis originais.
2) como Yi =e1iX1+...+ekiXk +...+epiXp a magnitude de e mede a importância de k-ki
ésima variável para a i-ésima componente principal.
3) Jolliffe (1972 e 1973) - critério de seleção: Rejeitar os componentes com dados artificiais reais variância < 0,70
TEOREMA (Resultado 8.3)
Se Yi =e1′ =e1′X,...,Yp =e′pX são as componentes principais obtidas de
∑
, entãokk i ki k i e X Y σ λ ρ , = i, k = 1, 2, ...,p Prova:
[
0,...,0,1,0,...,0]
= ′k l ⇒ Xk =l′k =l′kX(
Xk,Yi)
=cov(
l′kX,ei′X0)
=l′k∑
ei cov i k i i i k e l e l′ = ′ = λ λ ki ie λ= A covariância entre uma variável origina X e um componente principal k Y i
é o i-ésimo autovalor de
∑
vezes o k-ésimo elemento do i-ésimo autovetor de∑
.(
)
( ) ( )
kk i ki i kk ki i i k i k i k e e Y V X V Y X Y X σ λ λ σ λ ρ , = cov , = = Exemplo:Suponha X=
[
X1,X2,X3]
com 17 , 0 0 , 2 83 , 5 2 0 0 0 5 2 0 2 1 3 2 1 = = = ⇒ − − =∑
λ λ λ(
)
(
)
(
0,924;0,383;0)
1 , 0 , 0 0 ; 924 , 0 ; 383 , 0 3 2 1 = = − = ′ e e e + = ′ = = ′ = − = ′ = 2 1 3 3 3 2 2 2 1 1 1 383 , 0 924 , 0 924 , 0 383 , 0 X X Y X Y X X Y X e X e X e Exercício( ) (
Y)
Var( ) (
X)
Var(
)(
) ( )
Cov XVar 0,383 1 0,9242 20,383 0,924
2
1 = + + −
( )
Y2 Var( )
X3Var =
( ) (
Y)
Var( ) (
X)
Var( ) (
X)(
) ( )
Cov XVar 3 = 0,924 2 1 + 0,3832 2 +20,924 0,385
( )
Y1 =5,85V , V
( )
Y2 =2,0 e V( )
Y3 =0,17 Proporção da Var Total Explicada por 0,7243 2 1 1 1 =λ +λ +λ = λ Y 250 , 0 3 2 1 2 2= λ +λ +λ = λ Y 021 , 0 3 2 1 3 3 = λ +λ +λ = λ Y
1) Neste caso as duas primeiras componentes principais podem substituir as três variáveis originais com "muito pouca" perda de informação
925 , 0 1 83 , 5 383 , 0 , 11 11 1 1 = = = σ λ ρ e i X Y 998 , 0 5 83 , 5 924 , 0 , 22 21 2 1 =− − = = σ λ ρ e i X Y 0,974
2) X e 1 X são ambas, individualmente, igualmente importantes para a 12 a. a.p. Y 1 1 2 2 1 , 33 2 32 3 2 = ⋅ = = σ λ ρY X e (como esperava-se) OBS.:
1) As componentes principais Y1 =e′1X,...,Yp =e′pX estão nas direções dos eixos da elipsóide de densidade constante.
(
)
∑
−(
)
= − ′ − 1 2 c µµ µµ X X elipsóide centrada em µ i i c λλe ± eixos considere µµ=0 ( )( ) ( )( )1 1 1 1 1 1 1 2 1 1 × × × = × − = ′ ′ = ′ ′ = ′ =∑
∑
∑
p p i p i p i i p p i i i i c X X X ee X X e e X λ λ( )
(
)
2( )
2 1 1 1 1 2 1 ... 1 1 X e X e X ei p p p i i ′ + + ′ = ′ =∑
= λ λ λ 2 2 1 1 2 1 ... 1 p p Y Y c λ λ + + = (I)(i) (I) define elipsóide com sistema de eixos Y1,Y2,...,Yp que estão na direção
p e e ,...,1
(
)
∑
−(
)
− ′ − = 1 2 µµ µµ X X c c2 =(
X−µµ)
′∑
−1(
X−µµ)
Y1 X2 Y2 2 µ 1 µ X1 2 1 λ λ > X2 2 µ 1 µ X1 2 1 λ λ = Y2 Y 1COMPONENTES PRINCIPAIS OBTIDAS DAS VARIÁVEIS PADRONIZADAS
[
X1,X2,...,Xp]
= X ⇒ Z=[
Z ,...,1 Zp]
onde ii i i i X Z σ µ − =( )
(
−µµ)
= − X Z V1/2 1 = pp V σ σ σ L M M M L L 0 0 0 0 0 0 22 11 2 / 1( )
( ) ( )
= = = ⇒∑
− − ρ 1 2 / 1 1 2 / 1 ) cov( V V E Z 0 Z = 1 1 1 2 1 2 12 1 12 L M M M L L p p p p ρ ρ ρ ρ ρ ρ ρ Teorema:Seja Z′=
[
Z1,Z ...,Zp]
um vetor de variáveis padronizadas com cov( )
Z = ρ. Então (i) a i-ésima componente principal de Z é dada por =e′ =e′( )
1/2 −1(
X−µ)
V Z yi i i i = 1, 2, ..., p (ii)
( )
Y( )
Z p p i i p i i∑
∑
= = = = 1 1 var var (iii) ρyi,yk =eki λi i, k = 1, 2, ..., pDefinição
A proporção da variância total (explicada) devida a i-ésima componente principal de Z é
p i λ i = 1, 2, ..., p s i′ λ autovalores de ρ. OBS.:
1) As componentes principais derivadas de
∑
não são as mesmas obtidas de ρ. As componentes principal são não-invariantes à troca em escala.Exemplo: Pág. 363 (J-W) Exemplo 8.2 Discutir este exemplo
∑
= * 100 4 4 1 16 , 100 1 = λ e1′ =(
0,040; 0,999)
84 , 0 2 = λ e2′ =(
0,999; −0,040)
Note: Grande parte da variância de X2, é completamente dominante da 1a. c. principal
(coef.= 0,999 > 0,04 de X1) − = + = ⇒ 2 1 2 2 1 1 040 , 0 999 , 0 999 , 0 040 , 0 X X Y X X Y
( )
= = 1 4 , 0 4 , 0 1 ρ Z Cov 4 , 1 1 * = λ *(
0,707; 0,707)
1 = ′ e 6 , 0 2 * = λ *(
0,707; 0,707)
2 = − ′ e − = = + ⇒ + = ⇒ 2 1 2 * 2 * 1 * 1 2 1 1 707 , 0 707 , 0 7 , 0 707 , 0 707 , 0 Z Z Y Z Z Y λ λ λ 837 , 0 4 , 1 707 , 0 , * 1 11 1 1 = λ = = ρY Z e 837 , 0 4 , 1 707 , 0 , * 1 21 2 1 = λ = = ρY Z e OBS.:
1) Considere
∑
com a seguinte estrutura(
)
(
)
(
0,0,...,1)
0 ,..., 1 , 0 0 ,..., 0 , 1 0 0 0 0 0 0 0 0 0 2 1 22 2 11 1 22 11 = ′ = ′ = ′ ⇒ = = = ⇒ =∑
p pp p pp e e e σ λ σ λ σ λ σ σ σ L M M M M L L p p p X Y X Y = ′ = = ′ = ⇒ 1 e1X 1,..., e X Λ =diag.[ ]
σii ρ= I =[
e1e2ep]
O conjunto das componentes principais, Y1,Y2 e Y , são as próprias variáveis p X1,X2,Xp
(não correlacionadas). Neste caso, não se ganha nada para extrair as C.P.
2) No caso anterior ρ=I e, além disso,
i i e e =1 ρ ⇒
(
0,0,...,1,...,0)
1 = ′ p i e λi =1 i = 1, 2, ..., p i i i ZY* =e′Z= ß as próprias variáveis padronizadas
COMPONENTES PRINCIPAIS AMOSTRAIS
Então para qualquer j = 1, 2, ..., n, para a combinação e1′Xj temos que
(i) E
( )
e1′Xj =e1′X(ii) Var
( )
e1′Xj =e1′Se1(iii) cov
(
e1′Xj,e′2Xj)
=e1′Se2DEFINIÇÃO
As componentes principais como as combinações lineares com máxima variância, são não correlacionadas entre si.
RESULTADO Dada a a.a. , , , 1 1 2 1 1 n p p p X X
X obtida S =
[ ]
δij matriz de var-cov. Amostral e( )
λˆi,eˆi ,i = 1, 2, ..., p, os pares autovalores e autovetores de S. A i-ésima componente principal amostral é dada por
x ei
i
yˆ =ˆ′ i = 1, 2, ..., p (são realizações das componentes principais populacional
X ei
i
y = ′ ) e ainda
(i) Variância amostral
( )
yˆi =λˆi i = 1, 2, ..., p(ii) V.T. Amostral = p p i ii λ λ δ ˆ ... ˆ 1 1 + + =
∑
= (iii) kk i ki k i e x y r δ λˆ ˆ , ˆ = i, k = 1, 2, ..., p onde λˆ1 ≥λˆ2 ≥...≥λˆp e 1 x p é qualquer valor de X1,X2,...,Xn OBS.:1) A variabilidade contida na amostra pode ser explicada pelas componentes principais.
2) As observações x são as vezes “centradas” na média X , isto é, tomamos i x
x
xi* = j − , j = 1, 2, ..., n, mas isto não altera a matriz S
(i) = x =
∑
(
x −x)
=0 = n j j n 1 * 1(ii)
(
)(
)
S n n j j j = ′ − − −∑
=1 * * * * 1 1 x x x x(
)(
)
S n j n j j = ′ − − − =∑
= x x x x 1 1 1 Para , ,..., *, 1 * 1 2 * 1 1 n p p p X X X(
x x)
e x e′ ′ = ′ − = i i i i i yˆ i = 1, 2, ..., p( )
yi i Var =λ , i = 1, 2, ...,p(
λ1 ≥λ2 ≥...≥λp ≥0)
Exemplo: (pág. 369 (J-W), exemplo 8.3) P = 5 variáveis socio-econômicas N = 14 (séries, região) X1 = população total X = 4,32 (x 1000) 1 X2 = anos médio de escolaridade X = 14,01 2X3 = total de empregos X = 1,95 (x 1000) 3 X4 = total de empregos no serv. Saúde X = 2,17 (x 100) 4 X5 = valor médio das casas X = 2,45 (US 10.000) 5 Considerando j-ésimo valor da i-ésima componente principal
j i ij y =e′X = = n j p i ,..., 2 , 1 ,..., 2 , 1 j j j j j j X X X X X Y1 =0,781 1 +0,306 2 +0,334 3 +0,426 4 −0,054 5 j j j j j j X X X X X Y2 =−0,071 1 +0,764 2 +0,083 3 +0,579 4 −0,262 5 j j j j j j X X X X X Y3 =0,004 1 −0,162 2 +0,015 3 −0,220 4 +0,962 5 j j j j j j X X X X X Y4 =0,542 1 −0,545 2 +0,050 3 −0,636 4 −0,051 5 j j j j j j X X X X X Y5 =−0,302 1 −0,010 2 +0,937 3 −0,173 4 +0,024 5 931 , 6 ˆ = i λ ; λˆ2 =1,786; λˆ3 =0,390 λˆ4 =0,230; λˆ5 =0,014
% 2 , 93 ˆ ˆ 2 1+ = VT λ λ
⇒ A variação amostral é bem resumida pelas duas componentes principais e uma redução nos dados de 14 observações sobre 5 variáveis para 14 observações sobre 2 componentes principais é razoável.
OBS.: análise dos coeficientes das componentes:
1) a primeira componente parece ser essencialmente uma média ponderada das quatro primeiras variáveis
2) a segunda c.p. parece ser um constraste entre empregos no serviço de saúde (X4) com uma média ponderada de anos médio de escolaridade (X2) e valor médio das casas (X5)
3) as vezes é preferível um estudo dessa natureza pelas correlações, já que com ela, evita-se o problema interpretativo causado pelas diferentes escalas de medidas. No presente caso as duas análises confirmam-se.
OBSERVAÇÕES PADRONIZADAS n X X X1, 2,..., ⇒ Z1,Z2,...,Zn ; Z′j =
(
z1j,z2j,...,zpj)
− − = pp p pj ij j p x x x x δ δ M 11 1 1 Z[
n]
n p Z = Z1,Z2,...,Z ⇒ Z=0 e R r r r r r r r r r S p p p p p = = 1 1 1 3 2 1 2 23 12 1 12 11 L M L M M M L L Z RESULTADO:Sejam Z1,Z2,...,Zn as observações padronizadas com matriz var-cov R. Então (i) a i-ésima comp. Principal amostral é
% 4 , 97 ˆ ˆ ˆ 3 2 1+ + = VT λ λ λ
Z ei
i
yˆ =ˆ′ i = 1, 2, ..., p
(ii) variâncias Amostral
( )
yˆi =λˆi i = 1, 2, ..., p(iii) cov. Amostral
(
yˆi,yˆj)
=0 ∀i≠ j =1,2,...,p(iv) VT (Padronizada) Amostral
(
=λˆ1 +λˆ2 +...+λˆp = p)
(v) ryˆi,zk =eˆki λˆi i, k = 1, 2, ..., p
onde
( )
λˆi,eˆi são (autovalores; autovetores) de R com(
λˆ1 ≥λˆ2 ≥λˆ3...≥λˆp >0)
Seja P=[
e1,e2,...,ep]
matriz dos autovetores de R e = Λ p λ λ λ O 2 1
matriz dos autovalores de R
2 / 1 , ˆ X =PΛ y R i K Note: Ryi xiR′yi xi =PΛ1/2Λ1/2P′ , ˆ , ˆ P PΛ ′ = = R
GRÁFICO DAS COMPONENTES PRINCIPAIS
OBS.: O gráfico das componentes principais pode ajudar a identificar observações “suspeitas” bem como no “check” da normalidade.
Para 1 j p x podemos escrever
( )
j( )
j p p p p p j j x e e x e e x e e x ˆ ˆ ˆ2 ˆ2 ... ˆ ˆ 1 1 1 1 1 ′ + + ′ + ′ = p pj j j y y yˆ1 eˆ1 + ˆ2 eˆ2 +...+ ˆ eˆ =(i) è a magnitude das últimas c.p. determinam como as primeiras c.p.ajustam as observações, isto é, q qj j j y y yˆ1 eˆ1 + ˆ2 eˆ2 +...+ ˆ eˆ difere de x por j
p pj q j q y yˆ 1 eˆ 1+...+ ˆ eˆ = + + (I) o (comprimento)2 de (I) é yˆq2+1j +...+ yˆpj2
As observações suspeitas as vezes são tais que pelo menos uma das coordenadas
pj j
q y
yˆ +1 ,...,ˆ contribuíram para este quadrado do comprimento ser grande. RESUMO:
1) Checar Normalidade à
(1.1) Construir diagramas de pontos para os pares das 1as. c.p. (1.2) Construir Q.Q. Plots dos valores amostrais geradas pelas c.p.
2) Observações suspeitas à
(2.1) Construir Q.Q. Plots e diagramas de pontos para as últimas c.p. Ler
Secção 8.4 e 8.5 Exercício
8.1, 8.2, 8.3, 8.6, 8.7, 8.11
DIAGNÓSTICO EM MODELOS DE REGRESSÃO MÚLTIPLA MULTIVARIADO Uma vez ajustado qualquer modelo por qualquer método de estimação considera-se:
( )1 ( ) ( )1 1 ˆ ˆ × × × ′ − = p j p j p j y Z â å j = 1, 2, ..., n
COMPONENTES PRINCIPAIS, DERIVADOS DA MATRIZ DE COVARIÂNCIA RESIDUAL
(
)(
)
∑
= − ′ − − N J J J J J p n 1 ˆ ˆ ˆ ˆ å å å åPode ser examinado da mesma forma que para uma a.a. os últimos autovalores ≈ 0 è existe dependência linear è usar alguns componentes principais como variáveis preditoras
Vetor de resíduo Vetor observações Vetor de valores preditos
INTERVALO DE CONFIANÇA PARA λ I