aula9 completa

(1)

ANÁLISE DE COMPONENTES PRINCIPAIS OBJETIVOS:

- Explicar a estrutura de variância-covariância dos dados através de combinações lineares das variáveis originais.

- redução de dados (variáveis)

- muitas vezes é um passo intermediário em maiores investigações (compreender melhor a aproximação dos dados à análise de agrupamentos

COMPONENTES PRINCIPAIS POPULACIONAIS Seja X′=

[

X ,...,₁ X_p

]

com matriz de var-cov

∑

com auto-valores λ₁≥λ₂ ≥...≥λ_p >0

variáveis em "pé de igualdade" è não existe um conjunto que influência e outro que é influenciado. p p X X X Y₁=l₁′X=l₁₁ ₁+l₂₁ ₂+... l+ ₁ M p pp p p p p X X X Y =l′ X=l₁ ₁+l₂ ₂+...+l Temos

( )

Yi = ′i

_∑

i Var e e i = 1, 2, ..., p

( )

Yi,Yj =e′i

_∑

ej cov i, j = 1,...,p

Componentes principais são as combinações lineares Y_i,Y₂,...,Y_p tal que cov

( )

Y_i,Y_j =0 e

( )

Yi

Var tão grande quanto possível. Definimos:

1a. Comp. Principal ⇒ c.l. Xe₁′ que maximiza Var

( )

e₁′X com e₁′e₁=1

2a. Comp. Principal ⇒ c.l. e′₂X que maximiza Var

( )

e′₂X com e′₂e₂ =1 e cov

(

e₁′X e, ′₂X

)

=0 M

i-ésima Com. Principal ⇒ c.l. Xe₁′ que maximiza Var

( )

e′₁X com e′_ie_i =1 e

(

,

)

0

cove′_iX e′_jX = ∀ i < j

mudança de coordenadas

(2)

Teorema (Resultado 8.1)

Seja

∑

a matriz de var-cov. do vetor X′=

[

X₁,X₂,...,X_p

]

. Sejam

(

λ1,e1

) (

, λ2,e2

)

,...,

(

λp,ep

)

os pares de auto-valores e auto-vetores de

∑

, onde

0 ...

2

1 ≥λ ≥ ≥λp ≥

λ . A i-ésima componente é dada por:

, ... 1 1i pi p i i e X e X Y =eX= + + i = 1, 2, ..., p com essa escolha

( )

Yi i i i

V =e′

∑

e =λ

( )

, 0

covY_i Y_j =e′_i

∑

e_j = i≠ j

Maximização de formas quadráticas para pontos sobre a esfera unitária. Lema 2-51 (pag. 64. 65) 1 max =λ ′ ′

∑

≠ _e_e e e 0 e atingido quando e=e₁ Temos e₁′e₁ =1, então

( )

1 1 1 1 1 1 1 1 max = ′ =VarY ′ ′ = = ′ ′

∑

≠ _e_e e e e e e e e e 0 e λ Lema 2.52 (pág. 65) 1 1 ... ,2 max ₊ ⊥ ′ = ′

∑

λ e e e e e e 0 e k , k = 1. 2. ..., p-1 atingido quando e=e_k₊₁ Para a escolha de e=ek+1 e′k=1ek =0 k = 1. 2. ..., p-1

( )

1 1 1 1 1 1 1 1 + + + + + + = + _′ = ′ = ′ =

∑

k

∑

k k k k k k k e e Var Y e e e e λ Agora

( ) ( )

, 0 covY_i Y_j =e_i′

∑

e_j =e_i′λ_je_j =λ_je′_ie_j = ∀i≠ j Teorema (Resultado 8.2)

(3)

Seja X′=

[

X₁,X₂,...,X_p

]

com matriz de var-cov

∑

com pares de valroes e auto-vetores

(

λ_i,e_i

)

i = 1, 2, ...,p e λ₁≥λ₂ ≥...≥λ_p >0. Sejam Y₁,Y₂,...,Y_p as componentes principais. Então

( )

i p i p i p i pp Var X Var Y VarTOTAL

∑

= = = + + = = + + = 1 1 1 11 ... σ λ ... λ σ Prova:

( )

pp tr

∑

=σ11+...+σ

OBS.: Resultado 2-20 pag. 50

( ) i_p (p p) (p p)(p p) p p p i i p i P_× _× P_× × = ′ Λ = ′ =

∑ ∑

e e 1 1 1 λ P=

[

e1,...,ep

]

              = Λ p λ λ λ O M K L 0 0 0 0 2 1 I P P P P′ = ′= P′ é inversa de P e vice-versa. P - é ortogonal

( )

∑

=tr

(

PΛP′

) (

=tr ΛP′P

) ( )

=tr ΛI = tr

( )

Λ = + + = =tr λ ...1 λp

( )

_∑

( )

∑

= = = = p i i p i i tr VarY X Var 1 1

OBS.: det

( )

det

(

)

det

(

)

det

( )

( det

( )

)

1 Var Y P P P P i p i = = Λ = ′ Λ = ′ = =

∑

πλ conserva a variância generalizada Definimos: Decomposição Spectral

(4)

A proporção da variância total devida (explicada) pela i-ésima componente principal é

∑

= = + + + p i i i p i 1 2 1 ... λ λ λ λ λ λ e

∑

= = p i i k i i 1 1 λ λ

proporção explicada pelas k primeiras

componentes. OBS.:

1) em muitos casos a maioria da variância total (80 a 90%) é explicada pelas duas ou três primeiras componentes principais então essas componentes podem substituir as P variáveis originais.

2) como Y_i =e₁_iX₁+...+e_kiX_k +...+e_piX_p a magnitude de e mede a importância de k-_ki

ésima variável para a i-ésima componente principal.

3) Jolliffe (1972 e 1973) - critério de seleção: Rejeitar os componentes com dados artificiais reais variância < 0,70

TEOREMA (Resultado 8.3)

Se Y_i =e₁′ =e₁′X,...,Y_p =e′_pX são as componentes principais obtidas de

∑

, então

kk i ki k i e X Y σ λ ρ , = i, k = 1, 2, ...,p Prova:

[

0,...,0,1,0,...,0

]

= ′_k l ⇒ X_k =l′_k =l′_kX

(

Xk,Yi

)

=cov

(

l′kX,ei′X0

)

=l′k

_∑

ei cov i k i i i k e l e l′ = ′ = λ λ ki ie λ

= A covariância entre uma variável origina X e um componente principal k Y i

é o i-ésimo autovalor de

∑

vezes o k-ésimo elemento do i-ésimo autovetor de

∑

.

(

)

( ) ( )

kk i ki i kk ki i i k i k i k e e Y V X V Y X Y X σ λ λ σ λ ρ , = cov , = = Exemplo:

(5)

Suponha X=

[

X₁,X₂,X₃

]

com 17 , 0 0 , 2 83 , 5 2 0 0 0 5 2 0 2 1 3 2 1 = = = ⇒           − − =

∑

λ λ λ

(

)

(

)

(

0,924;0,383;0

)

1 , 0 , 0 0 ; 924 , 0 ; 383 , 0 3 2 1 = = − = ′ e e e     + = ′ = = ′ = − = ′ = 2 1 3 3 3 2 2 2 1 1 1 383 , 0 924 , 0 924 , 0 383 , 0 X X Y X Y X X Y X e X e X e Exercício

( ) (

Y

)

Var

( ) (

X

)

Var

(

)(

) ( )

Cov X

Var 0,383 1 0,9242 20,383 0,924

2

1 = + + −

( )

Y2 Var

( )

X3

Var =

( ) (

Y

)

Var

( ) (

X

)

Var

( ) (

X

)(

) ( )

Cov X

Var ₃ = 0,924 2 ₁ + 0,3832 ₂ +20,924 0,385

( )

Y₁ =5,85

V , V

( )

Y₂ =2,0 e V

( )

Y₃ =0,17 Proporção da Var Total Explicada por 0,724

3 2 1 1 1 =_λ ₊_λ ₊_λ = λ Y 250 , 0 3 2 1 2 2= _λ ₊_λ ₊_λ = λ Y 021 , 0 3 2 1 3 3 = _λ ₊_λ ₊_λ = λ Y

1) Neste caso as duas primeiras componentes principais podem substituir as três variáveis originais com "muito pouca" perda de informação

925 , 0 1 83 , 5 383 , 0 , 11 11 1 1 = = = σ λ ρ e i X Y 998 , 0 5 83 , 5 924 , 0 , 22 21 2 1 =− − = = σ λ ρ e i X Y 0,974

(6)

2) X e ₁ X são ambas, individualmente, igualmente importantes para a 1₂ a. a.p. Y ₁ 1 2 2 1 , 33 2 32 3 2 = ⋅ = = σ λ ρY X e (como esperava-se) OBS.:

1) As componentes principais Y₁ =e′₁X,...,Y_p =e′_pX estão nas direções dos eixos da elipsóide de densidade constante.

(

)

_∑

−

(

)

= − ′ − 1 ₂ c µµ µµ X X elipsóide centrada em µ i i c λλe ± eixos considere µµ=0 ( _{)( ) ( )( )}₁ ₁ 1 1 1 1 1 2 1 1 × × × = × − = ′ ′ =     ′ ′ = ′ =

∑

p p i p i p i i p p i i i i c X X X ee X X e e X λ λ

( )

(

)

2

( )

2 1 1 1 1 2 1 ... 1 1 X e X e X e_i _p p p i i ′ + + ′ = ′ =

∑

= λ λ λ 2 2 1 1 2 1 ... 1 p p Y Y c λ λ + + = (I)

(i) (I) define elipsóide com sistema de eixos Y₁,Y₂,...,Y_p que estão na direção

p e e ,...,₁

(

)

_∑

−

(

)

− ′ − = 1 2 µµ µµ X X c c2 =

(

X−µµ

)

′

∑

−1

(

X−µµ

)

Y1 X2 Y2 2 µ 1 µ X1 2 1 λ λ > X2 2 µ 1 µ X1 2 1 λ λ = Y2 _Y 1

(7)

COMPONENTES PRINCIPAIS OBTIDAS DAS VARIÁVEIS PADRONIZADAS

[

X1,X2,...,Xp

]

= X ⇒ Z=

[

Z ,...,₁ Z_p

]

onde ii i i i X Z σ µ − =

( )

(

−µµ

)

= − X Z V1/2 1               = pp V σ σ σ L M M M L L 0 0 0 0 0 0 22 11 2 / 1

( )

( ) ( )

    = = = ⇒

∑

− − ρ 1 2 / 1 1 2 / 1 ) cov( V V E Z 0 Z               = 1 1 1 2 1 2 12 1 12 L M M M L L p p p p ρ ρ ρ ρ ρ ρ ρ Teorema:

Seja Z′=

[

Z₁,Z ...,Z_p

]

um vetor de variáveis padronizadas com cov

( )

Z = ρ. Então (i) a i-ésima componente principal de Z é dada por =e′ =e′

( )

1/2 −1

(

X−µ

)

V Z y_i _i _i i = 1, 2, ..., p (ii)

( )

Y

( )

Z p p i i p i i

∑

= = = = 1 1 var var (iii) ρyi,yk =eki λi i, k = 1, 2, ..., p

(8)

Definição

A proporção da variância total (explicada) devida a i-ésima componente principal de Z é

p i λ i = 1, 2, ..., p s i′ λ autovalores de ρ. OBS.:

1) As componentes principais derivadas de

∑

não são as mesmas obtidas de ρ. As componentes principal são não-invariantes à troca em escala.

Exemplo: Pág. 363 (J-W) Exemplo 8.2 Discutir este exemplo

∑

      = * 100 4 4 1 16 , 100 1 = λ e₁′ =

(

0,040; 0,999

)

84 , 0 2 = λ e₂′ =

(

0,999; −0,040

)

Note: Grande parte da variância de X2, é completamente dominante da 1a. c. principal

(coef.= 0,999 > 0,04 de X1)    − = + = ⇒ 2 1 2 2 1 1 040 , 0 999 , 0 999 , 0 040 , 0 X X Y X X Y

( )

_      = = 1 4 , 0 4 , 0 1 ρ Z Cov 4 , 1 1 * = λ *

(

0,707; 0,707

)

1 = ′ e 6 , 0 2 * = λ *

(

0,707; 0,707

)

2 = − ′ e

(9)

     − = = + ⇒ + = ⇒ 2 1 2 * 2 * 1 * 1 2 1 1 707 , 0 707 , 0 7 , 0 707 , 0 707 , 0 Z Z Y Z Z Y λ λ λ 837 , 0 4 , 1 707 , 0 , * 1 11 1 1 = λ = = ρY Z e 837 , 0 4 , 1 707 , 0 , * 1 21 2 1 = λ = = ρY Z e OBS.:

1) Considere

∑

com a seguinte estrutura

(

)

(

)

(

0,0,...,1

)

0 ,..., 1 , 0 0 ,..., 0 , 1 0 0 0 0 0 0 0 0 0 2 1 22 2 11 1 22 11 = ′ = ′ = ′ ⇒ = = = ⇒               =

∑

p pp p pp e e e σ λ σ λ σ λ σ σ σ L M M M M L L p p p X Y X Y = ′ = = ′ = ⇒ 1 e1X 1,..., e X Λ =diag.

[ ]

σii ρ= I =

[

e1e2ep

]

O conjunto das componentes principais, Y₁,Y₂ e Y , são as próprias variáveis _p X₁,X₂,X_p

(não correlacionadas). Neste caso, não se ganha nada para extrair as C.P.

2) No caso anterior ρ=I e, além disso,

i i e e =1 ρ ⇒

(

0,0,...,1,...,0

)

1 = ′ p i e λ_i =1 i = 1, 2, ..., p i i i Z

Y* =e′Z= ß as próprias variáveis padronizadas

COMPONENTES PRINCIPAIS AMOSTRAIS

(10)

Então para qualquer j = 1, 2, ..., n, para a combinação e₁′X_j temos que

(i) E

( )

e₁′X_j =e₁′X

(ii) Var

( )

e₁′X_j =e₁′Se₁

(iii) cov

(

e₁′X_j,e′₂X_j

)

=e₁′Se₂

DEFINIÇÃO

As componentes principais como as combinações lineares com máxima variância, são não correlacionadas entre si.

RESULTADO Dada a a.a. , , , 1 1 2 1 1 n p p p X X

X obtida S =

[ ]

δij matriz de var-cov. Amostral e

( )

λˆi,eˆi ,

i = 1, 2, ..., p, os pares autovalores e autovetores de S. A i-ésima componente principal amostral é dada por

x e_i

i

yˆ =ˆ′ i = 1, 2, ..., p (são realizações das componentes principais populacional

X e_i

i

y = ′ ) e ainda

(i) Variância amostral

( )

yˆi =λˆi i = 1, 2, ..., p

(ii) V.T. Amostral = _p p i ii λ λ δ ˆ _... ˆ 1 1 + + =

∑

= (iii) kk i ki k i e x y r δ λˆ ˆ , ˆ = i, k = 1, 2, ..., p onde λˆ₁ ≥λˆ₂ ≥...≥λˆ_p e 1 x p é qualquer valor de X₁,X₂,...,X_n OBS.:

1) A variabilidade contida na amostra pode ser explicada pelas componentes principais.

2) As observações x são as vezes “centradas” na média X , isto é, tomamos _i x

x

x_i* = _j − , j = 1, 2, ..., n, mas isto não altera a matriz S

(i) = x =

∑

(

x −x

)

=0 = n j j n 1 * 1

(11)

(ii)

(

)(

)

S n n j j j = ′ − − −

∑

=1 * * * * 1 1 x x x x

(

)(

)

S n j n j j = ′ − − − =

∑

= x x x x 1 1 1 Para , ,..., *, 1 * 1 2 * 1 1 n p p p X X X

(

x x

)

e x e′ ′ = ′ − = i i i i i yˆ i = 1, 2, ..., p

( )

yi i Var =λ , i = 1, 2, ...,p

(

λ₁ ≥λ₂ ≥...≥λ_p ≥0

)

Exemplo: (pág. 369 (J-W), exemplo 8.3) P = 5 variáveis socio-econômicas N = 14 (séries, região) X1 = população total X = 4,32 (x 1000) 1 X2 = anos médio de escolaridade X = 14,01 2

X3 = total de empregos X = 1,95 (x 1000) 3 X4 = total de empregos no serv. Saúde X = 2,17 (x 100) 4 X5 = valor médio das casas X = 2,45 (US 10.000) 5 Considerando j-ésimo valor da i-ésima componente principal

j i ij y =e′X    = = n j p i ,..., 2 , 1 ,..., 2 , 1 j j j j j j X X X X X Y₁ =0,781 ₁ +0,306 ₂ +0,334 ₃ +0,426 ₄ −0,054 ₅ j j j j j j X X X X X Y₂ =−0,071 ₁ +0,764 ₂ +0,083 ₃ +0,579 ₄ −0,262 ₅ j j j j j j X X X X X Y₃ =0,004 ₁ −0,162 ₂ +0,015 ₃ −0,220 ₄ +0,962 ₅ j j j j j j X X X X X Y₄ =0,542 ₁ −0,545 ₂ +0,050 ₃ −0,636 ₄ −0,051 ₅ j j j j j j X X X X X Y₅ =−0,302 ₁ −0,010 ₂ +0,937 ₃ −0,173 ₄ +0,024 ₅ 931 , 6 ˆ ₌ i λ ; λˆ₂ =1,786; λˆ₃ =0,390 λˆ₄ =0,230; λˆ₅ =0,014

(12)

% 2 , 93 ˆ ˆ 2 1+ = VT λ λ

⇒ A variação amostral é bem resumida pelas duas componentes principais e uma redução nos dados de 14 observações sobre 5 variáveis para 14 observações sobre 2 componentes principais é razoável.

OBS.: análise dos coeficientes das componentes:

1) a primeira componente parece ser essencialmente uma média ponderada das quatro primeiras variáveis

2) a segunda c.p. parece ser um constraste entre empregos no serviço de saúde (X4) com uma média ponderada de anos médio de escolaridade (X2) e valor médio das casas (X5)

3) as vezes é preferível um estudo dessa natureza pelas correlações, já que com ela, evita-se o problema interpretativo causado pelas diferentes escalas de medidas. No presente caso as duas análises confirmam-se.

OBSERVAÇÕES PADRONIZADAS n X X X₁, ₂,..., ⇒ Z₁,Z₂,...,Z_n ; Z′_j =

(

z₁_j,z₂_j,...,z_pj

)

                − − = pp p pj ij j p x x x x δ δ M 11 1 1 Z

[

_n

]

n p Z = Z₁,Z₂,...,Z ⇒ Z=0 e R r r r r r r r r r S p p p p p =               = 1 1 1 3 2 1 2 23 12 1 12 11 L M L M M M L L Z RESULTADO:

Sejam Z₁,Z₂,...,Z_n as observações padronizadas com matriz var-cov R. Então (i) a i-ésima comp. Principal amostral é

% 4 , 97 ˆ ˆ ˆ 3 2 1+ + = VT λ λ λ

(13)

Z e_i

i

yˆ =ˆ′ i = 1, 2, ..., p

(ii) variâncias Amostral

( )

yˆ_i =λˆ_i i = 1, 2, ..., p

(iii) cov. Amostral

(

yˆ_i,yˆ_j

)

=0 ∀i≠ j =1,2,...,p

(iv) VT (Padronizada) Amostral

(

=λˆ₁ +λˆ₂ +...+λˆ_p = p

)

(v) ryˆ_i,z_k =eˆ_ki λˆ_i i, k = 1, 2, ..., p

onde

( )

λˆ_i,eˆ_i são (autovalores; autovetores) de R com

(

λˆ₁ ≥λˆ₂ ≥λˆ₃...≥λˆ_p >0

)

Seja P=

[

e₁,e₂,...,e_p

]

matriz dos autovetores de R e

              = Λ p λ λ λ O 2 1

matriz dos autovalores de R

2 / 1 , ˆ X =PΛ y R _i _K Note: Ry_i x_iR′y_i x_i =PΛ1/2Λ1/2P′ , ˆ , ˆ P PΛ ′ = = R

GRÁFICO DAS COMPONENTES PRINCIPAIS

OBS.: O gráfico das componentes principais pode ajudar a identificar observações “suspeitas” bem como no “check” da normalidade.

Para 1 j p x podemos escrever

( )

j

( )

j p p p p p j j x e e x e e x e e x ˆ ˆ ˆ₂ ˆ₂ ... ˆ ˆ 1 1 1 1 1 ′ + + ′ +       ′ = p pj j j y y yˆ₁ eˆ₁ + ˆ₂ eˆ₂ +...+ ˆ eˆ =

(i) è a magnitude das últimas c.p. determinam como as primeiras c.p.ajustam as observações, isto é, q qj j j y y yˆ₁ eˆ₁ + ˆ₂ eˆ₂ +...+ ˆ eˆ difere de x por _j

(14)

p pj q j q y yˆ ₁ eˆ ₁+...+ ˆ eˆ = + + (I) o (comprimento)2 de (I) é yˆ_q2₊₁_j +...+ yˆ_pj2

As observações suspeitas as vezes são tais que pelo menos uma das coordenadas

pj j

q y

yˆ ₊₁ ,...,ˆ contribuíram para este quadrado do comprimento ser grande. RESUMO:

1) Checar Normalidade à

(1.1) Construir diagramas de pontos para os pares das 1as. c.p. (1.2) Construir Q.Q. Plots dos valores amostrais geradas pelas c.p.

2) Observações suspeitas à

(2.1) Construir Q.Q. Plots e diagramas de pontos para as últimas c.p. Ler

Secção 8.4 e 8.5 Exercício

8.1, 8.2, 8.3, 8.6, 8.7, 8.11

DIAGNÓSTICO EM MODELOS DE REGRESSÃO MÚLTIPLA MULTIVARIADO Uma vez ajustado qualquer modelo por qualquer método de estimação considera-se:

( )1 ( ) ( )1 1 ˆ ˆ × × × ′ − = p j p j p j y Z â å j = 1, 2, ..., n

COMPONENTES PRINCIPAIS, DERIVADOS DA MATRIZ DE COVARIÂNCIA RESIDUAL

(

)(

)

∑

= − ′ − − N J J J J J p n 1 ˆ ˆ ˆ ˆ å å å å

Pode ser examinado da mesma forma que para uma a.a. os últimos autovalores ≈ 0 è existe dependência linear è usar alguns componentes principais como variáveis preditoras

Vetor de resíduo Vetor observações Vetor de valores preditos

(15)

INTERVALO DE CONFIANÇA PARA λ _I

(

n

)

N _I _I I ~ ,2 / ˆ λ λ2 λ

(

)

(

)

(

)

_      − ≤ ≤ +z n z n i i i / 2 2 / 1 ˆ / 2 2 / 1 ˆ α λ λ α λ