• Nenhum resultado encontrado

aula9 completa

N/A
N/A
Protected

Academic year: 2021

Share "aula9 completa"

Copied!
15
0
0

Texto

(1)

ANÁLISE DE COMPONENTES PRINCIPAIS OBJETIVOS:

- Explicar a estrutura de variância-covariância dos dados através de combinações lineares das variáveis originais.

- redução de dados (variáveis)

- muitas vezes é um passo intermediário em maiores investigações (compreender melhor a aproximação dos dados à análise de agrupamentos

COMPONENTES PRINCIPAIS POPULACIONAIS Seja X′=

[

X ,...,1 Xp

]

com matriz de var-cov

com auto-valores λ1λ2 ≥...≥λp >0

variáveis em "pé de igualdade" è não existe um conjunto que influência e outro que é influenciado. p p X X X Y1=l1X=l11 1+l21 2+... l+ 1 M p pp p p p p X X X Y =l′ X=l1 1+l2 2+...+l Temos

( )

Yi = ′i

i Var e e i = 1, 2, ..., p

( )

Yi,Yj =ei

ej cov i, j = 1,...,p

Componentes principais são as combinações lineares Yi,Y2,...,Yp tal que cov

( )

Yi,Yj =0 e

( )

Yi

Var tão grande quanto possível. Definimos:

1a. Comp. Principal ⇒ c.l. Xe1′ que maximiza Var

( )

e1X com e1e1=1

2a. Comp. Principal ⇒ c.l. e2X que maximiza Var

( )

e2X com e2e2 =1 e cov

(

e1X e, ′2X

)

=0 M

i-ésima Com. Principal ⇒ c.l. Xe1′ que maximiza Var

( )

e1X com eiei =1 e

(

,

)

0

coveiX ejX = ∀ i < j

mudança de coordenadas

(2)

Teorema (Resultado 8.1)

Seja

a matriz de var-cov. do vetor X′=

[

X1,X2,...,Xp

]

. Sejam

(

λ1,e1

) (

, λ2,e2

)

,...,

(

λp,ep

)

os pares de auto-valores e auto-vetores de

, onde

0 ...

2

1 ≥λ ≥ ≥λp

λ . A i-ésima componente é dada por:

, ... 1 1i pi p i i e X e X Y =eX= + + i = 1, 2, ..., p com essa escolha

( )

Yi i i i

V =e

e =λ

( )

, 0

covYi Yj =ei

ej = ij

Maximização de formas quadráticas para pontos sobre a esfera unitária. Lema 2-51 (pag. 64. 65) 1 max =λ ′ ′

ee e e 0 e atingido quando e=e1 Temos e1e1 =1, então

( )

1 1 1 1 1 1 1 1 max = ′ =VarY ′ ′ = = ′ ′

ee e e e e e e e e 0 e λ Lema 2.52 (pág. 65) 1 1 ... ,2 max + ⊥ ′ = ′

λ e e e e e e 0 e k , k = 1. 2. ..., p-1 atingido quando e=ek+1 Para a escolha de e=ek+1 ek=1ek =0 k = 1. 2. ..., p-1

( )

1 1 1 1 1 1 1 1 + + + + + + = + = ′ = ′ =

k

k k k k k k k e e Var Y e e e e λ Agora

( ) ( )

, 0 covYi Yj =ei

ej =eiλjej =λjeiej = ∀ij Teorema (Resultado 8.2)

(3)

Seja X′=

[

X1,X2,...,Xp

]

com matriz de var-cov

com pares de valroes e auto-vetores

(

λi,ei

)

i = 1, 2, ...,p e λ1λ2 ≥...≥λp >0. Sejam Y1,Y2,...,Yp as componentes principais. Então

( )

( )

i p i p i p i pp Var X Var Y VarTOTAL

= = = + + = = + + = 1 1 1 11 ... σ λ ... λ σ Prova:

( )

pp tr

=σ11+...+σ

OBS.: Resultado 2-20 pag. 50

( ) ip (p p) (p p)(p p) p p p i i p i P× × P× × = ′ Λ = ′ =

∑ ∑

e e 1 1 1 λ P=

[

e1,...,ep

]

              = Λ p λ λ λ O M K L 0 0 0 0 2 1 I P P P P′ = ′= P′ é inversa de P e vice-versa. P - é ortogonal

( )

=tr

(

PΛP

) (

=tr ΛPP

) ( )

=tr ΛI = tr

( )

Λ = + + = =tr λ ...1 λp

( )

( )

( )

= = = = p i i p i i tr VarY X Var 1 1

OBS.: det

( )

det

(

)

det

(

)

det

( )

( det

( )

)

1 Var Y P P P P i p i = = Λ = ′ Λ = ′ = =

πλ conserva a variância generalizada Definimos: Decomposição Spectral

(4)

A proporção da variância total devida (explicada) pela i-ésima componente principal é

= = + + + p i i i p i 1 2 1 ... λ λ λ λ λ λ e

= = p i i k i i 1 1 λ λ

proporção explicada pelas k primeiras

componentes. OBS.:

1) em muitos casos a maioria da variância total (80 a 90%) é explicada pelas duas ou três primeiras componentes principais então essas componentes podem substituir as P variáveis originais.

2) como Yi =e1iX1+...+ekiXk +...+epiXp a magnitude de e mede a importância de k-ki

ésima variável para a i-ésima componente principal.

3) Jolliffe (1972 e 1973) - critério de seleção: Rejeitar os componentes com dados artificiais reais variância < 0,70

TEOREMA (Resultado 8.3)

Se Yi =e1′ =e1X,...,Yp =epX são as componentes principais obtidas de

, então

kk i ki k i e X Y σ λ ρ , = i, k = 1, 2, ...,p Prova:

[

0,...,0,1,0,...,0

]

= ′k l ⇒ Xk =l′k =l′kX

(

Xk,Yi

)

=cov

(

l′kX,eiX0

)

=l′k

ei cov i k i i i k e l e l′ = ′ = λ λ ki ie λ

= A covariância entre uma variável origina X e um componente principal k Y i

é o i-ésimo autovalor de

vezes o k-ésimo elemento do i-ésimo autovetor de

.

(

)

( ) ( )

kk i ki i kk ki i i k i k i k e e Y V X V Y X Y X σ λ λ σ λ ρ , = cov , = = Exemplo:

(5)

Suponha X=

[

X1,X2,X3

]

com 17 , 0 0 , 2 83 , 5 2 0 0 0 5 2 0 2 1 3 2 1 = = = ⇒           − − =

λ λ λ

(

)

(

)

(

0,924;0,383;0

)

1 , 0 , 0 0 ; 924 , 0 ; 383 , 0 3 2 1 = = − = ′ e e e     + = ′ = = ′ = − = ′ = 2 1 3 3 3 2 2 2 1 1 1 383 , 0 924 , 0 924 , 0 383 , 0 X X Y X Y X X Y X e X e X e Exercício

( ) (

Y

)

Var

( ) (

X

)

Var

(

)(

) ( )

Cov X

Var 0,383 1 0,9242 20,383 0,924

2

1 = + + −

( )

Y2 Var

( )

X3

Var =

( ) (

Y

)

Var

( ) (

X

)

Var

( ) (

X

)(

) ( )

Cov X

Var 3 = 0,924 2 1 + 0,3832 2 +20,924 0,385

( )

Y1 =5,85

V , V

( )

Y2 =2,0 e V

( )

Y3 =0,17 Proporção da Var Total Explicada por 0,724

3 2 1 1 1 =λ +λ +λ = λ Y 250 , 0 3 2 1 2 2= λ +λ +λ = λ Y 021 , 0 3 2 1 3 3 = λ +λ +λ = λ Y

1) Neste caso as duas primeiras componentes principais podem substituir as três variáveis originais com "muito pouca" perda de informação

925 , 0 1 83 , 5 383 , 0 , 11 11 1 1 = = = σ λ ρ e i X Y 998 , 0 5 83 , 5 924 , 0 , 22 21 2 1 =− − = = σ λ ρ e i X Y 0,974

(6)

2) X e 1 X são ambas, individualmente, igualmente importantes para a 12 a. a.p. Y 1 1 2 2 1 , 33 2 32 3 2 = ⋅ = = σ λ ρY X e (como esperava-se) OBS.:

1) As componentes principais Y1 =e1X,...,Yp =epX estão nas direções dos eixos da elipsóide de densidade constante.

(

)

(

)

= − ′ − 1 2 c µµ µµ X X elipsóide centrada em µ i i c λλe ± eixos considere µµ=0 ( )( ) ( )( )1 1 1 1 1 1 1 2 1 1 × × × = × − = ′ ′ =     ′ ′ = ′ =

p p i p i p i i p p i i i i c X X X ee X X e e X λ λ

( )

(

)

2

( )

2 1 1 1 1 2 1 ... 1 1 X e X e X ei p p p i i ′ + + ′ = ′ =

= λ λ λ 2 2 1 1 2 1 ... 1 p p Y Y c λ λ + + = (I)

(i) (I) define elipsóide com sistema de eixos Y1,Y2,...,Yp que estão na direção

p e e ,...,1

(

)

(

)

− ′ − = 1 2 µµ µµ X X c c2 =

(

Xµµ

)

−1

(

Xµµ

)

Y1 X2 Y2 2 µ 1 µ X1 2 1 λ λ > X2 2 µ 1 µ X1 2 1 λ λ = Y2 Y 1

(7)

COMPONENTES PRINCIPAIS OBTIDAS DAS VARIÁVEIS PADRONIZADAS

[

X1,X2,...,Xp

]

= XZ=

[

Z ,...,1 Zp

]

onde ii i i i X Z σ µ − =

( )

(

µµ

)

= − X Z V1/2 1               = pp V σ σ σ L M M M L L 0 0 0 0 0 0 22 11 2 / 1

( )

( ) ( )

    = = = ⇒

− − ρ 1 2 / 1 1 2 / 1 ) cov( V V E Z 0 Z               = 1 1 1 2 1 2 12 1 12 L M M M L L p p p p ρ ρ ρ ρ ρ ρ ρ Teorema:

Seja Z′=

[

Z1,Z ...,Zp

]

um vetor de variáveis padronizadas com cov

( )

Z = ρ. Então (i) a i-ésima componente principal de Z é dada por =e′ =e

( )

1/2 −1

(

Xµ

)

V Z yi i i i = 1, 2, ..., p (ii)

( )

Y

( )

Z p p i i p i i

= = = = 1 1 var var (iii) ρyi,yk =eki λi i, k = 1, 2, ..., p

(8)

Definição

A proporção da variância total (explicada) devida a i-ésima componente principal de Z é

p i λ i = 1, 2, ..., p s iλ autovalores de ρ. OBS.:

1) As componentes principais derivadas de

não são as mesmas obtidas de ρ. As componentes principal são não-invariantes à troca em escala.

Exemplo: Pág. 363 (J-W) Exemplo 8.2 Discutir este exemplo

      = * 100 4 4 1 16 , 100 1 = λ e1′ =

(

0,040; 0,999

)

84 , 0 2 = λ e2′ =

(

0,999; −0,040

)

Note: Grande parte da variância de X2, é completamente dominante da 1a. c. principal

(coef.= 0,999 > 0,04 de X1)    − = + = ⇒ 2 1 2 2 1 1 040 , 0 999 , 0 999 , 0 040 , 0 X X Y X X Y

( )

     = = 1 4 , 0 4 , 0 1 ρ Z Cov 4 , 1 1 * = λ *

(

0,707; 0,707

)

1 = ′ e 6 , 0 2 * = λ *

(

0,707; 0,707

)

2 = − ′ e

(9)

     − = = + ⇒ + = ⇒ 2 1 2 * 2 * 1 * 1 2 1 1 707 , 0 707 , 0 7 , 0 707 , 0 707 , 0 Z Z Y Z Z Y λ λ λ 837 , 0 4 , 1 707 , 0 , * 1 11 1 1 = λ = = ρY Z e 837 , 0 4 , 1 707 , 0 , * 1 21 2 1 = λ = = ρY Z e OBS.:

1) Considere

com a seguinte estrutura

(

)

(

)

(

0,0,...,1

)

0 ,..., 1 , 0 0 ,..., 0 , 1 0 0 0 0 0 0 0 0 0 2 1 22 2 11 1 22 11 = ′ = ′ = ′ ⇒ = = = ⇒               =

p pp p pp e e e σ λ σ λ σ λ σ σ σ L M M M M L L p p p X Y X Y = ′ = = ′ = ⇒ 1 e1X 1,..., e X Λ =diag.

[ ]

σii ρ= I =

[

e1e2ep

]

O conjunto das componentes principais, Y1,Y2 e Y , são as próprias variáveis p X1,X2,Xp

(não correlacionadas). Neste caso, não se ganha nada para extrair as C.P.

2) No caso anterior ρ=I e, além disso,

i i e e =1 ρ

(

0,0,...,1,...,0

)

1 = ′ p i e λi =1 i = 1, 2, ..., p i i i Z

Y* =eZ= ß as próprias variáveis padronizadas

COMPONENTES PRINCIPAIS AMOSTRAIS

(10)

Então para qualquer j = 1, 2, ..., n, para a combinação e1Xj temos que

(i) E

( )

e1Xj =e1X

(ii) Var

( )

e1Xj =e1Se1

(iii) cov

(

e1Xj,e2Xj

)

=e1Se2

DEFINIÇÃO

As componentes principais como as combinações lineares com máxima variância, são não correlacionadas entre si.

RESULTADO Dada a a.a. , , , 1 1 2 1 1 n p p p X X

X obtida S =

[ ]

δij matriz de var-cov. Amostral e

( )

λˆi,i ,

i = 1, 2, ..., p, os pares autovalores e autovetores de S. A i-ésima componente principal amostral é dada por

x ei

i

yˆ =ˆ′ i = 1, 2, ..., p (são realizações das componentes principais populacional

X ei

i

y = ′ ) e ainda

(i) Variância amostral

( )

yˆi =λˆi i = 1, 2, ..., p

(ii) V.T. Amostral = p p i ii λ λ δ ˆ ... ˆ 1 1 + + =

= (iii) kk i ki k i e x y r δ λˆ ˆ , ˆ = i, k = 1, 2, ..., p onde λˆ1λˆ2 ≥...≥λˆp e 1 x p é qualquer valor de X1,X2,...,Xn OBS.:

1) A variabilidade contida na amostra pode ser explicada pelas componentes principais.

2) As observações x são as vezes “centradas” na média X , isto é, tomamos i x

x

xi* = j − , j = 1, 2, ..., n, mas isto não altera a matriz S

(i) = x =

(

xx

)

=0 = n j j n 1 * 1

(11)

(ii)

(

)(

)

S n n j j j = ′ − − −

=1 * * * * 1 1 x x x x

(

)(

)

S n j n j j = ′ − − − =

= x x x x 1 1 1 Para , ,..., *, 1 * 1 2 * 1 1 n p p p X X X

(

x x

)

e x e′ ′ = ′ − = i i i i i i = 1, 2, ..., p

( )

yi i Var =λ , i = 1, 2, ...,p

(

λ1λ2 ≥...≥λp ≥0

)

Exemplo: (pág. 369 (J-W), exemplo 8.3) P = 5 variáveis socio-econômicas N = 14 (séries, região) X1 = população total X = 4,32 (x 1000) 1 X2 = anos médio de escolaridade X = 14,01 2

X3 = total de empregos X = 1,95 (x 1000) 3 X4 = total de empregos no serv. Saúde X = 2,17 (x 100) 4 X5 = valor médio das casas X = 2,45 (US 10.000) 5 Considerando j-ésimo valor da i-ésima componente principal

j i ij y =eX    = = n j p i ,..., 2 , 1 ,..., 2 , 1 j j j j j j X X X X X Y1 =0,781 1 +0,306 2 +0,334 3 +0,426 4 −0,054 5 j j j j j j X X X X X Y2 =−0,071 1 +0,764 2 +0,083 3 +0,579 4 −0,262 5 j j j j j j X X X X X Y3 =0,004 1 −0,162 2 +0,015 3 −0,220 4 +0,962 5 j j j j j j X X X X X Y4 =0,542 1 −0,545 2 +0,050 3 −0,636 4 −0,051 5 j j j j j j X X X X X Y5 =−0,302 1 −0,010 2 +0,937 3 −0,173 4 +0,024 5 931 , 6 ˆ = i λ ; λˆ2 =1,786; λˆ3 =0,390 λˆ4 =0,230; λˆ5 =0,014

(12)

% 2 , 93 ˆ ˆ 2 1+ = VT λ λ

⇒ A variação amostral é bem resumida pelas duas componentes principais e uma redução nos dados de 14 observações sobre 5 variáveis para 14 observações sobre 2 componentes principais é razoável.

OBS.: análise dos coeficientes das componentes:

1) a primeira componente parece ser essencialmente uma média ponderada das quatro primeiras variáveis

2) a segunda c.p. parece ser um constraste entre empregos no serviço de saúde (X4) com uma média ponderada de anos médio de escolaridade (X2) e valor médio das casas (X5)

3) as vezes é preferível um estudo dessa natureza pelas correlações, já que com ela, evita-se o problema interpretativo causado pelas diferentes escalas de medidas. No presente caso as duas análises confirmam-se.

OBSERVAÇÕES PADRONIZADAS n X X X1, 2,..., ⇒ Z1,Z2,...,Zn ; Zj =

(

z1j,z2j,...,zpj

)

                − − = pp p pj ij j p x x x x δ δ M 11 1 1 Z

[

n

]

n p Z = Z1,Z2,...,ZZ=0 e R r r r r r r r r r S p p p p p =               = 1 1 1 3 2 1 2 23 12 1 12 11 L M L M M M L L Z RESULTADO:

Sejam Z1,Z2,...,Zn as observações padronizadas com matriz var-cov R. Então (i) a i-ésima comp. Principal amostral é

% 4 , 97 ˆ ˆ ˆ 3 2 1+ + = VT λ λ λ

(13)

Z ei

i

yˆ =ˆ′ i = 1, 2, ..., p

(ii) variâncias Amostral

( )

yˆi =λˆi i = 1, 2, ..., p

(iii) cov. Amostral

(

yˆi,yˆj

)

=0 ∀ij =1,2,...,p

(iv) VT (Padronizada) Amostral

(

=λˆ1 +λˆ2 +...+λˆp = p

)

(v) ryˆi,zk =eˆki λˆi i, k = 1, 2, ..., p

onde

( )

λˆi,i são (autovalores; autovetores) de R com

(

λˆ1λˆ2λˆ3...≥λˆp >0

)

Seja P=

[

e1,e2,...,ep

]

matriz dos autovetores de R e

              = Λ p λ λ λ O 2 1

matriz dos autovalores de R

2 / 1 , ˆ X =PΛ y R i K Note: Ryi xiRyi xi =PΛ1/2Λ1/2P′ , ˆ , ˆ P PΛ ′ = = R

GRÁFICO DAS COMPONENTES PRINCIPAIS

OBS.: O gráfico das componentes principais pode ajudar a identificar observações “suspeitas” bem como no “check” da normalidade.

Para 1 j p x podemos escrever

( )

j

( )

j p p p p p j j x e e x e e x e e x ˆ ˆ ˆ2 ˆ2 ... ˆ ˆ 1 1 1 1 1 ′ + + ′ +       ′ = p pj j j y y yˆ1 eˆ1 + ˆ2 eˆ2 +...+ ˆ eˆ =

(i) è a magnitude das últimas c.p. determinam como as primeiras c.p.ajustam as observações, isto é, q qj j j y y yˆ1 eˆ1 + ˆ2 eˆ2 +...+ ˆ eˆ difere de x por j

(14)

p pj q j q y yˆ 1 eˆ 1+...+ ˆ eˆ = + + (I) o (comprimento)2 de (I) é yˆq2+1j +...+ yˆpj2

As observações suspeitas as vezes são tais que pelo menos uma das coordenadas

pj j

q y

yˆ +1 ,...,ˆ contribuíram para este quadrado do comprimento ser grande. RESUMO:

1) Checar Normalidade à

(1.1) Construir diagramas de pontos para os pares das 1as. c.p. (1.2) Construir Q.Q. Plots dos valores amostrais geradas pelas c.p.

2) Observações suspeitas à

(2.1) Construir Q.Q. Plots e diagramas de pontos para as últimas c.p. Ler

Secção 8.4 e 8.5 Exercício

8.1, 8.2, 8.3, 8.6, 8.7, 8.11

DIAGNÓSTICO EM MODELOS DE REGRESSÃO MÚLTIPLA MULTIVARIADO Uma vez ajustado qualquer modelo por qualquer método de estimação considera-se:

( )1 ( ) ( )1 1 ˆ ˆ × × × ′ − = p j p j p j y Z â å j = 1, 2, ..., n

COMPONENTES PRINCIPAIS, DERIVADOS DA MATRIZ DE COVARIÂNCIA RESIDUAL

(

)(

)

= − ′ − − N J J J J J p n 1 ˆ ˆ ˆ ˆ å å å å

Pode ser examinado da mesma forma que para uma a.a. os últimos autovalores ≈ 0 è existe dependência linear è usar alguns componentes principais como variáveis preditoras

Vetor de resíduo Vetor observações Vetor de valores preditos

(15)

INTERVALO DE CONFIANÇA PARA λ I

(

n

)

N I I I ~ ,2 / ˆ λ λ2 λ

(

)

(

)

(

(

)

)

      − ≤ ≤ +z n z n i i i / 2 2 / 1 ˆ / 2 2 / 1 ˆ α λ λ α λ

Referências

Documentos relacionados

O governo, meditando sobre os limites à política de consenso no bloco majoritário, poderá retomar de forma menos ambígua os seus compromissos de campanha, resolver

Porém, confesso que só mais tarde, talvez já no decorrer do Mestrado, me dei conta que a História da Arte – e, porventura, qualquer outro curso, mas sobre esses não me cabe

Nos termos do art.º 541, a propriedade das garrafas de qualquer maneira não se transmitem antes de Teresa entregar as garrafas.. Transmitida a propriedade transfere-se o risco

1) Assinale com um X as alternativas que registram erroneamente a expressão “Não ter nada a ver com”. a) As palavras “concerto” e “conserto” nada têm haver

A estratégia para obtenção de receitas não tarifárias.

Cristina Scheibe Wolff possui graduação em História pela Universidade Federal de Santa Catarina (1988), mestrado em História pela Pontifícia Universidade Católica de São Paulo (1991)

Mover (ou não) as linhas de base: as consequências da elevação do nível dos oceanos sobre as zonas marítimas dos pequenos estados insulares em desenvolvimento e as alternativas

A digestão de lipídios ocorre no intestino delgado, em pH alcalino, através da ação de enzimas produzidas no pân- creas, as lipases pancreáticas, que quebram