• Nenhum resultado encontrado

Aula11

N/A
N/A
Protected

Academic year: 2021

Share "Aula11"

Copied!
21
0
0

Texto

(1)

ANÁLISE DE COMPONENTES PRINCIPAIS

A análise de componentes principais (A.C.P) é uma técnica de análise multiva-riada que consiste em explicar uma estrutura de variâncias e covariâncias complicada de conjunto de variáveis através de poucas combinações lineares dessas próprias va-riáveis, com o objetivo de reduzir a dimensionalidade do conjunto de variáveis e fa-cilitar a interpretação da interdependências entre elas.

SITUAÇÃO: Observamos as variáveis X1, X2, ..., X em cada um de n indivíduos p ou unidades experimentais. Este conjunto de n x p medidas origina uma matriz de dados X (nxp), como apresentada no Quadro 1.

Quadro 1. Matriz de dados de n indivíduos e p variáveis. Variáveis Indivíduo 1 X X2 ... Xi ... X p 1 X11 X21 ... Xi1 ... X p1 2 X12 X22 ... Xi2 ... Xp2 M M M M M j X 1j X 2j ... X ij ... X pj M M M M M n X1n X2n ... Xin ... Xpn

Embora sejam necessários p componentes para reproduzir a variabilidade total do sis tema, muitas vezes muito dessa variabilidade pode ser explicada por número pequeno de k (k < p) componentes principais. Nesses casos, os k componentes podem substituir as p variáveis originais, e o conjunto original de dados é reduzido para um conjunto consistindo de n medidas feitas em k componentes principais.

Vale salientar que a ACP é um passo intermediário em muitas investigações, como por exemplo, na regressão múltipla, análise de agrupamentos (cluster analysis) etc.

(2)

ALGUNS CENÁRIOS DE APLICAÇÃO DA TÉCNICA DE ANÁLISE DE COMPONENTES PRINCIPAIS:

ver: SHARMA, S. Applied multivariate techniques. New York: John Wiley, 1996, 493p.

• Um analista financeiro está interessado em determinar a saúde financeira de algu-mas empresas. Algualgu-mas pesquisas identificaram um grande número de taxas ou ín-dices econômicos/financeiros que podem ser utilizados para esse propósito. O ana-lista, ao invés de interpretar toda a informação de todos esses índices, pretende re-duzí-los a poucos índices que sejam combinações lineares dos índices originais e usá-los no seu estudo.

• O departamento de controle de qualidade está interessado em desenvolver alguns (poucos!) índices para estudar numerosas características com informações sobre o processo de manufatura, com o intuito de determinar se o processo está ou não sob controle.

• Um diretor de marketing está interessado em desenvolver um modelo de regressão para fazer previsões de vendas. Entretanto, as variáveis independentes considera-das são correlacionaconsidera-das entre si e a existência de multicolinearidade entre elas pode resultar em estimativas instáveis do modelo de regressão. Neste caso, seria extremamente útil obter novas variáveis, que sejam combinações lineares das va-riáveis originais, mas não correlacionadas entre si. E essas novas vava-riáveis poderão ser usadas para desenvolver o modelo de regressão.

A análise de componentes principais (ACP) é uma técnica para criar novas

variáveis que são combinações lineares das variáveis originais. O número máximo de novas variáveis é igual ao número de variáveis originais e as novas variáveis não são

correlacionadas entre si.

ASPECTOS GEOMÉTRICOS DA ANÁLISE DE COMPONENTES PRIN-CIPAIS

A Tabela 1 apresenta um pequeno conjunto de dados consistindo de 12 obser-vações e duas variáveis. Apresenta também a matriz de covariâncias e de correlações amostrais. Podemos ver que as variâncias das variáveis x1 e x2 são 23,091 e 21,091, respectivamente e que a variância total das duas variáveis é igual a 44,182 (isto é, 23,091 + 21,091). Também x1 e x2 são correlacionadas, com um coeficiente de cor-relação igual a 0,746. As porcentagens da variância total explicadas por x1 e x2 são, respectivamente, 52,26% e 47,74%.

(3)

Tabela 1. Dados originais e corrigidos pela média

Variável x1 Variável x2

Observação Original

Corrigida

pela média Original

Corrigida pela média 1 16 8 8 5 2 12 4 10 7 3 13 5 6 3 4 11 3 2 –1 5 10 2 8 5 6 9 1 –1 –4 7 8 0 4 1 8 7 –1 6 3 9 5 –3 –3 –6 10 3 –5 –1 –4 11 2 –6 –3 –6 12 0 –8 0 –3 Média 8 0 3 0 Variância 23,091 23,091 21,091 21,091

Como mostrado na Figura 1, seja X1 um novo eixo no espaço bidimensional fazendo um ângulo de θ graus com o eixo X1. A projeção de cada ponto em X1∗ dará as coor-denadas dessas observações com respeito a X1∗.

X1 X2 -10 -8 -6 -4 -2 0 2 4 6 8 10 -10 -8 -6 -4 -2 0 2 4 6 8 10 X1* θ

(4)

A coordenada das observações com respeito ao novo eixo X1∗ é uma combina-ção linear das coordenadas (antigas) do ponto com respeito aos eixos originais. Isto é:

1

x = x1cos(θ) + x2sen(θ)

onde x1∗é a coordenada na observação com respeito a X1∗, e x1 e x2, as coordenadas das observações com respeito aos eixos X1 e X2, respectivamente.

Por exemplo, para θ = 10°, a equação para a combinação linear é

1

x = 0,985x1 + 0,174x2

que pode ser usada para obter as novas coordenadas das observações com respeito ao novo eixo X1∗.

Tabela 2. Dados corrigidos pela média e a nova variável (x1∗) para uma rotação de 10° Observação x1 x2 x1∗ 1 8 5 8,747 2 4 7 5,155 3 5 3 5,445 4 3 –1 2,781 5 2 5 2,838 6 1 –4 0,290 7 0 1 0,174 8 –1 3 −0,464 9 –3 –6 −3,996 10 –5 –4 −5,619 11 –6 –6 −6,951 12 –8 –3 −8,399 Média 0 0 0 Variância 23,091 21,091 28,659

A partir das coordenadas dos pontos com respeito a esse novo eixo (Tabela 2) pode-se perceber que:

i) a nova variável também está corrigida pela média (i.e. sua média é igual a zero); ii) a variância de x1∗ é 28,659 e explica 64,87% (= 28,659/44,182) da variância total

dos dados. Essa porcentagem é superior à porcentagem da variância explicada por qualquer uma das variáveis originais.

(5)

Fazendo variar o ângulo entre X1 e X1∗, vamos obter valores diferentes para as coordenadas x1∗. A Tabela 3 apresenta as variâncias e as porcentagens explicadas pe-las novas coordenadas x1∗ (em relação à variância total de 44,182), para diferentes ângulos θ.

Tabela 3. Porcentagem explicada pelas novas variáveis x1∗ para vários novos eixos

Ângulo (θθ) Variância de 1 x % 0 23.091 52.263 10 28.659 64.866 20 33.434 75.676 30 36.841 83.387 40 38.469 87.072 43,261 38.576 87.312 50 38.122 86.282 60 35.841 81.117 70 31.902 72.195 80 26.779 60.597 90 21.091 47.772 Ângulo Porcentagem 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90

(6)

Pela Tabela 3 e pela Figura 2, podemos ver que a porcentagem da variância ex-plicada aumenta até o ângulo θ = 43,261° e depois desse valor máximo, a porcenta-gem da variância explicada por x1∗ começa a diminuir. A equação correspondente a esse ângulo, a ser usada para calcular as novas coordenadas é

1

x = 0,728x1 + 0,685x2

Note que x1∗ não explica toda a variabilidade dos dados. É possível identificar um segundo eixo que corresponde a uma segunda nova variável que explique o máxi-mo da variância que não foi explicada por x1∗. Se o ângulo entre X1 e X1∗ é θ, o ângulo entre e X∗2 também será θ e a combinação linear para x∗2 será

2

x = − x1 sen(θ) + x2cos(θ) e para θ = 43, 261° a equação anterior fica

2

x = − 0,685x1 + 0,728x2

Tabela 4. Dados corrigidos pela média e x1 e x∗2para o novo eixo e θ = 43, 261°

Observação x1 x2 x1∗ x∗2 1 8 5 9,253 –1,841 2 4 7 7,710 2,356 3 5 3 5,697 –1,242 4 3 –1 1,499 –2,784 5 2 5 4,883 2,271 6 1 –4 –2,013 –3,598 7 0 1 0,685 0,728 8 –1 3 1,328 2,870 9 –3 –6 –6,297 –2,313 10 –5 –4 –6,382 0,514 11 –6 –6 –8,481 –0,257 12 –8 –3 –7,882 3,298 Média 0 0 0 0 Variância 23,091 21,091 38,576 5,606

A partir da Tabela 4 e Figura 3, podemos fazer as seguintes observações:

i) A orientação ou a configuração dos pontos ou observações no espaço bidimen-sional não se altera. As observações podem, entretanto, ser representadas com respeito aos eixos originais e aos novos eixos.

(7)

ii) As projeções dos pontos sobre os eixos originais fornecem os valores das variáve-is originavariáve-is e as projeções dos pontos sobre os novos eixos fornecem os valores das novas variáveis. Os novos eixos ou as novas variáveis são chamados compo-nentes principais e os valores das novas variáveis são chamados de escores dos componentes principais.

iii) As novas variáveis (x1∗ e x∗2) são combinações lineares das variáveis originais e permanecem corrigidas pela média.

iv) A variância total das novas variáveis é igual a das variáveis originais (44,182), ou seja, não se altera com a combinação linear sugerida.

v) As porcentagens da variância total explicada por x1∗ e x∗2 são, respectivamente, 87,31% (= 38,576/44,182) e 12,69% (= 5,606/44,182). A porcentagem explicada pela primeira nova variável, x1, é maior que a porcentagem explicada por qual-quer uma das variáveis originais. A segunda nova variável explica a variância que não foi explicada pela primeira nova variável. As duas novas variáveis explicam toda a variância dos dados.

vi) A correlação entre as duas novas variáveis é zero, isto é, x1∗ e x∗2 não são corre-lacionadas. X1 X2 -10 -8 -6 -4 -2 0 2 4 6 8 10 -10 -8 -6 -4 -2 0 2 4 6 8 10 X1* X2*

Figura 3. Gráfico dos dados corrigidos pela média e novos eixos

OBS: Essa ilustração geométrica desenvolvida para os componentes principais pode

(8)

A técnica de análise de componentes principais pode ser vista como uma técni-ca para reduzir a dimensão dos dados originais, já que um número pequeno de

com-ponentes principais pode explicar uma grande porcentagem da variabilidade original

dos dados.

Geometricamente, o objetivo principal da análise de componentes principais é identificar um novo conjunto de eixos ortogonais tais que:

1. As coordenadas das observações com respeito a cada um dos eixos fornece os valores das novas variáveis. Os novos eixos ou novas variáveis são chamados

componentes principais e os valores das novas variáveis são chamados de escores dos componentes principais.

2. Cada nova variável é uma combinação linear das variáveis originais.

3. A primeira nova variável (primeiro componente principal) explica o máximo da variância dos dados.

4. A segunda nova variável (segundo componente principal) explica o máximo da variância que não foi explicada pela primeira nova variável ... e a p-ésima nova variável explica a variância que não foi explicada pelas p − 1 primeiras novas va-riáveis.

5. As p novas variáveis não são correlacionadas.

COMPONENTES PRINCIPAIS POPULACIONAIS

Algebricamente, os componentes principais são combinações lineares particu-lares das p variáveis aleatórias X1, X2, ..., X . Geometricamente, essas combina-p ções representam a seleção de novos sistemas de coordenadas obtidos pela rotação do sistema original que tem X1, X2, ..., X como eixos das coordenadas. Os novos p eixos representam as direções com máxima variabilidade e fornecem uma descrição simples e parcimoniosa da estrutura de covariâncias (e a correspondente interdepen-dência entre as variáveis).

Os componentes principais dependem somente da estrutura de covariâncias ΣΣ (ou da matriz de correlações ρρ). O desenvolvimento da análise não requer uma supo-sição de normalidade multivariada. Por outro lado, os componentes principais deriva-dos para populações com distribuição normal multivariada têm interpretações úteis em termos de elipsóides de confiança, além da possibilidade de se fazer algumas infe-rências sobre os componentes amostrais.

Seja o vetor aleatório X' = [X1, X2, ..., X ] que tem matriz de covariâncias p ΣΣ com autovalores λ1 ≥ λ2 ... ≥ λp ≥ 0. Considere as combinações lineares

(9)

1 Y = a1tX = a11 X1+ a12 X2 + ... + a1p X p 2 Y = a2tX = a21X1+ a22X2 + ... + a2pX p x x xx xx (8.1) p Y = a X = pt ap1X1+ ap2 X2 + ... + app X p Então: Var(Yi) = ait ΣΣai i = 1, 2, ..., p (8.2) Cov (Yi,Yk) = ait ΣΣak, i ≠ k = 1, 2, ..., p (8.3)

Resultado 8.1. Seja ΣΣ a matriz de covariâncias associada ao vetor aleatório X' = [X1, X2, ..., X ]. Seja p ΣΣ com os pares autovalor-autovetor (λi, ei), para i = 1, 2, ..., p, onde λ1 ≥ λ2 ... ≥ λp 0. Então o i-ésimo componente principal é dado por:

Yi =eit X = ei1X1+ ei2X2+ ... + eipXp, i = 1, 2, ..., p (8.4) com essas características:

Var(Yi) = eit ΣΣei e Cov (Yi,Yk) = eit ΣΣek = 0, para i ≠ k (8.5) (ver Prova na página 460)

Resultado 8.2. Seja X' = [X1, X2, ..., X ] com matriz de covariâncias p ΣΣ e com pares autovalor-autovetor (λi, ei), para i = 1, 2, ..., p onde λ1 ≥ λ2 ... ≥ λp ≥ 0. Sejam Y1 =e1t X, Y2 =e2t X, ..., Y =p ept X os componentes principais. Então

11 σ + σ22 +... + σpp =

= p 1 i i) X ( Var = λ1 + λ2 + ... + λp =

= p 1 i i) Y ( Var (ver prova na pág. 461) Desse resultado, podemos calcular a proporção da variância total devida (ou explicada) pelo i-ésimo componente principal através da fórmula

p 2 1 i λ + + λ + λ λ L i = 1, 2, ..., p (8.7) Em situações ideais, 80-90% da variância total, para grandes valores de p, pode ser explicada por 1, 2 ou 3 componentes principais e então, esses componentes podem

(10)

Cada componente do vetor de coeficientes eit = [ei1+ ei2+ ... + e ] deve ser ip inspecionado, já que a magnitude de eik avalia a importância da k-ésima variável no i-ésimo componente principal. Em particular, eiké proporcional ao coeficiente de correlação entre Yi e Xk.

Resultado 8.3. Se Y1 =e1t X, Y2 =e2t X, ..., Y =p ept X são os componentes prin-cipais obtidos da matriz de covariâncias ΣΣ, então

k i,X Y ρ = kk i ik e σ λ , i, k = 1, 2, ..., p (8.8) são os coeficientes de correlação entre os componentes Yi e as variáveis Xk.

(ver prova na pág. 462) Embora as correlações entre as variáveis com os componentes principais auxi-liem, muitas vezes, a interpretação dos componentes, eles medem somente a contri-buição univariada de uma variável X a um componente Y. Eles não indicam a impor-tância de uma variável X em um componente Y na presença das outras variáveis X.

Alguns estatísticos recomendam que somente os coeficientes eike não as corre-lações sejam usadas para interpretar os componentes. Embora essas duas abordagens possam levar a conclusões diferentes sobre a importância das variáveis, JOHNSON & WICHERN (1999) afirmaram que elas não são apreciavelmente diferentes.

Na prática, variáveis com coeficientes relativamente grandes (em valor absolu-to) tendem a ter correlações relativamente grandes, de tal maneira que as duas medi-das de importância, a primeira multivariada e a segunda univariada, apresentem re-sultados similares. A recomendação é que ambos (coeficientes dos autovetores e coe-ficientes de correlação) sejam examinados para auxiliar na interpretação dos compo-nentes principais.

Exemplo 8.1 (pág. 462-463)

Suponha que as variáveis aleatórias X1, X2 e X3 tenham a seguinte matriz de

covariâncias ΣΣ =           − − 2 0 0 0 5 2 0 2 1

(11)

1 λ = 5.83 e e1t = [0.383, -0.924, 0] 2 λ = 2.00 e et2 = [0, 0, 1] 3 λ = 0.17 e et3 = [0.924, 0.383, 0 ] e os componentes principais ficam

1

Y = 0.383X1 −−0.924X2 −− explica 72.9% da variação total

2

Y = X3 − explica 25.0% da variação total 3

Y = 0.924X1 + 0.383X2 −− explica 2.1% da variação total

As correlações entre as variáveis originais e os componentes principais são apresenta-dos no quadro seguinte:

1 Y Y2 Y3 1 X 0.925 0 0.269 2 X −0.998 0 0.112 3 X 0 1 0

MATRIZ X TEM DISTRIBUIÇÃO NORMAL MULTIVARIADA

Considerando que X ~ Np(µµ,ΣΣ), sabemos de (4.7) que a densidade de X é constante nos elipsóides centrados em µµ.

) (

)

(xµµ t ΣΣ−1 xµµ = c2

que tem eixos ± c λi ei, i = 1, 2, ..., p, onde (λi, ei) são pares de autovalor-autove-tor de ΣΣ.

Tomando µµ = 0, podemos escrever que 2 c = xtΣΣ−1x =

( )

= λ p 1 i 2 t i i 1 x e

onde yi = eitx, i = 1, 2, ..., p são reconhecidos como os componentes principais de x e a equação define um elipsóide (λ1 > λ2 > ... > λp > 0) no sistema de coordenadas com eixos y1, y2, ..., y nas direções de p e1, e2, ..., e . Se p λ1 é o maior autovalor, então o eixo maior segue na direção de e1. Qualquer ponto no i-ésimo eixo do elip-sóide tem coordenadas proporcionais a eit = [ei1+ ei2+ ... + e ]. ip

(12)

COMPONENTES PRINCIPAIS OBTIDOS DE VARIÁVEIS PADRONIZA-DAS

Componentes principais podem ser obtidos de variáveis padronizadas i Z = ii i i X σ µ − , i = 1, 2, ..., p (8.9) e na notação matricial Z =

( )

V12 −1

(

Xµµ

)

(8.10)

onde a diagonal da matriz de desvios padrões V12 é definido em (2-35) na pág.74. Claramente temos que E(Z) = 0 e

cov(Z) =

( )

V12 −1ΣΣ

( )

V12 −1 = ρρ

por (2-37) na pág. 74. Os componentes principais de Z podem ser obtidos dos auto-vetores da matriz de correlações ρρ. Todos os resultados prévios se aplicam a essa si-tuação, com algumas simplificações adicionais, já que a variância de cada Zi é a uni-dade. Entretanto, os pares (λi, ei) derivados de ΣΣ são, em geral, diferentes daqueles obtidos de ρρ.

Resultado 8.4. O i-ésimo componente principal do vetor de variáveis padronizadas Z' = [Z1, Z2, ..., Z ] com cov(Z) = p ρρ é dado por

i Y = eit Z = eit

( )

V12 −1

(

Xµµ

)

i = 1, 2, ..., p Ainda

= p 1 i i) Y ( Var =

= p 1 i i) Z ( Var = p (8-11) e k i,Z Y ρρ = eik λi i, k = 1, 2, ..., p

COMPONENTES PRINCIPAIS PARA MATRIZES DE COVARIÂNCIAS COM ESTRUTURAS ESPECIAIS

Existem certas estruturas de matrizes de covariâncias e de correlações cujos componentes principais podem ser expressos de uma forma simples.

Suponhamos que ΣΣ = diag(σ11, σ22, ..., σpp_ é uma matriz diagonal. Toman-do eit = [ 0, ..,0, 1, 0,..., 0], com o 1 na i-ésima posição, observamos que ΣΣeit = σii eit e concluímos que (σii,ei) é o i-ésimo par de autovalor-autovetor de ΣΣ.

(13)

Neste caso, o i-ésimo componente principal é definido pela combinação linear i

Y = eitX = Xi, que corresponde à variável original Xi. Neste caso, não ganhamos nada extraindo os componentes principais porque as variáveis originais já são não correlacionadas e então, não existe necessidade de rotacionarmos o sistema de coor-denadas.

/*COMPONENTES PRINCIPAIS DE UMA MATRIZ DIAGONAL*/

proc iml;

reset print; SIGMA={7.5 0 0, 0 6 0, 0 0 5};

CALL EIGEN( eigenvalues, eigenvectors, SIGMA);

/*

AUTOVALOR=eigval(SIGMA); AUTOVETOR=eigvec(SIGMA); */

quit;

Para mais detalhes sobre outras estruturas da matriz de covariâncias ou de cor-relações, ver JOHNSON & WICHERN (1999), pág. 469-471.

8.3. RESUMINDO A VARIAÇÃO AMOSTRAL POR COMPONENTES PRINCIPAIS

Suponha que x1, x2, ..., xn represente uma amostra aleatória de n indivíduos de uma população p-dimensional com vetor de médias µµ e matriz de covariâncias ΣΣ. Esses dados produzem um vetor de médias amostrais x, uma matriz de covariâncias amostrais S e uma matriz de correlações amostrais R. Essas matrizes S e R represen-tam a estrutura de interdependência das variáveis.

Buscaremos construir combinações lineares não correlacionadas das caracterís-ticas medidas que expliquem muito da variação amostral. Essas combinações lineares com o máximo da variância amostral serão chamadas de componentes principais

(14)

Se S =

{ }

sik (p x p) é uma matriz de covariâncias amostrais com pares de autovalor-autovetor (λˆi, ˆei), i = 1, 2, ..., p, o i-ésimo componente principal amostral é dado por

i yˆ = ˆeit x =

= p 1 j ij i x eˆ , para i = 1, 2, ..., p

onde λˆ1 ≥ λˆ2 ... ≥ λˆp 0 e x é uma matriz de observações das variáveis X1, X2, ..., X . Também, p

• Variância amostral (yˆi) = λˆi, i = 1, 2, ..., p (8-20) • Covariância amostral (yˆi,yˆk) = 0, i ≠ k

• Variância amostral total =

= k 1 i ii s =

= λ p 1 i i ˆ

• Correlação amostral entre a k-ésima variável original e o i-ésimo componente principal amostral: k i,x y ˆ r = kk i ik s ˆ eˆ λ i , k = 1, 2, ..., p

Denotaremos por yˆ1, yˆ2, ..., yˆ os componentes principais amostrais obtidos p de S ou de R, mesmo sabendo que os componentes obtidos de S e R não são os iguais geralmente. Tomaremos o cuidado de explicitar no contexto qual matriz está sendo usada.

Geralmente, as observações xi são "centradas" ou "corrigidas para a média", subtraindo-se x, o que não afeta a matriz de covariâncias amostrais S. Nesse caso, o i-ésimo componente principal é

i

yˆ = ˆeit (xx), i = 1, 2, ..., p (8-21) para qualquer vetor de observação x. Se considerarmos os valores do i-ésimo compo-nente, teremos

ji

yˆ = ˆeit (xjx), i = 1, 2, ..., p (8-22) E a média de cada componente principal amostral é igual a zero. A variância amostral continua igual a λˆi, como em (8-20).

Exemplo 8.3. (pág. 473) com o dados apresentados na Tabela 8.5 (pág. 508)

Um censo fornece informações, por região, sobre as seguintes variáveis socioeconô-micas: X1: população total (milhares); X2: mediana do tempo de escolaridade (anos);

(15)

X3: total de empregados (milhares); X4: total de empregados em serviços de saúde (milhares) e X5: mediana do valor da terra (value home) (milhares de dólares)

Vamos utilizar o PROC PRINCOMP para fazer a análise de componentes principais desse conjunto de dados amostrais, utilizando os comandos:

data Tabela85; input X1 X2 X3 X4 X5; cards; 5.935 14.2 2.265 2.27 2.91 1.523 13.1 0.597 0.75 2.62 2.599 12.7 1.237 1.11 1.72 4.009 15.2 1.649 0.81 3.02 4.687 14.7 2.312 2.50 2.22 8.044 15.6 3.641 4.51 2.36 2.766 13.3 1.244 1.03 1.97 6.538 17.0 2.618 2.39 1.85 6.451 12.9 3.147 5.52 2.01 3.314 12.2 1.606 2.18 1.82 3.777 13.0 2.119 2.83 1.80 1.530 13.8 0.798 0.84 4.25 2.768 13.6 1.336 1.75 2.64 6.585 14.9 2.763 1.91 3.17 ;

proc princomp cov; var X1 X2 X3 X4 X5;

proc corr;

run;

resultando em:

Principal Component Analysis 14 Observations 5 Variables Simple Statistics X1 X2 X3 X4 X5 Mean 4.323285714 14.01428571 1.952285714 2.171428571 2.454285714 StD 2.075465191 1.32946325 0.894800831 1.403379751 0.710197310 Covariance Matrix X1 X2 X3 X4 X5 X1 4.307555758 1.683680220 1.802775989 2.155325714 -0.253474396 X2 1.683680220 1.767472527 0.588026374 0.177978022 0.175549451 X3 1.802775989 0.588026374 0.800668527 1.064828022 -0.158339011 X4 2.155325714 0.177978022 1.064828022 1.969474725 -0.356806593 X5 -0.253474396 0.175549451 -0.158339011 -0.356806593 0.504380220 Total Variance = 9.3495517582

apresenta um resumo do conjunto de dados (n = 14 observações e p = 5 variáveis), as médias e os desvios padrões amostrais para cada variável, a matriz de covariân-cias amostrais e a variância total ( = 9,3496).

(16)

Eigenvalue Difference Proportion Cumulative PRIN1 6.93107 5.14593 0.741327 0.74133 PRIN2 1.78514 1.39549 0.190934 0.93226 PRIN3 0.38965 0.16012 0.041676 0.97394 PRIN4 0.22953 0.21537 0.024550 0.99849 PRIN5 0.01415 . 0.001514 1.00000 Eigenvectors

PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.781208 0.070872 0.003657 -.541710 -.302040 X2 0.305649 0.763873 -.161817 0.544799 -.009280 X3 0.334448 -.082908 0.014841 -.051016 0.937255 X4 0.426008 -.579458 0.220453 0.636013 -.172145 X5 -.054354 0.262355 0.961760 -.051276 0.024583

• os autovalores e a proporção (absoluta e acumulada) explicada pelos componentes principais, além dos coeficientes que definem os 5 componentes principais.

Resumindo temos:

• Y1 = 0,7812X1 + 0,3056X2 + 0,3344X3 + 0,4250X4 − 0,0543X5 é o primeiro componente principal e explica 74,1% da variação amostral total. Pode ser inter-pretado como uma média ponderada das quatro primeiras variáveis originais

• Y2 = 0,0719X1 + 0,7639X2 − 0,0829X3 − 0,5795X4 + 0,2624X4 é o segundo componente e explica 19,1% da variação total. Pode ser interpretado como um contraste entre os empregados em serviços de saúde com uma média ponderada da mediana da idade escolar e a mediana dos valores da terra (value home).

• Os dois primeiros componentes explicam 93,2% da variação total;

• A redução da dimensão de 5 variáveis originais para 2 componentes principais é bastante razoável.

Para calcularmos a correlação entre as variáveis originais e os componentes principais, com o intuito de entendermos a importância de cada variável na cons-trução dos dois componentes, precisamos incluir as alterações no programa:

proc princomp cov out=result; var X1 X2 X3 X4 X5;

proc corr data=result;

var X1 X2 X3 X4 X5 PRIN1 PRIN2; run;

resultando em:

Correlation Analysis

7 'VAR' Variables: X1 X2 X3 X4 X5 PRIN1 PRIN2 Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum X1 14 4.323286 2.075465 60.526000 1.523000 8.044000 X2 14 14.014286 1.329463 196.200000 12.200000 17.000000 X3 14 1.952286 0.894801 27.332000 0.597000 3.641000 X4 14 2.171429 1.403380 30.400000 0.750000 5.520000 X5 14 2.454286 0.710197 34.360000 1.720000 4.250000 PRIN1 14 0 2.632693 0 -3.534876 4.957486 PRIN2 14 0 1.336093 0 -2.856346 2.097283

(17)

• onde são apresentadas algumas estatísticas descritivas das variáveis e componentes principais

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 14

X1 X2 X3 X4 X5 PRIN1 PRIN2 X1 1.00000 0.61019 0.97073 0.73998 -0.17196 0.99095 0.04562 0.0 0.0205 0.0001 0.0025 0.5566 0.0001 0.8769 X2 0.61019 1.00000 0.49430 0.09539 0.18593 0.60527 0.76768 0.0205 0.0 0.0724 0.7456 0.5245 0.0218 0.0013 X3 0.97073 0.49430 1.00000 0.84796 -0.24916 0.98402 -0.12380 0.0001 0.0724 0.0 0.0001 0.3903 0.0001 0.6733 X4 0.73998 0.09539 0.84796 1.00000 -0.35800 0.79918 -0.55168 0.0025 0.7456 0.0001 0.0 0.2088 0.0006 0.0408 X5 -0.17196 0.18593 -0.24916 -0.35800 1.00000 -0.20149 0.49357 0.5566 0.5245 0.3903 0.2088 0.0 0.4897 0.0729 PRIN1 0.99095 0.60527 0.98402 0.79918 -0.20149 1.00000 0.00000 0.0001 0.0218 0.0001 0.0006 0.4897 0.0 1.0000 PRIN2 0.04562 0.76768 -0.12380 -0.55168 0.49357 0.00000 1.00000 0.8769 0.0013 0.6733 0.0408 0.0729 1.0000 0.0

• pode-se perceber uma correlação alta e positiva entre as variáveis X1 a X4 com o primeiro componente principal (PRIN1);

• com o segundo componente (PRIN2), estão correlacionadas as variáveis X2, X4 e X5.

O NÚMERO DE COMPONENTES PRINCIPAIS

Sempre vai aparecer a questão de quantos componentes escolher. E não existe uma resposta definitiva para essa questão. Alguns aspectos devem ser considerados, como a quantidade da variância amostral explicada, os tamanhos relativos dos auto-valores (isto é, as variâncias dos componentes principais) e as interpretações subjeti-vas associada aos componentes. Podemos adiantar que um componente associado a um autovalor próximo a zero será pouco importante, mas indica alguma dependência linear nos dados.

Para determinar o número de componentes principais podemos utilizar o scree

plot, que é construído com os valores de λˆi versus i (a magnitude de um autovalor

versus seu número). Neste caso, o número de componentes é tomado como o ponto

onde os autovalores restantes são relativamente pequenos e têm tamanhos aproxima-damente iguais.

(18)

Ordem Autovalor 0 1 2 3 4 5 6 7 8 1 2 3 4 5

Figura 8.2. Scree plot associado à análise do exemplo 8.3

O "cotovelo" que ocorre na Figura 8.2 por volta de i = 3, indica que os autova-lores superiores a λˆ2 são relativamente pequenos e têm valores parecidos, ou seja, somente os dois primeiros componentes principais resumem efetivamente a variância amostral total.

INTERPRETAÇÃO DOS COMPONENTES PRINCIPAIS AMOSTRAIS

(ver páginas 478-480)

PADRONIZANDO OS COMPONENTES PRINCIPAIS AMOSTRAIS

Geralmente, os componentes principais amostrais não são invariantes a mu-danças na escala das variáveis. As variáveis medidas em escalas diferentes ou em escalas comuns mas com variabilidades muito diferentes são, muitas vezes, padroni-zadas.

(19)

i z = D−12

(

xix

)

=                       − − − pp p jp 22 2 2 j 11 1 1 j s x x s x x s x x M , j = 1, 2, ..., n (8-25)

onde D12 é uma matriz diagonal com as variâncias amostrais de cada variável. Então

Z =               t n t 2 t 1 z z z =             np 2 n 1 n p 2 22 21 p 1 12 11 z z z z z z z z z L M M M L L z = (1'Z)' n 1 = Z'1 n 1 = 0 z S =       −       − − Z 11'Z Z n11'Z 1 n 1 1 n 1 t =

(

Z1z'

) (

Z1z'

)

− t 1 n 1 = Z'Z 1 n 1

= R (matriz de correlações amostrais)

Usando (8-29) podemos ver que a proporção da variância amostral total explicada pelo i-ésimo componente principal é λˆi p, i = 1, 2, ..., p.

Uma regra consiste em reter somente os componentes principais cujas variân-cias λˆisão maiores que a unidade ou, equivalentemente, somente aqueles componen-tes que individualmente explicam, no mínimo, 1/p da variância total. Essa regra não tem qualquer suporte teórico e não deve ser aplicada cegamente.

Se z1, z2, ..., zn são as observações padronizadas com matriz de covariâncias R, o i-ésimo componente principal é

i yˆ = ˆeitz =

= p 1 j i ijz eˆ , para i = 1, 2, ..., p

onde (λˆi, ˆei) é o i-ésimo par autovalor-autovetor de R com λˆ1 ≥ λˆ2 ... ≥ λˆp ≥ 0. • Variância amostral (yˆi) = λˆi, i = 1, 2, ..., p (8-29) • Covariância amostral (yˆi,yˆk) = 0, i ≠ k

(20)

Variância amostral total = tr(R) =

= λ p 1 i i ˆ = p

• Correlação amostral entre a k-ésima variável original e o i-ésimo componente principal amostral: k i,x y ˆ r = eˆik λˆi i , k = 1, 2, ..., p

Ver Exemplo 8.5 (página 482-483).

GRÁFICOS DOS COMPONENTES PRINCIPAIS

Gráficos de componentes principais podem revelar observações suspeitas, além de possibilitar a verificação da suposição de normalidade. Como os componentes principais são combinações lineares das variáveis originais, não é razoável esperar que sejam normalmente distribuídos, já que não fizemos qualquer suposição sobre essas variáveis.

Muitas vezes é necessário verificar que os primeiros componentes têm distri-buição aproximadamente quando eles são utilizados como variáveis de entrada em análises adicionais.

Os últimos componentes principais podem auxiliar a identificar observações suspeitas. Cada observação pode ser escrita como uma combinação linear de todo o conjunto de autovalores ˆe1, ˆe2,... , ˆe de S: p

j

x = (xtj ˆe1)ˆe1 + (xtj ˆe2)ˆe2 + ... + (xtj ˆe )p ˆe = pj1 ˆe1 + yˆj2 ˆe2 + ... + yˆjp ˆe p Assim, a magnitude dos últimos componentes principais determina quão bem os primeiros ajustam as observações. Isto é, yˆj1 ˆe1 + yˆj2 ˆe2 + ... + yˆj,q1eˆq1 difere de x por jjq ˆe + ... + qjp ˆe , cujos quadrados dos seus comprimentos são p yˆ , ..., 2jq

2 jp

yˆ . Observações suspeitas serão aquelas que, no mínimo, em uma das coordena-das,yˆ , ... , jq yˆ contribuem para que o quadrado do seu comprimento seja grande. jp

Resumindo:

1. Para auxiliar a verificar a suposição de normalidade, construir gráficos de disper-são para os pares dos primeiros componentes principais. Também fazer Q-Q plots para os valores amostrais gerados por cada um dos componentes principais. 2. Construir diagramas de dispersão e Q-Q plots para os últimos componentes

prin-cipais, o que auxilia na identificação de observações suspeitas. (Ver Exemplo 8.7 - página 485-486)

(21)

Um gráfico dos escores dos dois primeiros componentes principais pode tam-bém ser útil na identificação grupos de indivíduos similares, com altos (ou baixos) valores desses componentes. Essa avaliação, apesar de subjetiva, pode auxiliar a in-pretar os resultados obtidos, mas nem sempre é conclusiva.

CP-1 CP-2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 -3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6

Figura 4. Dispersão dos indivíduos em relação aos dois primeiros componentes

principais.

Na Figura 4, podemos identificar, por exemplo, o grupo dos indivíduos 3, 10 e 11 que têm valores negativos para os dois componentes; o grupo dos indivíduos 8 e 14 que têm valores positivos e altos para esses componentes e o indivíduo 9, que tem um valor positivo e alto para o componente 1, mas negativo e grande (em módulo) para o componente 2.

Referências

Documentos relacionados

4.3.1 Caso os critérios de qualidade não sejam atendidos isto não impede do fornecedor prestar o serviço, porém a STARLOG OPERADOR LOGISTICO deve acompanhar

A DIRETORA DA FACULDADE DE EDUCAÇÃO A DISTÂNCIA, da Fundação Universidade Federal da Grande Dourados, no uso das atribuições que lhe foram conferidas pela Portaria nº

Na sua vasta obra, escrita em quatro décadas, desde os anos 60 até o seu último livro publicado em 2011, vê-se um progressivo processo de amadurecimento da sua concepção

Alteração geométrica no teto a jusante de comporta do sistema de en- chimento e esvaziamento para eclusa de na- vegação: simulação numérica do escoamento e análise das pressões

Um tratamento de câncer infantil em que os cui- dadores são acompanhados pelo serviço de psicologia, pode tornar o tratamento um processo menos ambiva- lente de se vivenciar,

Resultados de um trabalho de três anos de investigação da jornalista francesa Marie-Monique Robin, o livro Le Monde Selon Monsanto (O Mundo Segundo a,Monsanto) e o

Portanto, a inclusão das metodologias ativas é uma alternativa eficaz para auxiliar o estudante a sanar as possíveis dúvidas no decorrer da disciplina e ao mesmo

hospitalizados, ou de lactantes que queiram solicitar tratamento especial deverão enviar a solicitação pelo Fale Conosco, no site da FACINE , até 72 horas antes da realização