• Nenhum resultado encontrado

A an´alise de componentes principais ´e uma t´ecnica multivariada de

mode-lagem da estrutura de covariˆancia. A t´ecnica foi inicialmente descrita por Pearson (1901)

e uma descri¸c˜ao de m´etodos computacionais pr´aticos veio muito mais tarde com Hotelling

(1933, 1936) quem a usou com o prop´osito determinado de analisar as estruturas de

cor-rela¸c˜ao.

A an´alise de componentes principais (ACP) tem como objetivo reduzir a

di-mensionalidade do conjunto de vari´aveis e facilitar a interpreta¸c˜ao da independˆencia entre

elas. Para isso, s˜ao obtidas combina¸c˜oes lineares das vari´aveis originais que,

geometrica-mente representam a sele¸c˜ao de novos sistemas de coordenadas obtidos pela rota¸c˜ao do

sis-tema original que temp vari´aveis aleat´orias como eixos das coordenadas. Esses novos eixos

ortogonais (novas vari´aveis) s˜ao chamados de componentes principaise os valores das novas

vari´aveis s˜ao chamadas de escores dos componentes principais ou coordenadas principais.

Essas novas vari´aveis s˜ao n˜ao correlacionadas (JOHNSON; WICHERN, 1998). Algumas

caracter´ıstica devem ser observadas nas modelagem da matriz de covariˆancias. Se tivermos

estudando um fenˆomeno observando p vari´aveis relacionadas, teremos p vari´aveis latentes

que devem ser mutuamente n˜ao-correlacionadas e ´e comum ordenarmos essas vari´aveis

la-tentes em fun¸c˜ao de suas variˆancias.

Em geral escolhemos o componente principal de maior importˆancia (o primeiro

componente principal) como sendo aquele de maior variˆancia (max

i

λ

i

), que explique o

m´aximo de variabilidade dos dados, o segundo componente de maior importˆancia, o que

apresenta a segunda maior variˆancia e assim sucessivamente, at´e o componente principal de

menor importˆancia. Por outro lado, os ´ultimos componentes principais ser˜ao respons´aveis

por dire¸c˜oes que n˜ao est˜ao associadas a muita variabilidade. Em outras palavras, esses

´

ultimos componentes principais identificar˜ao rela¸c˜oes lineares entre as vari´aveis originais

pr´oximo de constante (JOHNSON; WICHERN, 1998; ANDERSON, 2003; FERREIRA,

2011).

A obten¸c˜ao dos componentes principais ´e realizada por meio da

diagonal-iza¸c˜ao de matrizes sim´etricas positivas semi-definidas. Ent˜ao, podemos calcular os

compo-nentes principais facilmente e utiliz´a-los em diferentes aplica¸c˜oes nas mais variadas ´areas

cient´ıficas. Esta facilidade ´e fun¸c˜ao da existˆencia de in´umeros programas capazes de realizar

c´alculos matriciais para diagonalizar uma matriz sim´etrica positiva semi-definida. Muitos

pesquisadores tˆem utilizado a an´alise de componentes principais para resolver problemas

como da multicolinearidade em regress˜ao linear, para estimar fatores, que representam outra

t´ecnica multivariada de modelagem da matriz de covariˆancias, para realizar a modelagem

da intera¸c˜ao entre fatores em experimentos sem repeti¸c˜ao, estudos de divergˆencia e

agrupa-mento entre gen´otipos em estudo de gen´etica e melhoramento de plantas e animais, entre

outras possibilidades (JOHNSON; WICHERN, 1998).

Para obter os componentes principais de uma forma geral, seja um conjunto

dep vari´aveis X

1

, X

2

,· · · , X

p

com m´edias µ

1

, µ

2

,· · · , µ

p

e variˆancia σ

21

, σ

22

,· · · , σ

2p

,

respec-tivamente. Estas vari´aveis n˜ao s˜ao independentes e portanto, possuem covariˆancia entre a

i-´esima e k-´esima vari´avel definida por σ

ik

, para i 6= k = 1,2,· · · , p. Ent˜ao as p vari´aveis

podem ser expressas na forma vetorial por: X = [X

1

, X

2

,· · · , X

p

]

T

, com vetor de m´edias

µ = [µ

1

, µ

2

,· · · , µ

p

]

T

e matriz de covariˆancia Σ. Encontram-se os pares de autovalores e

autovetores (λ

1

,e

1

), (λ

2

,e

2

), · · ·, (λ

p

,e

p

), em que λ

1

≥ λ

2

≥ · · · ≥ λ

p

, associados a Σ e

ent˜ao o i-´esimo componente principal ´e definido por:

Z

i

=e

Ti

X =e

i1

X

1

+e

i2

X

2

+· · ·+e

ip

X

p

(8)

em quei= 1,2,· · · , p.

A vari´avel Z

i

, ´e uma vari´avel latente, ou seja, n˜ao ´e mensurada a partir

do experimento ou levantamento amostral (JOHNSON; WICHERN, 1998). O objetivo ´e

determin´a-la a partir das p vari´aveis contidas no vetor X. A id´eia ´e projetar os pontos

coordenados originais em um plano maximizando a distˆancia entre eles, o que equivale a

maximizar a variabilidade da vari´avel latente Z

i

. A variˆancia de Z

i

´e dada por

V ar(Z

i

) =V ar(e

Ti

X) = e

Ti

V ar(X)e

i

=e

Ti

Σe

i

(9)

e a covariˆancia entre Z

i

e Z

k

(i6=k), dada por

Cov(Z

i

,Z

k

) =Cov(e

Ti

X,e

Tk

X) =e

Ti

V ar(X)e

k

=e

Ti

Σe

k

(10)

A defini¸c˜ao dos componentes principais ´e baseada na maximiza¸c˜ao de sua

variˆancia. No entanto, o m´aximo da variˆancia do componente principal n˜ao existe, pois na

medida em que os componentes do vetor de coeficientese

i

crescem, a variˆancia crescer´a para

infinito. Assim, devemos impor a restri¸c˜ao de que a soma ao quadrado dos coeficientes do

vetor, que estabelece a combina¸c˜ao linear dos componentes principais, seja iguais `a unidade.

Assim, devemos maximizar a variˆancia Var(Y

i

) = e

Ti

Σe

i

com rela¸c˜ao ao vetor e

i

, sujeito `a

restri¸c˜ao dee

T

i

e

i

= 1. Para isso, podemos utilizar a t´ecnica de multiplicadores de Lagrange,

na qual devemos maximizar

max

ei

e

Ti

Σe

i

−λ

i

(e

Ti

e

i

−1)

em rela¸c˜ao a e

i

, sendo λ

i

o multiplicador de Lagrange.

Uma abordagem mais tradicional imp˜oe a restri¸c˜ao de outra forma dividindo

a fun¸c˜ao original por e

Ti

e

i

, resultando em uma fun¸c˜ao que devemos maximizar da seguinte

forma:

λ

i

= max

ei

e

T i

Σe

i

e

T i

e

i

Para obtermos o m´aximo, em ambos os casos, derivamos a fun¸c˜ao resultante

em rela¸c˜ao a e

i

e igualamos o sistema de equa¸c˜oes a zero, resulta em

(Σ−λ

i

I)e

i

=0 (11)

em que I ´e uma matriz identidade (p×p). Pela equa¸c˜ao (11), verificamos:

Σe

i

i

e

i

(12)

em que podemos mostrar que

V ar(Z

i

) = e

Ti

Σe=e

Ti

λ

i

e

i

i

e

Ti

e

i

i

pode ser tamb´em

Cov(Z

i

,Z

k

) =e

Ti

Σe

k

=e

Ti

λ

k

e

k

k

e

Ti

e

k

= 0

com i6=k, uma vez que e

i

e e

k

s˜ao ortogonais.

Podemos observar que a defini¸c˜ao dos componentes principais ´e a obten¸c˜ao

dos autovalores e autovetores da matriz Σ. Os autovetores e

i

(i = 1,· · · , p), definem as

variˆancias desses novos eixos coordenados. Como as covariˆancias s˜ao nulas entre os diferentes

pares de eixos, os novos eixos, que s˜ao os componentes principais, s˜ao ortogonais e,

por-tanto, representam uma rota¸c˜ao r´ıgida dos eixos originais. Se fizemos λ

1

≥ λ

2

≥ · · · ≥λ

p

,

definirmos os componentes principais Y

1

= e

T

1

X, Y

2

= e

T

2

X, · · · , Y

p

= e

T

p

X,

respec-tivamente. Dessa forma, temos tantos componentes principais quanto vari´aveis originais

(JOHNSON; WICHERN, 1998; ANDERSON, 2003; FERREIRA, 2011).

Se utilizarmos a decomposi¸c˜ao espectral da matrizΣ, dado porΣ=PΛP

T

,

em queP ´e a matriz composta pelos autovetores deΣem suas colunas eΛ, a matriz diagonal

de autovalores de Σ, ent˜ao, podemos observar que (JOHNSON; WICHERN, 1998):

tr(Σ) =tr(PΛP

T

) = tr(ΛP

T

P) = tr(ΛI) =tr(Λ) =

p

X

i=1

λ

i

Mastr(Σ) ´e dada pela soma dos elementos da diagonal, ou seja,

tr(Σ) =

p

X

i=1

σ

ii

portanto,

p

X

i=1

σ

ii

=

p

X

i=1

λ

i

(13)

que significa a variabilidade total contida nas vari´aveis originais ´e igual `a variabilidade total

contida nos componentes principais.

Assim, como a variˆancia total ´e igual ao tra¸co da matriz de covariˆancia, ent˜ao

a variˆancia total contida nas vari´aveis originais ´e igual ao tra¸co de Σ que ´e trΣ =

p

P

i=1

σ

ii

.

Da mesma forma, a variˆancia total de Z ´e igual a trΛ =

p

P

i=1

λ

i

. Pela equa¸c˜ao (13), a

variabilidade total contida nas vari´aveis originais ´e preservada nas vari´aveis transformadas,

componentes principais. Quando adotamos o modelo parcimonioso, comk < pcomponentes

principais, temos que a covariˆancia do vetor Z (k×1):

Cov(Z) = Cov(P

Tk

X) =P

Tk

Cov(X)P

k

=P

Tk

ΣP

k

=P

Tk

PΛP

T

P

k

k

em que

Λ=

λ

1

0 · · · 0

0 λ

2

· · · 0

..

. ... . .. ...

0 0 · · · λ

k

Portanto, a variˆancia total do vetor Y (k ×1) ´e tr(Λ

k

) =

k

P

i=1

λ

i

. Podemos

estabelecer que a explica¸c˜ao do modelo reduzido em rela¸c˜ao ao modelo completo pode ser

obtida pela rela¸c˜ao das variˆancias dos dois modelos, ou seja, quanto da varia¸c˜ao total das

vari´aveis originais ´e explicada pelo modelo de k componentes principais. Essa propor¸c˜ao

acumulada da explica¸c˜ao da varia¸c˜ao total, expressa em porcentagem ´e dada seguinte:

ρ

2k

=

k

P

i=1

λ

i p

P

i=1

σ

ii

×100% (14)

A explica¸c˜ao individual de cada componente pode ser calculado, por exemplo,

para k-´esimo componente principal a propor¸c˜ao da explica¸c˜ao ´e dada por

P

k2

=

p

λ

k

P

i=1

σ

ii

×100%

Pela propor¸c˜ao de explica¸c˜ao da variˆancia total, que o modelo de k

compo-nentes principais ´e respons´avel, podemos determinar o n´umero de componentes devemos

reter. Muitos casos, adotamos modelos que expliquem pelos menos 80% da varia¸c˜ao total

(JOHNSON; WICHERN, 1998) Se o n´umero m´ınimo de componentes k para explicar a

propor¸c˜ao m´ınima da varia¸c˜ao total for muito grande, em muitas aplica¸c˜oes pr´aticas n˜ao

haver´a vantagem em utilizar o m´etodo dos componentes principais.

Documentos relacionados