• Nenhum resultado encontrado

An´ alise de Componentes Principais

No documento TESE_KUANG FINAL ONLINE (páginas 39-43)

A an´alise de componentes principais ´e uma t´ecnica multivariada de mode- lagem da estrutura de covariˆancia. A t´ecnica foi inicialmente descrita por Pearson (1901) e uma descri¸c˜ao de m´etodos computacionais pr´aticos veio muito mais tarde com Hotelling (1933, 1936) quem a usou com o prop´osito determinado de analisar as estruturas de cor- rela¸c˜ao.

A an´alise de componentes principais (ACP) tem como objetivo reduzir a di- mensionalidade do conjunto de vari´aveis e facilitar a interpreta¸c˜ao da independˆencia entre elas. Para isso, s˜ao obtidas combina¸c˜oes lineares das vari´aveis originais que, geometrica- mente representam a sele¸c˜ao de novos sistemas de coordenadas obtidos pela rota¸c˜ao do sis- tema original que tem p vari´aveis aleat´orias como eixos das coordenadas. Esses novos eixos ortogonais (novas vari´aveis) s˜ao chamados de componentes principais e os valores das novas vari´aveis s˜ao chamadas de escores dos componentes principais ou coordenadas principais. Essas novas vari´aveis s˜ao n˜ao correlacionadas (JOHNSON; WICHERN, 1998). Algumas caracter´ıstica devem ser observadas nas modelagem da matriz de covariˆancias. Se tivermos estudando um fenˆomeno observando p vari´aveis relacionadas, teremos p vari´aveis latentes que devem ser mutuamente n˜ao-correlacionadas e ´e comum ordenarmos essas vari´aveis la- tentes em fun¸c˜ao de suas variˆancias.

Em geral escolhemos o componente principal de maior importˆancia (o primeiro componente principal) como sendo aquele de maior variˆancia (max

i λi), que explique o m´aximo de variabilidade dos dados, o segundo componente de maior importˆancia, o que apresenta a segunda maior variˆancia e assim sucessivamente, at´e o componente principal de menor importˆancia. Por outro lado, os ´ultimos componentes principais ser˜ao respons´aveis por dire¸c˜oes que n˜ao est˜ao associadas a muita variabilidade. Em outras palavras, esses ´

ultimos componentes principais identificar˜ao rela¸c˜oes lineares entre as vari´aveis originais pr´oximo de constante (JOHNSON; WICHERN, 1998; ANDERSON, 2003; FERREIRA, 2011).

A obten¸c˜ao dos componentes principais ´e realizada por meio da diagonal- iza¸c˜ao de matrizes sim´etricas positivas semi-definidas. Ent˜ao, podemos calcular os compo- nentes principais facilmente e utiliz´a-los em diferentes aplica¸c˜oes nas mais variadas ´areas cient´ıficas. Esta facilidade ´e fun¸c˜ao da existˆencia de in´umeros programas capazes de realizar c´alculos matriciais para diagonalizar uma matriz sim´etrica positiva semi-definida. Muitos pesquisadores tˆem utilizado a an´alise de componentes principais para resolver problemas

como da multicolinearidade em regress˜ao linear, para estimar fatores, que representam outra t´ecnica multivariada de modelagem da matriz de covariˆancias, para realizar a modelagem da intera¸c˜ao entre fatores em experimentos sem repeti¸c˜ao, estudos de divergˆencia e agrupa- mento entre gen´otipos em estudo de gen´etica e melhoramento de plantas e animais, entre outras possibilidades (JOHNSON; WICHERN, 1998).

Para obter os componentes principais de uma forma geral, seja um conjunto de p vari´aveis X1, X2, · · · , Xp com m´edias µ1, µ2, · · · , µp e variˆancia σ21, σ22, · · · , σ2p, respec- tivamente. Estas vari´aveis n˜ao s˜ao independentes e portanto, possuem covariˆancia entre a i-´esima e k-´esima vari´avel definida por σik, para i 6= k = 1, 2, · · · , p. Ent˜ao as p vari´aveis podem ser expressas na forma vetorial por: X = [X1, X2, · · · , Xp]T, com vetor de m´edias µ = [µ1, µ2, · · · , µp]T e matriz de covariˆancia Σ. Encontram-se os pares de autovalores e autovetores (λ1, e1), (λ2, e2), · · · , (λp, ep), em que λ1 ≥ λ2 ≥ · · · ≥ λp, associados a Σ e ent˜ao o i-´esimo componente principal ´e definido por:

Zi = eTi X = ei1X1+ ei2X2+ · · · + eipXp (8) em que i = 1, 2, · · · , p.

A vari´avel Zi, ´e uma vari´avel latente, ou seja, n˜ao ´e mensurada a partir do experimento ou levantamento amostral (JOHNSON; WICHERN, 1998). O objetivo ´e determin´a-la a partir das p vari´aveis contidas no vetor X. A id´eia ´e projetar os pontos coordenados originais em um plano maximizando a distˆancia entre eles, o que equivale a maximizar a variabilidade da vari´avel latente Zi. A variˆancia de Zi ´e dada por

V ar(Zi) = V ar(eTi X) = e T

i V ar(X)ei = eTi Σei (9)

e a covariˆancia entre Zi e Zk (i 6= k), dada por Cov(Zi, Zk) = Cov(eTi X, e

T

kX) = e T

i V ar(X)ek= eTi Σek (10)

A defini¸c˜ao dos componentes principais ´e baseada na maximiza¸c˜ao de sua variˆancia. No entanto, o m´aximo da variˆancia do componente principal n˜ao existe, pois na medida em que os componentes do vetor de coeficientes ei crescem, a variˆancia crescer´a para infinito. Assim, devemos impor a restri¸c˜ao de que a soma ao quadrado dos coeficientes do vetor, que estabelece a combina¸c˜ao linear dos componentes principais, seja iguais `a unidade. Assim, devemos maximizar a variˆancia Var(Yi) = eTi Σei com rela¸c˜ao ao vetor ei, sujeito `a restri¸c˜ao de eT

i ei = 1. Para isso, podemos utilizar a t´ecnica de multiplicadores de Lagrange, na qual devemos maximizar

max ei

eT

i Σei− λi(eTi ei− 1) 

em rela¸c˜ao a ei, sendo λi o multiplicador de Lagrange.

Uma abordagem mais tradicional imp˜oe a restri¸c˜ao de outra forma dividindo a fun¸c˜ao original por eTi ei, resultando em uma fun¸c˜ao que devemos maximizar da seguinte forma: λi = max ei eT i Σei eT i ei

Para obtermos o m´aximo, em ambos os casos, derivamos a fun¸c˜ao resultante em rela¸c˜ao a ei e igualamos o sistema de equa¸c˜oes a zero, resulta em

(Σ − λiI)ei = 0 (11)

em que I ´e uma matriz identidade (p × p). Pela equa¸c˜ao (11), verificamos:

Σei = λiei (12)

em que podemos mostrar que

V ar(Zi) = eTi Σe = e T

i λiei = λieTi ei = λi pode ser tamb´em

Cov(Zi, Zk) = eTi Σek = eTi λkek = λkeTi ek = 0 com i 6= k, uma vez que ei e ek s˜ao ortogonais.

Podemos observar que a defini¸c˜ao dos componentes principais ´e a obten¸c˜ao dos autovalores e autovetores da matriz Σ. Os autovetores ei (i = 1, · · · , p), definem as variˆancias desses novos eixos coordenados. Como as covariˆancias s˜ao nulas entre os diferentes pares de eixos, os novos eixos, que s˜ao os componentes principais, s˜ao ortogonais e, por- tanto, representam uma rota¸c˜ao r´ıgida dos eixos originais. Se fizemos λ1 ≥ λ2 ≥ · · · ≥ λp, definirmos os componentes principais Y1 = eT1X, Y2 = eT2X, · · · , Yp = eTpX, respec- tivamente. Dessa forma, temos tantos componentes principais quanto vari´aveis originais (JOHNSON; WICHERN, 1998; ANDERSON, 2003; FERREIRA, 2011).

Se utilizarmos a decomposi¸c˜ao espectral da matriz Σ, dado por Σ = P ΛPT, em que P ´e a matriz composta pelos autovetores de Σ em suas colunas e Λ, a matriz diagonal de autovalores de Σ, ent˜ao, podemos observar que (JOHNSON; WICHERN, 1998):

tr(Σ) = tr(P ΛPT) = tr(ΛPTP ) = tr(ΛI) = tr(Λ) = p X

i=1 λi

Mas tr(Σ) ´e dada pela soma dos elementos da diagonal, ou seja,

tr(Σ) = p X i=1 σii portanto, p X i=1 σii= p X i=1 λi (13)

que significa a variabilidade total contida nas vari´aveis originais ´e igual `a variabilidade total contida nos componentes principais.

Assim, como a variˆancia total ´e igual ao tra¸co da matriz de covariˆancia, ent˜ao a variˆancia total contida nas vari´aveis originais ´e igual ao tra¸co de Σ que ´e trΣ =

p P

i=1 σii. Da mesma forma, a variˆancia total de Z ´e igual a trΛ =

p P

i=1

λi. Pela equa¸c˜ao (13), a variabilidade total contida nas vari´aveis originais ´e preservada nas vari´aveis transformadas, componentes principais. Quando adotamos o modelo parcimonioso, com k < p componentes principais, temos que a covariˆancia do vetor Z (k × 1):

Cov(Z) = Cov(PTkX) = PTkCov(X)Pk = PTkΣPk= PTkP ΛP TP k = Λk em que Λ =         λ1 0 · · · 0 0 λ2 · · · 0 .. . ... . .. ... 0 0 · · · λk        

Portanto, a variˆancia total do vetor Y (k × 1) ´e tr(Λk) = k P

i=1

λi. Podemos estabelecer que a explica¸c˜ao do modelo reduzido em rela¸c˜ao ao modelo completo pode ser obtida pela rela¸c˜ao das variˆancias dos dois modelos, ou seja, quanto da varia¸c˜ao total das vari´aveis originais ´e explicada pelo modelo de k componentes principais. Essa propor¸c˜ao acumulada da explica¸c˜ao da varia¸c˜ao total, expressa em porcentagem ´e dada seguinte:

ρ2k= k P i=1 λi p P i=1 σii × 100% (14)

A explica¸c˜ao individual de cada componente pode ser calculado, por exemplo, para k-´esimo componente principal a propor¸c˜ao da explica¸c˜ao ´e dada por

Pk2 = pλk P

i=1 σii

× 100%

Pela propor¸c˜ao de explica¸c˜ao da variˆancia total, que o modelo de k compo- nentes principais ´e respons´avel, podemos determinar o n´umero de componentes devemos reter. Muitos casos, adotamos modelos que expliquem pelos menos 80% da varia¸c˜ao total (JOHNSON; WICHERN, 1998) Se o n´umero m´ınimo de componentes k para explicar a propor¸c˜ao m´ınima da varia¸c˜ao total for muito grande, em muitas aplica¸c˜oes pr´aticas n˜ao haver´a vantagem em utilizar o m´etodo dos componentes principais.

No documento TESE_KUANG FINAL ONLINE (páginas 39-43)

Documentos relacionados