A An´ alise de componentes Principais (PCA)

4.3 O Conceito de F´ acies S´ısmicas e os M´ etodos Estat´ısticos Multivariados

4.3.3 A An´ alise de componentes Principais (PCA)

A análise de componentes principais (PCA), têm sido desde o in´ıcio considerada como o mais valioso resultado aplicado da álgebra linear. Originalmente, esse método foi desenvolvido por HOTELLING (1933), que realizou um estudo com 140 alunos de uma escola, estudando quatro caracter´ısticas por aluno, sendo elas: a velocidade da leitura, o poder da leitura, a velocidade em realizar opera¸cões aritméticas e o poder de realizar opera¸cões aritméticas. Usando esse exemplo, todo o procedimento de PCA que será aqui detalhado, foi desenvolvido. Desde então, a análise de PCA (como será chamada a partir de agora), tem sido aplicada nos mais vastos campos da ciência, desde a neurociência, passando pelas ciências sociais e pela computa¸cão gráfica, até a caracteriza¸cão de reservatórios. Sua popularidade se deve especialmente ao fato de ser um método relativamente simples, e não paramétrico de se extrair informa¸cões relevantes de um conjunto de dados complexos. Com um baixo custo computacional, a análise de PCA, fornece uma maneira eficiente de se reduzir dados complexos em um conjunto menor e que muitas vezes revela estruturas simplificadas e escondidas na grande massa de dados. Como já foi dito, tenta-se em qualquer área da ciência entender um determinado fenômeno por meio de medidas de várias quantidades. Infelizmente, ao se medir muitas variáveis, os dados às vezes podem parecer redundantes e suas correla¸cões não ficam claras. Isso não é um problema trivial, mas um obstáculo fundamental para qualquer ciência emp´ırica. Os exemplos são muitos, que tratam com sistemas complexos de dados, como a neurociência, a fotometria, a meteorologia, a oceanografia, a geof´ısica, e aqui especificamente, a s´ısmica voltada para a caracteriza¸cão de reservatórios. Em todas essas áreas o número de variáveis medidas é grande, e ao mesmo tempo podem ser decepcionantes, uma vez que informa¸cões relevantes se escondem subjacentes aos dados.

Esse método permite a redu¸cão da dimensionalidade dos pontos representativos das amostras, pois, embora a informa¸cão estat´ıstica presente nas n-variáveis originais seja a mesma dos componentes principais, é comum obter em apenas 3 componentes mais de 90% desta informa¸cão, dependendo do dado que se encontra sob análise. Assim, como será visto, o gráfico da componente 1 versus a componente 2, fornece uma janela privilegiada estatisticamente para as observa¸cões dos pontos no espa¸co n-dimensional.

A análise de componentes principais também pode ser usada para julgar a importância das próprias variáveis originais escolhidas, ou seja, as variáveis originais com maior peso na combina¸cão linear dos primeiros componentes principais são as mais importantes do ponto de vista estat´ıstico. Desse modo, é poss´ıvel por meio da análise de PCA, revelar estruturas subjacentes aos dados.

Na realidade, o que se deseja com a análise de componentes principais é responder a seguinte pergunta: existe uma outra base, ou sistema, onde a combina¸cão linear dos dados originais, melhor expressa o que se procura? Pelo fato de se buscar por combina¸cões lineares, a álgebra linear se presta de modo eficiente para buscar uma solu¸cão para a análise de PCA. A solu¸cão é baseada em uma importante propriedade da decomposi¸cão de autovalores. Para isso considere que os dados estão organizados numa matriz X, nxm, onde n é o número do tipo de medidas (atributos) e m, é o número de amostras, (tra¸cos). O objetivo então é encontrar uma matriz ortonormal P, onde Y=P.X, de modo que a matriz de covariância:

Cy = (1/m − 1).Y.YT, (4.1)

seja diagonalizada. Desse modo as linhas da matriz P s˜ao as componentes principais da matriz X.

seguinte maneira: Cy = _m−11 (P X)(P X)T = _m−11 P XXT_PT = _m−11 P (XXT)PT Cy = _m−11 P APT. (4.2)

Pode-se observar que uma nova matriz A foi definida. Onde A = XXT_{, e a matriz A por}

defini¸cão é dita simétrica.

O objetivo aqui é reconhecer que uma matriz simétrica A é diagonalizada pela matriz ortogonal dos autovetores, de acordo com um teorema da álgebra linear. Assim, para a matriz simétrica A, temos que:

A = EDET. (4.3)

Onde D ´e a matriz diagonal e E ´e a matriz dos autovetores.

A matriz A, tem r ≤ n autovetores ortonormais, onde r, é o rank da matriz. O rank da matriz A é menor que n, quando A é dito degenerado, ou seja, todos os dados ocupam um subespa¸co de dimensões r ≤ n. Mantendo-se a restri¸cão de ortogonalidade, pode-se remediar essa situa¸cão selecionando n − r vetores ortogonais, de modo a preencher a matriz E. Esses vetores adicionais não afetam a solu¸cão final, pois as variâncias associadas a essas dire¸cões são iguais a zero.

Assim, seleciona-se a matriz P, para ser a matriz onde cada linha pi ´e um autovetor de

XXT_{. Por essa sele¸c˜}_{ao, P ≡ E}T_{. Substituindo essa rela¸c˜}_{ao na Equa¸c˜}_{ao 4.2, encontra-se que}

A = PT_{DP . Com essa rela¸c˜}_{ao e com o teorema da ´}_{algebra linear que diz que a inversa de}

Cy, da seguinte maneira: Cy = _m−11 P APT = _m−11 P (PT_{DP )P}T = _m−11 (P PT_{)D(P P}T₎ = _m−11 (P P−1)D(P P−1) Cy = _m−11 D. (4.4)

Fica evidente que a escolha de P, diagonaliza a matriz de covariância Cy. Essa dedu¸cão é

muito importante para o desenvolvimento da an´alise de PCA. Desse modo ´e poss´ıvel resumir os resultados da PCA nas matrizes P e Cy:

• As componentes principais da matriz X, s˜ao os autovetores de XXT, ou as linhas da matriz P;

• O i-ésimo valor na diagonal da matriz Cy é a variância da matriz X ao longo de pi.

A partir dessa solu¸cão algébrica, é necessário desenvolver uma maneira computacional de se realizar a análise de PCA. A maneira mais amplamente utilizada na literatura e que foi usada nesta tese é calcular as componentes por meio da decomposi¸cão de valores singulares.

Para isso, considere X, como sendo uma matriz arbitrária nxm e que XXT, seja uma matriz de rank r, quadrada e simétrica. Para se realizar a decomposi¸cão, determinadas grandezas precisam ser conhecidas, a saber:

• v1, v2, v3, ..., vn ´e um conjunto de autovetores ortonormais mx1, com os autovalores

associados λ1, λ2, λ3, ..., λn, para a matriz sim´etrica XTX, de modo que (XTX)vi = λivi;

• σi ≡

√

λi, ´e um positivo real e definido como valores singulares;

• u1, u2, u3, ..., un ´e um conjunto de vetores ortonormais nx1 definidos por: ui =

(1/σi)Xvi.

Com essas grandezas definidas, e de posse de um teorema da álgebra linear, que diz que para uma matriz qualquer X de dimensões nxm, a matriz simétrica XT_{X, tem um}

u1, u2, u3, ..., un. O conjunto de vetores Xv1, Xv2, Xv3, ..., Xvnforma uma base ortogonal onde

cada vetor Xvi tem comprimento

√ λi.

Com isso, se tem o necessário para realizar a decomposi¸cão. O que é dito como o valor na decomposi¸cão de valores singulares, nada mais é que uma forma de reescrever a terceira defini¸cão.:

Xvi = σi.ui. (4.5)

O resultado nos diz que X multiplicado por um autovetor de XTX ´e igual a um escalar vezes um outro vetor. Assim, o conjunto de autovetores v1, v2, v3, ..., vn e o conjunto de vetores

u1, u2, u3, ..., un s˜ao ambos conjuntos ortonormais, ou a base num espa¸co de dimens˜ao r.

E poss´ıvel resumir esse resultado para todos os vetores em uma matriz de multiplica¸c˜ao de acordo com a constru¸c˜ao a seguir, de modo a gerar uma nova matriz diagonal Σ:

Σ ≡

σi 0 0

0 σr 0

0 0 0 .

(4.6)

Onde σ1 ≥ σ2 ≥ σ3 ≥, ..., σr, s˜ao os conjuntos de valores singulares, ordenados pelo seu rank.

Do mesmo modo ´e poss´ıvel construir matrizes ortogonais V e U, onde: V = v1v2, ..., vn.

U = u1u2, ..., un.

(4.7) Onde, do mesmo modo como foi mencionado anteriormente, vetores ortonormais (m − r) e (n − r) são inseridos de modo a preencher as matrizes V e U respectivamente. A Equa¸cão 4.6 fornece uma representa¸cão gráfica de como todas as partes se ajustam para formar então

ent˜ao a forma final da decomposi¸c˜ao:

X = U ΣVT. (4.9)

Embora aparentemente simples, tal decomposi¸cão é muito poderosa. A Equa¸cão 4.9, mostra que qualquer matriz arbitrária X, pode ser convertida para uma matriz ortogonal, uma matriz diagonal e outra matriz ortogonal. Isso representa realizar rota¸cões com a base de dados, e essas rota¸cões projetam os dados em uma outra base de coordenadas o que é a base da PCA, que por sua vez, pode ser vista então, como uma rota¸cão dos dados multidimensionais de modo que a variabilidade máxima seja projetada em cada par de combina¸cão dos eixos. No caso da análise de PCA utilizando a SVD, as colunas da matriz V, são as componentes principais da matriz X.

Calcular a PCA, usando a SVD, na pr´atica, pode ser resumido nas seguintes etapas:

1. Os dados precisam ser padronizados por algum método de pré-processamento, como por exemplo a normaliza¸cão, ou o autoescalamento, isso faz com que se possa trabalhar com variáveis que medem grandezas diferentes como os atributos s´ısmicos;

2. Os dados precisam ser organizados numa matriz nxm, onde n é o número de atributos estudados e m é o número de amostras;

3. Por fim, é realizada a SVD, ou o cálculo dos autovetores da matriz de covariância, que deve então ser obtida.

Um benef´ıcio importante dessa metodologia, como já foi mencionado, é que é poss´ıvel analisar as variâncias Cy associadas com as componentes principais. Normalmente encontra-se que

grandes variâncias estão associadas com os primeiros k ≤ n componentes principais, e a partir de uma determinada componente ela come¸ca a decair. Com isso é poss´ıvel concluir que, as fei¸cões mais importantes do dado estão nas primeiras k componentes. Esse processo recebe o nome de redu¸cão da dimensionalidade.

Como já foi dito de forma exaustiva, a análise de PCA tem grandes aplica¸cões dentro do processo de caracteriza¸cão de reservatórios, o que pode ser constatado com as referências já citadas. Embora seja aplicada vastamente, a análise de PCA ainda possui determinadas

limita¸cões que em certos casos levam a resultados não muito eficientes. Existem, porém, outros métodos que tratam de problemas multivariado e que basicamente podem ser aplicados para se comparar os resultados com a PCA, um desses métodos ainda novo no contexto de caracteriza¸cão de reservatórios é conhecido como análise de componentes independentes, ou ICA.

No documento Estudo de aplicação de metodos quantitativos em dados sismicos no processo de caracterização integrada de reservatorios (páginas 174-180)