• Nenhum resultado encontrado

qzo fumê

Grupo 4: Esse grupo é representado pela amostra FD 829-A do alvo Urucum, que exibe baixo conteúdo em ETRL (12,94 ppm) e o mais baixo conteúdo de ETRP (2,01 ppm) das

VI.5 Preparação dos dados e tratamento dos resultados geoquímicos – métodos 1 Preparação dos dados

VI.6.2. Análise de componentes principais

A Análise de Componentes Principais (Principal Component Analysis – PCA) (Wold 1987 in Parreira 2003) é uma manipulação matemática da matriz de dados com o objetivo de reduzir a dimensionalidade original da mesma e efetuar a correlação entre as variáveis (Parreira 2003).

As variáveis que apresentam grande redundância entre si são colineares. A alta colinearidade é uma forte indicação de que é possível encontrar-se novas bases que melhor representem as informações presentes nos dados, do que aquelas definidas pelas medidas. A alta colinearidade entre as variáveis indica que os dados ocupam um subespaço daquele espaço total definido pelas medidas.

128 Na construção de um novo conjunto de vetores de base, cria-se um conjunto de novas variáveis linearmente independentes para descrever estes dados. Cada novo vetor de base é expresso em uma combinação linear das antigas variáveis. Os componentes principais são os novos eixos, que são ortogonais ente si e ordenados segundo a quantidade de variância explicada pelos dados, de maneira que o primeiro vetor encontra-se na maior variância (Strang 1976 in Parreira 2003). Desta forma, este novo conjunto de eixos de coordenadas no qual se projetaram as amostras é bem mais informativo. O fato de serem ordenados pela sua importância possibilita visualizar estas mesmas amostras num gráfico de baixa dimensionalidade.

Esta projeção em uma base ortogonal pode ser feita através da decomposição por valores singulares (Singular Value Decomposition – SVD), onde a matriz original X (n, m) é decomposta e representada pelo produto de três novas matrizes, duas delas ortogonais (T e P) e uma diagonal (S) (Equação 3): (Reis & Ferreira 1999 in Parreira 2003).

X=TSP’ (3)

A matriz S é uma matriz diagonal com elementos diagonais não negativos arranjados em ordem decrescente. O quadrado dos valores singulares corresponde aos autovalores da matriz XX’ e mede a importância dos componentes principais individuais. Cada valor singular representa a porcentagem de variância explicada em cada uma de suas respectivas componentes (Smilde 1992 in Parreira 2003). O pseudoposto é definido a partir da exclusão dos autovalores pouco ou nada significativos.

Após a seleção do pseudoposto f, tem-se a matriz X, agora, representada pelo produto das matrizes T, S e P (parte sistemática), acrescida de uma matriz de erros (parte não modelável) que representa o desvio (resíduos) com relação aos dados originais.

As colunas de P são autovetores da matriz X’X abrangendo o espaço vetorial das colunas de X, enquanto a matriz T, formada pelos autovetores da matriz XX’, abrange o espaço vetorial das linhas de X. O produto TS define as coordenadas das amostras na nova base denominada escores (Reis 1997 in Parreira 2003).

Os escores estão relacionados com a posição ocupada pelas amostras nos novos eixos, enquanto os pesos mostram quanto cada variável original contribui para a formação de cada novo eixo. Os escores exprimem as relações entre as amostras, e os pesos revelam as relações entre as variáveis originais (Tauler et al. 2000 in Parreira 2003).

Os conceitos de escores e pesos são mostrados graficamente em um exemplo de duas variáveis num espaço bidimensional (Figuras 43 a e b), onde a componente principal é o eixo que melhor se ajusta aos pontos do conjunto. O vetor p’i possui dimensão 1 x 2 e seus

129 elementos p1 e p2 são cossenos diretores, ou projeções do vetor unitário ao longo da componente principal nos eixos do gráfico (Figura 43 a). O vetor dos escores, da Figura 43 b, é um vetor coluna n x 1 e seus elementos são as coordenadas dos respectivos pontos na linha da componente principal (Geladi & Kowalski 1986 in Parreira 2003).

Figura 43: Componente principal para duas variáveis – a) os pesos são os cossenos do vetor diretor; b) os escores são as projeções das amostras na direção da CP [11].

Como o PCA é um método de quadrados mínimos, as amostras anômalas exercem forte influência nessa análise. Portanto, é de fundamental importância eliminá-las ou corrigi-las antes de aplicar o método aos dados em questão (Wold 1987 in Parreira 2003).

Outra questão que deve ser considerada é o fato das variáveis determinadas pelo laboratório químico, apresentarem diferentes unidades, com diferentes magnitudes. Isto implica na necessidade de um pré-processamento dos dados, com o objetivo de adequar as amostras do conjunto de maneira a maximizar ou minimizar o efeito de certas variáveis no todo.

O pré-processamento das variáveis pode ser feito de três maneiras que são: centrando-os na média, escalando-os pela variância e finalmente auto escalando-os (centralização dos dados na média com posterior escalamento pela variância).

A centralização dos dados na média é utilizada quando todas as variáveis forem medidas numa mesma unidade e possuírem uma mesma magnitude. Nesse pré-processamento, o centróide da matriz de dados é levado para a origem, pela subtração de cada elemento de cada coluna pela média da respectiva coluna (equação 4) (Ribeiro 2001 in Parreira 2003).

130

Onde Xij(cm) = valor centrado na média para a variável j na amostr4a i; Xij = valor da variável j na amostra i;

j = média dos valores das amostras na coluna j.

No escalamento pela variância, cada elemento de dada variável é dividido pelo desvio padrão dessa variável, levando dessa forma a variância à unidade. Esse tipo de escalamento conduz todos os eixos da coordenada ao mesmo comprimento, dando a cada variável a mesma influência no modelo (Equação 5) (Ribeiro 2001 in Parreira 2003).

Xij(var) = Xij (5)

Sj

Onde: Xij(var) = valor escalado pela variância para a variável j na amostra i; Xij = valor da variável j na amostra i;

Sj = desvio padrão dos valores da variável j.

O auto-escalamento pode ser considerado como o tratamento pelos dois métodos anteriormente mencionados, ou seja, centralização dos dados na média com posterior escalamento pela variância. As variáveis terão média zero e um desvio padrão igual a 1 (Equação 6) (Ribeiro 2001 in Parreira 2003). Os métodos do escalamento pela variância e do auto-escalamento são utilizados quando se pretende dar o mesmo peso a todas as variáveis medidas, porque o PCA por ser um método dos quadrados mínimos, faz com que variáveis de alta variância possuam altos pesos (Wold 1987 in Parreira 2003).

Xij(as) = j (6)

Sj

Onde: Xij(as) = valor auto-escalado da variável j para a amostra i; j = média dos valores das amostras na coluna j.

Sj = desvio padrão dos valores da variável j.

Após a escolha e a aplicação do pré-processamento, o próximo passo é a análise exploratória.

131 VI.6.3. Exemplo gráfico do processamento por PCA

Para melhor entendimento, um exemplo com dados hipotéticos de como se processa o

PCA é apresentado graficamente a seguir, baseado no texto de Palmer (http://ordination.

okstate.edu/PCA.htm):

Quando se tem um conjunto de dados é relativamente fácil representá-los graficamente na forma bidimensional. Porém, para uma quantidade maior de dimensões a dificuldade aumenta bastante. O que o PCA faz é rotacionar a nuvem de pontos de dados, de tal forma que a máxima variabilidade seja visível. Neste exemplo hipotético, três diferentes espécies foram medidas, X1, X2 e X3:

Figura 44: Distribuição das espécies num espaço tridimensional (Palmer, http://ordination. okstate.edu/PCA.htm).

No exemplo das Figuras 44 e 45 é possível dizer que X1 e X2 estão relacionados entre si e é menos claro se X3 está relacionado com X1 ou X2. A tarefa então é determinar se existe(em) fator(es) ou componente(s) ocultos onde as amostras variam em relação à composição das espécies.

132 Para rotacionar a nuvem de dados, o primeiro passo é através do pré-processamento pelo auto-escalamento e, nesse caso, o centróide de todos os dados é zero. Os eixos padrões são rotulados como S1, S2 e S3 (Figura 45). A posição relativa dos pontos permanece a mesma.

Figura 45: Variáveis após processamento pelo auto-escalamento, com centróide em zero (Palmer, http://ordination. okstate.edu/PCA.htm).

Observando as duas figuras, pode-se identificar um gradiente: da porção inferior esquerda para a posição superior direita. Em outras palavras, parece existir um gradiente onde ambas as espécies 1 e 2 crescem e também contêm algumas informações redundantes.

133

Figura 46: Variáveis após a rotação da nuvem de pontos e aplicação do PCA (Palmer, http://ordination. okstate.edu/PCA.htm).

A análise de componentes principais escolhe o eixo do primeiro PCA (PC 1) como aquela linha que passa pelo centróide, mas também minimiza o quadrado da distância de cada ponto àquela linha (Figura 46). A linha está o mais próximo possível de todos os dados. De forma equivalente, a linha passa pela máxima variação dos dados.

O eixo do segundo PCA (PC 2) deve passar através do centróide e também pela máxima variação dos dados, mas com uma restrição: o eixo deve ser completamente não correlacionável (ortogonal) ao eixo do PC 1.

A rotação do eixo de coordenada PC 1 para o eixo X e o eixo PC 2 para o eixo Y confere o diagrama da Figura 47:

134

Figura 47: Rotação dos eixos de coordenada PC1 para o eixo X e o PC2 para o eixo Y (Palmer, http://ordination. okstate.edu/PCA.htm).

Pode-se observar que as amostras a, b, c e d estão em uma extremidade da composição das espécies e as amostras t, w, x, y e z estão em outra extremidade. Existe também um gradiente secundário das amostras b, m, n, u, r e t e, acima, as amostras l, q, w e y. Surge então a seguinte pergunta: o que existe de especial nas amostras da direita que fazem com que sejam completamente diferentes daquelas amostras da esquerda? O que faz as espécies 1 ocorrerem no mesmo local como espécie 2?

Na Figura 47 acima estão presentes dois eixos. Entretanto existem 3 eixos no banco de dados (porque existem três espécies). A razão para não mostrar o terceiro eixo é que, além do gráfico tridimensional ser complicado, o terceiro eixo é muito menos importante que os dois primeiros.

Como se determina quantos eixos são merecedores de interpretação? Este valor pode ser encontrado nos eigenvalues. Todos os eixos têm um eigenvalue (também chamado raiz latente) associado com ele. Os mesmos são ordenados do mais alto para o mais baixo. O primeiro dos três eigenvalues para os três primeiros eixos, no exemplo acima, são 1,8907, 0,9951 e 0,1142, respectivamente. Estes estão relacionados com a quantidade de variação

135 explicada pelos eixos. Note que a soma dos eigenvalues é 3, que também é a quantidade de variáveis. É comum expressar os eigenvalues como uma porcentagem do total: Eixo PC 1: 63%, Eixo PC 2: 33% e Eixo PC3: 4%. Em outras palavras, o primeiro eixo explicou ou “extraiu” quase 2/3 da variação de todos os dados e o segundo eixo extraiu quase toda a variação restante. O eixo 3 extraiu uma quantidade insignificante e pode não ser merecedor de interpretação.

Como conhecer que espécie contribui com qual eixo? Deve se olhar para o component

loadings (ou fator loading). Loadings são os valores das correlações das variáveis com os

respectivos fatores. Isto significa que o valor da amostra, ao longo do primeiro eixo de PC, é 0,9688 vezes a abundância das espécies padronizadas 1, mais 0,9701 vezes a abundância das espécies padronizadas 2, mais -0,1045 vezes a abundância da espécie padronizada 3.

Espécies Eixo PC 1 Eixo PC 2 Eixo PC 3 S1 0,9688 0,0664 -0,2387 S2 0,9701 0,0408 0,2391 S3 -0,1045 0,9945 0,0061

Interpreta-se o eixo 1 como altamente positivo em relação à abundância das espécies 1 e 2 e fracamente negativo em relação à abundância da espécie 3. Por outro lado, o eixo 2 é positivo em relação à abundância de todas as espécies, principalmente com a espécie 3. Assim, o “gradiente” refletido pelo eixo 2 beneficia a espécie 3.

VI.7 Aplicação da técnica de análise de componentes principais nas malhas Silvestre-