• Nenhum resultado encontrado

Análise de componentes principais (PCA)

No documento DISSERTAÇÃO DE MESTRADO (páginas 55-58)

3. REVISÃO BIBLIOGRÁFICA

3.4. Validação de métodos cromatográficos

3.5.2. Métodos de análise multivariada

3.5.2.3. Análise de componentes principais (PCA)

O principal objetivo da PCA é a redução da dimensionalidade dos dados da matriz original. A vantagem da diminuição está na facilidade de visualizar a distribuição espacial das amostras, influenciada pelas variáveis originais, em gráficos bi e tridimensionais [59]. Para efetuar tal redução, sem perda de informações, a matriz original é representada por novas variáveis (combinações lineares entre as variáveis independentes originais), agora ortogonais entre si e direcionadas em função da distribuição espacial dos dados.

As novas variáveis são chamadas de componentes principais (PC). A primeira componente principal é aquela situada na direção de maior variância dos dados, a segunda é ortogonal a primeira e em uma direção que lhe permita descrever a maior variação nos dados. Desta forma, cada componente adicionada descreve uma variância menor do que a componente anterior.

A matriz original X, constituída de objetos (por exemplo, amostras) nas

linhas e variáveis (por exemplo, áreas de picos cromatográficos) nas colunas, é decomposta em duas matrizes menores, as matrizes de escores (T) e de pesos (P), e uma matriz de resíduos que indica a parte não modelada de uma PC, como ilustrado na Figura 12:

Figura 12. Decomposição da matriz X em outras menores de escores (amostras), de pesos

(variáveis) e de resíduos.

Na figura, X é a matriz original constituída de m linhas (objetos) e n

colunas (variáveis); T é a matriz de escores com m linhas e d colunas (número

de componentes principais); P é a matriz de pesos com n colunas e d linhas e E é a matriz de resíduos com m linhas e n colunas [60]. É a matriz de resíduos

que será utilizada para a modelagem da próxima componente principal. Por isso, a variância explicada pelas componentes principais tende a diminuir sucessivamente, a cada componente principal adicionada no modelo.

Este tipo de análise de dados encontra as direções no espaço multivariado onde a variabilidade dos dados é máxima, ajustando uma componente principal nestas direções. Cada amostra é representada por um ponto no espaço de dimensão M, do qual é possível extrair informações das amostras e de agrupamento de amostras, que apresentem características semelhantes. A representação gráfica de um conjunto de dados em um espaço bidimensional é ilustrada na Figura 13.

Figura 13. Primeira e segunda PC em um espaço bidimensional [56].

De uma forma geral, as combinações lineares das variáveis originais que geram cada PC podem ser representadas pela Equação 18.

n d n

X = T P + E

m m m d

m im i i i a v a v a v PC = 1 1+ 2 2 +...+ Equação 18

Nesta equação, vj (para j = 1, 2, ..., m) são as variáveis originais e aij

(para j = 1, 2, ..., m) são os coeficientes que medem a importância de cada variável na i-ésima PCi, ou seja, o peso (“loading”) que cada variável tem

naquela combinação linear. Estes pesos nada mais são do que o cosseno do ângulo entre o eixo da componente principal e o eixo da variável original, portanto seu valor estará sempre entre -1 e 1. Quanto mais próximo de ±1, maior a influência que esta variável tem na descrição desta componente principal. Quanto mais próximo de zero este coeficiente estiver, menor será a influência da variável naquela PC. Os escores consistem na projeção de cada amostra no novo sistema de eixos criados, onde cada amostra terá um valor de escore para cada um das PC criadas [56].

A Figura 14 ilustra os gráficos de escores e pesos para um sistema

bidimensional.

Figura 14. Gráficos dos (a) escores e (b) dos pesos de um sistema de dados bidimensional.

O gráfico dos escores pode revelar agrupamentos ou tendências das amostras analisadas, podendo ainda destacar amostras anômalas em comparação com o restante do conjunto. Isto torna a visualização deste tipo de comportamento muito mais fácil do que a análise minuciosa de todo o conjunto de dados, o que pode ser um trabalho muito demorado e sensível ao erro humano. variável 1 variável 2 variável 3 variável 3 variável 5 amostra 12 amostra 11 amostra 9 amostra 15 amostra 14 amostra 10 amostra 8 amostra 6 amostra 7 amostra 5 amostra 4 amostra 3 amostra 2 amostra 1 amostra 13 (a) (b) PC1 PC1 PC 2 PC 2 variável 1 variável 2 variável 3 variável 3 variável 5 amostra 12 amostra 11 amostra 9 amostra 15 amostra 14 amostra 10 amostra 8 amostra 6 amostra 7 amostra 5 amostra 4 amostra 3 amostra 2 amostra 1 amostra 13 (a) (b) PC1 PC1 PC 2 PC 2 variável 4

O gráfico dos pesos é capaz de mostrar quais variáveis originais tem maior importância na combinação linear de cada componente principal, permitindo inferir quais variáveis contribuem para a descrição de um determinado conjunto de amostras.

A escolha do número de componentes principais a serem utilizadas na descrição dos dados depende da particularidade de cada conjunto de dados e é feita levando-se em conta a porcentagem de variância descrita pelas PC e a variância residual. Pode-se dizer que a escolha do número de PC deve permitir a descrição do sistema com um número de fatores que descrevam a variação máxima, sem introduzir ruídos e informações desnecessárias.

Uma das vantagens da PCA é que devido à grande porcentagem de variância descrita geralmente pelas três primeiras componentes principais, os dados podem ser visualizados fazendo-se um gráfico cartesiano bidimensional de um componente contra o outro, ou até gráficos tridimensionais, capazes de serem analisados pelo olho humano. Outras vantagens da PCA é que ruídos experimentais são eliminados, pois estes não estão correlacionados com as informações contidas na matriz de dados original. Além disso, podemos escolher as variáveis originais mais importantes sob o ponto de vista estatístico.

Devido ao fato das sucessivas componentes principais geradas apresentarem ortogonalidade entre si, elas são completamente não correlacionadas, o que faz com que as amostras e/ou variáveis projetadas sobre as PC sejam verdadeiramente independentes, eliminando-se redundâncias no modelo gerado que poderiam ocorrer através do agrupamento das variáveis altamente correlacionadas.

No documento DISSERTAÇÃO DE MESTRADO (páginas 55-58)

Documentos relacionados