• Nenhum resultado encontrado

A análise de componentes principais, PCA (do inglês, principal component analysis) foi criada para a estatística por Pearson, em 1901. O PCA só foi introduzido na química por volta de 1960, com o nome de análise de fatores principais [25].

O PCA é a principal base dos métodos modernos de tratamento de dados multivariados, onde a matriz de dados X é decomposta em uma soma de matrizes

19 de posto igual a 1, onde posto é um número que expressa a dimensão de uma matriz. Essas novas matrizes de posto 1 são produtos de vetores chamados “scores” (escores), th, e “loadings” (pesos), ph. Estes “scores” e “loadings” podem

ser calculados par a par por um processo iterativo, como na Equação 10 [22].

X = t1 p’1 + t2 p’2 + ... + th p’h Equação 10

Os “scores” são coordenadas das amostras em um novo sistema de eixos, e os mesmos são ortogonais entre si, ou seja, completamente não correlacionados. Seus gráficos são formados por componentes principais (PC), que são ordenados em ordem crescente de variância. Por exemplo, a primeira componente principal (PC1) é aquela que contém o maior número de informações dos dados originais [23,25,27]. Os “loadings” são os pesos ou influência das variáveis. O PCA transforma o conjunto de dados iniciais em um novo conjunto menor (faz uma redução de dados), com informação estatística relevante, onde a partir dos “scores” e “loadings”, constrói-se um novo sistema de eixos (componentes principais) para a representação das amostras, podendo-se, desta forma, visualizar a natureza multivariada dos dados em poucas dimensões. Em outras palavras, o PCA redimensiona as variáveis em um espaço vetorial A [22]. A Figura 7 mostra matricialmente à decomposição da matriz X nas matrizes de “scores” e “loadings” [22].

Figura 7: Representação da matriz de dados X decomposta em produto de matrizes de posto

igual a um [22].

Outros objetivos do PCA, além da redução de dados, são: simplificação (ou seja, redução da dimensão original dos dados), modelamento, detecção de amostras anômalas (ou “outliers”), seleção de variáveis importantes, classificação e análise exploratória de dados [25].

Ao se trabalhar com PCA, muitas vezes, é necessário efetuar uma etapa de pré-processamento nos dados, que podem ser: (1) centralização dos dados na média ou (2) auto-escalonamento dos dados. O primeiro tipo de pré-

20

processamento consiste em calcular a média dos dados de determinada coluna (variável) e, em seguida, subtraí-la de cada dado da referida coluna. Assim, as médias das variáveis são igualadas a zero. No segundo tipo, calculadas as médias e os desvios padrões, em seguida subtrai-se cada valor da média, e divide-se o resultado pelo desvio padrão. Portanto, a média de cada variável será zero e o desvio padrão será igual a 1. A Figura 8 representa as operações descritas: em (a) temos 10 variáveis fictícias (retângulos) sem nenhum tipo de pré-processamento, em (b) temos as mesmas variáveis centradas na média (média igual a zero) e em (c) temos as variáveis auto-escaladas (praticamente do mesmo tamanho – desvio padrão igual a 1). O pré-processamento centrado na média é utilizado, principalmente, para dados de espectros, e o auto-escalado, é utilizado quando se quer dar o mesmo peso ou importância para todas as variáveis.

Figura 8: Representação do pré-processamento de 10 variáveis fictícias (retângulos). Em (a) temos as variáveis originais, em (b) as mesmas variáveis centradas na média (média igual a zero) e em (c) temos as variáveis auto-escaladas (média igual a zero e desvio padrão igual a 1).

II - 2.2) PLS

A regressão de mínimos quadrados parciais, PLS (do inglês partial least squares) é o método de regressão mais utilizado para a construção de modelos de calibração multivariada, a partir de dados de primeira ordem. O PLS não requer um conhecimento exato de todos os componentes presentes nas amostras, podendo realizar a previsão de amostras mesmo na presença de interferentes,

21 desde que estes também estejam presentes por ocasião da construção do modelo (vantagem de primeira ordem) [28].

O PLS estabelece uma relação quantitativa entre o conjunto de respostas instrumentais X (por exemplo: cromatogramas, espectros) com uma ou mais com variáveis dependentes y [22], desenvolvendo um modelo matemático que fornece propriedades importantes. Sua forma básica é conhecida como PLS 1 e aplica-se somente a uma variável, enquanto que, em sua forma mais complexa, chamada de PLS 2, aplica-se a 2 ou mais variáveis [23,26].

O modelo PLS é obtido através de um processo iterativo construído a partir do algoritmo NIPALS, no qual se otimiza ao mesmo tempo a projeção das amostras sobre os “loadings” para a determinação dos “scores” e o ajuste por uma função linear dos “scores” das matrizes X e Y, de modo a minimizar os desvios. Essa otimização simultânea ocasiona pequenas distorções nas direções dos “loadings”, de modo que eles perdem a ortogonalidade, levando a pequenas redundâncias de informação. No entanto, são essas pequenas redundâncias que otimizam a relação linear entre os “scores”. Estas distorções da ortogonalidade entre os PCs no PLS fazem com que os mesmos não sejam mais denominados de componentes principais (que são ortogonais) e sim variáveis latentes (LV).

II - 2.3) SIMCA

O método SIMCA [29,30,31] é construído a partir de modelos baseados em componentes principais, no qual cada classe corresponde a um conjunto de treinamento. Um número ótimo de componentes principais é determinado independentemente para cada classe e o modelo final é obtido através da definição da fronteira entre cada PCA modelado. Como conseqüência, obtém-se uma hipercaixa com tantas dimensões quantas forem o número de PCs mais adequados para cada classe. Uma vez definidas as hipercaixas, é importante verificar se existem classes com sobreposição. O poder de discriminação dos modelos SIMCA se baseia na não existência de sobreposição entre duas classes diferentes, bem como na maior distância interclasses possível. A classificação de

22

uma amostra externa àquelas empregadas na modelagem SIMCA é baseada nas diferentes projeções possíveis no espaço dos escores e avaliando-se se a mesma encontra-se dentro das fronteiras definidas para a respectiva classe em todas as projeções obtidas.

Para este projeto, foram montados modelos com os 3 conjuntos de amostras-padrão da Tabela 3 para depois classificar uma amostra desconhecida.

Documentos relacionados