• Nenhum resultado encontrado

Regressão por Componentes Principais (PCR)

3.3 Calibração Multivariada

3.3.1 Regressão por Componentes Principais (PCR)

A regressão por componentes principais é uma maneira de lidar com o problema de matrizes mal condicionadas, isto é, aquelas em que ocorre dependência linear entre as colunas da matriz X ,

como no caso de misturas, ou quando X contém um número menor de amostras que variáveis

(menos linhas que colunas). Nestes casos,

(

XtX

)

−1 não existe (WISE et al., 2003).

Ao invés de realizar a regressão das propriedades do sistema (neste caso, as propriedades das formulações dos fluidos para freios), sobre as variáveis originais medidas (neste caso, as composições), as propriedades são regredidas sobre os “scores” das variáveis medidas (WISE et al., 2003).

A base do método de regressão PCR é a Análise de Componentes Principais (PCA), que consiste numa manipulação na matriz de dados X com o objetivo de representar as variações presentes em muitas variáveis através de um número menor de “fatores”, também chamados de “componentes principais” ou “variáveis latentes” (FERREIRA et al., 1999). A proposta da análise de PCA é expressar a informação principal contida nas variáveis X =

{

xi, =i 1,2...k

}

através de um número

Os coeficientes das combinações lineares (pesos, ou “loadings”) representam o quanto cada variável original contribui para os componentes principais e são os cossenos dos ângulos formados entre os eixos originais e os PCs. De acordo com a ilustração da figura 3.3 os “loadings” de PC1 são os cossenos dos ângulos θ1 e θ2 respectivamente. No caso de PC2 o

raciocínio é análogo. Os “scores” são as projeções das amostras na direção dos PCs e representam as coordenadas dos pontos nos eixos dos mesmos. Expressam as relações entre as amostras. Na figura 3.3, os “scores” das amostras 1 e 2 estão representados por t1 e t2,

respectivamente. Em termos geométricos, a função dos componentes principais é descrever a variação ou espalhamento entre os pontos usando o menor número possível de eixos. Isto é feito definindo novos eixos (componentes principais) que se alinham com os dados (figura 3.3).

Figura 3.3 - Representação gráfica da Análise de Componentes Principais (SHARMA, 1996).

Como pode ser observado na figura 3.3, nem X1 nem X2 descrevem a maior variação nos dados.

No entanto, o primeiro componente principal (PC1) tem uma direção tal que descreve o máximo espalhamento das amostras, mais que qualquer uma das duas variáveis originais (X1e X2).

Aplicando PCA à matriz de dados X obtém-se: t k k t t p t p t p t X = 1 1 + 2 2 +...+ (3.11)

No modelo acima, cada termo tipit, =i 1,2,...k é uma matriz de posto igual a 1 onde ti são os

vetores dos “scores” (contêm a informação de como as amostras se relacionam entre si). e t i p

são os vetores transpostos dos “loadings” (contêm a informação de como as variáveis se relacionam entre si).

Na equação 3.11 k deve ser menor ou igual à menor dimensão da matriz X . Se esta tiver

dimensão mxn , então kmin( nm, ).

Na decomposição PCA os vetores pi são autovetores da matriz de covariância da matriz X ,

onde: 1 ) cov( − = m X X X t (3.12) isto é, para cada pi temos: cov(X)∗ piipi (3.13) onde λi é o autovalor associado ao autovetor pi.

Os vetores ti formam um conjunto ortogonal (tittj =0 paraij), enquanto os vetores pi são

ortonormais (p p 0 parai j, p pj 1parai j)

t i j

t

i = ≠ = = . Assim, para X e qualquer par (ti,pi)

temos:

i i t

Xp = (3.14)

A equação 3.14 mostra que os vetores de “scores” ti são combinações lineares das variáveis

originais X definidas por pi.

Os pares (ti,pi) são arranjados em ordem decrescente de acordo com o autovalor λi associado.

Os autovalores λi são uma medida da quantidade de variância descrita pelo par (ti,pi). O primeiro par captura a maior quantidade de informação, ou seja, a maior quantidade de variação nos dados que é possível capturar com um fator linear. Cada par subseqüente captura a maior

quantidade possível da variância remanescente, após a subtração de cada parcela t i ip

t da matriz X.

Assim, cada componente principal representa uma parcela da variância total das variáveis originais e para obtenção do modelo de regressão PCR são escolhidos os PCs mais significantes, ou seja, os primeiros, visto que a ordem de importância é decrescente na equação 3.11.

Em seguida, aplica-se um modelo de regressão linear múltipla (MLR) aos PCs escolhidos, através da equação:

e Tb

y= + (3.15)

cuja solução é: bˆ=(TtT)−1Tty (3.16)

onde: y- vetores das propriedades das formulações T - matrizes dos “scores”

b - vetores dos coeficientes da regressão PCR e - vetores dos resíduos do modelo

- vetores das estimativas dos coeficientes da regressão PCR

Como em PCA, o número de componentes principais a serem retidos no modelo deve ser determinado. Na etapa de regressão (equações 3.15 e 3.16) não é necessário usar todos os componentes principais obtidos na decomposição da matriz X . Na realidade, seria melhor se

fossem usados poucos componentes principais, uma vez que os últimos geralmente correspondem a ruídos (ESBENSEN, 2006). Aqui, o propósito do modelo de regressão é predizer as propriedades de interesse para as novas amostras. Com isso, é desejável determinar o número de componentes principais que otimize a habilidade de predição do modelo. Isto é feito normalmente pela utilização da validação cruzada, um procedimento onde os dados avaliados são divididos em conjuntos de treinamento (calibração ou “learning set”) e teste (predição ou “test set”). O erro residual da predição das amostras de teste é determinado como uma função do número de componentes principais utilizados no modelo de regressão das amostras de calibração.

No presente trabalho o método de validação usado foi a validação cruzada “leave-one-out”, onde o conjunto de dados é dividido em dois subconjuntos, um contendo ( −n 1) amostras e o outro contendo 1 amostra. As ( −n 1) amostras são usadas para construir o modelo com um determinado número de componentes principais, enquanto que a amostra excluída é usada para predição (BEEBE; PELL; SEASHOLTZ, 1998). Este processo é repetido até que todas as amostras sejam deixadas de fora e o RMSEP é calculado. O número de componentes principais do modelo é alterado e repete-se o mesmo procedimento de validação cruzada “leave-one-out”. O número mais adequado de componentes principais (k) para o modelo será o correspondente ao

menor valor do erro de predição (FERREIRA et al., 1999), que neste caso foi obtido por validação cruzada e expresso por:

(

)

n y y RMSECV n i i i = − = 1 2 (3.17) onde:

RMSECV - raiz quadrada do erro quadrático médio de validação cruzada. i

y - valor predito padronizado para a propriedade da amostra i, quando a mesma não é incluída

no modelo.

i

y - valor experimental padronizado da propriedade da amostra i. n - número de amostras.

Se todos os componentes principais são utilizados no modelo, o resultado é idêntico ao obtido na regressão linear múltipla. Pode-se dizer que o modelo PCR converge para o modelo MLR com o aumento do número de componentes principais.

Segundo FERREIRA et al. (1999), a detecção de “outliers” (pontos anômalos) é tão importante quanto a determinação do número de componentes principais a ser usado no modelo. Para isto, são usadas duas grandezas complementares: “leverage” e resíduos de “Student”. Ambas serão discutidas no capítulo de resultados e discussão, onde aplicável.

Um aspecto importante do método PCR é que ele utiliza apenas a informação contida na matriz preditora, sem levar em consideração a informação contida na matriz de respostas Y (FERREIRA et al., 1999; NAES; MARTENS, 1984; WISE et al., 2003).

Documentos relacionados