• Nenhum resultado encontrado

2 REVISÃO DE LITERATURA

2.9 Calibração multivariada

Além do planejamento experimental, a estatística multivariada aplicada à química é frequentemente utilizada no tratamento de dados analíticos (CORREIA; FERREIRA, 2007). A calibração multivariada, conhecida como quimiometria, é atualmente considerada uma parte da química analítica. O termo quimiometria (do inglês chemometrics) foi proposto no final da década de 1970 para descrever as técnicas e operações associadas com a manipulação matemática e interpre- tação de dados químicos. Com o passar dos anos, com a popularização dos computadores e da facilidade da sua aquisição e uso, muitos químicos passa- ram a ter como objeto de estudo e pesquisa o desenvolvimento e a utilização de ferramentas matemáticas e estatísticas para extrair maior informação dos dados. Esta associação proporcionou a geração procedimentos e domínio de

informações que não seriam possíveis, ou não teriam sentido sem o conheci- mento dessas ferramentas matemáticas para análise de dados.

Foi dentro da química analítica que a quimiometria provavelmente causou o maior impacto. Com o avanço da instrumentação e automação nos labora- tórios de análise, uma enorme quantidade de dados começou a ser gerado muito rapidamente. A identificação, classificação e interpretação desses dados podem ser fatores limitantes na eficiência e efetividade das operações de análises, principalmente sem a utilização de um adequado tratamento dos dados. Além disso, novas metodologias de análise puderam ser propostas, com base na utilização da quimiometria, que, de outra forma, não poderiam ser executadas. Um exemplo típico, e que será objeto desse estudo, são as análises quantitativas sem resolução do sinal analítico. Aqui o termo resolução significa que o sinal analítico não necessariamente precisa ser proveniente apenas do analito (a espécie que se deseja determinar). Também começaram a ser realizados número maior de determinações espectrofotométricas simultâ- neas, em que várias espécies eram analisadas simultaneamente. A apresen- tação dos resultados experimentais na forma de gráficos facilita a interpretação dos dados (CORREIA; FERREIRA, 2007).

Estas novas metodologias têm sido utilizadas principalmente em conjunto com técnicas espectroscópicas para o monitoramento on-line ou in-situ, e em análises sem a destruição da amostra.

A calibração multivariada é empregada de forma bastante efetiva justa- mente nos casos onde existe o problema da superposição de sinais analíticos e para determinações simultâneas. Um modelo é produzido, com base em todas as informações disponíveis, que consegue fazer uma relação entre todo o sinal analítico e a propriedade de interesse (concentração em muitos casos).

A aplicação da calibração multivariada em química analítica teve um avanço significativo, tornando-a mais popular atualmente com a utilização do método dos mínimos quadrados parciais (do inglês Partial Least Squares – PLS) e a análise de componentes principais (do inglês Principal Component Analysis – PCA), que é empregada em uma análise qualitativa dos espectros de refle- tância e permite acessar as diferenças e semelhanças entre eles. Pelo uso destas técnicas, muitos problemas de cálculo foram superados e um grande

com a utilização de técnicas de inteligência artificial no tratamento de dados químicos, como redes neurais e algoritmos genéticos, certos problemas que ainda não eram resolvidos com a utilização do PLS, como a modelagem de sistemas não lineares, pôde ser suplantada. Isso ampliou ainda mais a aceita- ção da calibração multivariada em química analítica (KIM, 1994).

A utilização da PCA visa reduzir a dimensionalidade do conjunto de dados original, preservando a maior quantidade de informação (variância) possível. Essa redução é obtida por meio do estabelecimento de novas variá- veis ortogonais entre si, denominadas componentes principais (PCs). Organiza- das em ordem decrescente de importância, as PCs são combinações lineares das variáveis originais, maximizando a descrição de dados de variância (CORREIA; FERREIRA, 2007). Essa redução dos números de variáveis é denominada compreensão dos dados e é obtida por meio da combinação linear das variáveis originais, que busca agrupar aquelas que fornecem informações semelhantes.

A primeira PC (PC1) é definida pela direção que descreve a máxima variância dos dados ortogonais. A segunda PC (PC2) tem a direção de máxima variância dos dados no subespaço ortogonal à PC1, e as PCs subsequentes são ortogonais às anteriores e orientadas de tal maneira que descrevam sempre a máxima variância restante. Pela própria maneira como estas novas variáveis são definidas, é possível descrever quase toda a informação contida nos dados originais utilizando poucas PCs. Isso permite representar as amos- tras usando um espaço cuja dimensão A é bem reduzida se comparada à dimensão do espaço que descreve os dados originais. Cabe ressaltar que as relações entre as amostras não são alteradas por esta transformação de eixos.

Uma das formas de calcular os autovetores do espectro é através do método de análise do componente principal (PCA). Este modelo foi introduzido na química na década de 1960 e consiste em um processo de simplificação dos dados, que torna possível encontrar relações entre objetos. O PCA apre- senta como vantagens a detecção de outliers (amostras que não respondem bem ao modelo de calibração) e a possibilidade de classificação e predição de resultados.

Uma vez definidas as PCs, os dados originais são projetados neste novo sistema de eixos. Por isto, o método PCA é conhecido como um método de projeção, pois as amostras são projetadas em um espaço de dimensão menor.

Do ponto de vista matemático, a construção de modelos de calibração multivariada trata da aquisição de respostas instrumentais para uma série de padrões (amostras de calibração), em que o valor da propriedade de interesse é conhecido (BRAGA; POPPI, 2004).

O modelo PLS (Partial Least-Square Regression – regressão por mínimos quadrados parciais) pode ser construído, segundo o algoritmo SIMPLS, pela decomposição em componentes principais (Principal Component

Analysis – PCA) das matrizes X e y simultaneamente, levando a:

E P T XAA AT  (1) f q T yAA A  (2)

em que TA são os escores; PA e qA são os loadings; E e f, as matrizes de erro referentes a decomposição de X e y, respectivamente; A é o número de variáveis latentes utilizado no modelo; e o índice T elevado indica a operação de transposição de uma matriz ou vetor.

Paralela à decomposição de X e y é calculada uma matriz de pesos R, de forma que quando multiplicada pela matriz de dados X apresenta como resultado os escores T.

TA = XRA (3)

A matriz de peso R é determinada de forma a cumprir as seguintes condições:

1) Maximizar a covariância entre X e y, isto é: qTA(yTX)rAmax;

2) R e q são normalizados, isto é, para cada variável latente A: qTAqA e rATrA1; e

3) Os vetores escores são ortogonais entre si, assim: para as variáveis latentes 1 e 2, t1Tt20.

Dessa forma, uma estimativa do vetor y pode ser obtida como descrito na equação 2. Para um novo conjunto de amostras de previsão, pode-se escrever; cal T A A A A ev Pr A ev Pr q X R q XPrevR T y T y    (4)

em que ycal são as concentrações das amostras utilizadas na etapa de calibração. Dessa forma, o vetor de coeficientes de regressão b pode ser estimado por: cal T A AT y R b (5)

e o modelo de regressão representado por:

x b

yPrev Prev (6)

em que yPrev é o vetor de concentrações estimado por meio do modelo PLS; e

 são os erros de previsão.

A matriz dos dados originais ou pré-processados, X(i x j), é, inicialmente, decomposta em dois vetores: um de escores, Ti, e um de pesos (loadings) Ii, em que i é o número de amostras; j o número de variáveis; e Ei é o erro referente ao modelo, como mostrado na Equação 1.

   

XTi

 

iT

 

Ei (7) O vetor t1 é formado pelas coordenadas de cada amostra na primeira nova variável (PC1), enquanto a coluna I1 contém a informação do quanto cada variável original contribuiu (seu peso) na formação da primeira PC (PC1). Os pesos podem variar entre +1 e -1 e são os cossenos dos ângulos entre PC1 e os eixos das variáveis originais. Valores elevados para os pesos indicam altas correlações, sendo que o ângulo entre PC1 e a variável original é pequeno. E1 é a matriz de resíduos que contém toda a informação original que não foi descrita por PC1. Esta matriz (E1) é utilizada para calcular a segunda

PC (PC2), conforme mostrado na Equação 2. Ao utilizar a matriz de resíduos

para cálculo da próxima PC, fica evidente uma propriedade importante das

   

X1t2

 

2T

 

E2 (8)

A determinação do número de PCs que devem ser utilizadas para se ter uma boa descrição do conjunto de dados, sem perder informações relevantes por um lado, nem incluir resíduos por outro, é muito importante e há várias maneiras de fazê-la.

Embora a calibração multivariada juntamente com a análise de NIRS não sejam métodos novos, elas são novidades na caracterização tecnológica de madeira no Brasil. Apesar das grandes vantagens da técnica há ainda alguns problemas nas predições de certas características da madeira. Assim, é importante estudar mais esta técnica a fim de aprimorá-la e torná-la um veículo de grande utilidade para o estudo da madeira.

Modelos de calibração por PLS (Partial Least-Square Regression – regressão por mínimos quadrados parciais) são os mais utilizados e estão intimamente relacionados a outros modelos de calibração multivariada, como o CLS (Classical Least-Squares – regressão clássica pelos mínimos quadrados), o ILS (Inverse Least-Square – regressão pelo inverso dos mínimos quadrados) e o PCR (Principal Component Regression – regressão por análise de componentes principais). Em sistemas químicos, a concentração de uma ou mais espécies pode ser estimada a partir da medida das propriedades deste sistema, como a absorção de radiação eletromagnética, que apresenta uma relação linear diante da concentração da amostra, conhecida como Lei de Beer-Lambert.

O método da regressão por mínimos quadrados parciais (PLS) vem ganhando destaque nos últimos anos, pois apresenta muitos benefícios. Os algoritmos PCR e PLS são parecidos, pois ambos utilizam técnicas de decomposição espectral, mas no PLS a decomposição espectral é realizada de outra forma, pois este método considera a informação das concentrações das amostras de calibração na decomposição, o que resulta em pesos maiores para espectros com concentrações do analito mais altas e dois conjuntos de vetores e escores, um para os dados espectrais e outro para as concentrações.

Os passos de decomposição ocorrem simultaneamente e como resultado as equações do modelo são mais complexas que as de PCR. A quantidade adequada de componentes principais ou fatores pode ser analisada

pelo cálculo do PRESS (Prediction Residual Error Sum of Squares – soma dos quadrados dos resíduos dos erros de predição) para cada fator possível. O PRESS é calculado a partir da construção de um modelo de calibração com um determinado número de fatores. O modelo elaborado é usado para a determi- nação da concentração em amostras conhecidas. A soma do quadrado das diferenças entre as concentrações obtidas no modelo e a concentrações conhecidas é dada pela equação 9.

(9)

em que n é o número de amostras usadas na calibração; m é o número de componentes da amostra; Cp é a matriz das concentrações obtidas pelo modelo; e C é a matriz das concentrações conhecidas dos componentes da amostra.

As vantagens do PLS são que ele associa a cobertura espectral completa do CLS com a predição do ILS, as calibrações são em geral mais robustas, podendo ser utilizado em misturas complexas. Como desvantagem pode-se citar a necessidade de uma adequada seleção das amostras de calibração, pois estas não devem apresentar colinearidade em suas propriedades (OLIVEIRA, 2006).

Documentos relacionados