• Nenhum resultado encontrado

LISTA DE ABREVIATURAS, SIGLAS E SÍMBOLOS

3. FUNDAMENTAÇÃO TEÓRICA 1 PETRÓLEO E DERIVADOS

3.4. ESPECTROSCOPIA NO INFRAVERMELHO

3.6.2. Método de calibração multivariada – Mínimos Quadrados Parciais (Partial Least

Squares – PLS).

A calibração multivariada tem como princípio básico a utilização simultânea de muitas variáveis (como valores de absorbância a vários comprimentos de onda) para quantificar alguma outra variável de interesse (como a concentração).

A aplicação da calibração multivariada na espectroscopia ou na cromatografia de amostras costuma ser bem sucedida. Com a calibração multivariada, os parâmetros do modelo podem ser estimados em função de variáveis físicas ou químicas. A calibração multivariada também tem a capacidade de corrigir efeitos interferentes. (Brereton, 2007; Kalivas. & Gemperline, 2006).

Para facilitar a escolha do método de calibração a Figura 9 mostra um fluxograma que auxilia nesta definição.

Figura 9: Esquema geral dos métodos de calibração. Fonte: (Ferreira, 1999).

Os métodos tradicionais de calibração CLS (Classic Least Squares)- método clássico de mínimos quadrados e MLR (Multiple Linear Regression) - regressão linear múltipla, têm suas vantagens e desvantagens quando aplicados a problemas químicos. Ambos utilizam toda a informação contida na matriz de dados para modelar a concentração, isto é, toda a informação espectral. O CLS tem como principal problema a necessidade de se conhecer as concentrações de cada espécie espectroscopicamente ativa no conjunto de calibração, o que em geral é improvável nos problemas práticos. Já o método MLR tem o problema de colinearidade: o número de amostras deve exceder o número de variáveis, que por sua vez devem fornecer predominantemente informação única. Tem-se neste caso a opção de selecionar um número de variáveis que seja menor que o número de amostras e que produzam informação "única", o que pode ser demorado e tedioso. Mais interessante, então, seria a utilização de algum método que, como o CLS, use o espectro inteiro para análise, e como o MLR, requeira somente a concentração do analito de interesse no conjunto de calibração (Ferreira (b), 1999).

Dois métodos que preenchem estes requisitos são o PCR (Principal Component Regression)- Regressão em Componentes Principais e o PLS (Partial Least Quares) - Mínimos Quadrados Parciais. O PCR usa etapas semelhantes à análise ACP para decompor a matriz e então relaciona os resultados com a variável dependente. Já o PLS também decompõe a matriz ,

mas com a variação de que durante a etapa de decomposição, passa-se informação extraída das variáveis para o vetor de e vice-versa. Assim, estes dois métodos são consideravelmente mais eficientes para lidar com ruídos experimentais, colinearidades e não linearidades. Todas as variáveis relevantes são incluídas nos modelos via PCR ou PLS, o que implica que a calibração pode ser realizada eficientemente mesmo na presença de interferentes, não havendo necessidade do conhecimento do número e natureza dos mesmos. Os métodos PCR e PLS são robustos, isto é, seus parâmetros praticamente não se alteram com a inclusão de novas amostras no conjunto de calibração. Em especial o método PLS tem se tornado uma ferramenta extremamente útil e importante em muitos campos da química, como a Físico- Química, a Química Analítica, a Química Medicinal, Ambiental e ainda no controle de inúmeros processos industriais.

O PLS reduz o espaço multivariado através da criação de um novo conjunto de variáveis, chamadas de fatores ou variáveis latentes, que são combinações lineares das variáveis espectrais originais.

Essa técnica de regressão decompõe a matriz de dados espectrais em variáveis latentes (VL), relacionando-as com a matriz de dados (que contém os valores da variável de interesse), simultaneamente trocando informações entre as matrizes até a obtenção do modelo de calibração que apresentar menor erro de previsão da propriedade de interesse

A primeira variável latente correspondente ao maior autovalor é, por definição, a direção no espaço que descreve a máxima quantidade de variância entre as amostras. Quando toda a variância de um conjunto de amostras não puder ser explicada por apenas uma variável latente, uma segunda variável latente ortogonal à primeira será utilizada. O processo de adição de novas variáveis latentes ortogonais se repete até que a variância não explicada pelas variáveis latentes selecionadas contenha apenas informação não essencial à calibração, ou seja, ruído (Bueno, 2004).

Assim, no PLS, as matrizes e são decompostas simultaneamente como nas equações a seguir:

Onde e são as matrizes de escores das matrizes e , respectivamente; e são as matrizes dos pesos de e , respectivamente; e e são os resíduos. A correlação entre os dois blocos e é simplesmente uma relação linear obtida pelo coeficiente de regressão linear, tal como descrito abaixo,

Sendo que os valores de são agrupados na matriz diagonal , que contém os coeficientes de regressão entre a matriz de escores de e a matriz de escores de . A melhor relação linear possível entre os escores desses dois blocos é obtida através de pequenas rotações das variáveis latentes dos blocos de e .

A matriz pode ser calculada de , através da equação:

!

e as concentrações de novas amostras previstas a partir dos novos escores, ", substituídos na equação anterior.

"

Nesse processo, é um passo crítico estabelecer o número correto de componentes principais a serem utilizados nos modelos de calibração, já que os valores preditos para as propriedades dos produtos, calculados a partir desses modelos, dependem diretamente do número de componentes principais utilizados. Poucos fatores podem não ser suficientes para modelar adequadamente o sistema, enquanto muitos fatores podem introduzir ruído à calibração, o que resulta num baixo poder de predição para misturas fora do conjunto calibração.

A construção do modelo quimiométrico baseado no PLS pode ser dividida em três etapas:

Calibração, na qual são utilizados os espectros de absorção das misturas do conjunto de calibração para a construção de um modelo matemático que melhor se ajuste aos dados espectrais e aos valores de referência do parâmetro desejado.

Validação, na qual se verifica a robustez do modelo construído. Isto é feito avaliando o erro de previsão de amostras do conjunto de calibração (validação interna), também conhecida

como validação cruzada (cross validation), ou de amostras externas ao modelo (validação externa).

Previsão, na qual se avalia o poder preditivo do modelo construído utilizando amostras do conjunto que não participaram da etapa de calibração.

Verifica-se que a etapa de validação é extremamente importante, pois os resultados dessa etapa indicarão se o modelo construído é adequado ou não para efetuar a determinação do parâmetro desejado (Sacorague, 2004).

Durante a etapa de validação dois fatores devem ser considerados: o número de variáveis latentes ou fatores a ser utilizado no modelo e a detecção de amostras anômalas.

A validação cruzada é uma metodologia utilizada para a escolha do número de variáveis latentes baseada na avaliação da magnitude dos erros de previsão de um dado modelo de calibração. Esta avaliação é feita pela comparação das previsões das concentrações previamente conhecidas #$ .

As principais etapas da validação cruzada são: remoção de uma ou mais amostras % do conjunto de calibração; construção do modelo; utilização do novo modelo para prever os dados removidos &'( ; cálculo do erro de previsão &( ) &' ; cálculo do erro médio quadrático da validação cruzada (RMSECV- Root Means Squared Error of Cross Validation).

*+, -. /02$324 ) 5#$) #1 onde4 o número total de amostras do conjunto de calibração.

Para avaliar melhor a robustez do PLS é importante testá-lo com amostras que não participaram na calibração, validação externa. Nesta técnica também é determinado um erro médio de predição (RMSEP - Root Mean Squared Error of Prediction). A maneira de calcular é semelhante ao RMSECV, a diferença é que as amostras % não participaram da calibração.

*+, /02$32 #4$) #1

onde4 o número total de amostras usadas para validar o modelo.

O RMSECV e RMSEP são medidas simples e eficientes da incerteza sobre futuras previsões. Este valor (uma para cada resposta) indica a incerteza média que pode ser esperada quando valores de são preditos para novas amostras, expressas na mesma unidade que as variáveis . O número de variáveis latentes a ser utilizado no modelo será o correspondente ao menor valor de RMSECV ou RMSEP.

Tão importante quanto a definição do número de variáveis latentes que serão empregados no modelo é a identificação de amostras anômalas, para que se tenha um conjunto de amostras homogêneo e sejam descartadas amostras que são discrepantes em relação ao grupo. Para identificar amostras anômalas são usados os valores de influência (leverage) e os de resíduos.

Os valores de influência mostram o nível de contribuição que uma determinada amostra tem sobre o modelo de regressão. A influência pode ser interpretada geometricamente como a distância de uma mistura ao centróide do conjunto de dados. Alta influência no modelo significa que a mistura está distante do centro do dado e consequentemente contribui fortemente para construção do modelo de calibração. Misturas com resíduos e influência altos devem ser excluídas e o modelo de calibração reconstruído.

Uma vez o modelo validado e otimizado, passa-se para etapa de previsão. A etapa de previsão usando um modelo construído por PLS começa com a decomposição da matriz contendo os espectros do conjunto teste Calcula-se, pois, a matriz dos escores do bloco independente

através da equação:

Em seguida, determina-se a matriz através da relação: 6

Calcula-se, finalmente, a matriz das concentrações:

Como o objetivo é prever propriedades de novas amostras para mostrar que os resultado são confiáveis, é necessário que todas as propriedades destas novas amostras estejam na mesma faixa daquelas usadas na etapa de calibração.

Os principais resultados de previsão incluem os valores previstos da variável e os desvios. Eles podem ser exibidos através de gráficos. Estes gráficos apresentam os valores previstos da variável e os desvios para cada amostra. O desvio expressa quão similar o valor previsto é do modelo de calibração construído. Quanto menor o desvio, mais similar é a amostra ao modelo proposto. Valores previstos da variável para amostras com altos desvios podem não ser confiáveis.

4. METODOLOGIA

Para que o desenvolvimento do trabalho ocorresse de uma forma mais eficiente foi elaborado o Fluxograma 1, com a descrição das macro etapas que foram cumpridas durante o trabalho.