INTRODUÇÃO MULTIVARIADA

(1)

INTRODU

Ç

ÃO

À

CALIBRA

Ç

ÃO

MULTIVARIADA

APLICA

Ç

ÃO NO CONTROLE DE QUALIDADE

DE F

Á

RMACOS

Prof. Dr. Marcelo Martins de Sena

MÓDULO 06

1 Unidade Universitária de Ciências Exatas e Tecnológicas

(2)

MÓDULO 06

2

PLS

Partial

Least

_Least

Squares

_Squares

(M

í

_í

nimos Quadrados

_{nimos Quadrados}

Parciais)

Prof. Dr. Marcelo Martins de Sena Prof. Dr. Marcelo Martins de Sena

(3)

PLS

3

⇒

É o método de calibração variada mais usado em

Química

⇒

Proposto por H. Wold nos anos 60 (Econometria)

⇒

Introduzido na Química por S. Wold e H. Martens

no começo dos anos 80

⇒

Semelhante ao PCR, mas decompõe os dados das

variáveis independentes (X) juntamente com os dados

das variáveis dependentes (Y)

⇒

Variável Latente, ao invés de Componente Principal

(4)

Decomposi

ç

ão dos Dados

4

• A PCA é aplicada nas duas matrizes de dados

(espectros, X, e concentrações, Y) simultaneamente

• Uma relação linear é estabelecida entre os

escores dos dois blocos:

X = TP’ + E

Y = UQ’ + F

u

_h

= b

_h

t

_h

, para “h” VL

s

• Ocorrem mudanças em t e u até que se

encontre o melhor modelo linear entre eles

(5)

Decomposi

ç

ão dos Dados

5

X

=

_T

n

p

n

E

+

n

p

P

p

h

U

=

Y

n

m

n

+

Q

m

h

_F

n

m

X = espectros, n amostras e p λs; T = escores, P = pesos e E = resíduos

Y = concentrações, n amostras e p substâncias; U = escores, Q = pesos e F = resíduos

h Variáveis Latentes

(6)

Decomposi

ç

ão dos Dados

6 u x₂ x₂ CP1 X CP1 y₁ y₂ y x₁ t

(7)

Decomposi

ç

ão dos Dados

7

• No PLS existe um compromisso entre a

explicação da variância em X e encontrar a

correlação com Y.

x₃ _VL1

y

•Leve rotação no eixo da CP para aumentar a correlação com y.

•Chama-se Variável Latente (VL).

(8)

PLS1 e PLS2

8

⇒ PLS1:

Uma variável dependente é prevista de

cada vez

- y é um vetor

⇒ PLS2:

Várias variáveis dependentes são

previstas simultaneamente no mesmo modelo

- Y é um matriz

⇒ O número após o PLS indica a dimensão do

arranjo de dados das variáveis dependentes

(9)

ALGORITMOS

-

PLS

9

1) NIPALS: Non-linear iterative partial least squares

- Baseado no cálculo de uma VL de cada vez, a qual vai sendo subtraída dos dados.

- É o mais usado.

2) SIMPLS: proposto por S. de Jong (Chemolab 18:251,

1993).

- Os dados são decompostos em uma única etapa, baseada em uma operação de autovetores. - É mais rápido e mais simples de interpretar

Na prática, a diferença entre os 2 algoritmos é insignificante

(10)

Dimensionalidade dos

Modelos PLS/PCR

10

⇒

É fundamental determinar o número correto de

variáveis latentes (ou componentes principais)

⇒

Subajuste: VL

s

/CP

s

de menos são usadas.

Informação relevante é deixada fora do modelo

⇒

Sobreajuste: VL

s

_/CP

s

_{de mais são usadas.}

Informação irrelevante (ruído) é incluída no modelo

⇒

Realiza-se uma avaliação dos modelos construídos

com diferentes números de VL

s

_{(ou CP}

s

_):

Validação Cruzada

(11)

VALIDA

Ç

_Ç

ÃO CRUZADA

_{ÃO CRUZADA}

11

⇒

Cross Validation

⇒

Separa-se uma parte (ou apenas uma) das

amostras de calibração e constrói-se o modelo com

as restantes.

⇒

Estima-se os erros de previsão para as amostras

que foram separadas, utilizando diferentes números

de VL

s

⇒

Esse processo é repetido para outras amostras,

até que todas tenham ficado de fora

(12)

VALIDA

Ç

_Ç

ÃO CRUZADA

_{ÃO CRUZADA}

12

⇒

Vários tipos dependendo de como a amostra, ou o

subconjunto de amostras, é retirada dos dados

⇒

Leave-one-out: mais usada

Uma amostra é retirada de cada vez

⇒

Blocos contínuos (Contiguous Blocks) e

Subconjuntos aleatórios (Random Subsets): usadas

em grandes conjuntos de dados

(13)

VALIDA

Ç

_Ç

ÃO CRUZADA

_{ÃO CRUZADA}

13

Leave-one-out

Modelo previsão

. . . . . .

. . .

X X Y Y 1

ˆy

n

yˆ

(14)

VALIDA

Ç

_Ç

ÃO CRUZADA

_{ÃO CRUZADA}

14

Escolha do n

o

de VL

s 0 5 10 15 20 25 0.34 0.36 0.38 0.4 0.42 0.44 0.46 0.48 0.5 0.52 0.54

Número de Variáveis Latentes

R M SEC V ( o ) RMSECV vs. VL 5

(15)

Planejamento de Calibra

ç

_ç

ão

_ão

15

⇒

Duas considerações importantes:

1)

O conjunto de calibração deve ser representativo

da população para a qual as futuras previsões

serão feitas

2)

As amostras de calibração devem estar

distribuídas ao longo de todo o espaço amostral:

- Conjunto de calibração controlada

- Conjunto de calibração natural

(16)

Planejamento de Calibra

ç

ão

16

1)

Calibração controlada:

é possível e recomendável

realizar um planejamento experimental.

→

Situação usual no controle de qualidade de

fármacos

2)

Calibração natural:

a composição das amostras não

é controlada.

Ex: Determinação do teor de matéria orgânica em

amostras de solo

→

Usa-se algum método p/ encontrar as amostras

mais representativas (Ex: Kennard-Stone, PCA)

(17)

Planejamento de Calibra

ç

_ç

ão

_ão

17

Planejamentos Fatoriais para 3 fatores (3 analitos)

2 níveis para cada fator 23 _amostras

3 níveis para cada fator 33 _amostras

Planejamento composto central

(18)

Planejamento de Calibra

ç

ão

18

Algoritmo de Kennard-Stone

⇒ Inicia-se com a seleção de 2 espectros: aquele mais próximo

do ponto central (ou mais distante) e outro que possui a maior distância euclidiana em relação ao primeiro.

⇒ Estas 2 amostras são removidas do conjunto de calibração X

e colocadas em um subgrupo denominado T.

⇒ Para cada espectro não selecionado de X, as distâncias

euclidianas (d_j) entre o espectro selecionado que está no

subconjunto T e os espectros restantes são computadas.

⇒ A amostra de X com maior valor de d_j é selecionada para o

subconjunto T. O procedimento segue até a obtenção do número desejado de amostras.

(19)

Planejamento de Calibra

ç

ão

19

Exemplo de Kennard-Stone:

- Determinação de octanagem em gasolina

- Seleção de 9 amostras num conjunto de 54 espectros

- Início com o espectro mais próximo da média

Amostras selecionadas: 44, 10, 30, 2, 40, 16, 21, 51, 38

(20)

Planejamento de Calibra

ç

ão

20

Aspectos importantes:

⇒

Incluir na calibração tipos importantes de

variabilidade sistemática, como

interferências

, de

modo que possam ser modeladas de maneira

satisfatória

⇒

Muitas vezes é necessário um grande conjunto de

calibração para explicar todas as possíveis

variações das amostras. No IV, recomenda-se

6(VL

s

_{+1) amostras (ASTM)}

⇒

Minimizar os efeitos de ruídos aleatórios de várias

origens

(21)

Planejamento de Calibra

ç

_ç

ão

_ão

21

⇒

Escolha das variáveis:

1)

Variáveis do Bloco Y (Medidas de referência)

- Importante conhecer o nível de ruído esperado, levando em conta a amostragem, a preparação e a técnica analítica.

- O nível de ruído pode ser estimado a partir de experimentos anteriores, considerações teóricas ou por medidas em replicata.

2)

Variáveis do Bloco X (Espectros)

- Importante escolher quais variáveis devem ser incluídas no modelo (qual parte do espectro).

- Sinal do analito deve ter intensidade suficiente, com alta razão sinal/ruído.

- Os sinais do analito e dos interferentes devem ser suficientemente diferentes.

(22)

22

Diagn

ó

sticos dos Modelos PLS/PCR

⇒ Desempenho de previsão:

→Validação Interna:

- Previsão dos mesmos dados do conjunto de

calibração.

- Validação “viciada”, que por si só não garante o

bom desempenho do modelo

→ Validação Externa:

- Previsão de um conjunto de dados não usado na

construção do modelo (conjunto de validação)

(23)

23

Diagn

ó

sticos dos Modelos PLS/PCR

⇒ Desempenho de previsão: parâmetros

→ RMSEP: Root Mean Square Error of Prediction

P/ o Conjunto de Validação

(

)

n y y RMSEP p r 2 ˆ − =

→ RMSEC: Root Mean Square Error of Calibration

P/ o Conjunto de Calibração

(

)

gl n y y RMSEC p r − − = 2 ˆ

gl = no _{de graus de liberdade = n}o _{de VLs + 1 p/ dados centrados na média}

(24)

24

Diagn

ó

sticos dos Modelos PLS/PCR

→ Vetores de Regressão

- Constituem o modelo matemático - Um vetor b p/ cada variável prevista

→ Pesos (loadings)

- Importância das variáveis originais na determinação do

novo espaço das VLs_/CPs

→ Escores

- Posição das amostras/objetos no novo espaço

→ Porcentagem de variância explicada em X e em Y

(25)

Vetores de Regressão

25

Ex: Previsão de Dipirona no NIR

1100 1200 1300 1400 1500 1600 1700 1800 1900 -6 -4 -2 0 2 4 6 8 comprimento de onda (nm) C o ef ic ientes de regres s ã o Partes do espectro que mais contribuem

p/ a previsão do modelo

(26)

Pesos (

Loadings

)

26

- Partes do espectro que mais contribuem

p/ cada VL 1100 1200 1300 1400 1500 1600 1700 1800 1900 -0.12 -0.1 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 Comprimento de onda (nm) P e s o s ( L oadi ngs ) na V L 1 - Semelhança com os espectros das espécies puras

(27)

Variância Explicada

27

⇒

Em dados espectrais, espera-se uma alta

percentagem de variância explicada, tanto em X

como em Y (muitas vezes mais de 99 %)

(28)

Escores

28

⇒ Cada ponto representa uma amostra

⇒ É possível detectar erros nas amostras em experimentos planejados

-5 -4 -3 -2 -1 0 1 2 3 4 -2 -1.5 -1 -0.5 0 0.5 1 1.5 1 2 3 4 5 6 7 8 9 LV1 LV 2 Gráfico de Escores Ex: Determinação de AAS e Vitamina C no UV

(29)

29

Diagn

ó

sticos dos Modelos PLS/PCR

⇒ Diagnósticos para não linearidades

→ Gráficos de t (escores) vs y (ou u p/ vários y

s

₎

(30)

30

Diagn

ó

sticos dos Modelos PLS/PCR

⇒ Leverage (h

_i

)

É uma medida da influência de uma amostra ou

variável no modelo, em comparação com o resto do

conjunto de dados

⇒ Resíduos

É uma medida da parte da informação da amostra

ou variável que não foi modelada (“quanto ficou de

fora do modelo”)

(31)

31

Leverage

⇒

Fornece a posição das observações das variáveis

independentes (X) umas em relação às outras no espaço das h-variáveis latentes.

BAIXO

BAIXO LEVERAGE:LEVERAGE amostra perto do centro do conjunto de calibração, com pouca influência no modelo.

ALTO

ALTO LEVERAGE:LEVERAGE amostra distante da média e que tem grande influência no modelo.

Alto leverage pode indicar uma amostra que naturalmente tem grande influência no modelo, fruto do planejamento experimental, ou pode indicar uma anomalia (outlier), fruto de erros.

(32)

32

Leverage

Amostras

Ex: determinação de octanagem em gasolinas

)

/

(

1 ' 2

∑

=

A a ia a a i

t

h

t

Amostra com alta Leverage escore amostra i escores da calibração

(33)

33

Leverage

Variáveis

- A amostra 22 é um possível outlier.

- Vamos ver as regiões do espectro responsáveis por isso:

variáveis com alto levarage

(34)

34

Leverage

Amostras

-O leverage pode refletir o planejamento experimental - Ex: Determinação de AAS e Vitamina C no UV

1 2 3 4 5 6 7 8 9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 Amostras Lev e rage

(35)

35

Res

í

duos

→

Resíduos podem ser utilizados para identificar amostras,

variáveis ou simples pontos que foram mal modelados.

E = X – 1xm – TP’ (resíduos da calibração)

e = x – xm – tp (resíduo para cada amostra)

→

Altos valores de resíduos para amostras indicam possíveis

anomalias (interferentes, ruídos instrumentais ou erros na medida).

→

Altos valores de resíduos para variáveis podem ser

interpretados como ruídos nestas variáveis em uma ou mais amostras.

(36)

36

Res

í

duos

⇒ Desvio padrão residual total

→

Variação média dos pontos em torno do modelo

representados pelas VLs_/CPs_:

df = (p-k)(n-k-1) → número de graus de liberdade, onde “p” é o

no _{de variáveis, “k” o n}o _{de VLs/CPs, e “n” o n}o _{de amostras.}

⇒

Representa a distância típica entre o modelo

(VLs/CPs) e as amostras

∑∑

=

e

df

S

_i2_k

/

, 2 0

(37)

37

Res

í

duos

→ Variação média deste objeto em relação ao modelo:

→ Proporcional à distância entre o ponto que representa

esta amostra e o modelo de componentes principais.

⇒ Desvio padrão residual p/ uma amostra

∑

− − − = 2 _/( _/( ₎₍ ₁₎₎ 2 _e _n _p _k _n _k s_p _k objeto p s_p Modelo -Se s_p2 _{> S} 0 → amostra diferente

-Teste F para verificar semelhanças entre as variâncias

PC

(38)

38

Res

í

duos

Resíduos p/ amostras

Ex: determinação de octanagem em gasolinas

Alto valor de resíduo Valor normal dos resíduos da população (Limite de 95% de confiança)

(39)

39

Res

í

duos

Resíduos p/ variáveis

Altos resíduos para variáveis 330 a 400

Altos resíduos para variáveis 100 a 150

(40)

40

Detec

ç

ão de

Outliers

→

De fundamental importância

→

Outlier = Amostra anômala

→

Erros e fenômenos inesperados são inevitáveis

→

Fontes de anomalia na calibração:

- Erros do operador

- Ruído nos dados

- Problemas instrumentais

- Objetos anormais

(41)

41

Detec

ç

ão de

Outliers

→

Anomalias devem ser eliminadas ou corrigidas

→ Em certos casos, a presença de anomalias pode fornecer

informações importantes sobre o sistema

→ Pode-se ter amostra, variável ou elemento anômalo:

- Amostra diferente das demais (alta ou baixa

concentração) ou erro na medida;

- Problema num dado comprimento de onda;

- Ruído durante uma medida específica, afetando apenas aquele espectro.

(42)

42

Outliers

na Calibra

ç

ão e na Previsão

→ Durante a calibração é importante identificar (eliminando ou

corrigindo) as anomalias para que o modelo possa ser o melhor possível (BOA HABILIDADE DE PREVISÃO).

→ Durante a previsão de amostras desconhecidas é

importante possuir métodos capazes de detectar anomalias para aumentar a confiança nos resultados de previsão.

→ Às vezes, uma amostra anômala pertence a uma outra

categoria/classe.

AMOSTRAS DE CALIBRAÇÃO COM SIMULTANEAMENTE ALTOS LEVERAGES E ALTOS RESÍDUOS SÃO FORTES

CANDIDATAS A OUTLIERS

(43)

43

PREVISÃO

Gráfico dos valores de referência vs valores previstos

Previsão do conjunto de validação: 30 novos espectros de amostras de gasolina

Coeficiente de correlação: r= 0.998

Equação do modelo: y = 0.099 + 0.99 x

(44)

44

PR

É

-

TRATAMENTO DOS DADOS

⇒

Dados espectrais são usualmente

centrados na

média

, mas não costumam ser autoescalados

⇒

Outros pré-tratamentos comuns:

-

Normalizações: divisão dos espectros por

constantes

- Alisamentos (smoothing): visa reduzir o ruído

nos espectros, através de filtros digitais

- Correções de linha base: 1ª e 2ª derivadas,

MSC, SNV

(45)

Filtros Digitais

45

⇒

Assume-se que os ruídos tem alta frequência em

relação ao sinal de interesse

→ Tipos:

- Filtros de média móvel

- Filtros baseados na Transformada de Fourier (FT)

- Filtros polinomiais: Savitsky-Golay

(46)

Filtros Polinomiais

46

→ Escolhe-se o tamanho de uma janela de pontos

→ Ajusta-se um polinômio aos pontos

→ Substitue-se o valor do ponto em questão pelo valor dado

pelo polinômio

Valor suavizado

→ Janela pequena demais: alisamento insuficiente

→ Janela grande demais: distorção do sinal analítico

(47)

Filtros Polinomiais

47

Exemplo

(48)

Filtros Polinomiais

48

0 10 20 30 40 50 60 70 80 90 100 0 0.02 0.04 0.06 0.08 0.1 0.12

0.14 Gaussiana sem ruído

0 10 20 30 40 50 60 70 80 90 100 0 0.02 0.04 0.06 0.08 0.1 0.12

0.14 Gaussiana com ruído

0 10 20 30 40 50 60 70 80 90 100 0 0.02 0.04 0.06 0.08 0.1 0.12

(49)

Corre

ç

ões de Linha Base

49

→ Extração de Offset : subtrai-se de cada variável do

espectro um único valor (1a _{variável) ou a média de uma}

faixa de variáveis.

→ Modelagem Explícita: ajusta-se uma função ao espectro (polinômio de 1º ou 2º grau) que é usada para subtração dos dados espectrais (detrend).

→ Derivadas (1ª ou 2ª): correção de desvios lineares

→ Correção de espalhamento multiplicativo (MSC) e

Standard Normal Variate (SNV): correção de desvios não

lineares (drifts)

(50)

Corre

ç

ões de Linha Base

50

Espectros Originais

Após a 1a. derivada

⇒ Possível amplificação de ruídos (recomendável o uso

simultâneo de alisamento)

(51)

Corre

ç

ões de Linha Base

51

MSC (Multiple Scatter Correction): remove variação no

espectro causada por espalhamento de luz pelas amostras (típica em medidas de refletância difusa) BASE DO MÉTODO :

1. Espectro médio x_m é calculado a partir do

conjunto de calibração

2. Para cada espectro individual x_i os parâmetros a_i

e b_i são estimados por regressão

x_i

x_m

x_i = a_i + b_ix_m

(52)

Corre

ç

ões de Linha Base

52

⇒ Correções do espectro: x_i = a_i + x_mb_i

x_i,corr = (x_i-a_i)/b_i Observações :

1. Ajuste do intercepto pela movimentação da linha ao longo das ordenadas até que fique zero,

2. Rotação da linha até que alcance a linha do espectro médio (ou inclinação igual a 1)

a

b

Ajuste do offset Correção da inclinação

(53)

Corre

ç

_ç

ões de Linha Base

_{ões de Linha Base}

53

Exemplo MSC

Espectro Original

Após MSC

(54)

Varia

ç

ões do PLS

54

→ iPLS: PLS em intervalos

→ biPLS e siPLS: Variações do iPLS → PLS não linear

→ PLS Multilinear (Nway-PLS): para dados multidimensionais

→ PLS-DA: usado em análise discriminante/classificação

(55)

Agradecimentos

55