Universidade Federal de Pernambuco Centro de Tecnologia e Geociênciasg Departamento de Engenharia Química
TRATAMENTO DE DADOS
MULTIVARIADOS IV
MULTIVARIADOS - IV
Prof. Fernanda A. Honorato 2011.2
ROTEIRO ROTEIRO ROTEIRO ROTEIRO
Tratamento
Tratamento dede dadosdados multivariadosmultivariados
- Pré-processamentos;p ;
- Calibração Multivariada;
- Controle de Qualidade da Calibração;Q ç ; - Validação;
TRATAMENTO DE DADOS TRATAMENTO DE DADOS Et t t t d d d lti i d Et t t t d d d lti i d TRATAMENTO DE DADOS TRATAMENTO DE DADOS
Etapas para tratamento de dados multivariados Etapas para tratamento de dados multivariados
- Exame dos dados; - Exame dos dados;
- Pré-processamentos (quando necessário); - Estimar o modelo;Estimar o modelo;
- Exame dos resultados/validação do modelo; - Uso do modelo para previsão;Uso do modelo para previsão;
PRÉ
PRÉ PRÉ--PROCESSAMENTOSPROCESSAMENTOS PRÉ PRÉ PROCESSAMENTOSPROCESSAMENTOS Ex.: Ex.: Faixa de trabalho
PRÉ PRÉ--PROCESSAMENTOSPROCESSAMENTOS PRÉ PRÉ PROCESSAMENTOSPROCESSAMENTOS Pré Pré--processamentosprocessamentos
¾ Qualquer manipulação matemática prévia dos dados antes da modelagem
pp
modelagem.
¾Visa remover ou reduzir fontes de variação irrelevantes para o objetivo da modelagem 1. 1. SuavizaçãoSuavização: j g 9 Minimizar o ruído; 1.1. Média Móvel
1.1. Média Móvel 1 1,2
∑
− = + = p p j j i j novo i c x x ( ) 0 2 0 0,2 0,4 0,6 0,8 1 4 7 10 13 16 19 22 25 28 p j -0,4 -0,2 1 4 7 10 13 16 19 22 25 28 1 3 t¾ Substitui o valor do ponto central do intervalo pelo valor médio do intervalo
Janela 3 pontos: p =1, cj = 1/3 0,20,4 0,6
0,8 3 pontos
intervalo pelo valor médio do intervalo
Tamanho da janela
¾ grande demais perda de sinal e resolução
-0,2 0
1 4 7 10 13 16 19 22 25 28
¾ grande demais - perda de sinal e resolução ¾ pequena demais - ruído se mantém
0 2 0,4 0,6 0,8
5 pontos
Desvantagem: aproximação linear para os
pontos (distorce o sinal original) -0,2 0 0,2
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS
1.2 Filtro de Savitsky-Golay
PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
Modelos quadráticos ou cúbicos
Melhores aproximações no centro dos picos
Janela de 7 pontos – filtro cúbico
3 2 i b i b i b b ^
Janela move se ao longo dos dados ponto por ponto
3 3 2 2 1 0 b i b i b i b xi = + + + 9Cálculo demorado 9S i k G l 1964 d fi i
Janela move-se ao longo dos dados, ponto por ponto
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
Gasolinas do NE – NIR (percurso ótico de 1 mm)
SG 7 pontos SG 7 pontos
SG 11 pontos
22.. DerivadasDerivadas
9 Melhoram a resolução (removem deslocamentos constantes e 9 Melhoram a resolução (removem deslocamentos constantes e variação linear da linha de base)
Original 1a derivada (sinais diferentes do espectro original) 2a derivada (sinais semelhantes/ mais complexos)p )
9 Minimizam efeitos de linha de base st = s + (a + bx) st´ = s´ + (0 + b) st´´ = s´´ + (0 + 0) Sinal original Primeira derivada
Segunda deri ada
st = s + (0 + 0) Segunda derivada
Efeito aditivo
Efeito linear Efeito linear
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS
22 11 CálculoCálculo porpor diferençasdiferenças
PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
22..11 CálculoCálculo porpor diferençasdiferenças
Primeira derivada em λ = w (xw – xw 1) Primeira derivada em λ = w (xw xw-1) S d d i d ( ) ( ) Segunda derivada em λ = w (xw+1 – xw) - (xw – xw-1) xw+1 – 2xw – yw 1 xw+1 2xw yw-1 Desvantagens •Trabalhoso •Aumenta o ruído Suavizar
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS
2.2 Cálculo por
2.2 Cálculo por SavitzkySavitzky--GolayGolay
PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
s = a + bx + cx2 s´ = b + 2cx2 s´´ = 2c
Efeito do tamanho da janela Efeito do tamanho da janela
21 21 11 11 7 11 7 7 3 3
Original
SG
SG, 11 pontos
Primeira derivada
S d d i d
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
33..CorreçãoCorreção multiplicativamultiplicativa dodo sinalsinal -- MSCMSC ((MMultiplicativeultiplicative SignalSignal CorrectionCorrection))
9 Correção de efeitos aditivos e multiplicativosç p
9 Espalhamento – comum em pós, grãos, suspensões 9 Vantagens – mantém espectro original
- pode simplificar o modelo de calibração - pode melhorar a linearidade
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
Modelo MSC para cada espectro
ik k i i ik a b x e x = + +
i- número da amostra k – comprimento de onda
ai– efeito aditivo bi – efeito aditivo
Média de todas as amostras naquele λ
∑
= = N i ik k x N x 1 1ai e bi - estimados individualmente para cada amostra usando todos ou um subconjunto de λ
um subconjunto de λ
eik – todos os efeitos no espectro que não podem ser modelados por uma constante aditiva e multiplicativa
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS
¾ Usar uma faixa de λ que não tem informação
PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
química
¾ Cada espectro x espectro médio – estimam-se e b aie bi ¾ Faz-se a correção MSC Completa i i ik novo ik b a x x ( ) = − Após MSC Linear i ik novo ik x a x ( ) = − Multiplicativa ik novo ik b x x ( ) = b
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
4.Centrar na média e auto escalonar 4.Centrar na média e auto escalonar
no 1 Subtrai o valor de d l d Centrar na média no i ij j x no x = ∑ =1 1 cada elemento do
vetor coluna pelo valor médio dos j
ij c
ij x x
x ( ) = − elementos dessa coluna.
Auto escalonar
x
ij−
x
jOs valores originais em cada coluna são
bt íd d
x
s
ij as ij j j( )
=
respectivas médias subtraídos dase divididos pelo desvio padrão
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
S édi C d édi
PRÉ
PRÉ--PROCESSAMENTOSPROCESSAMENTOS PRÉ
PRÉ PROCESSAMENTOSPROCESSAMENTOS
5 Pré
5 Pré processamentos nos objetosprocessamentos nos objetos 5. Pré
5. Pré--processamentos nos objetosprocessamentos nos objetos
xij= xij
xi
Normalização pela média
xij= xij
Max |x | Normalização pelo valor máximo Max |xi|
xij= xij
Max (xi) - Min (xi)
CALIBRAÇÃO
CALIBRAÇÃO
CALIBRAÇÃO
CALIBRAÇÃO
MULTIVARIADA
MULTIVARIADA
MULTIVARIADA
MULTIVARIADA
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
CALIBRAÇÃO UNIVARIADA
CALIBRAÇÃO UNIVARIADA Em λi
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Ai
Ad
λi Cd
Comprimento de onda Concentração dos padrões(x)Cd
y = bo + b1x + ε x = (y – bo) /b1
Calibração
^ Previsão
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Matematicamente: CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA 11 12 1 p x x x ⎡ 11 12 L 1 ⎤ 21 22 2 p p ij x x x x ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎡ ⎤ = = ⎣ ⎦ ⎢ ⎥ X L M M O M 1 2 n n n p x x x ⎣ ⎦ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ M M O M L
MATRIZ: n objetos (linhas) e p variáveis (colunas) Dimensão n×p
ij
x
ij Linha i, coluna jy1 1 x1 b0 ε1 y1 y2 y3 1 x1 1 x2 1 x3 b0 b1 ε1 ε2 ε3 = + 3 . . . . . . = + . yn . 1 xn . εn y = X b + ε Notação matricial y ε b = (X´X)-1X´y y = X b x ^ ^ ε = y - y^
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
X b + b (X´X) 1X´ Regressão Linear Múltipla (MLR)
y = X b + ε b = (X X)-1X y ε = y - y y = X b ^ ^ Comprimento de onda y1 y2 y3 x11 x12 x13 . . . x1p x21 x22 x23 . . . x2p x x x x b1 b2 b3 ε1 ε2 ε3 y3 y4 . x31 x32 x33 . . . x3p x41 x42 x43 . . . x4p . b3 . . 3 ε4 . = + . . yn . . xn1 xn2 xn3 . . . xnp . bp . . εn
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA MODELAGEM R íd
Dados
Modelo
ResíduosModelo: Parte relevante/sistemática (Sinal)
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA O QUE É CALIBRAÇÃO ? O QUE É CALIBRAÇÃO ? O QUE É CALIBRAÇÃO ? O QUE É CALIBRAÇÃO ?
Desenvolver, validar e usar um modelo para fazer previsões de , p p determinados dados (em geral valiosos, demorados e difíceis de medir (Y) a partir de outros dados, em geral de fácil obtenção (X)
Por exemplo:
9 Usar espectros NIR (X) para prever características de umUsar espectros NIR (X) para prever características de um produto ou processo (Y).
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Matematicamente: X y Modelo Equação
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Modelos deixam resíduos:
ˆ
ˆ
Modeloy
X
Resíduos ^ X X E = − ^ y y f = y − y fCALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Modelos têm limites Modelos têm limites Modelos têm limites Modelos têm limites
9 Um modelo não pode ser melhor que os dados usados para construí-lo
9 Um modelo só pode tentar explicar aquilo que pode ser 9 Um modelo só pode tentar explicar aquilo que pode ser explicado
9 Sobreajuste (Overfitting) – O modelo tenta explicar mais do que pode
9 Subajuste (Underfitting) – O modelo não consegue explicar tudo o que poderiaq p
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Etapas de uma calibração
Etapas de uma calibraçãopp çç
1 – Definição do problema:
• Quais as medidas? • Qual a população?
• Otimização das medidas
2 – Seleção das amostras p/coleta dos dadosç p 3 – Realização das determinações
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Etapas de uma calibração Etapas de uma calibração
4 – Análise exploratória dos dados
p ç p ç 5 – Desenvolvimento do modelo 6 – Validação do modelo 7 – Implantação na rotina 8 – Monitoramento/Atualizaçãoç
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Etapas de uma calibração
Etapas de uma calibraçãopp çç
4 – Análise exploratória dos dados • Estatísticas básicas
• Gráficos de linhaG á cos de a
• Diagramas de dispersão • Histogramas
• Gráficos normais • Gráficos matriciais
P j ã iá i l
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Etapas de uma calibração
Etapas de uma calibraçãopp çç
5 – Desenvolvimento do modelo 5 Desenvolvimento do modelo
• Seleção do conjunto de calibração • Escolha do método
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Matematicamente: Matematicamente: X X Conjunto de calibração y Modelo Modelo
Conjunto de teste
ˆy
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
O conjunto de calibração ideal O conjunto de calibração ideal
Representativas de todos os componentes químicos esperados Contém amostras...
... Representativas de todos os componentes químicos esperados nas amostras desconhecidas
... Com faixas de variação dos y’s excedendo a variação esperada nas amostras desconhecidas
...Com valores de y uniformemente distribuídos em toda a amplitude de variação
a p tude de va ação
...Em número suficiente para dar confiabilidade ao modelo de lib ã
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Quantas amostras? Quantas amostras?
¾ Depende da complexidade das amostras e do modelo de calibração
calibração
ASTM – E1655 – 0, excluindo anomalias: ASTM E1655 0, excluindo anomalias:
K ≤ 3 n ≥ 24
K ≤ 3 n ≥ 24
Amostras de calibração Variáveis X
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Quantas amostras? Quantas amostras? Q Q K > 3 n ≥ 6(K+1)
Portanto: Só se pode determinar se um certo conjunto de calibração é adequado depois de desenvolver um modelo baseado nele.
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA ESCOLHA DO MÉTODO ESCOLHA DO MÉTODO ESCOLHA DO MÉTODO ESCOLHA DO MÉTODO
¾ Regressão linear múltipla (MLR)
¾ Regressão em componentes principais (PCR)
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Regressão linear simples Regressão linear simples
X Modelo y Equação x Equação x b b y 0 1 ^ + = Vetor Vetor Vetor Vetor
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Ajuste por mínimos quadrados
Ajuste por mínimos quadradosjj pp qq
95 95 95 95 95 75 85 75 85 75 85 i y75 85
{
i y 75 85{
y y 65 y 65 y 65 i y y 65{
ˆyi i e i y y 65 75{
ˆyi i e i y 55 55 55 55 55 i y x 38 42 46 50 54 58 62 45 x 38 42 46 50 54 58 62 45 x 38 42 46 50 54 58 62 45 i x x 38 42 46 50 54 58 62 45 i x x 38 42 46 50 54 58 62 45 i x xCALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Regressão linear múltipla Regressão linear múltipla
k k x b x b x b b y = 0 + 1 + 2 2 + ... + ^
Combinação linear dos valores das variáveis xi, com pesos dados por bi
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Qualidade do ajuste Qualidade do ajuste
Erro médio quadrático de calibração (root mean square error of calibration)
Q j Q j 2
ˆ
(
−
)
∑
nC i cal i caly
y
(root mean square error of calibration)
, , 1
(
)
1
==
− −
∑
i cal i cal i Cy
y
RMSEC
n
K
ˆ
(
−
)
∑
nCy
y
1(
)
1
=−
=
− −
∑
i i i C Cy
y
Bias
n
K
Tendência CCALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Qualidade do ajuste Qualidade do ajuste Q j Q j
Erro padrão de desempenho (standard error of performance)
2 ˆ ( )
∑
nC y y Bias 1 ( ) 1 = − − = − −∑
i i i C y y Bias SEC nC K 2 2 2 R M S E C = S E C + B iasCALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Dois problemas: Dois problemas: Falta de seletividade:
Nenhuma das variáveis x isoladamente tem informação Nenhuma das variáveis xi isoladamente tem informação suficiente para prever o valor de y
Colinearidade:
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Solução: Solução:
¾ Regressão em componentes principais (PCR)
¾ Regressão por mínimos quadrados parciais (PLS) ¾ Regressão por mínimos quadrados parciais (PLS)
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Relação entre duas variáveis Relação entre duas variáveis Relação entre duas variáveis Relação entre duas variáveis
0.16 0.16 0.160.16 0 12 0 12 0 12 i x − x 0 12 i x − x V olume 0.12 Vol u me 0.12 + Vol u m e 0.12 + Vol u m e 0.12 + i y − y V 0.08 0.08 0.080.08 Peso 0.10 0.15 Peso0.20 0.25 0.10 0.15 0.20 0.25 Peso 0.10 0.15 0.20 0.25 Peso 0.10 0.15 0.20 0.25
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Relação entre duas variáveis Relação entre duas variáveis
( )( ) 1 ( ) Cov x y =
∑
x − x y − y Covariância ( , ) ( )( ) 1 i i Cov x y x x y y N = − − −∑
1 ( , ) 1 i i x x y y r x y N ⎛ ⎞ ⎛ − ⎞ − = ⎜ ⎟⎜⎜ ⎟⎟ ⎝ ⎠⎝ ⎠∑
Coeficiente de correlação Coeficiente de correlação 1 x y N −∑
⎜⎝ s ⎟⎜⎠⎝ s ⎟⎠ Coeficiente de correlação Coeficiente de correlação 1 r x y( , ) 1 − ≤ ≤ +CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Relação entre duas variáveis Relação entre duas variáveis
A variância de uma variável é uma medida de sua informação, mede a dispersão dos valores em torno da média.
A covariância entre duas variáveis é uma medida da
redundância da informação. É uma medida da co-dispersão, ou
seja, a tendência de duas variáveis se desviarem ao mesmo tempo para o mesmo lado da média.
Desvantagem: A covariância depende da unidade Desvantagem: A covariância depende da unidade.
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Análise de Componentes Principais
O que é uma PCA? O que é uma PCA?
9 U é i d j ã d á i d i f ã í i
9 Uma técnica de projeção do máximo de informação no mínimo de dimensões não correlacionadas
Decomposição de uma matriz de dados em eixos ortogonais de máxima variância
Projeção do máximo de informação no mínimo de dimensões não correlacionadas
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA x C 2 CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA x2 CP 1 CP 2 i
Pesos (loadings) –
Co-senos dos ângulos que as componentesp principaisp p fazem com os eixos das variáveis.
Escores – Coordenadas dos
objetos no sistema de eixos definido pelas CP’s.
x1 x1
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Variáveis originais 14 16 12 Mn ( ug/ L) 8 10 4 6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 2 4 Cu (ug/L)
PC2 1 2 PC1 0 1 e s c al ona do -1 Mn a u to e -2 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 Cu autoescalonado
PC2
Escores – coordenadas dos
objetos nos eixos das PCs
PC2 2 PC1 1 n ad o PC1 0 M n au to es c a lo n -1 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 Cu autoescalonado -2 Cu autoescalonado
PC2 Pesos (loading) – co-senos dos
ângulos entre o eixo PC e as ângulos entre o eixo PC e as
variáveis originais 2 o PC1 0 1 s ca lo n a d o -1 0 n aut o e s -2 M -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 Cu autoescalonado
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Quem são as Quem são as PC’sPC’s Quem são as Quem são as PC sPC s
PC1: Eixo de máxima variância
PC2: De máxima variância, ortogonal a PC1
PC3: De máxima variância ortogonal a PC1 e PC2
, g
PC3: De máxima variância, ortogonal a PC1 e PC2
PCk: De máxima variância, ortogonal ao espaço das k-1, g p ç primeiras componentes
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Para cada PC: Para cada PC:
λ
V iâ i li d l t k Para cada PC: Para cada PC: kλ
Variância explicada pela componente k kv
Pesos (loadings): co-senos dos ângulos que o eixo PCk k faz com os eixos originaisk
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Para que serve uma PCA? Para que serve uma PCA?
Redução da dimensionalidade
Para que serve uma PCA? Para que serve uma PCA?
Redução da dimensionalidade
Reconhecimento de padrões Detecção de anomalias
Separação sinal ruído
Separação sinal-ruído Seleção de variáveis Classificação
0.5
Biodiesel - MIR
0.3 0.4 Soja Gordura 0.1 0.2 Gordura Mamona -0.1 0 4000 3500 3000 2500 2000 1500 1000 500DAEM100EG100ES100OM100OG100OS100
Samples DAEM100EG100ES100OM100OG100OS100
Misturas biodiesel/diesel
DE DE DE
Adulterações com óleo in natura
0.4 0.6 Petrodiesel DO DEO 0.4 0.6 Petrodiesel DO DEO 0.4 0.6 0.4 0.6 Petrodiesel DO DEO 0.2 2 0.2 2 0.2 0.2 2 -0.2 0.0 PC 2 -0.2 0.0 PC 2 -0.2 0.0 -0.2 0.0 PC 2 -0.4 -0.4 -0.4 -0.4 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 -0.6 PC 1 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 -0.6 PC 1 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 -0.6 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 -0.6 PC 1
Óleo lubrificante - NIR
% variância NOVOS PC 1 99.062 PC 2 99.877 PC 3 99.984 PC 4 99 997 NOVOS MÉDIO USO PC 4 99.997CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Regressão em Componentes Principais (PCR) Regressão em Componentes Principais (PCR)
1. PCA na matriz X
2. Regressão das variáveis y nos escores obtidos na PCA
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Regressão por Mínimos Quadrados Parciais (PLS) Regressão por Mínimos Quadrados Parciais (PLS)
9 Semelhante à PCR, mas os escores são escolhidos de modo a, maximizar a covariância entre X e y
Quantas componentes devemos manter? Quantas componentes devemos manter?
9 %de variância descrita (ex. 90%)
9 Inspeção dos gráficos dos escores e loadings aletórios, depois de toda a informação relevante ser incluída no modelo
9 Validação cruzada (cross validation):
- Parte dos dados é usada para modelar e a parte restante para validar - N0 de componentes que minimiza o erro de previsão de CV
Menor RMSECV Modelo Previsão
RMSECV Modelo
9 Conjunto de teste
Conjunto de treinamento e conjunto de teste Conjunto de treinamento e conjunto de teste
N0 de componentes que minimiza o erro de previsão do conjunto de teste
9 Variância residual versus número de CP
RMSEP
CP n0
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA Outliers Outliers CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Leverage e resíduo em X altos
Al íd X
L lt
Alto resíduo em X
Leverage alto
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Ex.: Determinação
Ex.: Determinação de MON / RONde MON / RON
CALIBRAÇÃO MULTIVARIADA CALIBRAÇÃO MULTIVARIADA
Gasolina
Gasolina-- RONRON
sem outiliers, sem pre-processamento, CV, 4 fatores, d d l t
Gasolina
Gasolina -- RONRON sem
sem outiliersoutiliers, sem pré, sem pré--processamento, CVprocessamento, CV, ,
4
Previsões com o número de componentes selecionado por CV (sem amostras de previsão) selecionado por CV (sem amostras de previsão)
Previsões Previsões Previsões Previsões
Amostra Previsto Desvio Referência
Previsões Previsões
Amostra Previsto Desvio Referência
CE 005 93.236 0.358 93.300 CE 002 94.128 0.387 94.200 CE 001 94 288 0 484 94 400 CE 001 94.288 0.484 94.400 RN 013 94.479 0.499 94.200 CE 029 94.642 0.281 94.300 CE 031 94.708 0.182 94.600 CE 031 94.708 0.182 94.600 CE 030 94.880 0.183 94.800 CE 022 94.989 0.290 95.000 RN 027 95.075 0.237 94.700 RN 003 95.437 0.275 95.300 RN 967 95.536 0.228 95.500 RN 029 95.619 0.500 96.000 RN 965 95.745 0.184 95.600 BA 198 96.281 0.263 96.200 CE 212 96.319 0.333 95.800 PE 391 96.417 0.398 96.400 RN 963 96.483 0.299 96.000 EP (0 ) d b l d d (0 0) EP (0 ) d b l d d (0 0)
RMSEP (0,27) < Reprodutibilidade ASTM (0,70) RMSEP (0,27) < Reprodutibilidade ASTM (0,70)
PLS, 4 componentes, PLS, 4 componentes,
F ll
F ll lid tilid ti Full
Full crosscross validationvalidation, , espectros originais, espectros originais, sem amostras PE311, sem amostras PE311,
CE204 CE204
C
l d Q l d d
C
l d Q l d d
Controle de Qualidade
Controle de Qualidade
da Calibração
da Calibração
da Calibração
da Calibração
Controle de Qualidade da Calibração Controle de Qualidade da CalibraçãoQQ çç
Instrumento Instrumento
& Modelo
Checagem periódica
Amostras de Controle (AC) - Valores de referência são
conhecidos e correspondem a interpolacões do modelo
Valores obtidos pelo modelo são comparados com os obtidos pelo MR empregando o RMSEC (que usam os valores de referência) – MR, empregando o RMSEC (que usam os valores de referência) – não é uma indicação sensível.
Amostras de Controle de Qualidade (ACQ) Amostras de Controle de Qualidade (ACQ) Amostras de Controle de Qualidade (ACQ) Amostras de Controle de Qualidade (ACQ)
São selecionadas já no desenvolvimento da calibração São selecionadas já no desenvolvimento da calibração Devem:
Devem:
9
Ser quimicamente e fisicamente compatíveis com os materiais que estão sendo analisadosestão sendo analisados
9
Ser estáveis durante amostragem e estocagem9
Ser estáveis durante amostragem e estocagem9
Ter espectros compatíveis com o modelo (bandas não devem9
Ter espectros compatíveis com o modelo (bandas não devem exceder a resposta linear do instrumento), mas podem representart l õ extrapolações.
Amostras de Controle de Qualidade (ACQ) Amostras de Controle de Qualidade (ACQ) Amostras de Controle de Qualidade (ACQ) Amostras de Controle de Qualidade (ACQ)
São selecionadas já no desenvolvimento da calibração São selecionadas já no desenvolvimento da calibração Devem:
Devem:
9
Ser quimicamente e fisicamente compatíveis com os materiais que estão sendo analisadosestão sendo analisados
9
Ser estáveis durante amostragem e estocagem9
Ser estáveis durante amostragem e estocagem9
Ter espectros compatíveis com o modelo (bandas não devem9
Ter espectros compatíveis com o modelo (bandas não devem exceder a resposta linear do instrumento), mas podem representart l õ extrapolações.