• Nenhum resultado encontrado

Engenharia de Processos e Sistemas. III. Construção de modelos empíricos usando metodologias de regressão. Metodologias de Modelação.

N/A
N/A
Protected

Academic year: 2021

Share "Engenharia de Processos e Sistemas. III. Construção de modelos empíricos usando metodologias de regressão. Metodologias de Modelação."

Copied!
25
0
0

Texto

(1)

Marco Reis:2010 ©

Modelação matemática de base estatística/empírica:

I. Características dos dados industriais II. Análise dos componentes principais (PCA) III. Controlo estatístico multivariado de processos

IV. Construção de modelos empíricos usando metodologias de regressão

Engenharia de Processos e Sistemas

III. Construção de modelos empíricos

usando metodologias de regressão

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 3

Objectivos:

• Identificar a componente estrutural/determinística e aleatória/estocástica do modelo de RL;

• Compreender o que é um modelo de RL e o seu âmbito de aplicação;

• Perceber como se estimam os parâmetros de um modelo de RL e saber quais os pressupostos subjacentes ao modelo estimado;

• Interpretar os IC para os coeficientes do modelo (parte estrutural); • Interpretar os IC para a resposta média e de previsão;

• Saber como validar um modelo de RL;

• Compreender a origem do problema da colinearidade e como o diagnosticar; • Saber os passos a seguir na construção de uma modelo de RL

• Distinguir os vários métodos de selecção de variáveis

• Compreender os vários métodos de selecção de dimensões (PCR e PLS): saber como os estimar, validar e interpretar os seus resultados.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 4

Metodologias de Modelação

Processo Genérico

Variáveis associadas ao que entra no processo (x’s) Variáveis associadas ao que sai do processo (y’s) Variáveis ligadas a parâmetros do processo (x’s)

Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s).

X’s “Inputs” Predictores Regressores Variáveis de entrada Variáveis independentes Y’s “Outputs” Respostas Variáveis de saída Variáveis dependentes

(2)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 5 LC TC F0, T0, CA0 F, T, CA Fcj, Tcj,0 Fcj, Tcj LC TC F0, T0, CA0 F, T, CA Fcj, Tcj,0 Fcj, Tcj 0 dV F F dt= − / 0 0 0 E RT A A A A dVC F C FC k e C V dt − = − − / 0 0 0 ( ) E RT A cj p p dVT H UA F T FT k e C V T T dt ρC ρC − ∆ = − − − − ,0 , ( ) ( ) cj cj cj cj cj cj j p cj dV T UA F T T T T dt = − +ρC − ( ) 2 set c set F=F −K V −V ( ) , 1 cj cj set c set F=F −K T−T X Y x E(Y|x) X Y x E(Y|x) Modelos baseados em primeiros princípios

→ Estrutura completamente definida

“Knowledge intensive”

“Data intensive”

Modelos empíricos→ Algumas restrições quanto à estrutura do modelo

Modelos baseados em dados

→muito poucas hipóteses são colocadas quanto à estrutura do modelo

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 6 

1D:

Com N pontos, consegue-se a seguinte taxa de

amostragem, numa linha de comprimento L:

1 2 3 … … N 0 L

N

TA

L

=

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 7

“The curse of dimensionality”



2D:

Com N pontos, consegue-se a seguinte taxa de

amostragem, num quadrado de lado L:

2

N

TA

L

=

Para garantir igual cobertura, ter-se-ia de usar N2pontos

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 8

“The curse of dimensionality”



3D:

Com N pontos, consegue-se a seguinte taxa de

amostragem, num cubo de lado L:

3

N

TA

L

=

Para garantir igual cobertura, ter-se-ia de usar N3pontos

(3)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 9

“The curse of dimensionality”



m-D:

Com N pontos, consegue-se a seguinte taxa de

amostragem, num hipercubo de lado L:

m

N

TA

L

=

Para garantir igual cobertura, ter-se-ia de usar Nmpontos

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 10



Utilidade dos modelos:



Previsão de valores futuros de uma variável de

saída;



Medição do efeito associado a mudanças

processuais;



Controlo e/ou monitorização do processo;



Gestão e melhoria do processo;



Aumentar o conhecimento sobre o processo.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 11



Regressão (Previsão):



As saídas do modelo são variáveis quantitativas;



Classificação:



As saídas do modelo são variáveis qualitativas

(classes ou categorias)



Qualidade do produto (Mau, Intermédio, Bom);



Reconhecimento de caracteres (padrões);



Regressão (Previsão) vs Classificação

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 12

Observ. X1 X2 X3 X4 1 0,165 0,11 0,075 0,053 2 0,178 0,14 0,105 0,077 3 0,102 0,089 0,068 0,048 4 0,191 0,107 0,06 0,046 5 0,239 0,146 0,094 0,067 6 0,178 0,115 0,078 0,056 7 0,193 0,089 0,041 0,03 8 0,164 0,113 0,078 0,056 9 0,129 0,098 0,074 0,057 10 0,193 0,134 0,093 0,066 11 0,154 0,071 0,03 0,016 12 0,065 0,053 0,036 0,025 13 0,144 0,078 0,043 0,028 14 0,138 0,118 0,093 0,063 15 0,219 0,145 0,101 0,07 Observ. Y 1 0,456 2 0,456 3 0,152 4 0,76 5 0,76 6 0,608 7 0,76 8 0,456 9 0,304 10 0,608 11 0,608 12 0,152 13 0,608 14 0,304 15 0,76

Regressão (Previsão)

Treino do modelo vs Teste do modelo

Modelo

(

β

0

, β

1

,…, β

m

2

)

X

Y

Observ. X1 X2 X3 X4 16 0,146 0,17 0,134 0,103 17 0,128 0,144 0,125 0,101 18 0,107 0,105 0,102 0,081 19 0,146 0,174 0,136 0,099 20 0,105 0,126 0,094 0,068 21 0,152 0,205 0,128 0,081 23 0,139 0,207 0,109 0,057 24 0,108 0,162 0,082 0,04 25 0,12 0,187 0,083 0,038 ^ ^ ^ ^ I. Treino/Estimação

X

new

(

β

^ ^ ^ ^ 0

Modelo

, β

1

,…, β

m

2

)

?

II. Teste/Previsão

(4)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 13 Observ. C 1 A 2 A 3 B 4 A 5 B 6 B 7 A 8 A 9 B 10 B 11 B 12 A 13 B 14 A 15 A Observ. X1 X2 X3 X4 1 0,165 0,11 0,075 0,053 2 0,178 0,14 0,105 0,077 3 0,102 0,089 0,068 0,048 4 0,191 0,107 0,06 0,046 5 0,239 0,146 0,094 0,067 6 0,178 0,115 0,078 0,056 7 0,193 0,089 0,041 0,03 8 0,164 0,113 0,078 0,056 9 0,129 0,098 0,074 0,057 10 0,193 0,134 0,093 0,066 11 0,154 0,071 0,03 0,016 12 0,065 0,053 0,036 0,025 13 0,144 0,078 0,043 0,028 14 0,138 0,118 0,093 0,063 15 0,219 0,145 0,101 0,07

Modelo

X

C

Observ. X1 X2 X3 X4 16 0,146 0,17 0,134 0,103 17 0,128 0,144 0,125 0,101 18 0,107 0,105 0,102 0,081 19 0,146 0,174 0,136 0,099 20 0,105 0,126 0,094 0,068 21 0,152 0,205 0,128 0,081 23 0,139 0,207 0,109 0,057 24 0,108 0,162 0,082 0,04 25 0,12 0,187 0,083 0,038 I. Treino/Estimação

X

new

Modelo

?

II. Teste/Previsão

Treino do modelo vs Teste do modelo

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 14

Regressão Linear Múltipla



O modelo de regressão linear múltipla



Propriedades do termo ε

i

(

pressupostos

):



variância dos resíduos é constante;



todos os resíduos são independentes;



seguem uma lei normal com média nula.

 Pressuposto para fazer inferência estatística sobre o modelo

(IC, TH ao modelo ou seus parâmetros).

0 1 1 2 2

i i i m im i

Y

=

β

+

β

x

+

β

x

+

+

β

x

+

ε

Componente estrutural Componente estocástica

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 15

Regressão Linear Múltipla



β

0

- Intercepção na origem (“intercept”,

“constant”);



β

i

– Coeficientes de regressão parciais (“partial

regression coefficients”).

0 1 1 2 2

i i i m im i

Y

=

β

+

β

x

+

β

x

+

+

β

x

+

ε

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 16

Regressão Linear Múltipla



Pode ser usado para descrever relações

não-lineares, e.g:



Assume que os X’s

estão isentos

de qualquer erro.

2 2 0 1 1 2 2 11 1 22 2 12 1 2

y

=

β

+

β

x

+

β

x

+

β

x

+

β

x

+

β

x x

+

ε

(5)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 17



Notação matricial

1

11

1

0

1

1

1

1

m

n

n

nm

m

n

Y

x

x

Y

x

x

Y

XB

E

β

ε

β

ε

 

 

  

 

 

  

=

+

 

 

  

 

 

  

 

 

  

=

+

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 18



Estimação do modelo de regressão linear

múltipla:



Mínimos quadrados

(

)

(

) (

)

2 0 1 1 2 2 1

ˆ

ˆ

. .,

n i i i m mi B i T B

B

Min

Y

x

x

x

i e

B

Min Y

XB

Y

XB

β

β

β

β

=

=

=

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 19

Regressão Linear Múltipla



Estimação de parâmetros em RLM



Minimizar a soma dos desvios quadráticos (verticais …)

3D Surface Plot Y=105,1527+0,2131*X1+0,4855*X2 195 190 185 180 175 170 165 160 155

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 20

Regressão Linear Múltipla



Métodos dos mínimos quadrados:



Solução: CN de optimalidade

Equações normais do método dos mínimos quadrados

(6)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 21 

Solução (notação matricial):

(

)

1

ˆ

T

T

=

B

X X

X Y

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 22 

Estimativa da variância do termo estocástico do

modelo de regressão linear múltipla:



N – número de observações



m – número de variáveis

2 2 1

ˆ

ˆ

1

1

N i i

SSr

N

m

N

m

ε

σ

=

=

=

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 23

Inferência em Regressão Linear

Múltipla

•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression Analysis. Wiley. 4th ed.

•Montgomery, D.C.; G.C. Runger, 1999, Applied Statistics and Probability for Engineers, 2nd ed., Wiley, NY

•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 24

Regressão Linear Múltipla

Inferência



Propriedades das estimativas dos parâmetros



Seguem uma distribuição normal multivariada:

(

)

(

1

)

2

ˆ ~

,

T

(7)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 25

Inferência



Propriedades das estimativas dos parâmetros:



Matriz das variâncias-covariâncias das estimativas dos

parâmetros:



Dada por:

(

)

1 2

ˆ

( )

T

Var B

=

X X

σ

( )

(

)

(

)

(

)

( )

(

)

(

)

(

)

( )

0 0 1 0 1 0 1 1 0 1

ˆ

ˆ

,

ˆ

ˆ

,

ˆ

ˆ

,

ˆ

ˆ

ˆ

,

ˆ

ˆ

( )

ˆ

,

ˆ

ˆ

,

ˆ

ˆ

m m m m m

Var

Cov

Cov

Cov

Var

Cov

Var B

Cov

Cov

Var

β

β β

β β

β β

β

β β

β β

β β

β

=

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 26

Inferência



A variância associada a cada parâmetro individual é

dada pelos elementos na diagonal principal da

matriz de variâncias-covariâncias.



A covariância entre parâmetros, é dada pelos

elementos não diagonais.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 27

Regressão Linear Múltipla

Inferência



TH aos coeficientes individuais



Para analisar a significância de alguns parâmetros

em particular.



Nas condições do modelo de regressão ser válido:



Os parâmetros seguem distribuições normais;



A sua média é centrada nos valores exactos e a sua

variância é dada pelos elementos diagonais da matriz de

variâncias-covariâncias.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 28

Regressão Linear Múltipla

Inferência



TH (parâmetros individuais):

Rejeitar H

0

se |t

0

| > t

α/2,n-p-1

.

Estatística de teste Elemento jj da matriz de variâncias-covarâncias

(8)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 29

Inferência



IC para os parâmetros do modelo de

regressão múltipla



IC(β

j

,

(1-α)x100%

):

2 2 2, 1 2, 1

ˆ

ˆ

ˆ

ˆ

j

t

α N p

C

jj j j

t

α N p

C

jj

β

− −

σ

β

β

+

− −

σ

Elemento jj da matriz de variâncias-covarâncias

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 30

Inferência



IC para a resposta média



Intervalo de previsão

(

)

(

)

0 0 0 1 1 2 2 | 2, 1 0 0 | | 2, 1 0 0 ˆ ˆ T T ˆ ˆ T T Y x tα N p x X X x Y x Y x tα N p x X X x

µ

− − −

σ

− ≤

µ

µ

+ − −

σ

(

)

(

1

)

(

(

)

1

)

2 2 0 2, 1 0 0 0 0 2, 1 0 0

ˆ

N p

ˆ

1

T T

ˆ

N p

ˆ

1

T T

y

t

α

σ

x

X X

x

y

y

t

α

σ

x

X X

x

− − − − − −

+

+

+

0 0 0

ˆ

|

ˆ

ˆ

Y x

y

=

x

β

=

µ

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 31

Regressão Linear Univariada

Inferência em regressão linear



IC para a média e intervalo de previsão

Intervalo de previsão

Intervalo de confiança para a média

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 32

Regressão Linear Múltipla

Métricas de Qualidade do Modelo



Coeficiente de determinação (R

2

)



Uma medida da qualidade do modelo (0≤ R

2

≤1)



Definição geral (modelos univariados/multivariados)

(Fracção da variabilidade total que é explicada pelo modelo)

2

1

SSreg

SSr

R

SSt

SSt

=

= −

(9)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 33



O coeficiente R

2

permite aferir sobre a qualidade do ajuste,

aumentando sempre que se adiciona mais uma variável



Mesmo que uma variável não esteja relacionada com a

resposta, há sempre uma pequena parte da sua

variabilidade que aquela ajuda a explicar, por alinhamentos

aleatórios com Y.



Estas variáveis não trazem nada de novo para o modelo em

termos de previsões futuras, tendo pelo contrário uma acção

prejudicial e destabilizadora.



Para aferir sobre a qualidade do modelo é pois importante

penalizar a métrica de qualidade com o número de variáveis

utilizado.

Regressão Linear Múltipla

Métricas de Qualidade do Modelo

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 34

Métricas de Qualidade do Modelo



R

2

ajustado

(R

2

adj)



Penaliza a introdução de termos adicionais no modelo



Previne “overfitting” e a utilização de regressores com

pouco potencial explicativo da variabilidade da resposta

(

)

(

)

(

)

(

)

(

)

2

1

1

2

1

1

1

1

1

adj

SSr N

p

N

R

R

SSt N

N

p

= −

= −

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 35

O Problema da Colinearidade

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 36

Regressão Linear Múltipla

Colinearidade



O problema da colinearidade dos regressores



Um exemplo ainda mais simples:



Construir um modelo para Y vs X1,X2

x

1

x

2

y

1

2

4

2

4

10

3

6

15

4

8

20

5

11

23

(10)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 37 Colinearidade 1 2

1 10.3

2.5

y

= − +

x

x

Modelo ajustado:

Como interpretar o sinal e a magnitude dos coeficientes?

1 2 3 4 5 2 3 4 5 6 7 8 9 10 11 x1 x2 1 2 3 4 5 4 6 8 10 12 14 16 18 20 22 24 x1 y 0 5 10 15 4 6 8 10 12 14 16 18 20 22 24 x2 y x1 x1 x2 x2 y y

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 38

Colinearidade



Outro exemplo



Construir um modelo para Y vs X1,X2

Source: Sokal and Rohlf, Biometry, 3ed., Freeman: NY (1995). -3 4 5 -3 2 7 -1 2 1 -1 0 3 1 0 -3 1 -2 -1 3 -2 -7 3 -4 -5 X2 X1 Y

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 39

Regressão Linear Múltipla

Colinearidade 5 0 -5 2 0 -2 5 0 -5 5 0 -5 5 0 -5 2 0 -2 Y X1 X2 Matrix Plot of Y; X1; X2

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 40

Regressão Linear Múltipla

(11)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 41 4 3 2 1 0 -1 -2 -3 -4 -5 8 6 4 2 0 -2 -4 -6 -8 X1 Y Scatterplot of Y vs X1 4 3 2 1 0 -1 -2 -3 -4 -5 8 6 4 2 0 -2 -4 -6 -8 X1 Y -3 -1 1 3 X2 Scatterplot of Y vs X1 Colinearidade

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 42

Colinearidade



Nota:



Os coeficientes de regressão parciais

representam a contribuição de um predictor na

variável de saída, quando os outros se mantêm

constantes;



A magnitude e sinal dos coeficientes de

regressão parciais, depende dos predictores

incorporados no modelo (sempre que estes

apresentam correlação entre si).

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 43

Regressão Linear Múltipla

Colinearidade



Por outro lado,…



Analisando a variância das estimativas



Simulação: Gerar aleatoriamente amostras com 10

observações

 Dois níveis de correlação entre X1 e X2

 Resultados para 1000 simulações

1 2 -10 -5 0 5 10 15 20 High correlation (ρ =0.95) E st im at es Variable 1 2 -10 -5 0 5 10 15 20 Low correlation (ρ =0) E st im at es Variable Valores exactos dos parâmetros

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 44

Regressão Linear Múltipla

Colinearidade



Ou seja:



Quando a correlação entre X1 e X2 é de 0.95

a variância na estimativa dos coeficientes

que afectam as variáveis X1 e X2 é cerca de

10 vezes superior àquela obtida quando não

há correlação entre X1 e X2.

(

)

1 2

ˆ

( )

T

(12)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 45

Colinearidade



Efeitos da colinearidade na estimação de parâmetros

Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I) and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of the observations and contours in the Y=0 plane are also presented.

a) b)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 46

Colinearidade



Conclusões:



Quando há colinearidade nos regressores:



É difícil interpretar o modelo (face aos gráficos

disponíveis)



As estimativas dos parâmetros são mais instáveis

(maior variância)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 47

Regressão Linear Múltipla

Colinearidade



Nota:



A correlação entre variáveis é muito comum em

aplicações industriais:



Restrições processuais (balanços mássicos e de

energia);



Anéis de controlo, metodologias e protocolos de

actuação;



Instrumentação (instrumentação redundante,

espectrofotómetros, etc.).

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 48

Regressão Linear Múltipla

Colinearidade



Como detectar a presença de colinearidade?

(13)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 49

Correlations (AS.vs.Bendtsen) Marked correlations are significant at p < ,05000 N=36 (Casew ise deletion of missing data)

Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD 1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68 0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73 1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68 0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69 0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68 0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36 0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37 0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37 -0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35 0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69 0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93 0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71 0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79 0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72 0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73 0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80 0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24 0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37 0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21 -0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27 0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75 0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00 Colinearidade



Detecção da presença de colinearidade



Matrizes de correlação e de gráficos de dispersão

Matrix of scatter plots

Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 50

Colinearidade



Detecção da presença de colinearidade



Conhecimento sobre o processo:



Verificar se alguns coeficientes têm sinal contrário ao

esperado;



Verificar se variáveis que se esperavam importantes,

não têm uma magnitude correspondente;



Verificar se a eliminação de uma linha ou coluna,

produz alterações muito significativas;



O teste F baseado em ANOVA é significante, mas os

coeficientes individuais não o são.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 51

Regressão Linear Múltipla

Colinearidade



Detecção da presença de colinearidade



Estatísticas de colinearidade:

 onde Rj2é o R2para a regressão de Xj contra todos

os outros p – 1 regressores.



“Variance Inflation Factor” (VIF)

(

)

1 2

ˆ

( )

T

Var B

=

X X

σ

(

2

)

1

1

jj j

C

R

=

Elemento j da diagonal de (XTX)-1

( )

(

2

)

1

ˆ

1

j j

VIF

R

β

=

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 52

Regressão Linear Múltipla

Colinearidade



Análise do VIF:



Valores de referência:



VIF>10 → colinearidade é um problema;



VIF<5 → colinearidade não é um problema;



5<VIF<10 → “zona cinzenta” (colinearidade

(14)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 53 Colinearidade



Número de Condição

T T

maximum eigenvalue of X X

minimum eigenvalue of of X X

C

=

Referência:

C <100 → não há problemas sérios de colinearidade; 100 < C < 1000 → colinearidade moderada a forte; C >1000 → colinearidade constitui um problema.

•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression Analysis. Wiley. 4th ed..

•Chaterjee, S.; B. Price; 1998, Regression analysis by example, 2nd. ed., Wiley, NY

Outros: Critérios de Belsley (Draper & Smith, 1998)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 54

Metodologia Geral de RLM

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 55

Regressão Linear Múltipla

Passo 1 Estudar estatísticas e gráficos Passo 2 Formular o modelo Passo 3 Estimar o modelo Passo 4 Validar o modelo Passo 5 Apresentar resultados. Usar modelo. Bom ajuste OK!

Ajuste não satisfatório



Metodologia em RL

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 56

Regressão Linear Múltipla

1. Familiarização com os dados

 Fazer uso extensivo de todas as ferramentas de estatística

descritiva que nos ajudem a familiarizar com os dados do nosso problema, por exemplo:

 Examinar médias, desvios padrão, alguns percentis, mínimos,

máximos, para todas as variáveis de entrada e de saída;

 Examinar a matriz de correlação (existe colinearidade entre os x’s?

qual/quais os x’s mais correlacionados linearmente com o y?);

 Construir gráficos de dispersão para todas as combinações de x’s e

entre cada x e o y;

 Se os dados foram recolhidos ao longo do tempo, analisar,

individualmente, o gráfico temporal para cada variável;

(15)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 57

2. Formulação do modelo

 Com base no conhecimento existente a priori e/ou com base nos

gráficos construídos em 1 para as relações entre y e os vários x’s, propor um modelo de regressão que relacione as variáveis de entrada com a variável de saída;

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 58

3. Estimar os parâmetros do modelo

 Proceder ao ajuste do modelo aos dados recolhidos. Como

resultado, obtém-se as estimativas para os parâmetros do modelo definido em 2., bem como outras grandezas

relacionadas (por exemplo, parâmetros de qualidade, valores de prova para diversos testes estatísticos). Deve-se então:

 Analisar os resultados em busca de variáveis eventualmente mais

importantes na explicação da variabilidade de y;

 Avaliar a qualidade do ajuste;

 Verificar se existe colinearidade entre as variáveis (calcular VIF para

cada variável existente no modelo), e se esta pode constituir um problema.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 59

Regressão Linear Múltipla

4. Validação do modelo estimado

 Construir os seguintes gráficos envolvendo os resíduos, para

verificar se algum/ns dos pressupostos subjacentes aos modelos de regressão linear está/ão a ser violado/s:

 Resíduos vs. valores previstos (para verificar, por exemplo, se a

variância dos resíduos não depende do nível de y);

 Resíduos vs. cada uma das variáveis de entrada (verificar que

não existe estrutura por explicar devido, por exemplo, a não considerar termos não-lineares envolvendo as variáveis de entrada);

 Resíduos vs. tempo, ou sequência de observações (verificar a

independência dos resíduos ao longo das observações);

 Gráficos de probabilidade normal para resíduos (verificar o

pressuposto de normalidade dos resíduos).

 (Padrões não aleatórios são indicativo de um modelo não

adequado)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 60

Regressão Linear Múltipla

5. Apresentar os resultados e usar o modelo

 Nesta fase sintetizam-se os resultados para o modelo

desenvolvido (desde que este seja satisfatório). Os dados utilizados e pressupostos subjacentes devem ser também indicados. Usar então o modelo e criar uma metodologia que permita averiguar a sua validade ao longo do tempo, se o seu uso não se restringir à situação presente.

(16)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 61

Colinearidade



Regressando ao problema da colinearidade

… como lidar com a sua presença?



Métodos de selecção de variáveis



Métodos de projecção (selecção de dimensões)



Métodos de encolhimento

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 62

Colinearidade



Selecção de variáveis



Princípio:



Se há redundância entre os X’s, seleccionar aqueles

que mais explicam a variabilidade apresentada pela

resposta (Y), e retirar todas aquelas variáveis que não

acrescentem capacidade explicativa.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 63

Regressão Linear Múltipla

Colinearidade



Metodologias mais comuns de selecção de

variáveis:



Forward addition



Backward elimination



Forward stepwise selection



“Best subset” regression

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 64

Regressão Linear Múltipla

Inferência

Nos métodos de selecção de variáveis analisa-se a significância

estatística associada à introdução de grupos de variáveis

adicionais:

 “Partial F-test” (ou “Extra Sum of Squares method”)

 Até agora só a analisámos a situação estática.

 Temos um conjunto de variáveis de entrada com as quais

queremos construir um modelo para explicar a resposta.

 E se quisermos incluir mais variáveis? – Situação dinâmica!

 Pretendemos agora saber se, introduzindo um conjunto extra de

variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade de Y melhora significativamente.

(17)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 65

Inferência



“Partial F-test”

 Vamos considerar que dispomos um modelo com p variáveis e

pretendemos saber se um subconjunto destas variáveis (r) contribui, como um todo, significativamente para o modelo.

 Ou seja, se particionarmos todos os coeficientes do modelo num

conjunto com r variáveis (β1) e noutro com as restantes (β2),

pretendemos testar as hipóteses:

 H0:

β

1= 0  H1:

β

1≠0

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 66

Inferência



Metodologia:



Calcular SSreg para o modelo completo:



(com

β1

e

β2

) → SSreg(β)



Para avaliar a contribuição de

β1

para a regressão, estimar

um modelo assumindo válida

H0:

β

1= 0 (modelo reduzido):



Y=X

2

β

2

+ε → SSreg(β

2

)



Então, SSreg devido a

β1

, assumindo que

β2

já está no

modelo é:



SSreg(β

1

2

) = SSreg(β) - SSreg(β

2

)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 67

Regressão Linear Múltipla

Inferência



ET:



Rejeitar se:

(

teste unilateral à direita

)

(

1 2

)

0 2

|

/

ˆ

SSreg

r

F

σ

=

β β

Estimado com o modelo completo.

(

)

0

,

1,

F

>

F r N

p

α

Variabilidade adicional explicada pelo conjunto de variáveis em estudo

Variabilidade residual

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 68

Regressão Linear Múltipla

Selecção de Variáveis



Forward addition

Select the predictor having the highest correlation with y

Is variable significant? Are other predictors

available? No prediction possible with MLR Validate model No Yes Yes Select additional predictor No Examine final model Is selected predictor significant? Yes (Enter variable) No (Fail to enter) j in f >f fj<fin

(18)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 69

Selecção de Variáveis



NOTA:



As variáveis são testadas sequencialmente, de

acordo com a magnitude da estatística do teste

F-parcial (partial F-test);



Se esta estatística for superior a “F to enter” (f

in

), a

variável passa a integrar o modelo;



Caso contrário, o processo pára.



Variáveis seleccionadas não podem ser depois

removidas.



Não explora o efeito que a adição de uma variável

pode ter naquelas já adicionadas.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 70

Selecção de Variáveis



Backward

elimination

Select all variables and include them in the model

Is its contribution significant ? Validate model No (Remove variable) Nota:

Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.

Select the variable that contributes the least to explaining the Y variability (when all others are in the model)

Yes

(Do not remove variable )

j out

f > f

j out

f < f

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 71

Regressão Linear Múltipla

Selecção de Variáveis



Forward stepwise selection

j in

f>f

Select the predictor having the highest correlation with y

Is variable significant? Are other predictors

available?

No prediction possible with MLR

Is variance explained by each variable in the

model significant? Validate model No Yes Yes Yes Select additional predictor No Examine final model No (Remove variables) Is selected predictor significant?

(Enter variable) Yes No (Fail to enter)

Nota:

Variáveis selecionadas podem vir a ser removidas posteriormente, caso se tornem redundantes quando outras forem adicionadas.

(normalmente ) in out in out f ≥f f =f j in f <f j out f <f

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 72

Regressão Linear Múltipla

Selecção de Variáveis



“Best subset” regression:



Para cada combinação distinta de k variáveis (k=

k

min

: k

max

):



Estimar o correspondente modelo MLR;



Calcular o valor do critério de

“qualidade de ajuste”

seleccionado;



Ordenar as combinações de variáveis de acordo com o valor

do critério a que elas conduziram;



Guardar os resultados para as melhores

N

combinações;



Apresentar os resultados para as melhores N combinações

obtidas em cada subconjunto de dimensão k considerado

(k=k

min

: k

max

).

(19)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 73

Selecção de Variáveis



Critérios de qualidade de ajuste:



R

2 

R

2adj



Mallows-C

p

 Uma medida do erro quadrático total do modelo de regressão

 Se o modelo postulado for correcto, Cp dever ser próximo de k+1

(número de parâmetros)

 Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.

( )

(

)

2

2

1

ˆ

p

SSr k

C

n

k

σ

=

+

Estimado com o modelo completo.

Estimado com o modelo em estudo (k variáveis).

Gráfico Cp vs p

Também penaliza a adição de variáveis sem poder explicativo

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 74

Selecção de Variáveis



Critérios de qualidade de ajuste (cont.):



Mallows-Cp



É conveniente traçar um gráfico Cp vs. (k+1):

 procurar qual o modelo com Cp mais baixo que está mais

próximo da recta Cp=k+1.



PRESS

“Leverage” da observação i

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 75

Regressão Linear Múltipla

Selecção de Variáveis



Statistica

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 76

Regressão Linear Multivariada

Tópicos sobre métodos de projecção

(

selecção de dimensões ou de direcções

)

(20)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 77

Metodologias de Projecção



Na abordagem ao problema da colinearidade vimos

que as técnicas de selecção de variáveis

contornavam o problema deixando de lado variáveis

“redundantes”.



As metodologias de projecção, pelo contrário, não

excluem qualquer variável:



O facto de haver redundância, significa que a verdadeira

dimensão dos dados (X’s) é inferior ao número de

variáveis presentes;



Importa pois estimar este subespaço (de dimensão mais

reduzida) e usar as variáveis X’s nele projectadas, para

prever Y.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 78

Principal Components Regression



PCR (Principal Component Regression)



O subespaço de X a usar é o gerado pelos

componentes principais



Proporcionam uma boa descrição da variabilidade

encontrada em X;



As variáveis (PC1, PC2, …) não são correlacionadas;



Deixando de lado as dimensões menos relevantes, …

… contorna-se o problema da colinearidade!

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 79

PCR

Principal Components Regression



Usar como regressores os scores dos PCs selecionados

 Vector com os coeficientes do modelo:

(

)

(

)

1 11 12 1 11 12 1 1 2 1 2

ˆ

onde

(PCA)

,

T T PCR p p n n np m m mp

b

T T

T y

T

XP

t

t

t

p

p

p

T

P

t

t

t

p

p

p

p

m

=

=

=

=

Nota:

Fórmula válida para o caso de X e Y serem centrados (e eventualmente escalonados). Se não estiverem centrados, deve-se adicionar uma coluna de 1’s para contemplar a estimação da ordenada na origem.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 80

PCR

Principal Components Regression



NOTA:



PCR pode ser usado quando existem

mais

variáveis que observações

;



Existem técnicas para acomodar dados em falha

nos X’s;



O método é

sensível à escala das variáveis

;



Quando o número de dimensões seleccionadas é

(21)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 81

Partial Least Squares



Em PCR o subespaço utilizado é o que mais explica

a variabilidade presente nos X’s;



No entanto, este não é necessariamente o mais

relevante do ponto de vista de explicar a

variabilidade em Y;



Em PLS procura-se estimar o subespaço que

melhor explica a variabilidade em Y, descrevendo

também a variabilidade em X …

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 82

Partial Least Squares 

PLS (Partial Least Squares):



O subespaço é aquele que apresenta “maior covariância”

com Y:



Procedimento:

 Procurar direcções no espaço dos X’s que apresentem maior

covariância com os Y’s.

 No caso de um Y:

 Qual é a combinação linear de X’s com maior covariância com

Y? Resposta: T1;

 Qual é a combinação linear de X’s, ortogonal à anterior, com

maior covariância com Y? Resposta:T2;

 …

•Wold, S.; Sjöström, M.; Eriksson, L. (2001), PLS-regression: a basic tool of chemometrics. Chemometrics and Intelligent Laboratory Systems, p. 109-130.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 83

PLS

Partial Least Squares



PLS



Motivação geométrica

X2 X3 X1 t1 y t1 T=XW* X=TPT+E

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 84

PLS

Partial Least Squares

X

Y

1 2 3 … m … M 1 2 . . . i . . . N 1 … K Variáveis O b se rv aç õe s

T

U

t1 t2 t3 u1 u2 u3

W

T

P

T

C

T

Nomenclatura: T –scores de X U –scores de Y P –loadings de X

W -weights de X (baseados nos resíduos)

W* -weights de X (baseados nas variáveis originais)

(22)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 85

Partial Least Squares



PLS



Scores de X

(NxM)

: T

(NxA)



T=X•W*

(As colunas de W*

(MxA)

contêm informação

sobre as variáveis X que têm mais peso na previsão

de Y);



X=T•P

T

+E

(T•P

T

é uma boa aproximação de X; P

é a matriz de Loadings, P

(MxA)

e E é a matriz de

resíduos

(NxM)

);



Se houver vários Y’s: Y=U•C

T

+G (U•C

T

é uma boa

aproximação de Y; C é a matriz de weights de Y,

e G é uma matriz de resíduos de Y

(NxK)

);

Nota:

N – Número de observações; M – Número de variáveis K

-A – Número de dimensões (variáveis latentes)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 86



PLS



Os scores de X são utilizados para prever Y:



Y=

T

C

T

+F

(F é a matriz de resíduos de previsão de Y)



Y=

X•W*

C

T

+F=X•B+F



Ou seja, o vector de coeficientes de regressão

segundo PLS é dado por:



B=

W*

C

T

=

W• (P

T

•W)

-1

C

T Partial Least Squares

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 87



Interpretação do modelo PLS



Analisar importância relativa das variáveis X na

previsão de Y:



Por dimensão

: analisar colunas de W* (ou W, ~=)

 Variáveis importantes têm pesos de magnitude elevada;

 Variáveis com coeficientes semelhantes têm importância

aproximadamente igual; 

Global

:

 Analisar magnitude dos coeficientes B (importância na

previsão de Y);

 VIP’s (Variable Importance in Projection)

 Leva em conta a importância da variável na reconstrução

de X e previsão Y.

PLS

Partial Least Squares

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 88



Interpretação do modelo PLS



Analisar o que não é explicado pelo modelo

(resíduos)



Resíduos em Y

 Analisar magnitudes (resíduos normalizados);

 Gráficos de probabilidade: outliers?



Resíduos em X

(parte de X não usada para estimar Y)

 Permite ver se uma observação é adequadamente descrita

pelo modelo PLS, antes de se efectuar a estimativa de Y (se os resíduos de X para a observação forem elevados, então ela está afastada das condições em que o modelo PLS for construído, e não há garantias que as previsões sejam boas).

PLS

(23)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 89



NOTA:



PLS pode ser usado quando existem mais variáveis que

observações;



Acomoda dados em falha;



Pode ser usado com vários Y’s



Adequado se estes apresentarem correlação entre si



Caso contrário construir modelos independentes para cada Y



O método é sensível à escala das variáveis.



Quando o número de dimensões seleccionadas é igual ao

número de variáveis, PLS=PCR=RLM

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 90



PLS dispõe de várias ferramentas de diagnóstico:



“Variable importance in projection” (VIP) – sumário da

importância das variáveis X’s, do ponto de vista da

explicação da variabilidade em X e Y (VIP > 1 => variáveis

influentes);



Diagnóstico de observações: distância das observações

(X’s e Y) aos modelos dos espaços X’s e Y:

 Detecção de outliers;

 Verificar se uma dada previsão é fiável, com base na distância de

Xnew ao modelo para os X’s e no conjunto de dados usado para desenvolver o modelo.



Diagnóstico de variáveis:

 Variabilidade explicada para cada variável (X’s);

 Selecção de componentes usando critérios de variabilidade

explicada (R2(Y)=1-SSR/SST) e variabilidade prevista (Q2

(Y)=1-PRESS/SST).

Notas

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 91 

Validação Cruzada

 Particionar os dados de treino em K grupos

 Deixar um grupo de lado, e estimar o modelo com os restantes (K-1)

grupos

 Prever as respostas do grupo eliminado, e calcular os respectivos

erros de previsão

 Repetir o processo para todos os grupos (todas as amostras ficam

de fora uma vez).

 Calcular o erro quadrático médio de previsão, usando todos os erros

de previsão obtidos para os diferentes grupos (RMSECV)

PCR, PLS

Selecção do número de dimensões (variáveis latentes)

Exemplo para 5 grupos (K=5)

Test

Train Train Train Train

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 92 

Antes de usar o modelo, este deve ser validado.



Conjunto de teste



Usar um novo conjunto de dados para verificar se as previsões

efectuadas pelo modelo são adequadas ao fim a que este se

destina, e se estão dentro do que é esperado no seu

desenvolvimento.



Validação Cruzada



Nem sempre temos a possibilidade de ter um novo conjunto de

dados:

 Usar validação cruzada (5-10 grupos);

 Usar técnicas de re-amostragem (resampling, por exemplo: bootstrap).

PCR, PLS

(24)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 93



NOTA:



Tanto PLS como PCR estimam um modelo linear

multivariável do tipo:



No entanto, estes métodos estimam os parâmetros do

modelo de forma distinta ao métodos dos mínimos

quadrados, tirando partido daquilo que para este método é

uma fraqueza: a presença de variáveis X colineares. Eles

incorporam a correlação existente entre estas variáveis na

estimação dos subespaços, com base nos quais estimam

os parâmetros do modelo.



A sua utilização prática, após estimados os parâmetros, é

no entanto idêntica.

PLS

0 1 1 2 2

i i i m im i

Y

=

β

+

β

x

+

β

x

+

+

β

x

+

ε

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 94

 Exemplo: SFCM process (Wise at al., 2003*)

 O “Slurry-Fed Ceramic Melter” é um sistema contínuo onde se

processam resíduos nucleares, combinando-os com materiais vítreos, num forno a altas temperaturas, o SFCM.

 O resultado é um produto vitrificado, estável, para deposição a

longo prazo, num local apropriado.

 Os dados recolhidos consistem das temperaturas no forno em 20

localizações diferentes, dispostos segundo duas linhas verticais com 10 sensores cada,…

 X1-base →X10-topo; X11-base →X20-topo

 … e o nível da massa fundida no forno, (y).

 Pretende-se construir um modelo que relacione as

temperaturas medidas, com o nível de vidro fundido no SFCM.

* in PLS_Toolbox for use in MATLABTM, Eigenvector Research Inc., 2003.

y X10 X9 X8 X7 X6 X5 X4 X3 X2 X1 X20 X19 X18 X17 X16 X15 X14 X13 X12 X11

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 95

Exemplo

0 50 100 150 200 250 300 200 300 400 500 600 700 800 900 1000 1100 1200 Sample number T em pe ra tu re X variables 0 50 100 150 200 250 300 19.8 20 20.2 20.4 20.6 20.8 21 21.2 Sample number Le ve l y variable

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF 96

 PCR: Selecção do número de componentes usando validação cruzada.

Detalhes: •Validação cruzada: 10 blocos contíguos; •Variáveis centradas. 2 4 6 8 10 12 14 16 18 20 0.109 0.11 0.111 0.112 0.113 0.114 0.115 0.116 0.117

Principal Component Number

R M S E C V L ev el

Exemplo

(25)

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 97 2 4 6 8 10 12 14 16 18 20 0.109 0.11 0.111 0.112 0.113 0.114 0.115 0.116 0.117

Latent Variable Number

R M S E C V L ev el

PLS: Selecção do número de componentes usando validação cruzada.

Detalhes:

•Validação cruzada: 10 blocos contíguos; •Variáveis centradas.

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 98



Coeficientes de regressão obtidos por RLM, PCR e PLS

0 2 4 6 8 10 12 14 16 18 20 -0.01 -0.005 0 0.005 0.01 0.015 Variable Number R eg re ss io n C oe ff ic ie nt MLR PCR PLS

MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPFDEQ-FCTUC 99

Regressão Linear Multivariada

Comparação de Metodologias

Exemplo: SFCM (Wise at al., 2003)

c c PRESS RMSECV n =

(

)

2 1 ˆ * n i i i y y RMSEC n = − =

(

)

2 1 ˆ test n i i i test y y RMSEP n = − =

RMSE of Calibration* RMSE of Cross-Validation RMSE of Prediction in a new test set (200 new observations) 0.1471 0.1396 0.1366 0.1496 RMSEP 0.1122 0.1098 0.1108 0.1122 RMSECV 0.0996 0.1034 0.1059 0.0991 RMSEC RR PLS PCR MLR

Referências

Documentos relacionados

A gestão do processo de projeto, por sua vez, exige: controlar e adequar os prazos planejados para desenvolvimento das diversas etapas e especialidades de projeto – gestão de

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

VIII. supervisionar a elaboração e a fiel execução dos projetos pedagógicos dos cursos de graduação de formação técnica de nível médio, de pós-graduação e

- Pele: Com base nos dados disponíveis, os critérios de classificação não são preenchidos Toxicidade para órgãos-alvo específicos (STOT), a exposição

A participação foi observada durante todas as fases do roadmap (Alinhamento, Prova de Conceito, Piloto e Expansão), promovendo a utilização do sistema implementado e a

Gottardo e Cestari Junior (2008) efetuaram análise de viabilidade econômica na implantação de silo de armazenagem de grãos utilizando os seguintes modelos VPL,

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

“A Escola do Direito Natural ou do jusnaturalismo distingue-se da concepção clássica do direito natural aristotélico-tomista por este motivo principal: enquan- to para Santo