• Nenhum resultado encontrado

Engenharia de Processos e Sistemas

N/A
N/A
Protected

Academic year: 2021

Share "Engenharia de Processos e Sistemas"

Copied!
85
0
0

Texto

(1)

Marco Reis:2017 ©

Modelação matemática de base estatística/empírica:

Construção de modelos empíricos usando metodologias de regressão linear

II

Engenharia de Processos e Sistemas

Marco S. Reis

(2)

Construção de modelos empíricos

usando metodologias de regressão

(3)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 3

Objectivos:

• Identificar a componente estrutural/determinística e aleatória/estocástica do modelo de RL;

• Compreender o que é um modelo de RL e o seu âmbito de aplicação;

• Perceber como se estimam os parâmetros de um modelo de RL e saber quais os pressupostos subjacentes ao modelo estimado;

• Interpretar os IC para os coeficientes do modelo (parte estrutural); • Interpretar os IC para a resposta média e de previsão;

• Saber como validar um modelo de RL;

• Compreender a origem do problema da colinearidade e como o diagnosticar; • Saber os passos a seguir na construção de uma modelo de RL

(4)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 4

Metodologias de Modelação

Processo Genérico

Variáveis associadas ao que entra no processo (x’s) Variáveis associadas ao que sai do processo (y’s) Variáveis ligadas a parâmetros do processo (x’s)

Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s).

X’s “Inputs” Predictores Regressores Variáveis de entrada Variáveis independentes Y’s “Outputs” Respostas Variáveis de saída Variáveis dependentes

(5)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 5

Metodologias de Modelação

LC TC F0, T0, CA0 F, T, CA Fcj, Tcj,0 Fcj, Tcj LC TC F0, T0, CA0 F, T, CA Fcj, Tcj,0 Fcj, Tcj 0 dV F F dt   / 0 0 0 E RT A A A A dVC F C FC k e C V dt     / 0 0 0 ( ) E RT A cj p p dVT H UA F T FT k e C V T T dtCC        ,0 , ( ) ( ) cj cj cj cj cj cj j p cj dV T UA F T T T T dt   C    2 set c set FFK VV   , 1 cj cj set c set FFK TT X Y x E(Y|x) X Y x E(Y|x)

Modelos baseados em primeiros princípios

→ Estrutura completamente definida

“Knowledge intensive”

“Data intensive”

Modelos empíricos → Algumas restrições quanto à estrutura do modelo

Modelos baseados em dados

→ muito poucas hipóteses são colocadas quanto à estrutura do modelo

(6)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 11

Metodologias de Modelação

Utilidade dos modelos:

Previsão de valores futuros de uma variável de

saída;

Medição do efeito associado a mudanças

processuais;

Controlo e/ou monitorização do processo;

Optimização do processo;

(7)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 12

Regressão (Previsão):

As saídas do modelo são variáveis quantitativas;

Classificação:

As saídas do modelo são variáveis qualitativas

(classes ou categorias)

Qualidade do produto (Mau, Intermédio, Bom);

Reconhecimento de caracteres (padrões);

(8)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 13

Regressão Linear Múltipla

O modelo de regressão linear múltipla

Propriedades do termo ε

i

(

pressupostos

):

variância dos resíduos é constante;

todos os resíduos são independentes;

seguem uma lei normal com média nula.

 Pressuposto para fazer inferência estatística sobre o modelo

(IC, TH ao modelo ou seus parâmetros).

0 1 1 2 2

i i i m im i

Y

x

x

 

x

(9)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 14

Regressão Linear Múltipla

β

0

- Intercepção na origem (“intercept”,

“constant”);

β

i

– Coeficientes de regressão parciais (“partial

regression coefficients”).

0 1 1 2 2

i i i m im i

(10)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 15

Regressão Linear Múltipla

Pode ser usado para descrever relações

não-lineares, e.g:

Assume que os X’s

estão isentos

de qualquer erro.

2 2 0 1 1 2 2 11 1 22 2 12 1 2

y

x

x

x

x

x x

(11)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 16

Regressão Linear Múltipla

Estimação do modelo de regressão linear

múltipla:

Mínimos quadrados

 

2 0 1 1 2 2 1

ˆ

ˆ

. .,

n i i i m mi B i T B

B

Min

Y

x

x

x

i e

B

Min Y

XB

Y

XB

 

(12)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 17

Regressão Linear Múltipla

Estimação de parâmetros em RLM

Minimizar a soma dos desvios quadráticos (verticais …)

3D Surface Plot Y=105,1527+0,2131*X1+0,4855*X2 195 190 185 180 175 170 165 160 155

(13)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 18

Regressão Linear Múltipla

Estimativa da variância do termo estocástico do

modelo de regressão linear múltipla:

N – número de observações

m – número de variáveis

2 2 1

ˆ

ˆ

1

1

N i i

SSr

N

m

N

m

 

 

(14)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 19

Inferência em Regressão Linear

Múltipla

(15)

GEPSI/CIEPQPF DEQ-FCTUC

• JMP

– Analysis > Fit Model

• Personality: Standard Least Squares

(16)

GEPSI/CIEPQPF DEQ-FCTUC

Is the model significant (as whole)?

Does it explain a significant ammount of the

Y-variability?

Which variables are more important?

Which coefficients are different from 0 (in a statistically

significant way)?

Assigning uncertainties to predictions made with

the model

21

•Reis, M. S. (2016). Estatística Para a Melhoria de Processos – A Perspectiva Seis Sigma. Coimbra: Imprensa da Universidade de Coimbra. •Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression Analysis. Wiley. 4th ed.

•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY

Regressão Linear Múltipla

(17)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 22

Regressão Linear Múltipla

Inferência

Propriedades das estimativas dos parâmetros

Se o modelo for verdadeiro,

As estimativas seguem uma distribuição normal multivariada:

1

2

ˆ ~

,

T

B

N B X X

0 1 1 2 2 i i i m im i

Y

x

x

 

x

(18)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Múltipla

Inferência

ANOVA

Teste à significância do modelo de regressão

linear múltipla:

H0: β

1

= β

2

= … β

m

= 0

H1: β

j

≠ 0 para pelo menos um j

(19)

GEPSI/CIEPQPF DEQ-FCTUC

2

2 1 1 2 1

ˆ

ˆ

n i i i n i i i n i

y

y

y

y

y

y

  

Variação Total SSt

Variação devida à Regressão SSreg

Variação Residual SSr

Variabilidade observada

Variabilidade explicada pelo modelo (parte estrutural do modelo de regressão)

Variabilidade não explicada pelo modelo

(parte estocástica do modelo de regressão)

= +

Regressão Linear Múltipla

Inferência

Decomposição ANOVA da variabilidade (soma dos quadrados)

total (SSt), em termos da componente explicada pelo modelo de

regressão (SSreg) e da componente residual (SSr):

(20)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Múltipla

Inferência

Tabela ANOVA em regressão linear múltipla:

p = # variáveis de entrada ou regressores

= # parâmetros – 1 0

1 SSreg p F SSr N p    Fontes de Variação (1) Variações (Somas de quadrados) (2) Graus de Liberdade (3) Médias das Somas dos Quadrados (4) Estatística de Teste (F) (5) Regressão SSreg p MSreg MSreg / s2 Residual SSr n–p–1 s2

Total SSt N–1

(21)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 26

Regressão Linear Múltipla

Métricas de Qualidade do Modelo

Coeficiente de determinação (R

2

)

Uma medida da qualidade do modelo (0≤ R

2

≤1)

Definição geral (modelos univariados/multivariados)

(Fracção da variabilidade total que é explicada pelo modelo)

2

1

SSreg

SSr

R

SSt

SSt

 

(22)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 27

O coeficiente R

2

permite aferir sobre a qualidade do ajuste,

aumentando sempre que se adiciona mais uma variável

 Mesmo que uma variável não esteja relacionada com a

resposta, há sempre uma pequena parte da sua

variabilidade que aquela ajuda a explicar, por alinhamentos aleatórios com Y.

 Estas variáveis não trazem nada de novo para o modelo em

termos de previsões futuras, tendo pelo contrário uma acção prejudicial e destabilizadora.

Para aferir sobre a qualidade do modelo é pois importante

penalizar a métrica de qualidade com o número de variáveis

utilizado.

Regressão Linear Múltipla

Métricas de Qualidade do Modelo

(23)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 28

Regressão Linear Múltipla

Métricas de Qualidade do Modelo

R

2

ajustado

(R

2

adj)

Penaliza a introdução de termos adicionais no modelo

Previne “overfitting” e a utilização de regressores com

pouco potencial explicativo da variabilidade da resposta

2

1

1

2

1

1

1

1

1

adj

SSr N

p

N

R

R

SSt N

N

p

 

 

 

 

(24)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 29

Regressão Linear Múltipla

Inferência

TH aos coeficientes individuais

Para analisar a significância de alguns parâmetros

em particular.

Nas condições do modelo de regressão ser válido:

Os parâmetros seguem distribuições normais;

A sua média é centrada nos valores exactos e a sua

variância é dada pelos elementos diagonais da matriz de

variâncias-covariâncias.

0 :

0

1:

0

i i

H

H

(25)

GEPSI/CIEPQPF DEQ-FCTUC 30 

TH (parâmetros individuais):

0

1

:

0

:

0

j

j

H

H

Regressão Linear Múltipla

(26)

GEPSI/CIEPQPF DEQ-FCTUC

Valor de prova

(p-value)

Probabilidade de obter um desvio maior

ou igual ao verificado, se H0 for válida!

(27)

GEPSI/CIEPQPF DEQ-FCTUC 0 ˆ i    f x  1 ˆ i  Amostra 1  2 ˆ i  Amostra 2  3 ˆ i  Amostra 3

0 :

0

1:

0

i i

H

H

Teste bilateral: Pr(|ET|>ET0 |H0 verdadeira)

(28)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 34

Regressão Linear Univariada

Inferência em regressão linear

IC para a média e intervalo de previsão

Intervalo de previsão

(29)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 35

Regressão Linear Múltipla

Inferência

IC para a resposta média

Intervalo de previsão

0 0 0 1 1 2 2 | 2, 1 0 0 | | 2, 1 0 0 ˆ ˆ T T ˆ ˆ T T Y x tN p x X X x Y x Y x tN p x X X x               

1

1

2 2 0 2, 1 0 0 0 0 2, 1 0 0

ˆ

N p

ˆ

1

T T

ˆ

N p

ˆ

1

T T

y

t

 

x

X X

x

y

y

t

 

x

X X

x

0 0 0

ˆ

|

ˆ

ˆ

Y x

y

x

 

(30)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 36

Regressão Linear Univariada

Inferência em regressão linear

Exemplo 1

Pretende-se determinar a influência de três parâmetros

processuais (X1, X2 e X3) numa variável de qualidade do produto (Y).

Para tal, recolheram-se dados do processo durante períodos de

laboração normal, com os quais se construiu uma base de dados.

Utilize esta base de dados para estimar um modelo empírico

para o processo em causa, e determine quais o(s) parâmetro(s) que mais influenciam a variável de qualidade.

(31)

GEPSI/CIEPQPF DEQ-FCTUC

37

Y-Answer Time (Average) (secs)

120 110 100 5 6 7 50 30 10 120 110 100 X1-Number of personnel

X2-Calls per hour (average)

1380 1320 1260 50 30 10 7 6 5 1380 1320 1260

X3-Time per call (average mins)

Matrix Plot of Y-Answer Tim; X1-Number of; X2-Calls per; X3-Time per

Regressão Linear Múltipla

Gráficos

Y vs X1

Y vs X3 X1 vs X3

(32)

GEPSI/CIEPQPF DEQ-FCTUC

38

Regressão Linear Múltipla

 MINITAB: Stat > Regression > Regression …

Não é significativamente ≠ 0! R-Sq subiu, mas R-Sq(adj) desceu.

O modelo é significante: pelo menos um coeficiente de uma variável é diferente de zero. 38

(33)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 39

(34)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 44

Regressão Linear Múltipla

Colinearidade

Nota:

Os coeficientes de regressão parciais

representam a contribuição de um predictor na

variável de saída, quando os outros se mantêm

constantes;

A magnitude e sinal dos coeficientes de

regressão parciais, depende dos predictores

incorporados no modelo (sempre que estes

apresentam correlação entre si).

(35)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 45

Regressão Linear Múltipla

Colinearidade

Por outro lado,…

Analisando a variância das estimativas

Simulação: Gerar aleatoriamente amostras com 10

observações

 Dois níveis de correlação entre X1 e X2

 Resultados para 1000 simulações

1 2 -10 -5 0 5 10 15 20 High correlation ( =0.95) E s ti m a te s Variable 1 2 -10 -5 0 5 10 15 20 Low correlation ( =0) E s ti m a te s Variable Valores exactos dos parâmetros

(36)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 46

Regressão Linear Múltipla

Colinearidade

Ou seja:

Quando a correlação entre X1 e X2 é de 0.95

a variância na estimativa dos coeficientes

que afectam as variáveis X1 e X2 é cerca de

10 vezes superior àquela obtida quando não

há correlação entre X1 e X2.

1 2

ˆ

( )

T

Var B

X X

(37)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 47

Regressão Linear Múltipla

Colinearidade

Efeitos da colinearidade na estimação de parâmetros

Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I) and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of the observations and contours in the Y=0 plane are also presented.

(38)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 48

Regressão Linear Múltipla

Colinearidade

Conclusões:

Quando há colinearidade nos regressores:

É difícil interpretar o modelo (face aos gráficos

disponíveis)

As estimativas dos parâmetros são mais instáveis

(39)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 49

Regressão Linear Múltipla

Colinearidade

Nota:

A correlação entre variáveis é muito comum em

aplicações industriais:

Restrições processuais (balanços mássicos e de

energia);

Anéis de controlo, metodologias e protocolos de

actuação;

Instrumentação (instrumentação redundante,

(40)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 50

Regressão Linear Múltipla

Colinearidade

Como detectar a presença de colinearidade?

(41)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 51

Correlations (AS.vs.Bendtsen)

Marked correlations are signif icant at p < ,05000 N=36 (Casew is e deletion of missing data)

Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD 1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68 0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73 1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68 0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69 0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68 0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36 0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37 0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37 -0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35 0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69 0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93 0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71 0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79 0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72 0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73 0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80 0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24 0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37 0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21 -0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27 0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75 0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00

Regressão Linear Múltipla

Colinearidade

Detecção da presença de colinearidade

Matrizes de correlação e de gráficos de dispersão

Matrix of scatter plots Ra_CD Rz _CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD

(42)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 52

Regressão Linear Múltipla

Colinearidade

Detecção da presença de colinearidade

“Variance Inflation Factor” (VIF)

 onde Rj2 é o R2 para a regressão de Xj contra

todos os outros p – 1 regressores.

Nota:

Cjj é o elemento jj da diagonal de (XTX)-1

 

2

1

ˆ

1

j j

VIF

R

 

ˆ

1 var

 

j jj j

VIF

C

  

n

X

(43)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 53

Regressão Linear Múltipla

Colinearidade

Análise do VIF:

Valores de referência:

VIF>10 → colinearidade é um problema;

VIF<5 → colinearidade não é um problema;

5<VIF<10 → “zona cinzenta” (colinearidade

(44)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 54

Regressão Linear Múltipla

Colinearidade

Como lidar com a sua presença?

Métodos de selecção de variáveis

Métodos de projecção (selecção de dimensões)

(45)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 55

Regressão Linear Múltipla

Colinearidade

Selecção de variáveis

Princípio:

Se há redundância entre os X’s, seleccionar aqueles

que mais explicam a variabilidade apresentada pela

resposta (Y), e retirar todas aquelas variáveis que não

acrescentem capacidade explicativa.

(46)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 56

Regressão Linear Múltipla

Colinearidade

Metodologias mais comuns de selecção de

variáveis:

Forward addition

Backward elimination

Forward stepwise selection

(47)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 57

Regressão Linear Múltipla

Inferência

Nos métodos de selecção de variáveis analisa-se a significância

estatística associada à introdução de grupos de variáveis

adicionais:

“Partial F-test” (ou “Extra Sum of Squares method”)

 Até agora só a analisámos a situação estática.

 Temos um conjunto de variáveis de entrada com as quais

queremos construir um modelo para explicar a resposta.

 E se quisermos incluir mais variáveis? – Situação dinâmica!

 Pretendemos agora saber se, introduzindo um conjunto extra de

variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade de Y melhora significativamente.

(48)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 58

Regressão Linear Múltipla

Inferência

“Partial F-test”

 Vamos considerar que dispomos um modelo com p variáveis e

pretendemos saber se um subconjunto destas variáveis (r) contribui, como um todo, significativamente para o modelo.

 Ou seja, se particionarmos todos os coeficientes do modelo num

conjunto com r variáveis (β1 ) e noutro com as restantes (β2), pretendemos testar as hipóteses:

 H0:

β

1 = 0

(49)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 59

Regressão Linear Múltipla

Inferência

Metodologia:

Calcular SSreg para o modelo completo:

 (com β1 e β2) → SSreg(β)

Para avaliar a contribuição de

β1

para a regressão, estimar

um modelo assumindo válida

H0:

β

1 = 0 (modelo reduzido):

 Y=X2 β2 +ε → SSreg(β2)

Então, SSreg devido a

β1

, assumindo que

β2

já está no

modelo é:

(50)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 60

Regressão Linear Múltipla

Inferência

ET:

Rejeitar se:

(

teste unilateral à direita

)

1 2

0 2

|

/

ˆ

SSreg

r

F

β β

Estimado com o modelo completo.

0

,

1,

F

F r N

 

p

Variabilidade adicional explicada pelo conjunto de variáveis em estudo

(51)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 61

Regressão Linear Múltipla

Selecção de Variáveis

Forward addition

Select the predictor having the highest correlation with y

Is variable significant? Are other predictors

available? No prediction possible with MLR Validate model No Yes Yes Select additional predictor No Examine final model Is selected predictor significant? Yes (Enter variable) No (Fail to enter) j in ff fjfin

(52)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 62

Regressão Linear Múltipla

Selecção de Variáveis

NOTA:

As variáveis são testadas sequencialmente, de

acordo com a magnitude da estatística do teste

F-parcial (partial F-test);

Se esta estatística for superior a “F to enter” (f

in

), a

variável passa a integrar o modelo;

Caso contrário, o processo pára.

Variáveis seleccionadas não podem ser depois

removidas.

Não explora o efeito que a adição de uma variável

(53)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 63

Regressão Linear Múltipla

Selecção de Variáveis

Backward

elimination

Select all variables and include them in the model

Is its contribution significant ? Validate model No (Remove variable) Nota:

Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.

Select the variable that contributes the

least to explaining the Y variability

(when all others are in the model)

Yes

(Do not remove variable )

j out

ff

j out

(54)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 64

Regressão Linear Múltipla

Selecção de Variáveis

Forward stepwise selection

j in

ff

Select the predictor having the highest correlation with y

Is variable significant? Are other predictors

available?

No prediction

possible with MLR

Is variance explained by each variable in the

model significant? Validate model No Yes Yes Yes Select additional predictor No Examine final model No (Remove variables) Is selected predictor significant?

(Enter variable) Yes No (Fail to enter)

Nota:

Variáveis selecionadas podem vir a ser

removidas posteriormente, caso se tornem redundantes quando outras forem adicionadas.

normalmente  in out in out ff ff j in ff j out ff

(55)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 65

Regressão Linear Múltipla

Selecção de Variáveis

“Best subset” regression:

Para cada combinação distinta de k variáveis (k=

k

min

:

k

max

):

 Estimar o correspondente modelo MLR;

 Calcular o valor do critério de “qualidade de ajuste”

seleccionado;

 Ordenar as combinações de variáveis de acordo com o valor

do critério a que elas conduziram;

 Guardar os resultados para as melhores N combinações;

Apresentar os resultados para as melhores N combinações

obtidas em cada subconjunto de dimensão k considerado

(k=k

min

: k

max

).

(56)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 66

Regressão Linear Múltipla

Selecção de Variáveis

Critérios de qualidade de ajuste:

R

2

R

2adj

Mallows-C

p

 Uma medida do erro quadrático total do modelo de regressão

 Se o modelo postulado for correcto, Cp dever ser próximo de k+1

(número de parâmetros)

 Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.

 

2

2

1

ˆ

p

SSr k

C

n

k

Estimado com o modelo completo.

Estimado com o modelo em estudo (k variáveis).

Gráfico Cp vs p

(57)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 67

Regressão Linear Múltipla

Selecção de Variáveis

Critérios de qualidade de ajuste (cont.):

Mallows-Cp

É conveniente traçar um gráfico Cp vs. (k+1):

 procurar qual o modelo com Cp mais baixo que está mais próximo da recta Cp=k+1.

PRESS

(58)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 68

Regressão Linear Múltipla

Selecção de Variáveis

(59)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 69

(60)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 70

Regressão Linear Múltipla

Passo 1 Estudar estatísticas e gráficos Passo 2 Formular o modelo Passo 3 Estimar o modelo Passo 4 Validar o modelo Passo 5 Apresentar resultados. Usar modelo. Bom ajuste OK!

Ajuste não satisfatório

(61)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 71

Regressão Linear Múltipla

1. Familiarização com os dados

 Fazer uso extensivo de todas as ferramentas de estatística

descritiva que nos ajudem a familiarizar com os dados do nosso problema, por exemplo:

 Examinar médias, desvios padrão, alguns percentis, mínimos, máximos, para todas as variáveis de entrada e de saída;

 Examinar a matriz de correlação (existe colinearidade entre os x’s?

qual/quais os x’s mais correlacionados linearmente com o y?);

 Construir gráficos de dispersão para todas as combinações de x’s e

entre cada x e o y;

 Se os dados foram recolhidos ao longo do tempo, analisar, individualmente, o gráfico temporal para cada variável;

(62)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 72

Regressão Linear Múltipla

2. Formulação do modelo

Com base no conhecimento existente a priori e/ou com base nos gráficos construídos em 1 para as relações entre y e os vários x’s, propor um modelo de regressão que relacione as variáveis de entrada com a variável de saída;

(63)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 73

Regressão Linear Múltipla

3. Estimar os parâmetros do modelo

 Proceder ao ajuste do modelo aos dados recolhidos. Como

resultado, obtém-se as estimativas para os parâmetros do modelo definido em 2., bem como outras grandezas

relacionadas (por exemplo, parâmetros de qualidade, valores de prova para diversos testes estatísticos). Deve-se então:

 Analisar os resultados em busca de variáveis eventualmente mais importantes na explicação da variabilidade de y;

 Avaliar a qualidade do ajuste;

 Verificar se existe colinearidade entre as variáveis (calcular VIF para cada variável existente no modelo), e se esta pode constituir um

(64)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 74

Regressão Linear Múltipla

4. Validação do modelo estimado

 Construir os seguintes gráficos envolvendo os resíduos, para

verificar se algum/ns dos pressupostos subjacentes aos modelos de regressão linear está/ão a ser violado/s:

Resíduos vs. valores previstos (para verificar, por exemplo, se a

variância dos resíduos não depende do nível de y);

Resíduos vs. cada uma das variáveis de entrada (verificar que

não existe estrutura por explicar devido, por exemplo, a não considerar termos não-lineares envolvendo as variáveis de entrada);

Resíduos vs. tempo, ou sequência de observações (verificar a

independência dos resíduos ao longo das observações);

 Gráficos de probabilidade normal para resíduos (verificar o

pressuposto de normalidade dos resíduos).

 (Padrões não aleatórios são indicativo de um modelo não

(65)

GEPSI/CIEPQPF DEQ-FCTUC

Engenharia de Processos e Sistemas 75

Regressão Linear Múltipla

5. Apresentar os resultados e usar o modelo

 Nesta fase sintetizam-se os resultados para o modelo

desenvolvido (desde que este seja satisfatório). Os dados utilizados e pressupostos subjacentes devem ser também indicados. Usar então o modelo e criar uma metodologia que permita averiguar a sua validade ao longo do tempo, se o seu uso não se restringir à situação presente.

(66)

GEPSI/CIEPQPF DEQ-FCTUC

76

Regressão Linear Múltipla

Selecção de Variáveis

Exemplo 2

 A rugosidade do papel é normalmente inferida indirectamente por um aparelho denominado “Bendtsen”.

 Este mede a quantidade de ar que passa entre um anel rígido e a superfície

do papel durante um determinado intervalo de tempo, a qual está relacionada de alguma forma com a rugosidade do papel.

 Pretende-se estudar quais os factores fundamentais ao nível da rugosidade

do papel, que influenciam estas medições.

 Para tal, recolheram-se perfis rigorosos da superfície do papel usando técnicas de perfilometria, em duas direcções (MD e CD), a partir dos quais foram calculados vários parâmetros geométricos com significados bem precisos.

 Que parâmetros fundamentais mais influenciam/explicam os resultados produzidos pelo Bendtsen?

(67)

GEPSI/CIEPQPF DEQ-FCTUC

77

Parâmetros dos perfis (X’s)

Ra Arithmetical mean deviation of profile Rz Maximum height of profile

Rq RMS deviation of profile

Rp Maximum profile peak height Rt Total height of profile

R Sm Mean width of profile elements R Sk Skewness of profile

R Ku Kurtosis of profile

Rv Maximum profile valley depth Rdq RMS slope of profile

Regressão Linear Múltipla

(68)

GEPSI/CIEPQPF DEQ-FCTUC

78

Regressão Linear Múltipla

Selecção de Variáveis

CD

MD

Bendtsen Perfilómetro

X’s – média dos parâmetros calculados para 3 perfis na direcção MD, CD (11+11=22) Y – média de 6 medições com o Bendtsen, nas mesmas posições

(69)

GEPSI/CIEPQPF DEQ-FCTUC

79

Regressão Linear Múltipla

Selecção de Variáveis

Detecção de colinearidade

Correlations (AS.vs.Bendtsen)

Marked correlations are signif icant at p < ,05000 N=36 (Casew is e deletion of missing data)

Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD 1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68 0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73 1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68 0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69 0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68 0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36 0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37 0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37 -0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35 0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69 0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93 0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71 0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79 0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72 0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73 0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80 0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24 0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37 0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21 -0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27 0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75 0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00 Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Variable VIF Ra_CD 13,01 Rz_CD 10,98 Rq_CD 12,89 Rp_CD 18,42 Rt_CD 7,07 R Sm_CD 4,74 R S_CD 5,54 R Sk_CD 2,21 R Ku_CD 1,59 Rv_CD 4,26 Rdq_CD 2,74 Ra_MD 10,47 Rz_MD 9,55 Rq_MD 10,14 Rt_MD 7,33 R S_MD 6,98 R Sk_MD 1,92 R Ku_MD 1,68 Rv_MD 3,01 Rdq_MD 2,82

(70)

GEPSI/CIEPQPF DEQ-FCTUC

80

Regressão Linear Múltipla

Selecção de Variáveis

Resultados: Stepwise Regression

 MINITAB: Stat > Regression > Stepwise …

Step 1 Step 2

(71)

GEPSI/CIEPQPF DEQ-FCTUC

81

Regressão Linear Múltipla

Selecção de Variáveis

Sumário dos resultados

Forward Stepwise Backward Stepwise Forward addition Backward removal

Intercept -361,65 549,03 -361,65 549,03 Ra_CD 210,51 210,51 Rz_CD Rq_CD Rp_CD 41,22 41,22 Rt_CD R Sm_CD -1,41 -1,41 R S_CD -4,19 -4,19 R Sk_CD -380,47 -380,47 R Ku_CD Rv_CD Rdq_CD -4752,87 -4752,87 Ra_MD Rz_MD Rq_MD Rp_MD 37,86 37,86 Rt_MD R Sm_MD 0,45 0,45 R S_MD R Sk_MD 355,50 355,50 R Ku_MD Rv_MD 18,06 18,06 Rdq_MD R2 0,94 0,98 0,94 0,98 R2adj 0,94 0,97 0,94 0,97 Step 1 Step 2

(72)

GEPSI/CIEPQPF DEQ-FCTUC

82

Regressão Linear Múltipla

Selecção de Variáveis

Ra Arithmetical mean deviation of profile Rz Maximum height of profile

Rq RMS deviation of profile

Rp Maximum profile peak height Rt Total height of profile

R Sm Mean width of profile elements R Sk Skewness of profile

R Ku Kurtosis of profile

Rv Maximum profile valley depth Rdq RMS slope of profile

Highest peak (in sampling length) Average

“wavelength” of irregularities

(73)

GEPSI/CIEPQPF DEQ-FCTUC

83

Regressão Linear Múltipla

Selecção de Variáveis

Resultados: “Best Subset” Regression

 MINITAB: Stat > Regression > Best Subsets …  Statistica

Adjusted R square and standardized regression coefficients for each submodel

Stepwise

(74)

GEPSI/CIEPQPF DEQ-FCTUC

84

Regressão Linear Múltipla

Selecção de Variáveis

Resultados: “Best Subset” Regression

Matlab

1 2 3 4 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Subsets R 2 ad j

Best subset regression

(75)

GEPSI/CIEPQPF DEQ-FCTUC

85

Regressão Linear Múltipla

Selecção de Variáveis

Notas:

 A ordem de entrada de variáveis não reflecte necessariamente a sua importância relativa;

(Forward) stepwise é um método eficiente de selecção de variáveis,

recomendando-se o seu uso. Os resultados obtidos devem ser comparados com aqueles provenientes da aplicação de outros métodos (e.g. best

subset, backward stepwise) para ganhar uma maior familiaridade com as características dos dados em estudo;

 (Backward) stepwise é um método útil, em particular quando se pretende

assegurar que nada de importante é perdido durante a selecção de

variáveis, mas o facto de começar com todas as variáveis pode conduzir a problemas de cálculo e a estimativas não muito boas, se existir

colinearidade nos regressores;

 Procedimentos “Stepwise” são em geral preferíveis relativamente àqueles

que não permitem a entrada e remoção de regressores.

 “Best subset” tende a fornecer modelos com muitas variáveis e é

computacionalmente mais exigente. Deve-se escolher adequadamente a gama de variáveis a explorar, caso contrário pode-se não encontrar o melhor modelo. Deve-se também tentar vários critérios de qualidade, em particular R2

(76)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 86

Diagnóstico de “Outliers” e

Observações Influentes

(77)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 87

Regressão Linear

Para além de validar o modelo é importante

também diagnosticar e analisar:

“Outliers”

(78)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 88

Regressão Linear

“Outliers”

Observações que fogem aos padrões normais da dispersão de:

 Valores X’s

 Previsões

E.g. (previsão): resíduo com um valor absoluto bastante

superior aos demais ( >3-4 desvios padrões do seu valor

absoluto médio);

Só devem ser rejeitados quando forem conhecidas as suas

causas, e se existirem boas razões para o fazer;

(79)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 89

Regressão Linear

Observações influentes

Observações com muito peso na estimativa do

modelo, i.e. que exercem uma influência anormal

no seu ajuste aos dados.

(80)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 90

Regressão Linear

Observation Order R e si d u a l 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1 5,0 2,5 0,0 -2,5 -5,0 -7,5

Residuals Versus the Order of the Data

(response is Y-Answer Time (Average) (secs))

Resíduos normalizados = Resíduo / SE(Resíduos) (>2 → Considerado elevado)

(81)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 91

Regressão Linear

Tipos de resíduos

Resíduos

Resíduos normalizados

 Permite detectar facilmente resíduos elevados

 Definição: Resíduo / SE(resíduos)

 Subestimam a magnitude dos resíduos

 “Internally Studentized residuals”

 “Externally / Deleted studentized residuals”

 Definição: semelhante ao anterior, mas com ri e σ2 estimados

sem a observação i: σ2 (i).

 Desta forma, evita-se que a observação em causa possa interferir negativamente no modelo, caso seja desviante e/ou influente.

“Outliers”: Previsões

2 1 ˆ 1 - Elemento i da diagonal de ( ) ("Hat" matrix) del i i ii ii T T r r h h X X X X      H H Var(ri)

(82)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 92

Regressão Linear

“Leverages” (h

ii

– “hat value”)

Permitem detectar observações cujos valores de X se

afastem do “normal”.

Medida da distância entre cada valor de x e a média de

todos os valores de x:

 Observações afastadas da média de X: “High Leverage Points”

 Estes resíduos possuem menor variância, pois têm uma maior influência na estimativa da recta de regressão (ver Var(ri))

 Observações próximas da média de X: “Low Leverage Points”

 Observações muito afastadas podem exercer uma grande

influência na estimativa do modelo regressão;

 0<L≤1: L é considerado elevado se > 2-3 x (p+1)/n, onde p

é um número de regressores (X’s) e n o número de observações.

(83)

GEPSI/CIEPQPF DEQ-FCTUC

Regressão Linear Univariada 93

Regressão Linear

Distância de “Cook” (Di)

 Medida combinada do impacto (influência) de uma observação nas

estimativas do modelo.

 Congrega informação sobre “leverages” e resíduos normalizados →

i.e., combina:

 Valores anormais nos X’s

 Valores anormais em Y

 Corresponde a uma medida da distância entre os valores ajustados

integrando a observação em causa e deixando-a de lado.

 Di apresenta valores elevados quando:

 Resíduo elevado e “leverage” moderada  Resíduo moderado e “leverage” elevada  Resíduo e “leverage” elevados

 Comparar e verificar se existem Di’s muito elevados.

 Analisar com maior detalhe:

 Belsey: Di >2 (p+1)/n (p = # variáveis = # parâmetros -1)

 Fox: Di>4/(n-p)

(84)

GEPSI/CIEPQPF DEQ-FCTUC 

Introdução:

http://www.jmp.com/support/help/Using_JMP.shtml

http://www.jmp.com/en_nl/learning-library.html

Videos

One page guides

Tutorials

https://community.jmp.com/docs/DOC-6754

Engenharia de Processos e Sistemas 95

(85)

GEPSI/CIEPQPF DEQ-FCTUC

Help Books:

http://www.jmp.com/support/help/

Fitting Linear Models:

http://www.jmp.com/support/help/Fitting_Line

ar_Models.shtml#293296

Feature Index:

http://www.jmp.com/en_us/software/feature-index.html

Software: JMP

Referências

Documentos relacionados

Thus, diagnosis prostate cancer with Transperineal MR Fusion provides for precise knowledge not just of location and extent, but to open the next frontier - the color box - for

Em que pese a redação do artigo 329, II, do Código de Processo Civil, na verdade veremos que há algumas exceções em que mesmo após o saneamento haverá a possibilidade de

2001, foi dada ênfase apenas ao alongamento dos músculos isquiotibiais, enquanto o tratamento por meio da RPG alongou todos os músculos da cadeia posterior e, por meio do

Mesmo com a maioria dos centenários apresentando elevado percepção qualidade de vida, viu-se que o nível de atividade física e a média de número passo/dia, foram inferiores

A finalidade do “Documento de Arquitetura de Software - DAS” é definir um modelo arquitetural para ser aplicado ao desenvolvimento dos jogos do Desafio SEBRAE, bem como

De acordo com estes resultados, e dada a reduzida explicitação, e exploração, das relações que se estabelecem entre a ciência, a tecnologia, a sociedade e o ambiente, conclui-se

Com efeito, Portugal é o país europeu com a mais longa história de intercâmbio com o Japão e, na expectativa de reforçar e desenvolver para o futuro os laços de amizade destes 470

Ainda que a legislação em vigor não fosse totalmente aplicável aos bombeiros (o que não é o caso relativamente aos voluntários, atendendo a que estes são suportados e