Marco Reis:2017 ©
Modelação matemática de base estatística/empírica:
Construção de modelos empíricos usando metodologias de regressão linear
II
Engenharia de Processos e Sistemas
Marco S. Reis
Construção de modelos empíricos
usando metodologias de regressão
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 3
Objectivos:
• Identificar a componente estrutural/determinística e aleatória/estocástica do modelo de RL;
• Compreender o que é um modelo de RL e o seu âmbito de aplicação;
• Perceber como se estimam os parâmetros de um modelo de RL e saber quais os pressupostos subjacentes ao modelo estimado;
• Interpretar os IC para os coeficientes do modelo (parte estrutural); • Interpretar os IC para a resposta média e de previsão;
• Saber como validar um modelo de RL;
• Compreender a origem do problema da colinearidade e como o diagnosticar; • Saber os passos a seguir na construção de uma modelo de RL
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 4
Metodologias de Modelação
Processo Genérico
Variáveis associadas ao que entra no processo (x’s) Variáveis associadas ao que sai do processo (y’s) Variáveis ligadas a parâmetros do processo (x’s)Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s).
X’s “Inputs” Predictores Regressores Variáveis de entrada Variáveis independentes Y’s “Outputs” Respostas Variáveis de saída Variáveis dependentes
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 5
Metodologias de Modelação
LC TC F0, T0, CA0 F, T, CA Fcj, Tcj,0 Fcj, Tcj LC TC F0, T0, CA0 F, T, CA Fcj, Tcj,0 Fcj, Tcj 0 dV F F dt / 0 0 0 E RT A A A A dVC F C FC k e C V dt / 0 0 0 ( ) E RT A cj p p dVT H UA F T FT k e C V T T dt C C ,0 , ( ) ( ) cj cj cj cj cj cj j p cj dV T UA F T T T T dt C 2 set c set FF K V V , 1 cj cj set c set F F K T T X Y x E(Y|x) X Y x E(Y|x)Modelos baseados em primeiros princípios
→ Estrutura completamente definida
“Knowledge intensive”
“Data intensive”
Modelos empíricos → Algumas restrições quanto à estrutura do modelo
Modelos baseados em dados
→ muito poucas hipóteses são colocadas quanto à estrutura do modelo
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 11
Metodologias de Modelação
Utilidade dos modelos:
Previsão de valores futuros de uma variável de
saída;
Medição do efeito associado a mudanças
processuais;
Controlo e/ou monitorização do processo;
Optimização do processo;
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 12
Regressão (Previsão):
As saídas do modelo são variáveis quantitativas;
Classificação:
As saídas do modelo são variáveis qualitativas
(classes ou categorias)
Qualidade do produto (Mau, Intermédio, Bom);
Reconhecimento de caracteres (padrões);
…
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 13
Regressão Linear Múltipla
O modelo de regressão linear múltipla
Propriedades do termo ε
i(
pressupostos
):
variância dos resíduos é constante;
todos os resíduos são independentes;
seguem uma lei normal com média nula.
Pressuposto para fazer inferência estatística sobre o modelo
(IC, TH ao modelo ou seus parâmetros).
0 1 1 2 2
i i i m im i
Y
x
x
x
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 14
Regressão Linear Múltipla
β
0- Intercepção na origem (“intercept”,
“constant”);
β
i– Coeficientes de regressão parciais (“partial
regression coefficients”).
0 1 1 2 2
i i i m im i
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 15
Regressão Linear Múltipla
Pode ser usado para descrever relações
não-lineares, e.g:
Assume que os X’s
estão isentos
de qualquer erro.
2 2 0 1 1 2 2 11 1 22 2 12 1 2y
x
x
x
x
x x
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 16
Regressão Linear Múltipla
Estimação do modelo de regressão linear
múltipla:
Mínimos quadrados
2 0 1 1 2 2 1ˆ
ˆ
. .,
n i i i m mi B i T BB
Min
Y
x
x
x
i e
B
Min Y
XB
Y
XB
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 17
Regressão Linear Múltipla
Estimação de parâmetros em RLM
Minimizar a soma dos desvios quadráticos (verticais …)
3D Surface Plot Y=105,1527+0,2131*X1+0,4855*X2 195 190 185 180 175 170 165 160 155
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 18
Regressão Linear Múltipla
Estimativa da variância do termo estocástico do
modelo de regressão linear múltipla:
N – número de observações
m – número de variáveis
2 2 1ˆ
ˆ
1
1
N i iSSr
N
m
N
m
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 19
Inferência em Regressão Linear
Múltipla
GEPSI/CIEPQPF DEQ-FCTUC
• JMP
– Analysis > Fit Model
• Personality: Standard Least Squares
GEPSI/CIEPQPF DEQ-FCTUC
Is the model significant (as whole)?
Does it explain a significant ammount of the
Y-variability?
Which variables are more important?
Which coefficients are different from 0 (in a statistically
significant way)?
Assigning uncertainties to predictions made with
the model
21
•Reis, M. S. (2016). Estatística Para a Melhoria de Processos – A Perspectiva Seis Sigma. Coimbra: Imprensa da Universidade de Coimbra. •Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression Analysis. Wiley. 4th ed.
•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY
Regressão Linear Múltipla
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 22
Regressão Linear Múltipla
Inferência
Propriedades das estimativas dos parâmetros
Se o modelo for verdadeiro,
As estimativas seguem uma distribuição normal multivariada:
1
2
ˆ ~
,
T
B
N B X X
0 1 1 2 2 i i i m im iY
x
x
x
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Múltipla
Inferência
ANOVA
Teste à significância do modelo de regressão
linear múltipla:
H0: β
1= β
2= … β
m= 0
H1: β
j≠ 0 para pelo menos um j
GEPSI/CIEPQPF DEQ-FCTUC
2
2 1 1 2 1ˆ
ˆ
n i i i n i i i n iy
y
y
y
y
y
Variação Total SStVariação devida à Regressão SSreg
Variação Residual SSr
Variabilidade observada
Variabilidade explicada pelo modelo (parte estrutural do modelo de regressão)
Variabilidade não explicada pelo modelo
(parte estocástica do modelo de regressão)
= +
Regressão Linear Múltipla
Inferência
Decomposição ANOVA da variabilidade (soma dos quadrados)
total (SSt), em termos da componente explicada pelo modelo de
regressão (SSreg) e da componente residual (SSr):
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Múltipla
Inferência
Tabela ANOVA em regressão linear múltipla:
p = # variáveis de entrada ou regressores
= # parâmetros – 1 0
1 SSreg p F SSr N p Fontes de Variação (1) Variações (Somas de quadrados) (2) Graus de Liberdade (3) Médias das Somas dos Quadrados (4) Estatística de Teste (F) (5) Regressão SSreg p MSreg MSreg / s2 Residual SSr n–p–1 s2Total SSt N–1
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 26
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
Coeficiente de determinação (R
2)
Uma medida da qualidade do modelo (0≤ R
2≤1)
Definição geral (modelos univariados/multivariados)
(Fracção da variabilidade total que é explicada pelo modelo)
2
1
SSreg
SSr
R
SSt
SSt
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 27
O coeficiente R
2permite aferir sobre a qualidade do ajuste,
aumentando sempre que se adiciona mais uma variável
Mesmo que uma variável não esteja relacionada com a
resposta, há sempre uma pequena parte da sua
variabilidade que aquela ajuda a explicar, por alinhamentos aleatórios com Y.
Estas variáveis não trazem nada de novo para o modelo em
termos de previsões futuras, tendo pelo contrário uma acção prejudicial e destabilizadora.
Para aferir sobre a qualidade do modelo é pois importante
penalizar a métrica de qualidade com o número de variáveis
utilizado.
Regressão Linear Múltipla
Métricas de Qualidade do ModeloGEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 28
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
R
2ajustado
(R
2adj)
Penaliza a introdução de termos adicionais no modelo
Previne “overfitting” e a utilização de regressores com
pouco potencial explicativo da variabilidade da resposta
21
1
21
1
1
1
1
adjSSr N
p
N
R
R
SSt N
N
p
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 29
Regressão Linear Múltipla
Inferência
TH aos coeficientes individuais
Para analisar a significância de alguns parâmetros
em particular.
Nas condições do modelo de regressão ser válido:
Os parâmetros seguem distribuições normais;
A sua média é centrada nos valores exactos e a sua
variância é dada pelos elementos diagonais da matriz de
variâncias-covariâncias.
0 :
0
1:
0
i iH
H
GEPSI/CIEPQPF DEQ-FCTUC 30
TH (parâmetros individuais):
0
1
:
0
:
0
j
j
H
H
Regressão Linear Múltipla
GEPSI/CIEPQPF DEQ-FCTUC
Valor de prova
(p-value)
Probabilidade de obter um desvio maior
ou igual ao verificado, se H0 for válida!
GEPSI/CIEPQPF DEQ-FCTUC 0 ˆ i f x 1 ˆ i Amostra 1 2 ˆ i Amostra 2 3 ˆ i Amostra 3
0 :
0
1:
0
i iH
H
Teste bilateral: Pr(|ET|>ET0 |H0 verdadeira)
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 34
Regressão Linear Univariada
Inferência em regressão linear
IC para a média e intervalo de previsão
Intervalo de previsão
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 35
Regressão Linear Múltipla
Inferência
IC para a resposta média
Intervalo de previsão
0 0 0 1 1 2 2 | 2, 1 0 0 | | 2, 1 0 0 ˆ ˆ T T ˆ ˆ T T Y x t N p x X X x Y x Y x t N p x X X x
1
1
2 2 0 2, 1 0 0 0 0 2, 1 0 0ˆ
N pˆ
1
T Tˆ
N pˆ
1
T Ty
t
x
X X
x
y
y
t
x
X X
x
0 0 0ˆ
|ˆ
ˆ
Y xy
x
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 36
Regressão Linear Univariada
Inferência em regressão linear
Exemplo 1
Pretende-se determinar a influência de três parâmetros
processuais (X1, X2 e X3) numa variável de qualidade do produto (Y).
Para tal, recolheram-se dados do processo durante períodos de
laboração normal, com os quais se construiu uma base de dados.
Utilize esta base de dados para estimar um modelo empírico
para o processo em causa, e determine quais o(s) parâmetro(s) que mais influenciam a variável de qualidade.
GEPSI/CIEPQPF DEQ-FCTUC
37
Y-Answer Time (Average) (secs)
120 110 100 5 6 7 50 30 10 120 110 100 X1-Number of personnel
X2-Calls per hour (average)
1380 1320 1260 50 30 10 7 6 5 1380 1320 1260
X3-Time per call (average mins)
Matrix Plot of Y-Answer Tim; X1-Number of; X2-Calls per; X3-Time per
Regressão Linear Múltipla
Gráficos
Y vs X1
Y vs X3 X1 vs X3
GEPSI/CIEPQPF DEQ-FCTUC
38
Regressão Linear Múltipla
MINITAB: Stat > Regression > Regression …
Não é significativamente ≠ 0! R-Sq subiu, mas R-Sq(adj) desceu.
O modelo é significante: pelo menos um coeficiente de uma variável é diferente de zero. 38
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 39
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 44
Regressão Linear Múltipla
Colinearidade
Nota:
Os coeficientes de regressão parciais
representam a contribuição de um predictor na
variável de saída, quando os outros se mantêm
constantes;
A magnitude e sinal dos coeficientes de
regressão parciais, depende dos predictores
incorporados no modelo (sempre que estes
apresentam correlação entre si).
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 45
Regressão Linear Múltipla
Colinearidade
Por outro lado,…
Analisando a variância das estimativas
Simulação: Gerar aleatoriamente amostras com 10
observações
Dois níveis de correlação entre X1 e X2
Resultados para 1000 simulações
1 2 -10 -5 0 5 10 15 20 High correlation ( =0.95) E s ti m a te s Variable 1 2 -10 -5 0 5 10 15 20 Low correlation ( =0) E s ti m a te s Variable Valores exactos dos parâmetros
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 46
Regressão Linear Múltipla
Colinearidade
Ou seja:
Quando a correlação entre X1 e X2 é de 0.95
a variância na estimativa dos coeficientes
que afectam as variáveis X1 e X2 é cerca de
10 vezes superior àquela obtida quando não
há correlação entre X1 e X2.
1 2ˆ
( )
TVar B
X X
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 47
Regressão Linear Múltipla
Colinearidade
Efeitos da colinearidade na estimação de parâmetros
Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I) and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of the observations and contours in the Y=0 plane are also presented.
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 48
Regressão Linear Múltipla
Colinearidade
Conclusões:
Quando há colinearidade nos regressores:
É difícil interpretar o modelo (face aos gráficos
disponíveis)
As estimativas dos parâmetros são mais instáveis
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 49
Regressão Linear Múltipla
Colinearidade
Nota:
A correlação entre variáveis é muito comum em
aplicações industriais:
Restrições processuais (balanços mássicos e de
energia);
Anéis de controlo, metodologias e protocolos de
actuação;
Instrumentação (instrumentação redundante,
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 50
Regressão Linear Múltipla
Colinearidade
Como detectar a presença de colinearidade?
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 51
Correlations (AS.vs.Bendtsen)
Marked correlations are signif icant at p < ,05000 N=36 (Casew is e deletion of missing data)
Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD 1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68 0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73 1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68 0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69 0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68 0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36 0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37 0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37 -0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35 0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69 0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93 0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71 0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79 0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72 0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73 0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80 0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24 0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37 0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21 -0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27 0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75 0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00
Regressão Linear Múltipla
Colinearidade
Detecção da presença de colinearidade
Matrizes de correlação e de gráficos de dispersão
Matrix of scatter plots Ra_CD Rz _CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 52
Regressão Linear Múltipla
Colinearidade
Detecção da presença de colinearidade
“Variance Inflation Factor” (VIF)
onde Rj2 é o R2 para a regressão de Xj contra
todos os outros p – 1 regressores.
Nota:
Cjj é o elemento jj da diagonal de (XTX)-1
2
1
ˆ
1
j jVIF
R
ˆ
1 var
j jj jVIF
C
n
X
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 53
Regressão Linear Múltipla
Colinearidade
Análise do VIF:
Valores de referência:
VIF>10 → colinearidade é um problema;
VIF<5 → colinearidade não é um problema;
5<VIF<10 → “zona cinzenta” (colinearidade
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 54
Regressão Linear Múltipla
Colinearidade
Como lidar com a sua presença?
Métodos de selecção de variáveis
Métodos de projecção (selecção de dimensões)
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 55
Regressão Linear Múltipla
Colinearidade
Selecção de variáveis
Princípio:
Se há redundância entre os X’s, seleccionar aqueles
que mais explicam a variabilidade apresentada pela
resposta (Y), e retirar todas aquelas variáveis que não
acrescentem capacidade explicativa.
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 56
Regressão Linear Múltipla
Colinearidade
Metodologias mais comuns de selecção de
variáveis:
Forward addition
Backward elimination
Forward stepwise selection
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 57
Regressão Linear Múltipla
Inferência
Nos métodos de selecção de variáveis analisa-se a significância
estatística associada à introdução de grupos de variáveis
adicionais:
“Partial F-test” (ou “Extra Sum of Squares method”)
Até agora só a analisámos a situação estática.
Temos um conjunto de variáveis de entrada com as quais
queremos construir um modelo para explicar a resposta.
E se quisermos incluir mais variáveis? – Situação dinâmica!
Pretendemos agora saber se, introduzindo um conjunto extra de
variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade de Y melhora significativamente.
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 58
Regressão Linear Múltipla
Inferência
“Partial F-test”
Vamos considerar que dispomos um modelo com p variáveis e
pretendemos saber se um subconjunto destas variáveis (r) contribui, como um todo, significativamente para o modelo.
Ou seja, se particionarmos todos os coeficientes do modelo num
conjunto com r variáveis (β1 ) e noutro com as restantes (β2), pretendemos testar as hipóteses:
H0:
β
1 = 0GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 59
Regressão Linear Múltipla
Inferência
Metodologia:
Calcular SSreg para o modelo completo:
(com β1 e β2) → SSreg(β)
Para avaliar a contribuição de
β1para a regressão, estimar
um modelo assumindo válida
H0:β
1 = 0 (modelo reduzido): Y=X2 β2 +ε → SSreg(β2)
Então, SSreg devido a
β1, assumindo que
β2já está no
modelo é:
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 60
Regressão Linear Múltipla
Inferência
ET:
Rejeitar se:
(
teste unilateral à direita)
1 2
0 2|
/
ˆ
SSreg
r
F
β β
Estimado com o modelo completo.
0
,
1,
F
F r N
p
Variabilidade adicional explicada pelo conjunto de variáveis em estudo
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 61
Regressão Linear Múltipla
Selecção de Variáveis
Forward addition
Select the predictor having the highest correlation with y
Is variable significant? Are other predictors
available? No prediction possible with MLR Validate model No Yes Yes Select additional predictor No Examine final model Is selected predictor significant? Yes (Enter variable) No (Fail to enter) j in f f fj fin
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 62
Regressão Linear Múltipla
Selecção de Variáveis
NOTA:
As variáveis são testadas sequencialmente, de
acordo com a magnitude da estatística do teste
F-parcial (partial F-test);
Se esta estatística for superior a “F to enter” (f
in), a
variável passa a integrar o modelo;
Caso contrário, o processo pára.
Variáveis seleccionadas não podem ser depois
removidas.
Não explora o efeito que a adição de uma variável
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 63
Regressão Linear Múltipla
Selecção de Variáveis
Backward
elimination
Select all variables and include them in the model
Is its contribution significant ? Validate model No (Remove variable) Nota:
Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.
Select the variable that contributes the
least to explaining the Y variability
(when all others are in the model)
Yes
(Do not remove variable )
j out
f f
j out
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 64
Regressão Linear Múltipla
Selecção de Variáveis
Forward stepwise selection
j in
f f
Select the predictor having the highest correlation with y
Is variable significant? Are other predictors
available?
No prediction
possible with MLR
Is variance explained by each variable in the
model significant? Validate model No Yes Yes Yes Select additional predictor No Examine final model No (Remove variables) Is selected predictor significant?
(Enter variable) Yes No (Fail to enter)
Nota:
Variáveis selecionadas podem vir a ser
removidas posteriormente, caso se tornem redundantes quando outras forem adicionadas.
normalmente in out in out f f f f j in f f j out f f
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 65
Regressão Linear Múltipla
Selecção de Variáveis
“Best subset” regression:
Para cada combinação distinta de k variáveis (k=
k
min:
k
max):
Estimar o correspondente modelo MLR;
Calcular o valor do critério de “qualidade de ajuste”
seleccionado;
Ordenar as combinações de variáveis de acordo com o valor
do critério a que elas conduziram;
Guardar os resultados para as melhores N combinações;
Apresentar os resultados para as melhores N combinações
obtidas em cada subconjunto de dimensão k considerado
(k=k
min: k
max).
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 66
Regressão Linear Múltipla
Selecção de Variáveis
Critérios de qualidade de ajuste:
R
2
R
2adj
Mallows-C
p Uma medida do erro quadrático total do modelo de regressão
Se o modelo postulado for correcto, Cp dever ser próximo de k+1
(número de parâmetros)
Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.
22
1
ˆ
pSSr k
C
n
k
Estimado com o modelo completo.
Estimado com o modelo em estudo (k variáveis).
Gráfico Cp vs p
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 67
Regressão Linear Múltipla
Selecção de Variáveis
Critérios de qualidade de ajuste (cont.):
Mallows-Cp
É conveniente traçar um gráfico Cp vs. (k+1):
procurar qual o modelo com Cp mais baixo que está mais próximo da recta Cp=k+1.
PRESS
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 68
Regressão Linear Múltipla
Selecção de Variáveis
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 69
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 70
Regressão Linear Múltipla
Passo 1 Estudar estatísticas e gráficos Passo 2 Formular o modelo Passo 3 Estimar o modelo Passo 4 Validar o modelo Passo 5 Apresentar resultados. Usar modelo. Bom ajuste OK!
Ajuste não satisfatório
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 71
Regressão Linear Múltipla
1. Familiarização com os dados
Fazer uso extensivo de todas as ferramentas de estatística
descritiva que nos ajudem a familiarizar com os dados do nosso problema, por exemplo:
Examinar médias, desvios padrão, alguns percentis, mínimos, máximos, para todas as variáveis de entrada e de saída;
Examinar a matriz de correlação (existe colinearidade entre os x’s?
qual/quais os x’s mais correlacionados linearmente com o y?);
Construir gráficos de dispersão para todas as combinações de x’s e
entre cada x e o y;
Se os dados foram recolhidos ao longo do tempo, analisar, individualmente, o gráfico temporal para cada variável;
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 72
Regressão Linear Múltipla
2. Formulação do modelo
Com base no conhecimento existente a priori e/ou com base nos gráficos construídos em 1 para as relações entre y e os vários x’s, propor um modelo de regressão que relacione as variáveis de entrada com a variável de saída;
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 73
Regressão Linear Múltipla
3. Estimar os parâmetros do modelo
Proceder ao ajuste do modelo aos dados recolhidos. Como
resultado, obtém-se as estimativas para os parâmetros do modelo definido em 2., bem como outras grandezas
relacionadas (por exemplo, parâmetros de qualidade, valores de prova para diversos testes estatísticos). Deve-se então:
Analisar os resultados em busca de variáveis eventualmente mais importantes na explicação da variabilidade de y;
Avaliar a qualidade do ajuste;
Verificar se existe colinearidade entre as variáveis (calcular VIF para cada variável existente no modelo), e se esta pode constituir um
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 74
Regressão Linear Múltipla
4. Validação do modelo estimado
Construir os seguintes gráficos envolvendo os resíduos, para
verificar se algum/ns dos pressupostos subjacentes aos modelos de regressão linear está/ão a ser violado/s:
Resíduos vs. valores previstos (para verificar, por exemplo, se a
variância dos resíduos não depende do nível de y);
Resíduos vs. cada uma das variáveis de entrada (verificar que
não existe estrutura por explicar devido, por exemplo, a não considerar termos não-lineares envolvendo as variáveis de entrada);
Resíduos vs. tempo, ou sequência de observações (verificar a
independência dos resíduos ao longo das observações);
Gráficos de probabilidade normal para resíduos (verificar o
pressuposto de normalidade dos resíduos).
(Padrões não aleatórios são indicativo de um modelo não
GEPSI/CIEPQPF DEQ-FCTUC
Engenharia de Processos e Sistemas 75
Regressão Linear Múltipla
5. Apresentar os resultados e usar o modelo
Nesta fase sintetizam-se os resultados para o modelo
desenvolvido (desde que este seja satisfatório). Os dados utilizados e pressupostos subjacentes devem ser também indicados. Usar então o modelo e criar uma metodologia que permita averiguar a sua validade ao longo do tempo, se o seu uso não se restringir à situação presente.
GEPSI/CIEPQPF DEQ-FCTUC
76
Regressão Linear Múltipla
Selecção de Variáveis
Exemplo 2
A rugosidade do papel é normalmente inferida indirectamente por um aparelho denominado “Bendtsen”.
Este mede a quantidade de ar que passa entre um anel rígido e a superfície
do papel durante um determinado intervalo de tempo, a qual está relacionada de alguma forma com a rugosidade do papel.
Pretende-se estudar quais os factores fundamentais ao nível da rugosidade
do papel, que influenciam estas medições.
Para tal, recolheram-se perfis rigorosos da superfície do papel usando técnicas de perfilometria, em duas direcções (MD e CD), a partir dos quais foram calculados vários parâmetros geométricos com significados bem precisos.
Que parâmetros fundamentais mais influenciam/explicam os resultados produzidos pelo Bendtsen?
GEPSI/CIEPQPF DEQ-FCTUC
77
Parâmetros dos perfis (X’s)
Ra Arithmetical mean deviation of profile Rz Maximum height of profile
Rq RMS deviation of profile
Rp Maximum profile peak height Rt Total height of profile
R Sm Mean width of profile elements R Sk Skewness of profile
R Ku Kurtosis of profile
Rv Maximum profile valley depth Rdq RMS slope of profile
Regressão Linear Múltipla
GEPSI/CIEPQPF DEQ-FCTUC
78
Regressão Linear Múltipla
Selecção de Variáveis
CD
MD
Bendtsen Perfilómetro
X’s – média dos parâmetros calculados para 3 perfis na direcção MD, CD (11+11=22) Y – média de 6 medições com o Bendtsen, nas mesmas posições
GEPSI/CIEPQPF DEQ-FCTUC
79
Regressão Linear Múltipla
Selecção de Variáveis
Detecção de colinearidade
Correlations (AS.vs.Bendtsen)
Marked correlations are signif icant at p < ,05000 N=36 (Casew is e deletion of missing data)
Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD 1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68 0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73 1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68 0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69 0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68 0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36 0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37 0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37 -0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35 0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69 0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93 0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71 0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79 0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72 0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73 0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80 0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24 0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37 0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21 -0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27 0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75 0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00 Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Variable VIF Ra_CD 13,01 Rz_CD 10,98 Rq_CD 12,89 Rp_CD 18,42 Rt_CD 7,07 R Sm_CD 4,74 R S_CD 5,54 R Sk_CD 2,21 R Ku_CD 1,59 Rv_CD 4,26 Rdq_CD 2,74 Ra_MD 10,47 Rz_MD 9,55 Rq_MD 10,14 Rt_MD 7,33 R S_MD 6,98 R Sk_MD 1,92 R Ku_MD 1,68 Rv_MD 3,01 Rdq_MD 2,82
GEPSI/CIEPQPF DEQ-FCTUC
80
Regressão Linear Múltipla
Selecção de Variáveis
Resultados: Stepwise Regression
MINITAB: Stat > Regression > Stepwise …
Step 1 Step 2
GEPSI/CIEPQPF DEQ-FCTUC
81
Regressão Linear Múltipla
Selecção de Variáveis
Sumário dos resultados
Forward Stepwise Backward Stepwise Forward addition Backward removal
Intercept -361,65 549,03 -361,65 549,03 Ra_CD 210,51 210,51 Rz_CD Rq_CD Rp_CD 41,22 41,22 Rt_CD R Sm_CD -1,41 -1,41 R S_CD -4,19 -4,19 R Sk_CD -380,47 -380,47 R Ku_CD Rv_CD Rdq_CD -4752,87 -4752,87 Ra_MD Rz_MD Rq_MD Rp_MD 37,86 37,86 Rt_MD R Sm_MD 0,45 0,45 R S_MD R Sk_MD 355,50 355,50 R Ku_MD Rv_MD 18,06 18,06 Rdq_MD R2 0,94 0,98 0,94 0,98 R2adj 0,94 0,97 0,94 0,97 Step 1 Step 2
GEPSI/CIEPQPF DEQ-FCTUC
82
Regressão Linear Múltipla
Selecção de Variáveis
Ra Arithmetical mean deviation of profile Rz Maximum height of profile
Rq RMS deviation of profile
Rp Maximum profile peak height Rt Total height of profile
R Sm Mean width of profile elements R Sk Skewness of profile
R Ku Kurtosis of profile
Rv Maximum profile valley depth Rdq RMS slope of profile
Highest peak (in sampling length) Average
“wavelength” of irregularities
GEPSI/CIEPQPF DEQ-FCTUC
83
Regressão Linear Múltipla
Selecção de Variáveis
Resultados: “Best Subset” Regression
MINITAB: Stat > Regression > Best Subsets … Statistica
Adjusted R square and standardized regression coefficients for each submodel
Stepwise
GEPSI/CIEPQPF DEQ-FCTUC
84
Regressão Linear Múltipla
Selecção de Variáveis
Resultados: “Best Subset” Regression
Matlab
1 2 3 4 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Subsets R 2 ad jBest subset regression
GEPSI/CIEPQPF DEQ-FCTUC
85
Regressão Linear Múltipla
Selecção de Variáveis
Notas:
A ordem de entrada de variáveis não reflecte necessariamente a sua importância relativa;
(Forward) stepwise é um método eficiente de selecção de variáveis,
recomendando-se o seu uso. Os resultados obtidos devem ser comparados com aqueles provenientes da aplicação de outros métodos (e.g. best
subset, backward stepwise) para ganhar uma maior familiaridade com as características dos dados em estudo;
(Backward) stepwise é um método útil, em particular quando se pretende
assegurar que nada de importante é perdido durante a selecção de
variáveis, mas o facto de começar com todas as variáveis pode conduzir a problemas de cálculo e a estimativas não muito boas, se existir
colinearidade nos regressores;
Procedimentos “Stepwise” são em geral preferíveis relativamente àqueles
que não permitem a entrada e remoção de regressores.
“Best subset” tende a fornecer modelos com muitas variáveis e é
computacionalmente mais exigente. Deve-se escolher adequadamente a gama de variáveis a explorar, caso contrário pode-se não encontrar o melhor modelo. Deve-se também tentar vários critérios de qualidade, em particular R2
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 86
Diagnóstico de “Outliers” e
Observações Influentes
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 87
Regressão Linear
Para além de validar o modelo é importante
também diagnosticar e analisar:
“Outliers”
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 88
Regressão Linear
“Outliers”
Observações que fogem aos padrões normais da dispersão de:
Valores X’s
Previsões
E.g. (previsão): resíduo com um valor absoluto bastante
superior aos demais ( >3-4 desvios padrões do seu valor
absoluto médio);
Só devem ser rejeitados quando forem conhecidas as suas
causas, e se existirem boas razões para o fazer;
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 89
Regressão Linear
Observações influentes
Observações com muito peso na estimativa do
modelo, i.e. que exercem uma influência anormal
no seu ajuste aos dados.
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 90
Regressão Linear
Observation Order R e si d u a l 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1 5,0 2,5 0,0 -2,5 -5,0 -7,5Residuals Versus the Order of the Data
(response is Y-Answer Time (Average) (secs))
Resíduos normalizados = Resíduo / SE(Resíduos) (>2 → Considerado elevado)
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 91
Regressão Linear
Tipos de resíduos
Resíduos
Resíduos normalizados
Permite detectar facilmente resíduos elevados
Definição: Resíduo / SE(resíduos)
Subestimam a magnitude dos resíduos
“Internally Studentized residuals”
“Externally / Deleted studentized residuals”
Definição: semelhante ao anterior, mas com ri e σ2 estimados
sem a observação i: σ2 (i).
Desta forma, evita-se que a observação em causa possa interferir negativamente no modelo, caso seja desviante e/ou influente.
“Outliers”: Previsões
2 1 ˆ 1 - Elemento i da diagonal de ( ) ("Hat" matrix) del i i ii ii T T r r h h X X X X H H Var(ri)GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 92
Regressão Linear
“Leverages” (h
ii– “hat value”)
Permitem detectar observações cujos valores de X se
afastem do “normal”.
Medida da distância entre cada valor de x e a média de
todos os valores de x:
Observações afastadas da média de X: “High Leverage Points”
Estes resíduos possuem menor variância, pois têm uma maior influência na estimativa da recta de regressão (ver Var(ri))
Observações próximas da média de X: “Low Leverage Points”
Observações muito afastadas podem exercer uma grande
influência na estimativa do modelo regressão;
0<L≤1: L é considerado elevado se > 2-3 x (p+1)/n, onde p
é um número de regressores (X’s) e n o número de observações.
GEPSI/CIEPQPF DEQ-FCTUC
Regressão Linear Univariada 93
Regressão Linear
Distância de “Cook” (Di)
Medida combinada do impacto (influência) de uma observação nas
estimativas do modelo.
Congrega informação sobre “leverages” e resíduos normalizados →
i.e., combina:
Valores anormais nos X’s
Valores anormais em Y
Corresponde a uma medida da distância entre os valores ajustados
integrando a observação em causa e deixando-a de lado.
Di apresenta valores elevados quando:
Resíduo elevado e “leverage” moderada Resíduo moderado e “leverage” elevada Resíduo e “leverage” elevados
Comparar e verificar se existem Di’s muito elevados.
Analisar com maior detalhe:
Belsey: Di >2 (p+1)/n (p = # variáveis = # parâmetros -1)
Fox: Di>4/(n-p)
GEPSI/CIEPQPF DEQ-FCTUC
Introdução:
http://www.jmp.com/support/help/Using_JMP.shtml
http://www.jmp.com/en_nl/learning-library.html
Videos
One page guides
Tutorials
https://community.jmp.com/docs/DOC-6754
Engenharia de Processos e Sistemas 95
GEPSI/CIEPQPF DEQ-FCTUC
Help Books:
http://www.jmp.com/support/help/