XII- REGRESSÃO E CORRELAÇÃO
12.1. REGRESSÃO LINEAR SIMPLES:
12.1.1.Introdução:
1. Relacionamento entre variáveis : - requer conhecimento
Y = ϕ( X ) + ψ
Ex: 1.
Y = Produção agrícola X = Fertilizante
Y em função de X, onde Y é a variável explicada por X . Y - variável explicada ou dependente de X
X - variável explicativa ou independente 12.1.2. Diagrama de Dispersão:
X (lb/acre)
Y (bushel/acre)
100 40
200 45
300 50
400 65
500 70
600 70
700 80
termo estocástico
0 20 40 60 80
0 200 400 600 800
2.
X = distância de entrega de uma carga Y= tempo de entrega
Carregamento Amostrado
Distânica (em Km)
Tempo de Entrega (em dias)
1 825 3,5
2 215 1
3 1070 4
4 550 2
5 480 1
6 920 3
7 1350 4,5
8 325 1,5
9 670 3
10 1215 5
3.
X= idade da casa Y= valor do aluguel
1900ral 1900ral 1900ral 1900ral 1900ral 1900ral 1900ral
1900ral 1901ral 1902ral 1904ral
Tempo (dias)
Distância (Km)
Gráfico de Dispersão
(anos) (dolar)
1a. 3 500
2a. 12 320
3a. 5 400
4a. 7 330
5a. 8 450
6a. 19 130
7a. 10 300
8a. 22 140
9a. 15 280
10a. 25 260
12.1.3. Correlação Linear:
cov(X Y, ) E{[Xi E X( )].[Yi E Y( )]} (Xi X)(Y Y )
i N
= − − = − i −
=
∑
1
YY XX
XY N
i i N
i i N
i
i i N
i i N
i i
i N
i i XY
Y X XY
S S
S y
x y x
Y Y X
X
Y Y X X r
Y X
Y X Y
X
. . )
( ) (
) )(
(
) var(
).
var(
) , cov(
) , cov(
1 2 1
2 1
1 1
1 = =
−
−
−
−
=
=
=
∑
∑
∑
∑
∑
∑
=
=
=
=
=
=
σ ρ σ
onde varia entre − ≤1 rX Y ≤ 1 no caso do exemplo 1:
1900ral 1900ral 1900ral 1900ral 1901ral 1901ral 1901ral
1900ral 1900ral 1900ral 1900ral
VaLor Aluguel (R$)
Idade (anos)
Diagrama de Dispersão
r
XY = (x . ) =
( ).( . )
19 000 , 28 10 1 350
0 977
8
No segundo: rXY = 0,948942768
No terceiro: rXY = -0,83355
Estudaremos o relacionamento linear entre as variáveis, assim:
Y = α + β X + ε
Suposições:
1. A relação de X e Y é linear e há efeito causal entre elas.
2. X é uma variável não estocástica e conhecida 3. Considerações a cerca do erro:
3.1. εi ∼ N 0
( )
,σ2donde vemos que:
( )
E ε =i 0 ∀i
e Var(εi)=σ2 (constante, por isto não é indexada) Modelo Homoscedático
Modelo Homoscedástico Modelo Heteroscedástico 3.2. Não há correlação serial entre o erro aleatório, isto é, os erros são independentes. E
[ ]
ε ε =i j 0 i∀ ≠ jdi
Y
X Xi
12.1.4. Least Square Solution ( Solução dos Mínimos Quadrados) ou Ordinary Least Square (OLS) (Mínimos Quadrados Ordinários):
Seja a equação da reta:
Y = +α βX
A idéia é estimar os parâmetros α e β de tal maneira que a soma dos quadrados dos desvios seja mínima, isto é;
minimizar
( )
di(
Y Y)
i N
i i
i 2 N
1
2
= =1
∑
=∑
− $substituindo Y$i = +a bX e derivando em relação a a e b, e igualando as expressões a zero, temos:
Y Na b X
X Y a X b X
i i
i i i i
= +
= +
∑
∑
∑ ∑ ∑
2Resolvendo o sistema temos:
a a
Y X
X Y X
N X
X X
i i
i i i
i
i i
= =
∑ ∑
∑ ∑
∑
∑ ∑
∆
∆
2
2
b b
N Y
X X Y
N X
X X
i
i i i
i
i i
= =
∑
∑ ∑
∑ ∑ ∑
∆
∆
2
No caso do exemplo 1 teremos:
a = 32,857143 e b = 0,0678571 Ex2: (exercício).
Resolução com transferência de origem:(exercício)
a0 = −Y bX e b x y x
S S
i i i
XY XX
=
∑
=∑
212.1.5. Propriedades dos estimadores OLS:
1. E(ε) = 0.
2. Var(εi) = σ2 Demo:
( ) [ ( ) ]
( ) [ ( ) ]
{ }
( ) ( ) ( )
Var E E
E E
como E
Var E
i i i
i i i i
i
i i
ε ε ε
ε ε ε ε
ε
ε ε σ
= −
− +
=
= =
2
2 2
2 2
2 0 = E
3. Cov(εiεj) = 0 Demo:
cov(εiεj)=E{[εi - E(εi)][εj – E(εj)]}
como: E(εi)=E(εj)=0
cov(εiεj)=E{[εi – 0][εj – 0]=E(εiεj) como εi e εj são independentes, então E(εiεj)=E(εi)E(εj)=0 assim,
cov(εiεj)=0 4. E(a) = α
Demo:
( )
a E(
Y bX)
E = −
( )
Y XE( )
bE −
= E
(
α + βX +ε)
− Xβ=
β β
α + X/ +0− X/
=
= α 5. Var(a) = σ
2 2
2
X
N x
i i
∑
∑
6. E(b) = β 7. Var(b)= σ
2
xi2
∑
8. E(Yi) = α + βXi 9. Var(Yi) = σ2
Proposição:
β$∼N
xi ( ,β σ22 )
∑
α$∼N X
x
i i
( ,α σ2 2 )
2
∑
∑
Como estimar σ2 =Var(εi):
Var Var Y Y Var Y X
Y X
i i i i i N
i i
i N
( ) ( $ ) [ ($ $
)]
( $ $
)
ε α β
α β
= − = − + =
− −
−
=
∑
1
2
12.1.6- Teorema de Gauss-Markov:
Na classe dos estimadores lineares e não tendenciosos de α e β, o estimador de mínimos quadrados, tem mínima variância.
Sobre as hipóteses estudadas os estimadores α e β são BLUE (Best Linear Umbiased Estimator) são obtidos pelo método dos mínimos quadrados.
1- Provar que são lineares:
$ $
$
α β
β
= −
=
∑
∑
Y X
x y x
i i i
2
2- E(β$) = β
3- Var(β$) ≤ Var(θ$)
outro estimador
3 1 2
12.1.7- Decomposição da Soma dos Quadrados:
.
Yi
(Yi −Y) (Yi −Yˆi)
(Yˆi −Y)
Propriedade Aditiva:
(
Yi −Y)
=(
Y$i −Y) (
+ Yi −Y$i)
Variação Total:
TSS =
( )
yyn
i
i Y S
Y − =
∑
=1
Variação Explicada pelo Modelo:
RSS = n
( )
xx xyi
i Y b S bS
Y − = =
∑
=
2 1
ˆ
Variação Residual:
ESS = TSS – RSS = Syy – bSxy Obs:
TSS ∼
χ
n2−1RSS ∼
χ
1 2ESS ∼
χ
n2−2X Y
Coeficiente de Determinação:
TSS = ESS + RSS 1 = ESS
TSS
RSS + TSS Assim:
R ESS
TSS
RSS TSS
2 = −1 =
Que é a proporção do total de variação de Y explicada pela regressão de Y em X.
0 ≤ R2≤ 1 Quando:
- R2 = 0 o modelo de regressão linear não explica a variação de Y - R2 = 1 a posição de todos os pontos amostrados estão na linha de regressão.
R2 = 0 R2 = 1 Erro de Estimativa da Regressão:
( )
2 2
ˆ
1
2 2
−
= −
−
−
=
∑
=
n bS S n
Y Y
S YY XY
N
i
i i R
12.1.8. Teste de Hipóteses:
Ho: β = 0 Não existe regressão H1: β ≠ 0 Existe regressão
Fixa o nível de significância: λ (5 ou 1%).
b ∼ N
SXX ( ,β σ2 )
t b
S S
c
XX
= − β
onde
−2
= −
=
n S S S
S b S
XY YY XX XY
Compara com tn−2,λ/2. Análise da Variância.
Fonte de Variação Soma deQuad.
Graus de Lib.
Quadrado Médio
Fcalc. Ftab.
Devido à regressão RSS 1 RSS/1
Residual ESS n-2 S2=ESS/n-2 F=RSS/S2 F1,n-2,λ
Total TSS n-1
Hipóteses: Ho: β = 0 H1: β≠ 0
11.1.9. Intervalo de Confiança;
Para
α
:(
α)
λα λ α
α λ α
λ
α λ λ
−
= +
≤
≤
−
−
=
− ≤ − ≤
−
−
−
−
1 .
. ˆ 1
2 ˆ / , ˆ 2
2 / , 2
2 / , 2 ˆ
2 / , 2
S t
a S
t a P
S t t
P
n n
n n
onde:
∑
=
∑
22
ˆ . i
i
x n S X Sα
Para
β :
(
β)
λβ λ β
λ β λ β
λ β
λ
−
= +
≤
≤
−
−
=
− ≤ − ≤
−
−
−
−
1 .
.
1 ˆ
2 ˆ / , ˆ 2
2 / , 2
2 / , 2 ˆ
2 / , 2
S t
b S
t b P
S t t
P
n n
n n
onde: S S x
S
i SXX
β$ = =
∑
212.1.10. Predição:
Seja Yi = +α βXi +εi e Y$i = +α β$ $Xi
Seja, ainda X=X0 queremos prever um Y0 relativo a um X0. Y$0 = +α β$ $X0
εf = forecast error (erro de previsão) εf = Yo −Y$o
E(εf ) = E(Yo −Y$o) = 0
σ
2f= Var(εf ) = E[(Yo −Y$o) - E(Yo −Y$o)]2Então:
(Yo −Y$o) ∼ N(0,σf2)
$ $
, ,
Yo t S Y Y t S
N f o o N f
− −2 ≤ ≤ + −
2 2 2
λ λ
X Y
Xo
12.2. REGRESSÃO MÚLTIPLA Seja a notação matricial:
ε + β
=X Y
Onde:
=
nk 1
n
k 2 21
k 1 11
X X
1
X X
1
X X
1 X
K M O M M
K K
=
n 1
Y Y
Y M
β
β
= β
K 1
M
ε ε
= ε
n 1
M
Assim temos que:
(
− β)(
− β)
= − β−β +β β= − β +β β= ε ε
=
∑
ε=
X ' X ' Y ' X ' 2 Y ' Y X ' X ' Y ' X ' X ' Y Y ' Y X Y ' X Y '
n
1 i
i
) 0 '
( =
β
∂ ε ε
∂ temos:
-2X’Y+2X’Xβ = 0 então: βˆ =
(
X'X)
−1X'YHipóteses:
1) ε ~ N(0,σ2I) I = matriz identidade 2) E (ε) = 0
3) E (εε‘) = σ2I
Propriedades:
1. E($
β)=β
2. Var(β$)=σ2
(
X X′)
−1Por analogia ao modelos de regressão linear simples temos:
k n ˆ ˆ
2 2 i
−
= ε
σ
∑
onde k é o número de parâmetros
Verificar a qualidade de aderência para βj
Testes de Hipóteses:
1) Para cada βj j=1,2,...,k
Ho: βj = 0 ou βj = βj0 Ha: βj ≠ 0 ou βj ≠ βj0
Estatística:
S j
ˆ tn k, /2 j j0
β α
−
β
−
=β
2) Teste F de Snedecor:
Ho : β1 = β2 = ... = βk = 0 Ha : pelo menos um βj ≠ 0 Fonte de Variação Soma
deQuad.
Graus de Lib.
Quadrado Médio
Fcalc. Ftab.
Devido a regressão RSS k-1 RSS/k-1
k n ESS
k F RSS
−
= − /
1 /
Fk-1,n-k;λ
Residual ESS n-k ESS/n-k
Total TSS n-1
OBS: A seleção de variáveis pode ser feita por:
Forward Selection Backward Selection
Stepwise Regression: Calcula a correlação entre as variáveis mais correlacionadas e depois vai inserindo ou retirando variáveis do modelo utilizando o teste F até atingir o ideal. Só se usa quando o número de variáveis for grande, caso contrário é melhor fazer todas as combinações possíveis.
Coeficiente de Determinação:
R ESS
TSS
RSS TSS
2 = −1 =
Obs: Quanto mais variáveis se introduz no modelo maior o coeficiente de determinação.
Correlação Parcial:
Suponha que se tenha 3 variáveis Y, X1 e X2 pode-se medir a as correlações simples entre Y e X1 , Y e X2 e X1 e X2 .
O coeficiente de correlação parcial mede a correlação entre 2 variáveis, incluindo os efeitos que a terceira possa ter causado sobre o comportamento delas, isto é, considerando que a terceira fosse constante.
2 1. X
rYX é o coeficiente de correlação parcial entre Y e X1 em presença de X2
(
1 2)(
2 1 21 2)
2
1. 2 2
1
1 YX X X
X X YX YX X
YX r r
r r r r
−
−
= −
Multicolinearidade:
Se 2 variáveis cuja concepção são de independência, mas podem alguma linearidade entre elas (correlação entre elas).
Deve-se olhar a matriz de correlação e verificar se 2 variáveis
retirar uma delas para eliminar a multicolinearidade, pois vai dar problema no modelo.
Heteroscedasticidade:
Para detectar a heteroscedaticidade deve-se plotar o valor previsto versus resíduos ao quadrado. Se a reta estiver inclinada indica heteroscedasticidade.
12.3 REGRESSÃO NÃO LINEAR
- Regressão com Variáveis Transformadas:
Uma função que relaciona Y a X é intrinsecamente linear se, por meio de uma transformação em X e/ou em Y ela puder ser expressa linearmente. A tabela a seguir mostra alguns exemplos.
Função Transformação Forma Linear
e
XY = α
β (Exponencial) Y′=ln( )
Y Y′=ln(α)+βX αXβY = (Potência) Y′=log(Y), X′=log(X) Y′=log(α)+βX′
Y X1
β α +
= (Recíproca)
X X1
′= Y =α +βX′
Quando o modelo transformado satisfaz as hipóteses, o método dos mínimos quadrados fornece os melhores resultados.
- Regressão Polinomial
Os modelos polinomiais são não lineares, mas intrinsecamente lineares.
A equação do modelo de regressão polinomial de k-ésimo grau é:
Y = β0 + β1X + β2X2 + ...+ βkXk
A estimativa usando mínimos quadrados é a apropriada, entretanto o modelo polinomial com k grande é muito improvável e, na maioria das aplicações usa-se k=2 (quadrático) ou k=3 (cúbico).
- Regressão Logística
Quando Y for uma variável dicotômica com os possíveis valores 1 e 0 correspondentes a sucesso e fracasso usa-se a Regressão Logística para prever o resultado.
A forma específica do modelo logístico usado será
1x 0 β eβ 1
1x 0 β eβ π(x) E(Y/x)
+ +
= +
=
A transformação logit
( )
xβ1 β0 e 1
1x 0 β eβ ln ln π x
+ +
= +
que pode ser colocada na forma
1x 0 β π(x) β 1
ln π(x)
g(x)= − = +
Estimação dos parâmetros:
• Método Quase-Newton
• Método da Função Discriminante
• Modelo de Locação de Variáveis Mistas
O Modelo de Regressão Logística Múltipla é dada por:
eg(x) 1
eg(x) π(x)= + onde: g(x) = β0 + β1x1 + β2x2 + ... + βpxp