Aula 4. Regressão Linear Simples.
1. C.Dougherty “Introduction to Econometrics”
2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição
n n
y x y
x y
x , , ,
2 2 1
1
amostra população
Modelo – relação entre variável x e y
y = F(x) ?
x
y
parte não aleatória
termo de perturbação
– parte aleatória do modelo
termo de perturbação
– omissão de variável explicative – agregação de variáveis
– espicificação incorreta do modelo
– espicificação incorreta de dependência funcional – erros de medição
Modelo: F(x) é simples linear
Estimação de parâmetros. Método de mínimos quadrados
n n
y x y
x y
x , , ,
2 2 1
1
observaçõesx y
x
1y
1objeto de estudo, por exemplo x é renda familiar
y é gasto em alimentos
x
2y
2x y
x y
mas parâmetros são desconhecidos
?
?
Estimação de parâmetros. Método de mínimos quadrados como?
x y
x
iy
iy ˆ
i desvio (erro)ideia – minimirar soma total dos erros
realizamos – minimizar soma total de quadrados dos erros
min )
, ( ))
( (
ˆ ) (
1
2 1
2 1
2
b a SS bx
a y
y y
e
n
i
i i
n
i
i i
n
i
i
verdadeiro 𝑦 = 𝛼 + 𝛽𝑥
estimação 𝑦 = 𝑎 + 𝑏𝑥
𝑦 = 𝑎 + 𝑏𝑥
𝑒𝑖 = 𝑦𝑖 − 𝑦 𝑖 = 𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖)
Estimação de parâmetros. Método de mínimos quadrados
min )
,
( a b
SS
achar a e b tais que SS(a, b) possue o valor minimo possível) , ( min
arg )
,
( a b
( , )SS a b
b
a
) 0 , (
) 0 , (
b b a SS
a b a
SS
ni
i
i
a bx
y b
a SS
1
))
2( (
) , (
0 ))
( (
2
0 ))
( (
2
1 1 n
i
i i
i n
i
i i
bx a
y x
bx a
y
0 ))
( (
0 ))
( (
1 1 n
i
i i
i n
i
i i
bx a
y x
bx a
y
n
i
i n
i
i n
i
i i
n
i
i n
i
i
x b
x a
y x
x b
na y
1 2 1
1
1 1
2 1
2 1
x n x
y x n y
x b
x b a
y
n
i
i n
i
i i
Estimação de parâmetros. Método de mínimos quadrados
2 1
2 1
x n x
y x n y
x b
x b a
y
n
i
i n
i
i i
2 2
2 2
1 2 1
1 ) 1
(
) 1 , (
n s x n
x x
n n x
x Var
y x xy
y x y
n x y
x Cov
n
i
i n
i
i i
) (
) , (
x Var
y x b Cov
x b y
a
Estimação de parâmetros. Método de mínimos quadrados
Media de x e a média de y estão na reta de regressão:
y ˆ a bx
x y
x
y x
b x
b y
x b
a ( )
y
Interpretação de equação de regressão
FOOD = 53.044 + 0.097 DPI
FOODnew = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097
As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents.
Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode levar a alguma interpretação adequada, mas não nesse caso.
verdadeiro 𝑦 = 𝛼 + 𝛽𝑥
estimação 𝑦 = 𝑎 + 𝑏𝑥
Modelo estatístico
x
y
parte aleatória do modeloGauss-Markov conditions
1. 𝐸[𝜀𝑖] = 0 para todos os 𝑖 = 1, … , 𝑛
2. 𝐷[𝜀𝑖 ] = 𝜎2 para todos os 𝑖 = 1, … , 𝑛 (homoscedasticidade) 𝑐𝑜𝑣(𝜀𝑖, 𝜀𝑗) = 0 para todos os 𝑖 ≠ 𝑗 3. 𝜀𝑖 são independentes
4. 𝜀𝑖 não depende do 𝑥𝑖 são independentes – termo de perturbação não depende de variáveis explicativas
5. 𝜀𝑖 tem distribuição normal
1. 𝜀𝑖 são i.i.d. 𝜀𝑖 ≈ 𝑁(0, 𝜎2) 2. 𝜀 e 𝑥 são independentes OBS: em curso vamos considerar 𝑥 como constante
Propriedades estatísticas de coeficientes 𝑎 e 𝑏 são não viesados:
) (
) , (
x Var
y x b Cov
) (
) ,
(
x Var
x x
Cov
( )
) , ( )
, ( )
, (
x Var
x Cov x
x Cov x
Cov
) ( )
, ( )
, ( 0
) ,
( x Cov x x Cov x x Var x
Cov
) (
) , ( )
(
x Var
x Cov x
Var
( )
) , (
x Var
x Cov
( )
) , ] (
[ Var x
x E Cov
b
E
( )
) , (
x Var
x E Cov
( )
)]
, ( [
x Var
x Cov
E
E x n x
x n Cov E
n
i
i i 1
)] 1 , (
[ 1 [ ] [ ] 0
1
n x E E
n x
n
i
i i
EX.DOMÉSTICO: provar que a não viesado
Propriedades estatísticas de coeficientes
1 ( )
] [
2 2
x Var
x a n
D
) ] (
[
2
x b nVar
D
como estimar a variância de termo de perturbação?
) ˆ (
) , , ,
( e
1e
2e
ne
iy
iy
iy
ia bx
ie
um candidato para estimar e é
ni
i
e
n e e
Var
1
)
21 ( )
(
ni
e
ie n
1
1
ni
i
i
a bx
n
1( y )
1 y a b x y ( y b x ) b x 0
ni
e
in
11
2Mas Var(e) é viesado:
2
2)]
(
[
n e n
Var
E
) 2 (
2
Var e
n s
en
não viesado) ) (
.(
) . 1 (
) .(
.
2 2 2
x nVar b s
e x s
Var x n
a s e
s
sub-estima a variação verdareira
) ) (
.(
) . 1 (
) .(
.
2 2
2
x nVar b s
e x s
Var x n
a s e
s
Propriedades estatísticas de coeficientes
1 ( )
] [
2 2
x Var
x a n
D
) ] (
[
2
x b nVar
D
menor σ2 →
menor variação de b
maior Var(x) →
menor variação de b
Propriedades estatísticas de coeficientes
)
2.(
.
t
na e s
a
)
2.(
.
t
nb e s
b
FOOD = 53.044 + 0.097 DPI (s.e.) (3.48) (0.0043) Teste de hipótese
𝑎 e 𝑏 são estatisticamente significados?
0 :
0
0
:
A
H
estatística do teste é
) .(
. e a s
t b
s . e .( b )
b 22 . 6
0043 .
0
097 .
0
graus de liberdade 𝑛 – 2 = 25 – 2 = 23 valor critico de 5% bilateral é 2.069
Call:
lm(formula = x$FOOD ~ x$DPI) Residuals:
Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591 Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI 0.097104 0.004381 22.16 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
Teste de hipótese saida do programa R www.r-project.org
Teste de hipótese
w
p
Supomos que taxa percentual da inflação de preços depende da taxa percentual da inflação salarial de accordo com o modelo linear:
p w
Nos podemos supor tambem que na realidade a taxa pecentual da inflação de preços é igual à taxa percentual da inflação salarial.
1 :
1
0
:
A
H
Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é
) 10 . 0 ( )
05 . 0 ( .)
. (
82 . 0 21
. 1 e
s
w
p
estatística do teste correspondente nesse caso é
8 . 10 1
. 0
00 . 1 82 . 0 )
.(
.
s e a t b
graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101
n n
y x y
x y
x , , ,
2 2 1
1
população
x
y
MODELO bx
a y
MODELO DE
ESTIMAÇÂO
ˆ
qualidade de modelo é a significância de coeficientes a e b qualidade de modelo “inteiro” em “total” ?
podemos analizar variação de dados
– se o modelo explica bem a variação total de dados ANOVA e qualidade de ajuste (goodness of fit) R2
ANOVA, e qualidade de ajuste (goodness of fit) R2
ni
i eg
R
y y
SS
1
)
2( ˆ
ni
i
Total
y y
SS
1
)
2(
variação total:
variação de dados ajustados:
variação “não explicada”, erro:
ni
i i
n
i
i
Erro
e y y
SS
1
2 1
2
( ˆ )
Erro eg R Total
SS SS SS
?
ni
i
Total
y y
SS
1
)
2(
ni
i i
i
y y y
y
1
)
2ˆ ( ˆ
ni
i i
i i
i
i
y y y y y y y
y
1
2
2
( ˆ ) 2 ( ˆ )( ˆ )
ˆ ) (
ni
i
i
y
y
1
)
2( ˆ
ni
i
y
y
1
)
2( ˆ
ni
i i
i
y y y
y
1
ˆ ) ˆ )(
( 2
SS
Erro SS
Reg
ni
i i
i
y y y
y
1
ˆ ) ˆ )(
(
2
ˆ ) , ( ˆ )
ˆ )(
1 (
1
y e Cov y
y y
n y
n
i
i i
i
ANOVA, e qualidade de ajuste (goodness of fit) R2
ni
i i n
i
i i
i
y y y e y y
y
1 1
ˆ ) ( ˆ )
ˆ )(
(
ni
i n
i
i
i
y y e
e
1 1
ˆ
ni
i i
y e
1
ˆ
ni
i
i
a bx
e
1
)
(
ni
i i n
i
i
a b e x
e
1
1
ni
i i
x e b
1
ni
i i i
n
i
i
i
x y a bx x
e
1 1
)
(
ni
i n
i
i n
i
i
i
x a x b x
y
1 2 1
1
ni
i n
i
i n
i
i
i
x y b x x b x
y
1 2 1
1
)
(
ni
i n
i
i
i
x y x n b x n b x
y
1 2 2
1
n x x
b n x y x
y
n
i
i n
i
i i
2 1
2 1
) ( )
,
( y x bnVar x
nCov
Cov ( y , x ) bVar ( x )
n
( ) 0
) (
) , ) (
,
(
Var x
x Var
x y x Cov
y Cov n
0 ˆ )
ˆ )(
(
1
n
i
i i
i
y y y
y
ouCov ( e , y ˆ ) 0
ANOVA, e qualidade de ajuste (goodness of fit) R2
causas de variação
graus de liberades
soma quadrados
quadrados
médios F-estatística nível descritivo Regressão k -1 SSReg
SSErro SSTotal n - k
MSSReg=SSReg/(k-1) MSSErro=SSErro/(n - k)
MSSReg MSSErro Resíduo
Total n -1
p Tabela ANOVA para modelo de regressão
k n k Erro
eg
R
F
MSS MSS
1,n número de observações k numero de parâmtros
causas de variação
graus de liberades
soma quadrados
quadrados
médios F-estatística nível descritivo Regressão 1 SSReg
SSErro SSTotal n - 2
MSSReg=SSReg SSErro/(n - 2)=s2e
SSReg s2e Resíduo
Total n -1
p Tabela ANOVA para modelo de regressão caso k=2
ANOVA, e qualidade de ajuste (goodness of fit) R2
Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo,
usando a estatística que chama se coeficiente de determinação (coefficient of determination)
Total eg R
SS R
2 SS
Erro eg R
MSS F MSS
F estatistica de análise de variância pode ser representada em modo alternativo
) /(
) 1 /(
k n SS
k SS
Erro eg R
) /(
) /
(
) 1 /(
) /
(
k n SS
SS
k SS
SS
Total Erro
Total eg
R
k n
F
kk n R
k
F R
2 2
1,) /(
) 1
(
) 1 /(
em caso k = 2
2 , 2 1
2
) 2 /(
) 1
(
F
nn R
F R
Call:
lm(formula = x$FOOD ~ x$DPI)
Residuals:
Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI 0.097104 0.004381 22.16 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
saida do programa R www.r-project.org
ANOVA, e qualidade de ajuste (goodness of fit) R2
R-squared: 0.9552744
F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414
F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469
Teste de hipóteses
Qual hipótese testa
F-estatística (ANOVA)? t-estatística?
0 :
0
0
:
A H
0 :
0
0
:
A H
testes tem que ser equivalentes
t
2F
Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI 0.097104 0.004381 22.16 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
22.162=491.1
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação básica:
f ( x )
y y z
) ( x f z
consumo anual de bananas (y)
salario anual (x) foram oservadas 10 familias y = 5.09 + 0.73 x R2 = 0.64
(s.e.) (1.23) (0.20)
coeficiente estao significantes construimos gráfico:
Modelos não lineares que podem ser estimados atraves de regressão linear
z = 1 / x
y = 5.09 + 0.73 x R2 = 0.64 (s.e.) (1.23) (0.20)
y = 12.08 - 10.08 z R2 = 0.9989 (s.e.) (0.04) (0.12)
Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica.
x
y ln y ln ln x ln
) ,
0 ( ln
ln
´
ln
2
N
x x
y y
´ ´
´ x
y
se a elasticidade de y ao respeito de x é constante, entao usaremos a função potência.
Elasticidade de y ao respeito da variável x é, pela definição,
incremento proporcional de y pelo dado incremento proporcional de x
x dx
y Elast dy
/ . /
x y
dx dy
/
/
x y
x /
1
x y
x y
/
) /
(
Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica.
para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos em alimentos (y) em relação ao salario (x). A regressão realizada é
ln y = 1.20 + 0.55 ln x transformando pela função potência temos
y = e1.20 x0.55 = 3.32 x0.55
esse resultado sugere que elasticidade de demanda de alimentos em relacão ao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumento de demanda de alimentos em 0.55%.
Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prever o valor de y quando valor do x é dado
Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial.
e
xy y e
rt ln y ln rt ln y ´ ´ rt
Incremento absoluto em y pela unidade de tempo é dada por
ry e
dt r
dy
rt
Incremento proporcional em y pela unidade de tempo é dada por
y r ry y
dt
dy /
Incremento proporcional em y pela unidade de tempo (taxa) é constante
Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial.
para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para gastos em alimentos (y). A regressão realizada é
ln y = 4.58 + 0.02 T transformando pela função potência temos
y = e4.58 e0.02 T = 97.5 e0.02 T
esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao ano desta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentos em ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.
Referencias:
C.Dougherty’s course internet access:
http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/