Aula 4. Regressão Linear Simples.

(1)

Aula 4. Regressão Linear Simples.

1. C.Dougherty “Introduction to Econometrics”

2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição

(2)

n n

y x y

x y

x , , ,

2 2 1

1



amostra população

Modelo – relação entre variável x e y

y = F(x) ?





 ^ ^

 x

y

parte não aleatória

termo de perturbação

– parte aleatória do modelo

termo de perturbação

– omissão de variável explicative – agregação de variáveis

– espicificação incorreta do modelo

– espicificação incorreta de dependência funcional – erros de medição

Modelo: F(x) é simples linear

(3)

Estimação de parâmetros. Método de mínimos quadrados

n n

y x y

x y

x , , ,

2 2 1

1



observações

x y

x

1

y

1

objeto de estudo, por exemplo x é renda familiar

y é gasto em alimentos

x

2

y

2

x y

x y    

mas parâmetros são desconhecidos

?

(4)

Estimação de parâmetros. Método de mínimos quadrados como?

x y

x

i

y

i

y ˆ

i desvio (erro)

ideia – minimirar soma total dos erros

realizamos – minimizar soma total de quadrados dos erros

min )

, ( ))

( (

ˆ ) (

1

2 1

2



















b a SS bx

a y

y y

e

n

i

i i

n

i

i i

n

i

verdadeiro 𝑦 = 𝛼 + 𝛽𝑥

estimação 𝑦 = 𝑎 + 𝑏𝑥

𝑦 = 𝑎 + 𝑏𝑥

𝑒_𝑖 = 𝑦_𝑖 − 𝑦 _𝑖 = 𝑦_𝑖 − (𝑎 + 𝑏𝑥_𝑖)

(5)

min )

,

( a b 

SS

achar a e b tais que SS(a, b) possue o valor minimo possível

) , ( min

arg )

,

( a b

( , )

SS a b

b



a

 

 



 



 



) 0 , (

b b a SS

a b a

SS 









ⁿ

i

a bx

y b

a SS

1

))

2

( (

) , (

 



 



















0 ))

( (

2 0 ))

( (

2

1 1 n

i

i i

i n

i

i i

bx a

y x

bx a

y

 



 



















0 ))

( (

0 ))

( (

1 1 n

i

i i

i n

i

i i

bx a

y x

bx a

y

 



 















n

i

i n

i

i n

i

i i

n

i

i n

i

x b

x a

y x

x b

na y

1 2 1

1

1 1

2 1

x n x

y x n y

x b

x b a

y

n

i

i n

i

i i













(6)

2 1

x n x

y x n y

x b

x b a

y

n

i

i n

i

i i













2 2

1 2 1

1 ) 1

(

) 1 , (

n s x n

x x

n n x

x Var

y x xy

y x y

n x y

x Cov

n

i

i n

i

i i

 























) (

) , (

x Var

y x b Cov

x b y

a







(7)

Media de x e a média de y estão na reta de regressão:

y ˆ  a  bx

x y

x

y x

b x

b y

x b

a   (  )  

y

(8)

Interpretação de equação de regressão

FOOD = 53.044 + 0.097 DPI

FOOD_new = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097

As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents.

Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode levar a alguma interpretação adequada, mas não nesse caso.

verdadeiro 𝑦 = 𝛼 + 𝛽𝑥

estimação 𝑦 = 𝑎 + 𝑏𝑥

(9)

Modelo estatístico





 ^ ^

 x

y

parte aleatória do modelo

Gauss-Markov conditions

1. 𝐸[𝜀_𝑖] = 0 para todos os 𝑖 = 1, … , 𝑛

2. 𝐷[𝜀_𝑖 ] = 𝜎² para todos os 𝑖 = 1, … , 𝑛 (homoscedasticidade) 𝑐𝑜𝑣(𝜀_𝑖, 𝜀_𝑗) = 0 para todos os 𝑖 ≠ 𝑗 3. 𝜀_𝑖 são independentes

4. 𝜀_𝑖 não depende do 𝑥_𝑖 são independentes – termo de perturbação não depende de variáveis explicativas

5. 𝜀_𝑖 tem distribuição normal

1. 𝜀_𝑖 são i.i.d. 𝜀_𝑖 ≈ 𝑁(0, 𝜎²) 2. 𝜀 e 𝑥 são independentes OBS: em curso vamos considerar 𝑥 como constante

(10)

Propriedades estatísticas de coeficientes 𝑎 e 𝑏 são não viesados:

) (

) , (

x Var

y x b  Cov

) (

) ,

(

x Var

x x

Cov     

 ( )

) , ( )

, ( )

, (

x Var

x Cov x

Cov     



) ( )

, ( )

, ( 0

) ,

( x Cov x x Cov x x Var x

Cov       

) (

) , ( )

(

x Var

x Cov x

Var 

 

 ( )

) , (

x Var

x Cov 

 



 

 



 

 ( )

) , ] (

[ Var x

x E Cov

b

E   _



 



 

 ( )

) , (

x Var

x E Cov 

 ( )

)]

, ( [

x Var

x Cov

E 

 



 

 



 

 





 E x n x

x n Cov E

n

i

i i 1

)] 1 , (

[ 1 [ ] [ ] 0

1





 





 n x E E

n x

n

i

i i





EX.DOMÉSTICO: provar que a não viesado

(11)

Propriedades estatísticas de coeficientes

 

 



 

 1 ( )

] [

2 2

x Var

x a n

D 

^

) ] (

[

2

x b nVar

D _ 

^

como estimar a variância de termo de perturbação?

) ˆ (

) , , ,

( e

₁

e

₂

e

_n

e

_i

y

_i

y

_i

y

_i

a bx

_i

e       

um candidato para estimar e é









ⁿ

i

e

n e e

Var

1

)

2

1 ( )

(





ⁿ

i

e

i

e n

1

1 







ⁿ

i

a bx

n

₁

( y )

1  y  a  b x  y  ( y  b x )  b x  0





ⁿ

i

e

i

n

₁

1

2

Mas Var(e) é viesado:

2

²

)]

(

[ 

_

n e n

Var

E  

) 2 (

2

Var e

n s

_e

n

 

não viesado

) ) (

.(

) . 1 (

) .(

.

2 2 2

x nVar b s

e x s

Var x n

a s e

s

^

 

^



 



 



sub-estima a variação verdareira

(12)

) ) (

.(

) . 1 (

) .(

.

2 2

2

x nVar b s

e x s

Var x n

a s e

s

^

 

^



 



 



 

 



 

 1 ( )

] [

2 2

x Var

x a n

D 

^

) ] (

[

2

x b nVar

D _ 

^

menor σ^{2 →}

menor variação de b

maior Var(x)^→

menor variação de b

(13)

)

2

.(

.  

^

t

n

a e s

a 

)

2

.(

.  

^

t

n

b e s

b 

(14)

FOOD = 53.044 + 0.097 DPI (s.e.) (3.48) (0.0043) Teste de hipótese

𝑎 e 𝑏 são estatisticamente significados?

0 :

0

:







 A

H

estatística do teste é

) .(

. e a s

t b  

 s . e .( b )

 b 22 . 6

0043 .

0 097 .

0 



graus de liberdade 𝑛 – 2 = 25 – 2 = 23 valor critico de 5% bilateral é 2.069

(15)

Call:

lm(formula = x$FOOD ~ x$DPI) Residuals:

Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***

x$DPI 0.097104 0.004381 22.16 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16

Teste de hipótese saida do programa R www.r-project.org

(16)

Teste de hipótese





 ^ ^

 w

p  

Supomos que taxa percentual da inflação de preços depende da taxa percentual da inflação salarial de accordo com o modelo linear:

p  w 

Nos podemos supor tambem que na realidade a taxa pecentual da inflação de preços é igual à taxa percentual da inflação salarial.

1 :

1

0

:







 A

H

Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é

) 10 . 0 ( )

05 . 0 ( .)

. (

82 . 0 21

. 1 e

s

w

p     

estatística do teste correspondente nesse caso é

8 . 10 1

. 0

00 . 1 82 . 0 )

.(

.   

 

 s e a t b 

graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101

(17)

 

 



 



 



 



 





n n

y x y

x y

x , , ,

2 2 1

1



população





  

 x

y

MODELO bx

a y

MODELO DE

ESTIMAÇÂO



 ˆ

qualidade de modelo é a significância de coeficientes a e b qualidade de modelo “inteiro” em “total” ?

podemos analizar variação de dados

– se o modelo explica bem a variação total de dados ANOVA e qualidade de ajuste (goodness of fit) R²

(18)

ANOVA, e qualidade de ajuste (goodness of fit) R²









ⁿ

i

i eg

R

y y

SS

1

)

2

( ˆ









ⁿ

i

Total

y y

SS

1

)

2

(

variação total:

variação de dados ajustados:

variação “não explicada”, erro:



 





ⁿ

i

i i

n

i

Erro

e y y

SS

1

2 1

2

( ˆ )

Erro eg R Total

SS SS SS





?









ⁿ

i

Total

y y

SS

1

)

2

( 











ⁿ

i

i i

i

y y y

y

1

)

2

ˆ ( ˆ

 

















ⁿ

i

i i

i

y y y y y y y

y

1

2

( ˆ ) 2 ( ˆ )( ˆ )

ˆ ) (









ⁿ

i

y

1

)

2

( ˆ 







ⁿ

i

y

1

)

2

( ˆ 







ⁿ

i

i i

i

y y y

y

1

ˆ ) ˆ )(

( 2

SS

Erro

 _ _SS

_R_eg









ⁿ

i

i i

i

y y y

y

1

ˆ ) ˆ )(

(

2

(19)

ˆ ) , ( ˆ )

ˆ )(

1 (

1

y e Cov y

y y

n y

n

i

i i

i

  







 







ⁿ

i

i i n

i

i i

i

y y y e y y

y

1 1

ˆ ) ( ˆ )

ˆ )(

(  







ⁿ

i

i n

i

y y e

e

1 1

ˆ





ⁿ

i

i i

y e

1

ˆ 







ⁿ

i

a bx

e

1

)

(  







ⁿ

i

i i n

i

a b e x

e

1





ⁿ

i

i i

x e b

1



 





ⁿ

i

i i i

n

i

x y a bx x

e

1 1

)

(   







ⁿ

i

i n

i

i n

i

x a x b x

y

1 2 1

1



  





ⁿ

i

i n

i

i n

i

x y b x x b x

y

1 2 1

1

)

(  







ⁿ

i

i n

i

x y x n b x n b x

y

1 2 2

1

 

 



 



  



n x x

b n x y x

y

n

i

i n

i

i i

2 1

) ( )

,

( y x bnVar x

nCov 



 ^Cov ⁽ ^y ^, ^x ⁾ ^bVar ⁽ ^x ⁾ 

n 

 ( ) 0

) (

) , ) (

,

(  



 



 

 Var x

x Var

x y x Cov

y Cov n

0 ˆ )

ˆ )(

(

1





 

 n

i

i i

i

y y y

y

ou

Cov ( e , y ˆ )  0

(20)

causas de variação

graus de liberades

soma quadrados

quadrados

médios F-estatística nível descritivo Regressão k -1 SS_Reg

SS_Erro SS_Total n - k

MSS_Reg=SS_Reg/(k-1) MSS_Erro=SS_Erro/(n - k)

MSS_Reg MSS_Erro Resíduo

Total n -1

p Tabela ANOVA para modelo de regressão

k n k Erro

eg

R

F

MSS MSS





₁_,

n número de observações k numero de parâmtros

causas de variação

graus de liberades

soma quadrados

quadrados

médios F-estatística nível descritivo Regressão 1 SS_Reg

SS_Erro SS_Total n - 2

MSS_Reg=SS_Reg SS_Erro/(n - 2)=s²_e

SS_Reg s²_e Resíduo

Total n -1

p Tabela ANOVA para modelo de regressão caso k=2

(21)

Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo,

usando a estatística que chama se coeficiente de determinação (coefficient of determination)

Total eg R

SS R

²

 SS

Erro eg R

MSS F  MSS

F estatistica de análise de variância pode ser representada em modo alternativo

) /(

) 1 /(

k n SS

k SS

Erro eg R



 

) /(

) /

(

) 1 /(

) /

(

k n SS

SS

k SS

SS

Total Erro

Total eg

R



 

k n

F

k

k n R

k

F R 

_ _





² ₂



₁_,

) /(

) 1

(

) 1 /(

em caso k = 2

2 , 2 1

2

) 2 /(

) 1

( 

^



  F

_n

n R

F R

(22)

Call:

lm(formula = x$FOOD ~ x$DPI)

Residuals:

Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591

Coefficients:

x$DPI 0.097104 0.004381 22.16 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16

saida do programa R www.r-project.org

R-squared: 0.9552744

F=23*R²/(1-R²)=23*0.9553/(1-0.9553)=491.5414

F=23*R²/(1-R²)=23*0.9552744/(1-0.9552744)=491.2469

(23)

Teste de hipóteses

Qual hipótese testa

F-estatística (ANOVA)? t-estatística?

0 :

0

:







A H

0 :

0

:







A H

testes tem que ser equivalentes

t

2

F 

Coefficients:

x$DPI 0.097104 0.004381 22.16 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16

22.16²=491.1

(24)

Modelos não lineares que podem ser estimados atraves de regressão linear

Transformação básica:





 ^ ^

 f ( x )

y ^y ^  ^  ^z ^ 

) ( x f z 

consumo anual de bananas (y)

salario anual (x) foram oservadas 10 familias y = 5.09 + 0.73 x R² = 0.64

(s.e.) (1.23) (0.20)

coeficiente estao significantes construimos gráfico:

(25)

Modelos não lineares que podem ser estimados atraves de regressão linear

z = 1 / x

y = 5.09 + 0.73 x R² = 0.64 (s.e.) (1.23) (0.20)

y = 12.08 - 10.08 z R² = 0.9989 (s.e.) (0.04) (0.12)

(26)

Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica.



 x

^

y  ln y  ln    ln x  ln 

) ,

0 ( ln

ln

´

ln



2



 N

x x

y y





 





  

 ´ ´

´ x

y

se a elasticidade de y ao respeito de x é constante, entao usaremos a função potência.

Elasticidade de y ao respeito da variável x é, pela definição,

incremento proporcional de y pelo dado incremento proporcional de x

x dx

y Elast dy

/ .  /

x y

dx dy

/

 /

x y

x /

1

 

^

x y

/

) /

 (

  

(27)

Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica.

para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos em alimentos (y) em relação ao salario (x). A regressão realizada é

ln y = 1.20 + 0.55 ln x transformando pela função potência temos

y = e^1.20 x^0.55 = 3.32 x^0.55

esse resultado sugere que elasticidade de demanda de alimentos em relacão ao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumento de demanda de alimentos em 0.55%.

Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prever o valor de y quando valor do x é dado

(28)

Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial.



 e

^^x

y  y   e

^r^t

 ln y  ln   rt  ln  y ´   ´  rt  

Incremento absoluto em y pela unidade de tempo é dada por

ry e

dt r

dy  

_r_t



Incremento proporcional em y pela unidade de tempo é dada por

y r ry y

dt

dy /  

Incremento proporcional em y pela unidade de tempo (taxa) é constante

(29)

Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial.

para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para gastos em alimentos (y). A regressão realizada é

ln y = 4.58 + 0.02 T transformando pela função potência temos

y = e^4.58 e^{0.02 T} = 97.5 e^{0.02 T}

esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao ano desta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentos em ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.

(30)

Referencias:

C.Dougherty’s course internet access:

http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/