• Nenhum resultado encontrado

Aula 4. Regressão Linear Simples.

N/A
N/A
Protected

Academic year: 2022

Share "Aula 4. Regressão Linear Simples."

Copied!
30
0
0

Texto

(1)

Aula 4. Regressão Linear Simples.

1. C.Dougherty “Introduction to Econometrics”

2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição

(2)

n n

y x y

x y

x , , ,

2 2 1

1

amostra população

Modelo – relação entre variável x e y

y = F(x) ?

x

y

parte não aleatória

termo de perturbação

– parte aleatória do modelo

termo de perturbação

– omissão de variável explicative – agregação de variáveis

– espicificação incorreta do modelo

– espicificação incorreta de dependência funcional – erros de medição

Modelo: F(x) é simples linear

(3)

Estimação de parâmetros. Método de mínimos quadrados

n n

y x y

x y

x , , ,

2 2 1

1

observações

x y

x

1

y

1

objeto de estudo, por exemplo x é renda familiar

y é gasto em alimentos

x

2

y

2

x y

x y    

mas parâmetros são desconhecidos

?

?

(4)

Estimação de parâmetros. Método de mínimos quadrados como?

x y

x

i

y

i

y ˆ

i desvio (erro)

ideia – minimirar soma total dos erros

realizamos – minimizar soma total de quadrados dos erros

min )

, ( ))

( (

ˆ ) (

1

2 1

2 1

2

b a SS bx

a y

y y

e

n

i

i i

n

i

i i

n

i

i

verdadeiro 𝑦 = 𝛼 + 𝛽𝑥

estimação 𝑦 = 𝑎 + 𝑏𝑥

𝑦 = 𝑎 + 𝑏𝑥

𝑒𝑖 = 𝑦𝑖 − 𝑦 𝑖 = 𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖)

(5)

Estimação de parâmetros. Método de mínimos quadrados

min )

,

( a b

SS

achar a e b tais que SS(a, b) possue o valor minimo possível

) , ( min

arg )

,

( a b

( , )

SS a b

b

a

 

 

 

 

) 0 , (

) 0 , (

b b a SS

a b a

SS

n

i

i

i

a bx

y b

a SS

1

))

2

( (

) , (

 

 

0 ))

( (

2

0 ))

( (

2

1 1 n

i

i i

i n

i

i i

bx a

y x

bx a

y

 

 

0 ))

( (

0 ))

( (

1 1 n

i

i i

i n

i

i i

bx a

y x

bx a

y

 

 

n

i

i n

i

i n

i

i i

n

i

i n

i

i

x b

x a

y x

x b

na y

1 2 1

1

1 1

2 1

2 1

x n x

y x n y

x b

x b a

y

n

i

i n

i

i i

(6)

Estimação de parâmetros. Método de mínimos quadrados

2 1

2 1

x n x

y x n y

x b

x b a

y

n

i

i n

i

i i

2 2

2 2

1 2 1

1 ) 1

(

) 1 , (

n s x n

x x

n n x

x Var

y x xy

y x y

n x y

x Cov

n

i

i n

i

i i

 

) (

) , (

x Var

y x b Cov

x b y

a

(7)

Estimação de parâmetros. Método de mínimos quadrados

Media de x e a média de y estão na reta de regressão:

y ˆ  abx

x y

x

y x

b x

b y

x b

a   (  )  

y

(8)

Interpretação de equação de regressão

FOOD = 53.044 + 0.097 DPI

FOODnew = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097

As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents.

Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode levar a alguma interpretação adequada, mas não nesse caso.

verdadeiro 𝑦 = 𝛼 + 𝛽𝑥

estimação 𝑦 = 𝑎 + 𝑏𝑥

(9)

Modelo estatístico

x

y

parte aleatória do modelo

Gauss-Markov conditions

1. 𝐸[𝜀𝑖] = 0 para todos os 𝑖 = 1, … , 𝑛

2. 𝐷[𝜀𝑖 ] = 𝜎2 para todos os 𝑖 = 1, … , 𝑛 (homoscedasticidade) 𝑐𝑜𝑣(𝜀𝑖, 𝜀𝑗) = 0 para todos os 𝑖 ≠ 𝑗 3. 𝜀𝑖 são independentes

4. 𝜀𝑖 não depende do 𝑥𝑖 são independentes – termo de perturbação não depende de variáveis explicativas

5. 𝜀𝑖 tem distribuição normal

1. 𝜀𝑖 são i.i.d. 𝜀𝑖 ≈ 𝑁(0, 𝜎2) 2. 𝜀 e 𝑥 são independentes OBS: em curso vamos considerar 𝑥 como constante

(10)

Propriedades estatísticas de coeficientes 𝑎 e 𝑏 são não viesados:

) (

) , (

x Var

y x bCov

) (

) ,

(

x Var

x x

Cov     

 ( )

) , ( )

, ( )

, (

x Var

x Cov x

x Cov x

Cov     

) ( )

, ( )

, ( 0

) ,

( x Cov x x Cov x x Var x

Cov       

) (

) , ( )

(

x Var

x Cov x

Var

 

 ( )

) , (

x Var

x Cov

 

 

 

 

 ( )

) , ] (

[ Var x

x E Cov

b

E  

 

 

 ( )

) , (

x Var

x E Cov

 ( )

)]

, ( [

x Var

x Cov

E

 

 

 

 

 

E x n x

x n Cov E

n

i

i i 1

)] 1 , (

[ 1 [ ] [ ] 0

1

 

n x E E

n x

n

i

i i

EX.DOMÉSTICO: provar que a não viesado

(11)

Propriedades estatísticas de coeficientes

 

 

 

 1 ( )

] [

2 2

x Var

x a n

D

) ] (

[

2

x b nVar

D

como estimar a variância de termo de perturbação?

) ˆ (

) , , ,

( e

1

e

2

e

n

e

i

y

i

y

i

y

i

a bx

i

e       

um candidato para estimar e é

n

i

i

e

n e e

Var

1

)

2

1 ( )

(

n

i

e

i

e n

1

1 

n

i

i

i

a bx

n

1

( y )

1  yab xy  ( yb x )  b x  0

n

i

e

i

n

1

1

2

Mas Var(e) é viesado:

2

2

)]

(

[ 

n e n

Var

E  

) 2 (

2

Var e

n s

e

n

 

não viesado

) ) (

.(

) . 1 (

) .(

.

2 2 2

x nVar b s

e x s

Var x n

a s e

s

 

 

 

sub-estima a variação verdareira

(12)

) ) (

.(

) . 1 (

) .(

.

2 2

2

x nVar b s

e x s

Var x n

a s e

s

 

 

 

Propriedades estatísticas de coeficientes

 

 

 

 1 ( )

] [

2 2

x Var

x a n

D

) ] (

[

2

x b nVar

D

menor σ2 →

menor variação de b

maior Var(x)

menor variação de b

(13)

Propriedades estatísticas de coeficientes

)

2

.(

.  

t

n

a e s

a

)

2

.(

.  

t

n

b e s

b

(14)

FOOD = 53.044 + 0.097 DPI (s.e.) (3.48) (0.0043) Teste de hipótese

𝑎 e 𝑏 são estatisticamente significados?

0 :

0

0

:

A

H

estatística do teste é

) .(

. e a s

t b  

s . e .( b )

b 22 . 6

0043 .

0

097 .

0 

graus de liberdade 𝑛 – 2 = 25 – 2 = 23 valor critico de 5% bilateral é 2.069

(15)

Call:

lm(formula = x$FOOD ~ x$DPI) Residuals:

Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***

x$DPI 0.097104 0.004381 22.16 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16

Teste de hipótese saida do programa R www.r-project.org

(16)

Teste de hipótese

w

p  

Supomos que taxa percentual da inflação de preços depende da taxa percentual da inflação salarial de accordo com o modelo linear:

pw

Nos podemos supor tambem que na realidade a taxa pecentual da inflação de preços é igual à taxa percentual da inflação salarial.

1 :

1

0

:

A

H

Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é

) 10 . 0 ( )

05 . 0 ( .)

. (

82 . 0 21

. 1 e

s

w

p     

estatística do teste correspondente nesse caso é

8 . 10 1

. 0

00 . 1 82 . 0 )

.(

.   

 

s e a t b

graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101

(17)

 

 

 

 

 

 

n n

y x y

x y

x , , ,

2 2 1

1

população

  

x

y

MODELO bx

a y

MODELO DE

ESTIMAÇÂO

 ˆ

qualidade de modelo é a significância de coeficientes a e b qualidade de modelo “inteiro” em “total” ?

podemos analizar variação de dados

– se o modelo explica bem a variação total de dados ANOVA e qualidade de ajuste (goodness of fit) R2

(18)

ANOVA, e qualidade de ajuste (goodness of fit) R2

n

i

i eg

R

y y

SS

1

)

2

( ˆ

n

i

i

Total

y y

SS

1

)

2

(

variação total:

variação de dados ajustados:

variação “não explicada”, erro:

n

i

i i

n

i

i

Erro

e y y

SS

1

2 1

2

( ˆ )

Erro eg R Total

SS SS SS

?

n

i

i

Total

y y

SS

1

)

2

( 

n

i

i i

i

y y y

y

1

)

2

ˆ ( ˆ

 

n

i

i i

i i

i

i

y y y y y y y

y

1

2

2

( ˆ ) 2 ( ˆ )( ˆ )

ˆ ) (

n

i

i

i

y

y

1

)

2

( ˆ 

n

i

i

y

y

1

)

2

( ˆ 

n

i

i i

i

y y y

y

1

ˆ ) ˆ )(

( 2

SS

Erro

SS

Reg

n

i

i i

i

y y y

y

1

ˆ ) ˆ )(

(

2

(19)

ˆ ) , ( ˆ )

ˆ )(

1 (

1

y e Cov y

y y

n y

n

i

i i

i

  

ANOVA, e qualidade de ajuste (goodness of fit) R2

n

i

i i n

i

i i

i

y y y e y y

y

1 1

ˆ ) ( ˆ )

ˆ )(

(  

n

i

i n

i

i

i

y y e

e

1 1

ˆ

n

i

i i

y e

1

ˆ 

n

i

i

i

a bx

e

1

)

(  

n

i

i i n

i

i

a b e x

e

1

1

n

i

i i

x e b

1

n

i

i i i

n

i

i

i

x y a bx x

e

1 1

)

(   

n

i

i n

i

i n

i

i

i

x a x b x

y

1 2 1

1

n

i

i n

i

i n

i

i

i

x y b x x b x

y

1 2 1

1

)

(  

n

i

i n

i

i

i

x y x n b x n b x

y

1 2 2

1

 

 

 

  

n x x

b n x y x

y

n

i

i n

i

i i

2 1

2 1

) ( )

,

( y x bnVar x

nCov

Cov ( y , x ) bVar ( x )

n

 ( ) 0

) (

) , ) (

,

(  

 

 

Var x

x Var

x y x Cov

y Cov n

0 ˆ )

ˆ )(

(

1

 

n

i

i i

i

y y y

y

ou

Cov ( e , y ˆ )  0

(20)

ANOVA, e qualidade de ajuste (goodness of fit) R2

causas de variação

graus de liberades

soma quadrados

quadrados

médios F-estatística nível descritivo Regressão k -1 SSReg

SSErro SSTotal n - k

MSSReg=SSReg/(k-1) MSSErro=SSErro/(n - k)

MSSReg MSSErro Resíduo

Total n -1

p Tabela ANOVA para modelo de regressão

k n k Erro

eg

R

F

MSS MSS

1,

n número de observações k numero de parâmtros

causas de variação

graus de liberades

soma quadrados

quadrados

médios F-estatística nível descritivo Regressão 1 SSReg

SSErro SSTotal n - 2

MSSReg=SSReg SSErro/(n - 2)=s2e

SSReg s2e Resíduo

Total n -1

p Tabela ANOVA para modelo de regressão caso k=2

(21)

ANOVA, e qualidade de ajuste (goodness of fit) R2

Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo,

usando a estatística que chama se coeficiente de determinação (coefficient of determination)

Total eg R

SS R

2

SS

Erro eg R

MSS FMSS

F estatistica de análise de variância pode ser representada em modo alternativo

) /(

) 1 /(

k n SS

k SS

Erro eg R

 

) /(

) /

(

) 1 /(

) /

(

k n SS

SS

k SS

SS

Total Erro

Total eg

R

 

k n

F

k

k n R

k

F R

2 2

1,

) /(

) 1

(

) 1 /(

em caso k = 2

2 , 2 1

2

) 2 /(

) 1

( 

  F

n

n R

F R

(22)

Call:

lm(formula = x$FOOD ~ x$DPI)

Residuals:

Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***

x$DPI 0.097104 0.004381 22.16 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16

saida do programa R www.r-project.org

ANOVA, e qualidade de ajuste (goodness of fit) R2

R-squared: 0.9552744

F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414

F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469

(23)

Teste de hipóteses

Qual hipótese testa

F-estatística (ANOVA)? t-estatística?

0 :

0

0

:

A H

0 :

0

0

:

A H

testes tem que ser equivalentes

t

2

F

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***

x$DPI 0.097104 0.004381 22.16 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.061 on 23 degrees of freedom Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16

22.162=491.1

(24)

Modelos não lineares que podem ser estimados atraves de regressão linear

Transformação básica:

f ( x )

y y z

) ( x f z

consumo anual de bananas (y)

salario anual (x) foram oservadas 10 familias y = 5.09 + 0.73 x R2 = 0.64

(s.e.) (1.23) (0.20)

coeficiente estao significantes construimos gráfico:

(25)

Modelos não lineares que podem ser estimados atraves de regressão linear

z = 1 / x

y = 5.09 + 0.73 x R2 = 0.64 (s.e.) (1.23) (0.20)

y = 12.08 - 10.08 z R2 = 0.9989 (s.e.) (0.04) (0.12)

(26)

Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica.

x

y  ln y  ln    ln x  ln 

) ,

0 ( ln

ln

´

ln

2

N

x x

y y

 

  

 ´ ´

´ x

y

se a elasticidade de y ao respeito de x é constante, entao usaremos a função potência.

Elasticidade de y ao respeito da variável x é, pela definição,

incremento proporcional de y pelo dado incremento proporcional de x

x dx

y Elast dy

/ .  /

x y

dx dy

/

 /

x y

x /

1

 

x y

x y

/

) /

 (

  

(27)

Modelos não lineares que podem ser estimados atraves de regressão linear Transformação logaritmica.

para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos em alimentos (y) em relação ao salario (x). A regressão realizada é

ln y = 1.20 + 0.55 ln x transformando pela função potência temos

y = e1.20 x0.55 = 3.32 x0.55

esse resultado sugere que elasticidade de demanda de alimentos em relacão ao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumento de demanda de alimentos em 0.55%.

Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prever o valor de y quando valor do x é dado

(28)

Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial.

e

x

yy   e

rt

 ln y  ln   rt  ln  y ´   ´  rt  

Incremento absoluto em y pela unidade de tempo é dada por

ry e

dt r

dy  

rt

Incremento proporcional em y pela unidade de tempo é dada por

y r ry y

dt

dy /  

Incremento proporcional em y pela unidade de tempo (taxa) é constante

(29)

Modelos não lineares que podem ser estimados atraves de regressão linear Trend exponencial.

para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para gastos em alimentos (y). A regressão realizada é

ln y = 4.58 + 0.02 T transformando pela função potência temos

y = e4.58 e0.02 T = 97.5 e0.02 T

esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao ano desta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentos em ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.

(30)

Referencias:

C.Dougherty’s course internet access:

http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/

Referências

Documentos relacionados

Como o ciclo de vida de produtos customizados é pequeno, os processos de CM demandam ciclos curtos de desenvolvimento de produtos LAU, 1995; d Demanda por customização – a

Entretanto, os modos de deslocamento ativo à escola têm diminuído ao longo dos últimos anos (MATOS et al., 2014), devido, principalmente a fatores relacionados ao estilo

foram encontrados, mostrando a importância de tal investi- gação com uso de um método objetivo, pois a otite média e perda auditiva do tipo condutiva são patologias que ocorrem

Na prática, a medida de vício de Box e as medidas de curvatura de Bates e Watts são as ferramentas mais utilizadas na avaliação da não- linearidade de um modelo de regressão

Será que a declaração de que todos estão convidados significa que esse versículo pode ser utilizado para ensinar que todos serão

171 Suprema - Sociedade Universitária Para O Ensino Médico Assitencial 172 Fundação Universitária De Desenvolvimento De Esxtensão E Pesquisa 173 Fundação Municipal De

BRA233 UNIVERSIDADE FEDERAL DO SUL DA BAHIA BRA236 INSTITUTO PAULISTA DE ENSINO E PESQUISA BRA239 INSTITUTO SUMARE DE EDUCAÇÃO SUPERIOR LTDA BRA240 INSTITUTO TECNOLÓGICO

A família possui um alto valor ecológico, devido ao seu conhecido relacionamento com a fauna e em escala menor com outras espécies de plantas, além disso, possui um elevado número de