1.2 Interpreta¸ c˜ ao de regress˜ ao linear simples

(1)

1 Aula 7. Regress˜ ao Simples.

Consideramos modelo de regress˜ao simples

y=α+βx+ϵ (1)

ondey,descreve uma vari`avel dependente, tem dois componentes:

1. componente não aleatório α+βx e x descreva-se como variável explicat´ıva (ou independente), α e β são parâmetros de modelo

2. o termo perturba¸cãoϵ.Porque existe o termo de perturba¸cão no modelo. Exsite vários motivos uns deles são (a) Omissão de variàvel explictiva. Rela¸cão entre y e xcom certeza é simplificada, na realidade existe vários

outros fatores que afetam a variávely e não são presentes in equa¸cão (11) e a influencia delas pode ser a causa de que os pontos observados não estão na linha retaα+βx.

(b) Agrega¸cão de variáveis. In alguns casos a rela¸cão entre y e x é se representa como uma agrega¸cão ou sumatória de varios rela¸cões microeconomicas. Por exemplo, fun¸cão de consumo agregada é uma tentat´ıva resumir o congunto de gastos individuais. Já que é veross´ımil que os parâmetros de consumo individual são diferentes, então qualquer tentat´ıva de relatar o consumo agregado à salario agregado (por exemplo) pode ser somente aproximada.

(c) Especifica¸cão incorreta do modelo. A estruturo do modelo pode ser incorreta. Entre enumeros poss´ıveis exemplos consideramos o seguinte. Se a rela¸cão refere-se ao serie temporal, o valor de y pode depender não somente do valor atual do xmas do valor do xantecedente. Se valores antecedente e atual do xsão correlacionados fortemente, então vai aparecer a rela¸cão entreye o valor atual dox,mas aproximadamente, e de novo o termo de perturba¸cão vai aceitar essa discrepância.

(d) Espicifica¸cão encorreta de depenência funcional. Por exemplo, a verdadeira rela¸cão entrey exnão linear.

Nos vamos considerar as dependências não lineares, e óbvio, que existe os testes sofisticados para detectar a rela¸cão adequada, mas mesmo esses métodos são aproximados, e discrepancia vai contribuir em termo de perturba¸cãoϵ.

(e) Erros de medi¸cão. Se exsite os erros em medi¸cão em qualquer uma das variáveis, então obviamente, os valores observados não vão estar de acordo com a rela¸cão exata, e discrepancia, de novo, vai constribuir em termoϵ.

1.1 Estima¸ c˜ ao de parametros α e β. M´ etodo de m´ınimos quadrados.

Observa¸c˜oes: (

y₁ x1

) ,

(y₂ x2

) , . . . ,

(y_n xn

)

Adotaremos o crit´erio que consiste em encontrar valoresαeβ que minimizam a soma dos erros, dados por

e_i=y_i−(α+βx_i) (2)

Obtemos, ent˜ao, a quantidade de informa¸c˜ao perdida pelo modelo ou soma dos quadrados dos erros (ou desvios) SS(α, β) =

∑n i=1

e²_i =

∑n i=1

(yi−α−βxi)² (3)

Derivando em rela¸c˜ao aαeβ obtemos o sistema e solu¸c˜ao











0 = ∂SS(α, β)

∂α =−2

∑n i=1

(yi−α−βxi) 0 = ∂SS(α, β)

∂β =−2

∑n i=1

xi(yi−α−βxi)

⇒











∑n i=1

(yi−α−βxi) = 0

∑n i=1

xi(yi−α−βxi) = 0

⇒











∑n i=1

yi =nα+β

∑n i=1

xi

∑n i=1

xiyi=α

∑n i=1

xi+β

∑n i=1

x²_i

Logo obtemos 





α= ¯y−β¯x β=

∑n

i=1xiyi−n¯x¯y

∑n

i=1x²_i −n¯x²

(4)

(2)

Para diferenciar entre parâmetros e estima¸cão de parâmetros adotamos anota¸cãoa, b. Notamos que podemos usar a forma alternativa deb.Seja

Cov(x, y) =

∑n i=1x_iy_i

n −x¯¯y (5)

V ar(x) =

∑n i=1x²_i

n −x¯²=x²−x¯²=n−1

n s² (6)

Usando (5, 6) obtemos a f´ormula alternativa parab: b=

∑n

i=1x_iy_i−n¯x¯y

∑n

i=1x²_i −n¯x² =Cov(x, y)

V ar(x) (7)

1.2 Interpreta¸ c˜ ao de regress˜ ao linear simples

Dado

ˆ

y=a+bx quandoy exs˜ao vari´aveis com unidades naturais.

1. falaremos que aumento dexem uma unidade (x+ 1) causa altera¸c˜ao emy emb unidade (medidas em unidades dey): a+b(x+ 1) =a+bx+b= ˆy+b

2. substituir ”unidade”pela medida atual ( R$, $, kg, cm, ect.)

3. veriﬁcar se o resultado, que parece desajeitado, pode ser expresso de modo mais simples

Constante ada o valor predito dey (em medidas dey) sexé igual à 0. Dependendo do contexto essa interpreta¸cão pode ser aceitavel ou não.

1.3 Propriedades de coeﬃcientes de regress˜ ao e teste de hip´ otese.

E obvio, que as propriedades estat´ısticas de coeficientes de regress˜` ao dependem das propriedades de termo de perturba¸cãoϵ.Lembramos que o modelo considerado é

yi=α+βxi+ϵi, i= 1,2, . . . , n.

As condi¸cões estat´ısticas de termoϵ_i (conhecidos como condi¸cões de Gauss-Markov) são 1. E[ϵ_i] = 0 para todosi.

Esse termo n˜ao deve ter a tendˆencia sistematica.

2. D[ϵ_i] =σ_ϵ² para todosi.

Notamos, que se a condi¸cão 1 é valida, então essa condi¸cão pode ser escrita comoE[ϵ²_i] =σ_ϵ²para todosi. σ²_ϵ é desconhecida. Propriedade chama-sehomocedasticidade.

3. ϵi s˜ao independentes.

Como sequˆencia temoscov(ϵi, ϵj) = 0 para quaisquer i ̸= j, ou, usando item 1, temos que E[ϵi] =E[ϵj] = 0 porissoE[ϵiϵj] = 0.

4. ϵi n˜ao depende doxj para todos i, j

Nas proximas aulas consideramos o caso quandoxié constante, por isso essa condi¸cão é valida automaticamente.

5. ϵ_i tem distribui¸c˜ao normal.

1.3.1 Propriedades de coeficientes 1. N˜ao viesados. E[b] =β eE[a] =α

E[b] =E[Cov(y, x)

V ar(x) ] =β+E[Cov(ϵ, x)

V ar(x) ] =β+ 1

V ar(x)E[Cov(ϵ, x)] =β – usamos o fato quex´e constante por isso 1/V ar(x) ´e uma constante e Cov(ϵ, x) = 0.

E[a] =E[¯y−βx] = (α¯ +βx)¯ −βx¯=α

(3)

2. F´ormulas para desvio padr˜ao.

D[a] = σ²_ϵ n (

1 + x¯² V ar(x)

)

e D[b] = σ²_ϵ

nV ar(x) (8)

Para estimarσ²_ϵ nos naturalmente podemos usarV ar(e).Mas antes perguntamos, qual reta é mais próxima para os pontos observados: a verdadeira retay =α+βxou linha de regressão ˆy=a+bx? A resposta ´e a linha de regressão. Porisso, aV ar(e) superestima o verdadeiro valor σ_ϵ².Pode ser mostrado que o estimador não viesado

´e

s²_e= n

n−2V ar(e) assim construimos paraaeb o erro padr˜ao:

s.e.[a] =

√ s²_e

n (

1 + x¯² V ar(x)

)

e s.e.[b] =

√ s²_e

nV ar(x) (9)

3. Eststistica do teste. Se as condi¸cões são validas então b−β

s.e.[b] ∼tn−2 e a−α

s.e.[a] ∼tn−2 (10)

n−2 porque perdemos 2 graus de liberade estimando 2 paramatrosαeβ.

1.4 Qualidade de ajuste: R

²

Objetivo de regressão é explicar o comportamento de variavel dependente atraves de variavel independente. Depois de ajuste pela reta de regressão nos podemos separar o valor observadoyi em duas partes ˆyieei:yi= ˆyi+ei.Porisso a varia¸cão dey pode ser explicada pela varia¸cão de ˆyee:

V ar(y) =V ar(ˆy+e) =V ar(ˆy) +V ar(e) + 2Cov(ˆy, e) Ex. Provar que Cov(ˆy, e) = 0

Obtemos

V ar(y) =V ar(ˆy) +V ar(e) (11)

• V ar(ˆy) – parte de varia¸c˜ao ”aparentemente explicada”pela regress˜ao;

• V ar(e) – parte n˜ao explicada (erro).

Razão de variância explicada e variância total é conhecida comocoeficiente de determina¸cão R²=V ar(ˆy)

V ar(y) ou equivalenteR²= 1−V ar(e)

V ar(y) (12)

Notamos que o valor máximo é 1. Isso acontece somente quando ˆy_i=y_i para todos observa¸cões.

intuitivamnete óbvio, que se melhor ajuste, maior tem que ser o coefficiente de correla¸cão entre valor atual e predito deye vice versa. Mostraremos que realmenteR²é igual à quadrado de coeficiente de correla¸cão entreye ˆyque vamos denotar comor_y,ˆ_y:

ry,ˆy = Cov(y,y)ˆ

√V ar(y)V ar(ˆy) = Cov(ˆy+e,y)ˆ

√V ar(y)V ar(ˆy)

= Cov(ˆy,y) +ˆ Cov(e,y)ˆ

√V ar(y)V ar(ˆy) = V ar(ˆy)

√V ar(y)V ar(ˆy)=

√V ar(ˆy)

√V ar(y)=√ R²

1.5 ANOVA

A equa¸c˜ao (11) pode ser re-escita em modo mais conhecido:

∑n i=1

(y_i−y)¯ ² =

∑n i=1

(ˆy_i−y)¯ ²+

∑n i=1

e²_i (13)

SST otal = SSReg+SSErro (14)

Assim podemos construir a conhecida tabela de análise de variância (ANOVA). Graus de liberdade da regressão é o número de parâmetros menos 1, quando o graus de liberdade de residuo (erro) é número de observa¸cões subtraindo o número de parâmetros estimados. Sejamknúmero de parâmetros da regressão.

(4)

fonte de varia¸c˜ao

soma de quadrados

graus de liberdade

m´edia de

quadrados Fobs p

Regress˜ao SSReg k−1 M SReg= SSReg

k−1

M SReg

M S_Erro p-value Res´ıduo SSErro n−k M SErro= SSErro

n−k

total SS_{T otal} n−1

Parâmeros para estimar são dois: αeβ. Então para regressão linear simples temosk = 2. Porisso a tabela ANOVA pode ser descrita do modo seguinte.

fonte de varia¸c˜ao

soma de quadrados

graus de liberdade

m´edia de

quadrados Fobs p

Regress˜ao SS_Reg 1 SS_Reg SSReg

s²_e p-value

Res´ıduo SSErro n−2 SS_Erro

n−2 =s²_e

total SS_{T otal} n−1

Lembramos aqui sobre o estimador de variˆancia:

s²_e= n

n−2V ar(e) = n n−2 · 1

n

∑n i=1

e²_i =

∑n i=1e²_i

n−2 = SSErro

n−2 .

Notamos, que a fórmula alternativa para coeficiente de determina¸cãoR²usando (14) é representada em modo seguinte.

R²= V ar(ˆy)

V ar(y)= SS_Reg/n

SST otal/n = SS_Reg SST otal

(15)

1.5.1 Calculo alternativo de estat´ıstica F

Seja k, como antes, o n´umero de parâmetros para estimar, então k−1 é o numero de variáveis independentes em regressão. AF estat´ıstica pela defini¸cão é

F = M S_Reg M SErro

= SS_Reg/(k−1)

SSErro/(n−k) = (SS_Reg/SS_{T otal})/(k−1)

(SSErro/SST otal)/(n−k)= R²/(k−1)

(1−R²)/(n−k) ∼F_k₋_1,n₋_k (16) ou em caso de regress˜ao linear simplesk= 2 obtemos

F= R²

(1−R²)/(n−2) ∼F1,n−2 (17)

1.6 Transforma¸ c˜ oes de variaveis

Vários processos economicos melhor modelar atraves de rela¸cões não-lineares, por exemplo, fun¸cão de demanda e fun¸cão de produ¸cões. Aqui nos veremos quais rela¸cões não lineares podem ser modelados usando a regressão e quais não.

Supomos que a rela¸c˜ao ´e o seguinte:

y=α+βf(x) (18)

ondef(x) uma fun¸cão não linear, por isso a rela¸cão entreyexnão é linear. Mas pode ser transformada simplezmente em regressão linear usando transforma¸cão de variàveis: sejaz=f(x),então

y=α+βf(x) ⇒ y=α+βz e a ultima equa¸c˜ao pode ser tratada como simples regress˜ao linear.

1.6.1 transforma¸c˜ao logaritmica

Mais um exemplo de rela¸cão nao-linear que pode ser tratada como a regress¸cão linear é rela¸cão

y=αx^β (19)

Usando a transforma¸c˜ao logaritmica temos

y=αx^β ⇒ lny= lnα+βlnx ⇒ y^′=α^′+βx^′ (20)

(5)

Fun¸cões do tipo (19) freqüentemente ocorrem em economia. Quando vocês têm essa rela¸cão entrey e x,imediatamente vocês podem dizer qual é a elasticidade dey ao respeito dox. Por exemplo a fun¸cão de Engel em geral é do tipo (19), onde yé demanda da mercadoria, exé renda, e nesse caso,β é elasticidade de demanda ao respeito de renda. Provamos a propriedade de elasticidade.

Elasticidade dey ao respeito da variável xé, pela defini¸cão, incremento proporcional de y pelo dado incremento proporcional dox:

elasticidade = dy/y

dx/x (21)

Usando essa defini¸cão, para rela¸cão (19) imediatamente obtemos elasticidade = dy/y

dx/x = dy/dx

y/x = αβx^β⁻¹

y/x = β(y/x) y/x =β

Somente a rela¸cão (19) tem a elasticidade constante. Isso, por exemplo, significa, que se você acha que a elasticidade

´

e constante, então a rela¸cão entreyexpode ser modelada através de rela¸cão (19). Se a elasticidade não é constante, então nos não podemos usar a fun¸cão (19) para modelar a rela¸cão entrey ex.

1.6.2 fun¸c˜ao exponencial Fun¸c˜ao

y=αe^βx (22)

comumente usada quando y tem a taxa de aumento proporcional constante em tempo. Nesse caso em vez de usar anota¸c˜aoxusa-set,e em vez deβ usa-se r:

y=αe^rt (23)

Incremento absolutoemy pela unidade de tempo ´e dada por dy

dt =rαe^rt=ry (24)

Por isso o incrementoproporcionalemy por unidade de tempo ´e dado por dy/dt

y = ry

y =r (25)

Mais comum usar a taxa em porcentagem, por exemplo, se o estima¸cão dor deu 0.053, então diremos que taxa de aumento é de 5.3% por per´ıodo. Estimar a taxa de aumento podemos atraves de regressão linear:

y=αe^rt ⇒ lny = lnα+rt ⇒ y^′=α^′+rt

1.7 Termo de perturba¸ c˜ ao

Se depois de transforma¸cão você conseguiu obter a regressão linear, e quer estimar os parâmetros usando o procedimento de estima¸cão de regressaõ linear, você tem que lembrar que as propriedades estat´ısticas de coeficientes obtidos depende do modelo. Então se você quer seguir as condi¸cões de Gauss-Markov, então você tem que lembrar que DEPOIS DE TRANSFORMAÇ ÂO o erro (termo de pertirba¸cão) tem que ser aditivo (. . . + ϵno modelo transformado) e seguir as condi¸cões de Gauss-Markov. Por isso, por exemplo, se depois de transforma¸cão logaritmica a equa¸cão éy^′=α^′+βx^′+ϵ então o modelo inicial tem que ser

y=αx^βν

onde lnν = ϵ. Assim o termo de perturba¸c˜ao ν altera αx^β em propro¸c˜ao randomica, mas nao em uma quantidade randomica.

Referˆ encias

[1] P.A.Morettin e W. de O.Bussab (2002)Estat´ıstica Básica.5âedi¸cão, Editora Saraiva. (cap´ıtulo 16 - regressão linear simples.)

[2] C.Dougherty (1992) Introduction to Econometrics. New York, Oxford University Press. (cap´ıtulo 2 - simple regresion analysis. cap´ıtulo 3 - properties of the regression coefficients)

(6)

2 Exerc´ıcios Dom´ esticos.

1. ([2], p.67, Problema 2.1) A regressão de gastos em alimentos,y (em $ billion), ao rela¸cão com tempot,definida comot= 1 para 1959, t= 2 para 1960 ect., deu o seguinte resultado

ˆ

y= 95.3 + 2.53t.

Dê a interpreta¸cão do resultado. O coeficiente atem uma interpreta¸cão significada?

2. ([2], p.68, Problema 2.6.) Dois pesquisadores ajustam tendência temporal para uma variávelyusando o modelo y=α+βt+ϵ, ondeté tempo (de 1 ate 25). O primeiro pesquisador obtem equa¸cão

ˆ

y= 6.7 + 1.79t.

O segundo errou, e ﬁz a regress˜aot contray e obtive o seguinte resultado ˆt=−0.25 + 0.44y

e depois ﬁz a inferˆencia:

y= 0.25 + ˆt

0.44 ⇒ yˆ= 0.57 + 2.27t Explica a discrepˆancia entre equa¸c˜oes de primeiro e de segundo pesquisador.

3. ([2], p.67, Problema 2.10) Um pesquisador acredita que a parte não estocástica do modelo verdadeiro é pro- porcianal à x : y = βx+ϵ. Usando o método de m´ınimos quadrados achar a fórmula para b (estimador do β).

4. ([2], p.87, Problema 3.1) Regressãoy contraxé (in parêntesis desvio padrão)

y = 369 + 116.8 x

(190) (17.1) A regressão é construida em base de 20 observa¸cões.

(a) Hipótese que o coeficienteαé igual à 500 pode ser aceita com o n´ıvel de significância de 5%?

(b) A hipótese que o coeficiente de inclina¸cão é igual à 100 pode ser aceita com o n´ıvel de significância de 5%?

(c) Construir o 99% intervalo de confian¸ca para coeficiente de inclina¸cão.

(d) sabendo queV ar(x) = 33.25 achar covariˆancia amostral entrexey.

(e) sabendo queV ar(x) = 33.25 achar a variˆancia amostrals²_ϵ.

5. ([2], p.102, Problema 3.12) Regress˜oes de despesas em servi¸cos de moradia (”house”) contra (1)a renda l´ıquida (renda despon´ıvel) (dpi– disposable personal income) e (2) tempo (tveja o Problema 1) eram, com erro padr˜ao em parentesis:

house = -27.6 + 0.178 dpi house = 48.9 + 4.84 t

(3.4) (0.004) (1.5) (0.10)

(a) Fa¸catteste para coeﬁcientes aprpriados. Formule hipotese nula e alternativa.

(b) Supomos que alguem acha que mais de que 10 % de salário l´ıquido gasta-se em servi¸cos de moradia. Teste este hipótese. Formule hipótese nula e alternat´ıva.

6. Provar queCov(ˆy, e) = 0.

7. Os coeficientesα, β, γ de quais modelos podem ser estimadas usando o modelo de regressão linear simples ou múltipla atraves de método de m´ınimos quadrados?

(a) y= (α+β)x+ϵ;

(b) y=α+βx+βz+ϵ;

(c) y=α+βz(z−γ) +ϵ;

(d) y=αx^γ+ϵ;

(e) lny=α+^β_x +ϵ

(7)

8. ([2], p.127, Problema 4.2.) Para os dados gerados durante 25 anos (de 1959 ate 1983) foram ajustadas os dados de gastos agregados com moradia em rela¸cão a renda individual (1), e a tendência exponencial em tempot (2) ondet= 1 para ano 1959, 2 para 1960, ... (com erro padrão em parêntesis):

logy = -3.84 + 1.289 logx R²= 0.986 (1) (0.21) (0.03)

logy = 4.09 + 0.045 t R²= 0.988 (2) (0.27) (0.01)

Dar a interpreta¸cão de coeficientes obtidos. Efetuar F-testes estat´ısticos em dois casos. A hipótese que a taxa de aumento em per´ıodo de tempo é de 5% pode ser aceita com n´ıvel de significância de 1%? e de 5%?

9. ([2], p.128, Problema 4.4.) Para os dados de item anterios a regressão logaritmica de gastos agregados em alimentos (1) e em moradia (2) em rela¸cão a renda individual são, com erro padrão em parêntesis,

logy = 1.20 + 0.55 logx R²= 0.98 (1) (0.11) (0.02)

logy = -3.48 + 1.23 logx R²= 0.99 (2) (0.16) (0.02)

Efetuar testes estat´ısticos adequados e calcular o intervalo de conﬁan¸ca de 95% para elasticidade em rela¸c˜ao ao renda em dois casos.