• Nenhum resultado encontrado

1.2 Interpreta¸ c˜ ao de regress˜ ao linear simples

N/A
N/A
Protected

Academic year: 2022

Share "1.2 Interpreta¸ c˜ ao de regress˜ ao linear simples"

Copied!
7
0
0

Texto

(1)

1 Aula 7. Regress˜ ao Simples.

Consideramos modelo de regress˜ao simples

y=α+βx+ϵ (1)

ondey,descreve uma vari`avel dependente, tem dois componentes:

1. componente n˜ao aleat´orio α+βx e x descreva-se como vari´avel explicat´ıva (ou independente), α e β s˜ao parˆametros de modelo

2. o termo perturba¸c˜aoϵ.Porque existe o termo de perturba¸c˜ao no modelo. Exsite v´arios motivos uns deles s˜ao (a) Omiss˜ao de vari`avel explictiva. Rela¸c˜ao entre y e xcom certeza ´e simplificada, na realidade existe v´arios

outros fatores que afetam a vari´avely e n˜ao s˜ao presentes in equa¸c˜ao (11) e a influencia delas pode ser a causa de que os pontos observados n˜ao est˜ao na linha retaα+βx.

(b) Agrega¸c˜ao de vari´aveis. In alguns casos a rela¸c˜ao entre y e x ´e se representa como uma agrega¸c˜ao ou sumat´oria de varios rela¸c˜oes microeconomicas. Por exemplo, fun¸c˜ao de consumo agregada ´e uma tentat´ıva resumir o congunto de gastos individuais. J´a que ´e veross´ımil que os parˆametros de consumo individual s˜ao diferentes, ent˜ao qualquer tentat´ıva de relatar o consumo agregado `a salario agregado (por exemplo) pode ser somente aproximada.

(c) Especifica¸c˜ao incorreta do modelo. A estruturo do modelo pode ser incorreta. Entre enumeros poss´ıveis exemplos consideramos o seguinte. Se a rela¸c˜ao refere-se ao serie temporal, o valor de y pode depender n˜ao somente do valor atual do xmas do valor do xantecedente. Se valores antecedente e atual do xs˜ao correlacionados fortemente, ent˜ao vai aparecer a rela¸c˜ao entreye o valor atual dox,mas aproximadamente, e de novo o termo de perturba¸c˜ao vai aceitar essa discrepˆancia.

(d) Espicifica¸c˜ao encorreta de depenˆencia funcional. Por exemplo, a verdadeira rela¸c˜ao entrey exn˜ao linear.

Nos vamos considerar as dependˆencias n˜ao lineares, e ´obvio, que existe os testes sofisticados para detectar a rela¸c˜ao adequada, mas mesmo esses m´etodos s˜ao aproximados, e discrepancia vai contribuir em termo de perturba¸c˜aoϵ.

(e) Erros de medi¸c˜ao. Se exsite os erros em medi¸c˜ao em qualquer uma das vari´aveis, ent˜ao obviamente, os valores observados n˜ao v˜ao estar de acordo com a rela¸c˜ao exata, e discrepancia, de novo, vai constribuir em termoϵ.

1.1 Estima¸ ao de parametros α e β. M´ etodo de m´ınimos quadrados.

Observa¸c˜oes: (

y1 x1

) ,

(y2 x2

) , . . . ,

(yn xn

)

Adotaremos o crit´erio que consiste em encontrar valoresαeβ que minimizam a soma dos erros, dados por

ei=yi(α+βxi) (2)

Obtemos, ent˜ao, a quantidade de informa¸c˜ao perdida pelo modelo ou soma dos quadrados dos erros (ou desvios) SS(α, β) =

n i=1

e2i =

n i=1

(yi−α−βxi)2 (3)

Derivando em rela¸c˜ao aαeβ obtemos o sistema e solu¸c˜ao









0 = ∂SS(α, β)

∂α =2

n i=1

(yi−α−βxi) 0 = ∂SS(α, β)

∂β =2

n i=1

xi(yi−α−βxi)









n i=1

(yi−α−βxi) = 0

n i=1

xi(yi−α−βxi) = 0









n i=1

yi =+β

n i=1

xi

n i=1

xiyi=α

n i=1

xi+β

n i=1

x2i

Logo obtemos 

α= ¯y−β¯x β=

n

i=1xiyi−n¯x¯y

n

i=1x2i −n¯x2

(4)

(2)

Para diferenciar entre parˆametros e estima¸c˜ao de parˆametros adotamos anota¸c˜aoa, b. Notamos que podemos usar a forma alternativa deb.Seja

Cov(x, y) =

n i=1xiyi

n −x¯¯y (5)

V ar(x) =

n i=1x2i

n −x¯2=x2−x¯2=n−1

n s2 (6)

Usando (5, 6) obtemos a f´ormula alternativa parab: b=

n

i=1xiyi−n¯x¯y

n

i=1x2i −n¯x2 =Cov(x, y)

V ar(x) (7)

1.2 Interpreta¸ ao de regress˜ ao linear simples

Dado

ˆ

y=a+bx quandoy exs˜ao vari´aveis com unidades naturais.

1. falaremos que aumento dexem uma unidade (x+ 1) causa altera¸c˜ao emy emb unidade (medidas em unidades dey): a+b(x+ 1) =a+bx+b= ˆy+b

2. substituir ”unidade”pela medida atual ( R$, $, kg, cm, ect.)

3. verificar se o resultado, que parece desajeitado, pode ser expresso de modo mais simples

Constante ada o valor predito dey (em medidas dey) sex´e igual `a 0. Dependendo do contexto essa interpreta¸c˜ao pode ser aceitavel ou n˜ao.

1.3 Propriedades de coefficientes de regress˜ ao e teste de hip´ otese.

E obvio, que as propriedades estat´ısticas de coeficientes de regress˜` ao dependem das propriedades de termo de per- turba¸c˜aoϵ.Lembramos que o modelo considerado ´e

yi=α+βxi+ϵi, i= 1,2, . . . , n.

As condi¸c˜oes estat´ısticas de termoϵi (conhecidos como condi¸c˜oes de Gauss-Markov) s˜ao 1. E[ϵi] = 0 para todosi.

Esse termo n˜ao deve ter a tendˆencia sistematica.

2. D[ϵi] =σϵ2 para todosi.

Notamos, que se a condi¸c˜ao 1 ´e valida, ent˜ao essa condi¸c˜ao pode ser escrita comoE[ϵ2i] =σϵ2para todosi. σ2ϵ ´e desconhecida. Propriedade chama-sehomocedasticidade.

3. ϵi s˜ao independentes.

Como sequˆencia temoscov(ϵi, ϵj) = 0 para quaisquer i ̸= j, ou, usando item 1, temos que E[ϵi] =E[ϵj] = 0 porissoE[ϵiϵj] = 0.

4. ϵi n˜ao depende doxj para todos i, j

Nas proximas aulas consideramos o caso quandoxi´e constante, por isso essa condi¸c˜ao ´e valida automaticamente.

5. ϵi tem distribui¸c˜ao normal.

1.3.1 Propriedades de coeficientes 1. N˜ao viesados. E[b] =β eE[a] =α

E[b] =E[Cov(y, x)

V ar(x) ] =β+E[Cov(ϵ, x)

V ar(x) ] =β+ 1

V ar(x)E[Cov(ϵ, x)] =β – usamos o fato quex´e constante por isso 1/V ar(x) ´e uma constante e Cov(ϵ, x) = 0.

E[a] =E[¯y−βx] = (α¯ +βx)¯ −βx¯=α

(3)

2. F´ormulas para desvio padr˜ao.

D[a] = σ2ϵ n (

1 + x¯2 V ar(x)

)

e D[b] = σ2ϵ

nV ar(x) (8)

Para estimarσ2ϵ nos naturalmente podemos usarV ar(e).Mas antes perguntamos, qual reta ´e mais pr´oxima para os pontos observados: a verdadeira retay =α+βxou linha de regress˜ao ˆy=a+bx? A resposta ´e a linha de regress˜ao. Porisso, aV ar(e) superestima o verdadeiro valor σϵ2.Pode ser mostrado que o estimador n˜ao viesado

´e

s2e= n

n−2V ar(e) assim construimos paraaeb o erro padr˜ao:

s.e.[a] =

s2e

n (

1 + x¯2 V ar(x)

)

e s.e.[b] =

s2e

nV ar(x) (9)

3. Eststistica do teste. Se as condi¸c˜oes s˜ao validas ent˜ao b−β

s.e.[b] ∼tn2 e a−α

s.e.[a] ∼tn2 (10)

n−2 porque perdemos 2 graus de liberade estimando 2 paramatrosαeβ.

1.4 Qualidade de ajuste: R

2

Objetivo de regress˜ao ´e explicar o comportamento de variavel dependente atraves de variavel independente. Depois de ajuste pela reta de regress˜ao nos podemos separar o valor observadoyi em duas partes ˆyieei:yi= ˆyi+ei.Porisso a varia¸c˜ao dey pode ser explicada pela varia¸c˜ao de ˆyee:

V ar(y) =V ar(ˆy+e) =V ar(ˆy) +V ar(e) + 2Cov(ˆy, e) Ex. Provar que Cov(ˆy, e) = 0

Obtemos

V ar(y) =V ar(ˆy) +V ar(e) (11)

V ar(ˆy) – parte de varia¸c˜ao ”aparentemente explicada”pela regress˜ao;

V ar(e) – parte n˜ao explicada (erro).

Raz˜ao de variˆancia explicada e variˆancia total ´e conhecida comocoeficiente de determina¸c˜ao R2=V ar(ˆy)

V ar(y) ou equivalenteR2= 1−V ar(e)

V ar(y) (12)

Notamos que o valor m´aximo ´e 1. Isso acontece somente quando ˆyi=yi para todos observa¸c˜oes.

intuitivamnete ´obvio, que se melhor ajuste, maior tem que ser o coefficiente de correla¸c˜ao entre valor atual e predito deye vice versa. Mostraremos que realmenteR2´e igual `a quadrado de coeficiente de correla¸c˜ao entreye ˆyque vamos denotar comory,ˆy:

ry,ˆy = Cov(y,y)ˆ

V ar(y)V ar(ˆy) = Cov(ˆy+e,y)ˆ

V ar(y)V ar(ˆy)

= Cov(ˆy,y) +ˆ Cov(e,y)ˆ

V ar(y)V ar(ˆy) = V ar(ˆy)

V ar(y)V ar(ˆy)=

V ar(ˆy)

V ar(y)= R2

1.5 ANOVA

A equa¸c˜ao (11) pode ser re-escita em modo mais conhecido:

n i=1

(yi−y)¯ 2 =

n i=1

yi−y)¯ 2+

n i=1

e2i (13)

SST otal = SSReg+SSErro (14)

Assim podemos construir a conhecida tabela de an´alise de variˆancia (ANOVA). Graus de liberdade da regress˜ao ´e o n´umero de parˆametros menos 1, quando o graus de liberdade de residuo (erro) ´e n´umero de observa¸c˜oes subtraindo o n´umero de parˆametros estimados. Sejamkn´umero de parˆametros da regress˜ao.

(4)

fonte de varia¸c˜ao

soma de quadrados

graus de liberdade

m´edia de

quadrados Fobs p

Regress˜ao SSReg k−1 M SReg= SSReg

k−1

M SReg

M SErro p-value Res´ıduo SSErro n−k M SErro= SSErro

n−k

total SST otal n−1

Parˆameros para estimar s˜ao dois: αeβ. Ent˜ao para regress˜ao linear simples temosk = 2. Porisso a tabela ANOVA pode ser descrita do modo seguinte.

fonte de varia¸c˜ao

soma de quadrados

graus de liberdade

m´edia de

quadrados Fobs p

Regress˜ao SSReg 1 SSReg SSReg

s2e p-value

Res´ıduo SSErro n−2 SSErro

n−2 =s2e

total SST otal n−1

Lembramos aqui sobre o estimador de variˆancia:

s2e= n

n−2V ar(e) = n n−2 · 1

n

n i=1

e2i =

n i=1e2i

n−2 = SSErro

n−2 .

Notamos, que a f´ormula alternativa para coeficiente de determina¸c˜aoR2usando (14) ´e representada em modo seguinte.

R2= V ar(ˆy)

V ar(y)= SSReg/n

SST otal/n = SSReg SST otal

(15)

1.5.1 Calculo alternativo de estat´ıstica F

Seja k, como antes, o n´umero de parˆametros para estimar, ent˜ao k−1 ´e o numero de vari´aveis independentes em regress˜ao. AF estat´ıstica pela defini¸c˜ao ´e

F = M SReg M SErro

= SSReg/(k−1)

SSErro/(n−k) = (SSReg/SST otal)/(k1)

(SSErro/SST otal)/(n−k)= R2/(k−1)

(1−R2)/(n−k) ∼Fk1,nk (16) ou em caso de regress˜ao linear simplesk= 2 obtemos

F= R2

(1−R2)/(n2) ∼F1,n2 (17)

1.6 Transforma¸ oes de variaveis

V´arios processos economicos melhor modelar atraves de rela¸c˜oes n˜ao-lineares, por exemplo, fun¸c˜ao de demanda e fun¸c˜ao de produ¸c˜oes. Aqui nos veremos quais rela¸c˜oes n˜ao lineares podem ser modelados usando a regress˜ao e quais n˜ao.

Supomos que a rela¸c˜ao ´e o seguinte:

y=α+βf(x) (18)

ondef(x) uma fun¸c˜ao n˜ao linear, por isso a rela¸c˜ao entreyexn˜ao ´e linear. Mas pode ser transformada simplezmente em regress˜ao linear usando transforma¸c˜ao de vari`aveis: sejaz=f(x),ent˜ao

y=α+βf(x) y=α+βz e a ultima equa¸c˜ao pode ser tratada como simples regress˜ao linear.

1.6.1 transforma¸c˜ao logaritmica

Mais um exemplo de rela¸c˜ao nao-linear que pode ser tratada como a regress¸c˜ao linear ´e rela¸c˜ao

y=αxβ (19)

Usando a transforma¸c˜ao logaritmica temos

y=αxβ lny= lnα+βlnx y=α+βx (20)

(5)

Fun¸c˜oes do tipo (19) freq¨uentemente ocorrem em economia. Quando vocˆes tˆem essa rela¸c˜ao entrey e x,imedi- atamente vocˆes podem dizer qual ´e a elasticidade dey ao respeito dox. Por exemplo a fun¸c˜ao de Engel em geral ´e do tipo (19), onde y´e demanda da mercadoria, ex´e renda, e nesse caso,β ´e elasticidade de demanda ao respeito de renda. Provamos a propriedade de elasticidade.

Elasticidade dey ao respeito da vari´avel x´e, pela defini¸c˜ao, incremento proporcional de y pelo dado incremento proporcional dox:

elasticidade = dy/y

dx/x (21)

Usando essa defini¸c˜ao, para rela¸c˜ao (19) imediatamente obtemos elasticidade = dy/y

dx/x = dy/dx

y/x = αβxβ1

y/x = β(y/x) y/x =β

Somente a rela¸c˜ao (19) tem a elasticidade constante. Isso, por exemplo, significa, que se vocˆe acha que a elasticidade

´

e constante, ent˜ao a rela¸c˜ao entreyexpode ser modelada atrav´es de rela¸c˜ao (19). Se a elasticidade n˜ao ´e constante, ent˜ao nos n˜ao podemos usar a fun¸c˜ao (19) para modelar a rela¸c˜ao entrey ex.

1.6.2 fun¸c˜ao exponencial Fun¸c˜ao

y=αeβx (22)

comumente usada quando y tem a taxa de aumento proporcional constante em tempo. Nesse caso em vez de usar anota¸c˜aoxusa-set,e em vez deβ usa-se r:

y=αert (23)

Incremento absolutoemy pela unidade de tempo ´e dada por dy

dt =rαert=ry (24)

Por isso o incrementoproporcionalemy por unidade de tempo ´e dado por dy/dt

y = ry

y =r (25)

Mais comum usar a taxa em porcentagem, por exemplo, se o estima¸c˜ao dor deu 0.053, ent˜ao diremos que taxa de aumento ´e de 5.3% por per´ıodo. Estimar a taxa de aumento podemos atraves de regress˜ao linear:

y=αert lny = lnα+rt y=α+rt

1.7 Termo de perturba¸ ao

Se depois de transforma¸c˜ao vocˆe conseguiu obter a regress˜ao linear, e quer estimar os parˆametros usando o procedimento de estima¸c˜ao de regressa˜o linear, vocˆe tem que lembrar que as propriedades estat´ısticas de coeficientes obtidos depende do modelo. Ent˜ao se vocˆe quer seguir as condi¸c˜oes de Gauss-Markov, ent˜ao vocˆe tem que lembrar que DEPOIS DE TRANSFORMAC¸ ˆAO o erro (termo de pertirba¸c˜ao) tem que ser aditivo (. . . + ϵno modelo transformado) e seguir as condi¸c˜oes de Gauss-Markov. Por isso, por exemplo, se depois de transforma¸c˜ao logaritmica a equa¸c˜ao ´ey=α+βx+ϵ ent˜ao o modelo inicial tem que ser

y=αxβν

onde lnν = ϵ. Assim o termo de perturba¸c˜ao ν altera αxβ em propro¸c˜ao randomica, mas nao em uma quantidade randomica.

Referˆ encias

[1] P.A.Morettin e W. de O.Bussab (2002)Estat´ıstica B´asica.5aedi¸c˜ao, Editora Saraiva. (cap´ıtulo 16 - regress˜ao linear simples.)

[2] C.Dougherty (1992) Introduction to Econometrics. New York, Oxford University Press. (cap´ıtulo 2 - simple regresion analysis. cap´ıtulo 3 - properties of the regression coefficients)

(6)

2 Exerc´ıcios Dom´ esticos.

1. ([2], p.67, Problema 2.1) A regress˜ao de gastos em alimentos,y (em $ billion), ao rela¸c˜ao com tempot,definida comot= 1 para 1959, t= 2 para 1960 ect., deu o seguinte resultado

ˆ

y= 95.3 + 2.53t.

Dˆe a interpreta¸c˜ao do resultado. O coeficiente atem uma interpreta¸c˜ao significada?

2. ([2], p.68, Problema 2.6.) Dois pesquisadores ajustam tendˆencia temporal para uma vari´avelyusando o modelo y=α+βt+ϵ, ondet´e tempo (de 1 ate 25). O primeiro pesquisador obtem equa¸c˜ao

ˆ

y= 6.7 + 1.79t.

O segundo errou, e fiz a regress˜aot contray e obtive o seguinte resultado ˆt=0.25 + 0.44y

e depois fiz a inferˆencia:

y= 0.25 + ˆt

0.44 yˆ= 0.57 + 2.27t Explica a discrepˆancia entre equa¸c˜oes de primeiro e de segundo pesquisador.

3. ([2], p.67, Problema 2.10) Um pesquisador acredita que a parte n˜ao estoc´astica do modelo verdadeiro ´e pro- porcianal `a x : y = βx+ϵ. Usando o m´etodo de m´ınimos quadrados achar a f´ormula para b (estimador do β).

4. ([2], p.87, Problema 3.1) Regress˜aoy contrax´e (in parˆentesis desvio padr˜ao)

y = 369 + 116.8 x

(190) (17.1) A regress˜ao ´e construida em base de 20 observa¸c˜oes.

(a) Hip´otese que o coeficienteα´e igual `a 500 pode ser aceita com o n´ıvel de significˆancia de 5%?

(b) A hip´otese que o coeficiente de inclina¸c˜ao ´e igual `a 100 pode ser aceita com o n´ıvel de significˆancia de 5%?

(c) Construir o 99% intervalo de confian¸ca para coeficiente de inclina¸c˜ao.

(d) sabendo queV ar(x) = 33.25 achar covariˆancia amostral entrexey.

(e) sabendo queV ar(x) = 33.25 achar a variˆancia amostrals2ϵ.

5. ([2], p.102, Problema 3.12) Regress˜oes de despesas em servi¸cos de moradia (”house”) contra (1)a renda l´ıquida (renda despon´ıvel) (dpi– disposable personal income) e (2) tempo (tveja o Problema 1) eram, com erro padr˜ao em parentesis:

house = -27.6 + 0.178 dpi house = 48.9 + 4.84 t

(3.4) (0.004) (1.5) (0.10)

(a) Fa¸catteste para coeficientes aprpriados. Formule hipotese nula e alternativa.

(b) Supomos que alguem acha que mais de que 10 % de sal´ario l´ıquido gasta-se em servi¸cos de moradia. Teste este hip´otese. Formule hip´otese nula e alternat´ıva.

6. Provar queCov(ˆy, e) = 0.

7. Os coeficientesα, β, γ de quais modelos podem ser estimadas usando o modelo de regress˜ao linear simples ou m´ultipla atraves de m´etodo de m´ınimos quadrados?

(a) y= (α+β)x+ϵ;

(b) y=α+βx+βz+ϵ;

(c) y=α+βz(z−γ) +ϵ;

(d) y=αxγ+ϵ;

(e) lny=α+βx +ϵ

(7)

8. ([2], p.127, Problema 4.2.) Para os dados gerados durante 25 anos (de 1959 ate 1983) foram ajustadas os dados de gastos agregados com moradia em rela¸c˜ao a renda individual (1), e a tendˆencia exponencial em tempot (2) ondet= 1 para ano 1959, 2 para 1960, ... (com erro padr˜ao em parˆentesis):

logy = -3.84 + 1.289 logx R2= 0.986 (1) (0.21) (0.03)

logy = 4.09 + 0.045 t R2= 0.988 (2) (0.27) (0.01)

Dar a interpreta¸c˜ao de coeficientes obtidos. Efetuar F-testes estat´ısticos em dois casos. A hip´otese que a taxa de aumento em per´ıodo de tempo ´e de 5% pode ser aceita com n´ıvel de significˆancia de 1%? e de 5%?

9. ([2], p.128, Problema 4.4.) Para os dados de item anterios a regress˜ao logaritmica de gastos agregados em alimentos (1) e em moradia (2) em rela¸c˜ao a renda individual s˜ao, com erro padr˜ao em parˆentesis,

logy = 1.20 + 0.55 logx R2= 0.98 (1) (0.11) (0.02)

logy = -3.48 + 1.23 logx R2= 0.99 (2) (0.16) (0.02)

Efetuar testes estat´ısticos adequados e calcular o intervalo de confian¸ca de 95% para elasticidade em rela¸c˜ao ao renda em dois casos.

Referências

Documentos relacionados

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

Combinados, o rádio portátil APX 8000XE habilitado para todas bandas e o microfone falante remoto XE500 criam uma solução de missão crítica incomparável, projetada para o pessoal

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

Projetil encamisado por uma camisa pré-sulcada de latão endurecido, contendo chumbo não endurecido no seu interior, dotado de uma ponta oca. HYDRA SHOCK centro, que

15, estão representados os teores médios de safrol contido em óleo essencial obtido, no decorrer do progresso de extração, da biomassa aérea de pimenta longa procedente de cultivos

As técnicas são baseadas em descontinuidade: detecção de pontos isolados, detecção de linhas e detecção de bordas, e similaridade: limiares (Thresholding), crescimento de

Foram incluídos no estudo os portadores de cirrose hepática e carcinoma hepatocelular diagnosticado pelos critérios da EASL ( European Association for the Study of the Liver ). Após

Partindo da premissa que a monitoria no ensino superior se constitui como incentivadora para a formação de professores, o presente estudo versa sobre o processo