Regressão Linear Simples
y = b
0+ b
1x + u
Baseado em Woodridge
Exemplos
Gasto em viagem em função do número de dias;
Peso e altura
Altura do filho e do pai (Galton)
Número de anúncios e número de páginas
Idade e Altura de árvore
Exemplo
0 1000 2000 3000 4000 5000 6000 7000 8000
salario
Terminologia
Em regressão linear simples, y = b0 + b1x + u, chamamos
y de Variável Resposta, Dependente,
Regressando ou Endógena, Desfecho (salário)
x de Variável Explicativa, Independente,
Regressora ou Exógena, ou ainda, Covariável e Variável de Controle, Exposição (educ=
escolaridade)
Suposição
A média de u, o erro, na população é 0.
E(u) = 0
Interpretação: Em média, o erro é zero.
Exemplo
0 1000 2000 3000 4000 5000 6000 7000 8000
0 5 10 15 20 25
salario
Média Condicional Zero
Suposição sobre a relação entre u e x:
Conhecer x não nos dá informação sobre u.
E(u|x) = E(u) = 0, implicando
E(y|x) = b0 + b1x
. .
E(y|x) é função linear de x, onde para cada x a distribuição de y é centrada em E(y|x)
E(y|x) = b0 + b1x
y
f(y)
Mínimos Quadrados Ordinários
Idéia: Estimar os parâmetros
desconhecidos, b0 e b1 , a partir dos dados de uma amostra (Gauss 1794)
Seja {(xi,yi): i=1, …,n} uma amostra aleatória de tamanho n retirada da população
Para cada observação:
y = b + b x + u
.
. .
.
y4
y1 y2
y3 }
}
{
{
u1
u2
u3
u4 y
Reta de regressão, valores observados e erros
E(y|x) = b0 + b1x
Mínimos Quadrados Ordinários
A idéia intuitiva é a de ajustar uma reta que passe entre os pontos, o que cai em um problema de
minimização
Queremos os valores para os parâmetros que minimizem:
ni
i i
n
i
i
y x
u
1
2 1
0 1
2
ˆ ˆ
ˆ b b
MQO
Derivando com relação a b0 e b1, e igualando a zero obtemos:
ˆ ˆ 0
ˆ 0 ˆ
1
1 0
1
1 0
n
i
i i
i n
i
i i
x y
x
x y
b b
b
b
MQO
Usando a primeira equação, temos que:
x y
x
y
0 1ˆ ˆ
ou
ˆ , ˆ
b b
b b
MQO – 2a equação
n
i
i i
n
i
i
n
i
i i n
i
i i n
i
i i
i
x x
y y
x x
x x
x y
y x
x x
y y
x
1
2 1
1
1 1 1
1
1 1
ˆ ˆ
ˆ 0 ˆ
b b
b b
Inclinação MQO
0
se ˆ
1
2 1
2 1
1
n
i
i n
i
i n
i
i i
x x
x x
y y
x x
b
Propriedades do MQO
A soma e a média dos resíduos é zero
A covariância entre os regressores, x, e os resíduos é zero
A reta de regressão MQO sempre passa pela média da
amostra
x y
u x
n u u
n
i
i i
n
i n i
i
i
1 0
1
1 1
ˆ ˆ
ˆ 0
0 ˆ
, ˆ 0
b b
Inclinação
A estimativa da inclinação é a covariância amostral entre x e y dividido pela variância amostral de x.
Se x e y estão positivamente correlacionados, a inclinação será positiva
Se x e y estão negativamente correlacionados, a inclinação
0se ˆ
1
2 1
2 1
1
n
i
i n
i
i n
i
i i
x x
x x
y y
x x
b
Vamos interpretar!
y = 410.16x - 972.18 R2 = 0.9588
0 1000 2000 3000 4000 5000 6000 7000 8000
0 5 10 15 20 25
educ
salario
O acréscimo de um ano de escolaridade está associado a um aumento médio de 410,16 no salário;
Método dos Momentos
2 restrições de momentos:
E(y – b0 – b1x) = 0
E[x(y – b0 – b1x)] = 0
Obteria os estimadores iguais aos de MQO
.
. .
.
y4
y1 y2
y3 }
}
{
{
û1
û2
û3
û4 y
Valores observados e ajustados e resíduos
x yˆ bˆ0 bˆ1
Observação
Se a reta é inclinada, grande parte da variabilidade de y é explicada por x. Se a inclinação for nula, y é bem explicado por
y
Variabilidades
y yˆ
4 4
4 ˆ
ˆ y y
u
4
ˆ
4y y
.
. .
.
y4
y1 y2
y3 }
}
{
û1
û2
û3 x
yˆ bˆ0 bˆ1
Variabilidades
ˆ SSE Variabilid ade Explicada
Resíduo do
ade Variabilid
ˆ SSR
Total ade
Variabilid SST
2 2 2
y y
y y
y y
i
i i
i
SST = SSE + SSR
ˆ 0 ˆ
SSE, SSR
ˆ SSE 2 ˆ
SSR
ˆ ˆ
2 ˆ ˆ
ˆ ˆ
ˆ ˆ
2 2
2 2 2
y y
u
y y
u
y y
y y
u u
y y
u
y y
y y
y y
i i
i i
i i
i i
i i
i i
i i
Qualidade do ajuste
Como medir a qualidade do ajuste do modelo aos dados amostrais?
Podemos calcular a fração da soma de
quadrados total (SST) que é explicada pelo modelo, e chamamos isso de R-quadrado da regressão
Regressão usando Excel e R
No Excel, deve-se usar o Ferramentas >
Análise de Dados.
No R o comando lm
Suposições do modelo
1. Assumindo que o modelo populacional é
linear nos parâmetros, y = b0 + b1x + u e que usamos amostra de tamanho n, {(xi, yi): i=1, 2, …, n} temos yi = b0 + b1xi + ui
2. E(u|x) = 0 e portanto E(ui|xi) = 0
3. Há variação em xi
Estimadores não viesados
Escrevendo os parâmetros em função da variável aleatória yi = b0 + b1xi + ui
2 2 2
1 , com
ˆ s x x
s
y x x
i x
x
i
b i
Estimador Não Viesado
i
i
ii i
i i
i
i i
i i
i
x x x
x x
u x x
x x
x x
x
u x
x x
y x
x
1 0
1 0
1 0
b b
b b
b
b
Estimador Não Viesado
1 2 1
2 1
2
ˆ
thus and
,
como escrito
ser pode
numerador o
, então
, 0
x
i i
i i
x
i i
i i
s
u x x
u x x
s
x x
x x x
x x
b b
b
Estimador Não Viesado
1 2
ˆ 1
e 1 ,
ˆ
então ,
Seja
b b
b
b b
i ix i
i i
u E
d E
u s d
x x
d
Estimador Não Viesado
Os estimadores MQO de b1 e b0 são não viesados
A prova depende das 3 suposições – se
alguma falha, então os estimadores não são necessariamente não viesados
Lembre que não viesado é descrição do
estimador – em uma dada amostra podemos (a estimativa) estar longe ou perto do valor verdadeiro do parâmetro
Variância dos Estimadores MQO
Agora sabemos que a distribuição do nosso estimador está centrada em torno do
verdadeiro parâmetro
Queremos saber quão dispersa essa distribuição é
Mais fácil pensar sobre essa variância, supondo também que
s
Variância
Var(u|x) = E(u2|x)-[E(u|x)]2
E(u|x) = 0, então s2 = E(u2|x) = E(u2) = Var(u)
Então s2 é também a variância
incondicional, chamada de variância do erro
s, a raiz quadrada da variância do erro é chamada de desvio padrão do erro
Logo: E(y|x)=b0 + b1x e Var(y|x) = s2
. .
Caso Homocedástico
E(y|x) = b0 + b1x
y
f(y|x)
.
f(y|x)
Caso Heterocedástico
. .
E(y|x) = b0 + b1x
Variância (cont)
2 2
2 2
2 2 2
2
2 2
2 2
2
1 2 1
1 1
1 1
ˆ 1
s s
b b
s d s d
u Var s d
u d s Var
u s d
Var Var
i x
i x
i i
x i
i x
i i x
Resumo Variância
Quanto maior a variância do erro, s2, maior a variância do estimador da inclinação
Quanto maior a variabilidade do xi, menor a variância do estimador da inclinação
Como um resultado, uma amostra maior
deveria diminuir a variância do estimador da inclinação
Problema que a variância do erro é desconhecida
Estimador da variância do erro
Não conhecemos quanto é a variância do erro, s2, porque não observamos os erros, ui
O que observamos são os resíduos, ûi
Podemos usar os resíduos para construir estimador da variância do erro
Estimador da variância do erro (cont)
u SSR n QMErro
n u
x u
x
x y
u
i i
i i
i
i i
i
ˆ / 2
2 ˆ 1
é de
viesado não
estimador Um
ˆ ˆ
ˆ ˆ
ˆ ˆ ˆ
2 2
2 1
1 0
0
1 0
1 0
1 0
s
s b
b b
b
b b
b b
b b
Estimador da variância do erro (cont)
1
2
ˆ , de padrão
erro o
temos ˆ por
mos substituir
se
DP ˆ que
Lembrando
regressão da
erro do
padrão ˆ Erro
ˆ
s
xb
s s
b s s
s
Teorema Gauss Markov
1. Modelo populacional é linear nos parâmetros, y = b0 + b1x + u
Temos amostra de tamanho n, {(xi, yi): i=1, 2, …, n}, do modelo populacional. Portanto, escrevemos o modelo para a amostra yi = b0 + b1xi + ui
2. E(u|x) = 0 and portanto E(ui|xi) = 0
3. Há variação em xi
4. Var(u|x) = s2 (Homocedasticidade)
Teorema Gauss Markov
Dadas as 4 Suposições Gauss-Markov, os estimadores MQO são “BLUE”
Best
Linear
Unbiased
Estimator
Predição
A predição para a variável resposta é
u SSR n QMErro
n
x y
i i
i
ˆ / 2
2 ˆ 1
é de
viesado não
estimador Um
ˆ ˆ ˆ
2 2
2 1
0
s
s b
b
Estimador da média pop de y
( 1 )
ˆ 1
é variância Sua
ˆ ˆ ˆ
é para
regressão estimador
O
2 2 2
x 1 0
y
x f x n
y
x i
s
b b
Referências
Wooldridge. Introduction to econometrics.
Lohrs. Design Sampling.