• Nenhum resultado encontrado

Regressão Linear Simples

N/A
N/A
Protected

Academic year: 2022

Share "Regressão Linear Simples"

Copied!
46
0
0

Texto

(1)

Regressão Linear Simples

y = b

0

+ b

1

x + u

Baseado em Woodridge

(2)

Exemplos

Gasto em viagem em função do número de dias;

Peso e altura

Altura do filho e do pai (Galton)

Número de anúncios e número de páginas

Idade e Altura de árvore

(3)

Exemplo

0 1000 2000 3000 4000 5000 6000 7000 8000

salario

(4)

Terminologia

Em regressão linear simples, y = b0 + b1x + u, chamamos

y de Variável Resposta, Dependente,

Regressando ou Endógena, Desfecho (salário)

x de Variável Explicativa, Independente,

Regressora ou Exógena, ou ainda, Covariável e Variável de Controle, Exposição (educ=

escolaridade)

(5)

Suposição

A média de u, o erro, na população é 0.

E(u) = 0

Interpretação: Em média, o erro é zero.

(6)

Exemplo

0 1000 2000 3000 4000 5000 6000 7000 8000

0 5 10 15 20 25

salario

(7)

Média Condicional Zero

Suposição sobre a relação entre u e x:

Conhecer x não nos dá informação sobre u.

E(u|x) = E(u) = 0, implicando

E(y|x) = b0 + b1x

(8)

. .

E(y|x) é função linear de x, onde para cada x a distribuição de y é centrada em E(y|x)

E(y|x) = b0 + b1x

y

f(y)

(9)

Mínimos Quadrados Ordinários

Idéia: Estimar os parâmetros

desconhecidos, b0 e b1 , a partir dos dados de uma amostra (Gauss 1794)

Seja {(xi,yi): i=1, …,n} uma amostra aleatória de tamanho n retirada da população

Para cada observação:

y = b + b x + u

(10)

.

. .

.

y4

y1 y2

y3 }

}

{

{

u1

u2

u3

u4 y

Reta de regressão, valores observados e erros

E(y|x) = b0 + b1x

(11)

Mínimos Quadrados Ordinários

A idéia intuitiva é a de ajustar uma reta que passe entre os pontos, o que cai em um problema de

minimização

Queremos os valores para os parâmetros que minimizem:

   

n

i

i i

n

i

i

y x

u

1

2 1

0 1

2

ˆ ˆ

ˆ b b

(12)

MQO

Derivando com relação a b0 e b1, e igualando a zero obtemos:

 

ˆ ˆ0

ˆ 0 ˆ

1

1 0

1

1 0

n

i

i i

i n

i

i i

x y

x

x y

b b

b

b

(13)

MQO

Usando a primeira equação, temos que:

x y

x

y

0 1

ˆ ˆ

ou

ˆ , ˆ

b b

b b

(14)

MQO – 2a equação

 

 

   

     

n

i

i i

n

i

i

n

i

i i n

i

i i n

i

i i

i

x x

y y

x x

x x

x y

y x

x x

y y

x

1

2 1

1

1 1 1

1

1 1

ˆ ˆ

ˆ 0 ˆ

b b

b b

(15)

Inclinação MQO

  

 

  0

se ˆ

1

2 1

2 1

1

n

i

i n

i

i n

i

i i

x x

x x

y y

x x

b

(16)

Propriedades do MQO

A soma e a média dos resíduos é zero

A covariância entre os regressores, x, e os resíduos é zero

A reta de regressão MQO sempre passa pela média da

amostra

x y

u x

n u u

n

i

i i

n

i n i

i

i

1 0

1

1 1

ˆ ˆ

ˆ 0

0 ˆ

, ˆ 0

b b

 

(17)

Inclinação

A estimativa da inclinação é a covariância amostral entre x e y dividido pela variância amostral de x.

Se x e y estão positivamente correlacionados, a inclinação será positiva

Se x e y estão negativamente correlacionados, a inclinação

  

 

 

0

se ˆ

1

2 1

2 1

1

n

i

i n

i

i n

i

i i

x x

x x

y y

x x

b

(18)

Vamos interpretar!

y = 410.16x - 972.18 R2 = 0.9588

0 1000 2000 3000 4000 5000 6000 7000 8000

0 5 10 15 20 25

educ

salario

O acréscimo de um ano de escolaridade está associado a um aumento médio de 410,16 no salário;

(19)

Método dos Momentos

2 restrições de momentos:

E(y – b0b1x) = 0

E[x(y – b0b1x)] = 0

Obteria os estimadores iguais aos de MQO

(20)

.

. .

.

y4

y1 y2

y3 }

}

{

{

û1

û2

û3

û4 y

Valores observados e ajustados e resíduos

x yˆ bˆ0 bˆ1

(21)

Observação

Se a reta é inclinada, grande parte da variabilidade de y é explicada por x. Se a inclinação for nula, y é bem explicado por

y

(22)

Variabilidades

y yˆ

4 4

4 ˆ

ˆ y y

u

4

ˆ

4

y y

.

. .

.

y4

y1 y2

y3 }

}

{

û1

û2

û3 x

yˆ bˆ0 bˆ1

(23)

Variabilidades

 

 

ˆSSE Variabilid ade Explicada

Resíduo do

ade Variabilid

ˆ SSR

Total ade

Variabilid SST

2 2 2

y y

y y

y y

i

i i

i

(24)

SST = SSE + SSR

     

 

 

   

 

 

  

ˆ 0 ˆ

SSE, SSR

ˆ SSE 2 ˆ

SSR

ˆ ˆ

2 ˆ ˆ

ˆ ˆ

ˆ ˆ

2 2

2 2 2

y y

u

y y

u

y y

y y

u u

y y

u

y y

y y

y y

i i

i i

i i

i i

i i

i i

i i

(25)

Qualidade do ajuste

Como medir a qualidade do ajuste do modelo aos dados amostrais?

Podemos calcular a fração da soma de

quadrados total (SST) que é explicada pelo modelo, e chamamos isso de R-quadrado da regressão

(26)

Regressão usando Excel e R

No Excel, deve-se usar o Ferramentas >

Análise de Dados.

No R o comando lm

(27)

Suposições do modelo

1. Assumindo que o modelo populacional é

linear nos parâmetros, y = b0 + b1x + u e que usamos amostra de tamanho n, {(xi, yi): i=1, 2, …, n} temos yi = b0 + b1xi + ui

2. E(u|x) = 0 e portanto E(ui|xi) = 0

3. Há variação em xi

(28)

Estimadores não viesados

Escrevendo os parâmetros em função da variável aleatória yi = b0 + b1xi + ui

2 2 2

1 , com

ˆ s x x

s

y x x

i x

x

i

b i

(29)

Estimador Não Viesado

    

   

 

i

 

i

i

i i

i i

i

i i

i i

i

x x x

x x

u x x

x x

x x

x

u x

x x

y x

x

  

 

1 0

1 0

1 0

b b

b b

b

b

(30)

Estimador Não Viesado

 

   

 

 

1 2 1

2 1

2

ˆ

thus and

,

como escrito

ser pode

numerador o

, então

, 0

x

i i

i i

x

i i

i i

s

u x x

u x x

s

x x

x x x

x x

 

 

b b

b

(31)

Estimador Não Viesado

 

   

1 2

ˆ 1

e 1 ,

ˆ

então ,

Seja

b b

b

b b

 

 

 

 

 

 

i i

x i

i i

u E

d E

u s d

x x

d

(32)

Estimador Não Viesado

Os estimadores MQO de b1 e b0 são não viesados

A prova depende das 3 suposições – se

alguma falha, então os estimadores não são necessariamente não viesados

Lembre que não viesado é descrição do

estimador – em uma dada amostra podemos (a estimativa) estar longe ou perto do valor verdadeiro do parâmetro

(33)

Variância dos Estimadores MQO

Agora sabemos que a distribuição do nosso estimador está centrada em torno do

verdadeiro parâmetro

Queremos saber quão dispersa essa distribuição é

Mais fácil pensar sobre essa variância, supondo também que

s

(34)

Variância

Var(u|x) = E(u2|x)-[E(u|x)]2

E(u|x) = 0, então s2 = E(u2|x) = E(u2) = Var(u)

Então s2 é também a variância

incondicional, chamada de variância do erro

s, a raiz quadrada da variância do erro é chamada de desvio padrão do erro

Logo: E(y|x)=b0 + b1x e Var(y|x) = s2

(35)

. .

Caso Homocedástico

E(y|x) = b0 + b1x

y

f(y|x)

(36)

.

f(y|x)

Caso Heterocedástico

. .

E(y|x) = b0 + b1x

(37)

Variância (cont)

 

   

2 2

2 2

2 2 2

2

2 2

2 2

2

1 2 1

1 1

1 1

ˆ 1

s s

b b

s d s d

u Var s d

u d s Var

u s d

Var Var

i x

i x

i i

x i

i x

i i x





(38)

Resumo Variância

Quanto maior a variância do erro, s2, maior a variância do estimador da inclinação

Quanto maior a variabilidade do xi, menor a variância do estimador da inclinação

Como um resultado, uma amostra maior

deveria diminuir a variância do estimador da inclinação

Problema que a variância do erro é desconhecida

(39)

Estimador da variância do erro

Não conhecemos quanto é a variância do erro, s2, porque não observamos os erros, ui

O que observamos são os resíduos, ûi

Podemos usar os resíduos para construir estimador da variância do erro

(40)

Estimador da variância do erro (cont)

   

u SSR n QMErro

n u

x u

x

x y

u

i i

i i

i

i i

i

ˆ / 2

2 ˆ 1

é de

viesado não

estimador Um

ˆ ˆ

ˆ ˆ

ˆ ˆ ˆ

2 2

2 1

1 0

0

1 0

1 0

1 0

s

s b

b b

b

b b

b b

b b

(41)

Estimador da variância do erro (cont)

 

  

1

2

ˆ , de padrão

erro o

temos ˆ por

mos substituir

se

DP ˆ que

Lembrando

regressão da

erro do

padrão ˆ Erro

ˆ

s

x

b

s s

b s s

s

(42)

Teorema Gauss Markov

1. Modelo populacional é linear nos parâmetros, y = b0 + b1x + u

Temos amostra de tamanho n, {(xi, yi): i=1, 2, …, n}, do modelo populacional. Portanto, escrevemos o modelo para a amostra yi = b0 + b1xi + ui

2. E(u|x) = 0 and portanto E(ui|xi) = 0

3. Há variação em xi

4. Var(u|x) = s2 (Homocedasticidade)

(43)

Teorema Gauss Markov

Dadas as 4 Suposições Gauss-Markov, os estimadores MQO são “BLUE”

Best

Linear

Unbiased

Estimator

(44)

Predição

A predição para a variável resposta é

  u SSRnQMErro

n

x y

i i

i

 

ˆ / 2

2 ˆ 1

é de

viesado não

estimador Um

ˆ ˆ ˆ

2 2

2 1

0

s

s b

b

(45)

Estimador da média pop de y

 

  ( 1 )

ˆ 1

é variância Sua

ˆ ˆ ˆ

é para

regressão estimador

O

2 2 2

x 1 0

y

x f x n

y

x i

 

 

 

 

s

 b b

(46)

Referências

Wooldridge. Introduction to econometrics.

Lohrs. Design Sampling.

Referências

Documentos relacionados

Antes porém me identifico com a abertura da noção conceitual de pansexualidade, a qual pode ser vista/lida como intensa manifestação sociocultural de uma sexualidade

Da análise SWOT realizada destacam-se como forças a existência de diversos instrumentos de ordenamento já em vigor, nomeadamente para áreas incluídas na Rede Nacional de

Ⓞ Na presença de heterocedasticidade nos erros de um modelo de regressão linear, os estimadores de Mínimos Quadrados Ordinários são ineficientes.. ② Quando os erros da

BR362 FACULDADES INTEGRADAS FAFIBE BR363 CENTRO UNIVERSITÁRIO ASSUNÇÃO BR364 UNIVERSIDADE FEDERAL DE ALFENAS BR365 FACULDADE ALFREDO NASSER LTDA BR366 UNIVERSIDADE FEDERAL

171 Suprema - Sociedade Universitária Para O Ensino Médico Assitencial 172 Fundação Universitária De Desenvolvimento De Esxtensão E Pesquisa 173 Fundação Municipal De

BRA233 UNIVERSIDADE FEDERAL DO SUL DA BAHIA BRA236 INSTITUTO PAULISTA DE ENSINO E PESQUISA BRA239 INSTITUTO SUMARE DE EDUCAÇÃO SUPERIOR LTDA BRA240 INSTITUTO TECNOLÓGICO

UNIVERSIDAD CAMILO JOSÉ CELA UNIVERSIDAD DE CANTABRIA UNIVERSIDAD CARDENAL HERRERA UNIVERSIDAD CARLOS III DE MADRID UNIVERSIDAD CASTILLA LA MANCHA UNIVERSIDAD CATÓLICA

Neste contexto, a Farmacocinética Clínica é uma parte integrante dos cuidados a prestar à pessoa com doença, constituindo a monitorização de fármacos um sistema