Inferência em grandes amostras. Análise da Regressão múltipla: MQO Assintótico. Inferência em grandes amostras (cont.)

(1)

Análise da Regressão múltipla:

MQO Assintótico

y =

β

0

+

β

1

x

1

+

β

2

x

2

+ . . .

β

k

x

k

+ u

3. Propriedades assintóticas

Antes, propriedades sobre amostras finitas de

tamanho n

2

Inferência em grandes amostras

Lembre-se que sob as hipóteses do MLC, as

distribuições amostrais são normais, o que nos

permite derivar as distribuições t e F nos testes de

hipóteses.

Essa normalidade exata vem da hipótese de os

erros terem distribuição normal.

Essa hipótese de erros normais implica que a

distribuição de y, dados x’s, também é normal.

3

Inferência em grandes amostras

(cont.)

Observamos y e podemos identificar que

existem muitos exemplos em que a normalidade

não é verdadeira.

Uma variável aleatória y que tenha distribuição

normal deverá ter distribuição simétrica em torno

de sua média.

Qualquer variável assimétrica, como salários,

detenções, poupança etc. não podem ser normais

pois a normal é simétrica.

4

Inferência em grandes amostras

(cont.)

Exemplo: Modelo que explica a taxa de

participação nos planos de pensão dos EUA.

Banco:E:\UFF20072semestre\Lab\LAB1\data\401k.gdt

Variável dependente y: prate

Análise da variável dependente no gretl

-

Histograma

-

Estatísticas descritivas

5

Ver: estatísticas descritivas

Estatísticas Descritivas, usando as observações 1 - 1534

para a variável 'prate' (1534 observações válidas)

Média 87,363

Mediana 95,700

Mínimo 3,0000

Máximo 100,00

Desvio padrão 16,717

C.V. 0,19135

Enviesamento -1,5196

Curtose Ex. 2,2584

6

Histograma de prate (variável, gráfico de

frequência simples)

0 0.1 0.2 0.3 0.4 0.5 0 20 40 60 80 100 F req u ën c ia r el a ti v a prate

(2)

7

Histograma de prate (variável, gráfico de

frequência simples)

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 20 40 60 80 100 120 140 D e n s id a d e prate N(87,363 16,717) Estatística de teste para normalidade:

Qui-quadrado(2) = 1159,437 p-valor = 0,00000

8

Inferência em grandes amostras

(cont.)

A normalidade não é necessária para que

MQO seja BLUE; ela é necessária apenas

para inferência.

No exemplo demonstrado, devemos

abandonar as estatísticas t para determinar

quais variáveis são estatisticamente

significantes???

NÃO!!!

9

Teorema do Limite Central

Baseado no teorema do limite central,

podemos mostrar que os estimadores de MQO

são assintoticamente normais.

Ou seja, para amostras grandes, eles seguem

uma distribuição normal aproximada.

A normalidade assintótica implica que

P(Z<z)

→Φ

(z) quando n

→∞

, ou seja, que

P(Z<z)

≈ Φ

(z)

10

Teorema do Limite Central

O teorema central do limite diz que a

média amostral padronizada de qualquer

população com média

µ

e variância

σ

2 _é

assintoticamente ~N(0,1), ou:

( )

0 ,

1 ~ N

n

Y

Z

a

Y

σ

−

µ

=

11

Normalidade assintótica

(

)

(

)

(

)

(

ˆ

) ( )

ˆ

~

Normal

( )

0 ,

1 (iii)

de

e

consistent

estimador

um

é

ˆ

(ii)

ˆ

plim

onde

,

0 Normal

~

ˆ

(i)

Markov,

-Gauss

de

hipóteses

as

Sob

2

1

2

2 a

j

ij

j

a

j

ep

r

n

a

n

β

σ

β

−

=

−

∑

−

12

Normalidade assintótica (cont.)

Como a distribuição t se aproxima da

normal, dizemos que:

(

ˆ

−

) ( )

ˆ

~

n

−

k

−

1 a

j

β

ep

β

t

β

Observe que, enquanto não precisamos

assumir normalidade se a amostra for

grande, ainda precisamos da hipótese de

homocedasticidade e de média

condicional zero.

(3)

13

Como é feita a inferência??

Os testes t e a construção dos intervalos

de confiança são realizados exatamente

da mesma forma anterior, quando

considerávamos as hipóteses do Modelo

Linear Clássico.

(

ˆ

−

) ( )

ˆ

~

n

−

k

−

1 a

j

β

ep

β

t

β

14

Como decidir se o seu tamanho de

amostra é suficiente??

Se o tamanho da amostra é grande (pelo menos

1500 observações, p.e.), isto é suficiente para

usarmos o Teorema do limite central.

Alguns econometristas acham que n = 30 é um

tamanho satisfatório.

A qualidade da aproximação também depende

dos graus de liberdade.

Com mais variáveis independentes no modelo,

um tamanho da amostra maior é usualmente

necessário para usar a aproximação t.

15

Outra estatística: estatística do

multiplicador de Lagrange (LM)

Uma vez que estamos usando grandes amostras e

a normalidade assintótica para inferência,

podemos utilizar mais que as estatísticas t e F.

A estatística do multiplicador de Lagrange ou

estatística LM é um teste alternativo para as

restrições múltiplas de exclusão.

Também chamada de estatística de escore.

A estatística LM também é chamada de estatística

nR

2

_.

16

Estatística LM (cont)

Suponha que tenhamos o modelo

y =

β

₀

+

β

₁

x

₁

+

β

₂

x

₂

+ . . .

β

_k

x

_k

+ u

A hipótese nula seja:

H

0

:

β

k-q+1

= 0,

...

,

β

k

= 0

q restrições de exclusão no modelo

A estatística LM existe apenas a estimação do

modelo restrito

17

Estatística LM (cont)

regressão.

desta

é

onde

,

)

variáveis

as

todas

m

(i.e.,

,...,

,

em

~

de

regressão

a

faça

e

,

~

resíduos,

os

pegue

Agora,

~

...

~

2

1

0 u

u

k

q

k

q

k

R

nR

LM

e

x

u

x

y

=

+

=

β

−

18

Estatística LM (cont)

Se as variáveis omitidas tiverem realmente

coeficientes populacionais iguais a zero, então o

resíduo encontrado deve ser pelo menos não

correlacionado com cada uma dessas variáveis

excluídas.

Ou seja, o deve estar próximo de zero.

Como determinar quando a estatística é

suficientemente grande para rejeitar a hipótese nula

a um nível de significância escolhido?

2 u

R

(4)

19

Estatística LM (cont)

2 2 2

~

q q q a

de

value

-p

o

calcular

apenas

ou

,

ão

distribuiç

uma

de

,

c

crítico

valor

o

escolher

podemos

então

;

LM

χ

Com uma amostra grande, o resultado dos testes

F e LM devem ser similares.

20

Estatística LM: exemplo

Modelo do crime (banco de dados: crime1.raw, dados de

2.725 homens nascidos em 1960 ou 1961 na Califórnia):

Variável dependente: narr86 – número de vezes que um

homem foi preso

Variáveis independentes:

-

pcnv: proporção de prisões anteriores que levaram à

condenação.

-

avgsen: sentença média cumprida de condenações passadas.

-

tottime: tempo total que o homem passou na prisão em 1986

desde que atingiu a idade de 18 anos.

-

Ptime86: meses passados na prisão em 1986.

-

qemp86: número de trimestres, em 1986, durante os quais o

homem esteve legalmente empregado.

21

Estatística LM: exemplo

Teste: Testar a hipótese nula de que avgsen e

tottime não possuem efeito sobre narr86, dado que

todos demais fatores foram controlados.

Ho: β2=β3=0

Passo 1: estimar a regressão sem estas variáveis.

Passo 2: regredir os resíduos desta regressão em

todas variáveis independentes.

22

Modelo irrestrito

u

qemp

time

tottime

avgsen

pcnv

narr

+

=

86 .

.

86

5 4 3 2 1 0

β

Modelo 1: Estimativas OLS usando as 2725 observações 1-2725 Variável dependente: narr86

Variável Coeficiente Erro Padrão estatística-t p-valor const 0,706061 0,0331524 21,2974 <0,00001 *** pcnv -0,151225 0,040855 -3,7015 0,00022 *** avgsen -0,00704866 0,0124122 -0,5679 0,57016 tottime 0,0120953 0,00957684 1,2630 0,20671 ptime86 -0,0392585 0,00891659 -4,4029 0,00001 *** qemp86 -0,103091 0,0103972 -9,9152 <0,00001 ***

Média da variável dependente = 0,404404 Desvio padrão da variável dependente = 0,859077 Soma dos resíduos quadrados = 1924,39 Erro padrão dos resíduos = 0,841284 R2

não-ajustado = 0,0427554 R2 ajustado = 0,0409951

Estatística-F (5, 2719) = 24,2889 (p-valor < 0,00001)

23

Modelo restrito (passo 1)

u

qemp

time

pcnv

narr

86 =

β

0

+

β

1

.

+

β

4

.

86 +

β

5

.

86 +

Modelo 2: Estimativas OLS usando as 2725 observações 1-2725 Variável dependente: narr86

Variável Coeficiente Erro Padrão estatística-t p-valor const 0,711772 0,0330066 21,5645 <0,00001 *** pcnv -0,149927 0,0408653 -3,6688 0,00025 *** ptime86 -0,0344199 0,008591 -4,0065 0,00006 *** qemp86 -0,104113 0,0103877 -10,0227 <0,00001 ***

Média da variável dependente = 0,404404 Desvio padrão da variável dependente = 0,859077 Soma dos resíduos quadrados = 1927,27 Erro padrão dos resíduos = 0,841603 R2 não-ajustado = 0,0413233 R2 ajustado = 0,0402663 Estatística-F (3, 2721) = 39,0958 (p-valor < 0,00001) 24

Passo 2

u

qemp

time

tottime

avgsen

pcnv

uhat

+

=

86 .

.

2

5 4 3 2 1 0

β

Modelo 3: Estimativas OLS usando as 2725 observações 1-2725 Variável dependente: uhat2

Variável Coeficiente Erro Padrão estatística-t p-valor const -0,00571081 0,0331524 -0,1723 0,86325 pcnv -0,00129713 0,040855 -0,0317 0,97467 avgsen -0,00704866 0,0124122 -0,5679 0,57016 tottime 0,0120953 0,00957684 1,2630 0,20671 ptime86 -0,0048386 0,00891659 -0,5427 0,58741 qemp86 0,00102209 0,0103972 0,0983 0,92170

Média da variável dependente = 0 Desvio padrão da variável dependente = 0,84114 Soma dos resíduos quadrados = 1924,39 Erro padrão dos resíduos = 0,841284 R2_{não-ajustado = 0,00149385} R2_{ajustado = -0,000342319}