Estatística Econômica
Prof. Alexandre
Inferência no Modelo de
Regressão Simples
Hipóteses do Modelo de Regressão Linear Simples
H1.
H2.
H3.
H4.
H5.
H6.
não é variável aleatória e assume pelo menos dois valores distintos
(
opcional
)1 2
t t t
y x e
( ) 0t
E e E y( )t 1 2xt
2
var( )et var( )yt
cov( , ) cov( , ) 0e ei j y yi j
t
x
2 ~ (0, ) t
e N 2
1 2
~ [( ), ]
t t
Previously
Este Capítulo introduz ferramentas adicionais da inferência estatística: estimação de intervalos, previsão, intervalos de previsão e testes de hipóteses.
2 2
1 1 2
2
2 2 2
~ , ( ) ~ , ( ) t t t x b N
T x x
5.1
Estimação de Intervalos
5.1.1 A Teoria
Obtemos, de
b
2 , uma variável aleatória normal padronizada, subtraindo sua média e dividindo o resultado pelo seu desvio padrão:(5.1.1)
A variável aleatória padronizada
Z
é normalmente distribuída com média 0 e variância 1.2 2 2
~ (0,1) var( )
b
Z N
5.5.1a A Distribuição Qui-Quadrada
• Variáveis aleatórias com distribuição qui-quadrada
surgem quando elevamos ao quadrado variáveis aleatória normais,
N
(0,1).Se
Z
1,Z
2 , ...,Z
m denotamm
variáveis aleatórias independentesN
(0,1), então(5.1.2)
• A notação é lida como: a variável aleatória
V
tem uma
distribuição qui-quadrada com m graus de
liberdade
.2 2 2 2
1 2 m ~ ( )m
V Z Z Z
2 ( ) ~ m
(5.1.3)
•
V
não deve ser negativa,v
0• A distribuição tem uma longa calda, ou é assimétrica à
direita.
• À medida que os graus de liberdade
m
aumentam, adistribuição se torna mais simétrica e com o forma de um “sino”.
• À medida que
m
aumenta, a distribuição qui-quadradaconverge para (e essencialmente se torna) uma distribuição normal.
2 ( )
2 ( ) [ ]
var[ ] var 2
m
m
E V E m
V m
5.5.1b A distribuição de probabilidade de
• O termo de erro aleatório
e
t tem uma distribuiçãonormal,
• Padronize a variável aleatória dividindo-a pelo seu desvio
padrão, de tal forma que
•
• Se todos os erros aleatórios são independentes, então
(5.1.4)
•
V
não tem uma distribuição porque os resíduos demínimos quadrados
não
são variáveis aleatórias independentes.2 ˆ
2 ~ (0, ) t
e N
/ ~ (0,1) t
e N
2 2 (1) ( / ) ~et
2 2 2 2
2 1 2 ( ) ~ t T T t
e e e e
• Todos resíduos
T
, , dependem dosestimadores de mínimos quadrados
b
1 eb
2. Isso pode ser mostrado pelo fato de apenasT
2 dos resíduos de mínimos quadrados serem independentes no modelo de regressão linear simples.• Nós
não
estabelecemos que a variável aleatóriaqui-quadrada
V
é estatisticamente independente dos estimadores de mínimos quadrados, mas agora afirmamos que é.1 2
ˆt t t
e y b b x
2
2 ( 2) 2
ˆ ( 2)
~ T T
V
5.1.1c A Distribuição
t
• Uma variável aleatória “
t
” (minúscula) é formada peladivisão de uma variável aleatória normal padronizada,
Z
~N
(0,1), pela raiz quadrada de uma variável aleatória independente qui-quadrada, , que é dividida por seus graus de liberdade,m
.Se
Z~N
(0,1) e , e seZ
eV
são independentes, então(5.1.7)
• O formato da distribuição
t
é completamentedeterminada pelos graus de liberdade,
m
, e a distribuição é representada port
(m).• A distribuição
t
tem um “pico menos agudo” e é maisdispersa do que a
N
(0,1).2 ( ) ~ m
V
2 ( ) ~ m
V
( ) ~ m Z
t t
• A distribuição
t
é simétrica, com médiaE
[t
(m)]=0 evariância var[
t
(m)]=m/
(m
2
).• À medida que os graus de liberdade
m
, at
(m)5.1.1d Um Resultado Chave (5.1.8) 2 2 2 2 2 2 2 2 2 2
2 2 2 2
5.1.2 Obtenção de Estimativas de Intervalo
Se as hipótese RS1-RS6 do modelo de regressão linear simples são mantidas, então
(5.1.9)
Para
k
=2(5.1.10)
onde
( 2)
~ , 1,2
ep( ) k k
T k
b
t t k
b 2 2 ( 2) 2 ~ ep( ) T b t t b 2
2 2 2 2
ˆ
ˆ ˆ
var( ) e ep( ) var( ) ( t )
b b b
x x
Podemos encontrar valores críticos
t
c de uma distribuiçãot
(m) , de tal modo queonde é um valor de probabilidade, em geral considerado para ser =0,01 ou =0,05.
• Conseqüentemente, nós podemos afirmar
(5.1.11)
(5.1.7)
( ) ( )
2
c c
P t t P t t
( c c) 1
P t t t
2 2 2
[ ] 1
ep( )
c c
b
P t t
b
2 2 2 2 2
[
cep( )
cep( )] 1
5.1.3 O Contexto da Amostragem Repetida
Tabela 5.1 Estimativas de Mínimos Quadrados extraídas de 10
amostras aleatórias
n b1 ep(b1) b2 ep(b2)
1 51,1314 27,4260 0,1442 0,0378 2193,4597 2 61,2045 24,9177 0,1286 0,0344 1810,5972 3 40,7882 17,6670 0,1417 0,0244 910,1835 4 80,1396 23,8146 0,0886 0,0329 1653,8324 5 31,0110 22,8126 0,1669 0,0315 1517,5837 6 54,3099 26,9317 0,1086 0,0372 2115,1085 7 69,6749 19,2903 0,1003 0,0266 1085,1312 8 71,1541 26,1807 0,1009 0,0361 1998,7880 9 18,8290 22,4234 0,1758 0,0309 1466,2541 10 36,1433 23,5531 0,1626 0,0325 1617,7087
• As estimativas dos intervalos de confiança de 95% para
os parâmetros 1 e 2 são dados na Tabela 5.2.
Tabela 5.2 Estimativas dos Intervalos extraídas de 10
amostras aleatórias. n
1 -4,3897 106,6524 0,0676 0,2207 2 10,7612 111,6479 0,0590 0,1982 3 5,0233 76,5531 0,0923 0,1910 4 31,9294 128,3498 0,0221 0,1551 5 -15,1706 77,1926 0,1032 0,2306 6 -0,2105 108,8303 0,0334 0,1838 7 30,6237 108,7261 0,0464 0,1542 8 18,1541 124,1542 0,0278 0,1741 9 -26,5649 64,2229 0,1131 0,2384 10 -11,5374 83,8240 0,0968 0,2284
1 cep( ) 1
5.1.4 Uma Ilustração
• Para os dados das despesas com alimentação
(5.1.14)
• O valor crítico
t
c = 2,024, o qual é apropriado para =0,05 e 38 graus de liberdade.
• Ele pode ser calculado com um pacote estatístico.
• Para construir uma estimativa de intervalo para 2 , nós
utilizamos a estimativa de mínimos quadrados
b
2 = 0,1283 , que tem um erro padrãoUm intervalo de confiança estimado de 95% para 2:
2 2 2 2 2
[ 2,024ep( ) 2,024ep( )] 0,95
P b b b b
2 ˆ 2
ep( )b var( )b 0,0009326 0,0305
2 cep( ) 0,1283 2,024(0,0305)=[0,0666,0,1900]2
5.2
Teste de Hipótese
Componentes dos Testes de Hipóteses
1. Uma hipótese
nula
,H
0 2. Uma hipótesealternativa
,H
1 3. Um testeestatístico
5.2.1 A Hipótese Nula
A hipótese “nula”, que é denotada por
H
0 (H-zero
), especifica um valor para um parâmetro. A hipótese nula pode ser escrita como , ondec
é uma constante e é um importante valor no contexto de um modelo específico de regressão.5.2.2 A Hipótese Alternativa
Para a hipótese nula
H
0: 2 =c
, três possibilidades de hipóteses alternativas são:H
1: 2 c
.H
1: 2 >c
H
1: 2 <c
.0 : 2
5.2.3 O Teste Estatístico
(5.2.1)
Se
a hipótese nulaH
0: 2 =c
éverdadeira
, então(5.2.2)
Se a hipótese nula
não for verdadeira
, então a estatísticat
na equação 5.2.2não
tem uma distribuiçãot
comT
2graus de liberdade. 2 2
( 2) 2
~ ep( ) T
b
t t
b
2
( 2) 2
~ ep( ) T
b c
t t
b
5.2.4 A Região de Rejeição
• O nível de significância do teste é usualmente
escolhido como 0,01,0,05 ou 0,10.
• A região de rejeição é determinada ao encontrar os
valores críticos
t
c tais comoRegra de rejeição para um teste bicaudal: Se o valor da estatística do teste cair na região de rejeição, em qualquer uma das caudas da distribuição
t
, então nós rejeitamos a hipótese nula e não rejeitamos a alternativa.( c) ( c) / 2
• Os valores amostrais da estatística do teste na região
central de não-rejeição são
compatíveis com a hipótese
nula
e não constituem evidênciacontra
sua veracidade.• Encontrar um valor amostral da estatística do teste na
região de não-rejeição não faz da hipótese nula verdadeira num sentido absoluto!
5.2.5 O Exemplo da Despesa com Alimentação
Teste a hipótese nula que contra a alternativa que , no modelo da despesa com alimentação.
Formato para o Teste de Hipóteses
1. Determine as hipóteses nula e alternativa.
2. Especifique a estatística do teste e sua distribuição se a hipótese nula for verdadeira.
3. Selecione e determine a região de rejeição. 4. Calcule o valor amostral da estatística do teste. 5. Faça sua conclusão.
2 0,10
Aplicação no exemplo da Despesa com Alimentação,
1. A hipótese nula é
H
0: 2 =0,10. A hipótese alternativa éH
1: 2 0,10.2. A estatística do teste ,
se a hipótese
nula é verdadeira.
3. Selecionando =0,05. O valor crítico
t
c é 2,024 para a distribuiçãot
com (T
2) = 38 graus de liberdade.4. Utilizando os dados da Tabela 3.1, a estimativa de mínimos quadrados de 2 é
b
2 = 0,1283, com erropadrão ep(
b
2)=0,0305. O valor da estatística do teste é5. Conclusão: como
t
=0,93 <t
c=2,024, nósnão rejeitamos
a hipótese nula.2
( 2) 2
0,10 ~ ep( ) T
b
t t
b
0,1283 0,10
0,93 0,0305
5.2.6 Erros do Tipo I e Tipo II
Nós tomamos a decisão correta se:
• A hipótese nula é
falsa
e nós decidimosrejeitá-la
. • A hipótese nula éverdadeira
e nós decidimosnão
rejeitá-la.
Nossa decisão é incorreta se:
• A hipótese nula é
verdadeira
e nós decidimosrejeitá-la
(um erro do Tipo I)
• A hipótese nula é
falsa
e nós decidimosnão
rejeitá-laFatos sobre a probabilidade de cometer um erro do Tipo II:
• A probabilidade de cometer um erro do Tipo II varia
inversamente ao nível de significância do teste, .
• Quanto mais perto estiver o valor verdadeiro do
parâmetro do valor definido para ele na hipótese, maior a probabilidade de cometer um erro do Tipo II.
• Quanto maior o tamanho da amostra
T
, menor aprobabilidade de ocorrência de erro do Tipo II, dado o nível de significância , que é a probabilidade de cometer erro do Tipo I.
• O teste baseado na distribuição
t
que nós5.2.7 O Valor-
p
do Teste de HipóteseO valor-
p
do teste é calculado encontrando qual é aprobabilidade da distribuição
t
tomar um valor igual ou maior do que o valor absoluto dovalor amostral da
estatística do teste.
Regra de rejeição para um teste bicaudal: quando o valor-
p
do teste de hipótese émenor
do que o valor escolhido de , então o procedimento do teste leva arejeição
da hipótese nula.• Se o valor-
p
for maior do que , nós não rejeitamos ahipótese nula.
• No exemplo da despesa com alimentação, o valor-
p
para o teste de
H
0: 2 = 0,10 contraH
1: 2 0,10 é•
p
=0,3601, no qual é a área nas caldas da distribuição5.2.8 Testes de Significância
• No modelo da despesa com alimentação uma importante
hipótese nula é
H
0: 2 = 0.• A hipótese alternativa geral é
H
1: 2 0.• Rejeitar a hipótese nula implica que existe uma relação “
estatisticamente significante” entre
y
ex
.5.2.8a Um Teste de Significância no Modelo de
Despesa com Alimentação
1. A hipótese nula é
H
0: 2 = 0. A hipótese alternativa éH
1: 2 0.2. A estatística do teste é ,
se a hipótese
nula for verdadeira.
2
( 2) 2
~ ep( ) T
b
t t
b
3. Seja =0,05. O valor crítico
t
c é 2,024 para uma distribuiçãot
com (T
2) = 38 graus de liberdade.4. A estimativa de mínimos quadrados de
2é b
2=
0,1283, com erro padrão ep(b
2)=0,0305. O valor da
estatística do teste é .
5. Conclusão: Já que t
=4,20 >t
c=2,024, nósrejeitamos
a hipótese nula e não rejeitamos a alternativa. Assim, existe uma relação entre a renda semanal e a despesa semanal com alimentação.O valor-p
para o teste de hipótese ép
=0,000155, que é a área nas caudas da distribuiçãot
(38),
onde |t
|4,20. Já que
p
, nós rejeitamos a hipótese nula de que
2= 0 e não
rejeitamos a alternativa de que
2
0. Assim, existe uma
relação “estatisticamente significante” entre y
ex
. 0,1283 0,0305 4,20Observação: “Estatisticamente significante”, contudo, não implica necessariamente em “economicamente significante”.
• Por exemplo, suponha que uma cadeia de supermercados
planeja uma certa estratégia
se
.• Adicionalmente, suponha que uma grande amostra de
dados seja coletada, do qual se obtenha a estimativa
b
2 = 0,0001, com ep(b
2) = 0,00001, produzindo a estatísticat
= 10,0.• Nós rejeitaríamos a hipótese nula de que e não
rejeitaríamos a alternativa de que . Onde
b
2 = 0,0001 é estatisticamente diferente de zero.• Contudo, 0,0001 pode não ser economicamente
diferente de zero e a cadeia de supermercados pode decidir pelo cancelamento da estratégia planejada.
2 0
2 0 2 0
5.2.9 Uma Relação entre os Testes de Hipóteses e a Estimação de Intervalos
• Existe uma relação
algébrica
entre testes de hipótesesbicaudais e estimativas de intervalos de confiança que em alguns casos é útil.
• Suponha que nós estamos testando a hipótese nula
contra a alternativa .
• Se nós
falharmos em rejeitar
a hipótese nula ao nível designificância , então o valor
c
cairá dentro de um intervalo de (1)100% de confiança de k.• Inversamente, se nós rejeitarmos a hipótese nula, então
c
cairá
fora
do intervalo de (1)100% de confiança de k.• Essa relação algébrica é verdadeira porque nós falhamos
em rejeitar a hipótese nula quando , ou quando 0 : k
H c
1 : k
H c
c c
t t t
ep( ) k c c k b c t t b
ep( ) ep( )
k c k k c k
5.2.10 Testes Unicaudais
• Testes unicaudais são utilizados para testar H0: k = c
contra a hipótese alternativa H1: k > c, ou H1: k < c.
• Para testar H0: k = c contra a alternativa H1: k > c, nós
selecionamos a região de rejeição para valores da estatística do teste t que suportem a hipótese alternativa.
• Nós definimos a região de rejeição para valores de t
maiores do que um valor crítico tc, extraído de uma distribuição t com T2 graus de liberdade, tal como
onde é o nível de significância do teste.
•A regra de decisão para um teste unicaudal é, “Rejeita-se
H0: k = c e não se rejeita a alternativa H1: k > c se t tc.” Se t < tc, então nós não rejeitamos a hipótese nula.
•O cálculo do valor-p está analogamente confinado a uma
calda da distribuição
( c)
No exemplo da despesa com alimentação, teste
H
0: 2 = 0 contra a alternativaH
1: 2 > 0.1. A hipótese nula é
H
0: 2 = 0. A hipótese alternativa éH
1: 2 > 0.2. A estatística do teste é ,
se a hipótese
nula for verdadeira.
3. Para o nível de significância =0,05, o valor crítico
t
c é 1,686 para uma distribuiçãot
comT
2=38 graus de liberdade.4. A estimativa de mínimos quadrados de 2 é
b
2 = 0,1283, com erro padrão ep(b
2)=0,0305. Exatamente como no teste bicaudal, o valor da estatística do testet
é2
( 2) 2
~ ep( ) T
b
t t
b
0,1283
4,20 0,0305
5.2.11 Um Comentário na Construção das Hipóteses Nula e Alternativa em testes monocaudais
• A hipótese nula é geralmente escrita de tal modo que
se nossa teoria estiver correta, então nós a rejeitaremos.
• Nós estabelecemos a hipótese nula para o caso de
não existir relação entre as variáveis,
H
0: 2 = 0. Na hipótese alternativa, nós colocamos a conjuntura que nós gostaríamos de estabelecer,H
1: 2 > 0.• É importante estabelecer as hipóteses nula e
5.3 O Previsor de Mínimos Quadrados
Nós queremos prever o valor da variável dependente
y
0, dado um valor da variável explanatóriax
0, o qual é dado por(5.3.1)
onde
e
0 é um erro aleatório. Esse erro aleatório tem médiaE
(e
0)=0 e variância var(e
0)= . Nós também assumimos que cov(e
0,e
t)=0.O previsor de mínimos quadrados de
y
0 é(5.3.2)
0 1 2 0 0
y x e
2
0 1 2 0 ˆ
o
erro de previsão
é(5.3.3)
O valor esperado de
f
é:(5.3.4)
Pode ser demonstrado que
(5.3.5)
0 0 1 2 0 1 2 0 0
1 1 2 2 0 0
ˆ ( )
( ) ( )
f y y b b x x e
b b x e
0 0 1 1 2 2 0 0
ˆ
( ) ( ) ( ) ( ) ( )
0 0 0 0
E f E y y E b E b x E e
2
2 0
0 0 2
1 ( )
ˆ
var( ) var( ) 1
( t ) x x
f y y
T x x
A variância do erro de previsão é estimada pela substituição de pelo seu estimador ,
(5.3.6)
A raiz quadrada da variância estimada é o
erro padrão da
previsão
,(5.3.7)
Conseqüentemente, nós podemos construir uma variável aleatória normal padronizada como
(5.3.8)
2
ˆ2
2
2 0
2
1 ( )
ˆ ˆ
var( ) 1
( t ) x x f
T x x
varˆ
ep f f
~ (0,1) var( )
f
Então,
(5.3.9)
Se
t
c é um valor crítico da distribuição , tal queP
(t
t
c) = /2, então(5.3.10)
Então,
Simplificando essa expressão, obtemos
(5.3.11)
( 2) ~
ep( ) ˆ
var( ) T
f f
t f
f
(T 2)
t
( c c) 1
P t t t
0 0 ˆ
[ ] 1
ep( )
c c
y y
P t t
f
0 0 0
ˆ ˆ
[ cep( ) cep( )] 1
Um intervalo de (1-)100% de confiança, ou intervalo de previsão, para
y
0 é• Equação 5.3.5 implica que, quanto mais afastado for
x
0 damédia amostral , maior será a variância do erro de previsão
• Como a variância de previsão aumenta quanto maior é a
distância de
x
0 da média amostral , os limites de confiança aumentam à medida que cresce.0
ˆ cep( )
y t f
x
x
0
5.3.1 Previsão no Modelo da Despesa com Alimentação
A despesa semanal prevista com alimentação para um domicílio com renda semanal de
x
0 = $750 éA variância estimada do erro de previsão é
O erro padrão de previsão é então 0 1 2 0
ˆ 40,7676 0,1283(750) 136,98
y b b x
2 2
2 0
2
( )
1 1 (750 698)
ˆ ˆ
var( ) 1 1429,2456 1 1467,4986
( t ) 40 1532463
x x f
T x x
ˆ
O intervalo de 95% de confiança para
y
0 é• Nosso intervalo de previsão sugere que um domicílio
com renda semanal de $750 gastará alguma coisa entre $59,44 e $214,52 com alimentação.
• Um intervalo muito amplo significa que nosso ponto de
previsão, $136,98, não é confiável.
• Nós podemos melhorá-lo, mensurando o efeito de que
outros fatores, além da renda, pode ter. 0
ˆ ep( ) 136,98 2,024(38,3079)
[59,44 a 214,52] c