Neste capítulo, mostramos que, sob as hipóteses do modelo clássico de regressão linear, os estima- dores de mínimos quadrados apresentam certas características desejáveis resumidas na propriedade de melhor estimador linear não viesado (MELNT). No Apêndice deste capítulo, demonstraremos essa propriedade de modo mais formal. Entretanto, como é possível saber na prática que a propriedade de melhor estimador linear não viesado se sustenta? Por exemplo, como verificamos se os estimadores de MQO são não viesados? A resposta é dada pelos chamados experimentos de Monte Carlo, que são em essência simulações de computador ou experimentos de amostragem.
Para apresentar as ideias básicas, considere nossa função de regressão populacional (FRP) com duas variáveis:
Yi D Ø1 C Ø2 Xi C ui (3.8.1)
Um experimento de Monte Carlos segue os seguintes passos:
1. Suponha que os verdadeiros valores dos parâmetros sejam Ø1 D 20 e Ø2 D 0,6.
2. Escolha o tamanho da amostra como, por exemplo, n D 25.
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 105
4. Suponha que você usou uma tabela de números aleatórios para escolher 25 valores e os chamou de ui (atualmente, a maioria dos pacotes estatísticos já inclui geradores de números aleatórios).24
5. Como você conhece Ø1, Ø2, Xi e ui, aplicando a Equação (3.8.1) obtemos 25 valores de Yi.
6. Agora, com os 25 valores de Yi gerados desse modo, fazemos a regressão deles contra os va-
lores de X escolhidos no passo 3, obtendo ØO1 e ØO2, os estimadores de mínimos quadrados.
7. Suponha que o experimento seja repetido 99 vezes, usando, sempre, os mesmos valores de Ø1,
Ø2 e X. Obviamente, os valores de ui variarão de experimento para experimento. Portanto, ao
todo temos 100 experimentos, gerando, assim, cem valores de Ø1 e Ø2 (na prática, são condu-
zidos muitos desses experimentos, às vezes de 1.000 a 2.000.) 8. Chame as médias daquelas cem estimativas de ØO1 e ØO2.
9. Se os valores estiverem muito próximos dos verdadeiros valores de Ø1 e Ø2 definidos no passo l,
este experimento Monte Carlo “estabelece” que os estimadores de mínimos quadrados são, de fato, não viesados. Lembre-se de que, segundo o modelo clássico de regressão linear, E(ØO1) D Ø1
e E(ØO2) D Ø2.
Esses passos caracterizam a natureza geral dos experimentos de Monte Carlo, que são muitas vezes utilizados para estudar as propriedades estatísticas de vários métodos de estimação de parâmetros populacionais. Eles são especialmente úteis para estudar o comportamento dos estimadores em amostras pequenas ou finitas. Também são um excelente meio de destacar o conceito de amostras
repetidas, que é a base da maior parte da inferência estatística clássica, como veremos no Capítulo 5.
Apresentaremos vários exemplos de experimentos de Monte Carlo por meio de exercícios para sala de aula. (Veja o Exercício 3.27.)
Resumo e
conclusões
Os tópicos e conceitos mais importantes deste capítulo podem ser resumidos da seguinte forma: 1. A estrutura básica da análise de regressão é o modelo clássico de regressão linear (MCRL). 2. O MCRL baseia-se em um conjunto de hipóteses.
3. Com base nessas hipóteses, os estimadores de mínimos quadrados assumem determinadas pro- priedades resumidas no teorema de Gauss-Markov, que informa que, na classe dos estimadores lineares não viesados, os estimadores de mínimos quadrados têm variância mínima. Em resumo, eles são o melhor estimador linear não viesado (MELNT ou BLUE).
4. A precisão dos estimadores de MQO é medida por seus erros padrão. Nos Capítulos 4 e 5, veremos como eles nos permitem fazer inferências sobre os parâmetros populacionais: os coeficientes Ø. 5. A qualidade geral do ajustamento do modelo de regressão é medida pelo coeficiente de determi-
nação: r 2. Ele nos indica que proporção da variação da variável dependente, ou regressando, é
explicada pela variável explanatória, ou regressor. O valor de r 2 situa-se entre 0 e l; quanto mais
próximo de l, melhor o ajustamento.
6. Um conceito relacionado ao coeficiente de determinação é o coeficiente de correlação: r. É uma medida de associação linear entre duas variáveis, e seu valor situa-se entre – l e C1.
7. O modelo clássico de regressão linear é um construto teórico ou uma abstração, porque se apoia em um conjunto de hipóteses que pode ser rígido ou “pouco realista”. Mas esse tipo de abstração é muitas vezes necessário nos estágios iniciais do estudo em qualquer área do conhecimento. Uma vez dominado o MCRL, podemos verificar o que acontece se uma ou mais das hipóteses não forem satisfeitas. A primeira parte deste livro é dedicada ao estudo do modelo clássico de re- gressão linear. As demais partes consideram refinamentos do MCRL. A Tabela 3.4 apresenta um roteiro do que virá mais adiante.
24 Na prática, supõe-se que u
i siga uma certa distribuição de probabilidade normal, com certos parâmetros (como, média e variância). Uma vez especificados os valores dos parâmetros, é fácil gerar os ui com o auxílio dos paco- tes estatísticos.
106 Parte Um Modelos de regressão com equação única
EXERCÍCIOS
3.1. Dadas as hipóteses da coluna l da tabela a seguir, demonstre que as premissas apresentadas nacoluna 2 são suas equivalentes.
Hipóteses do modelo clássico
(1) (2)
E(ui |Xi) D 0 E(Yi |Xi) D Ø2C Ø2 Xi. cov (ui,uj) D 0 (i ≠ j) cov (Yi,Yj) D 0 i ≠ j var (ui |Xi) D æ2 var (Yi |Xi) D æ2
3.2. Mostre que as estimativas ØO1 D 1,572 e ØO2 D 1,357 usadas no primeiro experimento da Tabela
3.1 são, de fato, calculadas pelos estimadores de MQO.
3.3. De acordo com Malinvaud (veja a nota de rodapé 11), a hipótese de que E(ui|Xi) D 0 é bastan-
te importante. Para tanto, considere a FRP: Y D Ø1 C Ø2 Xi C ui. Agora, considere duas situa-
ções: (i) Ø1 D 0, Ø2 D l e E(ui) D 0; e (ii) Ø1 D l, Ø2 D 0 e E(ui) D (Xi – 1).Tome a esperança da
FRP condicional a X nos dois casos anteriores e veja se concorda com Malinvaud a respeito do significado da hipótese E(ui|Xi) D 0.
3.4. Considere a regressão amostral
YiD ØO1C ØO2XiCuOi
Impondo as restrições (i) PuOi D 0 e (ii) PuOi Xi D 0, obtenha os estimadores ØO1 e ØO2 e mostre
que eles são idênticos aos estimadores de mínimos quadrados dados nas Equações (3.1.6) e (3.1.7). Esse método de obter estimadores é conhecido como princípio da analogia. Apresen- te uma justificativa intuitiva para a imposição das restrições (i) e (ii). (Dica: lembre-se da premissa de MCRL sobre ui.) Note que o princípio da analogia para estimar parâmetros desco-
nhecidos também é denominado método dos momentos, em que momentos amostrais (por exemplo, médias amostrais) são usados para estimar os momentos populacionais (como a mé- dia populacional). Como observado no Apêndice A, um momento é uma estatística sintética de uma distribuição de probabilidade, tal como o valor esperado e a variância.
3.5. Mostre que r2definido em (3.5.5) situa-se entre 0 e 1. Você pode aplicar a desigualdade de Cauchy-
-Schwartz, segundo a qual, para quaisquer variáveis aleatórias X e Y, a seguinte relação é válida:
[E( XY )]2∑E( X2)E(Y2) Número
da hipótese Tipo de desrespeito Onde estudar?
1 Não linearidade nos parâmetros Capítulo 14 2 Regressor(es) estocástico(s) Capítulo 13
3 Média de ui diferente de zero Introdução à Parte II
4 Heterocedasticidade Capítulo 11
5 Termos de erros autocorrelacionados Capítulo 12 6 Termos de observação amostrais Capíulo 10
inferiores ao número de regressores
7 Variabilidade insuficiente nos regressores Capítulo 10
8 Multicolinearidade* Capítulo 10
9 Viés de especificação* Capítulos 13, 14
1 0** Termos de erro não normais Capítulo 13
*Essas hipóteses serão apresentadas no Capítulo 7, quando discutiremos o modelo de regressão múltipla.
**Notas: a hipótese de que os termos ui são normalmente distribuídos não faz parte do MCRl. Falaremos mais disto no Capítulo 4.
TABELA 3.4
O que acontece se as hipóteses do MCRL não forem respeitadas?
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 107
3.6. ØOyxe ØOxyrepresentam os coeficientes angulares nas regressões de Y contra X e de X contra Y,
respectivamente. Mostre que:
ØOY XØOXY Dr2
em que r é o coeficiente de correlação entre X e Y.
3.7. Suponha que, no exercício anterior, ØOyx ØOxy D 1. Teria alguma importância se fizéssemos a re-
gressão de Y contra X ou de X contra Y? Explique cuidadosamente.
3.8. O coeficiente de correlação de rankings (classificação) de Spearman, rsé definido assim:
rs H1 ° 6 d
2
n(n2°1)
em que d D diferença nos rankings atribuídos ao mesmo indivíduo ou fenômeno e n D núme- ro de indivíduos ou fenômenos ranqueados. Deduza rs por meio de r definido na Equação
(3.5.13). Dica: ordene os valores de X e de Y de l a n. Observe que a soma dos rankings de X
e de Y é n(n C l)=2, para cada um, e, portanto, suas médias são (n C 1)=2. 3.9. Considere a seguinte formulação da FRP de duas variáveis:
Modelo I: YiH Ø1C Ø2XiCui
Modelo II: YiH Æ1C Æ2( Xi°X
–
) C ui
a. Calcule os estimadores de Ø1e α1. São idênticos? Suas variâncias são idênticas?
b. Calcule os estimadores de Ø2 e a2. São idênticos? Suas variâncias são idênticas?
c. Qual a vantagem, se é que existe, do modelo II em relação ao modelo I? 3.10. Suponha que você execute a seguinte regressão:
yi H ØO1C ØO2xiCuOi
em que, como de costume, yi e xi são desvios em relação às respectivas médias. Qual será o valor
de ØO1? Por quê? ØO2 será igual ao obtido por meio da Equação (3.1.6)? Por quê?
3.11. Seja r1D coeficiente de correlação entre n pares de valores (Yi, Xi) e r2 D coeficiente de corre-
lação entre n pares de valores (aXi C b, cYi C d), em que a, b, c e d são constantes. Mostre que
r1 D r2 e estabeleça, assim, o princípio de que o coeficiente de correlação não varia em rela-
ção à mudança de escala e à mudança de origem. Dica: aplique a definição de r dada na Equação (3.5.13).
Nota: as operações aXi, Xi C b e aXi C b são conhecidas, respectivamente, como mudança de
escala, mudança de origem e mudança de escala e de origem.
3.12. Se r, o coeficiente de correlação entre n pares de valores (Xi, Yi), for positivo, determine se cada
uma das seguintes afirmações é verdadeira ou falsa:
a. r entre (°Xi, °Yi) também é positivo.
b. r entre (° Xi, Yi) e entre (Xi, ° Yi) pode ser positivo ou negativo.
c. Os coeficientes angulares ØOyx ØOxysão positivos, em que Øyx D coeficiente angular na regres-
são de Y contra X e Øxy D coeficiente angular da regressão de X contra Y.
3.13. Se X1, X2 e X3 são variáveis não correlacionadas tendo, cada uma delas, o mesmo desvio pa-
drão, mostre que o coeficiente de correlação entre X1 CX2 e X2 C X3 é igual a 21. Por que o
coeficiente de correlação não é igual a zero?
3.14. Na regressão Yi D Ø1 C Ø2 Xi C ui, suponha que multipliquemos cada valor de X por uma cons-
tante 2. Isso alterará os resíduos e os valores ajustados de Y? Explique. O que aconteceria se
somássemos um valor constante 2 a cada valor de X?
108 Parte Um Modelos de regressão com equação única
3.15. Mostre que a Equação (3.5.14) mede, de fato, o coeficiente de determinação. Dica: aplique a definição de r dada na Equação (3.5.13) e lembre-se de que yiyOi H (yOiCuOi)yOi D yOi2,
bem como da Equação (3.5.6).
3.16. Explique, justificando, se as seguintes afirmações são verdadeiras, falsas ou duvidosas: a. Como a correlação entre duas variáveis, X e Y, pode variar entre °l e C1, isso significa que
cov (X, Y) também se situa entre esses limites.
b. Se a correlação entre duas variáveis for zero, isso quer dizer que não há qualquer relação
entre as duas variáveis.
c. Se fizermos uma regressão de Yi contra YOi; (isto é, Y observado contra Y estimado), os va-
lores do intercepto e do coeficiente angular serão 0 e l, respectivamente.
3.17. Regressão sem qualquer regressor: imagine o modelo Yi D Ø1 C ui. Aplique os mínimos qua-
drados ordinários para encontrar o estimador de Ø1. Qual a variância e a SQR da regressão? O
Ø1 estimado tem qualquer sentido intuitivo? Agora, pense no modelo de duas variáveis Yi D Ø1
C Ø2 Xi C ui. Vale a pena acrescentar Xi ao modelo? Em caso negativo, por que se preocupar
com a análise de regressão?
Exercícios aplicados
3.18. Na Tabela 3.5 está a classificação de dez estudantes nas provas parcial e final de estatística. Calcule o coeficiente de correlação de rankings de Spearman e interprete os resultados.
Estudante
Ranking A B C D E F G H I J
Prova parcial 1 3 7 10 9 5 4 8 2 6 Prova Final 3 2 8 7 9 6 5 10 1 4
3.19. A relação entre a taxa de câmbio nominal e os preços relativos. Com base nas observações anuais de 1985 a 2005, obteve-se a seguinte regressão, em que Y D taxa de câmbio do dólar canadense em relação ao dólar americano (DC/$) e X D razão do IPC americano pelo IPC canadense, isto é, X representa os preços relativos dos dois países:
YOt H 0,912 C 2,250Xt r2D0,440
ep H 0,096
a. Interprete a regressão. Como você interpretaria r2?
b. O valor positivo de Xtfaz sentido econômico? Qual a teoria econômica em que se embasa?
c. Suponha que X seja redefinido como a razão entre o IPC canadense e o IPC americano. Isso mudaria o sinal de X? Por quê?
3.20. A Tabela 3.6 apresenta dados relativos a índices de produção por hora (X) e remuneração real por hora (Y) para os setores empresarial e empresarial não agrícola da economia dos Estados Unidos no período 1960-2005. O ano-base dos índices é 1992 D 100 e os índices foram ajus- tados sazonalmente.
a. Represente graficamente Y contra X para os dois setores da economia separadamente.
b. Qual a teoria econômica que embasa a relação entre as duas variáveis? O gráfico de disper- são confirma a teoria?
c. Estime uma regressão de MQO de Y contra X. Guarde os resultados para examiná-los no- vamente depois de estudar o Capítulo 5.
TABELA 3.5
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 109
Produção por hora de Remuneração real
todas as pessoas1 por Hora2,3
Setor empresarial não agrícola Setor empresarial não agrícola Setor
empresarial empresarialSetor Ano 1960 48,9 51,9 60,8 63,3 1961 50,6 53,5 62,5 64,8 1962 52,9 55,9 64,6 66,7 1963 55,0 57,8 66,1 68,1 1964 56,8 59,6 67,7 69,3 1965 58,8 61,4 69,1 70,5 1966 61,2 63,6 71,7 72,6 1967 62,5 64,7 73,5 74,5 1968 64,7 66,9 76,2 77,1 1969 65,0 67,0 77,3 78,1 1970 66,3 68,0 78,8 79,2 1971 69,0 70,7 80,2 80,7 1972 71,2 73,1 82,6 83,2 1973 73,4 75,3 84,3 84,7 1974 72,3 74,2 83,3 83,8 1975 74,8 76,2 84,1 84,5 1976 77,1 78,7 86,4 86,6 1977 78,5 80,0 87,6 88,0 1978 79,3 81,0 89,1 89,6 1979 79,3 80,7 89,3 89,7 1980 79,2 80,6 89,1 89,6 1981 80,8 81,7 89,3 89,8 1982 80,1 80,8 90,4 90,8 1983 83,0 84,5 90,3 90,9 1984 85,2 86,1 90,7 91,1 1985 87,1 87,5 92,0 92,2 1986 89,7 90,2 94,9 95,2 1987 90,1 90,6 95,2 95,5 1988 91,5 92,1 96,5 96,7 1989 92,4 92,8 95,0 95,1 1990 94,4 94,5 96,2 96,1 1991 95,9 96,1 97,4 97,4 1992 100,0 100,0 100,0 100,0 1993 100,4 100,4 99,7 99,5 1994 101,3 101,5 99,0 99,1 1995 101,5 102,0 98,7 98,8 1996 104,5 104,7 99,4 99,4 1997 106,5 106,4 100,5 100,3 1998 109,5 109,4 105,2 104,9 1999 112,8 112,5 108,0 107,5 2000 116,1 115,7 112,0 111,5 2001 119,1 118,6 113,5 112,8 2002 124,0 123,5 115,7 115,1 2003 128,7 128,0 117,7 117,1 2004 132,7 131,8 119,0 118,2 2005 135,7 134,9 120,2 119,3
1A produção se refere ao PIB real do setor.
2Salários e ordenados dos empregados mais contribuição dos empregadores à seguridade social e aos planos de aposentadoria privados. 3Remuneração por hora dividida pelo IPC para todos os consumidores urbanos nos trimestres recentes.
TABELA 3.6 Produtividade e dados relacionados, setor empresarial 1960- -2005 (números- índice, 1992 D 100; dados trimestrais sazonalmente ajustados)
Fonte: Economic Report of
the President, 2007,
Tabela 49.
110 Parte Um Modelos de regressão com equação única
3.21. Os seguintes resultados foram obtidos com base em uma amostra de 10 observações:
YiH1.110 Xi H1.700 XiYi H205.500
X2
i H322.000 Yi2 H132.100
com coeficiente de correlação r D 0,9758. Mas, ao conferir esses dados, verificou-se que dois pares de observações tinham sido registrados como:
Y X Y X
90 120 em vez de 80 110
140 220 150 210
Qual será o efeito desse erro sobre r? Calcule o r correto.
3.22. A Tabela 3.7 apresenta dados relativos a preços do ouro, índice de preços ao consumidor (IPC) e o índice NYSE da Bolsa de Valores de Nova York para o período 1974-2006. O índice NYSE inclui mais de 1.500 ações negociadas nessa bolsa.
a. Assinale, em um mesmo diagrama de dispersão, os preços do ouro, o IPC e o índice NYSE.
TABELA 3.7
Preço do ouro, índice Nyse e IPC para os Estados Unidos no período 1974-2006
Ano Preço do Ouro Índice NYSE IPC
1974 159,2600 463,5400 49,30000 1975 161,0200 483,5500 53,80000 1976 124,8400 575,8500 56,90000 1977 157,7100 567,6600 60,60000 1978 193,2200 567,8100 65,20000 1979 306,6800 616,6800 72,60000 1980 612,5600 720,1500 82,40000 1981 460,0300 782,6200 90,90000 1982 375,6700 728,8400 96,50000 1983 424,3500 979,5200 99,60000 1984 360,4800 977,3300 103,9000 1985 317,2600 1142,970 107,6000 1986 367,6600 1438,020 109,6000 1987 446,4600 1709,790 113,6000 1988 436,9400 1585,140 118,3000 1989 381,4400 1903,360 124,0000 1990 383,5100 1939,470 130,7000 1991 362,1100 2181,720 136,2000 1992 343,8200 2421,510 140,3000 1993 359,7700 2638,960 144,5000 1994 384,0000 2687,020 148,2000 1995 384,1700 3078,560 152,4000 1996 387,7700 3787,200 156,9000 1997 331,0200 4827,350 160,5000 1998 294,2400 5818,260 163,0000 1999 278,8800 6546,810 166,6000 2000 279,1100 6805,890 172,2000 2001 274,0400 6397,850 177,1000 2002 309,7300 5578,890 179,9000 2003 363,3800 5447,460 184,0000 2004 409,7200 6612,620 188,9000 2005 444,7400 7349,000 195,3000 2006 603,4600 8357,990 201,6000
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 111
b. Supõe-se que um investimento funcione como proteção contra a inflação se seu preço e/ou sua taxa de retorno acompanha, pelo menos, a taxa de inflação. Para testar essa hipótese, ajuste o seguinte modelo, supondo que o diagrama de dispersão elaborado no item (a) su- giria que isso seja adequado:
Preço do ourot H Ø1C Ø2IPCtCut
Índice NYSEt H Ø1C Ø2IPCtCut
3.23. A Tabela 3.8 apresenta dados do produto interno bruto (PIB) dos Estados Unidos no pe ríodo 1959-2005.
a. Represente graficamente os dados do PIB em dólares correntes e em dólares constan tes (de 2000) em relação ao tempo.
b. Denotando o PIB por Y e o tempo por X (medido em uma sequência cronológica em que l represente 1959, 2, 1960 e assim por diante até 47 para 2005), veja se o seguinte modelo ajusta-se aos dados do PIB:
Yt D Ø1 C Ø2 Xt C ut
Estime este modelo para o PIB nominal e para o PIB real.
c. Como você interpretaria Ø2?
d. Se existe diferença entre o Ø2 estimado para o PIB nominal e para o Ø2 estimado para o PIB
real, o que explica essa diferença?
e. Com base nos resultados obtidos, o que se pode dizer sobre a natureza da inflação america- na durante o período da amostra?
TABELA 3.8
PIB nominal e real, 1959-2005 (em bilhões de dólares, exceto se notificado; dados anuais sazonalmente ajustados com base em valores trimestrais; PIB real em bilhões de dólares encadeados de 2000.)
Ano PIB nominal PIB real Ano PIB nominal PIB real
1959 506,6 2.441,3 1983 3.536,7 5.423,8 1960 526,4 2.501,8 1984 3.933,2 5.813,6 1961 544,7 2.560,0 1985 4.220,3 6.053,7 1962 585,6 2.715,2 1986 4.462,8 6.263,6 1963 617,7 2.834,0 1987 4.739,5 6.475,1 1964 663,6 2.998,6 1988 5.103,8 6.742,7 1965 719,1 3.191,1 1989 5.484,4 6.981,4 1966 787,8 3.399,1 1990 5.803,1 7.112,5 1967 832,6 3.484,6 1991 5.995,9 7.100,5 1968 910,0 3.652,7 1992 6.337,7 7.336,6 1969 984,6 3.765,4 1993 6.657,4 7.532,7 1970 1.038,5 3.771,9 1994 7.072,2 7.835,5 1971 1.127,1 3.898,6 1995 7.397,7 8.031,7 1972 1.238,3 4.105,0 1996 7.816,9 8.328,9 1973 1.382,7 4.341,5 1997 8.304,3 8.703,5 1974 1.500,0 4.319,6 1998 8.747,0 9.066,9 1975 1.638,3 4.311,2 1999 9.268,4 9.470,3 1976 1.825,3 4.540,9 2000 9.817,0 9.817,0 1977 2.030,9 4.750,5 2001 10.128,0 9.890,7 1978 2.294,7 5.015,0 2002 10.469,6 10.048,8 1979 2.563,3 5.173,4 2003 10.960,8 10.301,0 1980 2.789,5 5.161,7 2004 11.712,5 10.703,5 1981 3.128,4 5.291,7 2005 12.455,8 11.048,6 1982 3.255,0 5.189,3
Fonte: Economic Report of the President, 2007. Tabelas B-1 e B-2.
112 Parte Um Modelos de regressão com equação única
3.24. Utilizando os dados da Tabela I.1, verifique a Equação (3.7.1).
3.25. Com base no exemplo do SAT fornecido no Exercício 2.16, faça o seguinte:
a. Represente graficamente a relação entre as notas de homens e mulheres nas provas de aptidão verbal.
b. Se o diagrama de dispersão sugerir que uma relação linear entre as duas variáveis é
apropriada, calcule a regressão da aptidão verbal das mulheres contra a dos homens.
c. Se houver uma relação entre as duas variáveis acima, ela é causal?
3.26. Repita o exercício anterior para as notas de aptidão matemática.
3.27. Estudo de Monte Carlo para sala de aula: consulte os 10 valores de X apresentados na Tabela 3.2. Seja Ø1 D 25 e Ø2 D 0,5. Suponha que ui º N(0, 9), isto é, ui, está distribuído normalmente com média 0 e variância 9. Gere 100 amostras usando esses valores a fim de obter 100 estimativas de Ø1 e Ø2 . Represente graficamente as estimativas. Que conclusões
você pode tirar do estudo de Monte Carlo? Nota: a maioria dos pacotes estatísticos permi- te gerar variáveis aleatórias por meio de distribuições de probabilidade conhecidas. Peça ajuda a seu professor caso tenha dificuldade em gerar tais variáveis.
3.28. Usando os dados da Tabela 3.3, represente graficamente o número de assinantes de operadoras de telefonia móvel contra o número de computadores pessoais em uso. Há alguma relação discernível entre os dois? Se existe, como você justifica essa relação?
Apêndice 3A
3A.1 Derivação dos estimadores de mínimos quadrados
Derivando parcialmente a Equação (3.1.2) em relação a ØO1 e ØO2 , obtemos:@ uO2i @ØO1 D °2 (Yi° ØO1° ØO2Xi) D °2 uOi @ uO2i @ØO2 D °2 (Yi° ØO1° ØO2Xi) XiD °2 uOiXi (1) (2)
Igualando essas equações a zero, depois de simplificação e manipulação algébricas, obtemos os estimado- res dados pelas Equações (3.1.6) e (3.1.7).
3A.2 Propriedades de linearidade e não tendenciosidade
dos estimadores de mínimos quadrados
Com base em (3.1.8), temos:
ØO2H xiYi x2 i H kiYi (3) em que: kiH xi x2 i
que mostra que ØO2 é um estimador linear porque é função linear de Y; na verdade, é uma média ponderada de
Yi, em que os ki são os pesos. Também pode ser demonstrado que ØO1 é um estimador linear.
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 113
As propriedades dos pesos ki são as seguintes:
1. Como os Xi são considerados não estocásticos, os ki também são não estocásticos. 2. kiD0.
3. k2i H1 x2i.
4. kixiH kiXiD1. Essas propriedades decorrem diretamente da definição de ki. Por exemplo, kiD xi x2 i D 1 x2 i
xi, uma vez que, para uma dada amostra, xi2é conhecida
D0, já que xi, a soma dos desvios em relação à média, é sempre zero.
Agora substitua a FRP Yi D Ø1 C Ø2 Xi C ui, na Equação (3) para obter ØO2H ki(Ø1C Ø2XiCui)
H Ø1 kiC Ø2 kiXiC kiui H Ø2C kiui
(4)
em que se usam as propriedades de ki mencionadas anteriormente.
Agora, tomando a esperança da Equação (4) dos dois lados da equação e observando que os ki, sendo não estocásticos, podem ser tratados como constantes, obtemos:
E(ØO2) H Ø2C kiE(ui)
H Ø2 (5)
Já que E(ui) D 0 por hipótese. Portanto, ØO2 é um estimador não viesado de Ø2. Do mesmo modo, é possível
provar que ØO1 também é um estimador não viesado de Ø1.
3A.3 Variâncias e erros padrão dos estimadores de
mínimos quadrados
Agora, segundo a definição de variância, podemos escrever var (ØO2) D E[ØO2°E(ØO2)]2
DE(ØO2° Ø2)2 uma vez que E(ØO2) D Ø2
DE kiui 2
usando a Equação (4) acima DE k2
1u21Ck22u22C ¢ ¢ ¢ Ck2nu2nC2k1k2u1u2C ¢ ¢ ¢ C2kn°1knun°1un
(6)
Da hipótese E(ui2) D σ2 para cada i e E(u
i,uj) D 0, i ≠ j, segue-se que var (ØO2) H æ2 k2i H æ 2 x2 i (usando a definição de k2 i) H Equação (3.3.1) (7)
A variância de ØO1 pode ser obtida seguindo a mesma linha de raciocínio já apresentada. Uma vez obtidas as
114 Parte Um Modelos de regressão com equação única 114 Parte Um Modelos de regressão com equação única
3A.4 Covariância entre ØO
1e ØO
2 Por definição,cov (ØO1, ØO2) D Ef[ØO1°E(ØO1)][ØO2°E(ØO2)]g
DE(ØO1° ØO1)(ØO2° ØO2) (Por quê?)
D X–E (ØO2° ØO2)2 D X–var (ØO2) DEquação (3.3.9) ° ° (8)
em que usamos o fato de que ØO1 = Y – ° ØO2X – e E(ØO1) = Y – ° Ø2 X –
, o que resulta em ØO1 ° E(ØO1) = °X –
(ØO2 ° Ø2).
Nota: var (ØO2) é dada na Equação (3.3.1).
3A.5 Estimador de mínimos quadrados de æ
2Lembre-se de que: Yi D Ø1C Ø2 Xi C ui (9) Portanto, Y–D Ø1C Ø2X – Cu– (10) Subtraindo (10) de (9), obtemos: yiD Ø2xiC(ui°u–) (11)
Lembre-se também de que:
uOiDyi° ØO2xi (12)
Portanto, substituindo a Equação (11) na Equação (12), obtemos:
uOiD Ø2xiC(ui°u–) ° ØO2xi (13)
Reunindo os termos, elevando ao quadrado e somando os dois lados, obtemos
uO2iD(ØO2° Ø2)2 xi2C (ui°u–)2°2(ØO2° Ø2) xi(ui°u–) (14) Considerando a esperança dos dois lados, temos
E uO2i D xi2E(ØO2° Ø2)2CE (ui°u–)2 °2E (ØO2° Ø2) xi(ui°u–) D xi2var (ØO2) C (n ° 1) var (ui) ° 2E kiui(xiui)
D æ2C(n ° 1) æ2°2E k ixiu2i D æ2C(n ° 1) æ2°2æ2
D(n ° 2)æ2
(15)
em que, no penúltimo passo, fazemos uso da definição de ki, dada na Equação (3) e da relação dada na Equação (4). Note também que
Capítulo 3 Modelo de regressão de duas variáveis: o problema da estimação 115 E (ui°u–)2HE u2i°nu–2 HE u2 i°n ui n 2 HE u2 i° 1 n u 2 i Hnæ2°n næ 2H(n ° 1)æ2
que se embasa no fato de os ui serem não correlacionados e de que a variância de cada ui é æ2.
Assim, obtemos E uO2 i D(n ° 2)æ2 (16) Portanto, se definirmos æO2H uO 2 i n ° 2 (17)
seu valor esperado é
E(æO2) D 1
n ° 2E uO
2
i D æ2 usando a Equação (16) (18)
o que mostra que æO 2 é um estimador não viesado do verdadeiro æ 2.
3A.6 Propriedade da variância mínima dos estimadores de
mínimos quadrados
Mostramos na Seção 3A.2 do Apêndice 3A que o estimador de mínimos quadrados ØO2 é linear e não
viesado (o que também se aplica a ØO1). Para mostrar que esses estimadores também apresentam variância
mínima dentro da classe de todos os estimadores lineares não viesados, considere o estimador de mínimos quadrados ØO2: ØO2D kiYi Onde kiD Xi°X – ( Xi°X–)2 D xi x2 i
(veja Apêndice 3A.2) (19)
que mostra que ØO2 é uma média ponderada de todos os Y, com peso ki.
Vamos definir um estimador linear alternativo de Ø2 do seguinte modo:
Ø2* H wiYi (20)
onde wi, também são pesos, não necessariamente iguais a ki. Agora,
E(Ø2) D wiE(Yi) D wi(Ø1C Ø2Xi) D Ø1 wiC Ø2 wiXi *
(21)
Portanto, para que Ø *2 seja não viesado, é preciso que
116 Parte Um Modelos de regressão com equação única
e
wiXiD1 (23)
Também podemos escrever var (Ø2) D var wiYi
D w2ivar Yi (Nota:var YiDvar uiD æ2) D æ2 w2 i (Nota:cov (Yi, Yj) D 0 (i H j)) D æ2 wi° xi x2 i C xi x2 i 2
(Observe o truque matemático)
D æ2 wi° xi x2 i 2 C æ2 x 2 i x2 i 2 C2æ2 wi° xi x2 i xi x2 i D æ2 wi° xi x2 i 2 C æ2 1 x2 i * (24)
porque o último termo desaparece no penúltimo passo. (Por quê?)
Como o último termo da Equação (24) é constante, a variância de (Ø *2) pode ser minimizada apenas pela manipulação do primeiro termo. Se fizermos
wiD xi x2 i a Equação (24) reduz-se a var (ا 2) D æ2 x2 i Dvar (ØO 2) (25)
Em palavras, com pesos wi, D ki, que são as ponderações de mínimos quadrados, a variância do estimador linear Ø *2 é igual à variância do estimador de mínimos quadrados, senão, var (Ø *2) > var(ØO2). Dito de outro
modo, se houver um estimador linear não viesado de variância mínima de Ø2, deve ser o estimador de mínimos