1
Econometria Parte II
Introdução à Regressão Linear
Métodos Quantitativos Aplicados à
Contabilidade (MQAC)
Premissas
• Voltamos às premissas da regressão linear simples para uma análise mais detalhada.
3 Premissas da Regressão Linear
•
Os resíduos têm média zero
A variância dos resíduos é constante e finita
Os resíduos são estatisticamente
Exemplo (exercício nº 2)
• Regressão com intercepto
• Regressão sem intercepto
• ;
• Conclusão: , logo E(ût) 0 violação da premissa nº 1.
Exemplo (exercício nº 2)
• Beta sem intercepto – minimização em relação a : •
•
• Portanto, no exercício 2, sem intercepto: •
Exemplo (exercício nº 2)
• Gráfico com intercepto x sem intercepto
0.5 1 1.5 2 2.5 3 3.5 0
0.5 1 1.5 2 2.5
f(x) = 0.7 x f(x) = 0.5 x + 0.5
Exemplo (exercício nº 2)
•
A omissão do intercepto causou um viés (
v
) na
inclinação (
:
•
Conclusão:
1. A omissão do intercepto pode provocar a violação da premissa nº 1, o que causará um viés em , a menos que , o que só ocorrerá por mera
coincidência.
2. Portanto, nunca se deve omitir o intercepto em uma regressão, mesmo quando ele não for
significativamente diferente de zero! •
Coeficiente de determinação: R
2• A qualidade ou poder explicativo de uma regressão é medido pelo coeficiente de determinação (R2) da
regressão:
• Na formula do R2, o numerador da fração indica quanto da variável dependente não pode ser explicada (resíduos),
portanto a fração indica a relação entre o que não pode ser explicado pelo máximo que pode ser explicado.
• Assim, o R2 determina a relação entre o que pode ser explicado e o máximo que pode ser explicado.
Coeficiente de determinação: R
2-
Exemplo
• No exercício 2, temos:
R2 = 0.5833
• Isso pode ser interpretado como: a regressão explica 58.33% das variações na variável dependente.
• A regressão não consegue explicar 1 – 58.33% = 41.67% das variações na variável dependente.
•
Coeficiente de determinação: R
2-
Exemplo
• Observações1) Se a regressão fosse perfeita, isto é, todos os pontos situados na reta, os resíduos seriam todos iguais a zero R2 = 1
2) Se a regressão não indica nenhuma tendência linear, isto é, os pontos formam uma nuvem totalmente aleatória, então R2 = 0
3) Regressões com R2 elevado são boas e as com R2 próximos de zero são
ruins.
4) Entretanto, cuidado!! Regressões com R2 muito elevados (próximos de
1) são fortemente suspeitas de serem regressões espúrias.
5) Para raciocinar: o que acontece se os pontos estiverem situados na reta, mas a reta tem inclinação zero?
Premissa nº 2: Homoscedasticidade
dos resíduos
• Interpretação: a variância dos resíduos é constante e finita os resíduos são homoscedásticos. Se houver violação, isto é, então os resíduos são
heteroscedásticos.
• Consequências: os estimadores de OLS deixam de ser BLUE, pois a suas variâncias não serão mínimas.
•
Premissa nº 2: Homoscedasticidade
dos resíduos
• Teste de White: é o teste mais popular para homoscedasticidade dos resíduos.
• Procedimento:
1. Rodar a regressão e salvar os resíduos ût 2. Rodar a regressão auxiliar:
3. e obter o seu R2
4. A estatística teste W = TxR2 tem distribuição Qui-quadrado 2
com nº de graus de liberdade m = nº de parâmetros exceto o intercepto, m = 2.
5. A distribuição 2 só permite teste unicaudal, pois ela é
assimétrica.
Exemplo: exercício 2 - teste de
White
• H0: homoscedasticidade
• H1: heteroscedasticidade
• Regressão auxiliar:
R2 = 0.6785; T = 5
TxR2 = 3.3928
Valor crítico (5%, m = 2) = 5.991
Como corrigir o problema de
heteroscedasticidade
• Quando há heteroscedasticidade, os erros-padrão dos coeficientes são viesados para cima, podendo gerar erros de inferência.
• Para corrigir o problema, pode-se utilizar o estimador de White, que gera erros-padrão robustos em caso de
heteroscedasticidade, mas isso não será visto nesse curso.
• Pode-se usar o estimador de Newey-West, que também gera erros-padrão robustos em caso de
Premissa nº 3: ausência de
autocorrelação
• As covariâncias entre diferentes resíduos de uma
regressão são iguais a zero, ou seja, todos os resíduos de uma regressão são independentes entre si.
• Consequências da violação: as variâncias dos
coeficientes (e seus erros-padrão) não serão mínimas, isto é os erros-padrão estarão viesados para cima e as estatísticas t estarão viesadas para baixo. Então, os
estimadores não serão BLUE.
• Possivelmente, ocorrerão erros de inferência. •
Premissa nº 3: ausência de
autocorrelação – Como testar?
• O teste mais simples para autocorrelação é o teste de Durbin-Watson, cuja fórmula é:
• A especificação do teste é H0: não há autocorrelação x H1: há autocorrelação.
21
O teste de Durbin-Watson: Interpretação dos resultados
Rejeita H0 Autocorrela ção
positiva
Inconclusi
vo Não rejeita H0:Não há evidência de AC
Inconclusi
Durbin-Watson test exercise
• An OLS regression produced regression residuals given by:
• Calculate the DW statistic and perform the Durbin-Watson test. For a
significance level of 5%, T = 5 and 2 parameters excluding the constant
term use dL = 0.467 and dU = 1.896.
• What is the test result at the 5% level?
• Solution: DW= 1.6; dL=0.467; dU=1.896; 4–dL=3.531; 4–dU=2.103.
• The test is inconclusive..
1 2 2 3 3
t t t
y x x u
( 2.2 0.5 0.5 1.5 0.7)'
Exercício:
Como corrigir a estimação quando
há AC?
• Quando há AC, os erros-padrão são viesados para cima, podendo gerar erros de inferência.
• Se o teste de DW revela indícios de AC, o que fazer para corrigir o problema?
1. Método de Cochrane-Orcutt (não será abordado)
O estimador de Newey-West
• Esse estimador gera erros-padrão robustos quando há heteroscedasticidade e/ou autocorrelação dos resíduos. • Foi desenvolvido por Whitney K. Newey and Kenneth D.
West em 1987.
• Referência: A Simple, Positive Semi-Definite,
Heteroskedasticity and Autocorrelation Consistent Covariance Matrix, Econometrica, vol. 55, no. 3.
https://core.ac.uk/download/pdf/6894872.pdf
O estimador de Newey-West
• Estime a regressão desejada e obtenha ût e os erros-padrão • Estime uma regressão auxiliar de xt em função de apenas
um intercepto e obtenha os resíduos dessa regressão • Calcule os valores
• Calcule • Calcule
• O fator de correção deve ser incluído em amostras pequenas.
Exercício: teste de autocorrelação, teste de
heteroscedasticidade, estimador de NW
• Dada uma regressão, verificar a presença de heteroscedasticidade e/ou autocorrelação
• Caso exista AC ou HEC
• Suponhamos a seguinte regressão:
Exercício (cont.)
•
Teste de White (a 25%):
•
Regressão auxiliar:
• R2 = 0.82
• T = 5
• Est. Teste =5*0.82 = 4.10
• Valor crítico 2 a 25% = 2.773
• Resultado: rejeita-se H0 há evidências de heteroscedasticidade
Exercício (cont.)
• Teste de DW:
• Resultado: não se rejeita H0 não há evidências de AC
Exercício (cont.): não há evidências
de AC, mas sim de HEC (10%)
Estimador de NW
Premissa nº 4:
cov
(
u
t,
x
t) = 0
• A covariância entre os resíduos e a variável explanatória é zero, ou
seja, os resíduos e a variável explanatória são independentes entre si.
• Outra forma: a variável independente xt é não estocástica. • Outra forma: a variável independente xt é exógena.
• Obs.:
• variáveis endógenas são geradas dentro do sistema (exemplo: lucros, PL, ativo circulante, exigível de LP, ou seja, contas patrimoniais de balanço, DRE, etc)
• variáveis exógenas são geradas fora do sistema (exemplo: PIB, taxa de juros, taxa de câmbio, dívida pública, risco-país, ou seja, variáveis
macroeconômicas)
Premissa nº 4:
cov
(
u
t,
x
t) = 0 -
violação
• A violação dessa premissa provoca viés nos coeficientes da regressão, isto é, os coeficientes estarão errados em relação aos coeficientes verdadeiros e serão não BLUE. • Se a variável explanatória é endógena, ocorre um
feedback entre a variável dependente e a explanatória. É este feedback que provoca o viés.
Premissa nº 4:
cov
(
u
t,
x
t) = 0 – teste
e soluções possíveis
• Existe o teste de endogeneidade de Hausman, que é usado para testar se a variável independente é
endógena, mas esse teste está fora do escopo desta disciplina, pois teríamos que usar regressão múltipla, com matrizes.
• Mesmo que a variável independente seja endógena, ainda é possível estimar a regressão, através de
métodos diferentes dos mínimos quadrados, tais como mínimos quadrados em 2 estágios, método dos
momentos generalizados (GMM) ou máxima
verossimilhança, que também estão além do nível desta
Premissa nº 4:
cov
(
u
t,
x
t) = 0 –
solução para a violação
• No âmbito desta disciplina, a solução é evitar criar um modelo em que a variável independente seja endógena. • Como fazer isso? Através do conhecimento prévio da
Premissa nº 5:
u
t
N(0,
2)
• Interpretação: os resíduos da regressão devem ter distribuição de probabilidades normal (gaussiana).
• Isso permite que se possa fazer inferências estatísticas, isto é, realizar testes de hipóteses com as distribuições t-Student, F e 2. Caso contrário, não é possível fazer essas inferências.
Premissa nº 5: Teste de normalidade dos resíduos
• Um dos testes mais utilizados é o teste de normalidade de Jarque-Bera • A estatística-teste é , onde
= coeficiente de assimetria; = coeficiente de curtose
• A estatística teste tem distribuição 2 com 2 graus de liberdade.
• A especificação do teste é: H0: os resíduos têm distribuição normal x H1: os resíduos não têm distribuição normal. • Se a estatística-tese < valor crítico, não se rejeita H0; caso contrário rejeita-se H0.
b1 E u3
2 3 2
[ ]/
b2 E u
4 2 2 [ ] 2 2 2 2
1 3 ~ 2
6 24
b b
W T
Exemplo do teste de Jarque-Bera
39
O que fazer se houver não-normalidade dos resíduos
• Consequências de não-normalidade dos resíduos: não é possível fazer
testes de significância usando as distribuições t, F, 2
• Como corrigir:
• Usar variáveis dummy para eliminar outliers • Utilizar amostras grandes
• Outliers são observações atípicas com pontos muito afastados da reta, ou seja, resíduos muito grandes (positivos ou negativos)
• Variáveis dummy são variáveis que assumem valor de 1 no ponto onde
Usando
dummies
para eliminar
outliers
:
. . .
• O gráfico mostra 2 outliers
• A tabela à direita mostra a construção das variáveis dummy 1 e 2 com o valor de 1 nas datas dos
outliers 1 e 2, respectivamente, e zero nas demais datas.
• A equação de regressão ficaria:
• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Outlier 2 Outlier 1
Usando
dummies
para eliminar
outliers
:
• As variáveis dummy 1 e 2 irão eliminar os outliers 1 e 2,
respectivamente e, se forem esses outliers os responsáveis pela não normalidade dos resíduos, a distribuição dos mesmos deverá tornar-se normal (é necessário testar novamente com o Bera-Jarque após rodar a nova regressão)
• Se houver mais do que 2 ou 3 outliers significativos, é melhor não fazer nada, pois é possível que o modelo seja ruim e não esteja
explicando satisfatoriamente os dados
Regressões espúrias
• Regressões espúrias são regressões sem sentido, pois ocorre quando não há relação entre a variável dependente e a independente.
• Por mero acaso estatístico, essas regressões podem gerar R2 muito
elevado, próximo de 1.
• Com base em simulações, Granger e Newbold fizeram um trabalho que permitiu criar uma regra prática para descartar regressões
espúrias.
• Regra de Granger e Newbold: numa regressão, se R2 > DW, há fortes
indícios de regressão espúria.
• Ref.: C.W.J. Granger and P. Newbold. Spurious Regressions in Econometrics. Journal of Econometrics 2 (1974) 111-120.
https://wolfweb.unr.edu/~zal/STAT758/Granger_Newbold_1974.pdf
Regressões espúrias
Regressões espúrias
Regressões espúrias: como corrigir
• Para corrigir regressões espúrias, é necessário aplicar o operador de 1ª diferença nas duas variáveis da
regressão, y e x.
• Operador de 1ª diferença: e
• Portanto, a regressão transforma-se em
• Geralmente, essa transformação elimina o problema de regressão espúria.
•