• Nenhum resultado encontrado

Análise dos pressupostos da regressão e testes aplicados

Capítulo 5. Resultados e discussão

5.2. Análise dos pressupostos da regressão e testes aplicados

A aplicação do modelo de regressão linear múltipla em dados em painel pressupõe a verificação de diversos pressupostos: Se algum destes não forem válidos existe um erro de especificação, existindo diferenças nas implicações que estes erros possam ter (Johnston e DiNardo 2001). Os pressupostos abrangem (Johnston e DiNardo 2001; Webster 2007; Murteira et al. 2010):

a) Linearidade em parâmetros e especificação correta do modelo;

b) Normalidade dos resíduos (de valor esperado zero e variância constante); c) Ausência de multicolinariedade;

d) Ausência de autocorrelação dos resíduos;

e) Homocedasticidade dos resíduos ou ausência de heterocedasticidade (variância dos resíduos é constante);

f) Ausência de endogeneidade (valor esperado da variável residual condicionada pela matriz dos regressores é nulo).

No que diz respeito ao teste da normalidade (com média zero e variância constante), a ausência de cumprimento deste pressuposto não é tão grave como outros, e alguns autores recomendam mesmo não testar este pressuposto (Gelman e Hill 2007), correspondendo portanto à abordagem que se adotou. De acordo com Maas e Hox (2004), violações moderadas de pressupostos da análise da regressão linear, incluindo a distribuição normal de resíduos, não serão problemáticas, particularmente em contexto de amostras em que a sua dimensão não seja demasiado pequena. A este respeito Box (1976) refere mesmo que “na natureza, nunca existiu uma distribuição normal” (p. 792)41.

O diagnóstico, assim como as respetivas correções (se aplicáveis) dos pressupostos relativos à ausência de multicolinearidade, ausência de autocorrelação e ausência de heterocedasticidade (homocedasticidade) serão apresentados nos apêndices. De seguida, apresenta-se o suporte teórico à aplicação do diagnóstico e correções para cada tipo de pressuposto.

41 A citação original e integral refere concretamente: “(...) the statistician knows, for example that in

nature there never was a normal distribution, there never was a straight line, yet with normal and linear assumptions, known to be false, he can often derive results which match, to a useful approximation, those found in the real world” (Box 1976, p. 792).

97

A existência de casos de elevada multicolinearidade poderá resultar em estimadores OLS com grande variância e covariância que dificultam a obtenção de estimações mais precisas, intervalos de confiança mais amplos, “estatísticas t” estatisticamente insignificantes, valores elevados de R2 mas com menos “estatísticas t” significativas e estimadores OLS e erros-padrão mais sensíveis a pequenas alterações nos dados (Gujarati 2006). Para detetar a presença de multicolinearidade, recorreu-se à criação de uma matriz de correlação (vd. apêndice 4)42 entre as diferentes variáveis, mas com o foco da análise a recair para as correlações entre regressores com valores superiores a 0,8 (Gujarati 2006). Este método tem apenas um cariz indicativo. Para adotar uma abordagem mais formal, aplicou-se também o teste VIF (variance inflation factor), que indicia a presença de multicolinearidade quando o valor de VIF de uma determinada variável for superior a 10 (Gujarati 2006). Os testes aplicados (vd. apêndice 4) não indiciaram a presença de multicolinearidade, pelo que não se aplicaram medidas corretivas (e.g. exclusão de variáveis, transformação de variáveis, análise fatorial e componentes principais) (Gujarati 2006).

Antes da aplicação do diagnóstico da eventual existência de autocorrelação e heterocedasticidade, efetuou-se a escolha sobre o método de estimação: isto é, teve-se que optar por efetuar a estimação entre pooled OLS, efeitos fixos ou efeitos aleatórios. Os testes associados a cada regressão encontram-se, igualmente, nos apêndices (n.º 5 a 38)43, excetuando-se o caso do teste à multicolinearidade que se apresentou no apêndice 4

Nas primeiras três fases, aplicaram-se testes para a escolha do melhor estimador: se estimação por pooled OLS, com efeitos aleatórios ou com efeitos fixos. O teste de Hausman foi utilizado com o intuito de escolher entre efeitos aleatórios e efeitos fixos, sendo a hipótese nula que os efeitos aleatórios é o estimador mais adequado (Gujarati 2006). Por sua vez, o teste LM de Breusch-Pagan serviu para optar entre pooled OLS e efeitos aleatórios, sendo a hipótese nula que pooled OLS é o estimador mais adequado

42 Atente-se que a matriz de correlação também apresenta as variáveis dependentes - que, obviamente,

não devem ser consideradas para o âmbito do estudo da multicolinearidade entre regressores -, mas que optou-se por apresentar pelo interesse em termos de estatística descritiva. De igual forma, deve excluir-se da análise, correlações entre proxies similares para o mesmo objetivo. A apresentação de uma única tabela tem apenas o objetivo de reduzir a dimensão do presente estudo.

43 Apenas no primeiro caso, se optou por destacar o output integral. A partir daí, optou-se apenas por

destacar a parte relevante de cada teste. Tal metodologia deve-se também à necessidade de manter uma dimensão razoável do estudo. Todo o processo de teste e de estimação está naturalmente disponível a pedido.

98

(Adkins e Hill 2011). Finalmente, aplicou-se o teste de Chow para escolher entre pooled OLS e efeitos fixos, sendo também que a hipótese nula é que pooled OLS é o estimador mais adequado. Note-se que quando se recorre à estimação pelo software Stata, este teste para aferir a significância dos efeitos fixos aparece juntamente com o output do comando xtreg, fe (Baltagi 2013).

Quanto à autocorrelação, esta ocorre quando os resíduos não são independentes, ou seja quando E(ui,uj) ≠ 0, para i ≠ j. A ausência pressupõe que “o termo de erro relacionado

a qualquer observação não é influenciado pelo termo de erro de qualquer outra observação” (Gujarati 2006, p. 358). A deteção foi efetuada recorrendo ao teste de Wooldridge para testar a hipótese nula de que não existe autocorrelação na especificação (Drukker 2003). A hipótese nula de ausência de autocorrelação foi rejeitada a níveis de significância de 5%.

Por sua vez, a natureza da homocedasticidade reside no facto da “variância de cada termo de erro ui, condicionado aos valores selecionados das variáveis explicativas é

algum número constante igual a σ2” (Gujarati 2006, p. 313). Em termos matemáticos:

E(ui) = σ2, para i = 1, 2, ..., n. Por outro lado, existe heterocedasticidade quando E(ui) =

σi2 (variâncias condicionais de ui deixaram de ser constantes) (Gujarati 2006). As causas

da heterocedasticidade podem ser várias, entre as quais, a presença de observações com valores muito diferentes das demais, assimetria na distribuição de regressores, entre outros (Gujarati 2006). Neste sentido, procedeu-se à verificação da presença da heterocedasticidade recorrendo ao teste de Levene para a igualdade de variâncias aplicado aos termos de erro, sendo a hipótese nula a de que as variâncias são iguais (Stata n.d.). Como as estimações XIX e XXII realizaram-se por intermédio de efeitos fixos, conseguiu aplicar-se o teste modificado de Wald, em que a hipótese nula é respeitante à homocedasticidade dos resíduos (Baum 2001). A hipótese nula de homocedasticidade dos resíduos foi rejeitada a níveis de significância de 5%.

No que diz respeito à aplicação de correções no caso de existir autocorrelação e heterocedasticidade, efetuaram-se as estimações com a opção de erros-padrão robustos à semelhança de outros estudos (Nikolova 2014; Firth et al. 2015).

Aquando da referência à análise à presença de heterocedasticidade abordou-se a possibilidade de existirem observações muito diferentes das demais observações do

99

painel. A este respeito, convém salvaguardar que “o efeito de outliers na análise de um painel de dados depende fortemente do mecanismo pelos quais se acredita que os outliers são criados” (Hawkins 1980, p. 3). Por conseguinte, os outliers podem ser observações válidas. Neste sentido, o foco deste estudo incidiu na análise das estimações sem a eliminação de valores discrepantes, porque estes não indiciaram erros de codificação ou de má comunicação. A eliminação de outliers44 poderia assim criar um enviesamento indesejável nos resultados.