• Nenhum resultado encontrado

Suposições da regressão multivariada e como TSCS pode violá-las

PARTE I FUNDAMENTAÇÃO E DESENHO DE PESQUISA

3 FUNDAMENTAÇÃO METODOLÓGICA

3.3.3 Suposições da regressão multivariada e como TSCS pode violá-las

Proponho abaixo uma breve recapitulação dos pressupostos de regressões lineares, do tipo Ordinary Least Squares (OLS), como ponto de partida para abordar os problemas de regressões TSCS. De acordo com Wooldridge (2013, p. 59,119) os principais pressupostos para OLS podem ser resumidos em seis. As suposições de 1 a 5 configuram as chamadas premissas de Gauss-Markov e a 1 a 6 as premissas lineares clássicas: (1) Há uma relação linear entre a VD e as VIs; (2) Ausência de multicolinearidade (“full rank”): não há relação colinear perfeita entre as VIs do modelo;59 (3) Exogeneidade das VIs (ou “independência da média” ou “média condicional zero”): o erro ou ruído em cada observação não deve ser uma função das VIs. Ou seja, o erro é aleatório e nenhuma das VIs no modelo porta informação a respeito do seu valor;60 (4) Homocedasticidade: há variância uniforme dos resíduos e os resíduos não são correlacionados uns com os outros. Se por algum motivo em um segmento dos dados a variância dos resíduos muda em sintonia com os valores das variáveis explicativas, há heteroscedasticidade;61 (5) Amostra aleatória (ou “ausência de erro sistemático de mensuração”); e (6) Distribuição normal dos erros.

Se as premissas Gaus-Markov (1-5) são respeitadas, pode-se dizer que os parâmetros estimados da OLS são os Best Linear Unbiased Estimators (ou BLUE) dos parâmetros

59 Como explicam Figueiredo Filho et al. (2011, p. 57–58), o dano provocado pela multicolinearidade é o aumento da variância dos parâmetros da regressão. Isso reduz o volume de informação disponível para estimar os coeficientes das variáveis de interesse, e assim compromete o cálculo do erro padrão de cada variável. Entretanto, Woolridge (2013, p. 94–98) adverte que, em se tratando de dados observacionais, dificilmente haverá total independência entre as VIs. Alguma medida de correlação é sempre esperada, sendo a correlação perfeita a única de todo inadmissível.

60 Quando esse pressuposto não é observado, tem-se o viés de variável omitida. Se o fenômeno estudado é melhor descrito por um conjunto de variáveis e alguma dessas é deixada de fora da equação, o efeito das variáveis preservadas no modelo será ou sobre ou subestimado. Essa distância para mais ou para menos no parâmetro caracteriza um viés. Alternativamente, a inclusão de mais variáveis no modelo não conduz ao viés. Mesmo assim, se for uma variável que não tenha relação com a VD (uma variável “inútil”), ela irá tornar os parâmetros menos eficientes já que aumentará a variância do parâmetro (WOOLDRIDGE, 2013, p. 88)

61 Em outras palavras, o modelo se encaixa melhor a certas porções dos dados e não a outras. Heteroscedasticidade não leva a viés ou inconsistência de estimadores OLS, porém por interferir na distribuição das variâncias impossibilita a construção de intervalos de confiança e testes de significância (WOOLDRIDGE, 2013, p. 268– 269).

populacionais. “Best” porque possuem a menor variância já que há (4) homocedasticidade (variância uniforme dos resíduos); “Linear” por conta da relação linear (1); e “Unbiased” porque não há viés no parâmetro, já que as VIs são exógenas e não afetam no erro (3).

Porém, modelos TSCS tendem a infringir essas suposições. Por combinarem tanto séries temporais quanto comparações transversais, herdam também os problemas de ambos os tipos de dados.

Os problemas dos modelos TSCS podem ser divididos entre os dinâmicos e os espaciais. Questões temporais tendem a ser mais graves para TSCS por pelo menos dois motivos. Primeiro, os remédios estatísticos para os problemas em TSCS são atualmente mais desenvolvidos para questões espaciais. Também, para dados em painel em que o N é muito maior que o T, a principal preocupação é com heterogeneidade não-mensurada entre os casos. Essa é a grande fonte de viés e inconsistência. Já em dados em que o T é maior que o N, como no caso de TSCS, heterocedasticidade e correlação serial de erros são as ameaças centrais (HARGENS, 2011).

Assim, a literatura geralmente recomenda atentar em primeiro lugar para os seguintes problemas temporais dos dados.

Correlação serial dos resíduos: a correlação entre os resíduos no momento t e t-1 viola

o requisito da homocedasticidade (4) e é uma das características persistentes de modelos TSCS. Isso pois, como George Box et al. (2016) advertem, uma característica intrínsecas das séries temporais é que observações adjacentes são dependentes. A correlação serial deve ser detectada, por meio de alguns testes disponíveis, e solucionada antes de seguir adiante tratando dos problemas espaciais. Soluções recomendadas incluem adicionar a VD em lag62 ou aplicar first

differences (vide Seção 3.3.4 mais abaixo).

Estacionariedade: uma série temporal é estacionária quando está em equilíbrio

estatístico, isto é, apresenta média e variância constantes ao longo do tempo. Ainda que os valores oscilem, tenderão a retornar a média. É não-estacionária quando a média e variância não são constantes, ou seja, a série não tende a retornar a uma média anterior após desvios (BOX et al., 2016, p. 7; FORTIN-RITTBERGER, 2013). Como a não-estacionariedade pode ser entendida como um efeito persistente de choques anteriores, viola os pressupostos de

62 Recomenda-se a inserção de uma lagged dependente variable (LDV), supondo que o processo pode ser auto- regressivo de primeira ordem, o chamado “AR(1)”, e após isso fazer novo teste para verificar se autocorrelação foi eliminada (BECK, 2001). Porém, tal solução foi criticado por Achen (2000, p. 14), afirmando que a LDV pode absorver todo o poder explicativo das demais VIs e assim produzir viés. Quando os regressores possuem alguma tendência, a introdução de uma LDV irá dominar a regressão. O coeficiente da LDV será viesado para cima e o dos demais regressores para baixo. Também não é recomendável quando o T é pequeno, pois inutiliza um período de análise.

exogeneidade (3) e homocedasticidade (4). Há diferentes testes disponíveis para verificar não- estacionaridade: função de autocorrelação (ACF), função de autocorrelação parcial (PACF) e testes de raiz unitária. Um problema em TSCS é que geralmente estes têm um T curto demais (ex.: 10 a 20) para permitir a aplicação dos testes clássicos de análises de séries temporais. Se a série for não-estacionária, soluções incluem fazer first differences e incluir uma variável do tempo (trend), especialmente em casos de não-estacionariedade por tendência (FORTIN- RITTBERGER, 2013).

Observemos agora os aspectos espaciais. Ao analisar conjuntamente vários países, as discrepâncias entre estes normalmente serão uma fonte de problemas. Modelos OLS partilham da expectativa de homogeneidade de unidades e supõe que todas elas podem ser encaixadas no mesmo modelo. Supõem também que as unidades são independentes. É comum haver violações destas expectativas, em primeiro lugar, por conta da heterogeneidade entre os países e, em segundo, por conta da interdependência crescente entre eles (FORTIN-RITTBERGER, 2013).

Heterogeneidade: TSCS supõe que as unidades são homogêneas. Quaisquer

características peculiares são explicadas pelas VIs. Se há características inerentes às unidades que se preservam ao longo do tempo, há heterogeneidade. Isto é, uma ou alguma das unidades inseridas no modelo possuem características distintivas que, não tendo sido modeladas, irão alojar-se no termo de erro e assim provocar correlações entre este e as demais variáveis (KING, 2001, p. 499). Heterogeneidade viola, desse modo, os pressupostos de exogeneidade das VIs (3) e homoscedasticidade (4). Se houver heterogeneidade, normalmente será indevido supor que há um só intercepto para toda a população, como geralmente os modelos OLS fazem. Se cada unidade possui características fixas impactantes, a ausência de interceptos próprios a cada uma levará a uma linha de regressão equivocada (FORTIN-RITTBERGER, 2013).

King (2001, p. 498) chama a atenção para a dificuldade de estudos estatísticos em RI, de modo geral, evitarem a heterogeneidade. Segundo o autor, uma premissa tácita das investigações estatísticas é a “intercambialidade”, isto é, após se ter compilado todas as variáveis explanatórias, saber o nome dos países não deveria fazer diferença nas previsões do modelo. Contudo, países diferem de forma tão expressiva entre si que, de fato, para muitos fenômenos, uma vez esgotadas todas as VIs previstas na teoria, muito ainda se explicará tão somente porque um país “é quem é”.

As últimas três dificuldades espaciais comprometem principalmente a homoscedasticidade (4) e a normalidade dos erros (6).

Heteroscedasticidade de painel: os resíduos precisam ter variância constante em

resíduos têm variância constante ao longo do tempo para cada unidade (within unit), mas inconstante entre as unidades (across units). Dito de outra forma, cada país terá sua própria variância de resíduo. Ela pode decorrer de má especificação do modelo ou só um ou dois países não se encaixarem bem na especificação.

Correlação contemporânea de erros: o erro de um país está correlacionado com o erro

de outros países para o mesmo ano. Se, por exemplo, um choque externo não incluso no modelo incide em um ano e afeta várias unidades ao mesmo tempo, os resíduos das unidades para este período terão variância diferente dos demais períodos.

Estruturas complexas de dependência: King (2001) adverte que dificilmente se pode

esperar que os valores de uma variável, por exemplo, comércio entre Brasil e Uruguai, não terão relação com os da díade Brasil e Equador. Países estão interrelacionados de formas complexas e, portanto, é de se esperar que uma determinada díade sob análise esteja sofrendo impactos de um país terceiro. Outra manifestação deste problema se dá, por exemplo, quando há correlação espacial ou geográfica entre unidades. Ou seja, a contiguidade ou proximidade entre países os expõe a mais eventos em comum e, por não ser algo aleatório, pode levar a vieses nas estimações (FORTIN-RITTBERGER, 2013).