Variáveis explicativas endógenas - Efeitos do crescimento e redução da desigualdade de renda na

3. METODOLOGIA

3.5. Variáveis explicativas endógenas

Assim como o viés de seletividade, o problema da endogeneidade pode gerar estimativas viesadas e inconsistentes. De acordo com Cameron e Trivedi (2009), a pressuposição fundamental para que os estimadores de MQO sejam consistentes é a

não correlação entre o termo erro e os regressores. Caso isso não ocorra, não é possível fornecer uma interpretação causal no modelo estimado. Formalmente, conforme Wooldridge (2002), tem-se o seguinte modelo populacional:

i ki k i i i i X X X u Y =β₀ +β₁ ₁ +β₂ ₂ +L+β + (39)

( )

u =0, E Cov

(

Xj,u

)

=0, j = 1, 2, ..., k-1, (40)

em que Xk pode ser correlacionado com o termo erro (ui); ou seja, os regressores

1 2

1,X , ,Xk−

X L são considerados exógenos, porém Xk é possivelmente endógeno na

equação (39).

A estimação de (39) por MQO produzirá resultados inconsistentes caso a covariância entre a variável Xk e o termo ui seja diferente de zero. Todavia, existem

métodos que conseguem contornar o problema da endogeneidade como, por exemplo, o método das Variáveis Instrumentais (VI) e dos Mínimos Quadrados de Dois Estágios (MQ2E). A diferença entre esses dois métodos está na utilização de uma equação identificada (VI), cujo número de variáveis instrumentais é exatamente igual à quantidade de regressores endógenos, ou uma equação superidentificada (MQ2E), onde há mais instrumentos do que variáveis explicativas endógenas.

A ideia por trás desses métodos é encontrar uma ou mais variáveis que não sejam correlacionadas com o termo erro, mas que tenham forte correlação com a (s) variável(eis) endógena(s). Com relação ao MQ2E, essas condições podem ser expressas da seguinte forma, conforme Wooldridge (2002):

Considere a equação (39), onde Xk é uma potencial variável endógena.

Assume-se que há mais que um instrumento para Xk; isto é, Z1,Z2,L,ZM. Assim,

tem-se:

(

Z ,u

)

=0, Cov _h

h=1,2,L,M, (41) de modo que cada um dos regressores (Z) seja exógeno na equação (39). Numa situação onde essas variáveis tenham alguma correlação parcial com Xk, tem-se M

diferentes estimadores VI. Além disso, cabe ressaltar que qualquer combinação linear entre X1,X2,L,Xk−1,Z1,Z2,LZM também é não-correlacionado com o

termo estocástico u, tornando-as possíveis variáveis instrumentais. Nesse sentido, é necessário escolher a melhor VI. O MQ2E é um método que fornece suporte a essa escolha.

Para ilustrar o MQ2E, de acordo com Wooldridge (2002), seja Z um vetor formado por todas as variáveis exógenas, isto é, Z ≡

(

X₁,X₂,L,X_k₋₁,Z₁,Z₂,LZ_M

)

. Ao se levar em conta todas as combinações lineares de Z, o MQ2E escolhe aquela que possui a maior correlação com Xk, ou seja:

, 1 1 1 1 1 1 0 k k M M k k X X Z Z X =δ +δ +L+δ ₋ ₋ +θ +L+θ +ε (42) emdque

( )

k =0

E ε ,Cov

(

X₁,εk

)

=0,L,Cov

(

Xk−1,εk

)

=0,Cov

(

Z1,εk

)

,L,Cov

(

ZM,,εk

)

. Assim, o melhor estimador VI é obtido pela seguinte combinação linear:

. 1 1 1 1 1 1 0 * M M k k k X X Z Z X ≡δ +δ +L+δ ₋ ₋ +θ +L+θ (43) Segundo Wooldridge (2002), * k

X pode ser interpretado como a parte de

X que não possui correlação com o termo erro. Se εkfor correlacionado com u,

conclui-se que Xk é endógeno.

De posse de *

X , é possível usá-lo como variável instrumental para Xk na

equação (39).

Diante do exposto, pode-se apresentar, para uma amostra, um resumo do método MQ2E da seguinte forma:

a) Obter os valores de Xˆ por meio da regressão (MQO) de _k Xk sobre M

k Z Z Z

X X

X₁, ₂,L, ₋₁, ₁, ₂,L 21; e

b) Obter as estimativas da regressão (MQO) de Y sobre X₁,X₂,L,X_k₋₁,Xˆ_k.

No caso deste trabalho, o regressor Xk é a educação. Na literatura, é comum

encontrar trabalhos que levam em consideração a possibilidade de endogeneidade dessa variável (ANGRIST; KRUEGER, 1991; UEDA; HOFFMAN, 2002; TEIXEIRA, 2006; LEIGH; RYAN, 2008).

Dado que a endogeneidade e o viés de seletividade são problemas que podem causar estimativas viesadas e inconsistentes, Wooldridge (2002) propôs um método que busca corrigir, simultaneamente, esses dois possíveis casos. Esse método é uma extensão do procedimento de Heckman que leva em consideração o potencial endógeno de algumas variáveis, tais como a educação. O modelo pode ser

especificado, segundo Wooldridge (2002), a partir de três equações (populacionais), isto é: 1 2 1 1 1 1 Z y u y =

δ

α

+ (44) 2 2 2 = Z

δ

υ

y (45)

(

)

1 ₃ ₃ 3 = Zδ +υ > y (46) em que

δ

₁,

δ

₂,δ₃e

α

₁são parâmetros a serem estimados; e u ,₁

υ

₂, e υ₃ são os termos de erro estocástico. Na primeira equação, y é a variável de interesse – que, 1 neste trabalho, representa o rendimento mensal de todos os trabalhos – e y é a 2 potencial variável endógena – educação, neste estudo. A equação (45) seria o primeiro estágio no método dos Mínimos Quadrados de Dois Estágios, que tem como objetivo obter o instrumento a ser inserido na equação de rendimentos. A terceira equação, da mesma forma que no procedimento de Heckman, é a equação de seleção. Essa equação, que normalmente é obtida por meio de um modelo probit, busca levar em conta o possível viés de seleção.

Dentre os casos no qual esse modelo se aplica, cita-se aquele em que y é 2 sempre observado, mas é uma variável explicativa endógena na equação (44). Essa situação se ajusta perfeitamente ao que se pretende fazer neste trabalho, visto que y 1 é o rendimento e y é a variável “anos de estudos”.2

Se y e 1 y fosse observado 2 para cada variável do vetor Z, seria necessário estimar somente a equação (44) por MQ2E, considerandoy como endógeno. 2

Segundo Wooldridge (2002), esse método apresenta as seguintes pressuposições:

a) O vetor Z e a variável y3 são sempre observáveis, porém y e 1 y são 2 observados somente quando y₃ =1(o indivíduo participa do mercado de trabalho);

b) u e 1 υ3 não são correlacionados com Z;

c) υ₃ possui distribuição normal, com média zero e variância constante; d) E(u₁|υ₃) = γ₁υ₃; e

Anos de estudos é sempre observado, independente se o indivíduo está inserido no mercado de trabalho ou não.

e) E(Z’|

υ

₂) = 0.

Assumindo as pressuposições (a)-(e), a equação de rendimentos pode ser estimada, segundo Wooldridge (2002), por meio dos seguintes passos:

a) Estime δ₃ por meio da regressão (probit) de y sobre Z usando a amostra ₃ completa. Em seguida, calcule a razão inversa de Mills; e

b) Utilizando a amostra cujas observações contêm somente indivíduos que trabalham (y₃ =1), estime a seguinte equação:

i i i i i Z y erro y1 = 1δ1 +α1 2 +γ1λˆ3+ (47) por MQ2E utilizando os instrumentos (Zi, λˆi3).

Em virtude de se utilizar, como regressor, uma variável estimada, os erros- padrão são inválidos (WOOLDRIDGE, 2002). Dessa forma, optou-se por utilizar as técnicas de bootstrap para gerar os erros-padrão.

Dado a falta de boas variáveis que pode ser utilizada como instrumentos na PNAD, utilizaram-se variáveis que não estão nesse banco de dados. Assim, as variáveis que serviram como instrumentos, baseado em Teixeira (2006) e Costa (2008), foram as seguintes: oferta de escolas primárias e a lei 5.692 de 1971, que teve como objetivo ajustar o sistema educacional do Brasil.

O primeiro instrumento (número de escolas) foi inserido no modelo considerando o estado e o ano em que a pessoa nasceu. Essa é uma variável que está correlacionada com a variável educação, ou seja, o aumento do número de escolas está associado a maiores oportunidades de estudos e, por conseguinte, a mais anos de instrução. Além disso, oferta de escolas é, claramente, uma variável exógena na equação de rendimentos.

O segundo instrumento foi utilizado para refletir a mudança ocorrida após a lei nº. 5.692 de 1971. De acordo com Machado e Gonzaga (2007), o sistema educacional do Brasil era dividido, por volta da década de 1960, em duas fases: o ensino primário e o médio. O primeiro durava quatro anos, com início aos sete anos de idade. O segundo tinha como objetivo a formação dos adolescentes e também era dividido em duas fases: o ginásio, com duração de quatro anos; e o colegial, que tinha pelo menos três séries. Em 1971, a lei nº. 5.692 incorporou os quatro anos do ensino ginasial à escola primária, o que aumentou de quatro para oito anos o tempo mínimo de permanência na escola. Então, crianças entre 7 e 14 anos eram obrigadas

a frequentar a escola. Para refletir essa alteração no sistema educacional foi usada uma variável dummy que assume o valor 1 se o indivíduo nasceu em 1957 ou após isso; e 0, caso contrário.

Diante disso, a equação de seleção (modelo probit) foi estimada da seguinte forma23:

Z_i =β₀ +β₁Sexo_i +β₂Gen_i +β₃Id_i +β₄Id_i2 +β₄esc+β₅lei+ε_i, (48) em que esc é o número de escola no estado e no mês de nascimento da pessoa e lei é a variável dummy que reflete a lei nº. 5.692 de 1971. As outras variáveis já foram definidas.

A partir da equação (48), encontra-se a razão inversa de Mills e a incorpora na equação de rendimentos, que já foi especificada anteriormente.

No documento Efeitos do crescimento e redução da desigualdade de renda na pobreza da Região Nordeste do Brasil - 2003-2008 (páginas 63-68)