• Nenhum resultado encontrado

Estimação do Escore de Propensão via seleção robusta de variáveis de controles

No documento Ensaios sobre o ensino no Ceará (páginas 32-36)

2. Ensino Profissionalizante

3.2 Estimação do Escore de Propensão via seleção robusta de variáveis de controles

A estimação do escore de propensão está sujeita a duas escolhas realizadas a priori pelo pesquisador, seja em base intuitiva ou teórica. Primeira, a seleção de variáveis que serão utilizadas como controle e, segunda, a forma funcional que tais variáveis serão utilizadas. Assim, considerando que a dimensão de é , seja o número de variáveis escolhidas pelo pesquisador e o número apropriado de variáveis a serem selecionadas. No caso da escolha inapropriada de variáveis, ≠ , pode ocorrer omissão de variável ou excesso de variáveis selecionadas. No primeiro caso, as estimativas do escore de propensão tornar-se-iam viesadas, visto que provavelmente o conjunto de variáveis relevantes é correlacionado. No segundo caso, as estimativas do escore de propensão não seriam viesadas, porém, haveria perda de eficiência na inferência ocasionada pela inclusão de variáveis desnecessárias. Além disso, com os recentes avanços da computação, a existências de grandes bases de dados tem proporcionado um desafio adicional. Tendo em vista o vasto potencial de variáveis de controle, métodos como MQO ou máxima verossimilhança são inaplicáveis se o número de variáveis exceder o número de observações. Portanto, a própria existência das estimativas depende da eliminação de certas variáveis de controle potenciais. Ou seja, métodos tradicionais de estimação do escore de propensão podem ser viesados, ineficientes e requerem a eliminação de variáveis potencialmente relevantes.

Técnicas de regularização (ou shrinkage) tem sido aplicadas em problemas envolvendo efeitos de tratamento. Belloni et al (2014), por exemplo, aplicam a técnica do Lasso para estimar o efeito de tratamento por meio da seleção robusta de variáveis instrumentais fracas. Farrell (2013), por sua vez, aplica a técnica do lasso grupado para obter estimativas robustas a heterogeneidade dos efeitos de tratamento médio. Adicionalmente, demonstra que o seu estimador atinge o limite semiparamétrico de eficiência. Resultados de simulação e empíricos mostram um bom comportamento em amostras finitas.

Belloni et al (2015) desenvolveram um método para estimação robusta do escore de propensão utilizando dupla seleção tanto para modelos com alta dimensão (p>>n) ou baixa dimensão (p<<n). Além disso, permitem estimação para efeitos heterogêneos como efeito médio sobre o tratamento local (LATE) e o efeito médio sobre o tratamento quantílico (LQTE). Tal técnica pode ainda ser aplicada a casos endógenos ou exógenos para a variável

de tratamento. Técnicas Bayesianas para modelos de escore de propensão também têm sido aplicadas, especialmente na área de saúde. Estes trabalhos incluem entre outros, Hahn, Carvalho e Puelz (2016), Wang, Pagamini e Dominici (2012), entre outros.

Dessa forma, o presente estudo propõe-se em aplicar a técnica de seleção do lasso e do pós-lasso na estimação do escore de propensão, similarmente a Belloni et al (2015), para avaliar o EMTT das escolas EEEP. Após a estimação robusta do escore de propensão serão aplicados procedimentos de matching para realizar comparações entre os grupos tratados e não tratados.

3.2.1 Método de seleção de variável por meio dos métodos Lasso e Pós-Lasso

O método Lasso (Least Absolute Shrinkage and Selection Operator), originalmente proposto por Tibsharani (1996), consiste na estimação de parâmetros através da imposição de restrições sobre o valor absoluto dos coeficientes estimados. Belloni et al (2015) desenvolveram métodos para avaliar a inferência de modelos cuja estimação seja realizada por métodos de seleção como o Lasso. Tais resultados se aplicam a modelos de EMTT, com ou sem variáveis endógenas para a variável de tratamento.

Supondo que o escore de propensão seja calculado utilizando a função link logit, então: | = (( ))+ (6) As técnicas tradicionais de estimação de (6) utilizam a intuição econômica para determinar quais variáveis e qual a forma funcional de . Seja = ( , . . . , ) o vetor de parâmetros de ∈ , em que é o suporte de X. Assuma que seja formado por variáveis de controle e por transformações dessas variáveis7 e que . O método Lasso selecionará paramêtros após a aplicação do seguinte problema de minimização:

= arg min ̂ +�|| || (7) Onde, ^ = [ − ], = { , }, sendo 1 se o indivíduo i participou do programa e 0 se não participou, || || = ∑ = | |. Isto é, o método minimiza a soma dos quadrados dos resíduos condicionada a restrições nos parâmetros.

7 Estas podem incluir variáveis não transformadas e variáveis que sofrem alguma transformação, tais como,

O termo λ, chamado de turning point, corresponde ao peso que será dado à restrição, indicando que quanto maior seu valor, maior será o efeito da restrição sobre os coeficientes estimados. Observe que a equação (7) pode ser rescrita da seguinte forma:

= arg min ∑= − (8) � ∑ = | | (9)

Esta última forma deixa mais explícita o modo pelo qual a otimização restrita é aplicada pelo método Lasso. De fato, a estimação dos parâmetros será feita deste que a soma não ultrapasse o tunning point. A escolha do é elemento crucial no processo de seleção das variáveis. Tibshirani (1996) propôs a escolha de via correlação cruzada, ou seja, o método é aplicado considerando um intervalo para o valor do , de onde seleciona-se aquele que minimiza o erro quadrático médio. Tal estratégia, entretanto, não é diretamente aplicável a problemas de estimação de modelos estruturais, por meio de variáveis instrumentais ou no caso de avaliação de políticas, pois, o interesse não é necessariamente realizar previsão.

Hanh e Carvalho (2015) utilizam métodos bayesianos para determinar o valor do tunning point através da análise gráfica. Eles aplicam tal metodologia para estimação do problema do investidor que maximiza a relação entre retorno e risco por meio de pesos ótimos. Bickel et al (2009) propuseram o seguinte valor: = . �√ ⁄ . Em que, > , − refere-se ao intervalo de confiança para que a probabilidade de rejeição ficar próximo de 1, �consiste no desvio padrão do erro. Tal derivação é motivada buscando obter near-optimal taxas de convergência dos estimadores após a seleção.

Todavia, tal escolha possui duas limitações. Primeira, foi derivada supondo a homocedasticidade. Segunda, não é factível, tendo em vista que � não é observável. Ao contrário, Belloni et al (2010) propuseram um factível e aplicável na presença de heteroscedasticidade, cujo procedimento será seguido neste trabalho para estimação da equação (7).

Portanto, o objetivo deste trabalho consiste em aplicar o método de seleção de variáveis Lasso sobre o escore de propensão. Isso permitirá obter um escore através da estimação de composta de variáveis selecionadas de forma robusta. Apesar de o método não requerer a escolha de variáveis por meio da teoria econômica, em certas situações, pode haver o

interesse de algumas variáveis não serem submetidas à restrições, pois pode ocorrer de algumas delas possuírem relevância teórica suficiente, de forma que sua manutenção no modelo seja requerida. Belloni et al (2010), por exemplo, estimam equações de rendimento para o EUA utilizando o método Lasso para selecionar variáveis instrumentais relevantes, porém excluem variáveis como sexo, experiência e experiência ao quadrado de sujeição à restrições.

O Lasso é um caso particular de um conjunto de métodos de seleção de variáveis, conhecidos como shrinkage methods, e possui duas vantagens frente às outras técnicas de seleção de variáveis. Primeiro, seleciona variáveis ao forçar certos parâmetros irrelevantes a obter o valor zero, no sentido de não gerar redução do erro quadrático médio com a inclusão da variável. Segundo, a forma funcional da equação (7) é convexa. Portanto, o problema da otimização é computacionalmente mais simples e os ótimos obtidos serão globais. Estas duas propriedades fazem com que o método do lasso seja bastante apropriado para selecionar variáveis de controle relevantes para explicar o comportamento da variável binária ou da variável de tratamento, como em Belloni et al (2014).

Entretanto, o método do lasso possui também limitações, notadamente, caso haja forte de multicolinearidade (ZOU; HASTIE, 2005). Isso ocorre justamente pela forma através da qual a seleção de variáveis é realizada, em que as variáveis que possuem elevada correlação têm seus coeficientes estimados forçados a zero. Mais grave, porém, é o fato de o Lasso produzir estimativas viesadas. O método foi desenvolvido para selecionar variáveis de forma a aumentar o poder preditivo dos modelos, ou seja, minimizar a função perda quadrática. Todavia, à medida que a variância do erro quadrático médio se reduz, o viés se eleva8. Para reduzir o peso do viés, métodos alternativos têm sido propostos. Por exemplo, Zou e Hastie (2002) propuseram o elastic net, que busca suavizar a perda com o viés do Lasso sem, no entanto, perder as qualidades de seleção de variáveis. Belloni et al (2012, 2013) por sua vez, adotam o pós-Lasso que consiste em reestimar a equação (8) por MQO após a seleção de variáveis. Isto é, inicialmente realiza-se a seleção de variáveis, em que dentre as possíveis

8 De fato, sendo a variavel dependente e ^ os previsores estimados então, o erro quadrático

médio pode ser decomposto em − ^ = � ^ + [ é ^ ] + � , em que: consiste no erro de aproximar por ^ . Para maiores detalhes ver, Hastie et al (2009).

variáveis são escolhidas ( ). Em seguida, a equação (7) é reestimada considerando apenas as variáveis selecionadas. Por fim, utiliza-se a estimativa do primeiro estágio para estimar a equação estrutural de segundo estágio. Esta será a técnica utilizada neste trabalho. Para compor o conjunto de variáveis a serem selecionadas pelo método Lasso, o qual irá determinar a probabilidade do aluno pertencer ao grupo de tratados, ou seja, iniciar e permanecer o ensino médio nas EEEP de 2012 a 2014, foram inseridas variáveis de características pessoais e educacionais dos alunos, status educacional dos pais e as condições de infraestrutura das escolas no período de 2011, período anterior a entrada desses alunos nas escolas profissionalizantes. Essas variáveis foram transformadas, uma vez que algumas transformações também podem ter poder de explicação sobre os tratados.

Vale notar que apesar da limitação da factibilidade imposta pelos métodos tradicionais de estimação, o método do lasso não se restringe a modelos com dimensões baixas . Ou seja, mesmo que os modelos tenham dimensões elevadas , ainda assim, a método do lasso pode ser aplicado. Esta possibilidade permite a obtenção de um escore de propensão muito mais explicativo e com maior probabilidade de refletir o grupo dos tratados.

Por não possuir acesso a tais informações, Mariano et al (2015) não trabalhou com dados longitudinais, assim, não considerou variáveis de backgroud educacional dos alunos, tais como, a nota de proficiência em Matemática e Português no SPAECE 2011, os quais acredita-se serem bastante relevantes para determinação do aluno ingressar nas EEEP e para o procedimento de pareamento de forma a captar somente o efeito escola.

No documento Ensaios sobre o ensino no Ceará (páginas 32-36)