Implementação do Propensity Score Matching (PSM) no Software Stata

ware Stata

Inicialmente, as variáveis a serem utilizadas na pesquisa devem ser definidas:

keep resultado2 lnrendimGB prodbgTR area3_tot mun_Ymedia menos_35 s01p02ed idade2 s17p01 /// traba trabtemp matsiemb agroqui tratores cosechadora fumasper zona_Occidental zona_central /// zona_Oriental trabtemp mlp AF AFcomercial factor

rename resultado2 credito

global my_outcome1 "lnrendimGB" global tratamento "credito"

Passo 1: Identificação dos dados da pesquisa

O número de observações é de 9.330 estabelecimentos dentro da categoria da Agricul- tura Familiar. Do total, 125 estabelecimentos não receberam crédito e 9.205 receberam. As médias simples da produtividade revelam que a média da produtividade dos estabelecimentos que receberam crédito é maior, sendo .0474932. Não podemos estabelecer uma relação causal na média simples das variáveis.

. tabulate $tratamento [aw=factor] if AF==1, summarize($my_outcome1) means standard

Ao estimar uma regressão simples, observa-se que o impacto do crédito é positivo e estatisticamente significativo.

. regress $my_outcome1 $tratamento [iw=factor] if AF==1

Source | SS df MS Number of obs = 36,370

---+--- F(1, 36368) = 46.80 Model | .022007869 1 .022007869 Prob > F = 0.0000 Residual | 17.1022232 36,368 .000470255 R-squared = 0.0013 ---+--- Adj R-squared = 0.0013 Total | 17.1242311 36,369 .000470847 Root MSE = .02169

Analisando a hipótese do modelo de regressão linear simples, verifica-se que a correla- ção entre os erros e a variável de produtividade é diferente de zero, o que indica que deve-se controlar um conjunto de variáveis independentes e realizar alguns testes para comprovar a veracidade da estimativa.

Observa-se que o crédito ainda sugere relação positiva e estatísticamente significativa com o nível de produtividade. Para obter resultados confiáveis tanto em significância com em ajuste (não viesados, ótimos-eficientes- e consistentes) dos parâmetros da população, isto

é, para se obter resultados similares aos reais e com variância mínima, é necessário que sejam satisfeitas certas hipóteses: Linearidade nos parâmetros, Amostragem aleatória, Média Condicional Zero, Colinearidade não perfeita e variância constante.

Supondo que o modelo satisfaça as hipotéses, pode-se dar uma interpretação aos coeficientes. Os p-valores para a estatística do teste F e t, permitem observar que o ajuste do modelo é significativo, isto é, que há significância simultânea ou conjunta dos parâmetros da regressao, e afirmar que pelo menos uma das covariáveis contribui para explicar a variabilidade de “lnrendimGB”.

. reg $my_outcome1 $tratamento $x_model_1 [iw=factor] if AF==1, beta

Source | SS df MS Number of obs = 36,369

---+--- F(11, 36357) = 406.84 Model | 1.87680835 11 .170618941 Prob > F = 0.0000 Residual | 15.2473884 36,357 .00041938 R-squared = 0.1096 ---+--- Adj R-squared = 0.1093 Total | 17.1241968 36,368 .000470859 Root MSE = .02048

---

lnrendimGB | Coef. Std. Err. t P>|t| Beta

---+--- credito | .0034441 .0008821 3.90 0.000 .0193868 menos_35 | .0017425 .0002663 6.54 0.000 .0324983 s17p01 | .0019041 .0003363 5.66 0.000 .0285158 traba | .0004114 .000039 10.55 0.000 .0562011 matsiemb | .018105 .0049723 3.64 0.000 .0181544 agroqui | .0044371 .0017136 2.59 0.010 .012946 tratores | .0202029 .0004187 48.26 0.000 .259569 cosechadora | .0045415 .0002253 20.16 0.000 .1033369 fumasper | .000902 .0004862 1.86 0.064 .0092838 zona_central | .0048446 .0002658 18.22 0.000 .0958736 zona_Oriental | .0003291 .0002736 1.20 0.229 .0063422 _cons | .013955 .005131 2.72 0.007 . --- .

O coeficiente de determinação (R2) indica que 10,96% da variabilidade de “lnren- dimGB” é explicada conjuntamente pelas covariáveis. Sobre a significância estatística, observa- se que todos os coeficientes das variáveis independentes tem, uma relação positiva e estatisticamente significativa, de modo que todas as variáveis contribuem isoladamente para explicar a variabilidade de “lnrendimGB” - a exeção da variável independente “𝑧𝑜𝑛𝑎 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑙”.

Também, foi calculado os coeficientes betas padronizados (valor original menos a média, dividido pelo desvio padrão) os quais permitem ver a importância explicativa de maior ou menor força sobre a variável dependente, isto é, qual variável independente tem maior ou menor peso sobre a variância da variável dependente. Nota-se que as variáveis

dummies para indicar se o estabelecimento usa tratores e colhedoras (cosechadora) tem maior peso para o rendimento e o menor peso é para a dummy de equipamento e a dummy de fumigação (fumasper) e Zona Oriental (𝑧𝑜𝑛𝑎 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑙). Como demonstrado na metodologia, não pode-se estabelecer uma relação causal entre crédito e produtividade quando os dados não correspondem a observações experimentais.

Passo 2: Estimação do “Propensity Score”

O passo anterior, permite realizar uma análise exploratória sobre a direção e sentido dos sinais das variáveis. Para analisar esta segunda etapa, é utilizado o comando pscore desenvolvido Becker e Ichino (2002), que permite construir o escore de propensão (probabilidade condicional). Este comando possibilita analisar um processo de pré-tratamento da estima- ção do escore de propensão. O pscore estima a probabilidade de acesso ao crédito (receber tratamento) dos estabelecimentos agrícolas familiares.

. pscore $tratamento $x_model_1 [iw=factor] if AF==1, pscore(propensity_score1) comsup blockid(m_blocos1) (0 real changes made)

**************************************************** Algorithm to estimate the propensity score

****************************************************

The treatment is credito

credito | Freq. Percent Cum. ---+---

0 | 138 1.29 1.29

1 | 10,553 98.71 100.00

---+--- Total | 10,691 100.00

Estimation of the propensity score

Iteration 0: log likelihood = -3027.8239 Iteration 1: log likelihood = -2927.6633 Iteration 2: log likelihood = -2919.8677 Iteration 3: log likelihood = -2919.6382 Iteration 4: log likelihood = -2919.6377

Probit regression Number of obs = 39190

LR chi2(10) = 216.37 Prob > chi2 = 0.0000

Log likelihood = -2919.6377 Pseudo R2 = 0.0357

--- credito | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---+--- menos_35 | .2148237 .0466228 4.61 0.000 .1234448 .3062027 s17p01 | .408715 .0713372 5.73 0.000 .2688967 .5485333

traba | .0234111 .0063548 3.68 0.000 .0109559 .0358662 matsiemb | -.2648461 .1315069 -2.01 0.044 -.5225949 -.0070974 agroqui | .2259642 .1356564 1.67 0.096 -.0399174 .4918459 tratores | .43818 .0960008 4.56 0.000 .2500219 .6263381 cosechadora | .1796488 .0372816 4.82 0.000 .1065782 .2527194 fumasper | .1537938 .0629918 2.44 0.015 .0303322 .2772554 zona_central | .1504764 .0450605 3.34 0.001 .0621595 .2387933 zona_Orien~l | -.1821429 .0389324 -4.68 0.000 -.258449 -.1058369 _cons | 1.864459 .1027803 18.14 0.000 1.663014 2.065905 --- Note: the common support option has been selected

The region of common support is [.93158544, .99993834]

Description of the estimated propensity score in region of common support

Estimated propensity score

--- Percentiles Smallest 1% .9588134 .9315854 5% .9674121 .9375498 10% .9736698 .9419393 Obs 10,682 25% .9809146 .9451578 Sum of Wgt. 10,682 50% .9878598 Mean .9866472 Largest Std. Dev. .0092622 75% .9938799 .9998267 90% .9970701 .99987 Variance .0000858 95% .9983002 .9998874 Skewness -.979007 99% .9994024 .9999383 Kurtosis 3.914088 ****************************************************** Step 1: Identification of the optimal number of blocks Use option detail if you want more detailed output ******************************************************

The final number of blocks is 9

This number of blocks ensures that the mean propensity score is not different for treated and controls in each blocks

********************************************************** Step 2: Test of balancing property of the propensity score Use option detail if you want more detailed output **********************************************************

The balancing property is satisfied

This table shows the inferior bound, the number of treated and the number of controls for each block

Inferior |

of block | credito

of pscore | 0 1 | Total

.9 | 2 17 | 19 .95 | 31 1,083 | 1,114 .975 | 68 3,933 | 4,001 .9875 | 37 5,511 | 5,548 ---+---+--- Total | 138 10,544 | 10,682

Note: the common support option has been selected

******************************************* End of the algorithm to estimate the pscore ******************************************* .

end of do-file

O pscore estima, primeiramente o modelo probit (por default) por máxima verosi- milhança. O valor do PS estimado representa a probabilidade de participar do tratamento (acesso ao crédito), condicionada às covariáveis (vetor X), que permite eliminar o problema da dimensionalidade. A opção do comando 𝑝𝑠𝑐𝑜𝑟𝑒(𝑝𝑟𝑜𝑝𝑒𝑛𝑠𝑖𝑡𝑦 𝑠𝑐𝑜𝑟𝑒1) permite armazenar na variável “𝑝𝑟𝑜𝑝𝑒𝑛𝑠𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒1” o valor estimado do escore de propensão.

No modelo tem-se que os tratados (crédito=1) correpondem a 98,71% do total da amostra, e os controles correspondem a 1,29% da amostra total. A regressão probit foi estimada com 4 iterações e calculou-se a probabilidade do tratamento, dado o conjunto de covariáveis 𝑋𝑖. Todas as variáveis mostraram ser significativas no modelo probit, (com pelo

menos 10% de significância. E importante destacar que os coeficientes não podem ser in- terpretados diretamente e nem tampouco sua magnitude. O objetivo do propensity score é reduzir a dimensionalidade, por meio de um modelo probit.

Os resultados denominados Estimated propensity score descrevem os percentis, o in- tervalo do suporte comum, a Variância, a assimetria (Skewness), e a curtose. Neste caso, o percentil 50% do escore de propensão é igual a 0,9878598, o que significa que 50% das ob- servações que pertecem ao suporte comum, tem um índice de probabilidade igual ou menor a 0,9878598. Das 25% observações do suporte comum, têm-se um escore de propensão de 0,9809146. A estatística Skewness = -0,979007, é um coeficiente de assimetria que indica que a distribuição do escores de propensão tem uma assimetria negativa, isto é, a concentração da frequência (massa de dados) se encontra do lado direito da curva, indicando a presença de escores de propensão com valores altos.

Passo 3: Qualidade e diagnóstico do Propensity Score

Identificação do número ótimo de blocos

A opção “𝑏𝑙𝑜𝑐𝑘𝑖𝑑(𝑚 𝑏𝑙𝑜𝑐𝑜𝑠1)” divide as observações em q número de blocos ou inter- valos iguais de modo que a probabilidade média do grupo de controle não seja estatisticamente diferente da probabilidade média do grupo de tratamento dentro de cada bloco. O número de blocos por default é 5. No caso tratado neste trabalho foram estimados 9 blocos ótimos, o qual é determinado a partir do escore médio de propensão calculado entre as unidades tratadas e as de controle, de forma que este valor não seja estatisticamente diferente entre os grupos tratados e os de comparação (controles que servem de contrafactual). Se não existe diferença estatística entre os individuos tratados e os controlados, então tem-se a hipótese de equilíbrio satisfeita. No resultado do comando pscore tem-se a seguinte informação:

****************************************************** Step 1: Identification of the optimal number of blocks Use option detail if you want more detailed output ******************************************************

The final number of blocks is 9

This number of blocks ensures that the mean propensity score is not different for treated and controls in each blocks

Teste sobre as propriedades do balanceamento do propensity score

A opção comsup restringe a análise para atender a propriedade do equilíbrio (balance- ado). Assim, restringe-se todos os estabelecimentos agrícolas tratados e de controles na região de suporte comum. Nesta região, cada observação terá um determinado propensity score es- timado na superposição ou interseção (overlap) das distribuições do escore de propensão. A região estará composta por grupos de controle e de tratados com propensity score idênticos. A exigência de ser ter um suporte comum implica descartar aquelas observações que possuem escores muito baixos ou muito acima da média, ou seja, a probabilidade do grupo de tratamento que supera a máxima probabilidade do grupo de controle (os indivíduos que sem- pre recebem tratamento) e as probabilidade do grupo de controle que são inferiores à mínima probabilidade do grupo de tratamento (aqueles indivíduos que nunca recebem tratamento).

O comando pscore apresenta um único índice de pontuação o qual combina os grupos de tratamento e de comparação (controles) na região de suporte comum. A região do suporte comum, neste caso, é dada pelo intervalo [.93158544, .99993834]. Essa região correspode às estimativas do propensity score que se encontram nesse intervalo.

O suporte comum restringe as variáveis que formam parte da estimação do contrafactual. Por fim, o teste da propriedade de balanceamento ou equilíbrio do escore de propensão satisfaz o número ótimo final de blocos ou estratos determinados anteriormente. A propriedade de equilíbrio permite melhorar a qualidade do pareamento, uma vez que as covariáveis observáveis são balanceadas dentro de cada bloco do escore de propensão. Abaxio tem-se a saída do comando pscore para este teste.

The balancing property is satisfied

This table shows the inferior bound, the number of treated and the number of controls for each block

Inferior | of block | credito of pscore | 0 1 | Total ---+---+--- .9 | 2 17 | 19 .95 | 31 1,083 | 1,114 .975 | 68 3,933 | 4,001 .9875 | 37 5,511 | 5,548 ---+---+--- Total | 138 10,544 | 10,682

Note: the common support option has been selected

******************************************* End of the algorithm to estimate the pscore ******************************************* .

Se a propriedade de balanceamento não for satisfeita, o algoritmo indica que as va- riáveis não estão balanceadas nas estratificações (blocos). Neste caso, deve-se alterar a espe- cificação do modelo (introduzindo ou excluindo variáveis) e estimar, novamente, o escore de propensão.

Condição de suporte comum por meio de análise gráfica (pré-tratamento)

Observa-se que, no caso tratado nesta dissertação, inicialmente havia uma amostra total de 10.691 observações correspondentes aos indivíduos tratados e não tratados. Ao impor a restrição de suporte comum este número é reduzido à 10.682 observações, ou seja, durante a sobreposição (overlap) apenas nove observações são descartadas

Outra forma de verificar a hipotése de balanceamento é por meio da análise gráfica (Figura 17).

qui graph tw (kdensity propensity_score1 if $tratamento == 1) /// (kdensity propensity_score1 if $tratamento == 0 , ///

lpattern(dash)), legend( label( 1 "Tratados") label( 2 "Controle" ) ) ///

xtitle("Valor do Pscore", size(small)) ytitle("Função de Densidade (kernel)", size(small)) /// title("Região de Suporte Comum", size(medium)) subtitle("") ///

saving(sp_pre01.gph, replace)

qui psgraph, treated($tratamento) pscore(propensity_score1) bin(200) support(comsup) /// saving(sp_pre02.gph, replace)

gr combine sp_pre01.gph sp_pre02.gph, /// saving("C:\Users\sp_pre03.gph", replace) graph export "C:\Users\sp_pre03.png", replace

Figura 17 – Suporte Comum para a Distribuição dos Escores de Propensão Estimados Fonte: Resultado da pesquisa

A Figura 17 mostra dois gráficos. O gráfico à esquerda ilustra a função de densidade de kernel, na qual observa-se a distribuição dos grupos, onde pode-se verificar que os escores de propensão tendem a ser maiores nos tratados do que nos não tratados, com um overlap de 0,93158544 a 0,99993834 e verifica-se que as probabilidades são próximas de 1. O gráfico

à direita também ilustra outra forma de observar e verificar o suporte comum ou overlap limitado a esse intervalo.

Outros testes sobre qualidade do ajuste do modelo e diagnóstico do escore de propensão

Como analisado, se deve ter em conta, que a qualidade (balanceamento) do escore de propensão depende também da especificação das variáveis inseridas no modelo econométrico. Se o modelo estiver sub-especificado ou sobre-específicado, o escore é obtido e não são satis- feitas as hipóteses de balanceamento do propensity score. A análise do Passo 1, auxília na construção do modelo a ser ajustado. Note que, as variáveis do modelo de regressão móltipla são as mesmas para a especificação do escore de propensão no modelo probit (com exceção da variável de resultado). Observa-se que, caso a hipótese de equilibrio não seja satisfeita, o comando pscore informa se a propriedade de balanceamento foi violada e as variáveis que estão desbalanceadas em determinados blocos.

Há dois testes que ajudam a verificar se o escore de propensão é conveniente para continuar com o pareamento: O Teste de Hosmer-Lemeshow e o teste no qual o propensity

score é tomado como variável independente.

∙ Teste de Hosmer-Lemeshow

De acordo com Lunt (2014), o teste de Hosmer-Lemeshow verifica se a forma funcional do modelo está especificada de forma correta. De forma geral, este teste utiliza os valores da probabilidade estimada para criar grupos que possuem as mesmas probabilidades estimadas e analisar a qualidade do ajuste, a partir das hipotéses seguintes:

𝐻0: Especificação do modelo correta

𝐻1: Especificação do modelo não esta correta estat gof, group(5) table

Probit model for credito, goodness-of-fit test

(Table collapsed on quantiles of estimated probabilities)

+---+ | Group | Prob | Obs_1 | Exp_1 | Obs_0 | Exp_0 | Total | |---+---+---+---+---+---+---| | 1 | 0.9674 | 2281.406 | 2279.4 | 83.7452 | 85.8 | 2365.151 | | 2 | 0.9737 | 1907.421 | 1903.4 | 53.28918 | 57.3 | 1960.71 | | 3 | 0.9761 | 2336.135 | 2346.1 | 67.59622 | 57.7 | 2403.731 | | 4 | 0.9786 | 2294.312 | 2299.8 | 56.63737 | 51.2 | 2350.95 | | 5 | 0.9802 | 1619.578 | 1623.4 | 37.31686 | 33.5 | 1656.895 | +---+ number of observations = 10682

number of groups = 5 Hosmer-Lemeshow chi2(3) = 3.12

Prob > chi2 = 0.3730 .

end of do-file

Dos resultados acima, tem-se que o valor da estatística qui-quiadrado foi igual a 3,12 e p-valor de 0,3730. Portanto, não rejeita-se 𝐻0, o que significa a especificação do modelo

é adequada, sugerindo uma relação linear entre os fatores confounders e as chances de ser tratado.

Caso a hipótese nula seja rejeitada, deve-se fazer uma nova especificação. Para isso, um modelo é especificado com termos quadráticos e termos de interação entre as covariáveis a partir da seguinte sequência de comandos:

foreach var of varlist $x_model_1 { foreach var2 of varlist $x_model_1 { capture drop temp

gen temp = ‘var’ * ‘var2’

probit $tratamento $x_model_1 temp di "Testing ‘var’ * ‘var2’" estat gof, table group(5) }

}

∙ Teste por controle do propensity score

Este teste analisa o nível de significância do propensity score. Quando calculado o escore de propensão, o modelo probit é estimado novamente considerando o escore de pro- pensão incorporado como variável independente. O propensity score estimado é armazenado na variável 𝑝𝑟𝑜𝑝𝑒𝑛𝑠𝑖𝑡𝑦 𝑠𝑐𝑜𝑟𝑒1. A partir deste valor, estima-se o modelo probit e obtém-se os coeficientes estimados. Se os coeficientes estimados não forem estatisticamente significativos, é um indicativo de um escore estimado adequado.

dprobit $tratamento propensity_score1 $x_model_1 [pw=factor] if AF==1

(sum of wgt is 3.9190e+04)

Iteration 0: log pseudolikelihood = -825.28437 Iteration 1: log pseudolikelihood = -798.33265 Iteration 2: log pseudolikelihood = -795.70038 Iteration 3: log pseudolikelihood = -795.59818 Iteration 4: log pseudolikelihood = -795.59769 Iteration 5: log pseudolikelihood = -795.59769

Probit regression, reporting marginal effects Number of obs = 10682 Wald chi2(11) = 56.59 Prob > chi2 = 0.0000

Log pseudolikelihood = -795.59769 Pseudo R2 = 0.0360

---

| Robust

credito | dF/dx Std. Err. z P>|z| x-bar [ 95% C.I. ] ---+--- propen~1 | .2524458 .3877995 0.65 0.514 .985152 -.507627 1.01252 menos_35*| .004258 .0036377 1.06 0.288 .201501 -.002872 .011388 s17p01*| .0076639 .0037334 1.58 0.114 .131394 .000347 .014981 traba | .0005322 .000635 0.83 0.405 3.19797 -.000712 .001777 matsiemb*| -.0046572 .010144 -0.38 0.706 .960239 -.024539 .015225 agroqui*| .0055666 .0219993 0.29 0.769 .974561 -.037551 .048684 tratores*| .0080849 .0033757 1.78 0.074 .093102 .001469 .014701 cosech~a*| .0037662 .003577 1.02 0.307 .395912 -.003245 .010777 fumasper*| .0030677 .0056196 0.59 0.557 .918758 -.007947 .014082 zona_c~l*| .0031687 .0034681 0.86 0.388 .248855 -.003629 .009966 z~iental*| -.0037302 .0051668 -0.77 0.441 .228696 -.013857 .006397 ---+--- obs. P | .9851487

pred. P | .9876735 (at x-bar)

--- (*) dF/dx is for discrete change of dummy variable from 0 to 1

z and P>|z| correspond to the test of the underlying coefficient being 0 .

end

Ao observar os p-valores individualmente para cada variável, têm-se que, a um nível de significancia do 5%, todas as variáveis não são estatísticamente significativas. Isto indica que não existe diferença estística significativa entre os escores médios dos grupos de controle e os grupo do tratamento, podendo, assim proceder a etapa de realização do pareamento.

sum propensity_score1

Variable | Obs Mean Std. Dev. Min Max

---+--- propensity~1 | 10,682 .9866472 .0092622 .9315854 .9999383 .

end of do-file

O escore de propensão médio é de 0,9866472, indicando que a probabilidade média de ter acesso ao crédito (participar do tratamento) é de 98,66%. Note que o escore de propensão, ao ser uma probabilidade condicional de designação a um particular tratamento, pertence ao intervalo de [0;1].

Passo 4: Aplicação do “Matching ” ou reamostragem

As condições de balanceamento garantem que se possa aplicar o pareamento e, assim, estimar um adequado grupo de comparação para os tratados. A hipotése de balanceamento

satisfeita, indica que as covariáveis observadas dentro de cada bloco são balanceadas, isto é, os grupos de controle e de tratamento não são estatisticamente diferentes, pois os escores médios de propensão entre tratados e de controle não diferem. Isto permite encontrar e combinar um contrafactual (um não partipante) idêntico a um participante (tratado), ou seja, “this implies that differences in the output between treated and control units should only be attributed to the effect of the treatment variable.”(CERULLI, 2015, p. 134)

Na etapa 4, a partir do comando psmatch2 desenvolvido por Leuven e Sianesi (2003) é

incorporar o escore de propensão estimado anteriormente e armazenado na variável 𝑝𝑟𝑜𝑝𝑒𝑛𝑠𝑖𝑡𝑦 𝑠𝑐𝑜𝑟𝑒1. A implementação do comando psmatch2 no Stata permite fazer um balanceamento

das covariáveis pós-pareamento da amostra, para, a seguir, ser empregadas técnicas matching para a construção do grupo de comparação ou contrafactual.

∙ Pareamento por vizinho mais próximo com reposição (with replacement)

qui psmatch2 $tratamento if AF==1, outcome($my_outcome1) pscore(propensity_score1) n(1) com

∙ Pareamento por Radius

qui psmatch2 $tratamento if AF==1, outcome($my_outcome1) pscore(propensity_score1) n(5) common radius cal(0.001)

∙ Pareamento por Kernel

qui psmatch2 $tratamento if AF==1, outcome($my_outcome1) pscore(propensity_score1) kernel kernel(normal) common

O próximo passo consiste na verificação da qualidade do pareamento.

Passo 5: Avaliação da qualidade do pareamento (pos-matching)

∙ Pareamento por vizinho mais próximo com reposição (with replacement)

Como relatado no Passo 4, o comando psmatch2 permite introduzir um escore de pro- pensão já estimado, a partir do comando pscore. Como a especificação é diferente, inicialmente define-se a variável independente $tratamento na estrutura de estimação do pareamento. Neste caso, a variável representa um indicador binário que expresa que o estabelecimento familiar agrícola teve acesso ao crédito e, neste caso, assume o valor 1 ($tratamento=1), caso contrário assume o valor de 0 ($tratamento=0).

Especificando a variável de resultado como outcome($my outcome1) que representa a produtividade dos estabelecimentos familiares e introduzindo o escore (pscore) estimado anteriormente, usa-se a opção com, a qual permite obter apenas as estimativas no suporte comum (overlap).

set seed 2018

generate sort_id=uniform() sort sort_id

psmatch2 $tratamento if AF==1, outcome($my_outcome1) pscore(propensity_score1) n(1) com

--- Variable Sample | Treated Controls Difference S.E. T-stat ---+--- lnrendimGB Unmatched | .050588989 .042042051 .008546938 .00218305 3.92 ATT | .050385453 .043041908 .007343545 .003101023 2.37 ---+--- Note: S.E. does not take into account that the propensity score is estimated.

psmatch2: | psmatch2: Common Treatment | support

Dos resultados acima, observa-se que há 9.248 indivíduos (estabelecimentos) dentro da região overlap, sendo 125 não tratados e 9.123 tratados. Houve 81 estabelecimentos que não pertenceram à região de suporte comum (Off support). Dessa forma, tem-se que 9.123 estabelecimentos tratados foram pareados com o grupo de comparação.

O comando que permite analisar a qualidade do pareamento é o pstest, o qual pode ser executado após o comando psmatch2. Com o comando pstest é possível realizar um teste de balanceamento das covariáveis que afetam o modelo especificado, o qual consiste em verificar a diferença de médias antes e depois do pareamento para os escores de propensão estimados.

pstest propensity_score1, sum both

---

Unmatched | Mean %reduct | t-test | V(T)/

Variable Matched | Treated Control %bias |bias| | t p>|t| | V(C) ---+---+---+--- propensity_score1 U | .9865 .98048 61.5 | 7.36 0.000 | 0.75*

M | .98641 .98642 -0.1 99.9 | -0.06 0.952 | 1.01

| | |

* if variance ratio outside [0.96; 1.04] for U and [0.96; 1.04] for M

--- Sample | Ps R2 LR chi2 p>chi2 MeanBias MedBias B R %Var ---+--- Unmatched | 0.035 46.78 0.000 61.5 61.5 61.5* 0.75 100 Matched | 0.000 0.00 0.952 0.1 0.1 0.1 1.01 0 --- * if B>25%, R outside [0.5; 2] . end of do-file

A saída do Stata após o comando pstest contêm várias medidas de balanceamento das covariáveis para o escore de propensão 𝑝𝑟𝑜𝑝𝑒𝑛𝑠𝑖𝑡𝑦 𝑠𝑐𝑜𝑟𝑒1 antes e depois do pareamento. Destaca-se que o comando pstest considera apenas o balanceamento para o grupo tratado.

As hipóteses a serem analisadas são:

𝐻0: Valor médio de cada variável é o mesmo no grupo de tratamento e no grupo de

não tratamento.

𝐻1: Valor médio de cada variável é diferente no grupo de tratamento e no grupo de

não tratamento.

Dos resultados, primeiramente, observa-se que as amostras na condição de não parea- mento (Unmatched - U), são não balanceados pois a hipótese nula foi rejeitada, o que indica que o valor médio de cada variável é diferente no grupo de tratamento e no grupo de não tratamento na situação de pré-pareamento.

É importante enfatizar que, ao se aplicar no Passo 2 o comando pscore, é estabelecido um diagnóstico pré-pareamento para o escore de propensão e não para os escores de propensão pareados. No balanceamento do escore de propensão é criada uma zona de suporte comum (sub-amostra balanceada), com 9 blocos, sendo calculados para cada bloco, os escores de propensão médios. Constata-se que esses valores não diferiam dos estabelecimentos tratados e não tratados. Ainda que, estes blocos permitiram o cumprimento da hipótese de balanceamento do escore de propensão, não existia um pareamento efetivo e nenhuma condição de balanceamento dos escores de propensão pareados.

No documento Agricultura familiar em El Salvador : caracterização e análise do impacto do crédito (páginas 151-179)