• Nenhum resultado encontrado

Terceira Etapa: Qualidade e diagnostico do Propensity Score

3.3 Evidências Empíricas sobre a Importância do Crédito para a AF

3.4.1 Estratégia Empirica

3.4.1.3 Terceira Etapa: Qualidade e diagnostico do Propensity Score

Como discutido anteriormente, em modelagem com dados não experimentais (não aleatórios), ou seja, dados observacionais, surge o problema do viés de seleção, sendo este resolvido a partir da construção de um 𝑝𝑠(𝑥𝑖) que atribui uma probabilidade estimada por

meio de um modelo probit. Ao mesmo tempo o problema da dimensionalidade é resolvido ao combinar unidades tratadas e de controle na base de um vetor multidimensional 𝑋𝑖, ao

compactar as diversas covariáveis a uma única dimensão de probabilidade ou propensity score

𝑝𝑠(𝑥𝑖).

Porém, para que um 𝑝𝑠(𝑥𝑖) seja balanceado (equilibrado), é necessário que certas

suposições ou premissas expostas por Resembaum e Rubin (1983), Dehejia e Wahba (1998), Becker e Ichino (2002) sejam satisfeitas. Estas suposições podem ser limitadas a um suporte comum de observações com o mesmo escore de propensão que tenham a mesma distribuição de características observáveis e não observáveis, independente do status do tratamento, isto é, observações que tenham a mesma interseção das distribuições do 𝑝𝑠(𝑥𝑖). Esta imposição

de suporte comum na estimativa do escore de propensão melhora a qualidade do matching e permite encontrar um contrafactual apropriado e, desta forma, estimar o efeito médio do tratamento (ATT). Brevemente, essas premissas são:

∙ Suposição de Independencia Condicional (SIC)10

Esta suposição significa que o tratamento/participação de uma determinada polí- tica/programa ou intervenção, condicionada às características observáveis, é independente dos possíveis resultados. A seleção com características observáveis (selection on observables) implica que as características não observáveis não influenciam no tratamento de determinada intervenção.

Dado um conjunto de covariáveis observáveis (𝑋𝑖) que não são afetados pelo trata-

mento, mas que capturam todas as diferenças dos indivíduos, e as variáveis resultantes po-

9 Pode ser chamando de Balancing Measure ou também de The Coarsest Score.

10 Esta primeira suposição tem sido adotado por diversos autores sob diferentes denominações: como o pro-

blema fundamental de identificação “underlying identifying assumption”(CALIENDO; KOPEINIG, 2008), como “unconfoundedness”(DEHEJIA; WAHBA, 1998; BECKER; ICHINO, 2002), “selection on observa-

bles”(HECKMAN; ROBB, 1985; HECKMAN; ROBB, 1986), “Conditional Independence Assumption - CIA”(LECHNER, 2002a).

tenciais (𝑦𝑖) que são independentes da atribuição do tratamento (ou estado da participação

na intervenção) (𝐶𝑖), específica-se que:

𝑦1𝑖, 𝑦0𝑖⊥ 𝐶𝑖 | 𝑋𝑖 (3.17)

em que 𝑦1𝑖 representa os resultados para participantes e 𝑦0𝑖 para não participantes. A re-

presentação (3.17) implica que as variáveis que influenciam a atribuição do tratamento são observadas de forma simultânea tanto quanto os resultados potenciais. Ao incluir um vetor de covariáveis observáveis 𝑋𝑖 corrige-se o viés de seleção. Uma vez que os dados considerados

neste trabalho são observacionais, a atribuição ao tratamento é independente, dado o escore de propensão:

𝑦1𝑖, 𝑦0𝑖 ⊥ 𝐶𝑖 | 𝑝𝑠(𝑥𝑖) (3.18)

Isto implica aceitar que a participação ou a intervenção do programa ou política está baseada inteiramente em características observadas. Se as características não observadas determinarem a participação no programa ou intervenção, então a SIC será violada e o pareamento por escore de propensão (PSM) não será um método apropriado.

Ao assumir a validade da SIC e o balanceamento do escore de propensação, a variável resultante dos não partipantes 𝑦0𝑗 (controle) condicionada à 𝑋𝑖 possui a mesma distruibuição

que a variável do resultado potencial 𝑦0𝑖 (contrafactual). O estado contrafactual representa

o que teria acontecido com a produtividade das unidades produtivas familiares que não receberam crédito (grupo de controle) caso eles tiveram acesso (grupo de tratamento), isto é,

𝐸 [𝑦0𝑖| 𝐷𝑖 = 1, 𝑝𝑠(𝑥𝑖)] = 𝐸 [𝑦0𝑖 | 𝐷𝑖 = 0, 𝑝𝑠(𝑥𝑖)]. Neste trabalho assume-se que esta condição

é válida, uma vez que não é um critério diretamente testável, mas depende do conhecimento da qualidade dos dados e das diversas estratégias que possam ser tomadas na hora de adotar este método.

∙ Sobreposição de Suporte Comum (SSC)

A análise de avaliação de impacto, exige que exista um equilíbrio nos condicionantes, isto é, um balanceamento no 𝑝𝑠(𝑥𝑖), em que as unidades produtivas familiares com um mesmo 𝑝𝑠(𝑥𝑖) tenham a mesma distribuição de características individuais, independente do estado

de participação ou da intervenção. Desta forma, os grupos tratados e de controle devem ser, em média, observacionalmente idênticos.

De acordo com Coma (2012) e Becker e Ichino (2002), para que a premissa de ba- lanceamento (equilíbrio) seja satisfeita, é necessário construir uma região entre grupos de

tratamento e de controle que tenham um escore de propensão idêntico, no qual são descar- tados aqueles casos que possuem escores muito baixos ou muito acima da média. Ou seja, não serão mantidas as probabilidades do grupo de tratamento que superam a máxima pro- babilidade do grupo de controle (os indivíduos que sempre recebem tratamento), nem as probabilidades do grupo de controle que são inferiores à mínima probabilidade do grupo de tratamento (aqueles indivíduos que nunca recebem tratamento).

Segundo Guo e Fraser (2010) e Khandker et al. (2009) encontrar um matching ade- quado pode resultar em descartar casos, ou seja, reduzir o tamanho da amostra, como con- trapartida da utilização de dados não experimentais. Porém, esta restrição permite construir observações comparáveis entre os grupos de tratamento e grupo de controle e obter um contra- factual eficiente. Segundo Becker e Ichino (2002), o equilíbrio (balanceamento) das variáveis de pré-tratamento, dado o 𝑝𝑠(𝑥𝑖), é:

𝐶𝑖 ⊥ 𝑋𝑖 | 𝑝𝑠(𝑋𝑖) (3.19)

Segundo Caliendo e Kopeinig (2008) e Khandker et al. (2009), para que a SSC seja válida, deve-se ter:

0 < 𝑃 𝑟(𝐶𝑖 = 1 | 𝑋𝑖) < 1 (3.20)

o que permite que valores com o mesmo 𝑋𝑖 tenham a mesma probabilidade de serem am-

bos participantes e não participantes. Esta premissa é necessária para estimar o efeito de tratamento médio (Figura 9).

∙ Suposição Fraca de Independencia Condicional (SFIC)

Quando o interesse é estimar o efeito médio no tratamento (ATT), pode-se relaxar a Suposição de Independência Condicional (SIC) assumindo que:

𝑦0𝑖⊥ 𝐶𝑖 | 𝑋𝑖 (3.21)

e a premissa de Sobreposição de Suporte Comum Fraca, descrita a seguir, sejam satisfeitas. ∙ Sobreposição de Suporte Comum Fraca (SSCF)

Essa premissa pode ser representada por:

Figura 9 – Suporte Comum para a Distribuição dos Escores de Propensão Estimados Fonte: Adaptado de Khandker et al. (2009, p. 57)

Uma vez satisfeita as premissas de balanceamento do escore de propensão, é permitido identificar o efeito do tratamento médio sobre os tratados (ATT). Alguns testes que verificam o balanceamento do 𝑝𝑠(𝑥𝑖), como o proposto por Becker e Ichino (2002), consistem em estimar

o 𝑝𝑠(𝑥𝑖) e, a seguir, dividir em intervalos “q” igualmente espaçados pelo escore de propensão

(geralmente q = 5) e, dentro de cada intervalo, testar se a média do escore de propensão entre unidades tratadas e controladas não difere. Se isto ocorrer, a restrição do suporte comum satisfaz necessariamente a hipótese de equilíbrio. O teste também apresenta dentro de cada quantil a distribuição do propensity score se a propensão e a média de 𝑋𝑖 forem os

mesmos.

Quando satisfeita a hipótese de balanceamento, é possivel proceder o pareamento, já que se espera que este seja eficiente.

3.4.1.4 Quarta Etapa: determinação do Matching ou reamostragem

De acordo com Becker e Ichino (2002), uma vez satisfeitas as premissas de balancea- mento, a estimativa do 𝑝𝑠(𝑥𝑖) melhora a qualidade do pareamento. Conforme Guo e Fraser

(2010), uma vez obtido o escore de propensão 𝑝𝑠(𝑥𝑖), o objetivo central do matching é criar

uma nova amostra (reamostragem) de casos que compartilhem, aproximadamente, a mesma probabilidade de serem designados ou de receber intervenção (tratamento). O pareamento ou reamostragem consiste em combinar os escores de propensão de unidades de comparação

(controles que permitem encontrar o contrafactual) com unidades tratadas. Os algoritmos de pareamento diferem entre eles, seja pelos pesos atribuídos aos vizinhos (controles), seja pela definição dos indivíduos tratados. Destaca-se que nenhum dos método é superior ao outro, mas envolve um trade-off.

A literatura reconhece três modelos para analisar o escore de propensão 𝑝𝑠(𝑥𝑖): o matching (greedy matching), a estratificação, e o weighting (GUO; FRASER, 2010). Para

fins deste estudo, será utilizada a metodologia por Greedy Matching que inclui as técnicas do pareamento por Nearest-Neighbor, Radius e Caliper e Kernel. Baseados na exposição de Becker e Ichino (2002), Dehejia e Wahba (1998), Heinrich et al. (2010), Caliendo e Kopeinig (2008) e Guo e Fraser (2010) são expostos, brevemente, essas técnicas a seguir.

∙ Nearest-Neighbor Matching (NNM).

O pareamento por vizinhos mais próximos é um método direto que consiste na escolha de um indivíduo do grupo de comparação que é utilizado como um parceiro correspondente para cada indivíduo tratado que esteja mais próximo em termos do escore de propensão. Há NNM com reposição (with replacement) e sem reposição (without replacement).

De acordo com Caliendo e Kopeinig (2008) e Heinrich et al. (2010), no primeiro caso um indivíduo não tratado pode ser usado mais de uma vez como par, e envolve um trade-off entre viés e variância. Caso haja reposição, a qualidade média do matching aumenta e o viés diminuirá. Por exemplo, segundo Caliendo e Kopeinig (2008), se houver muitos indivíduos tratados com altos escores de propensão e poucos indivíduos de comparação (controle) com altos escores de propensão, os resultados serão ruins, já que alguns participantes com altos escores serão pareados com os não participantes com baixos escores. Isto pode ser superado permitindo a reposição que, por sua vez, reduz o número de não participantes distintos usados para construir o resultado contrafactual e, assim, aumentar a variância do estimador.

Portanto, este método pode ser utilizado quando a distribuição de determinado escore de propensão for muito diferente entre o grupo de tratamento e o grupo de controle.

No segundo caso do NNM sem reposição, os indivíduos são considerados somente uma vez, o que leva ao problema que as estimativas passam a depender da ordem em que as observações são pareadas. Caliendo e Kopeinig (2008) sugerem que ao usar a abordagem do NNM sem reposição, deve-se garantir que a apresentação seja feita aleatoriamente.

Utilizando a notação de Guo e Fraser (2010), sejam 𝑝𝑠(𝑥𝑖) o escore de propensão para

o participante tratado 𝑖, 𝑝𝑠(𝑥𝑗) o escore de propensão para o não participante ou controle 𝑗, 𝐼0 o conjunto de participantes controlados e 𝐼1 o conjunto de participantes tratados. O

𝑁 (𝑝𝑠(𝑥𝑖)) contém os participantes de controle 𝑗 (ou seja, é definido 𝑗 ∈ 𝐼0) como um par

correspondente aos participantes tratados 𝑖 (𝑖 ∈ 𝐼1). O NNM é definido como:

𝑁 (𝑝𝑠(𝑥𝑖)) = 𝑚

𝑖 𝑖𝑛 ‖𝑝𝑠(𝑥𝑖) − 𝑝𝑠(𝑥𝑗)‖ , 𝑗 ∈ 𝐼0. (3.23)

O 𝑁 (𝑝𝑠(𝑥𝑖)) mostra as diferenças mínimas absolutas dos 𝑝𝑠(𝑥𝑖) entre todos os possíveis

pares de 𝑝𝑠(𝑥𝑖) entre os tratados 𝑖 e os controlados 𝑗. Segundo Guo e Fraser (2010), quando um

controle 𝑗 é encontrado para corresponder a um tratado 𝑖, o controle 𝑗 é removido do conjunto de controles 𝐼0 sem reposição. Se para cada tratado 𝑖 existe um único controle correspondente

𝑗 que sirva como contrafactual e que se enquadra no 𝑝𝑠(𝑥𝑖), então o pareamento é similar ao matching por vizinho mais próximo ou 1-para-1. Se para cada tratado 𝑖 houver 𝑛 participantes

encontrados em 𝑝𝑠(𝑥𝑖), a correspondência será de 1 para 𝑛 pares.

Caliendo e Kopeinig (2008) e Guo e Fraser (2010) indicam que o NNM enfrenta o risco de calcular pareamentos ruins, caso os vizinhos mais próximos estiverem distantes. Isto porque no NNM não é imposta uma restrição sobre a distância entre 𝑝𝑠(𝑥𝑖) e 𝑝𝑠(𝑥𝑗), uma vez

que o objetivo é que 𝑗 seja um vizinho próximo de 𝑖 em termos de 𝑝𝑠(𝑥). Isto significa que mesmo que ‖𝑝𝑠(𝑥𝑖) − 𝑝𝑠(𝑥𝑗)‖ seja grande ou muito diferente de 𝑗 e 𝑖 sobre o 𝑝𝑠(𝑥𝑖) estimado, 𝑗 será considerado um par para 𝑖.

∙ Caliper Matching e Radius Matching

O método de pareamento denominado Caliper Matching impõe limite de tolerância na máxima distância do 𝑝𝑠(𝑥𝑖). Desta forma, o caliper impõe uma condição de suporte comum

com escores próximos evitando, assim, pareamentos inadequados e aumentando a qualidade dos matching. Entretanto, se menos pareamentos forem realizados, a variância das estimativas aumentará. Desta forma, Guo e Fraser (2010) sugerem que para superar as deficiências de escolher erroneamente 𝑗, deve-se selecionar 𝑗 como um matching para 𝑖 somente se a distância absoluta dos 𝑝𝑠(𝑥𝑖) entre os pares atender a condição:

𝑅(𝑝𝑠(𝑥𝑖)) = {𝑝𝑠(𝑥𝑗) | ‖𝑝𝑠(𝑥𝑖) − 𝑝𝑠(𝑥𝑗)‖ < 𝑟} , 𝑗 ∈ 𝐼0. (3.24)

sendo 𝑟 calibre pré-especificado o qual impõe o limite de tolerância na distância máxima de pontuação de escore. Segundo Caliendo e Kopeinig (2008), a aplicação do Caliper Matching significa que um indivíduo do grupo de comparação é escolhido como um parceiro correspon- dente (com um escore de propensão próximo) para o indivíduo tratado dentro do intervalo imposto pelo valor 𝑟. A desvantagem da combinação desta técnica é que não é conhecido a priori o nível de tolerância razoável para a imposição do limite.

Uma variante do Caliper Matching chamado de Radius Matching utiliza todos os indivíduos de comparação (os controles) dentro do caliper, empregando o recurso da sobrea- mostragem evitando, assim, o risco de pareamentos inadequados.

∙ Kernel Matching (KM).

Segundo Caliendo e Kopeinig (2008) e Khandker et al. (2009) o risco dos métodos anteriores é que apenas um subconjunto de não participantes (controles) acabará satisfazendo os critérios de estar no suporte comum e, assim, construir o resultado contrafactual de um indivíduo tratado. O pareamento por Kernel são estimadores matching não parametricos que utilizam médias ponderadas de todos os indivíduos no grupo de controle para construir o resultado do contrafactual.

O algoritmo de Kernel compara o resultado dos estabelecimentos tratados com uma média ponderada dos resultados dos estabelecimentos controlados (não tratados). Esta média ponderada para o grupo de controle cria um contrafactual para cada indivíduo do grupo tratado. O peso mais alto é atribuido aos indivíduos controlados com pontuação mais próxima do indivíduo tratado. Segundo Becker e Ichino (2002) o método de Kernel utiliza para o pareamento o seguinte peso:

𝐾(𝑖, 𝑗) = 𝐺(𝑝𝑠(𝑥𝑗) − 𝑝𝑠(𝑥𝑖) ℎ𝑛 ) ∑︀ 𝑘∈𝐶 𝐺(𝑝𝑠(𝑥𝑘) − 𝑝𝑠(𝑥𝑖) ℎ𝑛 ) (3.25)

com 𝐺(·) uma Função Kernel e ℎ𝑛 um parâmetro bandwidth. De acordo com Caliendo e

Kopeinig (2008) e Heinrich et al. (2010), a vantagem da utilização do pareamento por Kernel é sua menor variância alcançada já que a maioria das informações são usadas. O pareamento por

Kernel permite um estimador consistente do resultado do contrafactual 𝑦0𝑖. Uma desvantagem

é que algumas das observações usadas podem ser fracas correspondências11.

O Kernel Matching pode ser visto como uma regressão ponderada com fator de pon- deração dado pelos pesos do Kernel. Estes pesos dependem da distância entre cada indivíduo do grupo de controle e a observação participante para o qual o contrafactual é estimado. Por esta razão, Caliendo e Kopeinig (2008) e Khandker et al. (2009) consideram que a imposição da condição de suporte comum tambem é de grande importância para o Kernel Matching12 .

11 “A drawback of these methods is that some of the observations used may be poor matches”(CALIENDO;

KOPEINIG, 2008, p. 43).

3.4.1.5 Quinta Etapa: qualidade do Pareamento ou reamostragem

Garrido et al. (2014) expõe que depois do pareamento é necessário avaliar se os grupos de tratamento e comparação estão equilibrados nas amostras pareadas para um determinado escore de propensão. Como nas etapas anteriores de balanceamento, para essa análise é proposto um teste para comparar as diferenças padronizadas, em que menores diferenças entre o grupo tratado e o grupo de comparação e momentos de maior ordem são melhores. Leuven e Sianesi (2003) implementaram um código no estata denominado psmatch2 o qual permite avaliar a existência ou não de diferenças entre os grupos de tratamento e grupos de controle, o viés, estatísticas t, p-valores, além de testar a hipótese nula de que o valor médio de cada variável é o mesmo no grupo de tratamento e no grupo de não tratamento.

Figura 10 – Qualidade do Pareamento dos Escores de Propensão antes e Depois do Parea- mento

Fonte: Adaptado de Garrido et al. (2014, p. 1715)

Outro diagnóstico importante é realizado por meio do balanço que incluem gráfi- cos e razões de variância (Figura 10). Leuven e Sianesi (2003) sugerem ter uma variedade de diagnósticos de balanceamento ou de equilíbrio para a verificação dos resultados, como a veri- ficação se o escore de propensão foi especificado corretamente. No pacote psmatch2 é possível construir as Funções de Distribuição de Densidade Kernel para examinar as distribuições dos

escores de propensão pareados e analisar a semelhança entre ambos grupos. Isto permite verificar se os pesos proporcionados no pareamento permitem uma aproximação eficaz dos grupos de comparação em relação aos tratados, de modo que sejam equilibrados e, com isso, reduzir o viés de seleção. Nestes gráficos, é possível observar e comparar, subjetivamente, os grupos tratados e os grupos de comparação (contrafactuais).

3.4.1.6 Sexta Etapa: estimação e interpretação do efeito médio do tratamento

Asumindo que o pareamento esteja balanceado e que ao mesmo tempo, um escore de propensão atende as condições de indedependencia condicional e a sobreposição ou suporte comum, ou seja, há “strong ignorability”(RESEMBAUM; RUBIN, 1983; CALIENDO; KO- PEINIG, 2008), o valor estimado do Propensity Score Matching para ATT pode ser escrito como:

𝜏𝐴𝑇 𝑇𝑃 𝑆𝑀 = 𝐸𝑝𝑠(𝑥)|𝐷𝑖=1[𝐸(𝑦1 | 𝐷 = 1, 𝑝𝑠(𝑥)) − 𝐸(𝑦0 | 𝐷𝑖 = 0, 𝑝𝑠(𝑥))] (3.26)

com 𝜏𝑃 𝑆𝑀

𝐴𝑇 𝑇 sendo a média das diferenças nos resultados em relação às observações do suporte

comum que, de acordo com Caliendo e Kopeinig (2008), é ponderado adequadamente pela distribuição do escore de propensão dos participantes. Os estimadores de (3.26) associados aos algoritmos específicos de matching são:

∙ Estimador para o Nearest-Neighbor Matching e para o estimador Radius Matching Segundo Becker e Ichino (2002), tanto o estimador para o Nearest-Neighbor Matching como o estimador Radius Matching podem ser escritos como:

𝜏𝑀 = 1 𝑁𝑇 ∑︁ 𝑖∈𝑇 (𝑦𝑇𝑖 − ∑︁ 𝑗∈𝐶(𝑖) 𝑤𝑖𝑗𝑦𝐶𝑗 ) (3.27)

o qual denota o número de controles combinados com a observação 𝑖 ∈ 𝑇 para 𝑁𝐶

𝑖 e define

os pesos 𝑤𝑖𝑗 = 𝑁1𝐶 𝑖

se 𝑗 ∈ 𝐶(𝑖) e 𝑤𝑖𝑗 = 0 caso contrário; 𝑀 se refere ao estimador por

pareamento entre vizinhos próximos ou pareamento por Radius, e 𝑁𝑇 denota o número de unidades no grupo de tratados. De acordo com Becker e Ichino (2002) para derivar as variâncias desses estimadores os pesos são considerados fixos e os resultados são tratados de forma independente entre as unidades:

𝑉 𝑎𝑟(𝜏𝑀) = 1 (𝑁𝑇)2𝑉 𝑎𝑟(𝑦 𝑇 𝑖 ) + 1 (𝑁𝑇)2 ∑︁ 𝑗∈𝐶 (𝑤𝑗)2𝑉 𝑎𝑟(𝑦𝑗𝐶) (3.28)

em que 𝑤𝑗 = Σ𝑖𝑤𝑖𝑗.

∙ Estimador para o Kernel Matching

O estimador de (3.26) aplicando o Kernel Matching é dado por:

𝜏𝑘 = 1 𝑁𝑇 ∑︁ ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ 𝑦𝑖𝑇 − ∑︀ 𝑗∈𝐶 𝑦𝐶 𝑗 𝐺( 𝑝𝑠(𝑥𝑗) − 𝑝𝑠(𝑥𝑖) ℎ𝑛 ) ∑︀ 𝑘∈𝐶 𝐺(𝑝𝑠(𝑥𝑘) − 𝑝𝑠(𝑥𝑖) ℎ𝑛 ) ⎫ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎭ (3.29)

De acordo com Garrido et al. (2014), a interpretação do efeito médio do tratamento no tratado (ATT) depende dos erros-padrão. Quando o escore de propensão é estimado antes do efeito do tratamento, tem-se que a incerteza da estimativa do escore de propensão afeta o erro-padrão da estimativa do efeito do tratamento e isto pode levar a erros-padrão conservadores ou excessivamente grandes, dependendo da estrutura dos dados13 .

Outro ponto tratado por Garrido et al. (2014), é que quando limitam-se as amostras a um intervalo de suporte comum, essa condição afeta diretamente as estimativas do efeito do tratamento e as estimativas do efeito médio só podem ser interpretadas a partir da represen- tação dos grupos tratados e de comparação. Caliendo e Kopeinig (2008) apontam que a etapa de estimação adiciona variação além da variabilidade dada pelo processo de amostragem.

Testar a significância estatística do efeito médio do tratamento e calcular os erros- padrão é díficil, uma vez que a variância estimada do efeito de tratamento deve também considerar a variância da estimativa do escore de propensão, do suporte comum e, se for o caso, do pareamento sem reposição e a ordem em que os indivíduos tratados são pareados.

Lechner (2002b), Heinrich et al. (2010), Caliendo e Kopeinig (2008), e Abadie e Im- bens (2006) sugerem ajustar os erros-padrão analíticos pelo erros-padrão obtidos por boots-

traping14. Como mencionado, os erros-padrão após a aplicação de métodos de pareamento

podem ser viesados, uma vez que existe uma variabilidade extra incoporada, seja pela ma- nipulação dos dados ou pelo procedimento de estimação e, que estes erros-padrão analíticos não capturam. O método de Bootstraping auxilia a corrigir este problema ao reestimar os resultados incluindo os primeiros passos da estimativa do escore de propensão e, o suporte comum.

13 “When a propensity score is estimated and the sample is weighted in a separate step by the propensity score,

standard errors can be adjusted by bootstrap methods”(GARRIDO et al., 2014, p. 1716).

14 Caliendo e Kopeinig (2008) apresentam três enfoques para estimar a variância dos efeitos de tratamento:

“Efficiency and Large Sample Properties of Matching Estimators”, “Variance Approximation by Lechner ” “Bootstrapping” e, adicionalmente, o enfoque de “Variance Estimators by Abadie and Imbens”.

Segundo Otsu e Rai (2017) e Adusumilli (2017), para o método dos vizinhos mais próximos com base em uma métrica de distância (Euclideana, Mahalanobis, etc.) sobre o conjunto completo de covariáveis existe inferência de Bootstraping consistente. Adusumilli (2017, p. 02) “demonstrate consistency of a bootstrap procedure for matching on the estimated

propensity score. Both matching with and without replacement is considered”. O autor ainda

agrega que o “bootstrap inference is particularly advantageous when there is a high degree of

imbalance between the propensity scores of the treated and control samples”.

3.4.1.7 Sétima Etapa: análise de sensibilidade e verificação da robustez do efeito médio do