• Nenhum resultado encontrado

3.3 O Método de Diferença em Diferenças

3.3.2 Suposições de Identificação no Método DD

Sabemos que a variável de atribuição do tratamento T é binária e tal que t ∈ {0; 1} e que nossa amostra foi coletada em dois pontos distintos do tempo. Sejam R a variável resposta de interesse e M tal que m ∈ {0; 1} o momento da coleta, onde mi = 0 indica

que a resposta ri do indivíduo i foi coletada no período pré-tratamento e mi = 1, que ri

foi coletada no período pós-tratamento. Assuma que a atribuição do tratamento ocorre entre estes dois períodos e que as observações amostrais são IID. Estamos interessados em avaliar o impacto médio em R quando T varia de 0 para 1. Para simplificar a notação, somente ri será indexada pelo indivíduo correspondente. Logo, defina rim;t a resposta que

seria observada dados m e t para o indivíduo i, dita resposta potencial. A resposta de fato observada é denotada somente por rm

i (não é indexada por t). Seja X a matriz das

possíveis variáveis de confundimento consideradas dentre as demais que foram pesquisadas. Assuma que X não depende de m, ou seja, seus valores não variam ao longo do tempo. Embora o método DD seja amplamente utilizado dentro da especificação de um modelo de regressão linear, iniciaremos o estudo de suas suposições de identificação através de uma modelagem não-paramétrica. Esta permite que o impacto do tratamento seja naturalmente heterogêneo para todos os indivíduos da população (Lechner, 2010).

A ideia principal da estratégia de identificação do método DD é calcular a diferença na média das respostas para os controles e tratados no instante m = 1 (pós-tratamento) e subtrair deste primeiro resultado a mesma diferença no instante m = 0, condicionada aos valores de X. Para que tal estratégia tenha sucesso em identificar o impacto causal médio a ser avaliado, as seguintes suposições devem ser respeitadas (Lechner, 2010, p. 176–181):

S1 Para cada indivíduo i na população, há uma única resposta potencial rmi ;t, dados m e t, que pode ser observada para todos os indivíduos na população. Estabelecida por Rubin (1977), implica que as duas classes (de controles e tratados) estão com- pletamente representadas e que não há interação entre os indivíduos na população. Matematicamente, podemos representar S1 por

Rmi = tiRim;1+ (1 − ti)Rmi ;0 ∀i (3.19)

Se S1 é violada, não é possível observar nenhuma das duas respostas potenciais, dada a classe na qual o indivíduo amostrado está contido. Isto pode ocorrer na avaliação do impacto de programas de treinamento para desempregados, por exemplo. Quando há muitos tratados na amostra, os controles (que não são treinados) terão mais dificuldades em encontrar um emprego no período pós-tratamento com relação a uma situação hipotética em que o programa não existe (Lechner, 2010);

S2 A matriz X das possíveis variáveis de confundimento é exógena com respeito à

atribuição do tratamento, ou seja, XT=1 = XT=0 = X, ∀xi ∈ χ, em que χ denota o

subespaço de X de interesse da avaliação do impacto. Logo, T não pode influenciar nos valores de X. Esta suposição é garantida se as variáveis em X assumem valores constantes no tempo para cada indivíduo i, pois a atribuição do tratamento varia com o tempo;

S3 O tratamento não tem impacto nas observações da resposta no período pré-tratamento.

berem que receberão o tratamento antes de sua atribuição. A condição exigida aqui é similar à S2 (exogeneidade nas demais variáveis observadas), mas agora aplicada na variável resposta de interesse;

S4 As diferenças nas respostas potenciais esperadas para todos os indivíduos no período

pré-tratamento, ao longo do tempo e condicionadas a X, serão independentes da classe a que o indivíduo pertencerá no período pós-tratamento. Também conhecida como Pressuposto da Tendência Comum (PTC), esta suposição é a chave do método DD para estabelecer a inferência causal desejada. Em notação matemática, podemos representar S4 por E  R1;0i xi, Ti= 1  − ER0;0i xi, Ti= 1  = ERi1;0 xi, Ti= 0  − ER0;0i xi, Ti= 0  = ERi1;0 xi  − ERi0;0 xi  (3.20)

Na situação hipotética em que os tratados não recebem o tratamento, as classes definidas por T = 0 e T = 1 experienciarão a mesma tendência cronológica na variável resposta condicionada a X. Logo, a matriz X deve incluir qualquer variável pesquisada que resulte em diferenças na tendência cronológica para R nas duas classes nesta situação, para diferentes valores de xi e supondo que a distribuição

de xi difere nas duas classes. Por esta razão dizemos que a variável incluída é de

confundimento. Disto decorre que qualquer desvio da tendência cronológica para R nos tratados em relação à tendência nos controles será consequência direta do efeito ou impacto do tratamento e não de quaisquer outras características dos indivíduos nas duas classes;

S5 O viés na resposta observada ri é constante ao longo do tempo, independentemente

da classe a que o indivíduo i pertencerá no período pós-tratamento. Esta suposição é equivalente à S4, a partir de uma leitura alternativa da intuição por trás do método DD. Aqui, desejamos estimar o impacto do tratamento nos dois períodos considerados, mas assumimos (erroneamente) exogeneidade em X (com respeito a T ) sem verificá-la. Se S3 é válida, então haverá um impacto adicional além daquele diretamente associado ao tratamento na resposta observada ri0 (no período pré- tratamento, ele seria nulo se a condicionalidade em X estivesse garantida). Isto implica que a estimativa do impacto é enviesada e inconsistente. Se, e somente se, tal viés for constante ao longo do tempo, é possível corrigir a estimativa do impacto em ri1, a resposta observada no período pós-tratamento, no qual estamos interessados. Formalmente, temos que

B0(xi) = E  R0;0i xi, Ti= 1  − ER0;0i xi, Ti= 0  = ER1;0i xi, Ti= 1  − ER1;0i xi, Ti= 0  = B1(xi) (3.21)

A equivalência entre S4 e S5 pode ser provada matematicamente ao tomar a diferença entre os vieses, pois

B1(xi) − B0(xi) = =hER1;0i xi, Ti= 1  − ER1;0i xi, Ti= 0 i −hER0;0i xi, Ti= 1  − ERi0;0 xi, Ti= 0 i =hER1;0i xi, Ti= 1  − ER0;0i xi, Ti= 1 i −hER1;0i xi, Ti= 0  − ERi0;0 xi, Ti= 0 i

Destas suposições, fica claro que a identificação ocorre se a diferença contrafatual E  R1;0i xi, Ti= 1  − ERi0;0 xi, Ti= 1 

for igual à diferença observável ERi1;0

xi, Ti= 0  − E  R0;0i xi, Ti= 0 

. Logo, é necessário que cada valor nas variáveis em X seja observado para todos os indivíduos nos quatro grupos comparados. Isto é garantido pelo pressuposto (adicional) de suporte comum para todos os grupos. No contexto da metodologia DD,

podemos formalizá-lo como (Lechner, 2010, p. 181)

Pr [Mi· Ti = 1|xi, (Mi, Ti) ∈ {(m, t), (1, 1)}] < 1; ∀(m, t) ∈ {(0, 1), (0, 0), (1, 0)} ;

∀xi ∈ χ (3.22)

Assim como a suposição S2, o pressuposto do suporte comum não depende da resposta de interesse e pode ser avaliado para cada variável pesquisada. Em virtude da grande quantidade de dados, tanto no grupo das crianças quanto no dos adultos e para ambas as classes, vamos assumir a validade deste pressuposto em todas as variáveis pesquisadas na YNSPMS.

Diferentemente de outras estratégias não-paramétricas de identificação, como o próprio pareamento e o uso de variáveis instrumentais, a validade das suposições de identificação do método DD são influenciadas pela escala das observações na resposta quando esta segue uma distribuição que depende de M e T . Isto quer dizer que, se S1–

S5 são válidas para a escala original de R, elas podem não o ser para transformações

monotônicas de R, mesmo sem supor nenhum modelo paramétrico com covariáveis de confundimento para o método DD. Lechner (2010, p. 184–186) apresenta um exemplo de violação em S4 para respostas medidas na escala logarítmica.

Como veremos mais adiante que os parâmetros do modelo de regressão usado no método DD estarão na mesma escala da resposta, não é necessário adaptar o método de modo que a resposta não seja funcionalmente dependente. Apesar disso, sugestões neste sentido já foram propostas, como o método de Mudança em Mudanças (MM) proposto por Athey & Imbens (2006). Ainda, vamos combinar o pareamento do escore de propensão (usando o PDE) com o método DD. Assumimos que não apenas a média, mas também a distribuição das respostas potenciais condicionadas a xi, não dependem da classe de

tratamento a que o indivíduo i pertence. Logo, é um pressuposto mais forte do que o PTC (suposição S4), com duas vantagens adicionais: identificar a distribuição contrafatual

completa (não somente as esperanças contrafatuais) e tornar a identificação invariante para mudanças na escala de R (Lechner, 2010).