• Nenhum resultado encontrado

Na literatura de Amostragem são duas as quantidades usadas para avaliar a influência do plano amostral sobre uma dada estimativa pontual de um parâmetro de interesse: o Efeito do Plano Amostral (EPA) e o Efeito do Plano Amostral Ampliado (EPAA). O objetivo desta seção é esclarecer as principais diferenças entre ambas a partir dos trabalhos que as introduzem, uma vez que mesmo programas computacionais nem sempre fazem uma interpretação totalmente correta destas quantidades9.

2.6.1

O EPA de Kish (1965)

A primeira definição de uma quantidade para representar a influência de um PAC na precisão das estimativas obtidas com os dados da pesquisa amostral correspondente foi feita por Leslie Kish em seu livro Survey Sampling (1965, p. 258). Denominada Efeito do Plano Amostral (EPA, em inglês: design effect ou, de forma abreviada: deff ), e embora tenha sido definida inicialmente apenas para a média amostral y, ela pode ser avaliada para qualquer estimador pontual ˆθ de um parâmetro populacional θ (Pessoa & Silva, 1998). Escolhido ˆθ, o Efeito do Plano Amostral de Kish EP Aθˆ será dado pela variância deste estimador sob o Plano Amostral Complexo, V arPACθˆ, dividida pela variância do mesmo estimador calculada sob a hipótese de AAS V arAASθˆ, ambas calculadas para o mesmo 9

No pacote survey do R (Lumley,2016), o argumento que permite avaliar a influência do plano amostral (deff) diz calcular o EPA, porém na verdade calcula o EPAA, já que o primeiro é calculado apenas com as informações do plano amostral (antes de extrair a amostra), como veremos adiante.

tamanho amostral n, logo EP Aθˆ= V arPAC  ˆ θ V arAASθˆ (2.26) O valor do EPA é único para cada estimador e resultado das influências combinadas de estratificação, conglomeração e pesos desiguais. Quanto maior elas forem, mais longe o valor de EP Aθˆestará de 1. Porém, note que o EPA considera em seu cálculo apenas as variâncias verdadeiras de θ sob o PAC e sob AAS, sem considerar qualquer informação da amostra, supondo que a mesma ainda não foi selecionada (Skinner et al., 1989).

2.6.2

O EPAA de Skinner et al. (1989)

Apesar de ser a primeira medida criada para quantificar a influência de um PAC na precisão das estimativas pontuais, o EPA de Kish considera apenas as variâncias verdadeiras de um dado estimador sob o plano amostral usado para selecionar a amostra e sob AAS (e não os estimadores das respectivas variâncias). Além disso, considera somente o plano amostral em si mesmo como causa das distorções na precisão das estimativas pontuais. Desta forma, o EPA despreza os dados obtidos na amostra e a estrutura da população a qual ela pertence. Como consequência, ignora a influência de tal estrutura combinada ao plano amostral utilizado: para qualquer variável analisada, as observações a serem amostradas são tratadas como completamente independentes entre si, uma vez que se baseia apenas nas distribuições induzidas por aleatorização dos planos amostrais comparados: o PAC efetivamente utilizado e o plano sob AAS (Pessoa & Silva, 1998).

Isto não será verdade se, por exemplo, a população for dividida naturalmente em conglomerados e todos os elementos dentro de cada conglomerado selecionado são amostrados, como gêmeos; casais ou, no caso da pesquisa YNSPMS, pessoas vivendo no mesmo domicílio. Nesta situação, a correlação para uma dada variável entre os elementos de um conglomerado específico (também denominada correlação intraconglomerado10) será alta: adultos que residem no mesmo domicílio influenciam uns aos outros nas suas respostas. Pensando nisso, Skinner et al. propuseram em seu livro Analysis of Complex Surveys (1989, p. 24) uma medida mais abrangente para avaliar a influência de um PAC, também única para cada estimativa e fixada para o tamanho amostral n, denominada Efeito do Plano Amostral Ampliado ou da Má Especificação (EPAA, em inglês: misspecification effect ou, de forma abreviada: meff ).

Inicialmente, considere que haja uma Estrutura Populacional (EP) implícita para as observações usadas no cálculo do estimador pontual ˆθ (por exemplo, pessoas que 10 Definida por Cochran (1977, p. 209), é dada pela variância das observações entre conglomerados

distintos dividida pela soma desta mesma variância com a das observações dentro do conglomerado especificado. Sempre será um valor entre 0 e 1, maior quanto menor for a variância dentro do conglomerado.

moram no mesmo domicílio na população-alvo da YNSPMS) e seja v0 = varIIDθˆ um estimador consistente da variância de ˆθ calculado sob o pressuposto (incorreto) de que as observações são IID. Devido ao uso de um PAC e também à existência da EP, a estimativa de v0 se distanciará da variância verdadeira (calculada sob ambas as características) de ˆθ, V arPAC–EPθˆ.

Para avaliar se tal afastamento será grande ou pequeno, é necessário considerar o comportamento de v0 com relação à distribuição verdadeira da variância de ˆθ e loca- lizar V arPAC–EPθˆ também com relação a esta última. Como em geral é difícil obter analiticamente a distribuição verdadeira, é tomada uma medida central de v0, a qual será comparada a V arPAC–EPθˆ. Assim, o Efeito do Plano Amostral Ampliado de Skinner et al. EP AA

ˆ

θ, v0 será uma medida não apenas da influência do PAC, mas também da especificação incorreta da EP, dada por

EP AAθ, vˆ 0= V arPAC–EP



ˆ θ

EPAC–EP(v0) (2.27)

onde EPAC–EP(v0) denota a esperança (medida central escolhida) verdadeira de v0. Assim,

EP AAθ, vˆ 0dirá em que intensidade v0subestima ou superestima V arPAC–EPθˆ. Quanto mais longe de 1 for o valor de EP AAθ, vˆ 0, maior é a consequência de se ignorar o PAC e a especificação correta da EP.

Para estimadores de variáveis que dizem respeito apenas à unidade selecionada no último estágio de uma pesquisa amostral (na YNSPMS, o domicílio amostrado no 2º estágio), não faz sentido calcular a correlação intraconglomerado, pois não haverá uma EP dissociada do PAC (o conglomerado no último estágio terá tamanho unitário). Desta forma, o EPAA coincidirá com o EPA se não usar nenhuma informação da amostra. Caso contrário, o EPA crescerá de forma bem mais modesta com o aumento da correlação intraconglomerado do que o EPAA. Assim, aceitar apenas o cálculo do EPA em detrimento do EPAA (ignorando a estrutura populacional) resultará na subestimação da variância do estimador ˆθ, que cresce com o aumento da correlação intraconglomerado. Na YNSPMS e nas pesquisas amostrais domiciliares em geral, o domicílio surge naturalmente como conglomerado devido ao planejamento amostral, mas sem a realização de uma nova etapa de seleção para amostrar os seus residentes (Pessoa & Silva, 1998).

O EPAA é uma função não linear das influências da estratificação, conglomeração, pesos desiguais e das interações entre estes, por isso sua expressão nem sempre é obtida de forma analítica. Neste caso, aproximações devem ser utilizadas a partir dos dados amostrais disponíveis, logo devemos estimar V arPAC–EPθˆ e EP AAθ, vˆ 0, denotando suas estimativas respectivamente por varPAC–EPθˆ e epaaθ, vˆ 0. O cálculo do EPAA estimado nos diz até que ponto o PAC utilizado produziu perda de eficiência (se a inflação das variâncias estimadas devido à conglomeração e aos pesos desiguais superam o ganho obtido em precisão com a estratificação, o que é mais comum) e permite identificar

características da EP que também podem afetar a precisão das estimativas pontuais dos parâmetros de interesse. Assim, quando dividimos o tamanho n da amostra selecionada através do PAC por epaaθˆ, temos o tamanho amostral efetivo nef de um plano AAS

que tenha o mesmo nível de precisão. Desta forma, no quarto capítulo são apresentadas estimativas para o EPAA no modelo do escore de propensão e no modelo do método DD para avaliar o impacto do SWF na variável TSAT, tomando a LST como método para aproximação da variância estimada. Ainda, o EPAA pode ser usado para adaptar testes de hipóteses (paramétricos e não-paramétricos) que envolvam dados amostrais complexos desde que a amostra selecionada seja grande (Pessoa & Silva, 1998; Heeringa et al., 2010).

Suponha agora que há não apenas um, mas p parâmetros sob interesse dispostos em um vetor θ. Sejam ˆθ o estimador de θ e ˆV0 = varIIDθˆ a matriz de covariância estimada p × p para ˆθ sob o pressuposto de que as observações são IID. Podemos estender a equação (2.27) definindo o Efeito Multivariado do Plano Amostral Ampliado de ˆθ e ˆV0, dado por (Pessoa & Silva, 1998, p. 65)

EM P AAθ, ˆˆ V0= E =hEPAC–EPVˆ0i−1V arPAC–EPθˆ (2.28) em que EPAC–EP



ˆ

V0 e V arPAC–EPθˆ são calculados com respeito à distribuição de aleatorização induzida pelo PAC utilizado.

3 Metodologia para Avaliação de Impacto

Suponha que modelamos o escore de propensão (com regressão logística) para todos os indivíduos em cada grupo etário (ou qualquer subpopulação utilizada), também na situação em que o PAC é considerado. A avaliação do impacto de uma política requer que os indivíduos sejam comparáveis ao mesmo tempo em que pertencem a classes diferentes (conforme definição de controles e tratados feita na 2.1). Ou seja, para cada indivíduo tratado, é necessário existir um controle que possua perfil o mais semelhante possível nas covariáveis do modelo especificado para o escore de propensão (consequentemente, com o escore predito mais próximo). Dizemos que a amostra de controles e tratados deve ser balanceada.

Assim, a amostra coletada para o grupo das crianças (de 6 a 14 anos) e dos adultos (15 anos ou mais), será reduzida de maneira a preservar somente os indivíduos pareados. Cada par é formado por um indivíduo tratado e por outro controle com o escore de propensão mais próximo. A forma mais comum de verificar se a nova amostra pareada é balanceada para as duas classes é através de testes de hipóteses, os quais também serão corrigidos para a situação em que consideramos o plano amostral, nos valores de cada covariável e do escore predito. Tais testes tomam como hipótese nula a equivalência, entre controles e tratados, para uma medida de locação (como média ou mediana) ou característica da distribuição (como independência ou homogeneidade). Somente após conferir se houve balanceamento em todas as covariáveis isoladamente e nos escores preditos, o que garante a existência dos contrafatuais para cada tratado selecionado para o pareamento, é que podemos utilizar um método para avaliação do impacto da política. Como comparação, os testes também podem ser feitos na amostra original com a finalidade de justificar o pareamento, mostrando que esta era desbalanceada.

Na literatura estatística e econométrica, várias técnicas foram propostas para parear tratados e controles através do escore de propensão e/ou dos valores nas covariáveis, de maneira a determinar qual é o controle mais parecido dado um indivíduo tratado. Neste trabalho, listamos três das técnicas mais conhecidas e aplicadas, cuja metodologia não depende diretamente da variável resposta escolhida (TSAT). Basta que as covariáveis do modelo especificado para o escore de propensão influenciem simultaneamente a atribuição do tratamento e a resposta. São elas: o Pareamento pelo Vizinho mais Próximo ou pela Distância Euclidiana (PDE, como a denominaremos daqui em diante); o Pareamento pela Distância de Mahalanobis (PDM) e o Pareamento por Estratificação, Subclassificação ou Intervalo (PI)1.

1 Novamente para evitar confusão de conceitos e esclarecer a ideia por trás de cada técnica, se optou

Mais simples dentre os listados, o PDE basicamente toma o escore predito do indivíduo tratado e procura pelo controle com o escore predito mais próximo pela distância euclidiana. Assim, um par é formado com um indivíduo tratado e outro controle com a menor diferença entre todos os controles que poderiam ser pareados. Esta busca é análoga se procurarmos pelo controle com as respostas mais similares nas covariáveis. O PDM se diferencia do PDE apenas por aplicar a distância de Mahalanobis no lugar da euclidiana para formar os pares, tomando tanto os valores no escore de propensão quanto nas covariáveis e dada por (Rosenbaum & Rubin, 1985, p. 36)

d(vi|t=1, vi|t=0) = (vi|t=1− vi|t=0)0C−1(vi|t=1− vi|t=0) (3.1)

em que vi|t=1 e vi|t=0 são vetores de valores, dado que o indivíduo i é tratado ou controle respectivamente, tais que vi = (x0i, ˆc(xi))0 e C é a matriz de covariância amostral de

vi apenas para os controles da amostra. Assim, o PDM é um método de pareamento

computacionalmente mais intensivo do que o PDE.

No PI, a ideia é particionar os valores dos escores preditos em um número pré- definido de intervalos, a fim de que tratados e controles tenham, na média, escores de propensão similares em cada intervalo. Logo, o principal desafio deste método é a escolha do nº de intervalos. Sob normalidade, cinco intervalos são suficientes para remover grande parte (cerca de 95%) do viés associado à uma única covariável na amostra completa (Cochran & Chambers, 1965). Entretanto, nem sempre é possível pressupor normalidade ou mesmo simetria na distribuição dos escores preditos, como veremos mais adiante para os modelos do escore de propensão em ambos os grupos etários da YNSPMS.

Pelo fato de exigir pouco esforço computacional quando há muitas observações e também por não ter seu desempenho afetado pela forma da distribuição dos escores preditos, se optou nesta dissertação por parear tratados e controles definidos para a YNSPMS pelo PDE. De fato, este método de pareamento é um dos mais utilizados na literatura2. Na próxima seção, detalharemos um pouco mais esta técnica, com possíveis modificações para redução de viés e da variabilidade no conjunto de dados pareados (as quais também podem ser aplicadas nas demais técnicas de pareamento).