DIME Impact Evaluation Workshop
Innovations for Agriculture
Amostragem para Avaliações de
Impacto
Astrid Zwager
(DIME)
introdução
Para estimar o impacto do projeto, precisamos medir e
comparar as variáveis de resultado no grupo de tratamento e
controle
No mundo ideal, as variáveis de resultados seriam mensuradas para toda a população de beneficiários do projeto
Mas na prática a coleta de dado é cara e foca-se então em uma amostra
Os pontos chave para a amostragem são:
Quem amostrar: Qual é a população ou grupos de interesse e onde
podem ser encontrados?
Tamanho da amostra: Da população de interessem quantas comunidades / agricultores devem ser incluídas
Parece trivial mas os problemas estão nos detalhes.
introdução
Aleatorização = randomized assignment of individuals,
HHs, villages, etc to treatment and control group
Aleatorização NÃO é igual a uma amostra aleatoria
Uma avaliação experimental, normalmente tem dois
estagios:
1. Sorteio para determinar o grupo controle e tratamento
2. Amostra aleatoria entre o grupo controle e tratamento
Os principios que vamos cubrir nesta apresentação se
aplicam aos dois estagios.
introdução
Quem entrevistar?
Todos os pequenos proprietários de terra?
Todos os pequenos proprietários de terra em uma área agro-ecológica específica?
Todos os pequenos proprietários de terra em uma área agro-ecológica específica em uma certa região?
Depende do objetivo do projeto/ questões da
política
Que quantidade entrevistar?
Tamanho da amostra é importante!
Se é muito pequeno, as conclusões podem não ser “robustas”
E se o agricultor que usa fertilizante tiver, por acaso, terra mais fértil?
E se o que não usa fertilizante for, por acaso, o que trabalha mais duro e tem acesso a melhor irrigação?
introdução
Quem entrevistar é determinado pelas questões de
pesquisa e política pública postas.
Calcular o tamanho da amostra é mais complicado. Deve
ser feito corretamente para os resultados serem
confiáveis!
Uma amostra suficientemente grande permite dizer com
“
confiança
” se o resultado médio no grupo de tratamento é
maior/menor.
Como determinar o tamanho da amostra é o foco da
apresentação daqui para frente.
questões gerais
1.
O que é “confiança” estatística?
2.
Parâmetros chave para calcular tamanho da amostra
Tamanho do efeito mínimo detectável
Probabilidades de evitar erros na inferência (erros tipo I e tipo II) Variância do(s) resultado(s)
Unidades (domicílios/municípios) por área tratada/ controle
3.
Outras considerações importantes para tamanho da amostra
Múltiplos tratamentos
Análise desagregada por grupo Adesão (take-up) à intervenção Qualidade dos dados
4.
Aspectos práticos
questões gerais
1.
O que é “confiança” estatística?
2.
Parâmetros chave para calcular tamanho da amostra
Tamanho do efeito mínimo detectável
Probabilidades de evitar erros na inferência (erros tipo I e tipo II) Variância do(s) resultado(s)
Unidades (domicílios/municípios) por área tratada/ controle
3.
Outras considerações importantes para tamanho da amostra
Múltiplos tratamentos
Análise desagregada por grupo Adesão (take-up) à intervenção Qualidade dos dados
4.
Aspectos práticos
confiança estatística
Jargão estatístico e senso comum apontam
para a mesma ideia.
Em português, “confiança” significa “
com
certo grau de certeza
” ou “com pequeno erro”
Em estatística, é o mesmo, mas precisamos
ser mais claros sobre o que queremos dizer
com “erro”
Uma amostra suficientemente grande nos dá
“confiança” de que as conclusões são robustas
tamanho da amostra
A derivação estatística do tamanho da amostra
fornece uma
fórmula feia
:
Intuição
por trás dos 4 ingredientes do tamanho
da amostra:
1.
Tamanho do efeito detectável
2.
Probabilidades do erro tipo I e tipo II
3.
Variância da(s) variável(is) de resultado
4.
Unidades (domicílios/municípios) por área tratada/
controle
1 ( 1)
) ( 4 2 2 2 / 2 H D z z N
tamanho da amostra: intuição
Pense no tamanho da amostra como precisão de instrumento de
medição:
Quanto mais observações você tem
mais preciso será o seu “instrumento de medição”
Mais confiante você é em relação às conclusões da sua avaliação
Exemplo: adivinhe a frase a baixo conhecendo apenas 2 letras:
Aqui, o número de letras reveladas é análogo aos número de observações
Se cada letra custa US$ 100,000
Você tem US$ 2M para revelar até 20 letras (todas elas)
Se você adivinhar errado, perde todo o investimento
tamanho da amostra: intuição
Vamos aumentar o número de “observações” (neste caso letras)
Bem mais fácil!
Você sente mais confiança para adivinhar
Senso comum: quanto mais
complicada
for a frase, mais letras
são necessárias.
A seguir, nós discutimos casos em que o impacto pode ser
“complicado” de ser detectado e pode requerer grandes amostras.
questões gerais
1.
O que é “confiança” estatística?
2.
Parâmetros chave para calcular tamanho da amostra
Tamanho do efeito mínimo detectável
Probabilidades de evitar erros na inferência (erros tipo I e tipo II) Variância do(s) resultado(s)
Unidades (domicílios/municípios) por área tratada/ controle
3.
Outras considerações importantes para tamanho da amostra
Múltiplos tratamentos
Análise desagregada por grupo Adesão (take-up) à intervenção Qualidade dos dados
4.
Aspectos práticos
tamanho da amostra: efeito detectável
O tamanho da amostra depende do efeito esperado da
intervenção.
Amostra maior é necessária para detectar pequenas diferenças.
Detectar pequenas diferenças é difícil!!!
Quem é
mais alto???
FÁCIL! DIFÍCIL! tamanho da amostra: efeito detectável
Amostra maior
instrumento de medição mais
preciso
mais fácil detectar
pequenos efeitos
Aumentar o tamanho da amostra ≈ aumentar precisão
(do nosso instrumento de medição)
Para calcular o tamanho da amostra precisamos determinar
o menor efeito do programa que se deseja detectar
Se é esperado que a intervenção gere um aumento de 25% da renda, deve-se decidir que medidas precisas de diferenças menores que 5% não são relevantes.
Este limite inferior é chamado de Menor efeito detectável (Minimum Detectable Effect Size –MDES)
“Detectável” é usado no sentido estatístico
tamanho da amostra: erro na inferência
Exemplo: Uso de fertilizante
Se RendColheita
Tratamentomuito similar (≈) a
RendColheitaControle…
Então pode-se concluir que o programa “não teve efeito” (ex:
que os resultados dos grupos de tratamento e controle não são
estatisticamente diferentes) por duas razões:
1. A medida não é precisa (Inferência Ruim )
2. Na realidade o programa não tem efeito (Inferência Boa )
A menos que haja observações “suficientes”, não somos capazes
de decidir com certeza entre estas duas possibilidades (1. e 2.)
Tamanho da amostra: erro na inferência
Exemplo de Erro Tipo I: adesãode fertilizantes apenas aumenta
produtividade quando usados junto com outros insumos
Intervenção (promovendo apenas fertilizante) não tem efeito na verdade A amostra da AI inclui apenas 25 tratados e 25 controles
Por puro acaso, agricultores do tratamento tendem a ter solo mais fértil. Então: RendColheitaTratamento (estatisticamente) Maior que RendColheitaControle
A partir dos dados, conclui que o nosso programa tem efeito positivo e significativo (apesar de não ser verdade)
Como resultado os tomadores de decisão decidem subsidiar fertilizante, reduzindo orçamento para outros programas
No entanto, as diferenças na produtividade dependem, na realidade, apenas da diferença na fertilidade do solo (Inferência Ruim )
tamanho da amostra: variância dos resultados
Como a variância dos resultados afeta a nossa capacidade de
detectar o impacto?
Exemplo: Das duas populações (círculos), quais animais são
maiores? Quantas observações em cada círculo você precisa
par decidir?
Exemplo: na média qual grupo tem animais maiores?
Resposta depende de quais membros dos grupos azul e vermelho
são observados
Comparação é mais complicada necessidade de mais informação
(ex: maior amostra)
19
tamanho da amostra: variância dos resultados
tamanho da amostra: variância dos resultados
Um exemplo: vejamos nossos agricultores e fertilizantes Imagine que os fertilizantes aumentem em média a receita líquida (impacto) de $50 para $60 por ha
Caso A: agricultores similares e distribuição da renda da colheita é muito concentrada
Caso B: agricultores são bem diferentes e distribuição de renda da colheita está espalhada (distribuições estão mais sobrepostas)
Qual caso precisa de um instrumento de medição mais preciso?
tamanho amostral: variância nos resultados
Resumo: Maior variância (heterogeneidade)
mais dificuldade para detectar diferença
necessidade de maior tamanho da amostra
Complicado: Como saberemos a heterogeneidade antes de decidir o tamanho da amostra e coletar nossos dados?
Idealmente: dados pré-existentes, mas que frequentemente não existem
Podem ser usados dados pré-existentes de uma população parecida
Exemplo: censo agrícola, dados coletados regularmente por Ag Min
Senso comum
tamanho amostral: amostragem em cluster
• Unidade para cálculo de tamanho amostral depende de:
– Nível da intervenção
– Nível de impacto mensurado
– Nível da intervenção (“cluster”) é mais importante para o
cálculo de tamanho amostral
• Ex: programa de treinamento ao nível do vilarejo
desenhado para aumentar produtividade do milho
– Intervenção ao nível do vilarejo
• Precisão estatística depende principalmente do número de vilarejos
– Impactos medidos ao nível do domicílio
• Necessidade de amostragem por clusters: primeiramente selecionar amostra dos vilarejos, e depois selecionar amostra de domicílios pertencentes ao vilarejo
tamanho
amostral: amostragem em clusters
• Número de observações amostradas por cluster depende de quão
similar são as observações do mesmo cluster.
• Correlação intra-cluster (CIC)
: medida de similaridade dentro do
cluster.
– Exemplo: agricultores da mesma vila cultivam a mesma cultura, estão submetidos às mesmas condições climáticas, e acessam os mesmos mercados alta CIC
• CIC & tamanho amostral
– Se CIC é alta, um aumento no número de domicílios de 10 a 50 terá pequeno impacto na precisão (mas grande impacto no orçamento!) – Se CIC é baixa, um aumento da amostragem de domicílios pode
aumentar precisão até certo ponto
• Adicionar clusters é a melhor forma de aumentar precisão,
independente da CIC
tamanho amostral: amostragem em clusters
Baixo CIC (.05) Alto CIC (.50)
demais considerações importantes
para o tamanho amostral
múltiplos tratamentos
Às vezes, em vez de tratamento vs. controle, nós
gostaríamos de comparar variações do tratamento
Para comparar múltiplos grupos de tratamento é
necessário uma amostragem ampla
Quanto mais comparações desejamos fazer, tanto maior a
amostra necessária
Se os vários tratamentos forem parecidos, espera-se que
as diferenças entre os grupos tratados pode ser baixa
necessidade de amostra maior
múltiplos tratamentos
Exemplo: Fertilizantes podem ser muito lucrativos (se
usados corretamente)
Taxa de retorno sazonal para meia colher de chá de fertilizante: 36%
Retorno médio ao ano de 69.5%
Na prática, baixa adoção. Porquê?
Tratamento 1: subsídio aos fertilizantes de 50%
Tratamento 2: fertilizante + menor desconto (programa SAFI) Tratamento 3: SAFI + aviso próximo a data de uso
Tratamento 4: SAFI + entrega grátis
Intuição: quanto maior o número de comparações
(tratamentos) maior o tamanho da amostra necessária
para efeito ser “confiante”
resultados desagregados
Frequentemente gostaríamos de saber se
determinada intervenção tem efeito diferente
para determinados grupos de interesse:
Homem vs. mulher?
Distritos diferentes?
Se gênero/distrito pode-se esperar que a
reação ao tratamento será de forma similar
pequena diferença entre grupos
necessidade de amostra maior
resultados desagregados
Para assegurar balanceamento entre grupo controle e
tratamento, é de interesse dividir a amostra em estratos antes
de designar tratamento
Estrato
Sub-grupos de interesse
Estratos com características em comum: geográficas,
gênero, setor, indicadores de resultado da linha de base
Designar tratamento (ou amostragem) ocorre dentre esses
grupos (i.e. aleatorização dentro do estrato)
Exemplo: Qual o impacto de fertilizantes em
determinada
região
?
resultados desagregados
= Tratamento & = Controle, designado aleatoriamente
Região A: quase não há agricultores no grupo controle
Região B: poucas observações, pode ser confiante?
Região C: nenhuma observação
A
B
C
resultados desagregados
Como prevenir esse desbalanceamento e permitir uma
análise por grupos?
Alocação aleatória de tratamento dentro do grupo
Dentro de cada unidade geográfica, ½ será tratada, ½ será controle.
Lógica similar para gênero, tipo de cultura, etc.
Qual estrato? Pesquisas acadêmicas recentes & questões de
política econômica devem servir de guia
adesão ao projeto
Adesão (take-up)
Adesão baixa (índice) às intervenções diminui precisão dos grupos de comparação
Efetivamente diminui o tamanho amostral
Exemplo:
Oferecemos subsídio para fertilizantes mas não é possível forçar agricultores a usá-los
Oferta de subsídio para 500 Agricultores Somente 50 participam
Na prática, devido ao baixo índice de adesão, acabamos tendo um instrumento de medição menos preciso
Não seremos capazes de detectar diferenças com precisão
Seremos somente capazes de achar um efeito se este efeito for realmente grande
qualidade dos dados
Baixa qualidade dos dados efetivamente aumenta
necessidade de maior amostra
Observações em branco
Qualidade da coleta de dados, atrito, migração
Alto erro de medição: respostas nem sempre precisas
e.g. tamanho da propriedade e produção são
auto-declarados
e.g. viés de coleta subsequente, viés de formulação
(framing), viés de agrado (pleasing)
Baixa qualidade dos dados pode ser parcialmente resolvido
por meio de coordenadores de campo monitorando coleta de
dados
conclusões
34
Quanto mais confiança (estatística)/ precisão almejada
maior
o
tamanho amostral
deve ser
Quanto menor os efeitos que desejamos detectar
Quanto maior heterogeneidade (variância)
Presença de clusters
Necessidade de análise desagregada
Quanto maior os braços de tratamento
Quanto menor a adesão ao projeto (take-up)