DIME Impact Evaluation Workshop. Innovations for Agriculture June 2014, Kigali, Rwanda

(1)

DIME Impact Evaluation Workshop

Innovations for Agriculture

(2)

Amostragem para Avaliações de

Impacto

Astrid Zwager

(DIME)

(3)

introdução



Para estimar o impacto do projeto, precisamos medir e

comparar as variáveis de resultado no grupo de tratamento e

controle

 No mundo ideal, as variáveis de resultados seriam mensuradas para toda a população de beneficiários do projeto

 Mas na prática a coleta de dado é cara e foca-se então em uma amostra



Os pontos chave para a amostragem são:

 Quem amostrar: Qual é a população ou grupos de interesse e onde

podem ser encontrados?

 Tamanho da amostra: Da população de interessem quantas comunidades / agricultores devem ser incluídas

 Parece trivial mas os problemas estão nos detalhes.

(4)

introdução



Aleatorização = randomized assignment of individuals,

HHs, villages, etc to treatment and control group



Aleatorização NÃO é igual a uma amostra aleatoria



Uma avaliação experimental, normalmente tem dois

estagios:



1. Sorteio para determinar o grupo controle e tratamento



2. Amostra aleatoria entre o grupo controle e tratamento



Os principios que vamos cubrir nesta apresentação se

aplicam aos dois estagios.

(5)

introdução



Quem entrevistar?

 Todos os pequenos proprietários de terra?

 Todos os pequenos proprietários de terra em uma área agro-ecológica específica?

 Todos os pequenos proprietários de terra em uma área agro-ecológica específica em uma certa região?

 Depende do objetivo do projeto/ questões da

política



Que quantidade entrevistar?

 Tamanho da amostra é importante!

 Se é muito pequeno, as conclusões podem não ser “robustas”

 E se o agricultor que usa fertilizante tiver, por acaso, terra mais fértil?

 E se o que não usa fertilizante for, por acaso, o que trabalha mais duro e tem acesso a melhor irrigação?

(6)

introdução

 Quem entrevistar é determinado pelas questões de

pesquisa e política pública postas.

 Calcular o tamanho da amostra é mais complicado. Deve

ser feito corretamente para os resultados serem

confiáveis!

 Uma amostra suficientemente grande permite dizer com

“

confiança

” se o resultado médio no grupo de tratamento é

maior/menor.

 Como determinar o tamanho da amostra é o foco da

apresentação daqui para frente.

(7)

questões gerais

1. O que é “confiança” estatística?

2. Parâmetros chave para calcular tamanho da amostra

 Tamanho do efeito mínimo detectável

 Probabilidades de evitar erros na inferência (erros tipo I e tipo II)  Variância do(s) resultado(s)

 Unidades (domicílios/municípios) por área tratada/ controle

3. Outras considerações importantes para tamanho da amostra

 Múltiplos tratamentos

 Análise desagregada por grupo  Adesão (take-up) à intervenção  Qualidade dos dados

4. Aspectos práticos

(8)

questões gerais

1. O que é “confiança” estatística?

2. Parâmetros chave para calcular tamanho da amostra

3. Outras considerações importantes para tamanho da amostra

4. Aspectos práticos

(9)

confiança estatística



_{Jargão estatístico e senso comum apontam}

para a mesma ideia.



Em português, “confiança” significa “

com

certo grau de certeza

” ou “com pequeno erro”



Em estatística, é o mesmo, mas precisamos

ser mais claros sobre o que queremos dizer

com “erro”



_{Uma amostra suficientemente grande nos dá}

“confiança” de que as conclusões são robustas

(10)

tamanho da amostra

 A derivação estatística do tamanho da amostra

fornece uma

fórmula feia

:

 Intuição

por trás dos 4 ingredientes do tamanho

da amostra:

1. Tamanho do efeito detectável

2. Probabilidades do erro tipo I e tipo II

3. Variância da(s) variável(is) de resultado

4. Unidades (domicílios/municípios) por área tratada/

controle



1 ( 1)



) ( 4 2 2 2 / 2             H D z z N



 



(11)

tamanho da amostra: intuição

 Pense no tamanho da amostra como precisão de instrumento de

medição:

 Quanto mais observações você tem

 mais preciso será o seu “instrumento de medição”

 Mais confiante você é em relação às conclusões da sua avaliação

 Exemplo: adivinhe a frase a baixo conhecendo apenas 2 letras:

 Aqui, o número de letras reveladas é análogo aos número de observações

 Se cada letra custa US$ 100,000

 Você tem US$ 2M para revelar até 20 letras (todas elas)

 Se você adivinhar errado, perde todo o investimento

(12)

tamanho da amostra: intuição

 Vamos aumentar o número de “observações” (neste caso letras)

 Bem mais fácil!

 Você sente mais confiança para adivinhar



Senso comum: quanto mais

complicada

for a frase, mais letras

são necessárias.

 A seguir, nós discutimos casos em que o impacto pode ser

“complicado” de ser detectado e pode requerer grandes amostras.

(13)

questões gerais

1. O que é “confiança” estatística?

2. Parâmetros chave para calcular tamanho da amostra

3. Outras considerações importantes para tamanho da amostra

4. Aspectos práticos

(14)

tamanho da amostra: efeito detectável

 O tamanho da amostra depende do efeito esperado da

intervenção.

 Amostra maior é necessária para detectar pequenas diferenças.

Detectar pequenas diferenças é difícil!!!

Quem é

mais alto???

FÁCIL! DIFÍCIL! 

(15)

tamanho da amostra: efeito detectável



_{Amostra maior}



_{instrumento de medição mais}

preciso



mais fácil detectar

pequenos efeitos

 Aumentar o tamanho da amostra ≈ aumentar precisão

(do nosso instrumento de medição)

 Para calcular o tamanho da amostra precisamos determinar

o menor efeito do programa que se deseja detectar

 Se é esperado que a intervenção gere um aumento de 25% da renda, deve-se decidir que medidas precisas de diferenças menores que 5% não são relevantes.

 Este limite inferior é chamado de Menor efeito detectável (Minimum Detectable Effect Size –MDES)

 “Detectável” é usado no sentido estatístico

(16)

tamanho da amostra: erro na inferência

Exemplo: Uso de fertilizante

Se RendColheita

_Tratamento

muito similar (≈) a

RendColheita_Controle

…

Então pode-se concluir que o programa “não teve efeito” (ex:

que os resultados dos grupos de tratamento e controle não são

estatisticamente diferentes) por duas razões:

1. A medida não é precisa (Inferência Ruim )

2. Na realidade o programa não tem efeito (Inferência Boa )

A menos que haja observações “suficientes”, não somos capazes

de decidir com certeza entre estas duas possibilidades (1. e 2.)

(17)

Tamanho da amostra: erro na inferência

Exemplo de Erro Tipo I: adesãode fertilizantes apenas aumenta

produtividade quando usados junto com outros insumos

 Intervenção (promovendo apenas fertilizante) não tem efeito na verdade  A amostra da AI inclui apenas 25 tratados e 25 controles

 Por puro acaso, agricultores do tratamento tendem a ter solo mais fértil. Então: RendColheita_Tratamento (estatisticamente) Maior que RendColheita_Controle

 A partir dos dados, conclui que o nosso programa tem efeito positivo e significativo (apesar de não ser verdade)

 Como resultado os tomadores de decisão decidem subsidiar fertilizante, reduzindo orçamento para outros programas

 No entanto, as diferenças na produtividade dependem, na realidade, apenas da diferença na fertilidade do solo (Inferência Ruim )

(18)

tamanho da amostra: variância dos resultados

 Como a variância dos resultados afeta a nossa capacidade de

detectar o impacto?



Exemplo: Das duas populações (círculos), quais animais são

maiores? Quantas observações em cada círculo você precisa

par decidir?

(19)

 Exemplo: na média qual grupo tem animais maiores?

 Resposta depende de quais membros dos grupos azul e vermelho

são observados

 Comparação é mais complicada necessidade de mais informação

(ex: maior amostra)

19

tamanho da amostra: variância dos resultados

(20)

tamanho da amostra: variância dos resultados

 Um exemplo: vejamos nossos agricultores e fertilizantes

 Imagine que os fertilizantes aumentem em média a receita líquida (impacto) de $50 para $60 por ha

 Caso A: agricultores similares e distribuição da renda da colheita é muito concentrada

 Caso B: agricultores são bem diferentes e distribuição de renda da colheita está espalhada (distribuições estão mais sobrepostas)

 Qual caso precisa de um instrumento de medição mais preciso?

(21)

tamanho amostral: variância nos resultados

 Resumo:

 Maior variância (heterogeneidade)

  mais dificuldade para detectar diferença

  necessidade de maior tamanho da amostra

 Complicado: Como saberemos a heterogeneidade antes de decidir o tamanho da amostra e coletar nossos dados?

 Idealmente: dados pré-existentes, mas que frequentemente não existem

 Podem ser usados dados pré-existentes de uma população parecida

 Exemplo: censo agrícola, dados coletados regularmente por Ag Min

 Senso comum

(22)

tamanho amostral: amostragem em cluster

• Unidade para cálculo de tamanho amostral depende de:

– Nível da intervenção

– Nível de impacto mensurado

– Nível da intervenção (“cluster”) é mais importante para o

cálculo de tamanho amostral

• Ex: programa de treinamento ao nível do vilarejo

desenhado para aumentar produtividade do milho

– Intervenção ao nível do vilarejo

• Precisão estatística depende principalmente do número de vilarejos

– Impactos medidos ao nível do domicílio

• Necessidade de amostragem por clusters: primeiramente selecionar amostra dos vilarejos, e depois selecionar amostra de domicílios pertencentes ao vilarejo

(23)

tamanho

amostral: amostragem em clusters

• Número de observações amostradas por cluster depende de quão

similar são as observações do mesmo cluster.

• Correlação intra-cluster (CIC)

: medida de similaridade dentro do

cluster.

– Exemplo: agricultores da mesma vila cultivam a mesma cultura, estão submetidos às mesmas condições climáticas, e acessam os mesmos mercados  alta CIC

• CIC & tamanho amostral

– Se CIC é alta, um aumento no número de domicílios de 10 a 50 terá pequeno impacto na precisão (mas grande impacto no orçamento!) – Se CIC é baixa, um aumento da amostragem de domicílios pode

aumentar precisão até certo ponto

• Adicionar clusters é a melhor forma de aumentar precisão,

independente da CIC

(24)

tamanho amostral: amostragem em clusters

Baixo CIC (.05) Alto CIC (.50)

(25)

demais considerações importantes

para o tamanho amostral

(26)

múltiplos tratamentos

 Às vezes, em vez de tratamento vs. controle, nós

gostaríamos de comparar variações do tratamento

 Para comparar múltiplos grupos de tratamento é

necessário uma amostragem ampla

 Quanto mais comparações desejamos fazer, tanto maior a

amostra necessária

 Se os vários tratamentos forem parecidos, espera-se que

as diferenças entre os grupos tratados pode ser baixa 

necessidade de amostra maior

(27)

múltiplos tratamentos



Exemplo: Fertilizantes podem ser muito lucrativos (se

usados corretamente)

 Taxa de retorno sazonal para meia colher de chá de fertilizante: 36%

 Retorno médio ao ano de 69.5%

 Na prática, baixa adoção. Porquê?

 Tratamento 1: subsídio aos fertilizantes de 50%

 Tratamento 2: fertilizante + menor desconto (programa SAFI)  Tratamento 3: SAFI + aviso próximo a data de uso

 Tratamento 4: SAFI + entrega grátis

 Intuição: quanto maior o número de comparações

(tratamentos) maior o tamanho da amostra necessária

para efeito ser “confiante”

(28)

resultados desagregados



_{Frequentemente gostaríamos de saber se}

determinada intervenção tem efeito diferente

para determinados grupos de interesse:



Homem vs. mulher?



Distritos diferentes?



_{Se gênero/distrito pode-se esperar que a}

reação ao tratamento será de forma similar

 pequena diferença entre grupos 

necessidade de amostra maior

(29)

resultados desagregados

 Para assegurar balanceamento entre grupo controle e

tratamento, é de interesse dividir a amostra em estratos antes

de designar tratamento

 Estrato

 Sub-grupos de interesse

 Estratos com características em comum: geográficas,

gênero, setor, indicadores de resultado da linha de base

 Designar tratamento (ou amostragem) ocorre dentre esses

grupos (i.e. aleatorização dentro do estrato)

 Exemplo: Qual o impacto de fertilizantes em

determinada

região

?

(30)

resultados desagregados

= Tratamento & = Controle, designado aleatoriamente

 Região A: quase não há agricultores no grupo controle

 Região B: poucas observações, pode ser confiante?

 Região C: nenhuma observação

A

B

C

(31)

resultados desagregados

 Como prevenir esse desbalanceamento e permitir uma

análise por grupos?



Alocação aleatória de tratamento dentro do grupo

 Dentro de cada unidade geográfica, ½ será tratada, ½ será controle.

 Lógica similar para gênero, tipo de cultura, etc.

 Qual estrato? Pesquisas acadêmicas recentes & questões de

política econômica devem servir de guia

(32)

adesão ao projeto

 Adesão (take-up)

 Adesão baixa (índice) às intervenções diminui precisão dos grupos de comparação

 Efetivamente diminui o tamanho amostral

 Exemplo:

 Oferecemos subsídio para fertilizantes mas não é possível forçar agricultores a usá-los

 Oferta de subsídio para 500 Agricultores  Somente 50 participam

 Na prática, devido ao baixo índice de adesão, acabamos tendo um instrumento de medição menos preciso

 Não seremos capazes de detectar diferenças com precisão

 Seremos somente capazes de achar um efeito se este efeito for realmente grande