• Nenhum resultado encontrado

DIME Impact Evaluation Workshop. Innovations for Agriculture June 2014, Kigali, Rwanda

N/A
N/A
Protected

Academic year: 2021

Share "DIME Impact Evaluation Workshop. Innovations for Agriculture June 2014, Kigali, Rwanda"

Copied!
35
0
0

Texto

(1)

DIME Impact Evaluation Workshop

Innovations for Agriculture

(2)

Amostragem para Avaliações de

Impacto

Astrid Zwager

(DIME)

(3)

introdução

Para estimar o impacto do projeto, precisamos medir e

comparar as variáveis de resultado no grupo de tratamento e

controle

 No mundo ideal, as variáveis de resultados seriam mensuradas para toda a população de beneficiários do projeto

 Mas na prática a coleta de dado é cara e foca-se então em uma amostra

Os pontos chave para a amostragem são:

 Quem amostrar: Qual é a população ou grupos de interesse e onde

podem ser encontrados?

 Tamanho da amostra: Da população de interessem quantas comunidades / agricultores devem ser incluídas

 Parece trivial mas os problemas estão nos detalhes.

(4)

introdução

Aleatorização = randomized assignment of individuals,

HHs, villages, etc to treatment and control group

Aleatorização NÃO é igual a uma amostra aleatoria

Uma avaliação experimental, normalmente tem dois

estagios:

1. Sorteio para determinar o grupo controle e tratamento

2. Amostra aleatoria entre o grupo controle e tratamento

Os principios que vamos cubrir nesta apresentação se

aplicam aos dois estagios.

(5)

introdução

Quem entrevistar?

 Todos os pequenos proprietários de terra?

 Todos os pequenos proprietários de terra em uma área agro-ecológica específica?

 Todos os pequenos proprietários de terra em uma área agro-ecológica específica em uma certa região?

 Depende do objetivo do projeto/ questões da

política

Que quantidade entrevistar?

 Tamanho da amostra é importante!

 Se é muito pequeno, as conclusões podem não ser “robustas”

 E se o agricultor que usa fertilizante tiver, por acaso, terra mais fértil?

 E se o que não usa fertilizante for, por acaso, o que trabalha mais duro e tem acesso a melhor irrigação?

(6)

introdução

 Quem entrevistar é determinado pelas questões de

pesquisa e política pública postas.

 Calcular o tamanho da amostra é mais complicado. Deve

ser feito corretamente para os resultados serem

confiáveis!

 Uma amostra suficientemente grande permite dizer com

confiança

” se o resultado médio no grupo de tratamento é

maior/menor.

 Como determinar o tamanho da amostra é o foco da

apresentação daqui para frente.

(7)

questões gerais

1.

O que é “confiança” estatística?

2.

Parâmetros chave para calcular tamanho da amostra

 Tamanho do efeito mínimo detectável

 Probabilidades de evitar erros na inferência (erros tipo I e tipo II)  Variância do(s) resultado(s)

 Unidades (domicílios/municípios) por área tratada/ controle

3.

Outras considerações importantes para tamanho da amostra

 Múltiplos tratamentos

 Análise desagregada por grupo  Adesão (take-up) à intervenção  Qualidade dos dados

4.

Aspectos práticos

(8)

questões gerais

1.

O que é “confiança” estatística?

2.

Parâmetros chave para calcular tamanho da amostra

 Tamanho do efeito mínimo detectável

 Probabilidades de evitar erros na inferência (erros tipo I e tipo II)  Variância do(s) resultado(s)

 Unidades (domicílios/municípios) por área tratada/ controle

3.

Outras considerações importantes para tamanho da amostra

 Múltiplos tratamentos

 Análise desagregada por grupo  Adesão (take-up) à intervenção  Qualidade dos dados

4.

Aspectos práticos

(9)

confiança estatística

Jargão estatístico e senso comum apontam

para a mesma ideia.

Em português, “confiança” significa “

com

certo grau de certeza

” ou “com pequeno erro”

Em estatística, é o mesmo, mas precisamos

ser mais claros sobre o que queremos dizer

com “erro”

Uma amostra suficientemente grande nos dá

“confiança” de que as conclusões são robustas

(10)

tamanho da amostra

 A derivação estatística do tamanho da amostra

fornece uma

fórmula feia

:

 Intuição

por trás dos 4 ingredientes do tamanho

da amostra:

1.

Tamanho do efeito detectável

2.

Probabilidades do erro tipo I e tipo II

3.

Variância da(s) variável(is) de resultado

4.

Unidades (domicílios/municípios) por área tratada/

controle

1 ( 1)

) ( 4 2 2 2 / 2             H D z z N

 

(11)

tamanho da amostra: intuição

 Pense no tamanho da amostra como precisão de instrumento de

medição:

 Quanto mais observações você tem

 mais preciso será o seu “instrumento de medição”

 Mais confiante você é em relação às conclusões da sua avaliação

 Exemplo: adivinhe a frase a baixo conhecendo apenas 2 letras:

 Aqui, o número de letras reveladas é análogo aos número de observações

 Se cada letra custa US$ 100,000

 Você tem US$ 2M para revelar até 20 letras (todas elas)

 Se você adivinhar errado, perde todo o investimento

(12)

tamanho da amostra: intuição

 Vamos aumentar o número de “observações” (neste caso letras)

 Bem mais fácil!

 Você sente mais confiança para adivinhar

Senso comum: quanto mais

complicada

for a frase, mais letras

são necessárias.

 A seguir, nós discutimos casos em que o impacto pode ser

“complicado” de ser detectado e pode requerer grandes amostras.

(13)

questões gerais

1.

O que é “confiança” estatística?

2.

Parâmetros chave para calcular tamanho da amostra

 Tamanho do efeito mínimo detectável

 Probabilidades de evitar erros na inferência (erros tipo I e tipo II)  Variância do(s) resultado(s)

 Unidades (domicílios/municípios) por área tratada/ controle

3.

Outras considerações importantes para tamanho da amostra

 Múltiplos tratamentos

 Análise desagregada por grupo  Adesão (take-up) à intervenção  Qualidade dos dados

4.

Aspectos práticos

(14)

tamanho da amostra: efeito detectável

 O tamanho da amostra depende do efeito esperado da

intervenção.

 Amostra maior é necessária para detectar pequenas diferenças.

Detectar pequenas diferenças é difícil!!!

Quem é

mais alto???

FÁCIL! DIFÍCIL! 

(15)

tamanho da amostra: efeito detectável

Amostra maior

instrumento de medição mais

preciso

mais fácil detectar

pequenos efeitos

 Aumentar o tamanho da amostra ≈ aumentar precisão

(do nosso instrumento de medição)

 Para calcular o tamanho da amostra precisamos determinar

o menor efeito do programa que se deseja detectar

 Se é esperado que a intervenção gere um aumento de 25% da renda, deve-se decidir que medidas precisas de diferenças menores que 5% não são relevantes.

 Este limite inferior é chamado de Menor efeito detectável (Minimum Detectable Effect Size –MDES)

 “Detectável” é usado no sentido estatístico

(16)

tamanho da amostra: erro na inferência

Exemplo: Uso de fertilizante

Se RendColheita

Tratamento

muito similar (≈) a

RendColheitaControle

Então pode-se concluir que o programa “não teve efeito” (ex:

que os resultados dos grupos de tratamento e controle não são

estatisticamente diferentes) por duas razões:

1. A medida não é precisa (Inferência Ruim )

2. Na realidade o programa não tem efeito (Inferência Boa )

A menos que haja observações “suficientes”, não somos capazes

de decidir com certeza entre estas duas possibilidades (1. e 2.)

(17)

Tamanho da amostra: erro na inferência

Exemplo de Erro Tipo I: adesãode fertilizantes apenas aumenta

produtividade quando usados junto com outros insumos

 Intervenção (promovendo apenas fertilizante) não tem efeito na verdade  A amostra da AI inclui apenas 25 tratados e 25 controles

 Por puro acaso, agricultores do tratamento tendem a ter solo mais fértil. Então: RendColheitaTratamento (estatisticamente) Maior que RendColheitaControle

 A partir dos dados, conclui que o nosso programa tem efeito positivo e significativo (apesar de não ser verdade)

 Como resultado os tomadores de decisão decidem subsidiar fertilizante, reduzindo orçamento para outros programas

 No entanto, as diferenças na produtividade dependem, na realidade, apenas da diferença na fertilidade do solo (Inferência Ruim )

(18)

tamanho da amostra: variância dos resultados

 Como a variância dos resultados afeta a nossa capacidade de

detectar o impacto?

Exemplo: Das duas populações (círculos), quais animais são

maiores? Quantas observações em cada círculo você precisa

par decidir?

(19)

 Exemplo: na média qual grupo tem animais maiores?

 Resposta depende de quais membros dos grupos azul e vermelho

são observados

 Comparação é mais complicada necessidade de mais informação

(ex: maior amostra)

19

tamanho da amostra: variância dos resultados

(20)

tamanho da amostra: variância dos resultados

 Um exemplo: vejamos nossos agricultores e fertilizantes

 Imagine que os fertilizantes aumentem em média a receita líquida (impacto) de $50 para $60 por ha

Caso A: agricultores similares e distribuição da renda da colheita é muito concentrada

Caso B: agricultores são bem diferentes e distribuição de renda da colheita está espalhada (distribuições estão mais sobrepostas)

 Qual caso precisa de um instrumento de medição mais preciso?

(21)

tamanho amostral: variância nos resultados

 Resumo:

 Maior variância (heterogeneidade)

  mais dificuldade para detectar diferença

 necessidade de maior tamanho da amostra

 Complicado: Como saberemos a heterogeneidade antes de decidir o tamanho da amostra e coletar nossos dados?

 Idealmente: dados pré-existentes, mas que frequentemente não existem

Podem ser usados dados pré-existentes de uma população parecida

 Exemplo: censo agrícola, dados coletados regularmente por Ag Min

 Senso comum

(22)

tamanho amostral: amostragem em cluster

• Unidade para cálculo de tamanho amostral depende de:

– Nível da intervenção

– Nível de impacto mensurado

– Nível da intervenção (“cluster”) é mais importante para o

cálculo de tamanho amostral

• Ex: programa de treinamento ao nível do vilarejo

desenhado para aumentar produtividade do milho

– Intervenção ao nível do vilarejo

• Precisão estatística depende principalmente do número de vilarejos

– Impactos medidos ao nível do domicílio

• Necessidade de amostragem por clusters: primeiramente selecionar amostra dos vilarejos, e depois selecionar amostra de domicílios pertencentes ao vilarejo

(23)

tamanho

amostral: amostragem em clusters

• Número de observações amostradas por cluster depende de quão

similar são as observações do mesmo cluster.

• Correlação intra-cluster (CIC)

: medida de similaridade dentro do

cluster.

– Exemplo: agricultores da mesma vila cultivam a mesma cultura, estão submetidos às mesmas condições climáticas, e acessam os mesmos mercados  alta CIC

• CIC & tamanho amostral

– Se CIC é alta, um aumento no número de domicílios de 10 a 50 terá pequeno impacto na precisão (mas grande impacto no orçamento!) – Se CIC é baixa, um aumento da amostragem de domicílios pode

aumentar precisão até certo ponto

• Adicionar clusters é a melhor forma de aumentar precisão,

independente da CIC

(24)

tamanho amostral: amostragem em clusters

Baixo CIC (.05) Alto CIC (.50)

(25)

demais considerações importantes

para o tamanho amostral

(26)

múltiplos tratamentos

 Às vezes, em vez de tratamento vs. controle, nós

gostaríamos de comparar variações do tratamento

 Para comparar múltiplos grupos de tratamento é

necessário uma amostragem ampla

 Quanto mais comparações desejamos fazer, tanto maior a

amostra necessária

 Se os vários tratamentos forem parecidos, espera-se que

as diferenças entre os grupos tratados pode ser baixa 

necessidade de amostra maior

(27)

múltiplos tratamentos

Exemplo: Fertilizantes podem ser muito lucrativos (se

usados corretamente)

 Taxa de retorno sazonal para meia colher de chá de fertilizante: 36%

 Retorno médio ao ano de 69.5%

 Na prática, baixa adoção. Porquê?

 Tratamento 1: subsídio aos fertilizantes de 50%

 Tratamento 2: fertilizante + menor desconto (programa SAFI)  Tratamento 3: SAFI + aviso próximo a data de uso

 Tratamento 4: SAFI + entrega grátis

 Intuição: quanto maior o número de comparações

(tratamentos) maior o tamanho da amostra necessária

para efeito ser “confiante”

(28)

resultados desagregados

Frequentemente gostaríamos de saber se

determinada intervenção tem efeito diferente

para determinados grupos de interesse:

Homem vs. mulher?

Distritos diferentes?

Se gênero/distrito pode-se esperar que a

reação ao tratamento será de forma similar

 pequena diferença entre grupos 

necessidade de amostra maior

(29)

resultados desagregados

 Para assegurar balanceamento entre grupo controle e

tratamento, é de interesse dividir a amostra em estratos antes

de designar tratamento

 Estrato

 Sub-grupos de interesse

 Estratos com características em comum: geográficas,

gênero, setor, indicadores de resultado da linha de base

 Designar tratamento (ou amostragem) ocorre dentre esses

grupos (i.e. aleatorização dentro do estrato)

 Exemplo: Qual o impacto de fertilizantes em

determinada

região

?

(30)

resultados desagregados

= Tratamento & = Controle, designado aleatoriamente

 Região A: quase não há agricultores no grupo controle

 Região B: poucas observações, pode ser confiante?

 Região C: nenhuma observação

A

B

C

(31)

resultados desagregados

 Como prevenir esse desbalanceamento e permitir uma

análise por grupos?

Alocação aleatória de tratamento dentro do grupo

 Dentro de cada unidade geográfica, ½ será tratada, ½ será controle.

 Lógica similar para gênero, tipo de cultura, etc.

 Qual estrato? Pesquisas acadêmicas recentes & questões de

política econômica devem servir de guia

(32)

adesão ao projeto

 Adesão (take-up)

 Adesão baixa (índice) às intervenções diminui precisão dos grupos de comparação

Efetivamente diminui o tamanho amostral

 Exemplo:

 Oferecemos subsídio para fertilizantes mas não é possível forçar agricultores a usá-los

 Oferta de subsídio para 500 Agricultores  Somente 50 participam

 Na prática, devido ao baixo índice de adesão, acabamos tendo um instrumento de medição menos preciso

 Não seremos capazes de detectar diferenças com precisão

 Seremos somente capazes de achar um efeito se este efeito for realmente grande

(33)

qualidade dos dados

 Baixa qualidade dos dados efetivamente aumenta

necessidade de maior amostra

 Observações em branco

Qualidade da coleta de dados, atrito, migração

 Alto erro de medição: respostas nem sempre precisas

e.g. tamanho da propriedade e produção são

auto-declarados

e.g. viés de coleta subsequente, viés de formulação

(framing), viés de agrado (pleasing)

 Baixa qualidade dos dados pode ser parcialmente resolvido

por meio de coordenadores de campo monitorando coleta de

dados

(34)

conclusões

34

Quanto mais confiança (estatística)/ precisão almejada

maior

o

tamanho amostral

deve ser

Quanto menor os efeitos que desejamos detectar

Quanto maior heterogeneidade (variância)

Presença de clusters

Necessidade de análise desagregada

Quanto maior os braços de tratamento

Quanto menor a adesão ao projeto (take-up)

(35)

Na prática

• O cálculo de tamanho amostral pode ser feito

em Stata e outros softwares estatísticos

• Uma boa alternativa é o Optimal Design, um

software livre da Universidade de Michigan.

Os gráficos apresentam uma boa forma de

demonstrar o trade-off inerente aos diferentes

elementos.

http://sitemaker.umich.edu/group-based/optimal_design_software

Referências

Documentos relacionados

E) CRIE NO SEU CADERNO UM TÍTULO PARA ESSA HISTÓRIA EM QUADRINHOS.. 3- QUE TAL JUNTAR AS SÍLABAS ABAIXO PARA FORMAR O NOME DE CINCO SUGESTÕES DE PRESENTE PARA O DIA

Em um dado momento da Sessão você explicou para a cliente sobre a terapia, em seguida a cliente relatou perceber que é um momento para falar, chorar, dar risada

O modelo Booleano baseia-se na combinação de vários mapas binários, em cada posição x,y para produzir um mapa final, no qual a classe 1 indica áreas que

Com relação ao CEETEPS, o tema desta dissertação é interessante por se inserir no Programa de Educação de Jovens e Adultos (PROEJA), sob a tutela da Coordenação de

Sem desconsiderar as dificuldades próprias do nosso alunado – muitas vezes geradas sim por um sistema de ensino ainda deficitário – e a necessidade de trabalho com aspectos textuais

As coisas relativas à vida com Deus e ao seu serviço lhes são tediosas, e não podem encontrar qualquer alegria nelas, porque apagaram o Espírito Santo e

Entrando para a segunda me- tade do encontro com outra di- nâmica, a equipa de Eugénio Bartolomeu mostrou-se mais consistente nas saídas para o contra-ataque, fazendo alguns golos

O vereador Anderson pede aparte e comenta sua preocupaçao com relação ao PPE, pois segundo ele os projetos aprovados pela camara o Prefeito Laercio não cumpre, e