Amostragem para Avaliações do Impacto de Programas

(1)

AADAPT Workshop South Asia

Amostragem para

Avaliações do Impacto de Programas

(2)

Introdução

 Como é que desenhamos uma amostra para detectar de

uma forma credível um efeito significativo?

 Em que populações ou grupos estamos interessados e aonde é que conseguimos encontrá-los?

 Quantas pessoas/empresas/unidades devem ser entrevistadas/analisadas dessa população?

 De que forma é que o tamanho da amostra afecta o orçamento da avaliação?

 Atenção!

 O objetivo desta apresentação não é torná-lo um perito em amostragens

 O objetivo também não é dar-lhe uma dor de cabeca

 É mais um overview: De que forma é que as características da amostragem afectam o que é possivel aprender com a avaliação do impacto de um programa?

(3)

Sumário

1. Base da amostragem



Em que populações ou grupos estamos interessados



Como é que conseguimos encontrá-los?

2. Tamanho da amostra



Porque é tão importante: confiança nos resultados



Determinantes do tamanho apropriado da amostra



Outras questões



Exemplos

(4)

Base de amostragem

 Em quem é que estamos interessados?

a) Todas as povoações?

b) Todas as povoações em que estamos presentes? c) Todas as povoações numa determinada província?

d) Todas as povoações em que estamos presentes numa determinada província?

 É preciso ter em consideração a validade externa

 Consegue-se com os resultados da população (c) retirar ilações para intervenções noutras províncias?

 Consegue-se com os resultados da população (d) retirar ilações para as políticas públicas do país?

 Mas é preciso ter em conta a viabilidade e o que queremos saber

 Pode não ser possível ou desejável fazer um piloto muito genérico de um programa ou de uma política

(5)

Base de amostragem:

Encontrar as unidades em que estamos

interessados

 Depende do tamanho e do tipo de experiência

 Sorteio entre as povoações

 Exemplo: Programa de Capacitação de Instituições ao Nível Local, em províncias onde o parceiro de implementação está presente

 Podemos utilizar unidades de tratamento e comparação da pool de povoações  Se não é possivel (50,000 recebem o tratamento), é necessário uma amostra

para medir o impacto  Alteração de política

 Exemplo: Alteração em províncias seleccionadas aleatoriamente das regras de capacitação institucional

 Para medir o impacto na qualidade das decisões ao nível local, não se pode criar uma amostra de todas as povoações nas províncias seleccionadas  É necessário uma amostra de povoações dentro das províncias

 Informação necessária antes da amostragem

 Listagem completa de todas as unidades de observação disponíveis para amostragem em cada área ou grupo

(6)

Sumário

1. Base da amostragem



Que populações ou grupos estamos interessados



Como é que conseguimos encontrá-los?

2. Tamanho da amostra



Porque é tão importante: confiança nos resultados



Determinantes do tamanho apropriado da amostra



Outras questões



Exemplos

(7)

Tamanho da amostra e confiança

 Comece com uma questão mais simples que o impacto

do programa

 Digamos que queremos saber a média da assiduidade

escolar na província do Kwanza Sul em Angola

 Opção 1: Saímos à rua e procuramos 5 povoações-escolas,

calculando nós a sua média em termos de assiduidade de

alunos

 Opção 2: Obtemos 130 escolas e calculamos a média

correspondente

(8)

Tamanho da amostra e confiança:

5 escolas

120 escolas

assiduidade (% diasNo de escolas

0 - 20%

1 20 - 40%

1 40 - 60%

1 60 - 80%

1 80 - 100%

1 assiduidade (% diasNo de escolas

0 - 20%

10 20 - 40%

20 40 - 60%

30 60 - 80%

40

(9)

Tamanho da amostra e

confiança

 Da mesma forma, quando calculamos o impacto do programa

 Necessitamos de muitas observações para dizermos com confiança se o resultado médio do grupo de tratamento é superior/inferior ao do grupo de comparação

 O que significa com confiança?

 Minimizar o erro estatístico

 Tipos de erros

 Erro tipo 1: Dizemos que há um impacto do programa quando na realidade não existe

 Erro tipo 2: Existe um impacto do programa mas não conseguimos detectá-lo

(10)

Tamanho da amostra e

confiança

 Erro tipo 1: Detectar um impacto do programa quando não existe

 Erro pode ser minimizado depois da recolha de dados, durante a fase de análise estatística

 Necessário ajustar os níveis de significado das estimativas de impacto (ex. Intervalos de confiança de 99% ou 95%)

 Erro tipo 2: não se consegue detectar que de facto há um impacto do programa

 Na gíria: teste estatístico tem um poder baixo

 Erro tem de ser minimizado antes da recolha de dados

 Melhor forma de garantir isso: Assegurar que se tem uma amostra suficientemente grande

 O objetivo da avaliação do impacto do programa é aprender alguma coisa

 Ex-ante: não sabemos qual a dimensão do impacto do programa

 Ex-post com poder baixo: Este programa pode ter aumentado a assiduidade nas escolas em 50%, mas não conseguimos distinguir com confiança a

(11)

Calcular o tamanho da amostra

 Na realidade, há uma formula. Mas não fique

assustado.

 Principais aspectos a ter em conta:

1. Tamanho suficiente para detectar o efeito

2. Probabilidade de erros tipo 1 e tipo 2

3. Variância dos resultados

4. Unidades (povoações) por área tratada

[

1 (

1 )

]

)

(

4

2 2 2 / 2

−

+













₊

=

H

D

z

N

σ

α β

ρ

(12)

Calcular o tamanho da amostra

 Tamanho suficiente para detectar o efeito

 O efeito mínimo que queremos distinguir de zero

 Aumento de 30% na assiduidade de alunos, uma queda em 25% na faltas de professores

 Amostras maiores mais fácil detectar efeitos menores

 Trabalham as mulheres e os homens o mesmo número de horas?

 Hipótese: Em média, as mulheres trabalham 40 horas por semana, enquanto que os homens trabalham 44 horas por semana

 Se estes dados são resultado de uma amostra de 10 mulheres e 10 homens

 É díficil dizer que são diferentes

 Sería mais fácil dizer que são diferentes se as mulheres trabalhassem 30 horas por semana e os homens 80 horas por semana

 Mas se os dados resultam de uma amostra de 500 mulheres e 500 homens

(13)

Calcular o tamanho da amostra

 Como é que escolhemos o tamanho do efeito

detectável?

 O efeito mínimo que implicaria uma resposta política

 O efeito mínimo que permitiria dizer que o programa

não foi um falhanço

 Este programa aumentou a assiduidade nas escolas em 40% e este efeito é significativo do ponto de vista estatístico

 Óptimo - Vamos pensar como é que conseguimos expandi-lo

 Este programa aumentou a assiduidade nas escolas em 10% e este efeito é significativo do ponto de vista estatístico

(14)

Calcular o tamanho da amostra

 Erro tipo 1 e erro tipo 2

 Tipo 1

 Nível de significado das estimativas é normalmente estabelecido a 1% ou 5%

 1% ou 5% é a probabilidade de não existir impacto no cenário em que acreditamos que encontrámos um efeito

 Tipo 2

 Poder normalmente colocado a 80% ou 90%

 20% ou 10% é a probabilidade que haja um efeito que não conseguimos detectar

(15)

Calcular o tamanho da amostra

 Variância dos

resultado(s)

 Menor variância  mais

fácil detectar a diferença

 pode-se ter uma

(16)

Calcular o tamanho da amostra

 Variância de resultados

 Como é que sabemos a variância dos resultados antes

de decidirmos o tamanho da amostra e recolhermos os

dados?

 O ideal é dados prévios, mas normalmente ….são

não-existentes

 Pode-se usar dados prévios de uma população semelhante

 Exemplo: inquéritos aos agregados familiares, escolas e

outros serviços públicos

 Torna isto um pouco um trabalho de adivinhação, não

exactamente uma ciência

(17)

Outras questões

1. Braços de tratamento múltiplos

2. Resultados desagregados por grupos

3. Adesão

(18)

Outras questões

 Braços de tratamento múltiplos

 Compara-se cada tratamento separadamente com o grupo de comparação

 Comparar grupos de tratamento implica amostras muito grandes

 Especialmente se os tratamentos forem parecidos, as diferenças entre os grupos de tratamento serão provavelmente menores

 De facto, é como corrigir um tamanho do efeito detectável muito pequeno

 Resultados desagregados por grupos

 São os efeitos diferentes para homens e mulheres? E para diferentes sectores?

 Se o sexos/sectores são esperados reagir de uma forma semelhante, então estimar as diferenças no impacto do tratamento também requer amostras muito grandes

(19)

Outras questões

 Resultados desagregados por grupos

 Para garantir equilíbrio entre os grupos de tratamento

e de comparação, é aconselhavel estratificar a

amostra antes de alocar o grupo de tratamento

 Estratos

 Sub-populações

 Estratos habituais: localização, sexo, sector, valores

iniciais do resultado de interesse

 Alocação ao grupo de tratamento(ou amostragem) é

efectuada dentro destes grupos

(20)

Porque é que necessitamos

de estratos?

 Exemplo de estratos com base na região

 = T

(21)

Porque é que necessitamos

de estratos?

 Qual é o impacto numa região em particular?

 Por vezes é dificil de dizer com confiança

(22)

Porque é que necessitamos

de estratos?

 Randomização do tratamento dentro das

unidades geográficas

 Dentro de cada tratamento, ½ sera tratada, ½ será do

grupo de comparação.

 Lógica semelhante para sexos, sector, tamanho

da empresa, etc

(23)

Outras questões

 Adesão

 Adesão baixa aumenta o tamanho do efeito

detectável

 Só se consegue detectar um efeito se for realmente grande  Na prática diminui o tamanho da amostra

 Exemplo: Organização de reuniões com encarregados

de educação em escolas em que se discutem

questionários de feedback

 Oferta a 60 escolas  Apenas 5 participam

(24)

Outras questões

 Qualidade dos dados

 Dados de pouca qualidade aumentam na prática o

tamanho da amostra necessário

 Observações em falta

 Aumento do ruído

 Pode ser mitigado em parte com um coordenador

no terreno a monitorizar a recolha de dados

(25)

Exemplo de Angola

• Cálculos podem ser efectuados em vários pacotes estatísticos – e.g. STATA, OD • Experiência em Angola para aumentar os gastos escolares das famílias

• Gastos-base

– 50 kwanzas por dia

– Dados dos gastos com ruído, o que leva a que o coeficiente de variação maior >1 seja habitual

• Exemplo do código em STATA para detectar um aumento de 10% nos gastos:

– sampsi 50 55, p(0.8) pre(1) post(1) r1(0.5) sd1(50) sd2(50)

– Ter dados antes e depois da intervenção diminui o tamanho da amostra necessário (pre e post)

• Resultados

– Aumento de 10% (de 50 para 55): 1,178 famílias em cada grupo

– Aumento de 20% (de 50 para 60): 295 famílias em cada grupo

– Aumento de 50% (de 50 para 75): 48 famílias em cada grupo (Mas este efeito não é realista)

• E se a adesão for apenas de 50%

(26)

Sumário

1. Base da amostragem



Que populações ou grupos estamos interessados



Como é que conseguimos encontrá-los?

2. Tamanho da amostra



Porque é tão importante: confiança nos resultados



Determinantes do tamanho apropriado da amostra



Outras questões



Exemplos

(27)

Orçamentos

 O que é necessário?

 Recolha de dados

 Empresa de inquéritos  Entrada dos dados

 Coordenador no terreno para garantir que o

tratamento está de acordo com o protocolo de

(28)

Orçamentos

 Quanto é que tudo custa?

 Varia muito. Normalmente depende do

 Tamanho da amostra

 Facilidade de encontrar inquiridos  Dispersão geográfica dos inquiridos  Questões de segurança

 Nível de formação do entrevistador  Et cetera….

 Dados para um inquérito a empresas:$40-350/empresa

 Dados para um inquérito a agregados familiares: $40+/lar

 Coordenador no terreno: $10,000-$40,000/ano

 Depende se se consegue um coordenador local

 Dados administrativos: Normalmente grátis

 Por vezes tem resultados limitados, pode não ter informação sobre o sector informal