Indicações metodológicas - O que é avaliação de impacto?

1.2 O que é avaliação de impacto?

1.2.4 Indicações metodológicas

Desde o início dos anos 2000, a legislação estadunidense tem dado prioridade a estudos de base científica para a identificação de práticas educativas e atividades que resultassem em melhoria da aprendizagem dos estudantes.

Schneider at al. (2007) explicam que esse discurso foi reiterado num comunicado pela secretaria estadunidense de educação em 2005, que salientava que a atribuição “desenhos aleatórios e de modelo quase-experimental são considerados os métodos mais rigorosos para alcançar a questão da eficácia do projeto” (p. 3). Essas formas de pesquisa também foram tomadas como prioridade por todo o Departamento de Programas de Educação dos EUA e tornaram-se conhecidas como os gold standard para as pesquisas educacionais.

Guiada por um grupo de assessoria técnica, a Câmara estabeleceu padrões de qualidade para acompanhar as investigações disponíveis e, como resultado, deu-se prioridade às pesquisas com amostras aleatórias, tidas como mais adequadas para identificar o impacto ou os efeitos de um programa de educação ou de práticas educacionais. Reconhecendo que esse tipo de desenho de pesquisa randomizada não é viável em determinadas situações ou para algumas questões, esse grupo também defendeu o uso de quase-experimentos, estudos comparativos que cuidadosamente tentam isolar o efeito de uma intervenção por meio de outros meios que não a randomização.

resultado X contexto X circunstâncias W, Y, Z variáveis A B C D

Dentre os autores e as instituições que tratam da metodologia de avaliação pertinente à análise de impactos consultados para a elaboração desse artigo, observam-se algumas características comuns:

• Definição das questões essenciais da avaliação relativas aos impactos como resultados esperados e levantamento de explicações alternativas para os resultados obtidos (referentes a seleção, atrito, efeitos externos, maturação, instrumentação)25.

• Estabelecimento de um contrafactual (o que teria acontecido com a população alvo na ausência do programa). O elemento de contrapartida (contrafactual) é apontado como chave para a distinção entre resultados e impactos, pois é possível avaliar “resultados” (o que aconteceu após a intervenção) sem estabelecer um grupo de comparação, mas este último parece essencial para se falar em impactos.

• Seleção aleatória dos participantes tanto do grupo de “experimental” (que receberá a intervenção, também chamado de “grupo de tratamento”), quanto do grupo de “comparação” (também conhecido como “grupo de controle).

• Realização de pré-teste e pós-teste, a fim de verificar se houve ganhos de acordo com os resultados esperados.

• Comparação entre os resultados do grupo de comparação e do grupo experimental, para aferir se a ação sob avaliação atinge seus objetivos.

• Contextualização da avaliação (Leeuw; Vaessen, 2009; Cohen; Franco, 2008; Organização para a Cooperação Econômica e o Desenvolvimento, 2008; Shadish; Cook; Campbell, 2002; Weiss, 1998).

A bibliografia de referência também destaca que os desenhos de pesquisa mais adequados à aferição de impactos são os experimentais e os quase-experimentais, sobretudo os que usam grupos de comparação (grupo de controle e grupo experimental) e o modelo pré-teste/pós-teste.

Como explicam Shadish, Cook e Campbell (2002), o uso de grupos de comparação cuidadosamente selecionados facilita a inferência causal em quase-experimentos, mas os grupos experimentais agregam poucos benefícios se não forem acompanhados por medidas pré-teste sobre a mesma variável do pós-teste.

25_{É importante definir o que pode ter influído nos resultados do programa, além da intervenção propriamente}

dita, para, por meio do desenho da avaliação, tentar superar tais fatores. Muitos deles podem ser desvelados pelo estudo das ameaças à validade (threats to validity), sumarizados por diversos metodologistas que se dedicam ao desenho de pesquisa e avaliação. Apresentar e discutir essas questões foge aos objetivos deste texto, mas o tema é tratado mais profundamente por Shadish, Cook e Campbell (2002).

Contudo, na impossibilidade de aplicação desses desenhos de pesquisa, Donald Campbell (apud Weiss, 1998) acredita que a habilidade do pesquisador para excluir qualquer explicação alternativa para os resultados obtidos pela intervenção é essencial para a aferição de efeitos e impactos, mais do que o próprio desenho de pesquisa (Weiss, 1998, p. 183).

Assim, após as contribuições de Campbell, tanto a prática em pesquisa avaliativa quanto a avaliação encontraram terreno fértil para se deslocar para além da exclusiva confiança na experimentação e nos tradicionais métodos de pesquisa em ciências sociais. A discussão atual permanece focada na importância da produção e no uso de evidência plausível e crível capaz de subsidiar políticas públicas, mas não se limita a comprovações derivadas da experimentação. No estudo de análises causais, também se poderiam incluir evidências derivadas de outras pesquisas aplicadas e abordagens e desenhos de avaliação (Donaldson; Christie; Mark, 2009).

Segundo Pohl et al. (2009), técnicas de regressão descontinuada26 e o uso de variáveis instrumentais são comuns para análise de impacto com dados não experimentais que buscam fazer inferências causais imparciais pelas diversas ameaças à validade já citadas. Para os autores, as pesquisas com base em relações causais avançarão em termos metodológicos quando mais pesquisas forem projetadas para se compararem os resultados de um experimento com os provenientes de um não experimento (normalmente estatisticamente ajustados). Se forem iguais, a inferência causal com base em desenhos não experimentais seria plausível, e não se justificaria nenhum preconceito contra os não experimentos.

No entanto, Ezemenari, Rudqvist e Subbarao (1999) explicam que nem sempre é possível ou ético usar desenhos experimentais ou quase-experimentais na pesquisa que busca aferir impactos de uma intervenção. Além desses, os autores defendem o uso de abordagens qualitativas, que permitem aprofundar a interpretação dos resultados obtidos, iluminando os processos e as relações causais.

Mas não há consenso sobre essas orientações na comunidade de investigação educacional. Há pesquisadores que discordam do valor filosófico e metodológico colocado no uso de “princípios científicos” como os estudos controlados aleatoriamente (RCT – radomly

26_{“Esse desenho é particularmente útil quando a aceitabilidade do programa a ser estudado é determinada pelo}

fato de a ‘contagem de pontos’ de uma pessoa estar acima ou abaixo de certo ponto do critério de qualificação. [...] O desenho compara os resultados [de pessoas que participaram do programa] com os resultados de pessoas inaceitáveis para o programa usando métodos de regressão. Uma ‘descontinuidade’ da linha – ou uma diferença da linha da regressão – relativa aos dois grupos sugere um efeito do programa” (Worthen; Sanders; Fitzpatrich, 2004, p. 477-478).

controlled trials) como base para compreender as relações causais e suas implicações e

consequências para as reformas educativas, para alunos e seus professores (Scriven, 2008). Scriven (2008), por exemplo, pensa que os estudos aleatórios controlados em ciências humanas não têm aplicabilidade, haja visto que não é possível garantir que se mantenham as características com que foram concebidos teoricamente (estudo duplamente cego, falta de informações de contexto, manter dois grupos de pessoas idênticas que só se distingam pelo “tratamento” recebido, localização e controle de todas as variáveis confundidoras, entre outras).

Em texto anterior (Scriven, 2005), o autor já havia questionado a tendência de considerar os resultados de estudos controlados aleatoriamente como melhor evidência para afirmações causais e relativiza os esforços de alguns estados norteamericanos para produzir bases de dados transversais para possibilitar estudos causais que alimentem análises de efetividade das intervenções nas escolas. Alternativamente, sugere a análise de modus

operandi, por eliminação, como princípio lógico subjacente à afirmações causais. Apoiado no

exemplo da Astronomia, o autor recupera a cientificidade da alegação causal certificada por teoria, sustentando que pode ser tão forte quanto as relações causais afirmadas por meio de resultados obtidos com desenhos de pesquisa experimentais ou quase-experimentais. Finalmente, baseia-se em Thomas Cook para recuperar o papel da observação baseada na experiência para declarar causalidade (Scriven, 2005, p. 8).

Nesse sentido, pode-se questionar a ideia comum de que efeitos e impactos só podem ser mensurados em desenhos experimentais ou quase-experimentais, em que o pesquisador tem mais controle sobre as variáveis e que dificilmente são aplicados em ciências sociais, e o debate se desloca para o desafio que o estudioso tem que enfrentar nessa área: buscar aferir impactos usando modelos não-experimentais de pesquisa.

Patrícia Rogers, por exemplo, acredita que os principais componentes da inferência causal para avaliação de programas são: “1) a congruência com a teoria do programa – os resultados obtidos combinam com a teoria do programa?; 2) comparações contrafactuais – o que teria acontecido sem a intervenção?; 3) revisão crítica – quais são as explicações alternativas plausíveis para os resultados?”27 (Rogers, 2010, tradução nossa).

27_{“Looking at causal inference for program theory evaluations, I’ve been thinking more broadly about three}

components of causal inference: 1) congruence with the program theory – do the results match the program theory?; 2) counterfactual comparisons – what would have happened without the intervention?; 3) critical review – what are plausible alternative explanations for the results?” (Rogers, 2010).

Observa-se, então, a necessidade de desenvolver modelos alternativos de análise de impactos de uma intervenção que considerem as informações já existentes, que sejam factíveis e possam iluminar o entendimento sobre os resultados das ações realizadas, contribuindo com a gestão pública de serviços educacionais.

Como frisam Raudenbush e Willms (1991), as análises do impacto das intervenções são dificultadas pelo fato de elas serem normalmente aplicadas a diversos contextos, o que influiria na avaliação do grau e do próprio conteúdo em que se implementou o programa. Assim, o significado da intervenção pode variar de lugar para lugar, resultando em que seus impactos também variem entre os contextos de implementação. Para os autores, ao invés de ser um limitador para as avaliações de impacto, essa flutuação poderia ser mais importante que a efetividade média global do programa, na medida em que o estudo das variações no êxito do programa mostrariam a melhor forma de conceber e executar a intervenção.

Diversas alternativas têm sido propostas para ampliar a compreensão e a conceituação de causalidade e de avaliação de impacto e seu entendimento na área de ciências sociais.

Aprimorar e aprofundar as avaliações de impacto em educação implica retomar a discussão sobre os procedimentos de análise disponíveis e a troca de experiências e de conhecimentos já construídos sobre o tema.

Ao mesmo tempo, é preciso discutir com os formuladores de políticas quais os cuidados necessários, já na implementação do programa, para que se possam produzir ou colher informações essenciais às avaliações de impacto.

Além disso, diante das dificuldades de mensurar impactos desse tipo de programa, cabe discutir como potencializar o uso das informações obtidas pelos sistemas de avaliação já existentes, visando analisar e compreender a realidade educacional em sua complexidade e possibilitando a proposição de políticas baseadas em dados confiáveis.

Discutir as experiências de avaliação de impactos que têm sido geradas no âmbito das universidades e das instituições de pesquisa especializadas em avaliação pode servir para iluminar os meandros metodológicos da medida de impactos de programas de formação e a discussão sobre possibilidades e limites de estudar impactos sem adotar métodos experimentais ou quase-experimentais. Essas preocupações devem – a exemplo do que se faz aqui – ser compartilhadas, pois a busca de soluções deveria, antes de tudo, ser coletiva.

1.3 A ênfase nos programas de formação docente e as complexidades envolvidas

No documento Avaliação de impacto de formação docente e serviço: o programa Letra e Vida (páginas 54-59)