Validade e fiabilidade dos exames - Avaliação das aprendizagens: Uma agenda, muitos desafios

A validade e a fiabilidade são duas das principais características psicométricas da avaliação.

Tradicionalmente diz-se que um teste é válido se avalia realmente aquilo para que foi construído. Se um teste não avalia o que é suposto avaliar então a sua utilização é enganadora.

Em geral, a literatura sobre esta matéria refere os seguintes tipos principais de validade:

– a validade de previsão (em que medida um teste é um bom indicador de desempenhos futuros da pessoa que o resolve);

– a validade de conteúdo (em que medida é que um teste contém uma amostra significativa do conteúdo relevante do domínio ou domínios que foram ensinados);

– a validade concorrente (em que medida os resultados do teste se correlacionam com os resultados doutro teste ou de outra avaliação das mesmas aprendizagens);

Apesar de todos estes tipos de validade, a verdade é que os investigadores normalmente se referem a um ou dois tipos, com particular relevância para a validade de conteúdo.

De acordo com Gipps (1994), a validade é hoje encarada como um conceito unitário em que o cons- tructo (a competência ou a aprendizagem subjacente) é o tema unificador. Trata-se de uma interessante e apaixonante discussão que, no fundo, considera que a validade de um teste ou de um exame não tem a ver só com o teste em si mesmo, ou com os resultados que produz, mas também com a utilização que se faz desses resultados e com as consequências das decisões avaliativas. É matéria que se abordará detalhadamente na versão definitiva deste texto.

A fiabilidade de um teste ou de um exame nacional tem a ver com a consistência dos seus resultados. Ou seja, para analisarmos se um exame é fiável temos que quantificar em que medida o desempenho dos examinandos se mantém sensivelmente o mesmo, se resolverem o exame em tempos ou ocasiões diferentes. A fiabilidade tem uma relevância acrescida quando os exames têm a sua função de selecção muito marcada, como é o caso do que se passa entre nós, pois, como vimos, os exames servem para seleccionar alunos para o ensino superior. É por isso que se afirma que a principal questão é a da replicação. Ou seja, se, na sequência de um dado exame e de uma resultante selecção de candidatos, tivesse lugar uma replicação desse mesmo exame, põe-se a questão de saber se os candidatos seleccionados se manteriam os mesmos ou não. Se sim, então o exame é considerado fiável e, em última análise, justo e equilibrado, tratando, com equidade, todos os candidatos. Se não, então temos um problema sério, pois o exame permite que a selecção de candidatos ao ensino superior possa estar dependente de outros factores que não os conhecimentos ou as reais aprendizagens adquiridas pelos candidatos.

Há inúmeros factores que podem influenciar a fiabilidade de um exame, alguns inerentes a qualquer tipo de avaliação e outros mais relacionados com avaliações em que há uma grande incidência de questões abertas. Analisemos então alguns desses factores.

Kellaghan e Madaus (2003) referem quatro factores que podem afectar a fiabilidade de um exame: 1. Os alunos podem ter desempenhos diferentes em momentos de resolução diferentes; 2. Os desempenhos dos alunos podem ser influenciados por condições externas ao

próprio exame;

3. Os desempenhos dos alunos podem variar com a variação das questões que têm que resolver;

4. As correcções dos exames podem variar sensivelmente de corrector para corrector, principalmente em questões não objectivas, de resposta aberta.

Para diminuir, ou mesmo anular, estas «ameaças» à fiabilidade dos exames, o que normalmente se faz é standardizar as condições de administração; os critérios de correcção, que devem tão detalhados quanto possível; e os procedimentos dos correctores, para assegurar que os critérios e os padrões de correcção são uniformes. É também usual apresentar provas corrigidas, aos correctores, em que constam as explicações para as pontuações que se atribuem.

Como é evidente, quanto mais «apertadas» forem estas condições mais limitações acabam por surgir quanto ao tipo de tarefas e, portanto, de conhecimentos, que se acabam por poder avaliar.

Gipps e Stobart (2003) chamam a atenção para o facto das avaliações alternativas serem particular- mente vulneráveis aos problemas de fiabilidade. Nomeadamente referem que é difícil administrar questões abertas de «alta fiabilidade» devido ao tempo que demoram a ser resolvidas. Assim, há limitações sérias quanto às inferências que se possam fazer acerca dos desempenhos dos alunos, porque nunca se poderão administrar muitas questões desta natureza num exame. Repare-se que Shavelson, Baxter e Gao, citados em Gipps e Stobart (2003), estimaram que, para se atingirem níveis aceitáveis de fiabilidade, seriam necessárias entre 10 e 23 questões daquele tipo! Relativamente à fiabilidade das correcções, Gipps e Stobart parecem mais optimistas, pois consideram que pode ser significativamente melhorada com processos de formação, critérios de correcção muito detalhados e trefas standardizadas.

Gipps (1994), enumera as quatro técnicas clássicas para avaliar a fiabilidade de um teste:

1. Administrar o mesmo teste com alguns dias de intervalo e comparar os desempenhos obtidos em cada administração;

2. Administrar versões comparáveis do mesmo teste a amostras semelhantes de uma dada população e comparar os respectivos resultados;

3. Se só é possível proceder a uma administração ou se só há um teste disponível, divide- -se aleatoriamente o teste em duas partes que se administram separadamente, compa- rando-se os resultados obtidos pelos alunos nas duas partes;

4. Determinar estatisticamente um coeficiente de consistência interna a partir de todas as correlações que se calculam a partir de todas as possíveis «divisões» do teste (por exemplo, calcular a correlação entre todos os resultados do item x e todos os resulta- dos finais do teste).

Para melhorar a consistência das correcções, Gipps enumera um conjunto de processos de moderação externa:

1. Moderação estatística através da utilização de testes de referência ou técnicas de scaling; 2. Moderação por inspecção;

3. Moderação por um painel de revisão; 4. Moderação por consenso;

5. Moderação por grupos; 6. Moderação intrínseca;

7. Moderação através da acreditação de instituições.

Nem todos estes métodos são passíveis de utilizar num contexto de exames nacionais, pois alguns destinam-se mais a «moderar» avaliações internas das escolas.

No documento Avaliação das aprendizagens: Uma agenda, muitos desafios (páginas 33-35)