3.9 CORREÇÃO DE TESTES
3.9.3 Variabilidade relacionada ao corretor
Com respeito à correção de avaliação, McNamara diz que “julgamentos
que valem à pena vão ser inevitavelmente complexos e envolver atos de
interpretação por parte do corretor e, portanto, estar sujeito a discordâncias”.
(1996, p.117) Podemos, assim, dizer que a análise das respostas, no caso das
questões discursivas, é necessariamente subjetiva; e mais do que classificar
cada questão como ‘certa’ ou ‘errada’, os examinadores precisam fazer
julgamentos sobre o quão correta/incorreta ou abrangente é a resposta.
Introduzir o corretor no processo de avaliação é ao mesmo tempo, necessário e problemático. É problemático porque correções são necessariamente subjetivas. Outra forma de dizer isso é que a correção dada a um candidato é um reflexo, não apenas da qualidade do desempenho, mas das qualidades como corretor da pessoa que corrigiu.”97 (MCNAMARA, 2000, p.37, tradução nossa).
Em outras palavras, o que McNamara quer dizer é que não há como
evitar ou eliminar completamente algum tipo de variação entre corretores. No
entanto, o fato de ela existir não significa que não deva ter um limite e, menos
ainda, que deva ser aceita incondicionalmente.
De acordo com Alderson, Clapham e Wall (1995) o trabalho do
examinador, mais do que apenas dizer se uma resposta está certa ou errada,
“é avaliar quão bem um candidato completa uma dada tarefa, e para fazer isso
eles precisam de uma escala de classificação” (tradução nossa). Essa escala
97 “Introducing the rater into the assessment process is both necessary and problematic. It is problematic because ratings are necessarily subjective. Another way of saying this is that the rating given to a candidate is a reflection, not only of the quality of the performance, but of the qualities as a rater of the person who has judged it.”
pode ser holística, e julgar o desempenho do candidato como um todo, ou
analítica, e julgar aspectos específicos (detalhes) desse desempenho,
dependendo da intenção do elaborador do teste. Os autores afirmam que em
ambas as análises é imprescindível que sejam estabelecidos descritores
98para
cada componente avaliado.
Como mencionado anteriormente, em se tratando de avaliações como
estas de suficiência, os julgamentos feitos trarão conseqüências diretas a quem
estiver sendo julgado. Este fato, necessariamente, envolve questões de justiça
em relação aos procedimentos utilizados pelos juízes em questão: os
corretores dos testes.
Entende-se que algum grau de divergência na correção de testes que
envolvem itens discursivos e corretores é previsível e aceitável, como afirmou
McNamara. Porém, as diferenças devem ser minimizadas o máximo possível,
para que as decisões tomadas a partir dos resultados da correção colaborem
na garantia da validade de todo o processo de avaliação.
A correção tem influência direta na validação dos testes, porque em
todo processo de avaliação que envolva julgamento humano, seja de um ou de
mais corretores, haverá sempre algum tipo de divergência em função da
subjetividade característica dos julgamentos humanos. Vejamos a descrição de
dois exemplos:
Situação: 01teste com 10 questões discursivas.
Quantidade de testes para correção: 100 testes
Um único corretor:
neste caso as
possíveis causas
de variabilidade na
correção podem
ser, entre outras:
• O corretor não consegue corrigir tudo em um
único dia, mesmo que ele corrija o dia todo.
• Ao longo do dia o cansaço pode ser fonte de
variação e o corretor pode, conseqüentemente,
ficar mais exigente ou mais leniente.
• A variação que se repete ao longo do dia, pode
repetir-se de um dia para outro, também, porque
98 O estabelecimento de descritores, bem como as escalas de avaliação são assuntos tratados no item “Definição do Construto”.
quanto mais cansado, mais exigente ou leniente
o corretor pode ficar.
• Outra variação pode ocorrer no humor do
corretor, em diferentes dias, interferindo no seu
padrão de correção mais ou menos.
• Dependendo de quão bem estabelecidos estejam
os critérios de correção, as variações na correção
de uma mesma questão podem surgir, em maior
ou menor grau, ao longo das horas e dos dias.
Mais de um
corretor: neste
caso, além das
variáveis
individuais,
mencionadas
acima, podemos
ter:
• Diferenças no (não) estabelecimento de critérios
de correção.
• Diferenças quanto à rigidez de obediência aos
critérios.
• Diferenças quanto à compreensão dos critérios.
• Maior ou menor influência das variações de
humor de cada corretor; etc.
TABELA 3 – EXEMPLOS DE CORREÇÃO. FONTE: AUTOR (2008)
Como se pode observar por estes exemplos, o estabelecimento de
critérios e a chegada a um consenso, entre os corretores, sobre como deva ser
o processo de correção é de extrema importância, ou todas essas influências e
diferenças podem tornar o processo de avaliação inválido, na medida em que,
para um corretor um candidato pode obter um escore acima do limite mínimo
estabelecido, sendo assim aprovado na seleção; enquanto para outro corretor,
este mesmo candidato pode obter escore abaixo do limite mínimo, não sendo,
portanto, aprovado. Dependendo do número de diferenças como esta, o
resultado da avaliação pode sofrer alterações consideráveis em termos da
qualidade dos candidatos aprovados.
De acordo com McNamara (2000, p.36) as avaliações mediadas por
corretores estão cada vez mais presentes no processo de ensino e
aprendizagem de línguas, porque o processo comunicativo utilizado está
concentrando-se mais no desempenho comunicativo contextualizado do
aprendiz e, conseqüentemente, julgar o impacto dessa comunicação passou a
ser o foco da avaliação do uso da língua alvo. Para esse autor, as “diferenças
entre juízes podem ser entendidas em termos de severidade
99(ou indulgência)
global por um lado, e aleatoriedade do erro (erro) por outro”. (1996, p. 122,
tradução nossa).
Mcnamara (1996, p. 123) apresenta algumas formas nas quais os
corretores podem diferir, que ele considera importantes, quais sejam:
a) Eles podem diferir em termos de indulgência global. Ou seja, diferir
em termos de características gerais de cada corretor;
b) Eles podem diferir no que o autor chama de “interação
corretor-item”, ou “interação corretor-candidato”. No primeiro caso, os
corretores podem ser mais rigorosos ou indulgentes na correção de
algum(ns) item(ns) e de outro(s) menos. No segundo caso, os
corretores podem ser mais rigorosos ou indulgentes com um grupo
de candidatos do que com outro. Entretanto, em geral, segundo o
autor, o grau de severidade ou indulgencia dos corretores é
consistente nos dois casos, ou seja, eles serão consistentemente
severos ou indulgentes com um mesmo grupo de candidatos ou na
correção de um mesmo item para todos os candidatos.
c) Eles podem diferir na maneira de interpretar a escala de
classificação utilizada. Aparentemente, as escalas de avaliação
possuem intervalos iguais
100, visualmente algo como:
0 1 2 3 4 5
No entanto, a interpretação de um corretor desta escala pode variar,
pois para um corretor a distância entre um candidato cuja habilidade é
classificada na categoria 0 e outro na categoria 1 pode ser menor que para
outro corretor, e assim sucessivamente com relação a todas as categorias da
99 Em nota McNamara sugere o termo características do corretor em lugar de severidade.
100 Os intervalos das escalas são “aparentemente” iguais, porque estas são escalas ordinais e não intervalares. Ver definição de escalas no item 2.5.4.2 acima - “A natureza das medidas e as escalas”.