Variabilidade relacionada ao corretor

3.9 CORREÇÃO DE TESTES

3.9.3 Variabilidade relacionada ao corretor

Com respeito à correção de avaliação, McNamara diz que “julgamentos

que valem à pena vão ser inevitavelmente complexos e envolver atos de

interpretação por parte do corretor e, portanto, estar sujeito a discordâncias”.

(1996, p.117) Podemos, assim, dizer que a análise das respostas, no caso das

questões discursivas, é necessariamente subjetiva; e mais do que classificar

cada questão como ‘certa’ ou ‘errada’, os examinadores precisam fazer

julgamentos sobre o quão correta/incorreta ou abrangente é a resposta.

Introduzir o corretor no processo de avaliação é ao mesmo tempo, necessário e problemático. É problemático porque correções são necessariamente subjetivas. Outra forma de dizer isso é que a correção dada a um candidato é um reflexo, não apenas da qualidade do desempenho, mas das qualidades como corretor da pessoa que corrigiu.”97 (MCNAMARA, 2000, p.37, tradução nossa).

Em outras palavras, o que McNamara quer dizer é que não há como

evitar ou eliminar completamente algum tipo de variação entre corretores. No

entanto, o fato de ela existir não significa que não deva ter um limite e, menos

ainda, que deva ser aceita incondicionalmente.

De acordo com Alderson, Clapham e Wall (1995) o trabalho do

examinador, mais do que apenas dizer se uma resposta está certa ou errada,

“é avaliar quão bem um candidato completa uma dada tarefa, e para fazer isso

eles precisam de uma escala de classificação” (tradução nossa). Essa escala

97 “Introducing the rater into the assessment process is both necessary and problematic. It is problematic because ratings are necessarily subjective. Another way of saying this is that the rating given to a candidate is a reflection, not only of the quality of the performance, but of the qualities as a rater of the person who has judged it.”

pode ser holística, e julgar o desempenho do candidato como um todo, ou

analítica, e julgar aspectos específicos (detalhes) desse desempenho,

dependendo da intenção do elaborador do teste. Os autores afirmam que em

ambas as análises é imprescindível que sejam estabelecidos descritores

⁹⁸

para

cada componente avaliado.

Como mencionado anteriormente, em se tratando de avaliações como

estas de suficiência, os julgamentos feitos trarão conseqüências diretas a quem

estiver sendo julgado. Este fato, necessariamente, envolve questões de justiça

em relação aos procedimentos utilizados pelos juízes em questão: os

corretores dos testes.

Entende-se que algum grau de divergência na correção de testes que

envolvem itens discursivos e corretores é previsível e aceitável, como afirmou

McNamara. Porém, as diferenças devem ser minimizadas o máximo possível,

para que as decisões tomadas a partir dos resultados da correção colaborem

na garantia da validade de todo o processo de avaliação.

A correção tem influência direta na validação dos testes, porque em

todo processo de avaliação que envolva julgamento humano, seja de um ou de

mais corretores, haverá sempre algum tipo de divergência em função da

subjetividade característica dos julgamentos humanos. Vejamos a descrição de

dois exemplos:

Situação: 01teste com 10 questões discursivas.

Quantidade de testes para correção: 100 testes

Um único corretor:

neste caso as

possíveis causas

de variabilidade na

correção podem

ser, entre outras:

• O corretor não consegue corrigir tudo em um

único dia, mesmo que ele corrija o dia todo.

• Ao longo do dia o cansaço pode ser fonte de

variação e o corretor pode, conseqüentemente,

ficar mais exigente ou mais leniente.

• A variação que se repete ao longo do dia, pode

repetir-se de um dia para outro, também, porque

98 O estabelecimento de descritores, bem como as escalas de avaliação são assuntos tratados no item “Definição do Construto”.

quanto mais cansado, mais exigente ou leniente

o corretor pode ficar.

• Outra variação pode ocorrer no humor do

corretor, em diferentes dias, interferindo no seu

padrão de correção mais ou menos.

• Dependendo de quão bem estabelecidos estejam

os critérios de correção, as variações na correção

de uma mesma questão podem surgir, em maior

ou menor grau, ao longo das horas e dos dias.

Mais de um

corretor: neste

caso, além das

variáveis

individuais,

mencionadas

acima, podemos

ter:

• Diferenças no (não) estabelecimento de critérios

de correção.

• Diferenças quanto à rigidez de obediência aos

critérios.

• Diferenças quanto à compreensão dos critérios.

• Maior ou menor influência das variações de

humor de cada corretor; etc.

TABELA 3 – EXEMPLOS DE CORREÇÃO. FONTE: AUTOR (2008)

Como se pode observar por estes exemplos, o estabelecimento de

critérios e a chegada a um consenso, entre os corretores, sobre como deva ser

o processo de correção é de extrema importância, ou todas essas influências e

diferenças podem tornar o processo de avaliação inválido, na medida em que,

para um corretor um candidato pode obter um escore acima do limite mínimo

estabelecido, sendo assim aprovado na seleção; enquanto para outro corretor,

este mesmo candidato pode obter escore abaixo do limite mínimo, não sendo,

portanto, aprovado. Dependendo do número de diferenças como esta, o

resultado da avaliação pode sofrer alterações consideráveis em termos da

qualidade dos candidatos aprovados.

De acordo com McNamara (2000, p.36) as avaliações mediadas por

corretores estão cada vez mais presentes no processo de ensino e

aprendizagem de línguas, porque o processo comunicativo utilizado está

concentrando-se mais no desempenho comunicativo contextualizado do

aprendiz e, conseqüentemente, julgar o impacto dessa comunicação passou a

ser o foco da avaliação do uso da língua alvo. Para esse autor, as “diferenças

entre juízes podem ser entendidas em termos de severidade

(ou indulgência)

global por um lado, e aleatoriedade do erro (erro) por outro”. (1996, p. 122,

tradução nossa).

Mcnamara (1996, p. 123) apresenta algumas formas nas quais os

corretores podem diferir, que ele considera importantes, quais sejam:

a) Eles podem diferir em termos de indulgência global. Ou seja, diferir

em termos de características gerais de cada corretor;

b) Eles podem diferir no que o autor chama de “interação

corretor-item”, ou “interação corretor-candidato”. No primeiro caso, os

corretores podem ser mais rigorosos ou indulgentes na correção de

algum(ns) item(ns) e de outro(s) menos. No segundo caso, os

corretores podem ser mais rigorosos ou indulgentes com um grupo

de candidatos do que com outro. Entretanto, em geral, segundo o

autor, o grau de severidade ou indulgencia dos corretores é

consistente nos dois casos, ou seja, eles serão consistentemente

severos ou indulgentes com um mesmo grupo de candidatos ou na

correção de um mesmo item para todos os candidatos.

c) Eles podem diferir na maneira de interpretar a escala de

classificação utilizada. Aparentemente, as escalas de avaliação

possuem intervalos iguais

¹⁰⁰

, visualmente algo como:

0 1 2 3 4 5

No entanto, a interpretação de um corretor desta escala pode variar,

pois para um corretor a distância entre um candidato cuja habilidade é

classificada na categoria 0 e outro na categoria 1 pode ser menor que para

outro corretor, e assim sucessivamente com relação a todas as categorias da

99 Em nota McNamara sugere o termo características do corretor em lugar de severidade.

100 Os intervalos das escalas são “aparentemente” iguais, porque estas são escalas ordinais e não intervalares. Ver definição de escalas no item 2.5.4.2 acima - “A natureza das medidas e as escalas”.

escala. Um exemplo de duas interpretações diferentes poderia ser da seguinte

forma:

0 1 2 3 4 5

Essa diferença de interpretação representada pelas duas escalas

acima significa que, por exemplo, para o primeiro corretor a diferença entre

candidatos da categoria 1 e da categoria 0 é bem pequena, entre 1 e 2 a

diferença é bem maior, ou seja, para que um candidato passe da categoria 1

para a 2 o seu desempenho tem que dar um “salto” bem maior do que para

passar da categoria 0 para a 1. Para o segundo corretor o “salto” entre as

categorias 1 e 2 é bem menor que entre 0 e 1.

Supondo que um candidato esteja na interseção de duas categorias, ou

seja, se ele não tiver a mesma habilidades de outros classificados da categoria

2, mas, por outro lado, tiver uma habilidade superior à maioria dos classificados

na categoria 1, o corretor terá necessariamente que fazer uma escolha por uma

das duas categorias. Como a divisão das categorias é estabelecida em

intervalos diferentes por cada corretor, este candidato poderia ser classificado

diferentemente por cada corretor, dependendo da interpretação que cada um

fizer da escala original (com intervalos aparentemente iguais).

Eles podem, por fim, diferir em termos da extensão de erros aleatórios

associados à sua correção. Sua maior ou menor consistência em relação à

correção que outros corretores fazem, dos mesmos candidatos. O corretor

pode ser irregular e não seguir um padrão de severidade ou indulgência em

sua correção como um todo; a classificação que ele faz dos candidatos pode

não permitir uma relação consistente entre a sua e a classificação dos mesmos

candidatos por outro corretor.

A falta de consistência apresentada no item 4 acima, de acordo com o

mesmo autor, é difícil de ser eliminada ou compensada, por isso, corretores

desse tipo devem ser treinados novamente ou eliminados, caso o novo

treinamento não resolva o problema. Nos outros casos, o estabelecimento de

critérios, o treinamento dos corretores e programas estatísticos de análise de

dados podem fazer a equalização dos escores médios dados pelos corretores,

minimizando a influência dessas fontes de variabilidade nos resultados das

avaliações.

No documento AVALIAÇÃO DE LEITURA EM INGLÊS PARA FINS ACADÊMICOS: ELABORAÇÃO E ANÁLISE DE TESTE DE SUFICIÊNCIA (páginas 112-117)