Comprimento da escala e o número de pontos

2.4 PONTUAÇÃO DOS TESTES COM ITENS ABERTOS

2.4.2 Comprimento da escala e o número de pontos

A prática mais comum nas avaliações com itens de respostas construí- das, promovidas por instituições de nível superior nos Estados Unidos e em outras instituições ao redor do mundo, é utilizar uma escala com cinco ou seis pontos igualmente espaçados entre si (HAMP-LYONS, 2003; KNOCH; ELDER, 2010; KNOCH, 2011b). Na verdade, esse número de pontos de escala é justificado pelos resultados da pesquisa de Miller (1956), a qual estabe- lece que a capacidade das pessoas em processar informações limita-se a sete

(com variação de mais ou menos dois) elementos simultaneamente. Quando esse limite é excedido, a estrutura cognitiva pode ficar sobrecarregada, difi- cultando a compreensão.

No entanto, algumas vezes são utilizadas escalas de dez ou mais pontos, mas esse procedimento não é muito recomendado por especialistas, uma vez que não existem estudos evidenciando estatisticamente que os avaliadores podem distinguir com confiabilidade entre mais do que 10 níveis de qualidade (KNOCH, 2011a; HAMP-LYONS, 2003).

Mesmo assim, há certa preocupação para decidir o número de níveis, uma vez que são necessários números suficientes para discriminar entre di- ferentes graus de desempenho, mas o número de níveis não deve ser dema- siadamente grande de modo que os avaliadores ainda possam fazer distin- ções entre eles em seus julgamentos (PENNY; JOHNSON; GORDON, 2000; POPHAM, 1997). Segundo North (2000), há uma relação direta entre confiabilidade e poder de decisão. Myford (2002), em um estudo com o objetivo de investigar a relação entre a confiabilidade e o número de pontos da escalas, concluiu que a confiabilidade é maior para as escalas com número de pontos entre cinco e nove. Além da preocupação com a confiabilidade e a capacidade de julgamento dos avaliadores, há a escolha do número de pontos em escalas para categorias específicas. Nem todas as categorias necessitam do mesmo número de pontos, algumas necessitam de uma escala mais refi- nada para julgamentos mais sutis, enquanto, para outras, fica difícil formular descritores em todos os níveis de modo que os avaliadores não tenham dificul- dade de diferenciá-los em seus julgamentos (KNOCH, 2011a). O número de níveis apropriados na escala deve ser estabelecido de acordo com o contexto no qual a avaliação será empregada.

O grau de especificidade que pode ser facilmente conseguido em ava- liações em matemática ou ciências, nem sempre é possível em áreas onde a diversidade de respostas é aceitável e até mesmo valorizada. Cronbach et al. (1995) propuseram a incorporação de números decimais entre os níveis da escala em avaliações nas quais é esperada uma variedade de respostas corretas, pois algumas vezes os avaliadores sentem que a resposta é um pouquinho superior, mas não suficiente para alcançar o próximo número inteiro da escala. A expectativa é que a confiabilidade de pontuação entre os avaliadores seja melhorada com a diminuição de erros acumulados com o julgamento apenas em números inteiros.

No Brasil, poucas informações são divulgadas em relação aos critérios de avaliação ou número de pontos de escalas que são normalmente utilizados nas avaliações em larga escala. As provas de redação do ENEM são pontua-

das de acordo com cinco competências que são estruturadas a partir da matriz de competências e habilidades definida pelos PCN (Parâmetros Curriculares Nacionais) – Ensino Médio (BRASIL, 2012, 2013).

Cada redação é corrigida por dois avaliadores independentes que atribuem uma nota entre 0 (zero) e 200 (duzentos) pontos para cada uma das cinco competências. A soma desses pontos compõe a nota total de cada avaliador, que pode chegar a 1000 pontos. A nota final do participante é a média aritmética das notas totais atribuídas pelos dois avaliadores. Se houver dis- crepância entre as duas notas atribuídas pelos avaliadores de mais de 200 (duzentos) pontos na pontuação total, ou se as notas atribuídas para alguma das competências diferirem em mais de 80 (oitenta) pontos, haverá uma nova correção por outro avaliador independente, então a nota final será a média aritmética das duas notas totais que mais se aproximarem. Se a discrepân- cia persistir após a terceira correção, a redação será avaliada por uma banca composta por três professores, que atribuirá a nota final do participante. Cada competência é avaliada em cinco níveis de desempenho espaçados igualmente (BRASIL, 2012, 2013).

Com base nessas informações, verifica-se que a correção da redação do ENEM é feita segundo a pontuação analítica, na qual o julgamento é feito sobre características individuais, cada avaliador atribui uma pontuação para cada uma das dimensões que estão sendo avaliadas. A pontuação analítica permite a avaliação separada de cada competência avaliada e também uma escala descritiva diferente para cada uma das competências (MOSKAL, 2000), no caso do ENEM, a escala utilizada é a mesma em todas elas.

A FUVEST costuma divulgar todos os anos no manual do candidato o que ela denomina de “mecanismo de correção da redação”, para informar ao candidato os critérios utilizados na correção da prova de redação. Esses critérios são divulgados, de modo geral, sem muitos detalhes. O mecanismo de correção é o seguinte: cópias do texto elaborado pelo participante são enviadas a dois avaliadores independentes, previamente treinados. As notas são atribuídas conforme três características: tipo de texto e abordagem do tema, estrutura e expressão. Cada uma dessas características recebe notas 0, 1, 2, 3 ou 4. Se houver alguma discrepância entre as notas provenientes dos avaliadores, a redação é encaminhada a uma “banca superior”, que atribui a nota definitiva. A fuga ao tema proposto anula a redação que receberá nota zero (FUVEST, 2013).

As informações divulgadas pela FUVEST não contêm referências sobre o tipo de pontuação que é utilizado, mas, com base nessas informações, pode-se intuir que a nota é atribuída conforme a pontuação holística, na qual

cada avaliador faz julgamentos de modo geral sobre o desempenho em cada uma das características avaliadas.

Desde o vestibular de 2011, a prova de redação da UNICAMP consiste em um modelo que solicita ao candidato a elaboração obrigatória de vários textos de gêneros discursivos diversos. Nos concursos de 2011 e 2012 foi exigida a produção de três tarefas, nas edições de 2013 e 2014, de apenas duas. Cada uma das propostas é acompanhada por instruções específicas que objetivam delinear o propósito, o gênero e os interlocutores do texto a ser elaborado, além de textos para leitura que servem como inspiração, forne- cendo as condições para a produção textual, situando o candidato em relação ao propósito de sua escrita. A correção dos textos escritos pelos candidatos considera as instruções que são fornecidas no enunciado.

O manual do candidato não fornece informações suficientes para de- terminar o tipo de pontuação que é utilizada na correção da prova de redação, mas provavelmente a nota seja atribuída conforme a pontuação holística, na qual cada avaliador faz julgamentos de modo geral sobre o desempenho em cada uma das características avaliadas. Outro motivo que justifica essa su- posição é a informação contida nas provas comentadas de que os textos não são corrigidos com excesso de rigor quanto às normas da língua culta e que pequenos deslizes são ignorados, sendo essa uma característica da pontuação holística, que considera apenas os aspectos positivos do texto (COMVEST, 2012, 2013).

A UEL também promoveu mudanças na prova de redação a partir do vestibular de 2012, que passou a exigir 2 (dois), 3 (três) ou 4 (quatro) textos a serem produzidos conforme as instruções dadas, inclusive quanto à sua extensão. O candidato deve ler atentamente o enunciado e os textos que ser- virão de base para a sua resposta, pois a pontuação é atribuída conforme as instruções contidas no enunciado quanto às atividades de analisar, resumir, comentar, comparar, criticar, completar, entre outras. Aspectos discursivos, textuais, estruturais e normativos deverão ser levados em conta.

Inicialmente, as redações são corrigidas por 2 membros da equipe de modo independente, que atribuem notas entre 0 e 6 pontos. Se a diferença entre as notas for menor ou igual a 1 ponto, a nota final será a média aritmé- tica entre as duas notas, caso seja identificada uma discrepância, os textos são lidos por um terceiro avaliador, sem que este saiba quais notas foram atribuí- das anteriormente. Se a pontuação atribuída pelo terceiro avaliador for igual à média das pontuações 1 e 2, mantém-se a média, caso contrário será consi- derada pontuação final a média das duas pontuações que apresentarem menor diferença entre si (COPS/UEL(a), 2012; COPS/UEL(b), 2012).

A UEL também não divulga informações mais detalhadas sobre os critérios de pontuação utilizados ou sobre o número de pontos da escala. Com base nessas informações, a conclusão intuitiva é que a pontuação empregada também seja a holística.

No documento Avaliações em larga escala com itens de respostas construídas no contexto do modelo multifacetas de Rasch (páginas 88-92)