1.1 A avaliação externa no Brasil: O SAEB
1.1.1 A avaliação em larga escala e seus contextos de realização: mecanismos de
1.1.1.2 Itens
Segundo Hogan (2006), itens são questões de teste, podendo ser abertos ou fechados, com uma regra de pontuação clara associada a uma escala de medida, podendo ser dicotômicos ou politômicos, sendo eles os responsáveis por avaliar as habilidades desenvolvidas ou não pelos alunos. Os itens dicotômicos apresentam em sua estrutura duas possibilidades de respostas, certa ou errada, envolvendo geralmente 4 ou 5 opções. Já os itens politômicos não apresentam uma única opção ou situação como correta, e sim possibilidades diferentes de acerto (SILVA, 2010). De acordo com Haladyna (1997), a construção de itens exige um elevado grau de complexidade técnica, além de conhecimentos específicos quanto à formulação do enunciado, do comando para a resposta e das alternativas de resposta.
Cabe ressaltar que tanto o SAEB quanto o SAEGO utilizam testes unidimensionais22 e itens dicotômicos em sua estrutura, que é uma característica das avaliações em larga escala do Brasil. Dessa forma, iremos nos ater somente a eles neste estudo.
Observe, a seguir, o exemplo de um item dicotômico que avalia a habilidade de o aluno resolver um problema envolvendo o cálculo de porcentagem.
22 Entende-se por testes unidimensionais aqueles que são capazes de medir uma única habilidade ou traço latente do respondente.
Figura 01 – Item de Matemática representativo da habilidade de resolver problema envolvendo porcentagem com apoio de figura
Fonte: Do autor.
Como se observa na figura anterior, o enunciado envolve todo o corpo do item, ou seja, o comando para a resposta, que é a pergunta, também faz parte do enunciado. O enunciado deve trazer todas as informações possíveis, de forma clara e concisa. Já o comando para a resposta deve estar diretamente atrelado ao descritor da matriz de avaliação, informando em sua estrutura a habilidade que está sendo avaliada. Neste exemplo, o comando deixa claro o que é para o aluno fazer, a ação cognitiva que ele deverá mobilizar para responder o item. As alternativas de resposta são compostas pelo gabarito e pelos distratores. O gabarito é a opção correta, ou seja, aquela que, provavelmente, demonstrará que o aluno desenvolveu a habilidade avaliada pelo item. Já os distratores são as alternativas incorretas, mas plausíveis e cuja função é a de apontar lacunas no processo de ensino/aprendizagem. Eles devem estar atrelados a raciocínios possíveis
Neste exemplo, o aluno que marcar a opção D (gabarito), provavelmente, desenvolveu a habilidade avaliada. Para acertar esse item, o aluno poderá se valer da seguinte estratégia: seccionar uma face do cubo em triângulos congruentes, conforme representação abaixo:
Em seguida conta-se o total de triângulos pretos, que é 12, e compara-se com o total de triângulos em que a face ficou dividida, que é 32. Ou seja,
32 12
é igual a 37, 5%. Já os distratores são as opções que devem indicar possíveis obstáculos epistemológicos23 que os alunos apresentam ao se deparar com uma situação- problema envolvendo determinados conceitos. Os alunos, por exemplo, que marcarem a opção B, provavelmente, irão considerar que a face do cubo foi dividida em nove partes, das quais 5 estão pintadas na cor preta. Em seguida, compararão essas faces, encontrando 55,5%. Observem que esse é um raciocínio equivocado, e que aponta fragilidades significativas no processo de aprendizagem matemática. Uma delas é o fato de o aluno não perceber que na relação parte todo, o todo deve estar dividido em partes iguais. A ideia é que, por meio dos distratores, os educadores consigam conhecer cognitivamente seus alunos, percebendo através do erro que eles, os alunos, cometem, e planejar estratégias de ensino que lhes permitam encontrar um significado para seu objeto de estudo e, assim, possivelmente consolidar a habilidade avaliada.
Todo item, antes de compor o teste, precisa ser pré-testado. Com isso, o objetivo desse processo é eliminar itens que não possuem um bom comportamento, isto é, que não se ajustam ao teste por algum motivo, seja por um problema em sua estrutura, apresentando algum erro conceitual, ou por talvez se referir a uma habilidade não desenvolvida ao longo do período escolar (OLIVEIRA, 2008). De todo modo, todas essas situações são analisadas após o pré-teste.
23 Obstáculo epistemológico é assumido nessa pesquisa como aquele que se esconde no interior de um saber que funciona, mas que é “local” e que não pode ser generalizado para o objeto matemático que deveria ser aprendido (D‟Amore, 2007).
Depois de o item ter passado pela pré-testagem, é possível obter três atributos para classificá-lo, os quais, uma vez determinados, não devem sofrer qualquer alteração caso seja aplicado a populações diferentes (HORTA NETO, 2013). Esses atributos são conhecidos como parâmetros dos itens, sendo:
A discriminação (Parâmetro “a”) que é a capacidade de o item discriminar os alunos que desenvolveram as habilidades daqueles que não as desenvolveram. Essa análise é feita observando-se o comportamento da resposta do aluno avaliado em relação a um item específico, comparando com a de outro aluno que está sendo avaliado, principalmente se um acerta e outro erra (OLIVEIRA, 2008). O poder de discriminação de um item é a característica que lhe permite avaliar a proficiência desse aluno, ou seja, para acertar um item, o aluno deve apresentar uma proficiência mínima que, se não a possuir, a probabilidade de ele acertar o item é baixa.
A dificuldade (Parâmetro “b”) está relacionada com o percentual de alunos que respondem corretamente ao item. Neste caso, quanto maior o número de pessoas que acertam o item, mais fácil este é, e vice-versa. Por isso, este parâmetro é conhecido como a dificuldade do item.
O acerto ao acaso (Parâmetro “c”) leva em consideração a probabilidade de o aluno “chutar” e acertar o item, mesmo quando ele tiver um nível arbitrariamente baixo de proficiência.
Nessa perspectiva, compreende-se por que a elaboração de um item é tão importante. Ela pode tanto comprometer um pré-teste quanto colaborar com os aspectos cognitivos que envolvem a ação dos avaliados frente a esse instrumento. A elaboração de um bom teste padronizado exige conhecimento dos parâmetros dos itens. De acordo com Oliveira (2008):
[...] pode haver alternativas que "facilitam" o desempenho de quem sabe menos, por exemplo, alternativas com respostas absurdas ou obviamente falsas, fazendo com que esses alunos de menor proficiência sejam "empurrados" na direção da resposta certa, ou que, pelo menos, tenham que "chutar" entre um menor número de opções, aumentando assim sua chance de sucesso (OLIVEIRA, 2008, p.18).
A análise estatística de um item por meio da TRI permite-nos constatar, portanto, que, para um determinado item, existe uma probabilidade de acerto que
depende da dificuldade do item e da proficiência do indivíduo. Assim, entendemos que uma proficiência não se refere a um valor exato, mas a uma probabilidade fundamentada nas respostas que o aluno dá a um conjunto de itens.
Apresentamos, a seguir, uma ilustração de um relatório estatístico realizado em um item (Figura 02), e a Curva Característica do Item (CCI)24 (Figura 02) que é uma função logística de três parâmetros, seguindo a metodologia da TRI, que considera, também, a análise clássica em sua estrutura. Essa modelagem é utilizada no SAEB e no SAEGO para o item de múltipla escolha.
Figura 02 – Análise estatística do item
Fonte: Material didático distribuído na disciplina Interpretação de Escalas de Proficiência (CAEd, 2014).
O eixo horizontal no gráfico acima é a proficiência e o vertical é a probabilidade de acerto, que varia de 0 a 1. A curva característica do item é uma sigmoide, e por meio dela é possível perceber que, neste exemplo, o estudante começa com uma chance de quase 20% de acertar o item. Se traçarmos, digamos,
24 As curvas características dos itens são sigmoides que levam em consideração os três parâmetros (a, b e c).
uma reta vertical em qualquer intervalo de proficiência, na intersecção dessa reta com a curva característica do item, obtém-se o valor da probabilidade de acerto no item para estudantes com aquela proficiência. Neste caso, alunos com proficiência de 150 pontos têm uma probabilidade de 60% de acertar esse item. Já alunos com proficiência abaixo de 150 pontos possuem uma menor chance de acertar o item, e o contrário ocorre com aqueles que estão acima dos 150 pontos. Observa-se também que esse é um item fácil, pois quanto mais para a esquerda estiver a curva, maior é a facilidade do item.
Por meio de uma análise clássica, é possível verificar a correlação item/teste para avaliar a discriminação do item. Neste caso, pode aparecer, por exemplo, um problema de os alunos com proficiência mais baixa terem um percentual de acerto, em um item, maior que os alunos com proficiência mais alta. Nesse caso, diz-se que o item e o teste têm uma correlação negativa, o que o invalidaria, sendo este um dos motivos pelo qual é tão importante que o pré-teste seja realizado. Essa correlação aparece no relatório com o nome de bisserial e normalmente os analistas de avaliação seguem os valores abaixo para elaborarem suas conclusões a respeito dessa medida. Portanto, o item da figura 02 é um bom item, pois possui bons valores de bisserial e de discriminação. Neste caso, quanto mais acentuada for a curva, melhor é o poder de discriminação do item.
Tabela 01 – Critérios para classificação da correlação bisserial
Fonte: CAEd, 2014.
Com base em relatórios como esses, é que se realiza a análise pedagógica dos itens, levando-se em consideração os aspectos discutidos anteriormente. E, a partir daí, é possível decidir se um item deverá fazer ou não parte de um teste em larga escala.
Correlação Bisserial
Ruim Bom Ótimo