• Nenhum resultado encontrado

Teoria Clássica dos Testes e Teoria de Resposta ao Item

3 AVALIAÇÃO DA PROFICIÊNCIA EM LEITURA E EM RESOLUÇÃO DE

3.2 O RGANIZAÇÃO DOS TESTES PADRONIZADOS NA PROVA BRASIL

3.3.1 Teoria Clássica dos Testes e Teoria de Resposta ao Item

No modelo da Teoria Clássica de Itens (TCT), conforme Pasquali (1997), os testes são compostos por um conjunto de itens que representam estímulos comportamentais de qualidade definida por meio de critérios. Esse modelo está pautado em dois parâmetros, quais sejam: escore real ou verdadeiro; e o erro de medida. Esse modelo tem como premissa que o escore de um teste “é por natureza falha e contém alguma parcela de erro” (PASQUALI, 1996, p. 13). As avaliações do desempenho dos estudantes são realizadas pela soma das quantidades de itens respondidos corretamente em um conjunto de itens (testes), atribuindo uma nota (escore) aos testes. Assim, o escore observado (total ou bruto) X de um respondente

102 será igual à soma de um componente de escore verdadeiro T e um componente de erro E. Desse modo, teremos a seguinte expressão: X = T + E.

Calcular o escore total para essa expressão é atribuir o valor 1 (um) aos itens corretos e 0 (zero) aos itens considerados incorretos. Consequentemente, para calcular o escore verdadeiro (a nota de um estudante, por exemplo), temos: T = X – E.

Para analisar os testes conforme esse modelo é preciso considerar que: 1) o escorre verdadeiro é o escore desejado encontrar; 2) não há correlação entre o escore verdadeiro e o erro, porque a correlação entre estes será igual a zero; 3) os erros em testes paralelos não são correlacionáveis (RODRIGUES, 2007).

A seleção dos itens para analisar testes comportamentais ou de desempenho ocorre de maneira intuitiva, conforme aponta Rodrigues (2007). Os itens podem ser selecionados de um conjunto de itens que, a princípio, parecem representar o mesmo construto (RODRIGUES, 2007). Para construir testes que avaliem os objetivos pretendidos, os itens devem ser construídos a partir de um universo que corresponda a uma mesma habilidade a ser medida. Na TCT, os itens e habilidades dependem da amostra a ser avaliada e dos objetivos dos testes.

A validade do modelo da TCT está fundamentada na hipótese de que os testes a serem analisados podem “predizer um critério externo, no qual este é representado por comportamentos” (RODRIGUES, 2007, p. 33). Desse modo, a validação na TCT é sustentada pela fundamentação teórica e que possibilita, da melhor forma possível, descrever o comportamento da realidade dos participantes. Porém, os testes que utilizam esse modelo não descrevem o desempenho dos respondentes em cada item. As dificuldades dos itens são descritas por meio da porcentagem de acertos: quanto maior o número de acertos a um item, mais fácil é o item. Esses resultados impossibilitam a tarefa de comparar o comportamento dos participantes em diferentes situações.

A fim de dar conta dessa limitação, é utilizada a Teoria de Resposta ao Item (TRI), que é um conjunto de modelos matemáticos que representam a probabilidade de um sujeito responder corretamente um item, tendo como elementos teóricos os parâmetros dos itens e suas habilidades. Desse modo, quanto maior for sua habilidade, maior a probabilidade para acertar um item (ANDRADE et alii, 2000).

As primeiras iniciativas de aplicação da Teoria de Resposta ao Item ou teoria do traço latente foram em testes de habilidades ou desempenho. Essa teoria é composta por um conjunto de modelos matemáticos que relaciona variáveis observáveis (por exemplo, os itens

103 de um teste) a variáveis não observáveis ou aptidões que são as responsáveis pelos comportamentos medidos ou respostas dadas pelos participantes (variáveis observáveis) (PASQUELI; PRIME, 2003).

As respostas apresentadas pelos participantes aos itens dependem do nível de aptidão ou traço latente em que os itens se encontram. Para estimar o nível do traço latente onde os participantes estão alocados, é necessário traçar uma relação hipotética entre as respostas observáveis e o traço latente. Desse modo, o traço latente são as habilidades apresentadas pelos participantes para responder a um item.

A habilidade ou proficiência16 está relacionada a um conjunto de competências e capacidades. Segundo Erthal (2009), esses termos são utilizados para qualificar uma pessoa sobre determinado assunto, que executa uma tarefa com competência e habilidade; ou mesmo um conjunto de técnicas que quantificam fenômenos psicológicos (ERTHAL, 2009).

Assim, a Teoria de Resposta ao Item está baseada em duas premissas (PASQUALI; PRIMI, 2003): 1) o desempenho de um participante em um teste pode ser antecipado ou explicado por meio de fatores como o traço latente ou habilidades; 2) a relação entre o desempenho de cada participante em um item e traço latente pode ser descrita por meio de uma função monotônica17 crescente, denominada Função Característica ou Curva Característica do Item (CCI). Essa função descreve o comportamento da variável traço latente ou habilidade: à medida que o nível do traço latente cresce, a probabilidade de um participante responder corretamente um item cresce.

Existem vários modelos que dão suporte à TRI e que se distinguem em função dos modelos matemáticos de seus gráficos. A função característica ou curva característica do item (CCI) é uma expressão matemática que relaciona a probabilidade de responder um item corretamente e as características (parâmetros) dos itens segundo determinadas habilidades. O modelo de TRI a ser utilizado dependerá dos parâmetros necessários para medir um item. Os modelos mais utilizados são os modelos logísticos, quais sejam: 1) um parâmetro, somente a dificuldade do item; 2) dois parâmetros, a dificuldade do item e a discriminação; 3) três

16

Como já apresentamos na Subseção 3.2.1, habilidade, proficiência e desempenho não são sinônimos. Os documentos Devolutivas Pedagógicas (BRASIL, 2015) e Prova Brasil – Caderno Explicativo (2013) não definem explicitamente cada um desses termos. Eles ficam subentendidos nas apresentações dos itens e dos resultados. Habilidade é o objetivo a ser alcançado em cada item, é saber realizar uma tarefa (BRASIL, 2015); proficiência é o valor numérico atribuído a essa habilidade conforme a escala de proficiência (BRASIL, 2013); desempenho é o resultado final que os estudantes alcançaram em cada teste (BRASIL, 2013).

17 Uma função é monotônica ou monótona quando for crescente ou decrescente em um dado intervalo. Ver mais detalhes em Leithod (1994, p. 237-238).

104 parâmetros, a dificuldade do item, a discriminação e a probabilidade de o participante acertar um item ao acaso.

Nos testes da Prova Brasil e em outras avaliações externas (por exemplo, Enem), é utilizado o modelo logístico de três parâmetros (BARBETA et alii, 2014), que é representado pelo Gráfico 6. Os outros modelos podem ser obtidos por meio desse modelo e foi o que aplicamos para analisar os parâmetros e traço latente em nossa amostra.

Gráfico 6: Curva característica do modelo de três parâmetros da TRI

Fonte: Elaboração própria.

Por esse modelo logístico, a probabilidade de um participante, com

proficiência

θ

(theta), acertar o item i é dada por:

P

i

)=c

i

+

1

c

i

1+e

aibi)

Os parâmetros a, b e c estão relacionados ao item e o parâmetro

θ

(theta) está associado ao estudante. Assim, cada elemento da expressão será: ai - representa a discriminação do item i; bi - representa o nível de dificuldade do item i; ci - representa a probabilidade de acerto casual do item i;

θ

- representa o traço latente do avaliado j.

Segundo Barbeta et alii (2014), a escala que representa o traço latente

θ

tem média zero e desvio padrão 1 (usualmente), para uma distribuição normal. Há consenso na literatura de que o parâmetro que representa o traço latente é uma escala de habilidades arbitrária, e o que importa são as relações de ordem estimadas para localizar seus pontos e não a sua magnitude (BARBETA et alii, 2014; ADRIOLA, 2009; PASQUALI, PRIMI, 2003; KLEIN, 2003, ANDRADE et alii, 2000).

105 O parâmetro “b”, a dificuldade do item, é medido na mesma escala do traço latente e está relacionado à habilidade que o estudante deve ter para responder corretamente uma questão (item). Quando “b” cresce, o grau de dificuldade da questão aumenta. Quanto maior o grau de dificuldade, maior é o deslocamento do parâmetro “b”para a direita do gráfico. Entretanto, o parâmetro “c” representa a probabilidade de um estudante com baixa habilidade acertar um item ao acaso, no “chute”.

O parâmetro “a”, a discriminação, é a inclinação da reta tangente no ponto da probabilidade de acerto (em “b”) ou o valor da derivada primeira da curva no ponto de inflexão (mudança de direção de uma curva). Inclinações acentuadas indicam grau de dificuldade maior e divide o grupo de estudantes em dois: aqueles que possuem habilidades abaixo do valor de “b” e aqueles que possuem habilidade acima do valor de “b”. Esse parâmetro pode variar de ∞ a+∞ (menos infinito a mais infinito).

Os parâmetros de respostas ao item e as habilidades são estimados por meio das respostas de um grupo de estudantes submetidos a um conjunto de itens de uma determinada avaliação. Ao ser estabelecida uma escala de medida de habilidades, os valores dos parâmetros desses itens não variam independente do grupo de estudantes respondentes, desde que os indivíduos tenham suas habilidades aferidas na mesma escala de proficiência.

Nas avaliações externas, cada item contribui para a obtenção dos resultados finais. Ao analisarmos os itens, podemos verificar aqueles que foram os mais difíceis e como essas informações influenciam no resultado final do desempenho dos estudantes de uma turma ou escola.

Embora sejam modelos distintos, TCT e TRI não são excludentes; ao contrário, precisam ser coarticuladas. A TCT se preocupa em explicar os resultados totais, ou seja, o somatório das respostas corretas dadas a um conjunto de tarefas, sendo esses resultados expressos no escore total de acertos. Por exemplo, se um teste de Matemática tem 10 itens, dos quais o aluno acerta cinco, a TCT explica o que significam esses cinco acertos. A TRI, por outro lado, não se interessa com o resultado final, mas com o todo; no exemplo, com os dez itens, mais especificamente, qual foi a probabilidade de acerto de cada um deles e quais os fatores que influenciaram essa probabilidade (PASQUALI, 2009).

O objeto de atenção da TRI são itens que produzam respostas de qualidade, já o da TCT é a produção de testes de qualidade. Os itens validados pela TRI produzem testes de qualidade. Desse modo, podem ser criados bancos de itens e sua combinação produzirá testes que avaliam objetivos específicos que possam gerar dados sobre o desempenho dos alunos em

106 uma avaliação em larga escala, por exemplo. Os parâmetros que legitimam uma medida como essas ferramentas de análise estatística são a validade e a precisão.

A precisão ou fidedignidade de um teste se refere às características que o teste apresenta, como medir sem erros. Ou seja, aferir os mesmos indivíduos em ocasiões diferentes, ou medir indivíduos diferentes por meio de testes com as mesmas habilidades.

Por meio da TRI, as avaliações oficiais em larga escala visam a minimizar as limitações provenientes da TCT, haja vista que a TRI possibilita realizar comparações entre indivíduos diferentes submetidos a testes diferentes, mas que aferem as mesmas habilidades. A partir da estatística da TRI, é possível verificar o grau de conhecimento dos indivíduos por meio das características dos itens, de dificuldade e a probabilidade de acertos.

Os parâmetros de dificuldade do item e a probabilidade de acerto permitem medir o nível de proficiência de cada participante. É por meio dessa medida que são construídas as escalas de proficiência, o que explica as modificações ocorridas na escala de proficiência de Matemática e de Língua Portuguesa nas edições da Prova Brasil. Diferentes testes podem ser aplicados aos alunos brasileiros e por meio de seus resultados podemos verificar o nível de desempenho em uma turma de Brasília e comparar com outra de Aracaju. Isso é possível devido ao uso da mesma escala de proficiência, uma régua para a mesma série/ano avaliada.

Além de realizar comparações, é possível acompanhar o progresso de uma rede de ensino ao longo dos anos. A escala de proficiência tem caráter cumulativo: o conjunto de alunos que se encontra em um determinado nível de proficiência alta também é proficiente nos níveis anteriores. Na próxima subseção, analisamos os parâmetros relacionados aos itens e às habilidades necessárias para respondê-los nos testes padronizados que dão suporte à comparação entre o desempenho de leitura e de resolução de problemas, utilizando a TRI para verificar esse comportamento.

Documentos relacionados