Análise Clássica de Avaliações: Um Estudo de Caso / Test Classical Analysis: a case study

(1)

Análise Clássica de Avaliações: Um Estudo de Caso

Test Classical Analysis: a case study

DOI:10.34117/bjdv6n2-197

Recebimento dos originais: 30/12/2019 Aceitação para publicação: 18/02/2020

João Vitor Baptista Moreira Graduando em Engenharia da Computação

Universidade Estadual de Campinas

Cidade Universitária Zeferino Vaz - Barão Geraldo, Campinas - SP, 13083-970 [email protected]

Lidiane Maria Ferraz Rosa

Doutora em Estatística Aplicada e Biometria Universidade Federal de Viçosa

Av. Peter Henry Rolfs, s/n - Campus Universitário, Viçosa - MG, 36570-900 [email protected]

Denilson Junio Marques Soares Mestre em Estatística Aplicada e Biometria

Instituto Federal de Minas Gerais

Severo Veloso, 1880, Bela Vista, Piumhi-MG, 37925-000 [email protected]

Talita Emídio Andrade Soares Licenciada em Matemática Universidade Federal de Viçosa

Av. Peter Henry Rolfs, s/n - Campus Universitário, Viçosa - MG, 36570-900 [email protected]

RESUMO

A necessidade de se produzir avaliações consistentes, capazes de estimar com precisão o grau de conhecimento em determinada área, fez surgir, no campo da Psicometria, uma teoria para análise de avaliações, conhecida como Teoria Clássica dos Testes (TCT). Esta teoria, composta por indicadores estatísticos de qualidade de itens, é comumente utilizada na determinação do nível de dificuldade e de discriminação de itens que compõem uma avaliação. Neste artigo, procurou-se aplicar estes conceitos em uma avaliação de matemática aplicada a estudantes do 3º ano do ensino médio do Colégio de Aplicação (CAp-COLUNI) da Universidade Federal de Viçosa (UFV). Para isto, primeiramente realizou-se uma pesquisa bibliográfica, pautada nos principais trabalhos acadêmicos referentes à teoria e, em seguida, com o auxílio dos softwares Excel e R, foram realizadas as análises. Os resultados apontam para uma avaliação deficitária, cujos índices base de precisão e discriminação de itens não foram atingidos. Além disso, houve predominância de questões classificadas como fáceis, o que dificultaria estimar as habilidades dos respondentes. Dessa forma, sugere-se, que o processo de elaboração das avaliações seja mais cauteloso, tomando como princípios os processos de elaboração de itens dispostos na literatura, para que, consequentemente, produzam-se resultados mais significativos quanto à medição de habilidades em determinadas áreas do conhecimento.

(2)

ABCTRACT

The need to produce consistent evaluations, capable of accurately estimating knowledge in a particular area, has given rise to a theory for evaluation analysis known as Classical Test Theory (TCT), proposed by the field of Psychometrics. This theory, composed of statistical indicators of items quality, is popularly used for determination of difficulty level and items discrimination that constitute an evaluation. In this article, we aim to apply these concepts in a mathematics evaluation to students on the 3rd high school grade from the Application School (Colégio de Aplicação COLUNI) linked to the Federal University of Viçosa (UFV). In order to do that, we firstly conducted a bibliographical research on the main theoretical academic studies, and then we count on the software Excel and R to do the analysis. The results point to a faulty evaluation, whose bases of precision indexes and item discrimination were not reached. In addition, they were predominant the questions classified as easy, what would make it difficult to estimate the respondents' abilities. Thus, it is suggested that the process of evaluation elaboration must be more cautious, taking as principles the processes of items elaboration introduced by the area literature, in order to produce more significant results in the skills measurement on certain knowledge areas.

Keywords: Evaluation, Psychometrics, Test Classical Analysis.

1 INTRODUÇÃO

A avaliação de aprendizagem e a mensuração de habilidades tem se tornado um assunto de frequente discussão entre professores e pesquisadores da área de educação em todo mundo. Isto porque os atuais sistemas avaliativos utilizados podem apresentar falhas e não trazer as corretas interpretações que deveriam.

Em estatística, denominamos variáveis latentes as características de indivíduos que não podem ser mensuradas de forma direta. Como exemplos de variáveis latentes temos a habilidade de um indivíduo em determinada área do conhecimento ou o grau de satisfação de um cliente com um determinado produto (SOARES, 2018).

As duas principais teorias de mensuração de habilidades são a teoria clássica dos testes (TCT) e a teoria de resposta ao item (TRI). Em suma, a primeira se preocupa com uma análise de um teste como um todo, enquanto a segunda, com a análise de cada item separadamente.

A teoria clássica ainda é a teoria mais utilizada, devido à fácil utilização e interpretação de seus parâmetros. Entretanto, a teoria de resposta ao item, desenvolvida com o intuito de complementar algumas limitações da teoria clássica, tem ganhado força no campo de avaliações e atualmente é empregada em importantes avaliações em larga escala, como o Test of English as a

Foreign Language (Toeﬂ) e o Programme for International Student Assessment (PISA).

Neste trabalho, pretende-se realizar uma análise psicométrica de uma avaliação aplicada à estudantes da 3ª série do Colégio de Aplicação da Universidade Federal de Viçosa, utilizando três parâmetros da Teoria Clássica dos Testes: índice de dificuldade, índice de discriminação e coeficiente Alpha de Cronbach.

(3)

2 REFERENCIAL TEÓRICO

A análise clássica dos itens de um teste faz uso de algoritmos estatísticos com o intuito de avaliar diversos aspectos, como o índice de diﬁculdade, a discriminação e a precisão ou conﬁabilidade de um teste.

Segundo Pasquali (2004), o surgimento desta teoria se deu por Charles Spearman, no início do século XX, com a apresentação de alguns postulados básicos e diretos, baseados em um modelo aparentemente simples e linear.

Este modelo considera que o escore de um teste - quantidade de itens respondidos corretamente pelo respondente – pode conter falhas e, por conseguinte, contém uma parcela de erro. Segundo Pasquali e Primi (2003), pode-se matematizar esta ideia da seguinte forma:

𝑋𝑖 = 𝑉𝑖 + 𝑒𝑖

em que 𝑿_𝒊 representa o escore observado, 𝑽_𝒊 representa o escore verdadeiro e 𝒆_𝒊 representa o erro aleatório.

Segundo Borgatto e Andrade (2012), a TCT possui um caráter descritivo, em que a nota final obtida está em função da quantidade de itens respondidos corretamente. Dessa forma, esta nota final se relaciona, basicamente, com três características psicométricas: a confiabilidade (ou precisão) do teste, a dificuldade e a discriminação do item.

2.1 ÍNDICE DE DIFICULDADE

O índice de dificuldade (𝐷_𝑖) de um determinado item 𝑖 é definida em termos da proporção de respondentes que acertaram tal item. Matematicamente,

𝐷_𝑖 = 𝐶𝑖 𝑁_𝑖

em que, 𝐷𝑖 representa o nível de diﬁculdade do item 𝑖, 𝐶𝑖 representa o número de indivíduos que

acertaram a questão e 𝑁𝑖 representa o número total de indivíduos que foram submetidos ao item 𝑖.

O índice de dificuldade relaciona-se com a quantidade de acertos de uma certa questão em uma avaliação. Caso o número de acertos seja alto, a questão é considerada fácil. Já se uma outra possui uma porcentagem de acertos bem baixa, ela é considerada difícil.

(4)

Vilarinho (2015), baseada em Pasquali (2004), ressalta que para uma avaliação escolar ser considerada com uma dificuldade ideal, é preciso realizar uma boa distribuição entre questões fáceis, médias e difíceis, conforme Tabela 1.

Tabela 1 – Parâmetros psicométricos dos itens

Fonte: Adaptado de Vilarinho (2015)

2.2 ÍNDICE DE DISCRIMINAÇÃO

Conforme Soares (2018) o índice de discriminação do item avalia a capacidade de diferenciar indivíduos com bom desempenho daqueles indivíduos com baixo rendimento, no mesmo teste. Este índice está relacionado com o índice de acertos de grupos com melhor ou pior desempenho. Quanto maior for a diferença entre a porcentagem de acertos entre os grupos, maior será o índice de discriminação, ou seja, será mais evidente a diferença de aptidão entre indivíduos mais preparados para o teste e os menos preparados (VILARINHO, 2015).

Segundo Rabelo (2013), o índice de discriminação de um teste bem desenvolvido deve seguir os padrões da Tabela 2.

Tabela 2 – Classificação do item de acordo com o índice de discriminação

Fonte: Rabelo (2013)

Também pode-se determinar o quanto discriminativo é um item, considerando o coeficiente de correlação ponto-bisserial. De acordo com Borgatto e Andrade (2012), esse coeficiente estima a relação entre a pontuação obtida na avaliação, ou seja, o escore bruto e a habilidade necessária para que um indivíduo consiga responder corretamente a uma questão. Para calcular-se tal coeficiente, faz-se o uso da seguinte equação:

Quantidade ideal de itens na avaliação (em %)

Índice de

dificuldade Classificação do Item

10 Superior a 0,9 Muito fácil

20 De 0,7 a 0,9 Fácil

40 De 0,3 a 0,7 Moderado

20 De 0,1 a 0,3 Difícil

10 Até 0,1 Muito Difícil

Valores Classificação

𝐼𝐷 < 0,10 Deficiente, deve-se rejeitá-lo 0,20 ≤ 𝐼𝐷 < 0,30 Marginal, sujeito a reelaboração 0,30 ≤ 𝐼𝐷 < 0,40 Bom, mas sujeito a aprimoramento

(5)

𝒓_𝒃𝒊𝒔= 𝑴

+_{− 𝑴}−

𝑺 ×

𝒑(𝟏 − 𝒑) 𝒉(𝒑)

em que 𝑀+ representa a média do desempenho daqueles que responderam corretamente à questão, 𝑀− representa a média do desempenho daqueles que responderam incorretamente à questão, 𝑆 representa o desvio padrão de todos aqueles submetidos ao teste, 𝑝 representa o percentual de respostas do item e ℎ(𝑝): representa o valor da densidade da distribuição normal com média 0 e variância 1 no ponto em que a área da curva à esquerda deste ponto é igual a 𝑝.

A partir desse cálculo, espera-se que a opção correta possua um coeficiente bisserial positivo, enquanto as alternativas incorretas possuam um coeficiente negativo. Quanto maior o coeficiente, mais discriminativo é o item. Soares (2018), apud Torres (2015), ressalta que o a correlação bisserial deve assumir um valor positivo e maior que 0,30 para que possua uma boa discriminação.

2.3 COEFICIENTE ALPHA DE CRONBACH

A proporção da variância do escore observado pela variância do escore verdadeiro ou ainda por um menos a proporção entre as variâncias do erro e do escore observado representa a precisão ou confiabilidade de um teste. Uma estimativa usual da precisão é dada pelo estimador Alpha de Cronbach, que pode ser determinado pela fórmula:

𝛼 = 𝑛

𝑛 − 1(1 −

∑𝑛_𝑖=1𝜎_𝑖2 𝜎_𝑇2 )

em que 𝑛 é o número total de itens, 𝜎_𝑖2 é a variância relacionada a cada item do teste e 𝜎_𝑇2_{é a variância}

do escore total do respondente.

Este estimador varia de zero a um, sendo o teste mais consistente a medida que se aproxima de um. De acordo com Hair Júnior et. al (2010), valores acima de 0,7 são considerados satisfatórios.

3 MATERIAL E MÉTODOS

Os dados do estudo são provenientes de uma avaliação de matemática aplicada à 154 estudantes da 3ª série do Ensino Médio do Colégio de Aplicação da Universidade Federal de Viçosa – CAp COLUNI - no segundo semestre do ano de 2017. O conteúdo que compõe esta avaliação foi Números Complexos e a mesma era composta por 10 questões de múltipla escolha, cada uma com

(6)

cinco alternativas. Em todas as análises, foi utilizado o software estatístico R, por ser um software livre, gratuito e de fácil manipulação.

Primeiramente estes dados foram transcritos em uma planilha do Excel visando organizá-los para a leitura e análise preliminar. Em seguida, utilizou-se do software R para análises psicométricas, em que foram calculados os parâmetros de dificuldade, discriminação e consistência interna. Os pacotes do software R utilizados nesta análise foram o ltm (RIZOPOULOS, 2006), o mirt (CHALMERS, 2012) e o psych (REVELLE, 2014).

4 RESULTADOS E DISCUSSÃO

Em uma análise descritiva, pôde-se determinar as notas mínimas e máximas, a mediana, a média aritmética simples e o primeiro e terceiro quartil das notas da prova, que estão representados na Tabela 3.

Tabela 3 – Análise descritiva das notas da avaliação

Fonte: Elaboração própria.

A distribuição do número de acertos na avaliação pode ser representada pelo Gráfico 1. Observe que há uma semelhança entre a curva gerada e a curva Gaussiana, da distribuição normal de probabilidade.

Gráfico 1: Distribuição do número de acertos no teste por porcentagem de alunos.

Os principais índices e coeficientes utilizados na TCT para a análise da qualidade da prova foram calculados e os resultados estão apresentados na Tabela 4.

Mínimo 1º Quartil Mediana Média 3º Quartil Máximo

1 5 6 5,942 7 10

(7)

Tabela 4 – Parâmetros psicométricos dos itens

Fonte: Elaboração Própria.

Dessa forma, o item 7 foi classificado como muito fácil, os itens 3, 4 e 8 como fáceis, os itens 1, 2, 5, 6 e 10 como medianos e o item 9 como difícil. Não houve itens classificados como muito difíceis.

Quanto a consistência interna da avaliação, o coeficiente Alpha de Cronbach não foi considerado satisfatório em nenhum item, sendo a média calculada de 0,5507. Dessa forma, a avaliação não pode ser considerada precisa.

A análise de discriminação, considerando o coeficiente de correlação ponto-bisserial, indicou que apenas o item 7 não foi considerado discriminativo, embora o valor calculado tenha sido muito próximo do recomendável. Acredita-se que o fato deste item ser de natureza muito fácil, pode ter sido determinante na falta de discriminação.

5 CONCLUSÃO

Uma análise descritiva e psicométrica mais aprofundada de itens que compõem uma avaliação, pode trazer muitos ganhos no processo ensino-aprendizagem de qualquer disciplina. Através de uma avaliação precisa, capaz de estimar o grau de conhecimento de um indivíduo significativamente, o professor conseguirá encontrar tópicos que precisam ser melhor discutidos, assim como talentos que muitas vezes precisam ser lapidados.

O objetivo principal deste trabalho foi o de difundir uma técnica simples de análise de itens que pode ser amplamente utilizada no cotidiano dos professores. Com o auxílio dessas técnicas, o professor pode montar um banco de itens para ser utilizados no processo de elaboração de outras avaliações, considerando os itens com melhores características psicométricas.

Espera-se que este objetivo tenha sido alcançado e que estes estudos possam ser expandidos para outras teorias psicométricas como a Teoria de Resposta ao Item (TRI), cujo surgimento se deu

Questão Proporção de acerto Coeficiente Alpha de Cronbach Correlação Bisserial 01 0,4026 0,5398 0,4163 02 0,5000 0,5056 0,5167 03 0,7143 0,5355 0,4079 04 0,8117 0,5369 0,3719 05 0,4091 0,5153 0,4874 06 0,6234 0,5166 0,4809 07 0,9026 0,5441 0,2936 08 0,7143 0,5083 0,4932 09 0,2662 0,5504 0,3514 10 0,5974 0,4829 0,5717

(8)

na busca por soluções de problemas apontados pela TCT, como o fato de comparar populações submetidas à avaliações distintas.

REFERÊNCIAS

BORGATTO, Adriano Ferreti e ANDRADE, Dalton Francisco de. Análise Clássica de Testes com diferentes graus de dificuldade. Estudos em Avaliação Educacional, São Paulo, 23 (52), 146-156. 2012.

CHALMERS, R. P. mirt: A multidimensional item response theory package for the R environment. Journal of Statistical Software, Wien, v. 48, n. 6, p. 1-29, 2012.

HAIR JÚNIOR, J. et al. Multivariate data analysis. 7th ed. Upper Saddle River: Prentice Hall, 2010. 785 p.

PASQUALI, L. Psicometria: teoria dos testes na psicologia e na educação. Petrópolis: Vozes, 2003. 397 p.

PASQUALI, L.; PRIMI, R. Fundamentos da teoria da resposta ao item TRI. Avaliação Psicológica, Campinas, v. 2, n. 2, p. 99-110, 2003.

RABELO, Mauro. Avaliação educacional: fundamentos, metodologia e aplicações no contexto brasileiro. Rio de Janeiro: SBM, 2013.

REVELLE, W. psych: Procedures for personality and psychological research. Northwestern University, Evanston. Illinois, USA, 2014. Disponível em https://cran.r- project.org/web/packages/psych/index.html. Acesso em 15 abr. 2018.

RIZOPOULOS, D. ltm: An R package for latent variable modeling and item response analysis. Journal of statistical software, New York, v. 17, n. 5, p. 1-25, 2006.

(9)

SOARES, D. J. M. Teoria clássica dos testes e teoria de resposta ao item aplicadas em uma avaliação de matemática básica. 2018. 133P. Dissertação (Mestrado em Matemática). Programa de Pós-Graduação em Estatística Aplicada e Biometria, Universidade Federal de Viçosa, Viçosa, 2018.

TÔRRES, F. C. Uma aplicação da teoria de resposta ao item em um simulado de matemática no modelo ENEM. 2015. 116 p. Dissertação (Mestrado em Matemática) Programa de Mestrado Proﬁssional em Matemática em Rede Nacional, Universidade de Brasília, Brasília, 2015.

VILARINHO, Ana Paula Lima. Uma proposta de análise de desempenho dos estudantes e de valorização da primeira fase da OBMEP. Dissertação (Mestrado Profissional em Matemática). Universidade de Brasília, Brasília, 2015.