BAJO LA INFLUENCIA DE SELECCIÓN DE ÍTEMS EN LA ESTIMACIÓN DE COMPETENCIAS

(1)

BAJO LA INFLUENCIA DE SELECCIÓN DE ÍTEMS EN LA

ESTIMACIÓN DE COMPETENCIAS

Leandro Lins Marino1,

1Fundación Cesgranrio e Escuela Nacional de Ciencias Estadísticas, Brasil leandromarino@leandromarino.com.br

RESUMEN

Las evaluaciones en gran escala sobretodo las que miden las habilidades múltiples y un amplio conocimiento se han aplicado en las últimas décadas en todo el mundo. En general, estas evaluaciones hacen uso de la Teoría de la Respuesta al Ítem (TRI). La TRI permite una comparación de las competencias (Ɵ, rasgos latentes) de los estudiantes, incluso cuando están sometidos a diferentes pruebas. En general, el procedimiento consiste en modelaje de la probabilidad de un acierto a un ítem mediante una función no lineal de los conocimientos de los estudiantes evaluados. Este trabajo, a través de modelos de tres grupos / poblaciones (A, B y C), trata de evaluar y proponer posibles conjuntos comunes de ítems entre estas poblaciones con el fin de reducir el efecto que una elección inadecuada de los ítems que pueden tener un impacto en la estimación de aptitud. Para esta comprobación se generan algunos conjuntos de ítems y son hechas 200 replicaciones de 2500 estudiantes en cada grupo. Para la estimación de la puntuación se utilizan tres métodos, a saber: máxima verosimilitud, esperada a posteriori (EAP) y modal a posteriori (MAP), las dos últimas con los priores N(0,1), N(0,3) y N (0,10).

PALABRAS CLAVE: teoría de la respuesta al ítem; estimaciones bayesianas; estimación

(2)

1. INTRODUÇÃO

As avaliações em larga escada, sobretudo as que medem as múltiplas habilidades e conhecimento têm sido aplicadas nas últimas décadas em todo o mundo. Alguns exemplos que podem ser destacados são: o “National Assessment of Educacional Progress” (NAEP), nos Estados Unidos, e o “OECD Programme for International Student Assessment” (PISA), nos países membros da OCDE (Organização para a Cooperação e Desenvolvimento Econômico) e países convidados.

No Brasil também é possível encontrar exemplos, como o Sistema de Avaliação da Educação Básica (SAEB), que avalia estudantes da 4ª, 8ª e 11ª séries e o Exame Nacional do Ensino Médio (ENEM) que é utilizado para a seleção e certificação de estudantes no último ano da escola secundária.

Em geral, as avaliações em larga escala fazem uso da Teoria de Resposta ao Item (TRI). A TRI permite uma comparação das competências (Ɵ, traços latentes) dos estudantes inclusive quando estes são submetidos à diferentes cadernos de provas. Neste tipo de modelagem a competência/proficiência (Ɵ) do estudante é modelada como uma função não-linear das respostas do aluno ao teste. De forma que quanto maior é a sua proficiência, maiores serão as chances do aluno acertar um determinado item.

Quando se deseja que duas ou mais populações distintas tenham seu desempenho medido em uma mesma escala, utilizam-se itens comuns entre os testes que serão aplicados nas duas populações. No SAEB, a colocação de itens comuns é feita de forma à permitir que diferentes populações (4ª, 8ª e 11ª séries) nos diversos anos sejam colocados sob uma mesma escala. Desta forma, o SAEB permite uma comparação transversal dos desempenhos dos estudantes brasileiros bem como também permite um acompanhamento temporal de forma a permitir que políticas públicas na área de educação sejam formuladas e acompanhadas.

O SAEB faz uso dos modelos de teoria de resposta ao item de três parâmetros e grupos múltiplos. O procedimento de equalização adotado é descrito por Klein (2003, 2009).

Neste trabalho, faz-se uso de parte da metodologia utilizada no SAEB para verificar a influência que um determinado conjunto de itens comuns pode ter sobre a estimativa da competência do estudante. Pretende-se estimar as competências dos alunos dado um conjunto de itens (com os parâmetros fixados), ou seja, não será feita nem a equalização nem a calibração de forma a verificar a influência existente na utilização de diferentes conjuntos de itens comuns.

Para averiguarmos essa influência são gerados conjuntos de 45 itens para cada uma das 3 populações simuladas (grupo 1, grupo 2 e grupo 3) com a presença de itens comuns

(3)

entre estas populações/grupos. São considerados 6 tipos de seleções de itens comuns e para cada um destes seis tipos são feitas 200 replicações de 2500 estudantes em cada grupo. Para a estimação da proficiência são utilizados três métodos, a saber: máxima verossimilhança, esperado a posteriori (EAP) e máximo a posteriori (MAP), estes dois últimos considerando as priores: N(0,1), N(0,3) e N(0,10).

2. METODOLOGIA E SIMULAÇÃO

A realização das replicações, inicialmente considerou as seguintes populações de estudantes: os scores dos examinados pertencentes ao primeiro grupo foram gerados seguindo uma distribuição normal de média -1 e variância 1, o segundo grupo foi gerado de forma que o desempenho dos estudantes tenha média 0 e variância 1 e, por fim o desempenho dos estudantes do último grupo foi gerado com média 1 e desvio padrão 1. Cada uma destas populações foi simulada com 2500 estudantes fazendo um teste único de 45 itens. Formalmente:

( )

onde, é o vetor das competências simuladas, representa a replicação e representa a população/grupo, .

2.1. Esquemas de itens comuns adotados

A seguir, são gerados os parâmetros dos itens para cada uma destas populações considerando o modelo logístico de três parâmetro (3PL). São considerados seis esquemas de itens comuns e em todos os casos a proporção de itens comuns é de 20% dos itens de um teste, ou seja, 9 itens de uma população são comuns com quaisquer um dos outros grupos.

2.1.1. Esquema 1

Neste primeiro esquema não são utilizado itens comuns. Todos os itens dos testes são gerados considerando os parâmetros mais adequados àquela população, ou seja, para o grupo 1 são gerados parâmetros de dificuldade (b) com média -1 e variância 1, para a população 2 são gerados os mesmos parâmetros porém a distribuição tem média 0 e variância 1 e, por fim para o terceiro grupo os parâmetros gerados têm média 1 e variância 1.

( ) ( ) ( )

onde, , representa a replicação, representa a população, , e representa o item,

2.1.2. Esquema 2

Para este esquema a geração segue as mesmas distribuições apresentadas no esquema 1, no entanto, existem itens comuns entre as populações. Geram-se itens de tal forma que 9

(4)

itens do grupo 1 com médias próximas à -1 são colocados na prova do grupo 2, a seguir, no grupo 2 serão gerados apenas 36 itens novos, destes, 9 são selecionados para serem comuns com o grupo 3.

Para a seleção considera-se o seguinte algoritmo: define-se a proporção de itens comuns em relação aos itens novos em cada uma dos dois grupos 1 e 2. No grupo 1 a proporção é de 0.20 enquanto que no grupo 2 por ter 36 novos itens a proporção é de 0.25, uma vez que neste esquema um item é utilizado em no máximo dois testes. Assim, definem-se os quantis em relação à distribuição normal de tal forma que ( ) , onde . Desta forma, garante-se que haverá um número maior de candidatos a itens comuns do que o número necessário. A seguir são selecionados aleatoriamente 9 itens que tenham seus parâmetros entre os quantis definidos.

2.1.3. Esquema 3

Neste esquema é utilizado o mesmo algoritmo do esquema 2. A mudança encontra-se nas populações de referência. Usa-se como referência o grupo 3, ou seja, são gerados 45 itens para esta população seguindo os procedimentos do esquema 1 e depois 9 itens com parâmetro

b próximo à 1 são selecionados usando o algoritmo do esquema 2. Estes itens serão comuns

com o grupo 2. Gera-se os 36 itens novos do grupo 2 e destes selecionam 9 com média próxima a 0 para serem itens comuns com a população 1. Para a população 1 são gerados 36 itens novos.

2.1.4. Esquema 4

O esquema 4 usa os mesmos procedimentos apresentados nos esquemas 1 e 2, no entanto o grupo de referência é o grupo 2. Assim, geram-se 45 itens para este grupo e 9 itens são selecionados para serem os itens comuns com os outros dois grupos. Neste esquema os itens comuns são os mesmos. Ou seja, as três populações fazem um mesmo conjunto de 9 itens comuns.

2.1.5 Esquema 5

Este esquema é semelhante ao esquema 4. No entanto, não necessariamente os grupos 1 e 3 terão os mesmos itens comuns. Neste esquema, o mesmo grupo de candidatos à itens comuns é utilizado, no entanto, a seleção aleatória dos 9 itens entre os candidatos utiliza semente aleatórias diferentes.

2.1.6. Esquema 6

Por fim, no último esquema considerado, o parâmetro bijk dos itens comuns foi gerado a partir de uma distribuição uniforme entre -4 e 4, ou seja, distribuído ao longo de quase toda

(5)

a escala de competências criada os parâmetros aijk e cijk seguem as distribuições apresentadas no esquema 1. Os 36 itens novos por grupo tem os parâmetros aijk,bijk e cijk gerados de acordo com o esquema 1.

Após a geração dos parâmetros dos itens, independente do esquema adotado obtém-se a matriz de respostas dos estudantes onde o valor 0 significa que o aluno errou à determinado item e 1 significa que o estudante acertou determinado item. Para esta estimação considera-se o algoritmo:

( )

( | )

( )

se, ( ) então a resposta ao item j, replicação k e população i será 1 (resposta correta), caso contrário será 0 (resposta errada).

2.2. Estimação das competências ( ).

Após a etapa de simulação dos padrões de respostas dos examinados, há a estimação das proficiências pelo modelo logístico de três parâmetros e grupos múltiplos. São adotados três métodos de estimação. O primeiro é o procedimento de máxima verossimilhança. Cabe ressaltar que o presente trabalho considera os parâmetros dos itens fixos, assim, não é feito nem o procedimento de calibração nem o procedimento de equalização dos scores obtidos.

2.2.1. Estimação por Máxima Verossimilhança

A estimação por máxima verossimilhança utilizada é definida por Hambleton, Swaminathan e Rogers (1991). Suponha que um estudante selecionado aleatoriamente responda à um conjunto de itens com padrão de respostas ( ) , onde , se o aluno acerta ao item e 0 se caso contrário. Assumindo independência local, a probabilidade conjunta (Eq.1) do padrão de respostas observado pode ser vista com o produto das probabilidades de observar cada resposta ao item, ou seja,

( ) ∏ ( ) ∏ ( ) ( | ) Eq. 1

A equação 1 é expressão da probabilidade conjunta do padrão de resposta. Quando o padrão de respostas é observado, ou seja, , esta função torna-se a função de verossimilhança. Note que está equação depende de , do padrão de respostas e dos parâmetros dos itens. Tanto os parâmetros dos itens quanto os padrões de resposta já foram simulados, desta forma, a única componente à ser estimada é a competência do estudante .

(6)

Assim, a competência do estudante é obtida através do valor que maximiza a função de log-verossimilhança (Eq. 3). ( ) ∏ ( ) Eq. 2 ( ) ∑[ ( ) ( )] Eq. 3 onde, ( | ).

Hambleton, Swaminathan e Rogers (1991) ressaltam a dificuldade de conseguir maximizar a equação 3, uma vez que não é possível resolver esta maximização de modo analítico e apontam que um dos métodos computacionais mais utilizados para este procedimento são os de Newton-Raphson que é detalhado em Hambleton e Swaminathan (1985). Além disso, não muito raro, as estimativas de máxima verossimilhança não existem. Isto acontece quando os examinados acertam ou erram todos os itens, neste caso as estimativas seriam de e , respectivamente. Nestes casos optou-se por arbitrar 4 e -4 independente da população ao qual o examinado pertencia.

2.2.2. Método Esperado a Posteriori (EAP)

O procedimento de esperança a posteriori (EAP, Bock e Aitkin, 1981) é um procedimento bayesiano e parte do teorema de Bayes. Desta forma seja a densidade:

( ) ( ) ( ) Eq. 4

onde, ( ) é a função de verossimilhança (Eq. 2) e ( ) é a distribuição a priori para . Assim, a Equação 4 pode ser reescrita como se segue:

( ) ( ) ( ) Eq. 4.1

Decorre da equação 4.1 que se ( ) , então, ( ) ( ), ou seja, a estimativa bayesiana torna-se idêntica ao método de máxima verossimilhança. Ressalta-se neste ponto que fazendo uso de uma estimativa bayesiana, existe a estimação pontual da competência do estudante mesmo quando ele acerta ou erra todos os itens. Este é um resultado diferente do obtido através do método de máxima verossimilhança. A obtenção da esperança a posteriori é feita através da avaliação das integrais usando o método número de quadratura de Gauss-Hermite e o algoritmo EM.

(7)

O método de máximo a posteriori é semelhante ao de esperança a posteriori (EAP), no entanto, ao invés de se obter a esperança da posteriori, busca-se a moda da distribuição a posteriori.

De modo análogo ao EAP não existe forma analítica para resolver estas equações, desta forma usa-se uma modificação do EM objetivando a obtenção da moda da distribuição a posteriori.

2.3. Metodologia para a Comparação das Simulações

Para compreender o que acontece em cada um dos esquemas de itens comuns propostos, iremos analisar os resultados objetivos através de três medidas. A primeira das medidas é o erro quadrático médio (EQM), definido por:

( ) ∑( ̂) ( ̂) ( ̂)

Eq. 5

onde, . Para esta medida é esperado que os menores valores impliquem em uma melhor estimativa do modelo e do esquema de itens adotado.

Outra medida a ser utilizada neste trabalho é a correlação entre a competência simulada e a competência estimada. Para esta medida espera-se que os valores sejam positivos próximos à 1. A correlação é definida por:

̂ ( ̂)

∑( ̅)( ̂ ̂̅)

√ ∑ ( ̅) [∑( ̂ ̂̅) ] Eq. 5 Por fim, a última medida usada neste trabalho é o percentual de observações com estimativa ( ̂) maior do que o valor verdadeiro ( ) (PSO), apresentado na equação 6. Esta estimativa tem por objetivo indicar se existe algum tipo de viés na estimação da competência do estudante. ( ̂) ∑ ( ̂ ) Eq. 6 onde, ( ̂ ) { ̂ ̂ Eq. 6.1

Supondo a ausência de vício, o percentual deverá ficar próximo a 50%, ou seja, em torno de metade das competências estimadas estão superestimadas e a outra metade

(8)

sobrestimadas. Se as houver diferenças nestas quantidades o percentual será diferente de 50% indicando que o modelo está gerando algum tipo de vício.

A seguir serão apresentados e discutidos os resultados destas três medidas considerando todos os aspectos já mencionados. Como são feitas 200 replicações para cada um dos casos, perfazendo um total de 8400 conjuntos de métodos de estimação e esquemas de itens comuns, optou-se por trabalhar com o box-plot de modo a refletir o comportamento distribucional destas medidas.

3. RESULTADOS E DISCUSSÃO

A análise gráfica (gráficos 1, 2, 3, 4, 5 e 6) mostra que a estimação utilizando o método de máxima verossimilhança é muito semelhante independente do esquema de itens comuns considerado. Pode-se notar que o erro quadrático médio tem média próxima a 0.15 para todos os esquemas testados. Também é perceptível a pequena diferença entre as correlações, todas próximas a 0.94. O percentual de valores estimados maiores que as competências simuladas ficou próximo a 50% indicando que este método e o conjunto de itens adotado não gerou nenhum vício na estimativa da competência do examinado.

O conjunto de gráficos de 7 a 12 apresenta a correlação entre o valor simulado e o estimado da competência do estudante para cada grupo, método de estimação e esquema de itens comuns. Pode-se notar que estes valores tais quais os obtidos com o método de máxima verossimilhança ficam próximos à 0.94.

Em relação ao erro quadrático médio (EQM) (Gráficos 13 a 18) pode-se notar que varia muito de acordo com o método de estimação, com o esquema de itens comuns e com o grupo. De um modo geral, vê-se que a estimação fazendo uso de uma distribuição a priori N(0,10), não informativa, gera um EQM maior que as demais prioris. O método MAP com priori N(0,3) foi o mais consistente e, na maioria dos casos, foi o que apresentou menor EQM. Por fim, o conjunto de gráficos 19 a 24 apresenta o box-plot do percentual de valores estimados maiores que os simulados. A utilização de uma distribuição a priori N(0,1) para todos os grupos gera um grande vício na estimativa. Na medida em que se deixa de usar uma priori informativa este vício de estimação vai se reduzindo. Para o método EAP mesmo quando se utiliza uma priori N(0,10), não informativa, há um ligeiro vício, uma vez que a proporção de valores estimados maior do que os valores simulados é pouco menor de 0.50. Assim, o método MAP aparenta ser o mais indicado para a estimação das habilidades de um estudante em um teste utilizando o modelo logístico de três parâmetros e grupos múltiplos.

(9)

Gráfico 1 – Box-plot do EQM, Correlação e PSO usando o método de Máxima Verossimilhança e o esquema 1 de itens comuns por grupo

(10)

(11)

Gráfico 7 – Box-plot da correlação entre a competência estimada e a simulada para o esquema 1 de itens comuns segundo o método de estimação por grupo

(12)

Gráfico 10 – Box-plot da correlação entre a competência estimada e a simulada para o esquema 4 de itens comuns segundo o método de estimação por grupo

(13)

(14)

Gráfico 13 – Box-plot do erro quadrático médio (EQM) para o esquema 1 de itens comuns segundo o método de estimação por grupo

(15)

(16)

(17)

Gráfico 19 – Box-plot do percentual de valores estimados maior que o simulado (PSO) para o esquema 1 de itens comuns segundo o método de estimação por grupo

(18)

(19)

(20)

4. CONCLUSÕES E CONSIDERAÇÕES FINAIS

O presente trabalho teve por objetivo compreender a influência da seleção de itens comuns na estimação da proficiência considerando o modelo logístico de três parâmetros e grupos múltiplos. Os métodos de estimação com prioris não informativas N(0,10) são considerados mais adequados uma vez que, apesar de terem mais erro nas estimativas, apresentam estimativas não viciada para a competência dos estudantes. Deve-se considerar também com um bom candidato o método MAP com priori N(0,3) pois apesar de ter apresentado vício este é pequeno, além disso, este método apresentou um menor erro quadrático médio em todos os esquemas de itens comuns considerados.

Faz-se necessário um estudo mais refinado de modo a indicar qual o melhor método de estimação MAP com priori N(0,3) ou N(0,10) uma vez que no primeiro há um menor erro quadrático médio fornecendo estimativas levemente viesadas e no segundo as estimativas não são viesadas, porém o erro quadrático médio é consideravelmente maior.

Pode-se notar que os diferentes esquemas de itens não tiveram grande influência na estimativa das proficiências. Este fato pode ser justificado pela grande sobreposição de desempenhos entre os três grupos analisados uma vez que as populações estavam a 1 desvio padrão de distância uma das outras.

Considerando o exposto é necessário ainda entender melhor o comportamento destes esquemas de itens comuns quando a diferença das populações for maior, por exemplo, médias de -2, 0 e 2 para cada um dos grupos de forma a diminuir a área comum entre estas distribuições.

REFERENCIAS

BOCK R.D.; AITKIN M. (1981) Marginal maximum likelihood estimation of item parameters: Application of an EM algorithm. Psychometrika, 6, 443-459.

HAMBLETON, R.K.; SWAMINATHAN, H. (1985) Item Response Theory: Principles and

Applications. Boston: Kluwer.

HAMBLETON, R.K.; SWAMINATHAN, H.; ROGERS, H.J. (1991) MMSS Fundamentals of

Item Response Theory, SAGE: California, ISBN: 0-8039-3646-X.

KLEIN, R (2003) Utilização da Teoria de Resposta ao Item no Sistema Nacional de Avaliação da Educação Básica (SAEB), Revista ENSAIO: avaliação e políticas públicas em

(21)

KLEIN, R. (2009) Utilização da Teoria de Resposta ao Item no Sistema Nacional de Avaliação da Educação Básica (SAEB), Meta:Avaliação, 1, 125-140.