• Nenhum resultado encontrado

Deteção da existência de conhecimento prévio de questões de escolha múltipla utilizando o modelo DGM

N/A
N/A
Protected

Academic year: 2021

Share "Deteção da existência de conhecimento prévio de questões de escolha múltipla utilizando o modelo DGM"

Copied!
114
0
0

Texto

(1)

Universidade de Aveiro Departamento de Matem´atica, 2015

Fernanda

Pereira

Dete¸

ao da existˆ

encia de conhecimento pr´

evio de

quest˜

oes de escolha m´

ultipla utilizando o modelo

(2)
(3)

Universidade de Aveiro Departamento de Matem´atica, 2015

Fernanda

Pereira

Dete¸

ao da existˆ

encia de conhecimento pr´

evio de

quest˜

oes de escolha m´

ultipla utilizando o modelo

DGM

Disserta¸c˜ao apresentada `a Universidade de Aveiro para cumprimento dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Matem´atica e Aplica¸c˜oes, realizada sob a orienta¸c˜ao cient´ıfica de Isabel Pereira, Professora do Departamento de Matem´atica da Universidade de Aveiro e coorienta¸c˜ao cient´ıfica de Magda Monteiro, Professora da Escola Superior de Tecnologia e Gest˜ao de ´Agueda

(4)
(5)

Ao Milton `

A Clara Aos meus Pais

(6)
(7)

o j´uri / the jury

presidente / president Doutor Pedro Filipe Pessoa Macedo

Professor Auxiliar da Universidade de Aveiro (por delega¸c˜ao da Reitora da Univer-sidade de Aveiro)

vogais / examiners committee Doutora Sandra Cristina de Faria Ramos

Professora Adjunta do Instituto Superior de Engenharia do Porto

Doutora Isabel Maria Sim˜oes Pereira

(8)
(9)

agradecimentos / acknowledgements

`

As Professora Doutora Isabel Pereira e Professora Doutora Magda Monteiro pela competˆencia com que orientaram esta minha tese e o tempo que generosamente me dedicaram transmitindo-me os melhores e mais ´uteis ensinamentos, com paciˆencia, lucidez e confian¸ca.

`

A Professora Maria Am´elia Ferreira por me ter dados a possibilidade de trabalhar na ´area da educa¸c˜ao m´edica e em especial na realiza¸c˜ao de estat´ıstica educacional.

Ao Milton Severo, por sua extensa paciˆencia, pelo seu amor, por sempre estar disposto a ajudar-me em qualquer situa¸c˜ao e principalmente pelo seu apoio que me conforta e me deixa mais forte para superar os desafios a que me proponho.

`

A Clara Barros pela paciˆencia para me perdoar quando lhe dizia que n˜ao podia ir brincar com ela naquele momento.

Aos meus pais, que me deram n˜ao somente a vida, mas principal-mente a minha educa¸c˜ao e condi¸c˜oes de estudo.

Ao meu irm˜ao Z´e e `a Dina pelo companheirismo. Aos meus sogros por todo o apoio que me tˆem dado.

A todos que contribu´ıram de algum modo para que a realiza¸c˜ao desta tese fosse poss´ıvel.

(10)
(11)

Palavras-chave Teoria de Resposta a Itens, Fraude acad´emica, Modelo DGM, MCMC. Resumo A teoria de resposta a itens (TRI) engloba uma fam´ılia de modelos n˜ao

lineares que fornecem uma estimativa da probabilidade de responder cor-retamente a uma pergunta de escolha m´ultipla (item) de um teste. Esta fam´ılia de modelos caracteriza-se em fun¸c˜ao da capacidade dos estudantes e das caracter´ısticas dos itens, como sejam a dificuldade e a discrimina¸c˜ao. Os modelos TRI tˆem como vari´aveis dependentes itens dicot´omicos e como vari´aveis independentes uma ou mais vari´aveis latentes. Um dos mode-los TRI habitualmente utilizado para an´alise de testes com perguntas de escolha m´ultipla ´e o modelo log´ıstico com 1 parˆametro (1-PL). Uma das problem´aticas associada a perguntas de escolha m´ultipla ´e a facilidade do es-tudante cometer fraude. A fraude acad´emica ´e definida como uma atividade na qual existe uma viola¸c˜ao das regras durante o processo de avalia¸c˜ao. A maior parte da investiga¸c˜ao na ´area de dete¸c˜ao de fraude acad´emica tem-se focado na dete¸c˜ao de fraude atrav´es da c´opia das respostas a partir de ou-tros estudantes. No entanto, a literatura ´e mais escassa em rela¸c˜ao `a fraude atrav´es do conhecimento pr´evio dos itens. Este ´ultimo tipo de fraude ocorre na maioria das vezes pela exposi¸c˜ao ou memoriza¸c˜ao de perguntas pelos es-tudantes. Os modelos TRI referidos anteriormente n˜ao permitem a dete¸c˜ao deste tipo de fraude acad´emica. Para dar resposta a esta problem´atica foi proposto o modelo DGM (Deterministic, Gated Item Response Theory Mo-del ) (Shu et al., 2013), que consiste numa mistura de dois moMo-delos 1-PL, que incorpora a divis˜ao dos estudantes em dois grupos. O modelo DGM classifica os estudantes como fraudulentos ou n˜ao fraudulentos pelo condi-cionamento a dois tipos de perguntas; o primeiro tipo inclui os itens que provavelmente est˜ao comprometidos e o segundo tipo os itens n˜ao compro-metidos. O modelo DGM permite a dete¸c˜ao de fraude atrav´es da an´alise da diferen¸ca entre a capacidade de um estudante cometer este tipo de fraude e a sua verdadeira capacidade. Neste trabalho faz-se a aplica¸c˜ao do modelo DGM com o objetivo de estimar a prevalˆencia de estudantes que cometeram fraude devido ao conhecimento pr´evio dos itens a partir de seis exames de escolha m´ultipla da unidade curricular de Anatomia Cl´ınica da Faculdade de Medicina da Universidade do Porto. Cada exame consistiu em 100 quest˜oes com cerca de 20% de perguntas repetidas realizado em m´edia por 200 estudantes. Foi utilizada a metodologia Bayesiana para a estima¸c˜ao dos parˆametros do modelo DGM utilizando m´etodos de Monte Carlo via Cadeias de Markov. As distribui¸c˜oes a priori para os parˆametros do modelo foram definidas utilizando distribui¸c˜oes Normais. A estima¸c˜ao da sensibilidade e especificidade do modelo DGM foi baseada num estudo de simula¸c˜ao, onde se avaliou a propor¸c˜ao dos estudantes que s˜ao correta-mente classificados como sendo fraudulentos - sensibilidade - e a propor¸c˜ao dos estudantes que s˜ao corretamente classificados como n˜ao fraudulentos -especificidade. Tendo em conta as estimativas para a sensibilidade e especi-ficidade estimou-se a prevalˆencia real dos estudantes que cometeram fraude

(12)
(13)

Keywords Item Response Theory, Academic Fraud, DGM Model, MCMC.

Abstract The item response theory (IRT) comprises a family of nonlinear models that provide an estimate of the probability of correctly answer to a ques-tion (item) of a multiple choice test. This models family is characterized according to students ability and items characteristics such as difficulty and discrimination. The IRT models have dichotomous items as dependent vari-ables and as independent varivari-ables one or more latent varivari-ables. One of the commonly IRT model used for examination analysis with multiple choice questions is the logistic model with one parameter (1-PL). One of the pro-blems associated with multiple choice questions is the easiness for a student to commit fraud. Academic fraud is defined as an activity in which there is a violation of the rules during the evaluation process. Most of the research in academic fraud detection area has been focused on fraud detection due to students copying of responses from other students. However, the literature is scarce in relation to fraud through prior knowledge of the items. This type of fraud occurs most often by exposure or memorization of questions by students. The IRT models mentioned above do not allow the detection of this type of fraud. To address this issue DGM Model (Deterministic, Gated Item Response Theory Model ) (Shu et al., 2013) was proposed, con-sisting of a two 1-PL models mixture which splits the students into two groups. The DGM model classifies students as fraudulent or not fraudulent by conditioning them to two types of questions; the first type includes the items that are probably committed and the second type the uncommitted items. The DGM model allows fraud detection by the analysis of the va-riation between the student fraud ability to commit this type of fraud and its true ability. In this work the DGM model was applied in order to es-timate the prevalence of students who committed fraud due to item prior knowledge from six multiple choice examimations of the Clinical Anatomy course at Faculty of Medicine of University of Porto. Each examination consisted of 100 questions with an average of 200 students and 20% of repeat questions per examination. Bayesian methodology was used to esti-mate DGM model parameters using Monte Carlo Markov Chain Methods. The a priori distributions were defined as Normal distributions. The esti-mation of the sensibility and specificity was based on a simulation study, which evaluated the proportion of students who are correctly classified as fraudulent - sensibility - and the proportion of students who are correctly classified as non-fraudulent - specificity. The estimates of sensibility and specificity were used to estimate true prevalence of fraudulent students in the UC examinations under study.

(14)
(15)

Conte´

udo

Conte´udo i

Lista de Figuras iii

Lista de Tabelas v

Nomenclatura vii

Nota introdut´oria 1

1 Modelos 3

1.1 Teoria Cl´assica de Testes . . . 5

1.2 Teoria de Resposta a Itens . . . 8

1.2.1 Modelo Log´ıstico de 2 parˆametros (2-PL) . . . 9

1.2.2 Modelo Log´ıstico de 1 parˆametro (1-PL) . . . 10

1.3 Modelo DGM . . . 12

2 Abordagens de estima¸c˜ao 15 2.1 Abordagem cl´assica . . . 16

2.1.1 Estima¸c˜ao das capacidades dos estudantes conhecidos os parˆametros dos itens . . . 16

2.1.2 Estima¸c˜ao dos parˆametros dos itens conhecidas as capacidades dos es-tudantes . . . 18

2.1.3 Todos os parˆametros do modelo desconhecidos . . . 19

2.1.3.1 A solu¸c˜ao Bock e Lieberman . . . 19

2.1.3.2 Solu¸c˜ao Bock e Aitkin . . . 23

2.1.3.3 Solu¸c˜ao alternativa - Abordagem EM da Solu¸c˜ao Bock e Aitkin 25 2.2 Abordagem bayesiana . . . 27

2.2.1 Modelo TRI 2-PL . . . 29

2.2.2 Modelo DGM . . . 29

3 Aplica¸c˜ao Pr´atica 31 3.1 Descri¸c˜ao dos dados reais . . . 32

3.2 Aplica¸c˜ao dos modelos TRI . . . 35

3.3 Aplica¸c˜ao do Modelo DGM . . . 42

3.3.1 Estudo de Simula¸c˜ao . . . 43

(16)

Conclus˜oes 53 Bibliografia 54 A Tabelas 57 A.1 TCT . . . 58 A.2 IRT . . . 60 A.3 DGM . . . 76

B Comandos do modelo DGM no Winbugs 89

(17)

Lista de Figuras

1.1 Curva CCI para 3 itens de um teste . . . 11

2.1 Modelo TRI . . . 28

3.1 ´Indice de dificuldade e ´ındice de discrimina¸c˜ao de cada teste . . . 33

3.2 ´Indice de dificuldade e ´ındice de discrimina¸c˜ao por n´umero de repeti¸c˜oes . . . 34

3.3 Estimativas das curvas caracter´ısticas dos itens dos testes de 2008 . . . 37

3.4 Estimativas das curvas caracter´ısticas dos itens dos testes de 2009 . . . 37

3.5 Estimativas das curvas caracter´ısticas dos itens dos testes de 2010 . . . 38

3.6 Estimativas das curvas caracter´ısticas dos itens dos testes de 2011 . . . 38

3.7 Estimativas das capacidades dos estudantes nos testes de 2008 . . . 39

3.8 Estimativas das capacidades dos estudantes nos testes de 2009 . . . 39

3.9 Estimativas das capacidades dos estudantes nos testes de 2010 . . . 40

3.10 Estimativas das capacidades dos estudantes nos testes de 2011 . . . 40

3.11 Estimativas dos ´ındices de dificuldade dos testes de 2009 . . . 41

3.12 Estimativas dos ´ındices de dificuldade dos testes de 2010 . . . 41

3.13 Estimativas dos ´ındices de dificuldade dos testes de 2011 . . . 42

3.14 Exemplo de ´arvore de classifica¸c˜ao . . . 45

3.15 Exemplo do ganho efetivo dos estudantes fraudulentos versus estudantes n˜ao fraudulentos . . . 47

3.16 Diagn´ostico do parˆametro θtpara o estudante 117 na simula¸c˜ao 1 e na simula¸c˜ao 20 no teste da ´epoca normal de 2010 . . . 48

3.17 Diagn´ostico do parˆametro θc para o estudante 117 na simula¸c˜ao 1 e na si-mula¸c˜ao 20 no teste da ´epoca normal de 2010 . . . 48

3.18 Diagn´ostico do parˆametro bi para o item 67 na simula¸c˜ao 1 e na simula¸c˜ao 20 no teste da ´epoca normal de 2010 . . . 49

3.19 Percentagem de respostas certas por tipo de pergunta e tipo de estudante para o teste da ´epoca normal de 2011. . . 50

(18)
(19)

Lista de Tabelas

1.1 Padr˜oes de resposta e respetivas frequˆencias absolutas . . . 4

1.2 Percentagem de acerto `as 4 perguntas . . . 4

1.3 Tabela de contingˆencia para as perguntas 2 e 3 . . . 5

1.4 Recomenda¸c˜oes sobre a fiabilidade do teste. . . 6

1.5 Recomenda¸c˜oes sobre ´ındice de dificuldade dos itens. . . 7

1.6 Recomenda¸c˜oes sobre ´ındice de discrimina¸c˜ao dos itens. . . 7

1.7 Caracter´ısticas dos itens com ´ındice de discrimina¸c˜ao fixo e igual a 1 . . . 11

1.8 Caracter´ısticas dos itens com ´ındice de dificuldade fixo e igual a 1 . . . 11

1.9 Dados observados para os quatro modelos condicionais. . . 13

3.1 Descri¸c˜ao dos dados de acordo com a TCT . . . 32

3.2 Modelo de efeitos mistos para medir o efeito das repeti¸c˜oes nos ´ındices de dificuldade e discrimina¸c˜ao calculado utilizando TCT. . . 34

3.3 Compara¸c˜ao do ajustamento dos modelos 1-PL e 2-PL aos dados reais. . . 35

3.4 Estimativas dos ´ındices de dificuldade e de discrimina¸c˜ao dos testes entre 2009 e 2011 . . . 36

3.5 Condi¸c˜oes do estudo de simula¸c˜ao . . . 44

3.6 Correla¸c˜oes obtidas no estudo de simula¸c˜ao (m´edia(DP)) . . . 44

3.7 Valores obtidos no estudo de simula¸c˜ao (m´edia(DP)) . . . 46

3.8 Valores m´edios obtidos para a prevalˆencia aparente e para a verdadeira pre-valˆencia para os testes de 2009 a 2011 utilizando os pontos de corte definidos no estudo de simula¸c˜ao para os cen´arios 1 e 2. . . 50

A.1 ´Indice de dificuldade de cada uma das 100 perguntas dos 8 testes utilizando a TCT1 . . . 58

A.1 ´Indice de dificuldade de cada uma das 100 perguntas dos 8 testes utilizando a TCT1 . . . 59

A.2 Dificuldade e discrimina¸c˜ao de cada pergunta do teste 1 de 2008 utilizando o modelo 1-PL e o modelo 2-PL . . . 60

A.3 Dificuldade e discrimina¸c˜ao de cada pergunta do teste 2 de 2008 utilizando o modelo 1-PL e o modelo 2-PL . . . 62

A.4 Dificuldade e discrimina¸c˜ao de cada pergunta do teste 1 de 2009 utilizando o modelo 1-PL e o modelo 2-PL . . . 64

A.5 Dificuldade e discrimina¸c˜ao de cada pergunta do teste 2 de 2009 utilizando o modelo 1-PL e o modelo 2-PL . . . 66

(20)

A.6 Dificuldade e discrimina¸c˜ao de cada pergunta do teste 1 de 2010 utilizando o

modelo 1-PL e o modelo 2-PL . . . 68

A.7 Dificuldade e discrimina¸c˜ao de cada pergunta do teste 2 de 2010 utilizando o modelo 1-PL e o modelo 2-PL . . . 70

A.8 Dificuldade e discrimina¸c˜ao de cada pergunta do teste 1 de 2011 utilizando o modelo 1-PL e o modelo 2-PL . . . 72

A.9 Dificuldade e discrimina¸c˜ao de cada pergunta do teste 2 de 2011 utilizando o modelo 1-PL e o modelo 2-PL . . . 74

A.10 Prevalˆencia de 35% e efic´acia elevada . . . 76

A.11 Correla¸c˜oes - Prevalˆencia de 35% e efic´acia elevada . . . 77

A.12 Prevalˆencia de 70% e efic´acia moderada . . . 78

A.13 Correla¸c˜oes - Prevalˆencia de 70% e efic´acia moderada . . . 79

A.14 Prevalˆencia de 35% e efic´acia elevada (ponto de corte definido por Shu) . . . 80

A.15 Prevalˆencia de 70% e efic´acia moderada (ponto de corte definido por Shu). . . 81

A.16 Prevalˆencia de 35% e efic´acia moderada . . . 82

A.17 Correla¸c˜oes - Prevalˆencia de 35% e efic´acia moderada . . . 83

A.18 Prevalˆencia de 70% e efic´acia elevada . . . 84

A.19 Correla¸c˜oes - Prevalˆencia de 70% e efic´acia elevada . . . 85

A.20 Prevalˆencia de 35% e efic´acia moderada (ponto de corte definido por Shu) . . 86

A.21 Prevalˆencia de 70% e efic´acia elevada (ponto de corte definido por Shu) . . . 87

A.22 Valores m´edios obtidos para a prevalˆencia aparente e para a verdadeira pre-valˆencia para os testes de 2009 a 2011 utilizando os pontos de corte definidos no estudo de simula¸c˜ao para os cen´arios 3 e 4. . . 88

(21)

Nomenclatura

S´ımbolo Descri¸c˜ao

PEM Pergunta de escolha m´ultipla

Item Pergunta

i = 1, ..., I Itens

m = 1, ..., M Estudante

ymi= 1, 0 Resposta do estudante m ao item i

Ym= (ym1, ym2, ..., ymI) Vetor resposta do estudante m

ai, bi Parˆametros do item i

bi ´Indice de dificuldade

b∗i ´Indice de dificuldade padronizado ai, a ´Indice de discrimina¸c˜ao

a∗i ´Indice de discrimina¸c˜ao padronizado

θm Capacidade do estudante m

θtm Capacidade ”verdadeira”do estudante m

θcm Capacidade ”de fraude”do estudante m

φi, Φ Vetor/Matriz dos ”verdadeiros”parˆametros dos itens

∆ Ganho efetivo na classifica¸c˜ao

SEN Sensibilidade

ESP Especificidade

TCT Teoria Cl´assica de Teste

TRI Teoria de Resposta a Itens

1-PL Modelo Log´ıstico de 1 parˆametro ou Modelo Rasch 2-PL Modelo Log´ıstico de 2 parˆametros

CCI Curva Caracter´ıstica do Item

(22)
(23)

Nota introdut´

oria

“Good test consist of good items” Thomas Haladyna

A Faculdade de Medicina da Universidade do Porto (FMUP) disp˜oe, desde o ano letivo 2006/07, de um sistema de corre¸c˜ao de testes atrav´es de leitura ´otica e procede `a avalia¸c˜ao da qualidade desses mesmos testes. O servi¸co foi disponibilizado para os docentes que lecionem no Curso de Mestrado Integrado em Medicina e que realizem testes de escolha m´ultipla como m´etodo de avalia¸c˜ao dos estudantes (Severo et al., 2012). No ano letivo 2013/2014 usufru´ıam deste sistema de corre¸c˜ao 41(68%) UC (ciclo b´asico e ciclo cl´ınico) da FMUP.

Na aprendizagem na ´area da medicina os testes de perguntas de escolha m´ultipla fazem parte de todas as fases da forma¸c˜ao de um estudante e fornecem informa¸c˜ao importante sobre a progress˜ao do estudante durante o percurso da sua forma¸c˜ao. Consideremos a situa¸c˜ao habi-tual decorrente da realiza¸c˜ao de um teste. Um professor fornece um teste escrito de escolha m´ultipla a uma turma de estudantes de uma faculdade. Todas as perguntas do teste s˜ao novas, mas o teste foi desenhado para medir exatamente os mesmos conte´udos que o teste do ano anterior. O professor nota que as classifica¸c˜oes dos estudantes neste ano s˜ao considera-velmente mais baixas do que as dos estudantes do ano anterior. O que pode ter acontecido? O teste deste ano ´e mais dif´ıcil do que o teste do ano passado? Os estudantes da turma deste ano s˜ao menos capazes, isto ´e, n˜ao t˜ao competentes, que os da turma do ano passado? A avalia¸c˜ao da qualidade dos testes e a obten¸c˜ao da classifica¸c˜ao verdadeira do estudante n˜ao podem ser dissociados da an´alise da existˆencia de fraude acad´emica e uma das problem´aticas associada a perguntas de escolha m´ultipla ´e a facilidade do estudante cometer fraude. A fraude acad´emica pode ser definida como a atividade na qual existe uma viola¸c˜ao das regras durante o processo de avalia¸c˜ao. A investiga¸c˜ao na ´area de dete¸c˜ao de fraude acad´emica foca-se essencialmente na dete¸c˜ao de fraude atrav´es da c´opia das respostas a partir de outros estudantes; no entanto a existˆencia do conhecimento pr´evio dos itens – que ocorre maio-ritariamente pela exposi¸c˜ao (repeti¸c˜ao das mesmas perguntas em diferentes testes) e pela memoriza¸c˜ao de perguntas pelos estudantes - n˜ao tem sido muito desenvolvida na literatura. Duas teorias utilizadas para construir e avaliar testes s˜ao a Teoria Cl´assica de Testes (TCT) e a Teoria de Resposta a Itens (TRI). O conhecimento pr´evio das perguntas, que se vai tamb´em designar por fraude acad´emica (num outro contexto do habitualmente considerado) n˜ao ´e de-tetado pelos modelos de TRI.

Para dar resposta a esta problem´atica, em 2013 Shu et al. propuseram o Modelo DGM (De-terministic, Gated Item Response Theory Model ), que consiste numa mistura de dois modelos TRI que incorpora a divis˜ao dos estudantes em dois grupos. Os estudantes s˜ao classifica-dos pelo modelo DGM como fraudulentos ou n˜ao fraudulentos pelo condicionamento a dois

(24)

tipos de perguntas: itens que provavelmente est˜ao comprometidos (por exemplo, perguntas repetidas) - primeiro tipo; itens n˜ao comprometidos - segundo tipo. O modelo DGM permite a dete¸c˜ao de fraude atrav´es da an´alise da diferen¸ca entre a sua verdadeira capacidade e a capacidade de um estudante cometer este tipo de fraude.

Como o modelo DGM ´e uma mistura de modelos da TRI e por forma a percebermos melhor as caracter´ısticas dos itens os modelos da TCT e da TRI foram tamb´em analisados e aplicados aos dados em estudo.

Nenhuma classifica¸c˜ao obtida num teste ´e perfeita pois todas as classifica¸c˜oes contˆem erros de medi¸c˜ao. Os modelos de TCT s˜ao necess´arios para ajudar a compreender o processo de medi¸c˜ao e como este ´e afetado pelas fontes de erro. Cada estudante tem um conhecimento associado que n˜ao ´e poss´ıvel ser observado, ou seja, ser medido diretamente. Um dos modelos de TCT tenta explicar a rela¸c˜ao existente entre a classifica¸c˜ao verdadeira pelo estudante e a sua classifica¸c˜ao observada. A TRI tem como foco o estudo individualizado dos itens de um teste enquanto que a TCT tem como objetivo a determina¸c˜ao dos parˆametros m´etricos do teste. A TCT tem como foco a interpreta¸c˜ao do que a classifica¸c˜ao obtida por um determi-nado estudante num teste diz sobre ele e a an´alise dos itens visa escolher os melhores itens avaliando duas das suas caracter´ısticas: a dificuldade e a discrimina¸c˜ao. Por seu lado, a TRI mede a capacidade do estudante de acordo com as respostas dadas a cada item; permite ana-lisar o teste com apoio na an´alise individualizada de cada um dos itens e procura determinar qual a probabilidade e quais os fatores que afetam a probabilidade de acertar ao item de um teste (Pasquali, 2009).

A TCT tem v´arias limita¸c˜oes, bastante significativas, o que levou ao aparecimento da TRI que as procura superar e que traz v´arios avan¸cos em compara¸c˜ao com a TCT segundo Ham-bleton et al. (1991). Ao contr´ario do que ocorria na TCT, onde a classifica¸c˜ao obtida pelo estudante dependia e variava segundo o grau de dificuldade e precis˜ao do teste aplicado, a TRI considera que o estudante possui um tra¸co latente ”verdadeiro”espec´ıfico que varia com os itens utilizados, desde que estes estejam a medir o mesmo tra¸co latente. Na TRI, o c´alculo dos parˆametros dos itens ´e independente da amostra de estudantes utilizada, enquanto que na TCT os parˆametros dependem dos indiv´ıduos da amostra possu´ırem maior ou menor n´ıvel no tra¸co latente, no entanto, a amostra necess´aria para realizar a avalia¸c˜ao por TRI necessita ser grande. A TRI permite ainda posicionar os itens (atrav´es da dificuldade) e os estudantes (atrav´es da sua classifica¸c˜ao) numa mesma escala do tra¸co latente que est´a a ser avaliado e torna-se poss´ıvel estabelecer uma rela¸c˜ao entre os itens e os n´ıveis do tra¸co latente dos estu-dantes, identificando os itens que melhor avaliam cada n´ıvel do tra¸co. Outro avan¸co prende-se com o facto de a TRI utilizar um modelo que n˜ao precisa fazer suposi¸c˜oes improv´aveis, tais como a de que os erros de medi¸c˜ao s˜ao iguais para todos os indiv´ıduos e n˜ao obriga a que se trabalhe com testes estritamente paralelos para avaliar a fiabilidade tal como exige a TCT. O aumento da utiliza¸c˜ao de modelos TRI na ´ultimas d´ecadas demonstra a sua importˆancia no desenvolvimento e an´alise dos testes. Os modelos TRI s˜ao utilizados para v´arios fins incluindo a an´alise da qualidade dos itens (perguntas), constru¸c˜ao e equipara¸c˜ao de testes.

O objetivo deste trabalho ´e estimar a prevalˆencia de estudantes que cometeram fraude de-vido ao conhecimento pr´evio dos itens a partir de seis testes de escolha m´ultipla da unidade curricular de Anatomia Cl´ınica da FMUP atrav´es da aplica¸c˜ao do modelo DGM.

O Cap´ıtulo 1 descreve os modelos TCT, TRI e DGM. No Cap´ıtulo 2 apresentamos os prin-cipais m´etodos de estima¸c˜ao quer na abordagem cl´assica quer na abordagem Bayesiana. A aplica¸c˜ao aos dados reais ´e apresentada no Cap´ıtulo 3. A tese finaliza com a discuss˜ao dos resultados obtidos e respetivas conclus˜oes.

(25)

Cap´ıtulo 1

Modelos

An´alises tendo por base TRI n˜ao ir˜ao resolver automaticamente o dilema do professor, mas a TRI possui um conjunto de procedimentos estat´ısticos f´aceis de implementar de modo a colocar as classifica¸c˜oes numa escala comum de modo que a interpreta¸c˜ao dessas classifica¸c˜oes seja sempre idˆentica (Downing, 2003).

Suponhamos que pretendemos avaliar as quest˜oes, bem como os resultados dos estudantes nesse teste.

Perante um teste com I perguntas que ´e realizado por M estudantes, considere-se ymi,

m = 1, · · · , M e i = 1, · · · , I, a resposta que o estudante m deu `a pergunta i. A resposta a cada item por cada um dos indiv´ıduos ´e classificada como certo/errado, ou seja, cotada dicot´omicamente. Por conven¸c˜ao ´e habitual usar o 1 para indicar o ”sucesso”ou uma resposta correta e 0 para o insucesso ou resposta errada. As respostas que os estudantes d˜ao a todas as perguntas s˜ao armazenadas numa matriz de dados Y = [ymi], com M linhas e I colunas,

que apenas possui zeros e uns. Quando se pretende referir a todas as respostas ao item i, que corresponde a todos os elementos da coluna i da matriz de dados utilizar-se-´a a nota¸c˜ao yi, i = 1, · · · , I. Por sua vez, quando houver necessidade de referir todas as respostas do

estudante m iremos usar a nota¸c˜ao ym. A soma de cada linha da matriz Y representa o

n´umero de respostas corretas de cada estudante que permite obter a sua classifica¸c˜ao. Em cada coluna est˜ao todas as respostas da respetiva pergunta e a soma dos seus elementos re-presenta o n´umero total de respostas corretas a essa pergunta.

Uma linha t´ıpica da matriz de dados com 11 quest˜oes ent˜ao ser´a: 01000111101.

Os m´etodos que ser˜ao descritos come¸cam todos a partir de uma matriz de dados constitu´ıda por um conjunto de linhas tal como a anterior para cada um dos estudantes. No entanto, quando o n´umero de itens ´e relativamente pequeno, a restri¸c˜ao a dados dicot´omicos por vezes torna poss´ıvel expressar os resultados de um modo mais compacto e informativo atrav´es de uma tabela de frequˆencias para todos os casos poss´ıveis de respostas `as perguntas.

Cada conjunto de respostas poss´ıveis a todas as perguntas ´e referido como padr˜ao de resposta ou padr˜ao de classifica¸c˜ao. Se tivermos p quest˜oes existem 2p padr˜oes de resposta poss´ıveis. Quando p = 4, por exemplo, temos

0000, 0001, 0010, 0011, 0100, 0101, 0110, 0111, 1000, 1001, 1010, 1011, 1100, 1101, 1110, 1111.

(26)

Este tipo de tabela de frequˆencias ´e utilizado sempre que o tamanho da amostra ´e elevado. Caso algum padr˜ao de resposta n˜ao ocorra este ´e omitido da tabela para poupar espa¸co (Galbraith et al., 2002).

Como exemplo utilizaram-se as respostas a 4 perguntas de escolha m´ultipla do teste da ´epoca normal de 2008 de Anatomia Cl´ınica dadas por 208 estudantes. Em cada um dos itens quando o estudante n˜ao respondeu `a pergunta foi considerado que n˜ao acertou `a pergunta.

A tabela de frequˆencias de padr˜oes de resposta ´e dada na Tabela 1.1.

Tabela 1.1: Padr˜oes de resposta e respetivas frequˆencias absolutas Padr˜ao Frequˆencia

0000 9 0001 26 0010 3 0011 3 0100 3 0101 15 0110 3 0111 10 1000 10 1001 23 1010 1 1011 5 1100 15 1101 34 1110 8 1111 40

A percentagem de acerto a cada uma das 4 perguntas pode ser verificada na Tabela 1.2. Tabela 1.2: Percentagem de acerto `as 4 perguntas

0 (%) 1 (%) P1 34,62 65,38 P2 38,46 61,54 P3 64,90 35,10 P4 25,00 75,00

Atrav´es da utiliza¸c˜ao de tabelas de contingˆencia 2x2 podemos verificar a associa¸c˜ao entre 2 perguntas em estudo. Na Tabela 1.3 e com base no teste χ2 podemos concluir que quem acerta `a pergunta 2 tem maior probabilidade de acertar `a pergunta 3 e portanto podemos concluir que as perguntas est˜ao associadas. Interessa-nos saber se essa associa¸c˜ao pode ser atribu´ıda a um fator comum.

(27)

Tabela 1.3: Tabela de contingˆencia para as perguntas 2 e 3 0 N(%) 1 N(%) 0 68 (85,0%) 12 (15,0%) 1 67 (52,3%) 61 (47,7%)

1.1

Teoria Cl´

assica de Testes

O princ´ıpio central da Teoria Cl´assica de Testes (TCT) ´e que a classifica¸c˜ao obtida por cada estudante num teste (X), pode ser decomposta na sua classifica¸c˜ao verdadeira (T ) e uma componente de erro (E):

X = T + E. (1.1)

A classifica¸c˜ao verdadeira de um estudante (T) ´e definida como o valor esperado da classi-fica¸c˜ao observada caso o estudante realizasse um n´umero infinito de vezes testes semelhantes. Podemos pensar na classifica¸c˜ao verdadeira de cada estudante como a classifica¸c˜ao que seria obtida caso n˜ao existisse erro de medi¸c˜ao. Na pr´atica isto nunca acontece portanto, torna-se importante avaliar at´e que ponto a classifica¸c˜ao atual de cada estudante reflete o seu verda-deiro conhecimento dos temas avaliados pelo teste.

O coeficiente de fiabilidade permite-nos calcular uma estimativa da correla¸c˜ao entre a clas-sifica¸c˜ao verdadeira e observada dos estudantes, ou seja fornece uma estimativa do n´ıvel de precis˜ao da classifica¸c˜ao do estudante em rela¸c˜ao `a sua verdadeira classifica¸c˜ao.

Considerando as classifica¸c˜oes de 2 testes paralelos x e y ent˜ao a correla¸c˜ao entre a classi-fica¸c˜ao verdadeira e observada dos estudantes ao quadrado ´e igual `a correla¸c˜ao entre os 2 testes:

rxy = rty× rtx= r2tx, (1.2)

pois como os testes s˜ao paralelos rty = rtx.

´

E claro que na vida real n˜ao ´e poss´ıvel fazer 2 vers˜oes paralelas do mesmo teste, mas ´e poss´ıvel dividir o teste em 2 partes aleatoriamente (Split-half reliability coefficient, (Flanagan, 1937) e (Rulon, 1939)) e estimar

rtx2 ≈ rsh= 4r12× σ1× σ2

σX2 , (1.3)

onde σ1 e σ2 os desvios padr˜ao de cada metade, σX2 ´e a variˆancia total do teste e r12 ´e a

correla¸c˜ao entre as duas partes.

O coeficiente de fiabilidade mede a propor¸c˜ao da variˆancia da classifica¸c˜ao observada (σ2X) que ´e partilhada ou atribu´ıda `a variˆancia da classifica¸c˜ao verdadeira (σ2T) que ´e devida `a varia¸c˜ao entre estudantes. Como a fiabilidade foca a exatid˜ao da medi¸c˜ao torna-se necess´ario definir o princ´ıpio sobre o qual a classifica¸c˜ao do estudante pode ser reprodut´ıvel. Em rela¸c˜ao a testes constitu´ıdos por perguntas de escolha m´ultipla (PEM) ´e muito usual utilizar o alfa de Cronbach (α) (Cronbach, 1951) para fornecer uma estimativa do coeficiente de fiabilidade. O alfa de Cronbach ´e definido pela m´edia das correla¸c˜oes entre todas as divis˜oes poss´ıveis em duas partes iguais.

Suponhamos que queremos calcular a quantidade que ´e a soma de I componentes, X = Y1+ ... + YI, como os itens est˜ao classificados como 0 e 1, o alfa de Cronbach (α) ´e definido

(28)

como: α = I I − 1 1 − PI i=1σY2i σX2 ! , (1.4)

onde σX2 ´e a variˆancia das classifica¸c˜oes observadas e σY2

i = Pi× Qia variˆancia da componente i para a amostra atual de estudantes e Pi ´e a propor¸c˜ao de respostas corretas do item i e

Qi = 1 − Pi.

O coeficiente de fiabilidade garante que a classifica¸c˜ao do estudante est´a associada `a sua classifica¸c˜ao verdadeira.

Dizemos que um teste tem boa fiabilidade se o alfa de Cronbach que lhe est´a associado for superior a 0,8; no entanto, para testes com menos de 50 itens e mais de 15 o valor limite ´e 0,7; caso estejamos na presen¸ca de um teste com menos de 15 itens esse limiar ´e de 0,5. As recomenda¸c˜oes sobre a fiabilidade (Kehoe, 1995) do teste encontram-se na Tabela 1.4.

Tabela 1.4: Recomenda¸c˜oes sobre a fiabilidade do teste. Alfa de Cronbach

No de itens Boa fiabilidade

10 a 15 0,5

16 a 49 0,7

> 50 0,8

´

E tamb´em importante calcular o erro esperado que pode ser obtido atrav´es do erro padr˜ao de medi¸c˜ao (SEM) dado por:

σE = σX

p

1 − ρXY, (1.5)

onde σX = desvio padr˜ao (DP) da classifica¸c˜ao total do teste, e ρXY = estimativa do

coefi-ciente de fiabilidade.

Se fosse poss´ıvel fornecer um n´umero infinito de vezes testes semelhantes ao mesmo estudante (assumindo que n˜ao existia aprendizagem entre a realiza¸c˜ao dos teste) a m´edia de todas as classifica¸c˜oes deveria ser igual `a sua classifica¸c˜ao verdadeira enquanto que o DP deveria cor-responder ao SEM. O SEM ´e tipicamente utilizado para estabelecer um intervalo de confian¸ca para a classifica¸c˜ao verdadeira do estudante.

Quando analisamos as perguntas `a luz da TCT ´e usual utilizar as caracter´ısticas do item, dificuldade e discrimina¸c˜ao.

Na TCT, a dificuldade do item ´e dada pela propor¸c˜ao de estudantes que respondem correta-mente ao item, no caso de itens dicot´omicos. O ´ındice de dificuldade varia entre 0 e 1; quando ´e igual a zero, ent˜ao nenhum estudante respondeu ao item corretamente; pelo contr´ario, se for igual a 1, ent˜ao todos os estudantes responderam corretamente. Uma pergunta ´e considerada dif´ıcil se o seu ´ındice de dificuldade for inferior ou igual a 0,30, com dificuldade m´edia se for superior a 0,30 e inferior a 0,80 e f´acil se for superior a 0,80. As recomenda¸c˜oes para avaliar o ´ındice de dificuldade (Tavakol and Dennick, 2011) encontram-se na Tabela 1.5.

A discrimina¸c˜ao na TCT tem por objetivo distinguir o grupo de estudantes que tiveram classifica¸c˜ao elevada dos que tiveram classifica¸c˜ao baixa no teste e ´e calculada utilizando a correla¸c˜ao biserial1 entre a pergunta e o n´umero de respostas corretas das outras perguntas.

1A correla¸ao biserial r

(29)

O ´ındice de discrimina¸c˜ao pode assumir qualquer valor entre -1 e +1, correspondendo `a di-feren¸ca entre o ´ındice de dificuldade dos estudantes que obtiveram uma classifica¸c˜ao elevada no teste e o ´ındice de dificuldade dos estudantes que obtiveram uma classifica¸c˜ao baixa no teste. Quanto mais pr´oximo de 1 for o seu valor mais o item ´e discriminativo. Se a pergunta tiver um ´ındice de discrimina¸c˜ao entre -1,00 e -0,20 considera-se que tem discrimina¸c˜ao ne-gativa e deve ser verificada pois pode ter sido indicada a chave errada ou ent˜ao caso tal n˜ao suceda deve ser descartada. Para ´ındices de discrimina¸c˜ao entre -0,19 e 1,19 dizemos que a pergunta tem fraca discrimina¸c˜ao; entre 0,20 e 0,29 discrimina¸c˜ao suficiente; entre 0,30 e 0,39 boa discrimina¸c˜ao; e entre 0,40 e 1,00 muito boa discrimina¸c˜ao. Devemos rejeitar os itens com discrimina¸c˜ao negativa e considerar para revis˜ao ou rejei¸c˜ao os itens com discrimina¸c˜ao fraca e os itens com ´ındices de dificuldade muito altos ou muito baixos, digamos acima de 0,90 ou abaixo de 0,10. As recomenda¸c˜oes para avaliar o ´ındice de discrimina¸c˜ao (Ebel, 1979) encontram-se na Tabela 1.6.

Tabela 1.5: Recomenda¸c˜oes sobre ´ındice de dificuldade dos itens. ´Indice de dificuldade Pergunta

[0, 00; 0, 30] Dif´ıcil ]0, 30; 0, 80] Dificuldade m´edia ]0, 80; 1, 00] F´acil

Tabela 1.6: Recomenda¸c˜oes sobre ´ındice de discrimina¸c˜ao dos itens. ´Indice de Discrimina¸c˜ao Discrimina¸c˜ao

[−1, 00; −0, 20] Negativa ] − 0, 20; 0, 19] Fraca

]0, 19; 0, 29] Suficiente

]0, 29; 0, 39] Boa

]0, 39; 1, 00] Muito Boa

As recomenda¸c˜oes indicadas para os ´ındices de dificuldade e de discrimina¸c˜ao s˜ao aplic´aveis tanto na TCT como na TRI que ser´a abordada na sec¸c˜ao seguinte.

dicot´omica artificial X e a vari´avel continua Z e pode ser calculada atrav´es da f´ormula rbis= Z1S−Z0

Z

n1n0

un2

! , onde Z1 a m´edia dos X que responderam corretamente `a pergunta, Z0 a m´edia dos X que responderam

erradamente `a pergunta, SZdesvio padr˜ao de todos os Z, n1 o n´umero de estudantes em X que responderam

corretamente `a pergunta, n1 o n´umero de estudantes em X que responderam erradamente `a pergunta, n =

n1+ n0e u ´e a ordenada da distribui¸c˜ao N (0, 1) na probabilidade comulativa de p1= nn1, isto ´e a propor¸c˜ao

(30)

1.2

Teoria de Resposta a Itens

A teoria de resposta a itens (TRI) engloba uma fam´ılia de modelos n˜ao lineares que fornecem uma estimativa da probabilidade de responder corretamente num item (pergunta) de um teste em fun¸c˜ao das caracter´ısticas desse item (por exemplo: dificuldade e discrimina¸c˜ao) e da capacidade dos estudantes.

Os modelos TRI tˆem ent˜ao como vari´aveis dependentes itens dicot´omicos e como vari´avel independente uma ou mais vari´aveis latentes. Estes modelos tamb´em s˜ao chamados modelos de tra¸co latente devido `a principal aplica¸c˜ao para a qual foram idealizados, a saber, medi¸c˜ao de tra¸cos psicol´ogicos que n˜ao se conseguem medir diretamente. Os principais objetivos da TRI s˜ao:

• Observar as inter-rela¸c˜oes entre as respostas observadas;

• Determinar se as inter-rela¸c˜oes podem ser explicadas por apenas uma vari´avel latente (capacidade do estudante);

• Atribuir uma classifica¸c˜ao a cada estudante tendo em conta os padr˜oes de resposta. ´

E natural pensar em tratar os dados bin´arios como se fossem m´etricos, no entanto, tal an´alise ´e inapropriada pois ´e baseada num modelo que assume que os vetores observados (y1, .., yI)

s˜ao m´etricos e n˜ao dicot´omicos. Para comprovar vejamos o modelo de an´alise factorial. O modelo ´e escrito como:

yi= αi0+ αi1x + ei (i = 1, · · · , I), (1.6)

onde I denota o n´umero de itens observados, yi denota as respostas ao i-´esimo item m´etrico

observado, x denota o vetor da vari´avel latente e ei o vetor dos erros. Assumimos que o

vetor dos erros segue uma distribui¸c˜ao normal com m´edia 0 e variˆancia σi2 e ´e independente do vetor da vari´avel latente que segue uma distribui¸c˜ao normal x ∼ N (0, 1). Uma vez que x e ei s˜ao independentes e podem tomar qualquer valor o mesmo acontece com cada yi.

Por-tanto, a an´alise fatorial linear ´e impr´opria para vetores categ´oricos, em geral, e para vetores dicot´omicos, em particular.

Podemos pensar num modelo de regress˜ao apropriado para cada yi na vari´avel latente. O

m´etodo de regress˜ao habitual utilizado para uma vari´avel de resposta dicot´omica num con-junto de vari´aveis explicativas ´e conhecido como regress˜ao log´ıstica. O seu nome provem da fun¸c˜ao log´ıstica utilizada na equa¸c˜ao de regress˜ao.

A fim de explicar a escolha desta fun¸c˜ao relembremos que a regress˜ao de yi na vari´avel

la-tente, isto ´e, o valor esperado de yi dado x. Uma vez que yi ´e dicot´omico, o valor esperado

de yi dado x ´e o mesmo que P (yi = 1|x) = Pi(x). Portanto temos de especificar a forma da

probabilidade Pi(x) em fun¸c˜ao de x. A fun¸c˜ao escolhida ´e conhecida como fun¸c˜ao de liga¸c˜ao

e pode ser definida como

Pi(x) = αi0+ αi1x(i = 1, .., I). (1.7)

O lado esquerdo da equa¸c˜ao 1.7 ´e uma probabilidade que toma valores entre 0 e 1, e o lado direito da equa¸c˜ao n˜ao ´e restringido e pode tomar qualquer valor real.

Os modelos lineares generalizados vieram solucionar este problema, em particular o modelo de regress˜ao apropriado para vetores de respostas dicot´omicas num conjunto de vetores ex-plicativos que ´e conhecido como regress˜ao log´ıstica.

(31)

Para garantir que as probabilidades de sucesso s˜ao valores compreendidos entre zero e um, a fun¸c˜ao usada ´e a logit. Desta forma

ln  Pi(xm) 1 − Pi(xm)  = αi0+ αi1xm, (m = 1, · · · , M, i = 1, · · · , I). (1.8)

A equa¸c˜ao anterior pode ser escrita na forma Pi(xm) = eαi0+αi1xm 1 + eαi0+αi1xm = 1 1 + e−(αi0+αi1xm), (1.9) (m = 1, · · · , M, i = 1, · · · , I, ).

Dois modelos TRI habituais para testes com PEM cotadas dicot´omicamente s˜ao o modelo log´ıstico com 1 parˆametro (1-PL) e o modelo log´ıstico com 2 parˆametros (2-PL), cujas probabi-lidades de resposta aos itens dependem da capacidade de cada estudante e das caracter´ısticas do item. Consideremos bi a dificuldade do item i, ai o parˆametro de discrimina¸c˜ao desse item

e θm a capacidade do estudante m, que ´e uma vari´avel latente que vai ser medida tendo em

conta o conjunto de itens no teste.

1.2.1 Modelo Log´ıstico de 2 parˆametros (2-PL)

O modelo 2-PL assume que os itens possuem dois parˆametros que os distinguem entre si, que s˜ao os n´ıveis de dificuldade e de discrimina¸c˜ao. Neste modelo, a probabilidade do estudante m responder corretamente ao item i ´e dada pela express˜ao:

Pi(θm) =

1

1 + e−ai(θm−bi) (m = 1, · · · , M, i = 1, · · · , I, ). (1.10) A express˜ao 1.10 pode tamb´em ser definida como

Pi(θm) =

eai(θm−bi)

1 + eai(θm−bi). (1.11) Se reescrevermos a equa¸c˜ao anterior obteremos a fun¸c˜ao logit:

ln Pi(θm) 1 − Pi(θm)

!

= ai(θm− bi). (1.12)

Este modelo deriva da express˜ao 1.9 onde a capacidade do estudante, θm, desempenha neste

contexto o papel de xm, o n´ıvel de discrimina¸c˜ao aique corresponde ao declive da reta tangente

no ponto de inflex˜ao correspondente a uma probabilidade de resposta correta de 50%. De modo a facilitar a leitura podemos padronizar o declive de forma a obter a correla¸c˜ao entre a capacidade do estudante e a probabilidade de acertar `a pergunta utilizando a seguinte f´ormula

a∗i = q ai (a2i + 1)

. (1.13)

O parˆametro bi (bi ∈ R) ´e de localiza¸c˜ao, expresso em unidades de θm, que indica o ponto,

na escala de θm, no qual a probabilidade da resposta correta ao item i ´e de 50%, enquanto

(32)

O parˆametro bi tamb´em pode ser padronizado de forma a variar entre 0 e 1 calculando a

probabilidade de resposta correta ao item para para θm = 0. O vetor de θ dos estudantes ´e

desconhecido e considerado uma vari´avel latente. A distribui¸c˜ao de θ, por regra, ´e a distri-bui¸c˜ao normal com m´edia nula e variˆancia 1, E(θ) = 0 e V ar(θ) = Im, onde Im representa a

matriz identidade de ordem m.

1.2.2 Modelo Log´ıstico de 1 parˆametro (1-PL)

O modelo 1-PL ´e um caso particular do modelo 2-PL em que se considera que todos os itens tˆem o mesmo parˆametro de discrimina¸c˜ao.

Assim, neste modelo o parˆametro de discrimina¸c˜ao ai referido na equa¸c˜ao 1.10 ´e igual para

todos os itens. Considerando ent˜ao ai = a na equa¸c˜ao 1.10 obtemos ent˜ao o modelo 1-PL

dado por

Pi(θm) =

1

1 + e−a(θm−bi) (m = 1, · · · , M, i = 1, · · · , I). (1.14)

O modelo Rasch ´e um caso especial do modelo 1-PL no qual consideramos que a = 1. Uma forma de representar os modelos 1-PL e 2-PL para um determinado item ´e atrav´es de um gr´afico denominado de curva caracter´ıstica do item (CCI). Este gr´afico indica a probabilidade da resposta correta ao item em fun¸c˜ao da capacidade do estudante e que ´e representada por uma das equa¸c˜oes 1.10 e 1.14. Se os parˆametros de discrimina¸c˜ao e de dificuldade do item forem conhecidos, podemos representar a CCI percorrendo todos os valores de θ. Usualmente o eixo das abcissas varia entre -4 e 4, porque se assume que θ ´e normalmente distribu´ıdo. Nas Figuras 1.1(a) e 1.1(b) apresentam-se, a t´ıtulo ilustrativo, as CCI de 3 itens cujas carac-ter´ısticas est˜ao definidas nas Tabelas 1.7 e 1.8. Os parˆametros de dificuldade s˜ao os pontos de inflex˜ao das curvas e que correspondem aos valores das abcissas marcados a tracejado na Fi-gura 1.1(a), ou seja, fixando a probabilidade em 50% representamos os valores da capacidade para cada uma das curvas. Na Figura 1.1(a), o item 3 ´e mais dif´ıcil que os restantes pois para se atingir uma percentagem de acerto de 50% a capacidade dos estudantes tem de ser superior quando comparada com os itens 1 e 2. No item 1 um estudante teria de ter uma capacidade de -1,00, no item 2 de 0,00 enquanto que no item 3 ter´a de ser de 1,00. Relativamente `a discri-mina¸c˜ao esta ´e a mesma nos trˆes itens. Valores elevados de θm est˜ao associados a estudantes

com maior capacidade e com o aumento de θm deve existir um aumento correspondente na

propor¸c˜ao de respostas corretas, a discrimina¸c˜ao do item. Na Figura 1.1(b) os trˆes itens tˆem a mesma dificuldade, 1,00. Relativamente `a discrimina¸c˜ao podemos dizer que o item 3 ´e mais discriminativo relativamente aos outros dois itens pois quanto mais ´ıngreme ´e a CCI maior ´e o aumento na propor¸c˜ao de respostas corretas em fun¸c˜ao da capacidade do estudante e melhor ´e o item capaz de discriminar as capacidades dos estudantes.

(33)

(a) ´Indice de discrimina¸c˜ao fixo e igual a 1 (b) ´Indice de dificuldade fixo e igual a 1

Figura 1.1: Curva CCI para 3 itens de um teste

Tabela 1.7: Caracter´ısticas dos itens com ´ındice de discrimina¸c˜ao fixo e igual a 1

item i 1 2 3

bi -1,00 0,00 1,00

b∗i 0,73 0,50 0,27 ai 1,00 1,00 1,00

a∗i 0,71 0,71 0,71

Tabela 1.8: Caracter´ısticas dos itens com ´ındice de dificuldade fixo e igual a 1

item i 1 2 3

bi 1,00 1,00 1,00

b∗i 0,44 0,38 0,32 ai 0,25 0,50 0,75

a∗i 0,24 0,45 0,60

Na pr´atica, as caracter´ısticas dos itens bem como a capacidade dos estudantes s˜ao desconhe-cidas e tˆem de ser estimadas atrav´es de um m´etodo de estima¸c˜ao e portanto as curvas CCI que s˜ao usualmente apresentadas tˆem no eixo dos xx os valores estimados para a capacidade dos estudantes θm e no eixo dos yy a probabilidade estimada de uma resposta correta

consi-derando o n´ıvel de desempenho do estudante.

Um dos pressupostos dos modelos TRI ´e a independˆencia local no sentido que as respostas dadas pelo estudante m (m = 1, · · · , M ), condicionadas pelo seu n´ıvel de capacidade, θm,

s˜ao independentes. ´E tamb´em assumido que as respostas dadas por estudantes diferentes s˜ao independentes.

(34)

tˆem em linha de conta a possibilidade dos estudantes poderem cometer fraude pelo facto de, eventualmente, terem sido expostos a algumas quest˜oes do teste. O modelo que se apresenta de seguida tem em linha de conta este facto.

1.3

Modelo DGM

O modelo DGM (Deterministic, Gated Item Response Theory Model ) ´e um modelo que uti-liza a verdadeira capacidade para caracterizar a competˆencia real, θtm, do estudante m,

m = 1, · · · , M , e a sua capacidade de fraude, θcm, para estimar a efic´acia da fraude.

Este modelo classifica os estudantes como fraudulentos ou n˜ao fraudulentos pelo condiciona-mento em dois conjuntos mutuamente exclusivos de perguntas; o primeiro conjunto inclui os itens que provavelmente est˜ao comprometidos (perguntas repetidas,...) e o segundo conjunto ´e constitu´ıdo pelos itens n˜ao comprometidos, tamb´em designados de itens seguros. ´E a partir da diferen¸ca entre os n´ıveis de conhecimento do estudante nos itens comprometidos e nos itens n˜ao comprometidos que ´e feita a classifica¸c˜ao do estudante. A cada item ´e associada uma vari´avel que indica se o item em causa ´e ou n˜ao comprometido. Estas vari´aveis s˜ao dicot´omicas e dadas por

Gi=



1, quando o item i est´a comprometido

0, caso contr´ario (i = 1, · · · , I). (1.15) Assumindo que se conhece a verdadeira capacidade de um estudante e a sua capacidade de cometer fraude, esse estudante ´e classificado de fraudulento se a sua verdadeira capacidade for inferior `a sua capacidade de cometer fraude. Portanto, a cada estudante m ´e associada a seguinte vari´avel

Tm=



1, quando θtm< θcm

0, caso contr´ario (m = 1, · · · , M ). (1.16) Quando Tm= 1 o estudante m ´e classificado como fraudulento.

Neste modelo existem duas vari´aveis latentes que se podem escrever como o vetor θm =

(θtm, θcm) e portanto escrevemos a probabilidade do estudante m responder corretamente ao

item i da seguinte forma

Pi(θm) = P (ymi= 1|θtm, θcm, bi), (m = 1, · · · , M, i = 1, · · · , I, ). (1.17)

Tanto Gi como Tm s˜ao definidos dicot´omicamente e, portanto, o modelo pode ser definido em

quatro modelos condicionais

P (Ymi= 1|θtm, θcm, Tm, Gi, bi) =            P (ymi= 1|θtm, bi) quando Tm = 0, Gi = 0 P (ymi= 1|θtm, bi) quando Tm = 1, Gi = 0 P (ymi= 1|θcm, bi) quando Tm = 1, Gi = 1 P (ymi= 1|θtm, bi) quando Tm = 0, Gi = 1. (1.18)

Quando o estudante m ´e classificado como n˜ao fraudulento, Tm = 0, as respostas a todos

os itens s˜ao baseadas apenas na sua verdadeira capacidade, θtm e portanto as probabilidades

de acerto n˜ao dependem do parˆametro θcm. No entanto, quando Tm = 1, isto ´e, quando o

estudante ´e fraudulento ´e necess´ario ter em conta se os itens s˜ao expostos ou n˜ao. As respos-tas do estudante aos itens n˜ao expostos (G = 0) s˜ao baseados na sua verdadeira capacidade

(35)

(θtm) enquanto que as respostas aos itens expostos (G = 1) s˜ao baseadas na sua

capaci-dade de cometer fraude (θcm). Portanto a capacidade de cometer fraude apenas influencia a

probabilidade de resposta de estudantes fraudulentos nos itens expostos.

Tabela 1.9: Dados observados para os quatro modelos condicionais.

G=0 G=1

T=0 θt θt

T=1 θt θc

Tendo em conta Gi e Tm, a probabilidade do estudante m responder corretamente ao item i

pode ser definida segundo a equa¸c˜ao:

Pi(θm) =

(

Pi(θcm) quando Tm = 1, Gi = 1

Pi(θtm) caso contr´ario,

(1.19)

onde Pi(θcm) e Pi(θtm) s˜ao probabilidades usando o modelo Rasch definido na equa¸c˜ao 1.14

considerando para o n´ıvel de discrimina¸c˜ao o valor 1, a = 1, ou seja Pi(θtm) = 1 1 + eθtm−bi, (1.20) Pi(θcm) = 1 1 + eθcm−bi. (1.21)

O modelo DGM descrito na equa¸c˜ao 1.19 pode ser escrito atrav´es de uma ´unica equa¸c˜ao com a forma:

Pi(θm) = Pi(θtm)1−Tm× [(1 − Gi) × Pi(θtm) + Gi× Pi(θcm)]Tm. (1.22)

O modelo DGM foca-se essencialmente em detetar estudantes fraudulentos que obtiveram um ganho significativo na classifica¸c˜ao dos itens expostos em rela¸c˜ao aos itens n˜ao expostos e portanto o ganho ´e utilizado como evidˆencia de fraude nos itens expostos. Existem dois casos extremos em que o modelo n˜ao consegue classificar os estudantes como fraudulentos ou n˜ao fraudulentos pois n˜ao consegue fazer o confronto das duas capacidades do estudante. O primeiro caso ocorre quando todos os itens s˜ao classificados como itens expostos onde o modelo apenas estima a capacidade de cometer fraude para cada estudante. O outro caso ocorre quando todos os itens s˜ao seguros e, nesta situa¸c˜ao o modelo DGM apenas estima a verdadeira capacidade.

(36)
(37)

Cap´ıtulo 2

Abordagens de estima¸

ao

Os modelos definidos no cap´ıtulo anterior assumem que entre estudantes as suas respostas s˜ao independentes e, que os modelos s˜ao localmente independentes, isto ´e uma vez conhecidas as capacidades de cada estudante as suas respostas s˜ao independentes. Para um teste com I quest˜oes que ´e realizado por M estudantes, ymi, m = 1, · · · , M e i = 1, · · · , I, ´e uma

experiˆencia de Bernoulli com parˆametro Pi(θm), onde θm representa apenas as capacidades

do estudante m. Quando trabalhamos com os modelos 1-PL ou 2-PL θm = θm, no entanto,

se trabalharmos com o modelo DGM ent˜ao θm ´e um vetor composto pelas duas capacidades

descritas na sec¸c˜ao 1.3 θm = (θtm, θcm). Os parˆametros dos itens s˜ao a = (a1, · · · , aI) e

b = (b1, · · · , bI). Nesta situa¸c˜ao a fun¸c˜ao de probabilidade de ymi´e dada por

f (ymi|θm, a, b) = Pi(θm)ymiQi(θm)1−ymi, (2.1)

onde Qi(θm) = 1 − Pi(θm) e Pi(θm) ´e definido por uma das express˜oes 1.10, 1.14 ou 1.22.

Sob a suposi¸c˜ao de independˆencia local o sucesso de um item ´e estatisticamente independente do sucesso dos outros itens dado θm e assim a distribui¸c˜ao conjunta de todos os itens para o

estudante m pode ser escrita como

f (ym|θm, a, b) = I

Y

i=1

Pi(θm)ymiQi(θm)1−ymi. (2.2)

A express˜ao 2.2 representa a probabilidade do vetor resposta do estudante m, ym,

condicio-nado a um valor conhecido de θm e aos parˆametros dos itens.

Mantendo o pressuposto de independˆencia entre estudantes, a verosimilhan¸ca das respostas dadas pelos estudantes a todos os itens ´e dada por

L = f (Y |θm, a, b) = M

Y

m=1

f (ym|θm, a, b). (2.3)

Tendo em conta que o logaritmo ´e uma fun¸c˜ao crescente, na maioria das vezes, por quest˜oes de simplicidade, trabalha-se com o logaritmo da verosimilhan¸ca. Neste caso o logaritmo da verosimilhan¸ca ´e log L = log f (Y |θm, a, b) = M X m=1 log f (ym|θm, a, b), (2.4)

(38)

onde log f (ym|θm, a, b) = I

X

i=1

[ymilog Pi(θm) + (1 − ymi) log Qi(θm)].

Os parˆametros dos itens designam-se por parˆametros estruturais cujo n´umero ´e fixo tendo em conta o tamanho do teste, e os parˆametros dos estudantes designam-se por parˆametros inci-dentais que dependem do n´umero de estudantes que realiza o teste. Na pr´oxima sec¸c˜ao iremos abordar os diversos m´etodos de estima¸c˜ao para os modelos descritos no cap´ıtulo 1.

2.1

Abordagem cl´

assica

No contexto dos modelos apresentados no cap´ıtulo 1 existem 3 metodologias que podem ser aplicadas dependendo do objetivo do problema em an´alise. Podemos conhecer os parˆametros associados aos itens e estarmos interessados em estimar apenas as capacidades dos estudantes; podemos estar mais interessados nos parˆametros dos itens e partimos do pressuposto que co-nhecemos as capacidades dos estudantes ou podemos estar na situa¸c˜ao, a mais comum, em que desconhecemos quer os parˆametros dos itens quer as capacidades dos estudantes. Em qual-quer das situa¸c˜oes ´e usual aplicar o m´etodo da m´axima verosimilhan¸ca. Os parˆametros que maximizam a verosimilhan¸ca s˜ao os mesmos que maximizam o logaritmo da verosimilhan¸ca pois esta fun¸c˜ao ´e crescente.

Por uma quest˜ao de simplicidade vai ser exposta a estima¸c˜ao cl´assica do modelo TRI 2-PL expresso pela equa¸c˜ao 1.10, uma vez que o modelo 1-PL ´e um caso particular e a estima¸c˜ao do modelo DGM apenas ser´a feita atrav´es da abordagem bayesiana. Assim, o parˆametro θm

nas express˜oes 2.4 e 2.3 ´e univariado θm, com m = 1, · · · , M .

2.1.1 Estima¸c˜ao das capacidades dos estudantes conhecidos os parˆametros dos itens

Assumindo que os parˆametros dos itens ai e bi s˜ao conhecidos, existem M parˆametros para

serem estimados. De acordo com Baker and Kim (2004), para um dado estudante, a estima¸c˜ao da capacidade ser´a a estima¸c˜ao da fun¸c˜ao de verosimilhan¸ca da sua capacidade (desconhecida) tendo por base as suas respostas aos I itens do teste e os valores dos parˆametros desses itens. A probabilidade do vetor de respostas aos itens para um dado estudante ´e dada pela fun¸c˜ao de verosimilhan¸ca referida na express˜ao 2.2 e que pode ser simplificada como

P (Ymi|θm) = I

Y

i=1

Pi(θm)ymiQi(θm)1−ymi, (2.5)

aplicando o logaritmo obtemos

L = log P (Ymi|θm) = I X i=1  ymilog Pi(θm) + (1 − ymi) log Qi(θm)  . (2.6)

Uma vez que os parˆametros dos I itens s˜ao assumidos como conhecidos e s˜ao os ”verdadeiros valores”, apenas as derivadas do logaritmo da fun¸c˜ao de verosimilhan¸ca respeitantes a um determinado estudante tˆem de ser calculadas

(39)

∂L ∂θm = I X i=1 ymi 1 Pmi(θm) ∂Pmi(θm) ∂θm + I X i=1 (1 − ymi) 1 Qmi(θm) ∂Qmi(θm) ∂θm . (2.7)

Tendo em conta que ∂Pmi

∂θm = aiPmi(θm)Qmi(θm) e

∂Qmi(θm)

∂θm = −aiPmi(θm)Qmi(θm) ent˜ao a equa¸c˜ao 2.7 fornece a primeira derivada do logaritmo da fun¸c˜ao da verosimilhan¸ca para θm e

esta ´e ∂L ∂θm = I X i=1 ymi 1 Pmi(θm) (aiPmi(θm)Qmi(θm)) + I X i=1 (1 − ymi) 1 Qmi(θm) (−aiPmi(θm)Qmi(θm)) = I X i=1 ai(ymi− Pmi(θm)). (2.8)

Podemos ent˜ao escrever a equa¸c˜ao de verosimilhan¸ca para cada um dos m estudantes que permitem estimar o parˆametro

θm: I

X

i=1

ai(ymi− Pmi(θm)) = 0. (2.9)

A equa¸c˜ao de m´axima verosimilhan¸ca apresentada em 2.9 n˜ao pode ser resolvida diretamente para obter as estimativas do parˆametro do estudante e tem de ser resolvida atrav´es de pro-cessos iterativos at´e o crit´erio de convergˆencia ser atingido.

O m´etodo de Newton-Raphson poder´a ser utilizado para obter a estimativa do parˆametro da capacidade por via iterativa. Para um dado estudante, a equa¸c˜ao 2.9 pode ser resolvida iterativamente para a estima¸c˜ao da verosimilhan¸ca da capacidade do estudante

[ˆθm]t+1= [ˆθm]t− " ∂2L ∂θ2 m #−1 t " ∂L ∂θm # t , (2.10)

sendo a segunda derivada do logaritmo da fun¸c˜ao da verosimilhan¸ca para θm

∂2L ∂θ2 m = − I X i=1 a2iPmi(θm)Qmi(θm). (2.11)

Quando o procedimento de Newton-Raphson ´e realizado um estimador da capacidade do estudante θm ´e obtido.

Substituindo a equa¸c˜ao 2.11 na equa¸c˜ao 2.10 obtemos [ˆθm]t+1 = [ˆθm]t− " − I X i=1 a2iPmi(θm)Qmi(θm) #−1 t " I X i=1 aiPmi(θm)Qmi(θm) ymi− Pmi(θm) Pmi(θm)Qmi(θm) !# t = [ˆθm]t−       I P i=1 aiPmi(θm)Qmi(θm)  ymi−Pmi(θm) Pmi(θm)Qmi(θm)  − I P i=1 a2iPmi(θm)Qmi(θm)       t , (2.12)

que num determinado estado ser´a resolvida iterativamente para o valor de θm para cada

(40)

2.1.2 Estima¸c˜ao dos parˆametros dos itens conhecidas as capacidades dos estudantes

Assumindo que as capacidades θm dos estudantes s˜ao conhecidas, existem 2I parˆametros

para serem estimados. As respostas dos estudantes a cada item i v˜ao permitir estimar os dois parˆametros associados a esse item. As estimativas de m´axima verosimilhan¸ca para os parˆametros s˜ao os valores dos parˆametros do item que maximizam a express˜ao 2.4 dadas as respostas observadas aos itens. Este valores s˜ao obtidos igualando as primeiras derivadas parciais da fun¸c˜ao de verosimilhan¸ca a 0.

Teremos de resolver I sistemas da forma ∂

∂ai

(log L) = 0, ∂ ∂bi

(log L) = 0. (2.13)

Para obter estas derivadas necessitamos de determinar as derivadas parciais de primeira ordem de log f (ym|θm, a, b), m = 1, · · · , M que s˜ao dadas por

∂ ∂ai (log f (ym|θm, a, b)) = ymi ∂ ∂aiPi(θm) Pi(θm) + (1 − ymi) ∂ ∂aiQi(θm) Qi(θm) , (2.14) ∂ ∂bi (log f (ym|θm, a, b)) = ymi ∂ ∂biPi(θm) Pi(θm) + (1 − ymi) ∂ ∂biQi(θm) Qi(θm) . (2.15)

As express˜oes anteriores necessitam das derivadas parciais das probabilidades Pi(θm) e Qi(θm)

que s˜ao dadas por ∂ ∂ai Pi(θm) = (θm− bi)e−ai(θm−bi) (1 + e−ai(θm−bi))2 = (θm − bi)Pi(θm)Qi(θm), (2.16) ∂ ∂bi Pi(θm) = (−ai)e−ai(θm−bi) (1 + e−ai(θm−bi))2 = −aiPi(θm)Qi(θm), (2.17) ∂ ∂ai Qi(θm) = − ∂ ∂ai Pi(θm) = −(θm− bi)Pi(θm)Qi(θm), (2.18) ∂ ∂bi Qi(θm) = − ∂ ∂ai Pi(θm) = aiPi(θm)Qi(θm). (2.19)

Usando estas derivadas nas express˜oes 2.14 e 2.15 e procedendo a algumas simplifica¸c˜oes obt´em-se as seguintes derivadas parciais para cada um dos I itens.

∂ ∂ai

(log f (ym|θm, a, b)) = [ymi− Pi(θm)](θm− bi), (2.20)

∂ ∂bi

(log f (ym|θm, a, b)) = (−ai)[ymi− Pi(θm)]. (2.21)

A partir daqui podemos escrever as equa¸c˜oes de m´axima verosimilhan¸ca para cada um dos I itens que permitem estimar os parˆametros

ai : M

X

m=1

(41)

bi: (−ai) M

X

m=1

[ymi− Pi(θm)] = 0. (2.23)

As equa¸c˜oes de m´axima verosimilhan¸ca apresentadas em 2.22 e 2.23 n˜ao podem ser resolvidas diretamente para obter as estimativas dos parˆametros dos itens e por esse motivo s˜ao resolvi-das utilizando processos iterativos at´e o crit´erio de convergˆencia ser atingido. Assumindo θm

conhecido, os dois parˆametros para o i-´esimo item s˜ao estimados simultaneamente utilizando as equa¸c˜oes 2.22 e 2.23. Uma vez que a estima¸c˜ao dos parˆametros de um item em particular n˜ao depende dos parˆametros dos restantes itens a estima¸c˜ao ´e realizada para cada um dos itens individualmente.

2.1.3 Todos os parˆametros do modelo desconhecidos

De acordo com Baker and Kim (2004), uma forma de estimar os parˆametros do modelo ´e atrav´es da estima¸c˜ao de m´axima verosimilhan¸ca conjunta, JMLE (Joint Maximum Likelihood Estimator), mas este procedimento produz estimativas para os parˆametros estruturais que n˜ao s˜ao consistentes na presen¸ca de parˆametros incidentais (parˆametros do estudante θm) e a forma

de contornar este problema ´e atrav´es do m´etodo de m´axima verosimilhan¸ca marginal. Para tal assume-se que os estudantes representam uma amostra aleat´oria da popula¸c˜ao na qual a capacidade do estudante ´e distribu´ıda de acordo com uma determinada fun¸c˜ao densidade g(θ|τ

e

), onde τ

e

representa o vetor de parˆametros da distribui¸c˜ao g. O objetivo ´e obter a verosimilhan¸ca marginal dos parˆametros dos itens atrav´es da integra¸c˜ao da fun¸c˜ao densidade de θm, estimar os parˆametros dos itens que maximizam essa verosimilhan¸ca e considerar

que essas estimativas s˜ao as verdadeiras para depois estimar as capacidades dos estudantes. Existem v´arias solu¸c˜oes para aplicar este m´etodo; a primeira solu¸c˜ao foi introduzida por Bock and Lieberman (1970) e as restantes s˜ao reformula¸c˜oes desta solu¸c˜ao para ultrapassar problemas computacionais.

2.1.3.1 A solu¸c˜ao Bock e Lieberman

A solu¸c˜ao proposta corresponde a um modelo ANOVA de efeitos mistos, considerando os itens como um efeito fixo e as capacidades como um efeito aleat´orio. A essˆencia da solu¸c˜ao sugerida por Bock and Lieberman ´e integrar a fun¸c˜ao de densidade da capacidade e por conseguinte remover os parˆametros incomodativos da fun¸c˜ao de verosimilhan¸ca. Em contraste com a solu¸c˜ao JMLE, nesta solu¸c˜ao os parˆametros do item s˜ao estimados atrav´es da distribui¸c˜ao marginal e deste modo est˜ao livres da sua dependˆencia sobre a estima¸c˜ao da capacidade de cada estudante embora n˜ao estejam livres da dependˆencia da fun¸c˜ao de distribui¸c˜ao da capacidade. Isto produz estimativas consistentes dos parˆametros do item para amostras de qualquer tamanho, uma vez que aumentar o tamanho da amostra n˜ao requer a estima¸c˜ao adicional de parˆametros do estudante.

Tendo em conta que θm passou a ser aleat´orio passamos a ter a distribui¸c˜ao conjunta de ym

com θm, f (ym, θm|a, b, τ e ), dada por f (ym, θm|a, b, τ e ) = f (ym|θm, a, b) × g(θ|τ e ), (2.24)

(42)

com f (ym|θm, a, b) definida na express˜ao 2.2.

Para um estudante retirado aleatoriamente da popula¸c˜ao com uma fun¸c˜ao de distribui¸c˜ao continua para a capacidade g(θ|τ

e

), a probabilidade (marginal) n˜ao condicionada do seu vetor resposta ym em rela¸c˜ao aos parˆametros do item e fun¸c˜ao densidade da popula¸c˜ao ´e

f (ym|a, b) =

Z

f (ym|θ, a, b) × g(θ|τ e

)dθ. (2.25)

Embora este m´etodo n˜ao seja considerado bayesiano ´e necess´ario definir a distribui¸c˜ao de θm

condicional ao vetor ym, que atendendo ao teorema de Bayes resulta na express˜ao

f (θm|ym, a, b, τ e ) = f (ym|θ, a, b) × g(θ|τ e ) R f (ym|θ, a, b) × g(θ|τ e )dθ. (2.26)

Assumindo a independˆencia local, f (ym|θm, a, b) representa a probabilidade do vetor de

res-posta ym, condicionada `a capacidade de um estudante e aos parˆametros do item, e g(θ|τ e

) representa a fun¸c˜ao densidade de probabilidade da capacidade dos estudantes. A express˜ao 2.26 distribui os dados de um estudante na escala de capacidade em propor¸c˜ao com a probabi-lidade a posteriori combinada de estarem naquele ponto, dado o seu vetor resposta. Portanto, o n´umero de respostas corretas para cada item em cada valor θm ´e representado por uma

dis-tribui¸c˜ao a posteriori e n˜ao por um valor singular como no caso do JMLE.

De acordo com Bock and Lieberman (1970), a fun¸c˜ao de verosimilhan¸ca marginal ´e

L = M Y m=1 f (ym|a, b). (2.27) O logaritmo de L ´e log L = M X m=1 log f (ym|a, b). (2.28)

Para encontrar as estimativas que maximizam a verosimilhan¸ca marginal necessitamos de derivar log L em ordem a ai e a bi:

∂ ∂ai

(log L) = 0 ; ∂ ∂bi

(log L) = 0. (2.29)

Iniciemos pelo parˆametro ai:

∂ ∂ai (log L) = M X m=1 ∂ ∂ai (log f (ym|a, b)) = M X m=1 [f (ym|a, b)]−1 Z ∂ai [f (ym|θ, a, b)]g(θ|τ e )dθ. (2.30)

(43)

Atendendo a que, basta pensar na derivada da fun¸c˜ao logaritmo, ∂ ∂ai [f (ym|θ, a, b)] = ∂ ∂ai [log f (ym|θ, a, b)]f (ym|θ, a, b), (2.31) obt´em-se ∂ ∂ai (log L) = M X m=1 [f (ym|a, b)]−1 Z ∂ ∂ai [log f (ym|θ, a, b)]f (ym|θ, a, b)g(θ|τ e )dθ = M X m=1 Z ∂ai [log f (ym|θ, a, b)]   f (ym|θ, a, b)g(θ|τ e ) f (ym|a, b)  dθ. (2.32)

O termo entre parˆenteses retos ´e a distribui¸c˜ao de θ|ymque aparece na equa¸c˜ao 2.26 e portanto

∂ ∂ai (log L) = M X m=1 Z ∂ai [log f (ym|θ, a, b)]f (θ|ym, a, b, τ e )dθ. (2.33)

A express˜ao da derivada parcial ∂a

i[log f (ym|θ, a, b)] j´a foi calculada na sec¸c˜ao 2.1.2, em que se considerou conhecidas as capacidades dos estudantes, e ´e dada pela express˜ao 2.20, que substituindo na equa¸c˜ao 2.33 obt´em-se

∂ ∂ai (log L) = M X m=1 Z [ymi− Pi(θ)](θ − bi)f (θ|ym, a, b, τ e )dθ.

O mesmo racioc´ınio pode ser aplicado para obter a derivada parcial do logaritmo da verosi-milhan¸ca marginal em ordem a bi, obtendo-se

∂ ∂bi (log L) = M X m=1 Z −ai[ymi− Pi(θ)]f (θ|ym, a, b, τ e )dθ.

Para encontrar as estimativas de m´axima verosimilhan¸ca dos parˆametros ai e bi tˆem de ser

resolvidas as equa¸c˜oes ∂ ∂ai (log L) = 0 ⇔ M X m=1 Z [ymi− Pi(θ)](θ − bi)f (θ|ym, a, b, τ e )dθ = 0, (2.34) ∂ ∂bi (log L) = 0 ⇔ −ai M X m=1 Z [ymi− Pi(θ)]f (θ|ym, a, b, τ e )dθ = 0 (2.35)

As equa¸c˜oes 2.34 e 2.35 envolvem o c´alculo de integrais que n˜ao conseguem ser calculados analiticamente e tˆem de ser aproximados numericamente. A t´ecnica num´erica chamada qua-dratura de Hermite-Gauss pode ser utilizada para estimar este tipo de integrais. Se g(θ|τ

e

(44)

uma distribui¸c˜ao cont´ınua com momentos finitos esta pode ser aproximada para um determi-nado grau de exatid˜ao por uma distribui¸c˜ao discreta sobre um n´umero finito de pontos, isto ´e atrav´es de um histograma. Com a abordagem da aproxima¸c˜ao da quadratura, o problema de encontrar ´area sob a curva ´e substitu´ıdo pelo problema mais simples de encontrar a soma das ´areas de um n´umero finito de retˆangulos que aproximam a ´area sob a curva. A escala de capacidade θ ´e dividida em q intervalos e o ponto m´edio de cada retˆangulo na escala de capacidade, Xk (k = 1, 2, ...q) ´e chamado de ”n´o”. Cada n´o tem um peso associado A(Xk)

que tem em conta a altura da fun¸c˜ao de densidade g(θ|τ

e

) na vizinhan¸ca de Xk e a largura

dos retˆangulos e que aproxima g(θ|τ

e

) no respetivo intervalo. Os valores de Xk e A(Xk) s˜ao

encontrados resolvendo o conjunto de equa¸c˜oes que envolvem a distribui¸c˜ao continua a ser aproximada e o n´umero especifico de n´os. Uma tabela com os valores de Xk e A(Xk) ´e dada

por Stroud and Secrest (1966). Para aproximar a distribui¸c˜ao que necessitamos, g(θ|τ

e

), os n´os Xk s˜ao multiplicados por

2 e os A(Xk) s˜ao divididos por

π. N˜ao ´e necess´ario que g(θ|τ

e

) tenha uma distribui¸c˜ao normal; em geral podem ser definida empiricamente.

Seja f (ym|Xk, a, b) a forma da quadratura da probabilidade condicional de ymdado θm= Xk

e os parˆametros do item

f (ym|Xk, a, b) = I

Y

i=1

Pi(Xk)ymiQi(Xk)1−ymi. (2.36)

Ent˜ao a quadratura da express˜ao 2.26 ´e dada por f (Xk|ym, a, b, τ e ) = qf (ym|Xk, a, b)A(Xk) X k=1 f (ym|Xk, a, b)A(Xk) , (2.37)

que substituindo nas express˜oes 2.34 e 2.35 resulta em

ai: q X k=1 M X m=1 [ymi− Pi(Xk)](Xk− bi) × f (Xk|ym, a, b, τ e ) = 0, (2.38) bi : (−ai) q X k=1 M X m=1 [ymi− Pi(Xk)] × f (Xk|ym, a, b, τ e ) = 0. (2.39)

As equa¸c˜oes 2.38 e 2.39 representam a quadratura das equa¸c˜oes da verosimilhan¸ca marginal de Bock e Lieberman para o modelo 2-PL. De acordo com a abordagem de Bock and Lieberman (1970), a t´ecnica de Newton-Raphson deve ser utilizada para estimar os 2I parˆametros do item do teste simultaneamente. Tal como no caso do JMLE os valores observados de ymi

na segunda derivada da fun¸c˜ao logaritmo da m´axima verosimilhan¸ca s˜ao substitu´ıdos pelos seus valores esperados. No entanto, o m´etodo n˜ao ´e muito bom computacionalmente porque requer a invers˜ao de uma matriz 2I × 2I. Por esse motivo, o processo de estima¸c˜ao ´e limitado a um n´umero muito pequeno de itens. Adicionalmente, as estimativas dos parˆametros do item n˜ao s˜ao independentes da amostra um vez que o m´etodo requer que a distribui¸c˜ao da capacidade da amostra seja conhecida antecipadamente.

(45)

2.1.3.2 Solu¸c˜ao Bock e Aitkin

Baker and Kim (2004) ainda refere a reformula¸c˜ao das equa¸c˜oes de verosimilhan¸ca de Bock e Lieberman que foi realizada por Bock and Aitkin (1981) e mostra uma solu¸c˜ao que ´e compu-tacionalmente realiz´avel, e sob o pressuposto de que a distribui¸c˜ao da popula¸c˜ao ´e conhecida ou ´e atualmente estimada com as especifica¸c˜oes corretas, obt´em estimativas consistentes para os parˆametros do item. ´E assumido que os itens s˜ao independentes, a capacidade dos estu-dantes e os itens e as capacidades dos estuestu-dantes s˜ao independentes. Consequentemente os parˆametros dos itens podem ser estimados um de cada vez com a capacidade do estudante a ser estimada por estudante.

Se nas equa¸c˜oes 2.38 e 2.39 se aplicar a propriedade associativa da multiplica¸c˜ao e a proprie-dade distributiva relativamente `a soma obt´em-se

ai : q X k=1 (Xk− bi) " M X m=1 ymif (Xk|ym, a, b, τ e ) − Pi(Xk) M X m=1 f (Xk|ym, a, b, τ e ) # = 0, (2.40) bi : (−ai) q X k=1 M X m=1 [ymif (Xk|ym, a, b, τ e ) − Pi(Xk)f (Xk|ym, a, b, τ e )] = 0. (2.41) Colocando a equa¸c˜ao 2.26 na sua quadratura obtemos

f (Xk|ym, a, b, τ e ) = I Q i=1 Pi(Xk)ymiQi(Xk)1−ymiA(Xk) q P k=1 I Q i=1 Pi(Xk)ymiQi(Xk)1−ymiA(Xk) , (2.42)

que ´e a probabilidade a posteriori de um estudante ter um n´ıvel de capacidade Xk, e

Pi(Xk) = 1+eeai(xk−bi)ai(xk−bi). Como Qi(Xk) = 1 − Pi(Xk) ent˜ao podemos definir mike rike mikpode

ser interpretado como o n´umero de estudantes na popula¸c˜ao de tamanho M que se espera ter com o n´ıvel de capacidade Xk e rik pode ser interpretado como o n´umero de estudantes com

n´ıvel de capacidade Xk que se espera que respondam corretamente ao item i:

mik = M X m=1 f (Xk|ym, a, b, τ e ) = M X m=1       f (ym|Xk, a, b)A(Xk) q X k=1 f (ym|Xk, a, b)A(Xk)       = M X m=1        I Q i=1 Pi(Xk)ymiQi(Xk)1−ymiA(Xk) q X k=1 I Y i=1 Pi(Xk)ymiQi(Xk)1−ymiA(Xk)        , (2.43)

Referências

Documentos relacionados

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

Segundo Éric Laurent, a psicose ordinária se caracteriza pela não resposta aos significantes-mestres tradicionais, manifestando o fim do poder do Nome-do-Pai como

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

A versão reduzida do Questionário de Conhecimentos da Diabetes (Sousa, McIntyre, Martins &amp; Silva. 2015), foi desenvolvido com o objectivo de avaliar o

8- Bruno não percebeu (verbo perceber, no Pretérito Perfeito do Indicativo) o que ela queria (verbo querer, no Pretérito Imperfeito do Indicativo) dizer e, por isso, fez

c) Fomos convidados pelo seu filho. e) As famílias analfabetas não os compram. f) Não lhe vai acontecer nada. g) Eu bebê-lo-ei na escola.. a) Eu vou ler “Os Lusíadas”, embora

A Sementinha dormia muito descansada com as suas filhas. Ela aguardava a sua longa viagem pelo mundo. Sempre quisera viajar como um bando de andorinhas. No