• Nenhum resultado encontrado

Modelos Multidimensionais da Teoria de Resposta ao Item

N/A
N/A
Protected

Academic year: 2021

Share "Modelos Multidimensionais da Teoria de Resposta ao Item"

Copied!
12
0
0

Texto

(1)

Modelos Multidimensionais da Teoria de Resposta ao Item

T IAGO F RAGOSO 1

M ARIANA C ÚRI 1

ICMC - Instituto de Ciências Matemáticas e de Computação, USP São Carlos SME - Departamento de Matemática Aplicada e Estatística

Av. Trabalhador São-carlense, 400 - Centro - Caixa Postal: 668 - CEP: 13560-970 - São Carlos - SP

1 (fragoso,mcuri)@icmc.usp.br

Abstract. Item Response Theory (IRT) is a set of models that describe the influence of a latent trait, such as ability or disease severity, on the responses of an individual to a multiple-choice item test. IRT finds its applicability in areas such as Psychology and Education. The most used models assume that only a latent trait influences the responses in a significant way. However, some tests can have multiple traits which may influence the item responses. In this context, extending from unidimensional to multidimensional IRT models may be necessary. In this work, we work with the two-parameter multidimensional logistic model for dichotomical answers [23]. Item parameters are estimated using the Maximum Likelihood (MVM) method and person parameters are estimated via the bayesian expectation a posteriori (EAP) method and joint estimates for both types of parameters are also obtained using Markov Chain Monte Carlo (MCMC) methods. Evaluations of parameter recovery and estimations errors are performed and the methodologies are applied to an application of the Beck Depression Inventory (BDI)

Keywords: Item Response Theory, Statistical Inference, Bayesian Inference, Psychometrics, Educa- tional Measurement.

1 Introdução

A Teoria de Resposta ao Item (TRI) consiste de uma classe de modelos que associam a probabilidade de uma resposta correta de um indivíduo a um item em um teste de múltipla escolha a parâmetros inerentes ao item e a um parâmetro não observado associado a cada indiví- duo, denominado traço latente. Tal modelagem encon- tra aplicações em Psicologia e Educação, entre outras áreas.

Entretanto, uma premissa comum nas aplicações da TRI é a de unidimensionalidade, que implica na ex- istência ou predominância de apenas um traço latente influenciando nas respostas dos indivíduos. Tal pre- missa não é justificada ou desejada em algumas apli- cações práticas, motivando a extensão dos modelos da TRI para modelos que acomodem a múltiplos traços la- tentes, denominados modelos multidimensionais.

No presente trabalho, apresentamos alguns mode- los multidimensionais da TRI: modelos compensatórios de três parâmetros e um modelo logístico não compen- satório na seção 2.

Para os modelos compensatórios, os parâmetros dos

itens são estimados utilizando o método da máxima ve- rossimilhança marginal (MVM) [7] utilizando o algo- rítmo EM como exposto em Bock et. al.[8]. Os parâmet- ros dos indivíduos foram estimados pelo método bayesiano da esperança a posteriori (EAP) como em Lee [20], e uma estimação conjunta de ambos os tipos de parâmetro é feita por métodos do tipo Markov Chain Monte Carlo (MCMC) expostos no contexto da TRI por Patz e Junker [27], métodos todos discutidos em detalhe na seção 3.

Na seção 5 expomos os resultados de dois estudos de simulação que tinham como objetivo verificar a pre- cisão das estimativas dos métodos expostos na seção 3. Primeiramente, a recuperação dos parâmetros para método MVM e MCMC foi comparada, e em seguida, o impacto do aumento de dimensões do vetor de traços latentes sobre o erro quadrático médio e viés das esti- mativas dos parâmetros dos itens foi avaliada.

Encerramos o trabalho na seção 6 onde aplicamos as

metodologias a conjuntos de dados reais: o Inventório

de Depressão de Beck (BDI), aplicado para averiguar

a intensidade de depressão, e a aplicação de 1999 do

Exame Nacional do Ensino Médio (ENEM), que ver-

(2)

ifica o desenvolvimento de competências ao longo da educação básica.

2 Modelos Multidimensionais da TRI

Os modelos multidimensionais da TRI podem ser sepa- rados em duas classes: os compensatórios e os não com- pensatórios. Um modelo é dito compensatório quando a mesma probabilidade de acerto do item pe mantida quando a diminuição do valor de um traço latente é compensada pelo aumento no valor de outro traço la- tente.

Entre os modelos compensatórios para a resposta correta (definida como 1 em uma variável dicotômica X ij ) do j-ésimo individuo, j = 1, · · · , n, ao i-ésimo item de um teste, i = 1, · · · , I, temos o modelo de ogiva normal de três parâmetros [8]

P (X i = 1|a i , b i , c i , θ) = c i (1) +(1 − c i )Φ b i +

p

X

k=1

a ik θ k

!

= Φ i (θ), (2)

onde p é a dimensão do vetor de traços latentes e os três parâmetros em questão consistem do vetor de dis- criminações a i = (a 1i , · · · , a pi ) representando a ca- pacidade de discriminar variações em cada componente do vetor de traços latentes θ j = (θ 1j , · · · , θ pj ), j = 1, · · · , n , a dificuldade do item b i e um parâmetro de acerto casual c i , i = 1, · · · , I .

Os modelos de ogiva normal são amplamente uti- lizados e encontram-se implementados em diversos pro- gramas existentes, como o NOHARM [13], que estima os parâmetros do modelo por uma adaptação do método dos mínimos quadrados e o TESTFACT [39], larga- mente utilizados nas aplicações da TRI.

McKinley e Reckase [23] propõem o modelo logís- tico de três parâmetros com expressão dada por

P (X i = 1|θ, a i , b i , c i ) = c i + (3)

(1 − c i ) 1

1 + exp [− P p

k=1 a ki θ k + b i ] = P i (θ), (4) em que i = 1, . . . , I, a i , b i e c i são definidos como em (1) e P i (θ) é definido para simplificar a notação, de- pendendo dos parâmetros dos itens (vetor de discrimi- nações, dificuldade e acerto casual) e dos traços latentes dos indivíduos. Note que este modelo é muito parecido com o modelo (1) substituindo a função de distribuição de probabilidades da distribuição normal pela função logística

Assim como nos modelos unidimensionais temos uma curva relacionando a probabilidade de acerto de cada item com a habilidade do indivíduo. Nos modelos multidimensionais da TRI temos uma superfície para cada relacionando a probabilidade de acerto ao item e habilidades. Para fins de ilustração, tomemos o caso bidimensional com a 1 = 1, a 2 = 0.7, b = 1, 0 e c = 0.

A superfície de resposta do modelo (3) encontra-se rep- resentada na Figura 1.

Figura 1: Superfície característica para um item (SCI) sob o modelo logístico (3) com dois traços latentes (θ

1

e θ

2

) e a

1

= 1, a

2

= 0.7, b = 1, 0 e c = 0

Note que o parâmetro de acerto casual é a assíntota inferior da superfície, enquanto os parâmetros de dis- criminação representados no vetor a i são responsáveis pela sua inclinação em cada eixo dos traços latentes, cada elemento do vetor indica a sensibilidade do item para avaliar cada traço latente.

Para medir o poder discriminativo do i-ésimo item para a combinação de todos os traços latentes, usa-se a estatística

M DISC i = v u u t

p

X

k=1

a 2 ki , (5)

ou seja, a norma do vetor de discriminações. Essa estatística mede a intensidade da transição da região de baixa probabilidade de acerto ao item para a região de alta probabilidade na SCI.

Nos modelos unidimensionais, o parâmetro de di-

ficuldade do item é medido na mesma escala do traço

latente e significa o ponto de inflexão da curva carac-

terística do item, ou seja, o ponto onde obtemos uma

(3)

probabilidade de acerto de 1+c 2

i

. Nos modelos multidi- mensionais, b i não pode ser interpretado dessa forma.

Reckase [29] propõe uma estatística análoga à existente no caso unidimensional para medir a distancia de origem até o ponto de maior inclinação da superfície (SCI), dada por

M DIF F i = −b i

M DISC i

. (6)

Sheu et. al. [31] implementam a estimação dos parâmetros do modelo logístico no SAS utilizando o proc NLMIXED, e programas comerciais como o MAXLOG [24], o MULTIDIM [22] e o MIRTE [11] realizam a es- timação dos parâmetros dos itens.

Assim como no caso unidimensional, os modelos a três parâmetros podem ser simplificados para dois ou um parâmetro igualando-se c i a 0 para i = 1, . . . , I ou c i = 0 e a ik = 1 para i = 1, . . . , I e k = 1, . . . , p respectivamente. Mais detalhes são discutidos em [23].

O modelo logístico não compensatório de três parâmet- ros proposto por Whitely [38] e Sympson [34] é dado por

P(X ij = 1|θ, a i , b i , c i ) = c i + (7) (1 − c i )

p

Y

k=1

1

1 + exp (−Da ki θ jk + b ik ) , (8) em que a i , c i e θ são definidos como em (3) e b i = (b i1 , ..., b pi ) representa a dificuldade do item em questão associada a cada traço latente.

Diversos outros modelos compensatórios foram pro- postos [30], entretanto tais modelos não são frequente- mente utilizados por serem analiticamente complicados, tornando a implementação de métodos de estimação dos parâmetros extremamente dificil. Com o aumento do poder computacional e novos métodos de estimação, os modelos não-compensatórios podem vir a obter alguma popularidade nas aplicações da TRI [10].

Todos os modelos aqui descritos são adequados para itens dicotômicos. Propostas para itens politômicos tam- bém são encontradas na literatura [1] [3] [19].

3 Estimação dos Parâmetros

Os modelos da TRI envolvem um grande número de parâmetros a serem estimados, tanto referentrees a itens (denominados parâmetros estruturais), quanto referentes aos traços latentes dos indivíduos (parâmetros inciden- tais). Claramente, o número de parâmetros referentes aos traços latentes aumenta com o tamanho da amostra,

caracterizando o problema descrito em Neyman e Scott [25].

Bock e Aitkin [7] sinalizam que esse fato gera es- timadores de MV que não necessariamente apresentam as propriedades assintóticas como ausência de viés, con- sistência e eficiência mesmo em modelos mais simples como os modelos unidimensionais da TRI [4].

Como consequência, métodos que marginalizam a função de verossimilhança com respeito aos parâmetros incidentais ou métodos bayesianos são mais utilizados na TRI.

Detalharemos o processo de estimação dos parâmet- ros do modelo (3) supondo c i = 0, i = 1, . . . , I. Para os parâmetros dos itens, serão descritos os métodos de máxima verossimilhança marginal (MVM) proposto por Bock et. al. [8] e bayesiano por moda a posteriori (MAP).

Os traços latentes serão estimados supondo os parâmet- ros dos itens conhecidos através dos um métodos bayesiano de esperança a posteriori (EAP) e Máxima Verossimi- lhança.

Adicionalmente, o método monte carlo via cadeias de Markov (MCMC) será adotado para a estimação con- junta dos parâmetros dos itens e traços latentes, como proposto por Patz e Junker [27] no contexto da TRI.

3.1 Identificabilidade dos Modelos

Assim como os modelos unidimensionais, os modelos multidimensionais da TRI não são identificáveis. Nos modelos unidimensionais, tomando α, β ∈ R , α 6= 0, i ∈ 1, · · · , I

θ = αθ + β (9)

a i = a i α b i = b i − a i β α

criava um problema de identificabilidade. A trans- formação (9) foi obtida modificando-se a transformação exposta em Andrade et. al. [2] para a probabilidade de resposta correta ao item obtida fixando-se p = 1 nos modelos do capítulo ??.

Para os parâmetros de habilidade, discriminação e

dificuldade, respectivamente, geram a mesma probabil-

idade de acerto ao item i. Analogamente, no modelo

multidimensional tomando uma matriz inversivel Λ de

dimensão (pxp) e um vetor β e considerando que a

combinação linear entre traços latentes e discriminações

dos modelos (1) e (3) podem ser escritas como a t θ, t in-

dicando a transposta do vetor, temos analogamente das

transformações feitas em (9)

(4)

θ = Λθ + β (10) a i = a t i Λ −1

b i = b i − a t i Λ −1 β.

Podemos observar que a i θ + b i = a i θ + b i for- necendo assim as mesmas probabilidades de acerto.

Para resolver esse problema, programas que real- izam a estimação por Máxima Verossimilhança Marginal como o TESTFACT assumem que os traços latentes seguem uma distribuição normal p-variada, com vetor de médias nulo e matriz de variância-covariâncias idên- tica à matriz identidade de ordem p.

Não é difícil observar que tal premissa resolve o problema de identificabilidade no processo de estimação, tendo em vista que uma transformação linear Λ nos traços latentes mudariam a estrutura da matriz de covar- iâncias enquanto uma translação na direção de um vetor não-nulo β alteraria a média da variável transformada.

Reforçando essa premissa, portanto, garantem-se esti- mativas únicas dos parâmetros dos itens.

Contudo, a identificabilidade obtida por essa pre- missa adicional não vem sem um custo. Como desta- cado por Reckase [21], tais premissas podem aumentar a variância e covariância das estimativas dos parâmetros de discriminação, resultando em erros maiores.

3.2 Método da Máxima Verossimilhança Marginal Denotando por j = 1, . . . , n os indivíduos que respon- dem aos itens i = 1, . . . , I, θ j , o vetor dos traços la- tentes do j-ésimo indivíduo, x ij = 0 ou 1, a resposta do j-ésimo indivíduo ao i-ésimo item, x j = (x 1j , . . . , x Ij ) e P i (θ) como definido em (3) para c i = 0, i = 1, · · · , I, podemos escrever a função de verossimilhança como

L j (θ) = P (X j = x j |θ j , a i , b i ) =

I

Y

i=1

[P i (θ j )] x

ij

[1 − P i (θ j )] 1−x

ij

.

Considerando, g(·) a densidade de probabilidade da normal p-variada padrão suposta para θ j , a função de verossimilhança é

P (X j = x j |a i , b i ) = (11) Z

R

p

I

Y

i=1

[P i (θ)] x

ij

[1 − P i (θ)] 1−x

ij

g(θ)dθ = Z

θ

L j (θ)g(θ)dθ = ˜ P j .

Calcularemos a integral utilizando o método de quadra- tura gaussiana, no qual utilizamos a seguinte aproxi- mação

P ˜ l =

Q

X

q

p

=1

. . .

Q

X

q

1

=1

L l (K)A(K q

1

) . . . A(K q

p

) (12)

de modo que temos Q pontos de quadratura K = (K 1k , · · · , K Qk ) em cada dimensão de traços latentes k = 1, · · · , p, cada um com um peso A(·). Essa aprox- imação consiste de um agrupamento das amostras em torno de certos níveis de traços latentes, o que nos in- duz a escrever a função verossimilhança por uma dis- tribuição multinomial, reduzindo o tempo de processa- mento computacional.

Seja r l a frequência do padrão de resposta x l , para cada um dos s ≤ min

2 I , n padrões de resposta pos- síveis. Temos que a função verossimilhança pode ser escrita como:

L = n!

r 1 ! . . . r s !

P ˜ 1 r

1

. . . P ˜ s r

s

. (13) Definindo

R ¯ l =

s

X

l=1

r l x li L l (θ) P ˜ l

(14) e

¯ n =

s

X

l=1

r l L l (θ)

P ˜ l , (15)

temos que a derivada da log-verossimilhança pode ser re-escrita para um parâmetro de item v i (como a dis- criminação ou dificuldade) como

∂ log(L)

∂v i = Z

θ

R ¯ l − ¯ nP i (θ)

P i (θ)[1 − P i (θ)] . ∂P i (θ)

∂v i g(θ)dθ, (16) ou utilizando-se aproximação para quadratura gaussiana,

∂ log(L)

∂v i ≈ (17)

Q

X

q

p

=1

. . .

Q

X

q

1

=1

R ¯ i,q

1

...q

p

− n ¯ q

1

...q

p

P i (K) P i (K)[1 − P i (K)] .

.

∂P i (K)

∂v i A(K q

1

) . . . A(K q

p

)

.

As equações definidas em (14) e (15) representam

a frequência esperada de acertos do item i e o número

esperado de indivíduos com niveis dos traços latentes

(5)

iguais a K caracterizando o passo E do algorítmo EM usado na obtenção das estimativas. O passo M é apre- sentado na equação (16) ou na sua aproximação (17), que é maximizada utilizando um método de aceleração do algoritmo EM [37] implementado em R no pacote BB [36].

3.3 Estimação dos Traços Latentes

Supondo conhecidos os parâmetros dos itens, a esti- mação do vetor de traços latentes pode ser feita resol- vendo as equações de verossililhança para k = 1, · · · , p

∂l (θ s |a, b, X)

∂θ k

= 0

l (θ s |a, b, X) é a função log-verossimilhança do s−ésimo padrão de resposta observado, s = 1, · · · , S condicionada à matriz de respostas observadas X e aos parâmetros dos itens a = (a 1 , · · · , a I ) e b = (b 1 , · · · , b I ) obtida tomando-se o logarítmo da função de verossimi- lhança (11).

Porém, a estimação dos traços latentes por máxima verossimilhança envolve a resolução de pS equações não lineares, ou a maximização de S funções de verossim- ilhança, o que pode ser extremamente custoso.

Uma alternativa é a estimação bayesiana pela por esperança a posteriori (EAP) utilizada por exemplo na macro feita para o SAS por Lee [20]. Aproveitando os nós de quadratura da estimação por máxima verossimil- hança marginal e a premissa de normalidade multivari- ada do vetor de traços latentes, estima-se a k−ésima

componente do vetor de traços latentes, θ = (θ 1 , · · · , θ k , · · · , θ p ) pelo valor esperado da distribuição a posteriori do vetor

de traços latentes θ ˆ ks =

R

R

p

θ k L s (θ)g(θ)dθ P e s

, (18)

dado que P e s é a probabilidade marginal do s−ésimo padrão de resposta definida em (12) ou em sua aproxi- mação por quadratura de Gauss-Hermite

θ ks ≈ P

m∈K K mk L s (K m )A(K m ) P e s

, (19)

para a qual usamos as aproximações definidas em (12) para o conjunto dos pontos de quadratura p− dimen- sionais K.

A estimação por EAP tem a vantagem de envolver apenas o cálculo de somas para aproximar as integrais ao invés dos sistemas não-lineares e otimizações do mé- todo de máxima verossimilhança e a garantia de atender

sempre ao principio da verossimilhança por se tratar de um procedimento bayesiano.

Contudo, em ambas as estimações, escores perfeitos (i.e. padrões de resposta consistindo apenas de acer- tos) ou nulos (apenas erros) devem ser retirados do pro- cesso de estimação, tendo em vista que as estimativas dos traços latentes associados a tais padrões de resposta tendem a +∞ ou −∞ respectivamente.

3.4 Estimação Conjunta por MCMC

No método da Máxima Verossimilhança Marginal supo- mos uma distribuição de probabilidade para o vetor de traços latentes θ, g(θ), como uma premissa razoável e necessária para garantir boas propriedades dos esti- madores dos parâmetros associados aos itens e para tornar a metodologia de estimação aplicável na prática. Em uma abordagem bayesiana, assumimos uma distribuição de probabilidade a priori para todos os parâmetros do modelo, assim obtendo do Teorema de Bayes a chamada distribuição de probabilidade a posteriori.

π(a, b, θ|X , η, τ ) ∝ L(a, b, c, θ|X)π(a, b, θ|η, τ ), (20) de maneira que a = (a 1 , · · · , a I ) são os vetores de discriminação a i = (a 1 , · · · , a p ) de cada traço latente para cada item i = 1, · · · , I, b = (b 1 , · · · , b I ) é o vetor de dificuldades para cada item da prova, θ = (θ 1 , · · · , θ n ) são os vetores de traços latentes θ j = (θ 1 , · · · , θ p ) associados a cada j = 1, · · · , n indiví- duo da população avaliada e X é a matriz de respostas dos N indivíduos aos I itens com função de verossim- ilhança L(.) como definida em 11, π(.) a distribuição de probabilidade a priori assumida para os parâmetros e dependente dos hiperparâmetros τ para os traços la- tentes e η para os parâmetros dos itens.

No método MCMC, construimos uma cadeia de Markov de maneira que cada estado é representado por um pos- sível valor dos parâmetros a serem estimados e proba- bilidades de transição que convenientemente convergem à uma distribuição de probabilidade estacionária idên- tica à distribuição a posteriori (20).

Dessa maneira, obtemos amostras das distribuilçoes marginais dos parâmetros do modelo, com as quais pode- mos obter intervalos de confiança e estimativas pontu- ais utilizando estatísticas-resumo desses valores, como a média, moda, ou mediana amostrais. No presente tra- balho, utilizamos aplicações do algorítmo de Metropolis- Hastings para obter amostras das distribuições marginais de cada parâmetro a ser utilizada em um Amostrador de Gibbs. Detalhes sobre os algoritmos e sua implemen- tação podem ser encontrados em Patz e Junker [27].

Para obter estimativas dos parâmetros dos modelos

(6)

(3) e (7), implementamos ambos os modelos no pro- grama WinBUGS [35], com os quais obtemos amostras que foram analisadas com ferramentas do pacote coda do R. A qualidade das estimativas foi verificada utilizando- se os critérios de Raftery-Lewis [28] e Geweke [16].

4 Adequação do Modelo

Diversas modificações da estatística qui-quadrado são utilizadas para verificar o ajuste do modelo aos dados e sua dimensionalidade. Bock et. al. [8] utilizam a estatística

G 2 = 2

S

X

l=1

r l log r l

N P e l

, (21)

soma essa efetuada sobre os S padrões de resposta ob- servados utilizando o número de cada padrão de re- sposta r l e a probabilidade marginal P e l de ocorrência do l−ésimo padrão de resposta.

Tal estatística tem distribuição qui-quadrado com 2 Q − Q(p+ 1) + p(p−1) 2 graus de liberdade e testa o ajuste do modelo contra a hipótese nula de que um modelo multi- nomial com probabilidades iguais para todos os itens ajusta melhor os dados.

Contudo, como destacado em Bock et. al. [8] o cál- culo dessa estatística requer um número de individuos maior que os 2 Q padrões de resposta possíveis para val- ores confiáveis.

O TESTFACT utiliza uma aproximação dessa es- tatística, fazendo

G 2 T F =

S

X

l=1

r l log r l

N P e l

, (22)

que também segue uma distribuição qui-quadrado com S − 1 − Q(p + 1) + p(p−1) 2 graus de liberdade e tem como hipótese nula também o modelo multinomial.

Bock e Schiling [9] utilizam a estatística (21) para testar a dimensionalidade do modelo. Fazendo a difer- ença entre as estatísticas G 2 1,2 para dois modelos 1 e 2 com p e p + 1 dimensões do vetor de traços latentes respectivamente,

X 2 = G 2 1 − G 2 2 ∼ χ 2 (Q−p) , (23) obtém-se uma estatistica para testar a hipótese de que um modelo com p traços latentes ajusta bem os dados, contra a alternativa de que p + 1 traços latentes são necessários. Bock e Schiling [9] sugerem que ajustes sucessivos sejam realizados aumentando-se a dimensão até que a hipótese nula seja aceita.

Cohen et. al. [17] discutem outras estatísticas para a determinação da dimensionalidade do modelo, como o Akaike Information Criterion(AIC)

AIC M odelo = −2ˆ l + 2n, (24)

de modo que b l é a função log-verossimilhança da amostra no ponto de máximo e n é o número de parâmet- ros do modelo, e o Bayesian Information Criterion(BIC) definido por

BIC M odelo = −2ˆ l + n log(N), (25) sendo N o número de individuos na amostra. Em am- bos os critérios, o modelo com o menor índice é sele- cionado como mais adequado.

Contudo, tanto o AIC,o BIC ou o G 2 dependem de valores para a função de verossimilhança da amostra obtidos na convergência do algorítimo EM, o que nem sempre ocorre tendo em vista que frequentemente inter- rompe-se o processo iterativo quando observam-se mu- danças pequenas o suficiente nos valores dos parâmet- ros, o que não necessariamente implica em mudanças insignificantes no valor da função verossimilhança.

Cohen et. al. [17] também ressaltam que os val- ores de AIC e BIC nem sempre selecionam o mesmo modelo, sendo o BIC mais inclinado a escolher mode- los com menos parâmetros, mesmo erroneamente.

Béguin e Glas [6] avaliam a performance dos mode- los ajustados pelo MVM utilizando a frequência esper- ada de um escore r = 0, · · · , I dada pela equação

f (r) = N X

x

s

|r

Z

R

p

L s (θ)g(θ)dθ, (26) x s |r é o conjunto dos padrôes de resposta que resul- tam em um escore r e L s é definida como em (11).

Ajustando o modelo por métodos bayesianos como os discutidos anteriormente, temos também maneira de verificar o ajuste dos modelos empregados na sua ca- pacidade de prever caracteristicas do conjunto de dados e obter índices que permitam escolher modelos.

Checagens preditivas da posteriori [14] permitem generalizar o contexto de p-valor para dados ajustados segundo métodos bayesianos. Escolhendo uma estatís- tica de teste T(X ) simulam-se R replicações do con- junto de dados X r utilizando-se as R amostras obti- das pelo método MCMC e calcula-se um sumário da estatística de teste, quantis e o p-valor bayesiano pela aproximação

p − valor ≈ 1 R

R

X

r=1

I(T (X r ≥ T (X))). (27)

(7)

I(.) é a função indicadora, tendo como valor 1 se a condição explicitada em seu argumento ocorre ou 0 caso contrário. O p-valor indica irregularidades com a propriedade avaliada do modelo quando apresenta val- ores extremos, próximos de 0 ou 1.

Béguin e Glas [6] por exemplo utiliza checagens preditivas da distribuição de escores preditos pelo mod- elo para verificar o ajuste geral do modelo aos dados, e calcula o p-valor utilizando como estatística de teste

T (X r ) =

Q

X

k=0

(N k (r) − f (r) (k)) 2

f (r) (k) , (28) de maneira que N k (r) é a frequencia observada do es- core k = 0, · · · , Q na repetição r = 1, · · · , R e f (r) (k) é a frequencia esperada calculada em (26) utilizando- se os parâmetros amostrados na r− ésima iteração do amostrador utilizado.

Um índice que pode ser utilizado na escolha dos modelos utilizando as amostras obtidas por MCMC é o DIC [14], calculado por

DIC = D + p(θ, ζ), (29) de maneira que D é a esperança da deviance, calculada para cada amostra por D ∝ −2 log(L(X r )|θ (r) , ζ (r) ), r = 1, · · · , R e p(θ, ζ) é uma penalidade pelo número de parâmetros, definida por p(θ, ζ) = D − D, b D b sendo a deviance calculada utilizando a esperança dos parâmet- ros do modelo.

Analogamente ao BIC e ao AIC expostos anterior- mente, o modelo com o menor DIC é escolhido como o modelo que melhor se ajusta ao conjunto de dados.

A vantagem do DIC com relação aos outros critérios expostos é que o DIC não depende dos valores dos es- timadores de máxima verossimilhança e as esperanças são bem aproximadas pelas médias amostrais dos val- ores obtidos no método MCMC.

5 Simulação

Simulamos uma amostra de n = 1000 valores da dis- tribuição normal bivariada, com vetor de médias nulo e matriz de variâncias igual à identidade. Valores para os parâmetros de I = 10 itens foram fixados conforme na Tabela ?? (coluna ’Real’), de maneira a obter 10 pon- tos igualmente espaçados para valores do parâmetro de dificuldade entre −3 e 3 e parâmetros de discriminação entre 0.5 e 2.5, contemplando itens muito ou pouco dis- criminativos em ambas as dimensões e em dificuldades tanto altas quanto baixas.

Utilizamos o modelo logístico mulditimensional de dois parâmetros ((3) com c i = 0, i = 1, · · · , 10) e p = 2 para gerar as respostas dicotômicas (X ij ).

Figura 2: Valores absolutos da diferença entre os valores reais e os ajustados pelos métodos MVM e MCMC, os pontos representam os parâmetros de discriminação, enquanto os triângulos representam os parâmetros de dificuldade

Os parâmetros do modelo foram estimados utilizando o método de MVM implementado em R assumindo o modelo logístico (3), o programa TESTFACT assumindo o modelo de ogiva normal (1) utilizando o MVM ex- posto em Bock et. al. [8] e o método MCMC imple- mentado no WinBUGS com o modelo logístico, assu- mindo as distribuições a priori para os parâmetros de acordo com o sugerido por Patz e Junker [27]

a ik ∼ log − normal(1, 0.5) (30) b i ∼ N (0, 1)

θ j ∼ N p (0, I p ),

para i = 1, · · · , 10, k = 1, · · · , 2 e j = 1, · · · , 1000.

A notação N(.) denota a distribuição normal p−variada, I p denota a matriz identidade de ordem p e 0 denota o vetor com p componentes nulas.

As estimativas obtidas para os parâmetros dos itens encontram-se representadas graficamente na figura 2.

Pode-se observar uma boa recuperação dos parâmet- ros em ambos os métodos, sem nenhuma distinção em particular entre os dois.

Para a estimação por MCMC, simulamos duas cadeias de tamanho 300.000 e o método de diagnóstico de Raftery- Lewis [28] para definir os períodos de burn-in e inter- valo entre iterações da cadeia.

Escolhemos descartar as primeiras 3.000 iterações,

seguindo a tendência na literatura de descartar 1% das

iterações, bem acima dos 500 indicados por Raftery-

Lewis. O salto sugerindo pelo critério foi de 40 a 50 it-

erações para a maioria dos parâmetros. Escolhemos 50

(8)

como o salto visando minimizar a autocorrelação e ob- tendo amostras de tamanho efetivo entre 4.000 e 6.000, para os parâmetros de discriminação e entre 4 e 10 mil, para os parâmetros de dificuldade.

Verificamos a convergência da cadeia utilizando os métodos de diagnóstico de Geweke [16], que retornou convergência a 95% de confiança para todos os parâ- metros menos um, e o critério de Gelman-Rubin [15]

com um valor próximo de 1 para todos os parâmetros, indicando convergência da cadeia.

Observamos que ambos os métodos apresentam uma boa recuperação dos parâmetros do modelo, tendo pre- cisões comparáveis em termos dos erros padrão e das diferenças absolutas com relação aos parâmetros reais, sendo então recomendável a estimação por MVM para o modelo em questão, tendo em vista a diferença em tempos computacionais (menos de 2 minutos para o MVM e algumas horas para o método MCMC).

6 Aplicações a Dados Reais

O BDI consiste de 21 questões abrangendo diversos aspectos da vida do indivíduo possivelmente afetados pela presença de depressão, as quais são respondidas em função de uma escala de intensidade de 0 (Baixa intensidade) a 3 (Alta intensidade) referente ao quanto a depressão afeta o invididuo na atividade em questão.

Os dados foram dicotomizados adotando-se um valor de 0 (fracasso) para respostas iguais a 0 ou faltantes e 1 (sucesso) para respostas de valor 1,2 ou 3.

Para selecionarmos o modelo que melhor se ajusta aos dados observados, ajustamos os dados ao modelo logístico unidimensional de dois parâmetros (UL2P) obtido de (3) tomando-se a ik = 0 para k ≥ 2 e c i = 0, i = 1, · · · , Q, ao modelo logístico multidimensional compensatório de dois parâmetros (ML2P) (3) obtido da mesma maneira, e ao modelo logístico multidimen- sional não-compensatório de dois parâmetros (MN2P) (7).

Os modelos compensatórios foram ajustados tanto utilizando o método da Máxima Verossilimilhança Mar- ginal e o método MCMC, enquanto o modelo não com- pensatório, devido a sua complexidade foi ajustado ape- nas utilizando-se o método MCMC. Foram utilizadas para todos os modelos as distribuições a priori especi- ficadas em 31.

Cada um dos métodos nos oferece um critério para a seleção de modelos, todos detalhadamente expostos na Seção 4, tais índices foram calculados e encontram-se na Tabela 1.

O p-valor obtido da diferença entre as estatísticas qui-quadrado e utilizado por Bock et al.[8] foi de aprox- imadamente 0, indicando significância na adição de uma

UL2P ML2P MN2P

DIC 24.645 24.023 41.610 AIC 25.851 25.599

BIC 26.167 26.125 χ 2 10.690 10.354

gl 960 940

Tabela 1: Valores das estatísticas de seleção de modelos para diver- sos modelos utilizados no ajuste dos dados do BDI, gl se refere aos graus de liberdade da estatística qui-quadrado para o modelo.

dimensão no vetor de traços latentes. Os índices basea- dos nos valores dos estimadores de máxima verossim- ilhança (BIC, AIC) também indicam, apesar de fraca- mente, o modelo de duas dimensões como o melhor modelo. Tal indicação, apesar de fraca evidência numérica é algo a ser levado em conta, pois o BIC e o AIC tendem a escolher mesmo erroneamente modelos com menos parâmetros quando aplicados a modelos de muitos parâmet- ros, como no caso dos modelos da TRI [17].

O DIC, apesar de próximo também aponta uma con- siderável diferença entre os modelos UL2P e ML2P, e uma diferença óbvia entre os modelos compensatórios e o não-compensatório, concordando com os outros índices na escolha do modelo logístico bidimensional e com outras metodologias que também analisam a dimension- alidade do BDI [33],[12].

Foi utilizada uma aplicação do algoritmo EM com quadratura gaussiana com convergência acelerada pelo método exposto em 5 e implementado no pacote BB do R [36] com 150 iterações do algoritmo EM, ao fim das quais foi observada mudança de menos de 10 −2 nos parâmetros.

Estimativas também foram obtidas pela média das amostras obtidas pelo amostrador de Gibbs implemen- tado no WinBUGS. Foram utilizadas 105.000 iterações, tomando um burn-in de 5.000 e intervalos de 50 iter- ações entre os valores utilizados para minimizar a au- tocorrelação, obtendo uma amostra de tamanho efetivo próximo de 2.000.

A convergência da cadeia após o período de burn-in foi verificada pelo critério de Geweke exposto na Seção 4, onde observamos valores para todos os parâmetros dentro do intervalo entre −1.96 e 1.96, indicando con- vergência da cadeia a 95% de confiança.

Uma maneira de observar graficamente as estima-

tivas dos parâmetros dos itens é utilizando um gráfico

proposto por Reckase [29], nele, os itens são repre-

sentados por vetores no R p , com sua orientação dada

pelo ângulo com relação a cada eixo representando um

traço latente. O ângulo do vetor referente ao i−ésimo

item , i = 1, · · · , Q relativo ao k−ésimo traço latente,

(9)

Figura 3: Gráfico de vetores para os itens do BDI

k = 1, · · · , p , é dado pela equação α ik = arccos

a ik

M DISC i

, (31)

com M DISC i definido como em (5), que é mostrada no gráfico como a norma do vetor. A posição da base do vetor é o ponto de coordenadas iguais a dificuldade M DIF F i como calculada em (6).

Dessa maneira, podemos observar a capacidade de cada item em discriminar cada traço latente pela direção do vetor, sua capacidade de discriminação no geral e a dificuldade pela disposição espacial dos vetores no grá- fico. O gráfico referente aos 21 itens do BDI encontram- se na Figura 3.

Observa-se no gráfico que os itens discriminam am- bas as dimensões, e tem via de regra um razoável poder de discriminação. As dificuldades concentram-se em valores positivos, consistente com o intuito do ques- tionário de avaliar valores de depressão acima da mé- dia.

Os traços latentes foram estimados por esperança a posteriori utilizando a aproximação (19) para os valores obtidos por MVM e a média amostral dos valores obti- dos por MCMC. Quando utilizamos o MVM, escores perfeitos (i.e. indivíduos com apenas acertos) ou nulos (apenas erros) não tem estimativas bem definidas para o vetor de traços latentes, que tendem a ∞ ou −∞, re- spectivamente. Para tais individuos, fixamos traços la- tentes no valor de 4 ou −4.

Calculamos a média, a variância e a correlação en- tre as estimativas obtidas por ambos os métodos. Os resultados encontram-se na Tabela 2.

Tabela 2: Média, Variância e Correlações das estimativas obtidas por EAP para o vetor de traços latentes utilizando ambos os métodos

MVM MCMC

θ 1 θ 2 θ 1 θ 2

µ -0,08 0,00 -0,01 -0,01 σ 1,18 1,11 0,62 0,71

σ 12 0,49 0,25

Figura 4: Histogramas das componentes de θ b para estimativas por EAP obtidas de ambos os métodos

A fim de verificarmos a premissa de normalidade em cada componente do vetor de traços latentes, ob- servamos um histograma das estimativas para ambos os métodos na Figura 4.

Pode-se observar que a frequência das estimativas lembra fortemente o formato da curva normal, exceto na distribuição das estimativas de θ 2 por MCMC. Note- se também a frequencia de estimativas iguais a −4 nas estimativas de MVM, resultantes de individuos com es- cores nulos.

Também verificamos a normalidade fazendo um Q- Q plot e comparando com os quantis teóricos da dis- tribuição normal, como podemos observar na Figura 5.

Todas as estimativas parecem estar próximas da dis- tribuição normal em seu centro, mas se afastarem na direção das caudas.

A adequação do modelo aos dados foi verificado como em Béguin e Glas [6] pelos escores esperados pelo modelo, como visto na Figura 6.

Quando utilizamos os métodos MCMC, podemos

realizar checagens preditivias da posteriori, simulando

um conjunto de dados para cada amostra obtida e cal-

culando a frequencia de cada escore. Com tais frequen-

(10)

Figura 5: Normal Q-Q Plots das componentes de b θ para estimativas por EAP obtidas de ambos os métodos

Figura 6: Escores esperados pelo M2LP (linha pontilhada) e obser- vados (pontos) para os dados do BDI

Figura 7: Escores esperados obtidos pelo método MCMC (linha cheia) e intervalo de 95% de confiança

cias, podemos verificar a frequencia esperada de cada escore para o modelo e calcular intervalos de confiança para a distribuição dos escores. Tais checagens foram realizadas e o resultado pode ser visto na Figura 7.

Pode-se observar que o modelo adotado prevê ra- zoavelmente os escores observados. Utilizando ainda os escores esperados (26), utilizamos a estatistica de teste (28) para calcular o p-valor bayesiano descrito na Seção 4, obtendo p-valor de 0, 13 para o modelo logís- tico de 2 parâmetros, indicando que o modelo descreve adequadamente a distribuição dos escores.

7 Conclusão

As extensões dos modelos da TRI para múltiplas di- mensões adicionam novas possibilidades nas aplicações dos modelos, como na Educação. O Exame Nacional do Ensino Médio (ENEM) até a sua mudança em 2009 era formulado em termos de uma matriz de 5 competências [26], o Test of English as a Foreign Language (TOEFL) utilizado na certificação de proficiência em inglês avalia quatro aspectos do idioma, entre outras possiveis apli- cações na Educação e Psicologia.

Além do potencial prático, os modelos multidimen- sionais da TRI apresentam diversas possibilidades ainda não exploradas, como outras distribuições para o vetor de traços latentes [5], extensões para modelos de crédito parcial ou categóricos [18], diagnóstico da adequação das diversas premissas da modelagem aos dados [32]

entre outros.

Referências

[1] Adams, R. J., Wilson, M., and Wang, W. The

multidimensional random coefficients multino-

(11)

mial logit model. Applied Psychological Measure- ment, 21:1–23, 1997.

[2] Andrade, D. F., Tavares, H. R., and Valle, R. C.

Teoria de resposta ao item: conceitos e apli- cações. Associação Brasileira de Estatística, São Paulo, 2000.

[3] Ayreshi, A. Computing conditional maximum likelihood estimates fir generalized rasch model ysubg sunple loglinear models with diagonal pa- rameters. Scandinavian Actuarial Journal, 20:63–

71, 1993.

[4] Baker, F. B. and Kim, S. Item Response The- ory - Parameter Estimation Techniques. Marcel Dekker, Inc, New York, 2nd edition, 2004.

[5] Bazán, J. L., Branco, D. M., and Bolfarine, H.

A skew item response model. Bayesian Analysis, 1(4):861–892, 2006.

[6] Béguin, A. A. and Glas, C. A. W. Mcmc estima- tion and some model-fit analysis in multidimen- sional irt models. Psychometrika, 66(4):541–562, 2001.

[7] Bock, R. D. and Aitkin, M. Marginal maximum likelihood estimation of item parameters: an ap- plication of the em algorithm. Psychometrika, 46:443–459, 1981.

[8] Bock, R. D., Gibbons, R., and Muraki, E. Full information item factor analysis. Applied Psycho- logical Measurement, 12:261–280, 1988.

[9] Bock, R. D. and Schilling, S. High-dimensional maximum marginal likelihood item factor anal- ysis by adaptative quadrature. Psychometrika, 70(3):533–555, 2005.

[10] Bolt, D. M. and Lall, V. F. Estimation of compensatory and noncompensatory multidimen- sional item response models using markov chain monte carlo. Applied Psychological Measure- ment, 27(6):395414, 2003.

[11] Carlson, J. E. Multidimensional item response theory estimation: A computer program. Techni- cal report, Iowa City, IA: American College Test- ing, 1987.

[12] Cohen, A. The underlying structure of the beck depression inventory ii: A multidimensional scal- ing approach. Journal of Research in Personality, 42:779–786, 2008.

[13] Frasier, C. Noharm ii: A fortran program for fitting unidimensitonal and multidimensional nor- mal ogive models of latent trait theory. Techni- cal report, Armisdale, Australia: The University of New England, 1988.

[14] Gelman, A., Carlin, J. B., and Rubin, D. B.

Bayesian Data Analysis (2nd ed.). Chapman and Hall/CRC, Boca Raton - Florida, 2004.

[15] Gelman, A. and Rubin, D. B. Inference for itera- tive simulation using multiple sequences. Statisti- cal Science, 7:457–511, 1992.

[16] Geweke, J. Evaluating the accuracy of sampling- based approaches to calculating posterior mo- ments. In Bernardo, J. M., Berger, J. O., Dawid, A. P., and M., S. A. F., editors, Bayesian Statistics 4. Clarendon Press, Oxford, 1992.

[17] Kang, T. and Cohen, A. S. Irt model selection methods for dichotomous items. Applied Psycho- logical Measurement, 31(4):331358, 2007.

[18] Kelderman, H. Loglinear multidimensional item response model for polytomously scored items. In van der Linden, W. J. and Hambleton, R. K., edi- tors, Handbook of Modern Item Response Throry.

Springer, New York, 1996.

[19] Kelderman, H. and Rijkes, C. P. M. Loglin- ear multidimensional irt models for polytomously scored items. Psychometrika, 59:144–147, 1994.

[20] Lee, S. and Terry, R. Mdirt-fit: Sas R macros for fitting multidimensional item response. In SUGI 31st Conference, 2005.

[21] Linden, W. J. v. d. and Hambleton, R. K. Hand- book of modern item response theory. Springer, New York, 1996.

[22] McKinley, R. L. User’s guide to multidim. Tech- nical report, Princeton, NJ: Educational Testing Service, 1987.

[23] McKinley, R. L. and Reckase, M. D. The use of the general rasch model with multidimensional item response data. Technical report, Iowa City, IA: American College Testing, 1980.

[24] McKinley, R. L. and Reckase, M. D. Maxlog:

A computer program for the estimation of the parameters of a multidimensional logistic model.

Behavior Research Methods and Instrumentation,

91:389–390, 1983.

(12)

[25] Neyman, J. and Scott, E. L. Consistent estimates based on partially consistent observations. Econo- metrica, 16(1):1–32, 1948.

[26] Nojosa, R. T. Teoria da reposta ao item - modelos multidimensionais. Estudos de Avaliação Educa- cional, 25, 2002.

[27] Patz, R. J. and Junker, B. W. A straightforward approach to markov chain monte carlo methods for item response theory models. Journal of Ed- ucational and Behavioral Statistics, 24:146–178, 1999.

[28] Raftery, A. E. and Lewis, S. M. The number of iterations, convergence diagnostics and generic metropolis algorithms. In W.R. Gilks, D. S. and Richardson, S., editors, Practical Markov Chain Monte Carlo. Chapman and Hall, Londres, 1995.

[29] Reckase, M. D. A linear logistic multidimensional model. In Handbook of Modern Item Response Theory. Springer, New York, 1996.

[30] Reckase, M. D. The past and the future of mul- tidimensional item response theory. Applied Psy- chological Measurement, 21:25–36, 1997.

[31] Sheu, C. F., Chen, C. T., Su, Y. H., and Wang, W. C. Using sas proc nlmixed to fit item response models. Behavior Research Models, 37(2):202–

218, 2005.

[32] Sinharay, S., Stern, H. S., and Johnson, M. S.

Posterior predictive assessment in item response theory. Applied Psychological Measurement, 30(4):298–321, 2006.

[33] Steer, R. A., Ball, R., and Ranieri, A. T., W.

F. Beck. Dimensions of the beck depression inventory-ii in clinically depressed outpatients.

Journal of Clinical Psychology, 55(1):117–128, 1999.

[34] Sympson, J. A model for testing with multidimen- sional items. In Proc. of the 1977 Computerized Adaptive Testing Conference, 1977.

[35] Thomas, A., O’Hara, B., Ligges, U., and Sturtz, S. Making bugs open. R News, 6:12–17, 2006.

[36] Varadhan, R. and Gilbert, P. D. Bb: An r package for solving a large system of nonlinear equations and for optimizing a high-dimensional nonlinear objective function. Journal of Statistical Software, 32(4), 2009.

[37] Varadhan, R. and Roland, C. Simple and globally- convergent methods for accelerating the conver- gence of any em algorithm. Scandinavian Journal of Statistics, 35(2):335 – 353, 2008.

[38] Whitely, S. Measuring aptitude processes with multicomponent latent trait models. Technical re- port, Lawrence: University of Kansas, 1980.

[39] Wilson, D., Wood, R., and Gibbons, R. D. TEST-

FACT:Test scoring, item statistics and item factor

analysis. Scientific Software, Mooresville, 1987.

Referências

Documentos relacionados

Este artigo está dividido em três partes: na primeira parte descrevo de forma sumária sobre a importância do museu como instrumento para construção do conhecimento, destaco

Promptly, at ( τ − 2 ) , there is a reduction of 4.65 thousand hectares in soybean harvested area (statistically significant at the 1% level), an increase of 6.82 thousand hectares

Ainda segundo Gil (2002), como a revisão bibliográfica esclarece os pressupostos teóricos que dão fundamentação à pesquisa e às contribuições oferecidas por

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

Figure 8 shows the X-ray diffraction pattern of a well-passivated metallic powder and a partially oxidized uranium metallic powder.. Figure 7 - X-ray diffraction pattern of

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

(Nota: Alguns arquétipos podem ter sido construídos para uma vida curta; então, não devemos concluir que todos que morrem cedo não aproveitaram suas oportunidades para aprenderem

Obs: A disciplina INTRODUÇÃO À FISICA MODERNA tem como equivalente Física IV... Sanglard