Principais métodos para detectar o funcionamento diferencial do item (DIF) no âmbito da avaliação educacional

(1)

-

=-~VUTSRQPONMLKJIHGFEDCBA

PRINCIPAIS

M ÉTO DO S

PARA DETECTAR O

FUNCIO NAM ENTO

DIFERENCIAL

DO ITEM

(DIF)

NO ÂM BITO

DA AVALIAÇÃO

EDUCACIO NAL

I.

I.zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

S

/,

'- _Wagner _Bandeira _Andriola

1

,-xwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

a R esum o

3

o

artigo descreve os principais métodos utilizados para detectar o funcionamento diferencial do item (DIF), no

âmbito da avaliação educacional, entre os ousts:

Compa-ração da Área entre as CC/'s. CompaCompa-ração das

Probabili-dades, Comparação dos Parâmetros dos Itens.

Qui-Quadrado deedcbaZYXWVUTSRQPONMLKJIHGFEDCBAL o rd . Qui-Quadrado de Scheuneman. Qui-Quadrado de Pearson ou Total,M s n te l-H s e n s z e l:

Regres-são Logística. Método Padronizado e. finalmente. o

Logístico Interativo. Apresentamos as bases matemáticas

desses métodos. suas principais vantagens e limitações.

Destacamos Que a presença do DIF em instrumentos de

medida. sejam psicológicos ou pedagógicos, é um

proble-ma para o suposto da padronização ou uniformização das

condições de aplicação dos testes e Que, ademais.

acarre-ta injustiça e !àlacarre-ta de coúidsde ao processo avaliativo.

']

Palavras chave: funcionamento diferencial dos itens (DIF) - teoria de resposta ao item (TRI) - avaliação educativa

A bstroct: M oin M ethods for D etection of the D ifferentiol Item Functioning (D IF) in Educotionol A ssessm ent

This paper descrubes the main methods uscd in the field

of educational assessment to detect the differential

functioning of the item (DIF). Among others, the artic/e

describes: Area between the ICC 's, Comparison of

Probabilities, Comparison ofParameter Itcms, Lord's Chi-sousre. Scheuneman's Chi-sousrc. Pearson 's or Total

Cbi-sousrc. Mantel-Haensze/ 's M e th o d . Logistic Regression, Standardized Method s n d .finaljy. the Logistic Interactive

IDoutor em Educação pela Universidad Complutense de Madrid e

pro-fessor da Faculdade de Educação da Universidade Federal do Ceará.

t~~!!liitM Q

Method. The paper presents the mathematical bssis. the

main advantages as well as the limitations of the

aforementioned. Finaljy. the text emphasizes the presence

of the D/F in psychological and educationa/ tests as a

problem for assuming standard or uniform conditions for

the app/ication of te s ts .something which avoids injustice

and the lack of impartia/ity in the assessment processo

Key-words: Differential item functioning (DIF) - item response theory (lRT) - educational assessment

Introdução

Necessitamos reconhecer. atualmente. a

existên-cia de ampla gama de proposições teóricas sobre

Quali-dade educativa, resultante de distintos interesses e

perspectivas de mundo, Que ocasionam, assim, uma evidente falta de consenso em torno da sua definição

(De Miguel, Madrid, Noriega & Rodríguez, 1994;

Harvey&Green, 1993). Segundo lzaguirre (1996: 55),

calidad significa cosas diferentes según losenfooues

y

los grupos de interés, según se habla de los

resul-tados o de los procesos. según para ouién y para oué sea esa calidad. Está muy relacionada con los fines Que se propongan a Ia escuela, con Ias políti-cas educativas de cada país

y.

en último extremo. con Ia idea de hombrey de sociedady con los valo-res subyacehtes a cada sistema educativo.

A esse respeito, Casanova Rodríguez (1997: 30) opina, igualmente, no sentido de oue

cada institución es Ia Que tiene Que marcar sus propios objetivos de calidad

y

los indicadores Que le sirvan de guía para conocer el grado en Que se está logrando sus objetivos planeados.

Como síntese de ambos os posicionamentos.

podemos acentuar Que aQualidade educativa pode e

deve adotar múltiplas concepções. Cada instituição educativa deve delinear os próprios objetivos de Qua-lidade e, assim, elaborar indicadores Q!.le lhe sejam mais convenientes para conhecer o grau no Qual

(2)

tão sendo logrados os objetivos planejados. Como parece ser óbvio. essa tarefa está inserida num

deter-minado contexto sócio-político e

econômico-educa-cional da instituição educativa (Sammons. Hillman &

Mortimore. 1998).

Por exemplo. no atual contexto sócio-político

e econômico-educacional brasileiro. o indicador mais

utilizado para verificar a Qualidade das instituições educativas. desde o ensino fundamental ao superior. é o grau de aprendizagem dos estudantes. ou seja. o nível de consecução dos objetivos educativos. Como opina Bosi (2000: 43).

sobre o Que se entende por QUalidade universitá-ria. não há maneira imune a críticas de se classifi-car universidades ou cursos por ordem de QUalidade. Tais e tantas são as variáveis em jogo Que sempre se pode discordar do peso atribuído a cada uma delas.

Nesse contexto. o instrumento utilizado para

medir o grau de aprendizagem dos alunos é oxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAteste

referido ao critério. também conhecido como prova

de rendimento. Esseinstrumento é composto por itens

objetivos Que mensuram distintos objetivos educa-tivos. O grau de aprendizagem dos alunos

(rendi-mento no teste) revelará. igualmente. o grau de

consecução dos objetivos educativos planejadosedcbaZYXWVUTSRQPONMLKJIHGFEDCBAa

p rio r! e. portanto. o nível da Qualidade educativa das

instituições avaliadas.zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

o

problema

do

VUTSRQPONMLKJIHGFEDCBA

D IF

no âmbito

da avaliação

educativa

A necessidade e a relevância da padronização

ou uniformização das condições de aplicação dos

instrumentos de medida constituem um dos pressu-postos mais importantes da avaliação. seja no âmbito psicológico ou educativo (Anastasi. 1988; Pascualí, 2000). Para tanto. psicólogos e pedagogos tratam de uniformizar as tarefas ou itens. as instruções. o

empo destinado à resolução das tarefas contidas nos

en os. a maneira de corrigir as respostas dos

sujeitos. as condições de luminosidade. som e a pr pria atividade de aplicação dos instrumentos de me dida ete. (Martínez Arias. 1997).

Com o recente surgimento do paradig

psicométrico denominado Teoria da Resposta ao li

(TRI). novas áreas de investigação têm prolifera

(Andriola. 1998; Hambleton. 1989 a. 1990). Co opina Hambleton (1997). uma delas tem seu foco

'-gido ao estudo do Funcionamento Diférencia/ dos It

(DIF).2Que está intimamente ligado ao pressuposto

padronização das condições de aplicação dos ins _

mentos de medida. Énecessário aclarar a noção de

a presença de DIF num teste é um fator Que torna processo avaliativo injusto. sendo imperativo conhe o conceito de DIF para compreenderse tal afirma

-No âmbito da TRI. o item não tem DIF

Qua-do a sua curva característica (CCI) é idêntica para grupos comparados numa mesma magnitude da

riável latente medida (Melenbergh. 1989). Em

r--guagem matemática. oitem não tem DIF com respe.

à variável C (grupo). dado Z (cstimsdor de 8). se somente se. F (X

I

g.

z) = F (X

I

z).

Onde:

• X é a pontuação no item;

• gé

o valor obtido em Xsegundo a variávelC

• zé o valor obtido em Xsegundo a variávelZ

Nesse caso. a associação entre ambas as variaveis (ge.z) pode favorecer ou prejudicar o rendime -to de um grupo sobre o outro. Portan-to. é necessár reconhecer Que a presença de DIF ocasiona séri _ problemas ao processo de avaliação. já Que pode p

-vílegíar um determinado grupo em detrimento d

outro(s) (Andriola. 2000 a).

Dessa forma. um item terá DIF se os sujeitos Que têm o mesmo grau de habilidade (8) e

cornpõer-distintos grupos demográficos (C

1 e C2. por

exem-plo) possuírem diferentes probabilidades (1 1 de

acer-tar um item (~ utilizado para medir dita variável latente (8). Em notação matemática. podemos afirmar.

en-tão. Queexiste DIF Quando

~c/8)

*

P,ci8).

2A sigla DIFéoriginária do termo inglês D ifT e re n lia llle m F u n c lio n in c

(3)

17zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA )

)

Em palavras mais simples e menos técnicas,

podemos dizer QuexwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAa existência de D!F num item

implica reconhecer Que sujeitos com a mesma

ca-pacidade ou magnitude no construto latente

medi-do possuem diferentes probabilidades de acertá-Io,

pelo simples fato de pertencerem a grupos

demo gráficos distintos. Assim, a presença de DIF

num instrumento de medida supõe o desrespeito

ao suposto da uniformização das condições de apli-cação do mesmo, já Que privilegia alguns sujeitos em detrimento de outros, por causas secundárias e

irrelevantes ao propósito do teste Que, ademais,

podem ser controladas (Mufiiz. 1997). Na opinião de Ercikan (1998), durante a elaboração dos itens há de se evitar o uso de:

• termos ou símbolos conhecidos por gru-pos demográficos muito específicos: • termos ou símbolos Que possam ter

dife-rentes significados, segundo o contexto em Que se use ou o grupo ao Qual se refira: • sentenças cujo tamanho seja excessivamente

grande:

• sentenças ou termos pejorativos:

• elementos secundários, Que visam apenas a aumentar a complexidade de uma sentença. ~

a

e

D

:r

[-IS

[-'o

e

J:

7

l-

I-o

)S

i-le

Se o avaliador ou psicometrista encontra-se analisando itens já construídos por terceiros, deverá, então, recorrer aos procedimentos estatísticos para detectar o DIF e considerar ou supor Q1.Jeos aspec-tos enumerados por Ercikan (1998) tenham sido con-trolados adeouadarnente.

Os estudos sobre o DIF justificam-se poroue cabe ao avaliador verificar se em seu teste existem itens com DIF para Que, dessa forma, (i) possa bus-car as causas Que o expliouern. (ii) evitar sua

utiliza-ção com o grupo em desvantagem e, finalmente, (iil)

controlar os fatores responsáveis pelo DIF. para evi-tar a elaboração de novos itens com o mesmo

pro-blema (Andriola, 2000 a: Hambleton, 1989 b:

Mislery, 1996).

Finalmente, como opina Mufiiz (1997), pode-se dizer Que não existem provas ou testes

inteira-)S

m

1-

r-te

1-I,g.

mente isentos de DIF. Trata-se, assim, de detectar a Quantidade de DIF aceitável para um determinado item ou teste, segundo os objetivos do processo de avaliação. Ressaltadas essas idéias básicas, é o mo-mento de conhecermos os principais métodos para

detectar o DIF.VUTSRQPONMLKJIHGFEDCBA

Classificação dos M étodos poro Detectar o DIF

Como afirma Mufiiz (1997) a TRIparece venir

como anillo ai dedo para Ia eva!uación de!

funcio-namiento diferencial deedcbaZYXWVUTSRQPONMLKJIHGFEDCBA1 0 5

itcms

(p. 165). Nesse

contexto, a lógica subjacente àdetecção do DIF

con-siste em (i) estimar os parâmetros métricos dos itens para os grupos de interesse (de referência e focal): (ii) colocar esses parâmetros em uma mesma escala:

(iii) representá-Ios através de suas ccrs: (iv)

compa-rar as CCI's nos grupos escolhidos, (v) observar a significação estatística das possíveis discrepâncias entre as CCI's e, finalmente, (vi) tomar as decisões pertinentes sobre os itens em foco.

Como medir com precisão a discrepância

en-tre as CCI's. originárias de subpopulações

distin-tas, constitui o problema central dessa área de

investigação psicológica e educativa. Para tentar

solucionar essa limitação, os estudiosos propuse-ram vários métodos para a determinação do DIF. a partir da década de 1950. Tal variedade de

méto-dos pode ser agrupada, segundo Whitmore e

Shumacker (1999), em duas categorias, de acordo com o critério utilizado na determinação do DIF:

• Métodos Que utilizam um critério interno:

o próprio escore ou a pontuação obtida pe-los sujeitos no teste ou subtestes:

• Métodos Que utilizam um critério externo:

a pontuação em outros testes .Clauser, Nungester, & Swaminathan, 1996 ..

Não obstante, existem outras propostas de classificação. Por exemplo, i\1e1enbergh 1989). Van

der Flier. Melenbergh, Adêr e \\'ijn 1984),

propu-seram a seguinte:

44 2002 85

(4)

• Métodos incondicionais.zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAcom base no pres-suposto de Que os grupos de sujeitos e itens

tenham algum tipo dezyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAínteração:

• Métodos condicionais. com base no

pres-suposto de Que os parâmetros do item se-jam diferentes para os sujeitos com a mesma magnitude na variável latente, oriundos de grupos demográficos distintos.

Para Van der Flier, Melenbergh, Ader e Wijn (1984), são preferiveis os métodos condicionais, já

Que, como seu próprio nome indica, condicionam a

probabilidade de resposta a um certo nível de

habili-dade.Todavia, a categoriamétodos condicionais conta

com uma classificação proposta por Millsap e Everson

(citados por Hidalgo Montesinos, López Pina e

Sánchez Meca, 1997):

• Métodos de Invariância

CondicionalObser-vada:utilizam as pontuações observadas no

teste, desde a perspectiva da TCT. isto é, utilizam o escore total como resultado da soma das pontuações nos itens (p. ex.:

Mantel-Haenszel. Regressão Logística e

Delta Gráfico):

• Métodos de Invariância Condicional Não

Observada: utilizam a habilidade estimada

através da TRI (p. ex.: área entre as ccrs, comparação dos parârnetros dos itens, com-paração das probabilidades, Qui-Quadrado de. Lord).

Nesse contexto, devemos destacar a idéia de Q!.leos métodos condicionais estão fundamentados num conhecido paradoxo, pelo menos no âmbito da

litera-tura estatística, demominado Paradoxo de Simpson.

Paradoxo de Simpson: Fundamento

para Detectar o DIF

Esse paradoxo adota uma idéia simples e

inte-ligente: temos Que comparar o comparável Para

ilus-trar sua aplicabilidade e relevância, apresentamos um

86 EDUCAÇÃO EM DEBATE

exemplo citado por Dorans e Holland (1993). cujos dados são apresentados na tabela I.

Tabela 1. Freoüêncías de respostas de dois

grupos a um item hipotético.

Nívelemm Grupo A Grupo B

Nm Nem Nem/Nm Nm Nem Nem/Nm

Baixo 400 40 0,10 1000 200 0,20

Médio 1000 500 0,50 1000 600 0,60

Alto 1000 900 0.90 400 400 1.00

Total 2400 1440 0.60 2400 1200 0.50

Os símbolosedcbaZYXWVUTSRQPONMLKJIHGFEDCBAN m , Ncm eNcm/Nm estão

refe-ridos, respectivamente:

• ao número de sujeitos de magnitude m na

variável latente:

• ao número de sujeitos de magnitude mQue

acertou o item:

• àproporção de sujeitos de magnitude mQue

acertou o item.

Observamos Que, dos 2.400 sujeitos do Gru-po A. 60% (1.440) conseguiram acertar o item. Por outro lado, somente 50% dos sujeitos do Grupo B (1.200) responderam-no corretamente. Assim, a di-ferença entre a proporção de acertos nos dois gru-pos é de 0,10, favorável ao Grupo A. Entretanto, a diferença entre a proporção de acertos dos dois

gru-pos em cada um dos três níveis de magnitude m,Que

se pode chamarproporção condicional. é:

• no nível mais baixo:O, 10 para o Grupo A e

0,20 para o Grupo B, ou seja, uma dife-rença de 0,10 favorável ao Grupo B:

• no nível médio: 0,50 para o Grupo A e

0,60 para o Grupo B, ou seja, uma dife-rença de O, 10 favorável ao Grupo B:

• no nível alto:0,90 para o Grupo A e 1,00

para o Grupo B, ou seja, uma diferença de

O,10 favorável ao Grupo B.

esse âmbito, podemos observar Que, QUan-do condicionamos a proporção de acerto aos

distin-os níveis de habilidade, distin-os resultaddistin-os foram bastante

(5)

distintos da mesma análise realizada com a amostra total. já Que esta última não considerou os distintos níveis de habilidade. Surge. então. a necessidade de diferenciar dois aspectos subjacentes a esses

diferen-tes resultados: oxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAimpacto e o D/F.

No primeiro tipo de análise. verificamos uma

diferença Quanto aoimpacto. Esse termo faz

referên-ciazyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAà diferença entre os resultados de dois grupos de sujeitos: é efeito das diferenças individuais reais en-tre os grupos na variável latente ou construto.

medi-do através medi-do item ou teste (Dorans & Schmitt. I993:

Zumbo. 1999). Retornando ao exemplo.

observa-mos Que os sujeitos do Grupo A têm maior capaci-dade na variável latente medida pelo item. já Que

obtiveram uma diferença de O. 10a seu favor.

No segundo tipo de análise. condicionamos as proporções de acerto a três distintos níveis da variá-vellatente. cujos resultados foram favoráveis ao Grupo B. Neste caso concreto. temos o exemplo de um item com DIF favorável aos sujeitos do Grupo B. ou seja.

apesar de ter uma menor capacidade na variável

la-tente ou construto medido pelo item esses sujeitos

possuem maiores probabilidades de acertar ao item

em foco. Este tipo de análise é o maisadeouado ao

estudo do DIF (Dorans & Holland. 1993: Van der

Flier. Melenbergh. Adêr & Wijn. 1984: Scheuneman

& Gerritz. 1990).

Podemos dizer Que. na prática da avaliação

educativa e psicológica. o Paradoxo de Simpson

enfatiza a importância de comparar a probabilidade de acerto a um determinado item. considerando sem-pre Q!.Jeos sujeitos têm o mesmo grau ou magnitude na variável latente medida pelo item. Existem diver-sos métodos ou procedimentos para estudar o DIF.

alguns dos ouaís serão descritos a seguir.VUTSRQPONMLKJIHGFEDCBA

Principais M étodos para D etectar o D IF

Cálculo da Área Entre as CCI's

Com base no Paradoxo de Simpson este cál-culo consiste em estimar as CCI's do item para os

grupos de interesse e, em seguida, calcular a área entre ambas: esse é um índice da discrepância entre

elas (Wainer, 1993). Assim, indica a possível

existên-cia de DIF. pois. se as ccrs coincidissem, a área en-tre as mesmas teria valor zero e. desse modo, não haveria DIF. A figura I ilustra a lógica do método.

Figura 1 - ccrs de um item para dois grupos distintos

1

0.9 g 0 ,8 ~ 0 ,7

~ 0.6 ~ 0.5

~ 0,4

I

0.3

j

_-_

_---.-1l.0.2_

0,1

01, """"'''''''''''''''' '"

· 3,0 · 2,6 -2,2 -1,9 -1,5 -1,1 -0,7 -0,3 0,1 0,4 0,8 1,2 1,6 2,0 2.4 2,7

ThetaedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

.> .

-Existem diversos procedimentos para a deter-minação do valor da área. compreendido entre as CCl's dos grupos estudados. Na comparação de dois gru-pos. é utilizada a seguinte fórmula para seu cálculo:

8 =4

A

=

L

I

P_{GR(8 j) -} PGF(8 j)lil8

8 =--4

Onde:

• PGR(8_j) é a probabilidade de acerto ao item

do grupo de referência, dado 8_j:

• PGF(8_j) é a probabilidade de acerto ao item

do grupo focal, dado 8_j:

• il8 é o valor da base de um retângulo

(il8 = 0.005) e altura

IP

GR(8_j) - PGF(8_j)l.

Nesse procedimento. as áreas são calculadas para os distintos valores de 8 Que estejam compre-endidos no intervalo -4 a +4. com o incremento

il8. de sorte Q\1e.Quanto menor o valor do

incre-mento. mais preciso o cálculo da área. Um segundo procedimento é dado por:

e = 3

A

=

L

~[PGR(8) - P_GF(8j)f ile

8 =-3

Os elementos dessa fórmula têm o mesmo sig-nificado da anterior. A única diferença está no

(6)

• PGF(Oj) é a probabilidade Que as pessoas do grupo focal têm de superar o item para o valor Oj:

• nGF é o número de pessoas do grupo focal.zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

10

adotado para os distintos valores de O QUe, nesse

caso, está compreendido entre -3 e

+

3. Raju (1988)

propôs outro procedimento para o seu cálculo:

Onde:edcbaZYXWVUTSRQPONMLKJIHGFEDCBA

• aé o parârnetro de dificuldade:xwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

• bé o parârnetro de discriminação:

• c

é a probabilidade de acerto ao acaso:

• Dé uma constante de valor 1.7:

• e

é a base dos logarítmos neperíanos. de

valor 2.7182.

No uso dessa fórmula, assume-se o valor do

parârnetro ccomo sendo o mesmo para os grupos

analisados. Conhecida a área entre as ccrs, o

inves-tigador poderá decidir se existe ou não DIF. No en-tanto, deverá ter cuidado, já Que não existem provas de significação estatística para o valor obtido para a

área entre as ccrs comparadas (Mufiiz. 1997).

Comparação das Probabilidades de

Acertar o Item

Carnilli e Shepard (1994) apresentam uma grande vantagem desse método Que também se ba-seia no Paradoxo de Simpson. Segundo eles, tal procedimento permite utilizar unicamente os valores

de O para os-ouals existem sujeitos do grupo focal.

Com este método, pretende-se dar mais importância ao DIF nos intervalos onde realmente existem indiví-duos pertencentes ao grupo focal, e não em outras

zonas de O,onde não existem sujeitos. Sua

formula-ção matemática é:

n G F

lP

_{G R}(O j) - P_{G F}(8 ,.)

J

o = :

L

j= l n G F

Onde:

• PGR(Oj) é a probabilidade Que as pessoas do grupo de referência têm de superar o item para o valor Oj:

88 EDUCAÇÃO EM DEBATE FORTAlEZA Mo 24 V. 2

z=

b R -b F

~ S 2 (b 'R )+ S 2 (b 'F )

Onde:

.

• bR e bF são os parârnetros da dificuldade

do item, estimados em cada grupo (refe-rência e focal):

O somatório pode variar desde 1 até o núme-ro total de pessoas do grupo focal (nGF), ou seja, só

se consideram aoueles valores de O obtidos pelos

membros desse grupo. Em síntese, como assinalam

Camilli e Shepard (1994), é uma forma de

autoponderação baseada nas pessoas do grupo

fo-cal. dando-se mais peso às zonas deOonde estas se

encontram e, por outro lado, omitindo-se as zonas

de

O

onde não existem indivíduos desse grupo.

No caso em QUe não existisse DIF. os valores PGR(Oj) e PGF(Oj) coincidiriam para todos os valores de

Oj e, dessa maneira, o valor do índice DP seriaO(zero).

O DIF aumentará na medida em Que o índice DP se

distancie de O (zero), seja positiva ou negativamente.

Se é positivo, os valores PGR(Oj) são superiores aos de PGF(Oj)' indicando, assim, Que o item em QUestãoestá prejudicando o grupo focal. Em caso contrário. se o valor de DP é negativo, o item está prejudicando o grupo de referência. Como ocorre no método das áreas, tampouco aQUi existe uma prova estatística definitiva informando sobre a significância do valor DP.

Comparação dos Parâmetros dos Itens

A lógica desse procedimento é simples: um

item terá DIF se os parâmetros estimados nas

subpopulações não coincidem, isto é, se há diferen-ças significativas (Thissen, Steinberg &Wainer, 1993). o caso do modelo logístico de um parârnetro. o

Que vai ser comparado nas subpopulações é o

parâmetro b . Sua formulação é:

(7)

• ç

edcbaZYXWVUTSRQPONMLKJIHGFEDCBA(b R )zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAe Ç (b F ) são as variâncias dexwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAbem cada grupo (referência e focal);

• Z tem distribuição normal.

o

valor de Z é comparado com o da

distribui-ção normal. correspondente ao nível de confiança adotado. permitindo. assim. rejeitar ou não a

hipóte-se nula (Ho: bI = b2)· Para os modelos logísticos de

dois e três parâmetros. se comparam aeb,

conside-rando-se o parâmetro

c

invariante (Mufiiz. 1997).

As formulações matemáticas para a comparação dea

e bsão:

bR-bF

Z;

= =r=:

=====,=

S2(b_R)

+

S2(b_F)

Onde:,

• bR ebFsão os parâmetros de dificuldade do

item. estimados em cada grupo (referência e focal);

• â_Re

â,

são os parâmetros de discriminação

do item. estimados em cada grupo (refe-rência e focal);_, _,

• Ç (b R ) e S 2 (b F ) são as variâncias de bem

cada grupo (referência e focal);

• S2(â_R) e S2(â

F) são as variâncias de a em

cada grupo (referência e focal); • Z tem distribuição normal.

A principal limitação desse procedimento é Que

os parâmetros ae btêm Que ser comparados

separa-damente (Mufíiz. 1997).

Qui-quadrado de Lord

Por conta da limitação do método anterior. F. M. Lord propôs. em 1980. um procedimento no QUal

as comparações dos parâmetros ae bpodem ser

re-alizadas conjuntamente. através do uso do Qui-Qua-drado. Sua formulação matemática é:

Onde:

• X2 tem dois graus de liberdade;

• V é o vetor de dimensão (I x 2) das

dife-renças entre os parâmetros ae b dos

gru-pos de referência e focal; • V' é o vetor transposto de V;

• L-I é a inversa da matriz soma de variândas-covariâncias de V para os grupos de

refe-rência e focal. cuja dimensão é 2 x2.

No caso de ser aplicado ao modelo logístico de um parâmetro. sua formulação matemática é mais parcimoniosa:

2 b, - b

R

X=----=---=..:...--Var(b

_F) -

Var(b

_R)

Onde b, e b_Rsão os valores dos parâmetros b

em cada grupo. e Var(b_F) e Var(b

R) as variâncias

des-ses parâmetros. Para observar a significância do QUi-Quadrado deveremos comparar o valor observado com o crítico (Thissen. Steinberg & Wainer. 1993).

Qui-quadrado de Scheuneman

Baseado no Paradoxo de Simpson. esse

méto-do foi proposto por

J.

Scheuneman em 1979.

fican-do conhecifican-do. posteriormente. como Qui-Quadrado

de Scheune'!'an. O autor parte da premissa de Que

as probabilidades de acerto dos grupos de referência e focal são iguais nos distintos níveis de habilidade.

isto é: PiFK = PiRK' onde:

• PiRK é a probabilidade de o grupo de

refe-rência acertar o item ino intervalo k:

• PiFK é a probabilidade de o grupo focal

acer-tar o item ino intervalo k.

Para estudar essa hipótese Scheuneman (1979) propôs a seguinte prova:

X:

=

±[[Ak - E(Ak)f + [Ck - E(Ck)f]

k=l E(Ak) _{E( Ck)}

Na Qual:

• E(Ak)

=

nRk· mlk/Tk;

(8)

• E(Ck) = nFk· mlk / Tk;

• nFké o número de pessoas do grupo focal; • nRké o número de pessoas do grupo de

referência;

• mIk é o número de acertantes do item. Que

estão no nívelxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAkda pontuação observada;

• Tk é o número de sujeitos dos grupos de

referência e focal Que existe no nível k da

pontuação observada.

Assume-se Q!.Jeo valor XzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA2 _{segue uma}

distri-buição como Qui-Quadrado com (k-/)(r-I) graus de

liberdade. sendoedcbaZYXWVUTSRQPONMLKJIHGFEDCBAr o número de grupos. Para

Scheuneman (1979. 1981). a principal vantagem do método reside na sua simplicidade de cálculo.

Qui-quadrado de Pearson ou Total

Tem como base o Paradoxo de Simpson. sendo

também conhecido como

Qui-Quadrado total ou

com-pleto.

poroue utiliza tanto os totais marginais das res-postas corretas Quanto os totais marginais das resres-postas incorretas. Sua formulação matemática é dada por:

Onde:

• T k é o número de sujeitos dos grupos de

referência e focal. Q!.Jeexiste no nível k da

pontuação observada;

• mOké o número de sujeitos Que erraram o

item e Que estão no nível k da pontuação

observada;

• E(Ak)= _{nRk. mlk / Tk;}

• E(Ck)

=

_{nFk· mlk/Tk;}

• nFké o número de pessoas do grupo focal; • nRké o número de pessoas do grupo de

referência;

• mI k é o número de sujeitos acertantes do

item. Q!.Jeestão no nível k da pontuação

observada.

Na opinião de Hidalgo Montesinos. López Pina e Sánchez Meca (1997) a vantagem desse método

reside no fato de considerar asfreoüêncías

observa-das de respostas incorretas.

Regressão Logística

O modelo para predizer a probabilidade de ocorrência de uma resposta correta a um item. mais conhecido como método da regressão logística. tem a seguinte formulação matemática:

P

(u = 1) =

exp(

z )

1 +

exp( z )

Onde:

• u é a resposta ao item estudado. sendo

z ='to

+

't18

+

't₂g

+

't3(8g).

Na segunda formulação. temos:

• 'to como o ponto de interseção da reta de

regressão com o eixo das abscissas;

• 'tIcomo a inclinação da reta de regressão;

• 8 como a habilidade ou variável latente me-dida pelo item;

• 't₂como a diferença entre o rendimento dos

grupos no item em foco;

• gcomo o grupo (de referência ou focal) ao

oual pertencem os sujeitos;

• 't3como o parâmetro indicador da possível

interação entre 8 eg .

Para explicar o DIF nos grupos de interesse.

deveremos especificar distintas equações. Assim.

um item terá DIF uniforme ou consistente se't

2

'*

O e 't3 = O; e terá DIF não uniforme ou

inconsis-tente se 't3

'*

O (seja ou não _'t2 = O). Trata-se de

um procedimento estatístico para predizer uma va-riável dependente. de natureza dicotômica. a par-tir de algumas variáveis independentes. em nosso

caso. habilidade (8) e grupo (g). sendo. ademais.

um dos mais utilizados para detectar o DIF

(SWAMINATHAN & ROGERS. 1990; ROGERS &

SWAMINATHAN. 1993; ZUMBO. 1999).

(9)

azyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

o

3.2.8. Método Mantel-Haensze]

Baseado no Paradoxo de Simpson. foi desen-volvido por N. Mantel e W. Haenszel. no ano 1959. e aplicado ao estudo do DIF por P.W. Holland e D.

T. Thayer. em 1988 (Angoff. 1993: Dorans &

Holland. 1993). Consiste. basicamente. na compa-ração das freoüêncías observadas e esperadas de acer-tos e erros nos grupos de referência e focal. de acordo com os distintos níveis de habilidade (j) escolhidos pelo investigador. Nesse contexto. as respostas dos sujeitos são organizadas em uma tabela de freoüên-cias. como a apresentada abaixo.

1-e s

Tabela 2. Freoüêncías observadas de respostas a um item hipotético.

Grupos Acertos (1) Erros (O) Total

De referência A B. _nRi

I I

Focal C

i Di nFi

Total _mli _mOi T.

I

N. Mantel e W. Haenszel propuseram a seguinte fórmula para a comparação das frecüêncías:

sedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

L

A jD j

j=JxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

a MH

T

j

s

L

B jC j

j=J

T

j

Onde:

• Ai é a freoüêncía observada das respostas corretas do grupo de referência. nos níveis de pontuação escolhidos:

• Bi é a freoüêncía observada das respostas incorretas do grupo de referência. nos ní-veis de pontuação escolhidos:

• C_i é a freqüência observada das respostas

corretas do grupo focal. nos níveis de pon-tuação escolhidos:

• Di é a freoüêncía observada das respostas incorretas do grupo focal. nos níveis de pon-tuação escolhidos:

EDUCAÇÃO EM DEBATE FORTALEZA •••• ANO 24 V. 2

• Ti é o total de erros e acertos dos grupos nos níveis de pontuação.

O coeficiente a_MH é uma medida da

Quantida-de Quantida-de DIF. no Qual o valor 1.0 significará idêntico comportamento do item para os grupos: os valores menores Que 1.0 significarão maiores possibilidades de êxito no item para o grupo de referência (Longford.

Holland & Thayer. 1993). O Educationa/ Testing

Service (ETS) propôs uma escala hlerároulca para os

distintos valores do coeficiente aMH' de acordo com

sua magnitude (Zwick. Thayer &·i.ewis. 1999):

• Categoria C:itens cujos valores absolutos

sejam 1.0 <

a

_MH < 1.5 (sendo adotado

a=0.05) são considerados itens com DIF

severo;

• Categoria B: itens cujos valores absolutos

sejam 0.0

<

a_MH

<

1.0 (sendo adotado

moderado:

• Categoria A: itens cujos valores absolutos

não sejam agrupados em nenhuma das duas

categorias anteriores (sendo adotado

desprezível.

O estatístico de contraste para o coeficiente

a

_MH•Que posibilita confrontar as hipóteses nula (Ho:

a

_MH= I) e alternativa (HI:

a

_MH> I). é:

2

X M H

{t

Ai -

t

E(A) -

0.50}'

K

L.

Var(A)

j= 1

Onde:

• Ai é a freoüêncía de respostas corretas do grupo de referência. nos distintos níveis de pontuação observada:

• Var (Ai) é a variância de Ai:

(10)

num itemedcbaZYXWVUTSRQPONMLKJIHGFEDCBA(p -d iffe re n c e ). Sua formulação matemá

-ca é dada por:

o

valor do X2

MH se distribui aproximadamente

como QUi-Quadrado. com um grau de liberdade. A

variância dazyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAfreoüêncía das respostas corretas do gru-po de referência. nos distintos níveis de gru-pontuação

observada. é dada por:

Onde:

• _{nRjé o número de sujeitos do grupo de} re-ferência no nível j da pontuação observa-da:

• nFj é o número de sujeitos do grupo focal no nível j da pontuação observada:

• m1j é o número de sujeitos do nível j da pontuação observada. Que acertou ao item: • mOj é o número de sujeitos do nível j da pontuação observada. Que não acertou o item:

• Tj é o número de sujeitos dos grupos de referência e focal. QUe existe no nível j da pontuação observada.

A freoüêncía esperada para os distintos vaia-res de Aj' em cada nível da pontuação observada.

pode ser calculada mediante o uso da fórmula:xwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

n Rj m Ij

=

Onde:

• nRjé o número de sujeitos do grupo de refe-rência. no nível j da pontuação observada: • mIj é o número de sujeitos do nível j da

pontuação observada. Que acertou o item: • Tj é o número de sujeitos dos grupos de referência e focal existente no nível j da pon-tuação observada.

Método Padronizado

Possibilita o cálculo do índice de discrepân-cia entre os grupos. com respeito ao rendimento

EDUCAÇÃO EM DEBATE FORTAlEZA ANo 24 V. 2

~ w m e P frn - P rm )

STD pDIF

=

.:.:.m .:...--.--= = -- _

~ w m

m

Onde:

• w_msão os pesos adotados para os gru estudados. Segundo Dorans e Holla (1993). alguns valores possíveis para J são:

• w_m = N/_m• isto é. o número total sujeitos do nível mde habilidade:

• w_m

=

N_rm. isto é. o número total

sujeitos pertencentes ao grupo de re -rêncla, no nível m de habilidade:

• w_m

=

_Nrm. isto é. o número total de s

-jeitos pertencentes ao grupo focal. nível mde habilidade:

• w

m = a freouêncía relativa de sujeit _

pertencentes a algum dos grupos. nível mde habilidade:

• Prme Prm são. respectivamente. as propo

-ções de sujeitos QUe acertaram o item. grupo focal e de referência. comparadas número total de sujeitos.

O índice S T P p D IF p o d e assumir valores en

I e I. 'alares positivos indicam QUeo DIF favor -ce o grupo focal. enouanto valores negativos

indiar-e o DIF fa orindiar-ecindiar-e o grupo dindiar-e rindiar-efindiar-erência. Para valor entre -D.05 e +0.05. o DIF é irrelevante: para va res entre -D.I Oe +0.10. o item tem DIF modera para alores fora do intervalo -D.I Oa +0.10. o

ite--em DIF severo (Dorans &Holland. 1993).

Mé odo Logístico Interativo

Foi formulado por E B. Baker no início da d -cada de 1980. como uma resposta às limitações Qui-QUadrado de Scheuneman (Baker, 1981 ab). modelo saturado desse método tem a seguinte fo -rnulação matemática:

(11)

==-zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

-

!I!

=-

_{xwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA}

/n (FijI / Fij2) =

c

+

Si

+

Gj

+

(SG)ij' onde:

• /né o logarítmo natural da proporção de

res-postas corretas (k= I) e incorretas (k= 2):

• FijI e Fij2 são, respectivamente, a

freoüên-cia esperada de sujeitos (F) com pontuação isituados numa determinada categoria (Si)'

oue pertencem ao grupo

i

(Gj) e Que

acer-taram (k = I) ou não (k = 2) o item em foco: • C representa o parâmetro de dificuldade do

item para a amostra total:

• Si é o efeito principal da pontuaçãoedcbaZYXWVUTSRQPONMLKJIHGFEDCBAi

per-tencente a uma categoria 5:

• Gj é o efeito principal do grupo

t

• SGij é o parâmetro para a interação entre a

pontuação ie o grupo j.

o

modelo saturado é utilizado para verificar a

presença do DIF não uniforme ou inconsistente.

Po-rém, como destacam Van Der Flier, Mellenbergh, Adêr

e Wijn (1984). para verificar a presença do DIF uni-forme ou consistente, é comum adotar-se um mode-lo não saturado, cuja formulação matemática é:

/n (Fijl / Fij2) = C

+

Si

+

Gj.

lá o modelo nulo, Que representa a ausência de DIF. vem dado por:

/n (FijI / Fij2) = C

+

s,

Nos três casos, temos:

s

LSi =0

i=l

g

LG} =0

}=1

s g

L(SG)i} = L(SG)ij =O

i=l }=1

Para verificar o ajuste do modelo aos dados é utilizado:

G

2

=

2 ±

f

±

f ijk

ln(

fi~.k

J

i=l }=1 k = l F IJ k

Onde

dtem

distribução como oul-ouadrado.

com

g- /

graus de liberdade: ~k é afrecuêncía

obser-vada de sujeitos Q!.leacertaram (k = I) ou não (k = 2) o item em foco, Que estão na categoria de pontuação

ie pertencem ao grupo j. Para o cálculo da

freoüên-cia esperada

(0/

devemos usar.a-fórmula:VUTSRQPONMLKJIHGFEDCBA

Principais Lim itações dos M étodos para D etectar o D IF

Autores como Camilli e Shepard (1994).

O'Neíll e McPeek (1993). Schmitt, Holland e Dorans (1993) assumem, publicamente, suas preocupações sobre a importância Que os investigadores da área

dão aos resultados matemático-estatísticos,

csoue-cendo as considerações teóricas sobre as possíveis causas do DIE Segundo eles, essa é uma tendência

muito freoüenternente observada nas investigações

sobre o DIE Compartilhamos com tais autores a pre-ocupação pela ausência de hipóteses baseadas em

teorias sólidas, cue sejam explicativas do DIF e Que

deveriam estar presentes no âmbito da investigação científica. Mantendo essa visão crítica, é necessário conscientizar-nos das limitações dos métodos

des-critos, dentre as cuaís as destacadas por Andriola

(2000 b):

• Método das Áreas entre as CC/'s: não

con-ta com provas de significância escon-tatística para a confrontação do valor da área entre as duas CCl's comparadas (Mufiiz. 1997). Ainda Que a ausência dessa prova de

significância constitua um problema

metodológico, na prática, é aconselhável

revisar o item. Nesse âmbito, é melhor incrementar o erro tipo 1 (revisar ou elimi-nar itens Que não tenham DIF). Q!.ledo tipo

1m! ~' % :cua;~",..,~A .~

(12)

11(não revisar ou deixar de eliminar itens

Que tenham DIF).xwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

• Método das Probabilidades: como ocorre

no método das áreas, tampouco

aQl.liexis-te uma prova estatística definitivazyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAoue

in-forme sobre a significância do valor DP. Assim, é conveniente adotar o mesmo pro-cedimento apresentado no método do cál-culo das áreas.

• Método de Comparação dos Parâmetros

dos Itens: sua principal limitação reside no

fato de Ql.leos parâmetros ae bsão

estima-dos separadamente para as

subpopulações

ou grupos escolhidos.

• Método do Qui-Quadrado deedcbaZYXWVUTSRQPONMLKJIHGFEDCBAL o rd : a desi-gualdade dos tamanhos amostrais dos

gru-pos focal e de referência pode levar-nos a obter resultados distintos para o DIF.em

fun-ção daeouívalêncía ou não entre os grupos.

• Método do Qui-Quadrado de Scheuneman:

padece do mesmo problema do Qui-Qua-drado de Lord, isto é, os resultados

obti-dos para o DIF estão associaobti-dos aos

tamanhos amostrais dos grupos focal e de referência. Ademais, como lembra Baker (1981 a), por considerar unicamente a

pro-porção de acertos, os resultados podem v e

r-se afetados pela prer-sença de diferença reais

entre os grupos (diferenças no impacto).

• Método do QUi-Quadrado de Pearson ou

Total.-pádece do mesmo problema do

Qui-ouadrado de Lord e do Qui-Quadrado de

Scheuneman, isto é, a desigualdade dos tamanhos dos grupos focal e de referência pode acarretar a obtenção de resultados muito diferentes para o DIF. em função da eoulvalêncía ou não entre os grupos.

• Método M s n tc t-H s c n s z c ': como mais um

método oue utiliza tabelas de contingência,

padece, igualmente, do mesmo problema do Qui-Quadrado de Lord, do Qui-Quadrado de

Scheuneman e do Qul-ouadrado de Pearson

ou Total, isto é, a desigualdade dos tarna-VUTSRQPONMLKJIHGFEDCBA

.

: u e ;m

nhos dos grupos focal e de referência pode proporcionar resultados diferentes para os

índices de DIF. em função da eouívalência

ou não entre os grupos.

• Método da Padronização: a principal

defi-ciência desse método é considerar,

unica-mente, asfreoüêncías relativas de respostas

corretas.

Apesar de todas essas limitações, Camilli e Shepard (1994) apresentam algumas vantagens dos modernos métodos para detectar o DIF. Segundo os autores, existe um acordo generalizado sobre a

po-tência e flexibilidade desses métodos, sempre oue (i)

os tamanhos amostrais sejam adequados àestimação

de parâmetros estáveis dos itens, (ii) utilizem-se mais de um método para detectar o DIF e, ademais, (iii)

utilizem-se procedimentos estatísticos

concomi-tantemente aos procedimentos Qualitativos

(ALLALOUF. HAMBLETON & SIRESI. 1999;

ANGOFF. 1993; DOWNING & HALADYNA, 1997;

ZUMBO. 1999).

Considerações Finais

Apesar da variedade de métodos para investi-gar o DIF.estes padecem limitações. Autores mais crí-ticos aconselham complementar as análisesestatísticas. obtidas pelo uso de mais de um procedimento. com a opinião de especialistas na área e, assim, aumentar a validade dos resultados (ANDRIOLA, 2002).

Tentamos demonstrar oue a presença do DIF

em itens de instrumentos para medida psicológica e

pedagógica é um grave problema, oue atenta contra o

pressuposto da padronização ou uniformização das

condições de avaliação. É uma fonte de injustiça. já

Queproduz falta de eoüidade em processos avaliativos; permite aos sujeitos de grupos distintos demográficos

e com mesmo nível na v a riá v e l latente medida pelo

item ter maiores probabilidades de êxito (DOUGLAS.

ROUSSOS & STOUT. (996). Nesse âmbito, caberá

aos responsáveis pela construção. administração e

(13)

comercialização de testes, psicológicos e pedagógi-cos, verificar a presença de itens com DIF. já cwe a sua

existência é um fator dezyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAínvalídação dos resultados. Nos estudos para organizar bancos de itens, também

é necessário verificar a presença de DIF e, assim, evi-tar utilizar aoueles Que o tenham (ANDRlOLA, 1998). Para finalizar, mencionaremos uma célebre frase latina, muito sugestiva e oue sintetiza, na nossa opi-nião, a importância dos estudos sobre o DIF no

âm-bito da avaliação psicológica e educativa:xwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAfiat justítia,

péreat mundos?VUTSRQPONMLKJIHGFEDCBA

Referências

Bibliográficos

ALLALOUF. Avi, HAMBLETON, Ronald & SIRESI. Stephen. Identitying the causes of DIF in translated verbal items. journal of Educational Measurement,

36, 1999, pp. 185-198.

ANASTASI. Anne. Psychological testing. New York: MacMillan, 1988.

ANDRIOLA, Wagner, B. Detección dei Funcio-namiento Diferencial dei Ítem (DIF). Aportaciones TeóricasedcbaZYXWVUTSRQPONMLKJIHGFEDCBAy Metodológicas. Tesis Doctoral. Madrid: Universidad Complutense de Madrid, 2002.

___ o Funcionamento diferencial dos itens (DIF):

es-tudo com analogias para medir o raciocínio verbal.

Psi-cologia: Rellexão e Crítica, 13, 2000 a, pp. 473-481.

___ o Principales métodos para Ia determinación

dei funcionamiento diferencial de 105ítems (DIF). X II Congreso Nacionaf.y Ilberoamericano de Pedagogía.

Resúmenes de Comunicaciones, Tomo 11,2000 b. pp.49-50.

___ o Utilização da teoria de resposta ao item (TRI)

para a organização de um banco de itens destinados àavaliação do raciocínio verbal. Psicologia: Rellexão e Crítica, 11, 1998, pp. 295-308.

ANGOFF. William H. Perspectives on differential item functioning (pp. 3-24). Em P.W. Holland & H. Wainer

3Faça-se justiça: pereça o mundo.

-

•

(Orgs.), DifTerential item functioning. New lersey: Lawrence Erlbaum, 1993.

BAKER, Frank. A criticism of Scheunernan's item bias

technioue. journal of Educational Measurement, 18, 1981 a, pp. 59-62.

___ oLog-linear.logit linear models. A didactic.joumal

ofEducational Ststistks. 6, 1981 b, pp. 75-102.

BOSI. Alfredo. A importância da Universidade PÚ-blica. Ciência Hoje, 28 (165),2000, pp. 42-48.

CAMILLI, Gregory & SHEPARD, Lindsay. MMSS.

Methods for identi[ying biased tcst items. California: SAGE Publications, 1994.

CLAUSER, Brian, NUNGESTER, Ronald & SWAMINATHAN, Hariharan. Improving the matching for DIF analysís by conditioning on both test score and an educational background variable. journalof

Educational Measurement, 33, 1996, pp. 453-464.

DE MIGUEL, Mario, MADRlD, Victorino, NORIEGA. [uan & RODRÍGUEZ, Blanca. Evaluación para Ia calidad de 1 0 5 Institutos de Educación Secundaria.

Madrid: Editorial Escuela Espaüola. 1994.

DORANS, Neil & HOLLAND, Paul. DIF detection and description: Mantel-Haenszel and Standardization (pp. 35-66). Em P.W. Holland & H. Wainer (Orgs.).

DilTerential item functioning. New lersey: Lawrence Erlbaum, 1993.

DORANS, Neil & SCHMITT, Alicia. Constructed response and differencial item functioning: A pragmatic approach (137-166). Em R. E. Bennett &

W. C. Ward (Orgs.). Construction versus multipk:

choice items in cognitive measurement. New lersey: Lawrence Erlbaum, 1993.

DOUGLAS, leffrey ROUSSOS, Louis & STOUT, William. Item-Bundle DIF hypothesis testing: ldentifying suspect bundles and assessing their differential functioning. journal of Educational

Measurement, 33, 1996, pp. 465-484.

DOWNING, Steven & HALADYNA, Thomas. Test item development: Validity evidence from oualíty

(14)

-MISLEVY, Robert. Test theory reconceived.xwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

journalof

Educalional Measurement,

33. 1996, pp. 379-416.

O'NEILL, Kathleen & McPEEK. Miles. ItemzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAand test

characteristics that are associated with differential item

functioning (pp. 255-276). Em P. W Holland & H.

Wainer (Orgs.).

Differenlial item funclioning.

New

lersey: Lawrence Erlbaum, 1993.

PASQUALI, Luiz.

Psicometria: Teoria dos testes

psi-cológicos.

Brasilia: Prática Gráfica e EditoraLtda. 2000. RAIU, Nambury. The areabetween two item characteristic

curves.

Psichometrika.

42. 1988, pp. 549-565.

CASANOVA RODRíGUEZ, Ma Antonia. Calidad

educativaedcbaZYXWVUTSRQPONMLKJIHGFEDCBAy evaluación de centros.

Comunidad

Educativa.

243.

junio.

1997, pp. 25-31.

ROGERS, lane & SWAMINATHAN, Hariharan. A

comparison of logistic regresion and Mantel-Haenszel procedures for detecting difTerential item functioning.

Applied Psychological

M e s s u rc m e n t.

17.

1993, pp.

105-116.

SAMMONS, Parn, HILLMAN,losh & MORTIMORE,

Peter.

Características Clave de Ias Escue/as Efectivas.

México: Secretaria de Educación Pública, 1998.

SCHEUNEMAN, Ianíce Dowd. A new method for

assessing bias in test items.

journal of Educational

Measurement. 16.

1979, pp. 143-152.

___ oA response to Baker 's criticism.

journalof

Educational

M c s s u re m c n t.

18.

1981, pp. 63-66.

SCHEUNEMA , [anice Dowd & GERRITZ, Kalle.

Using difTerential item functioning procedures to ex-plore sources of item difficulty and group performance

characteristics.

journal of Educational Measurement.

27 (2). pp. 109-131, 1990.

SCHMITT, Alicia, HOLLAND, Paul & DORANS, Neil.

Evaluating hyphoteses about differential item

functioning (pp. 281-3 15). Em P. W Holland & H.

Wainer (Orgs.).

Differential item funclioning.

New

lersey: Lawrence Erlbaum, 1993.

S I\MI ATHAN, Hariharan & ROGERS, lane.

Detecting differentlal item functioning using logistic

assurance procedures.

Applied

Measurement

in

E d u c s tio n . 1 0 . 1997, pp. 61-82.

ERCIKAN, kadríye. Translation efTectsin international

assessments.

International journal of Educational

Rcscsrch,

23. 1998, pp. 543-553.

HAMBLETON, Ronald K. Principies and selected

applications of item response theory (pp. 147-200).

Em Robert Linn (Org.).

Educational measurement.

New York: MacMilan, 1989 a.

___ o Introduction.

International

journal

of

Educalional Rcsesrch.

/3. 1989 b, pp. 123-125.

___ o Item response theory: introduction and

bibliography. Psicothems. 11,1990, pp. 97-107.

___ o Perspectivas futurasy aplicaciones (pp.

203-213). Em

I.

Mufiiz,

Introducción

a Ia teoría de

respuesta aios ítems.

Madrid: Plrárnide. 1997.

HARVEY, Lee & GREEN, Diana. Defining Quality

Assessment

&

Evaluation in Higher Education. 18

(I). 1993, pp. 9-34.

HIDALGO MONTESINOS, Ma Dolores, LÓPEZ

PINA. [osé & SÁNCHEZ MECA. lulío. Error tipo Iy

potencia de Ias pruebas chí-cuadrado en el estudio

dei funcionamiento diferencial de los ítems.

Revista

de tnvcsttgsctôn Educativa. I S.

1997, pp. 149-168.

IZAGUIRRE, Mercedes Muíioz-Repiso. La calídad

como meta.

Cuadernos de Pedagogía.

246.

abril.

1996, pp. 52-57.

LONGFORD, Nicholas. HOLLAND, Paul&THAYER,

Dorothy 1. Stabllíty of the MH D-DIF statistics across

populations (pp. 171-196). Em P. W Holland & H.

Wainer (Orgs.).

Differential item functioning.

New

[ersey: Lawrence Erlbaum. 1993.

MARTíNEZARlAS, Rosario.

Psicometría. Teoríadelos

tests psicológicos'y educativos.

Madrid: Síntesis, I 997.

MELLENBERGH, Gideon. Item bias and item

response theory.

International journal of Educational

R e s e s rc h . /3. 1989. pp. 127-143.

MUNIZ,losé.

Introducción a Ia Teoría de Respuesta

aios

Ite m s . Madrid: Pírárnide. 1997.

(15)

dedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

d

A

el

a f

lIe.

ex-lCe

in t,

eil.

~m

H. ew

le.

tlczyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

••

regression procedures. ja u rn a / a f E d u c a tia n a /

M e a s u re m e n t,27. 1990, pp. 361-370.

THISSEN, Davld, STEINBERG. Lynne & WAINER, Howard. Detection of differential item functioning using the parameters of item response models (pp. 67-I 14). Em P.W. Holland & H. Wainer (Orgs.). D iffe re n tia / ite m fu n c tia n in g . New

lersey:

Lawrence Erlbaurn. 1993.

VAN DER FLlER. Henk. MELLENBERGH. Gideon, ADER. Herman & WIIN. Marina. An interative item bias detection method. ja u rn a / a f E d u c a tia n a /

M e a s u re m e n t, 2 1 ,1 9 8 4 . pp. 131-145.

WAINER, Howard. Model-Based standardized measurement of an itern's differential impact (pp.

123-136). Em P. W. Holland & H. Wainer (Orgs.).

EDUCAÇÃO EM DEBATE '" FORTALEZA ANo 24 V. 2

D iffe re n tia / ite m fu n c tia n in g . New lersey: Lawrence Erlbaurn. 1993.

WHITMORE. Marjorie & SHUMACKER. Randall. A comparison of logistic regresion and analysís de variance differential item functioning detection

methods. E d u c a tia n a / a n dxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAPsychologicsl

M e a s u re m e n t, S 9 , 1999. pp. 910-927.

ZUMBO. Bruno. D. A Hsndboock on th e thcory

a n d m e th a d s a f d iffe re n tia / ite m fu n c tia n in g (D IF ).

Ottawa: Department of National Defense of Canada. 1999.

ZWICK. Rebeca. THAYER. Dorothy & LEWIS. Charles. An empirical Bayes approach to Mantel-Haenszel DIF analysís. ja u rn a / a f E d u c a tia n a / M e a s u re m e n t,36. 1999. pp. 1-28.