• Nenhum resultado encontrado

Avaliação da aprendizagem: uma análise descritiva segundo a Teoria de Respostas ao Item (TRI)

N/A
N/A
Protected

Academic year: 2018

Share "Avaliação da aprendizagem: uma análise descritiva segundo a Teoria de Respostas ao Item (TRI)"

Copied!
10
0
0

Texto

(1)

WAGNER BANDEIRA ANDRlOLAVUTSRQPONMLKJIHGFEDCBA

A V A L IA Ç Ã O D A A P R E N D IZ A G E M : U M A A N Á L IS E D E S C R IT IV A S E G U N D O A

T E O R IA D E R E S P O S T A SA O IT E M (T R I)

ILEARING EVOLUTION:

A DESCRIPTIVE ANALYSIS USING THE ITEM RESPONSE THEORY)GFEDCBA

INTRODUÇÃO

Dentro do campo educacional, o conceito de avaliação tem gerado inúmeros debates e continua a ser fruto de muitas polêmicas (Andriola & Barreto, 1997). Analisando as inúmeras definições, Silva (1992) revela a existência de alguns pontos comuns:

a) o termogfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAa v a l i a ç ã o difere semanticamente de

m e d i d a , porém a inclui como condição indispensável à

sua objetividade e precisão;

b) a avaliação realiza-se em função de objeti-vos claramente definidos;

c) a avaliação é um processo amplo, influenci-ado por diferentes aspectos da situação educacional;

d) a avaliação fornece informações úteis para a tomada de decisões com relação a alunos;

e) a avaliação é uma atividade que deve ser con-tínua, sistemática e científica.

Apesar das polêmicas, pode-se postular uma definição de avaliação que possibilite um grau maior de concordância entre os estudiosos do assunto (Barreto, 1993). A que mais se aproxima dessa desejada concor-dância foi apresentada por Popham (1977). Diz ele:

... e m b o r a v e n h a m o c o r r e n d o a l g u m a s d i fe r e n -ç a s d e o p i n i ã o a t r a v é s d o s a n o s , a m a i o r i a d o s e d u c a d o r e s c o n c e b e a a v a l i a ç ã o e d u c a c i o n a l c o m o o p e r a ç ã o n a q u a l a q u a l i d a d e d e u m a i n i c i a t i v a e d u c a c i o n a l éj u l g a d a . E m o u t r a s p a l a v r a s , p a r a a m a i o r p a r t e d o s e d u c a d o r e s o t e r m o a v a l i a ç ã o s i g n i fi c a o j u l g a m e n t o d o v a -l o r d e u m a i n i c i a t i v a e d u c a c i o n a -l (pág. 11).

Referindo-se a sala de aula, Tyler (1981) afir-ma que:

... o p r o c e s s o d e a v a l i a ç ã o d a a p r e n d i za g e m c o n s i s t e , e s s e n c i a l m e n t e , e m d e t e r m i n a r e m q u e

m e d i d a o s o b j e t i v o s e d u c a c i o n a i s e s t ã o s e n d o r e a l m e n t e a l c a n ç a d o s p e l o p r o g r a m a p l a n e j a -d ocbaZYXWVUTSRQPONMLKJIHGFEDCBA(p . 98).

É claro que, para a avaliação do desempenho escolar, o professor pode e deve usar todas as informa-ções ao seu dispor. Entretanto, nas avaliações envol-vendo um número muito grande de alunos, existem limitações de ordem prática (por exemplo: restrições financeiras e dificuldades operacionais), obrigando a utilização de testes objetivos e possibilitando, ainda assim, uma medida válida e precisa do rendimento (Andriola & Barreto, 1997).

Tratando-se de uma atividade científica, que utiliza medidas objetivas (testes), a avaliação da apren-dizagem pode estar fundamentada em modelos mate-máticos. Os dois mais utilizados são conhecidos sob os nomes de "Teoria Clássica dos Testes (TCT)" e "Teo-ria de Resposta ao Item (TRI)".

CONSIDERAÇÕES SOBRE A TEORIA CLÁSSICA DOS TESTES

O nascimento formal da Teoria Clássica dos Testes (TCT) ocorreu com os primeiros trabalhos de

S i r Charles Spearman no início do século, entre os anos

1904-1913, sobre a caracterização e avaliação da inte-ligência. O objetivo central era encontrar o modelo es-tatístico que fundamentasse as pontuações nos testes, permitindo, assim, a estimação dos erros que estão as-sociados a todo processo de mensuração (Mufíiz & Hambleton, 1992).

A TCT é um conjunto de teorias e técnicas, com graus distintos de formalização, que tem como núcleo a Teoria da Pontuação Verdadeira, que, por sua vez, se baseia no conceito de fidedignidade (Gavíria, 1995). Segundo tal conceito, a pontuação

(2)

e os escores forem diferentes, então, não se poderá ter confiança no instrumento porque não haverá consistên-cia nas medidas.

Estatisticamente pode-se dizer que, quanto mai-or o erro, menmai-or a fidedignidade do instrumento. A fi-dedignidade é pois, a correlação entre a variância do escore verdadeiro e a variância do escore obtido. Sua

formulação matemática é expressa por:gfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

S v2BA

rxx

= -_.

onde·

S 0 2 ' .

rxx

=

coeficiente de fidedignidade;

S v 2cbaZYXWVUTSRQPONMLKJIHGFEDCBA=variância do escore verdadeiro;

S o 2 = variância do escore obtido;

e

Diversos métodos foram desenvolvidos para estimar a quantidade de erro presente no instrumento de medida, dentre os quais destacam-se: teste-reteste (coeficiente de estabilidade), formas paralelas (coefi-ciente de consistência interna), bi-partição (coefici-ente de consistência interna), Sperman-Brown (coeficiente de consistência interna), Kuder-Richardson - fórmulas KR20 e KR21 (coeficiente de consistência interna), A l p h a de Cronbach (coeficiente

de consistência interna);

b)GFEDCBAValidade: diz respeito ao grau com que um

teste, efetivamente, mede aquilo que se propõe. Há di-versos tipos de validade, segundo os objetivos do teste. Por conseguinte, há diversas maneiras de se determinar a validade. Será discutida aqui a determinação através do coeficiente de correlação de Pearson , do erro-pa-drão da estimativa ou da análise fatorial.

Empregando-se o coeficiente de correlação de Pearson, obtém-se o grau de associação entre os esco-res de um teste (X) e os escoesco-res da variável critério (Y), cuja representação padrão é rxy. De acordo com Silva

( 1 9 9 2 ) , s e a s d u a s v a r i á v e i s r e fe r i r e m - s e a m e s m a c o i -s a , e -s p e r a - -s e e n c o n t r a r , e n t r e s e u s r e s u l t a d o s , u m a c o r -r e l a ç ã o p o s i t i v a , i s t o é , q u e o s i n d i v í d u o s b e m s u c e d i d o s

e m u m a s e j a m t a m b é m b e m s u c e d i d o s n a o u t r a , d a

m e s m a fo r m a q u e o s q u e o b t i v e r e m o s e s c o r e s m a i s

b a i x o s n u m a d e l a s d e v e r ã o t a m b é m o b t e r o s m a i s b a i

-x o s n a o u t r a (p . 123).

O erro-padrão da estimativa estabelece os limi-tes dentro dos quais se situa o escore verdadeiro. É de-finido por Vianna (1982), como a d i fe r e n ç a e n t r e o e s c o r e v e r d a d e i r o d o e x a m i n a n d o n o c r i t é r i o e o e s c o -r e e s t i m a d o p a -r a e s s e m e s m o c r i t é r i o , e r e s u l t a d e e r -r o s c a s u a i s ed e d i fe r e n ç a s e n t r e o t e s t e e o c r i t é r i o (p.

S

l

S

1

s a

o e

u

e e

;,

176), sendo portanto, o desvio-padrão das diferenças. Seu cálculo é feito através da fórmula:

S y x = s , ~1- (rx y ) 2

; onde:

S yX

=

erro-padrão da estimativa;

S , = desvio-padrão do critério;

r x y

=

coeficiente de validade.

Já a análise fatorial corresponde a um conjunto de técnicas estatísticas, que analisa as inter-relações existentes entre um conjunto de variáveis visando r e -s u m i r a -s r e l a ç õ e -s e n t r e v a r i á v e i -s d e fo r m a c o n c i s a , m a s a c u r a d a c o m o p r o p ó s i t o d efa c ilita r a s u a c o n c e i t u a ç ã o

(Dias,1997, p. 2). A síntese de um grande número de variáveis em uma quantidade menor.

Bryman e Cramer (1992), destacam alguns ob-jetivos da análise fatorial, dentre os quais:

a) avaliar a validade das questões componentes de um instrumento de medida, informando até que ponto elas estão medindo os mesmos conceitos ou variáveis;

b) reduzir um grande número de variáveis que podem ser explicadas por agrupamentos ou fatores ( d a t a r e d u c t i o n ) .

Os conceitos básicos da análise fatorial são: fator e carga fatorial. O termo fator refere-se a uma di-mensão ou construto, constituído da junção de diversas afirmações entre um conjunto de variáveis da mesma natureza. Já o termo carga fatorial refere-se à correla-ção entre uma variável e seu fator correspondente ( Dias,

1997).

PARÂMETROS MÉTRICOS DOS ITENS

O objetivo central da análise dos itens é obter informações sobre sua pertinência aos objetivos dos testes. Segundo Femández (1990), a a n á l i s e d e i t e n s é o e s t u d o d a q u e l a s p r o p r i e d a d e s q u e e s t ã o d i r e t a m e n t e r e l a c i o n a d a s c o m a s p r o p r i e d a d e s d o t e s t e .

A análise dos itens pode ser feita através de proce-dimentos racionais ou teóricos e também por procedimen-tos estatísticos, que é o que interessa no momento discutir. A análise estatística dos itens é realizada através do cálculo de índices que definem as propriedades de um item.

Os índices mais relevantes são:

a) dificuldade: refere-se a proporção de

sujei-tos que respondem corretamente ao item. Seu valor va-ria de O a l , e quanto mais próximo de 1 mais fácil o item. O valor do índice está diretamente relacionado à média do teste.

(3)

empírica de um sujeito em um teste, consta de dois componentes aditivos: a verdadeira pontuação e o erro que, inevitavelmente, está associado à medição. Assim, acbaZYXWVUTSRQPONMLKJIHGFEDCBAT C T busca estimar a quantidade do erro que afeta a pontuação obtida em um teste, ou seja, procura estabelecer a fidedignidade do mesmo (Fernández, 1990). Segundo Andriola (1998), os er-ros que afetam a pontuação dos sujeitos em um teste são aleatórios, podendo ocorrer por variadas fontes: devido ao respondente (por conta da fadiga, desinte-resse, incompreensão da tarefa solicitada, etc.), de-vido ao ambiente externo (iluminação inadequada, barulho excessivo, etc.), devido ao instrumento de medida (instruções pouco claras, itens ambíguos, tem-po insuficiente para a resolução dos itens, excessivo número de itens, etc.) e devido ao próprio ato de apli-cação (pouco controle sobre os respondentes, varia-ção de humor dos aplicadores, etc.).

De acordo com Gavíria (1995), os pressupos-tos da T C T são:

o

erro é inerente ao processo de mensuração A formulação matemática é dada por: X =T +E; onde:

X

=

escore bruto do sujeito (escore empírico); T=escore verdadeiro do sujeito

(escore teórico); E =erro aleatório.

A medida do desempenho de um sujeito (X), obtida através de um teste, é igual a soma da medida verdadeira do sujeito (T ) e o erro de medida (E ) come-tido no processo de mensuração;

o

erro de medida tem uma distribuição normal. A sua formulação matemática é dada por: E =N ( O; 1); onde:

E=erro aleatório;

N

=

distribuição normal reduzida.

o

erro (E ) é uma variável aleatória cuja distri-buição é normal (N), com média O (zero) e uma variância finita, ainda que desconhecida;

A correlação entre a medida verdadeira e o erro é igual a zero.

A sua formulação matemática é dada por: RTE =O; onde:

RTE =correlação (R) entre o escore

verdadei-ro do sujeito (T) e o erverdadei-ro aleatório cometido (E).

A suposição é que não há relação entre a pon-tuação do sujeito e o erro cometido no processo de mensuração, pois o erro depende de vários fatores, já enumerados;

A correlação entre os erros cometidos em duas me-didas distintas é zero.

A sua formulação matemática é dada por: REI E2

=

O; onde:

REI E2

=

correlação (R) entre o erro cometido numa primeira aplicação (E I) e numa segunda aplica-ção (E2).

Dessa forma, supõe-se que não existe relação entre o erro cometido durante a aplicação de um teste no momento um (E 1) e o erro cometido, durante a apli-cação do mesmo teste, no momento dois (E2);

A correlação entre o erro cometido em duas aplica-ções independentes e distintas quanto à temporalidade é zero.

A sua formulação matemática é dada por: RE 1 T2

=

O; onde:

RE 1 T2

=

correlação (R) entre o erro come-tido numa aplicação (E 1 )e o escore verdadeiro resul-tante de uma segunda aplicação (T2 ) distante temporalmente da primeira.

Assim, o erro de medida que se comete no mo-mento um (E 1 )é independente da pontuação verdadei-ra obtida no momento dois (E2).

Os pressupostos da T C T são direcionados às medidas psicológicas e educacionais, que por sua vez resultam do uso de instrumentos de medida: os testes. Assim, é interessante ressaltar os conceitos dos parâmetros métricos relativos ao teste e aos itens, além das suas respectivas formulações matemáticas.

PARÂMETROS MÉTRICOS DO TESTE

Os parâmetros de um teste dizem respeito a duas características almejadas pelo elaborador, de forma a garantir a inquestionável qualidade e utilidade do ins-trumento de medida. São determinadas através dos co-eficientes de fidedignidade e validade.

a) Fidedignidade: também conhecida como precisão, é o conceito mais importante daT e T .

Segun-do Vianna (1982),gfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAa fi d e d i g n i d a d e d e u m t e s t e ( r x x ) r e fe r e - s eBAà e s t a b i l i d a d e d o s s e u s r e s u l t a d o s , o u

s e j a , a o g r a u d e c o n s i s t ê n c i a d o s e s c o r e s (p.145). Se

um teste é aplicado em um mesmo grupo, um grande número de vezes, conservando-se as mesmas condições,

(4)

Segundo Fernández (1990), uma séria limita-ção do índice de dificuldade é sua dependência em re-lação aos sujeitos que responderam ao teste. Se os sujeitos tiverem domínio do assunto tratado no teste, o item poderá ser fácil, do contrário, poderá ser difícil;

b) discriminação: o índice de discriminação é definido como a correlação entre as pontuações dos sujeitos no item e sua pontuação no teste (Fernández,

1990). Assim, um item é considerado discriminador quando diferencia os respondentes que conseguem sair-se melhor, daqueles que não conseguem resultados satisfatórios.

No entanto, cumpre salientar que, para a TCT, o objeto de análise é o teste. Assim, os parâmetros dos itens servem para demonstrar os pontos fortes e fracos do teste. De acordo com Gavíria (1995), os principais problemas da TCT são:

a) inexistência de invariância rias medições: uma mesma característica medida com distintos testes proporciona distintas pontuações. A escala de medida da variável varia de um teste a outro, logo, existe uma dependência entre a variável e o instrumento utilizado. Isto significa que é necessário igualar as pontuações obtidas em distintos testes através de um processo de equalização, fazendo-se transformações lineares dos escores brutos através dos métodos da normatização (percentil, T, escore z, etc.), tendo-se assim, uma com-preensão mais realista a respeito da medida realizada

pelo instrumento;cbaZYXWVUTSRQPONMLKJIHGFEDCBA

b ) inexistência de invariância das proprie-dades métricas dos itens e, por conseguinte, do ins-trumento: o grau de dificuldade de um item e o seu poder discriminativo, referem-se a um determinado gru-po de resgru-pondentes, examinado num certo momento e sob a influência de um conjunto específico de circuns-tâncias. Logo, as propriedades métricas do instrumento variam de acordo com a amostra de sujeitos utilizada para a sua determinação;

c) tratamento dos itens como "réplicas" uns dos outros: a TCT não proporciona uma análise do item baseada nele mesmo. A discriminação de um item de-pende da pontuação final do teste, portanto, um mesmo item pode obter distintos índices de discriminação em função do conjunto de itens ao qual se apresenta correlacionado. O mesmo se repete para o índice de di-ficuldade.

A representação do desempenho de sujeitos sobre bases tão oscilantes interfere na confiança dos resultados. Todas essas deficiências deram espaço para o surgimento de outra teoria, que incorporou alguns dos pressupostos da TCT e ainda a complementa. A nova

teoria chama-se Teoria da Resposta ao Item (TRI), ain-da conheciain-da pelos nomes de Teoria de Características

Latentes e Teoria das Curvas Características.VUTSRQPONMLKJIHGFEDCBA

C O N S ID E R A C Õ E S S O B R E A T E O R IA

D E R E S P O S T A A O IT E M (T R I)

A Teoria de Resposta ao Item (TRI) tem ori-gem, segundo F ernández (1990), nos trabalhos pionei-ros de Richardson em 1936; Lawley em 1943; Tucker em 1946; Lord por volta de 1952-53 e Birbaum por volta de 1957-58; ampliando-se, sobretudo, com as contribui-ções de Birbaum, Lord e Novick em 1968. A elabora-ção de programas de computadores que realizam análises baseadas na TRI incrementou ainda mais a uti-lização desta teoria, principalmente por facilitar os cál-culos que seriam muito complexos se fossem realizados manualmente. Conquistou inúmeros adeptos nas áreas

de psicologia e educação devido ao fato degfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAo fe r e c e r r e -c u r s o s m a i s j l e x í v e i s e e fi c a z e s n a c o n fe c ç ã o , a n á l i s e e

a p r e s e n t a ç ã o d o s r e s u l t a d o s d e p r o v a q u e q u a i s q u e r o u t r o s r e c u r s o s e q u i v a l e n t e s , d e r i v a d o s a p a r t i r d a t e

-o r i a c l á s s i c a (Fletcher, 1994, p.21).

O centro desta teoria está

n a r e l a ç ã o q u e e s t a b e l e c e e n t r e a s c a r a c t e r í s -t i c a s d o s i -t e n sea s c a r a c t e r í s t i c a s o p e r a c i o n a i s d a p r o v a c o m p o s t a d e s s e s i t e n s . E m s u a e s s ê n -c i a , e s t a r e l a ç ã o é i n v a r i á v e l e p e r m a n e n t e , n ã o d e p e n d e n d o d o n ú m e r o d e i t e n s d a p r o v a , d o s u b c o n j u n t o d e i t e n s s e l e c i o n a d o s o u d a s h a b i -l i d a d e s d a s p e s s o a s q u e p a r t i c i p a m d a p r o v a . Q u a i s q u e r o u t r o s r e s u l t a d o s c o m p a r á v e i s a d v i n d o s d a t e o r i a c l á s s i c a s e r v e m a p e n a s p a r a t e s t e s h i p o t é t i c o s d e u m a i n fi n i d a d e d e i t e n s a p l i c a d o s a u m a ú n i c a p o p u l a ç ã o p a d r ã o

(Fletcher, 1994, p. 23).

O processo de medida feito através da TRI par-te da suposição de que exispar-te no sujeito um traço (uma característica individual que determina sua forma de res-ponder ao teste), que possui uma relação probabilística com cada um dos itens utilizados. Om o d e l o d e r e s p o s -t a q u e fu n d a m e n -t a a t e o r i a d a r e s p o s t a a o i t e m p e r m i t e a o a n a l i s t a p r e v e r a p r o b a b i l i d a d e d e a c e r t o d e u m a p e s s o a c o m d e t e r m i n a d a h a b i l i d a d e r e p r e s e n t a d a p e l o

r e s u l t a d o d a p r o v a (Fletcher, 1994, p. 23).

Os parâmetros de cada item não dependem, em absoluto, dos outros itens do teste, ao contrário, a pon-tuação do teste se faz em função das respostas do

(5)

[n -zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

as

rI~ 1

-er ta

lI

- a-m :i-

11-)s

1S

e-e

?r ~

- s-is

7-BA

ia 10

i-1 .

is

'Q

lSgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

' o

'-a

;-a

e

a o

n

,-to a cada item e dos parâmetros de cada item. Coloca-se assim, itens e pessoas na mesma escala de deColoca-sempe- desempe-nho. Assim, pode-se afirmar se as pessoas são mais ou menos hábeis e se os itens são mais ou menos difíceis, na mesma escala de uma característica latente subjacente.

A relação entre os valores da variável que é medida pelo item e a probabilidade de acertá-lo é des-crita por uma função matemática denominada C u r v a

C a r a c t e r í s t i c a d o I t e m ( C C I ) . A CCI relaciona a

proba-bilidade de êxito em um item com a capacidade medi-da pelo conjunto de itens que o teste contém (Gavíria,

1995). São as propriedades desta função que fazem a diferença entre a TRI e TCT.

São os seguintes os pressupostos da TRI, se-gundo Gavíria (1995):

a) unidimensionalidade: o grupo de itens deve medir uma mesma variável. Assim, ao elaborar-se um teste, define-se, previamente, os traços que se deseja avaliar, e se supõe que estes possuem as dimensões ne-cessárias para descrever a característica estudada. Ge-ralmente espera-se que um só traço seja necessário para explicar ou dar conta da atuação do indivíduo no teste. Para comprovação da unidimensionalidade utiliza-se, geralmente, a análise fatorial;

b) independência local dos itens e dos su-jeitos: supõe-se que a resposta de um sujeito a um item não é influenciada pelas respostas fornecidas a outros itens. Segundo Hambleton, Swaminathan e Rogers (1991), se a unidimensionalidade é compro-vada, disto deriva, matematicamente, a independên-cia local entre os itens, dado que os dois conceitos são equivalentes.

A independência local entre sujeitos dá-se quan-do o rendimento de um sujeito que responde a um teste é independente do rendimento dos outros (Gavíria, 1995).

CURVA CARACTERÍSTICA DO ITEM (CCI)

A Curva Característica do Item (CCI) representa os parâmetros típicos do mesmo, fornecendo-lhe uma identidade própria. Apresenta-se em três modelos dife-rentes, nos quais podem ser observados parâmetros que caracterizam as qualidades técnicas dos itens, inde-pendentes da população investigada. Esses parâmetros representam a dificuldade, o poder discriminativo e a proporção de acertos casuais.

O tipo de CCI utilizado na TRI é do tipo "S", que representa o modelo idealizado. No eixo das abcissas está indicado o nível do sujeito na variável observada (traço latente) designada pela letra grega

-~ :..

B C H -U F ~

P E R IO D \C O S

e

(theta), cujo valor pode variar de -o ; a +c c : A pro-babilidade de responder corretamente ao item, dado por P(8), está indicada no eixo das ordenadas.

Os três parâmetros representados em uma CCI, correspondem aos seguintes aspectos:

1. discriminação (parâmetro a ): determina-do pelo ponto máximo da inclinação da reta, seu valor é proporcional a esta pendência, e quanto maior a incli-nação, maior será o índice de discriminação;

2. dificuldade (parâmetro b ): é um parâmetro de posição do item na escala de 8, informando em que parte da escala se encontra o ponto de inclinação máxi-ma da curva. Também informáxi-ma em qual parte da escala de 8 se dá a transição desde uma maior probabilidade de responder incorretamente ao item, a uma maior pro-babilidade de respondê-Io corretamente (Gavíria, 1995);

3. acerto ao acaso (parâmetro c ): representa a probabilidade de acertar o item ao acaso, isto é, "quan-do não se tem certeza da resposta certa". Gavíria (1995), diz que os examinandos, na incerteza, buscam indícios indiretos que podem orientá-Ios na localização da op-ção correta.

DESCRIÇÃO DOS MODELOS DE CCI's

As informações contidas nas CCI's, a respeito dos parâmetros métricos dos itens, dependem do mo-delo teórico escolhido. O mais simples foi sugerido por G. Rasch em 1960 e recebeu o nome dem o d e l o l o g i s t i c o

d e u m p a r â m e t r o . Contém o presuposto de que a

proba-bilidade de acerto de um item é influenciada pela sua dificuldade. Sua formulação matemática é:

eD (8 -b ;l

~ (e )

=

1

D (8 -b \ , onde:

+ e '

PI(e ): probabilidade de acertar o item jpara um

deter-minado valor de

e ;

e:

valor da variável medida; b: índice de dificuldade do item i; e: base dos logaritmos neperianos (2,72);

D: constante de valor 1,7(com este valor, a função logística aproxima-se notavelmente da curva normal padronizada).

O segundo tipo, denominado m o d e l o l o g i s t i c o

d e d o i s p a r â m e t r o s , foi apresentado, por volta de 1968,

por A. Birnbaum. Neste modelo, a probabilidade de acerto de um item é influenciada pela sua dificuldade e discriminação. Sua definição matemática é:

(6)

eBAD a ;(8 -b ;)

P2C B )zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

=

1 D a .(8 -h )' onde P2(B ), B , b, e, O

assu-+ e ' ,cbaZYXWVUTSRQPONMLKJIHGFEDCBAI

mem o mesmo significado do modelo de um parâmetro. Sua diferença está no aparecimento, na sua formula-ção, do índice de discriminação do item (a).

Por último, o m o d e l o l o g í s t i c o d e t r ê s p a r â

-m e t r o s , também desenvolvido a partir dos trabalhos

de A. Birnbaum. Assume que a probabilidade de acer-to de um item é influenciada pela sua dificuldade, dis-criminação e probabilidade de acerto ao acaso. Em termos matemáticos, o modelo é expresso por:

h, e, O possuem o mesmo significado dos modelos aqui

men-I

cionados, e c; indica a probabilidade de acerto ao acaso.GFEDCBA

•.. "-:1

. r> - •.•

----.--.-~_ I'w/x~e

.t·VUTSRQPONMLKJIHGFEDCBA

. 6 l 'j i l l l i H i

.;,

.4

...-. s > :

.3'

.2

.1

f

I

0 1 I ,

1'"

-3 -2 -1 D J

::· .I" 'a l:t G

2

Para ilustrar o exposto, é mostrada a represen-tação gráfica dos três parâmetros de um item hipotéti-co, descritos através de sua CCI.

A CCI informa que:

• a dificuldade (parâmetro illtem valor 0,87; • a discriminação (parâmetro ]i) tem valor -0,60; • a probabilidade de acerto ao acaso

(parâmetro f) tem valor 0,31;

• a partir do valor deQa probabilidade de acer-to ao item (P(8» aumenta proporcionalmente ao nível de aprendizagem (8), assim, os itens não são considerados réplicas uns dos outros;

• o item consegue discriminação máxima para os valores de 8 entre -0,60 (valor deQ ) e 0,87 (valor de g), ou seja, é útil para discriminar os sujeitos com nível de aprendizagem (8) neste intervalo;

• independentemente dos níveis de aprendiza-gem dos respondentes (valores de 8) a proba-bilidade de acerto é a mesma, ou seja, para um respondente que tenha 8=2,0 a probabilidade de acerto ao item, dada por P(8), está no inter-valo entre 0,67 [p(8)inf] e 0,95 [P(8)sup], que é o mesmo intervalo para um sujeito que tenha 8=-2,0. Ou seja, os parâmetros métricos dos itens são invariantes, não dependendo dos ní-veis de aprendizagem (8) dos respondentes.

O B J E T IV O D O T R A B A L H O

Efetivar, através de estudo de casos, uma análi-se comparativa entre a TCT e a TRI considerando:

• o desempenho dos respondentes; • os parâmetros métricos dos itens .

M E T O D O L O G IA

Os dados que originaram este estudo são resul-tantes da Avaliação da Qualidade do Ensino das Esco-las Públicas do Estado do Ceará, realizada em 1996, através da Fundação Cearense de Amparo à Pesquisa (FCPC), sob o financiamento da Secretaria Estadual de Educação e Cultura (SEDUC) do Estado do Ceará .

A m o s tr a

Foi constituída por oito alunos da 8~série, sen-do quatro homens e quatro mulheres, com idades entre 14 e 21 anos. Quanto ao critério de escolha, foram sele-cionados quatro respondentes com desempenhos dois desvios padrões acima da média (representantes do gru-po superior-GS) e quatro com desempenhos dois desvi-os padrões abaixo da média (grupo inferior-GI).

In s tr u m e n to

Utilizou-se um teste de português,' destinado aos alunos da 8! série, composto por 25 questões fecha-das seguifecha-das, cada uma, de cinco opções de resposta. O tempo limite destinado à resolução foi 90 minutos.

I O teste foi elaborado com base na proposta curricular da SEDUC para a disciplina português (8a série). A avaliação dos processos

cognitivos exigidos em cada uma das 25 questões foi baseada na Taxonomia de B. Bloom.

(7)

P r o c e d im e n tozyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

A coleta de dados efetivou-se através da apli-cação coletiva do teste de português em 7 576 estudantes de escolas públicas do Estado do Ceará. Conco-mitantemente foram aplicados, nos citados alunos, um teste de matemática e um questionário sobre os profes-sores dessas disciplinas.

R e s u lta d o s

Como se trata de um trabalho que visa compa-rar a interpretação dos resultados obtidos pelos respondentes e dos parâmetros métricos 'dos itens, se-gundo TCT e a TRI, é apresentada, inicialmente, a ma-triz de respostas dos oito sujeitos às 25 questões do teste de português.

Quadro 2: Síntese do desempenho dos respondentes segundo a TCT

RESPONDENTE DESEMPENHO (TCT)cbaZYXWVUTSRQPONMLKJIHGFEDCBA

A B C D E F G

H

3 3 3 18 18 18 2 18

Utilizando, inicialmente, a TCT para interpre-tar os resultados, pode-se descrever o desempenho dos respondentes:

Quadro 1 - Matriz de respostas dicotomizadas dos oito sujeitos

Q u E S T Õ E S

S I 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 W 21 U D M D

A o o o o o o o I I o I o o o o o o o o o o o o o o

B o o I o o o o I o o o o o o o o I o o o o o o o o

C I o o o o o o I o o o o o o o o o o o I o o o o o

o 1 1 o 1 1 I 1 o 1 I I 1 I o o o I I 1 o I o I I I

E 1 I o o 1 1 o I 1 I I I I I o o I I I o I I o I I

F I I I I I o o I I I I I I I I I I o o I o o I o I

G I o o o u u u o o o o o u o I I o o o o o o o o o

H I I o I I I I I

I I I I I o o I I o I U o o I o

Legenda: S=sujeito.

A matriz fornece os acertos, representados pelo alga-rismo um (1), e os erros, pelo zero (O). As análises, a

seguir, objetivam a comparação da TCT com a TRI.GFEDCBA

ANÁLISE DO DESEMPENHO DOS RESPONDENTES

A síntese do desempenho' dos respondendentes é apresentada no quadro abaixo.

• D, E, F e H, obtiveram 18 acertos. São os represen-tantes do GS;

• A, B, e C, obtiveram três acertos. Já o respondente G obteve apenas dois acertos. São os re-presentantes do GI.

Após a descrição, pode-se hierarquizar os respondentes, segundo os desempenhos individuais. As-sim, os sujeitos D, E, F e H encontram-se no mesmo nível de aprendizagem, porém, superior aos sujeitos A, B e C. Por sua vez, tais sujeitos encontram-se, também, no mesmo nível de aprendizagem, porém superior ao respondente G.

2 Na TCT o desempenho é resultante do somatório dos acertos obtidos no conjunto de itens (teste).

(8)

De acordo com o procedimento adotado para a descrição do nível de aprendizagem, em cada que cada acerto equivale a um ponto e o somatório dos acertos revela o desempenho dos respondentes no teste, apre-senta-se o primeiro problema da TCT, já mencionado anteriormente:gfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

• o t r a t a m e n t o d o s i t e n s c o m o " r é p l i c a s " u n s d o s o u t r o s .

o

acerto aos itens obtém sempre um mesmo valor numérico. Ora, teoricamente, cada item exige um determinado nível de aprendizagem para que seja re-solvido a contento, ou seja, exige processos cognitivos diferenciados. Se a afirmação é verdadeira, por que quando são acertados recebem o mesmo valor numéri-co? Ou em outros termos: é pertinente dar o mesmo valor numérico para um item que exige um processo cognitivo simples e, igualmente, para outro que exige um processo mais complexo?

Para continuar com o raciocínio, tome-se ou-tro exemplo, desta vez considerando o nível de difi-culdade do item. Na TCT a difidifi-culdade de um item é determinada pelo percentual de acerto que o mesmo obtém. Assim:

• os itens 1 e 8 obtiveram 75% de acerto entre os oito respondentes. De acordo com esse valor percentual, pode-se afirmar que são itens fáceis.'

Porém, ao separar-se os respondentes em gru-pos, GS e GI, os resultados modificam-se:

• para o GI, o item 1 passa a ser de dificuldade média, já que 50% dos seus componentes o acertaram (sujeitos C e G). O item 8 continua a ser fácil, já que foi acertado por 75% dos sujeitos (A, B e C);

• para o GS, os itens 1 e 8 são fáceis, pois todos os seus componentes os acertaram.

Essa interpretação, quanto à dificuldade dos itens, revela o segundo problema da TCT, também men-cionado anteriormente:

• i n e x i s t ê n c i a d e i n v a r i â n c i a d a s p r o p r i e d a d e s

m é t r i c a s d o s i t e n s e , p o r c o n s e g u i n t e , d o i n s t r u m e n t o .cbaZYXWVUTSRQPONMLKJIHGFEDCBA

Éa prova empírica de que as características dos itens e, por conseguinte, do teste, dependem da amos-tra utilizada para a sua determinação.

A partir de agora a análise dos resultados é fei-ta considerando-se a TRI. Para tanto, é apresentada a síntese do desempenho" dos respondentes.

Quadro 3: Síntese do desempenho dos respondentes segundo a TRI

RESPONDENTE DESEMPENHO (TRI)

A B C

D E F G H

-1,37 -1,68 -1,33 2,21 2,66 1,66 -1,55 2,41

De acordo com o desempenho individual, de-terminado através do uso da TRI, pode-se afirmar que: • D, E, F e H obtiveram os mais elevados de-sempenhos e continuam representando o GS;

• A, B, C e G obtiveram os mais baixos desem-penhos e continuam a representar o GI.

Hierarquizando os respondentes, segundo o de-sempenho individual, obtém-se a seguinte distribuição:

• E, H e D possuem os desempenhos mais ele-vados e estão no mesmo nível de aprendizagem, isto é, possuem 8> 2,0;

• F está num nível inferior aos sujeitos E, H e D, isto é, possui 1,5 < 8 < 2,0;

• C, A, G e B possuem os mais baixos desem-penhos, isto é, 8<-1,0.

Observa-se que F possui nível de aprendiza-gem (8) inferior aos sujeitos E, H e D. No entanto, acertou o mesmo número de itens: 18! Como expli-car essa aparente contradição entre tais informações? Há que se recorrer às CCl's. É pertinente esclarecer que as CCI s foram determinadas utilizando-se os 7576 participantes da Avaliação da Qualidade do Ensino das Escolas Públicas do Ceará, pois é impensável determiná-Ias utilizando as respostas de apenas oito sujeitos.

) Foram adotados os seguintes níveis de dificuldade: entre 0% e 30% de acerto o item é difícil; entre 31 % e 70% o item é de dificuldade

média e entre 71 % e 100% o item é fácil.

4 O desempenho dos respondentes é obtido através da probabilidade de acertar o item (P(9)), que, por sua vez, é influenciada pelos

parâmetros dos itens @,Q e0 ,de acordo com o modelo que se adequa à distribuição dos dados.

(9)

~fei-da a

le-ie:

le-cbaZYXWVUTSRQPONMLKJIHGFEDCBA

n

-

e-o:

e-é,

e

1

-"

A seguir são apresentadas as CCI' s dos itens 1 e 4.

Ü:f\JCai~ •.·lalS!:!C<Õ:do ltc.n c h ..nção de 1;\t{m:1<l,.-ju

PmlJ;~I",)o,.'fa.1 0"''

~ --,-... '. I.l" ,' •••• ~.

'-r--o.

o.gfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

0 . 7

CI.!-O . !

o .• o.

o.BA

O .:

o

l.$C3lol'l

-3 · 2 - 1

Como dito, os valores dos parâmetros métri-cos dos itens (ª, 1 2e f) e o desempenho dos sujeitos (isto é, o nível de aprendizagem ou O) estão numa mesma escala. Assim, a CCI do item 1 informa que a discriminação ( 1 2 ) possui valor -1,10, isto é, apenas os indivíduos que possuam níveis de aprendizagem (O) próximos a este valor poderão acertá-Io. De fato, de acordo com a matriz de respostas dicotomizadas (qua-dro 1), pode-se observar que apenas os sujeitos A eB não conseguiram acertá-Io, já que possuem 0<-1,10 (Quadro 3). Ou seja, têm conhecimento inferior ao exi-gido pelo referido item.

Prosseguindo com o raciocínio, pode-se fazer a seguinte indagação: por que, então, os sujeitos C e G conseguiram acertá-Io, já que também possuem 0<-1,10? Para responder a contento tal questão, deve-se considerar o valor do parâmetro f (probabilidade de acerto ao acaso). Observa-se que o valor de f foi 0,36, isto é, os sujeitos que possuem nível de aprendizagem inferior ao exigido pelo item (O em tomo de -I, I O) têm 36% de chances de acertá-lo, através de respostas alea-tórias ou "no chute".

Retomando ao caso do respondente F, muito provavelmente, acertou o item 4 ao acaso, visto que seu nível de aprendizagem (0= 1,66) é inferior ao valor do parâmetro de discriminação (b=2,05). Além disso, o valor do parâmetro f (probabilidade de acerto ao aca-so) é bastante elevado (c=0,38) no comentado item.

Sobre os parâmetros métricos dos itens, deter-minados através da TRI e representados pelas CCI' s, pode-se comentar o seguinte:

• o modelo que melhor se ajustou à distribui-ção empírica dos resultados foi o de três parâmetros e, por conseguinte, para todos os 25 itens do teste foram determinadas a dificuldade (parâmetro ª), a

discrimi---~--,"...-..

-.

':4 .C Hu -1 ..)I t~-("",

PE

t--.~O·

.'j

''.'~ !-,...

U I \ . . I U ~

l erva CJ::!l':c:nS!ic~: Jo ltcm c:'UII~:iO~:; l;!hm:lól~;1ll Jo'."III~~.X,s.., •• 1 . ~ I

L

o.

o .

o.

o.

o.

o.

o.

o.

O . !

{

· 3

nação (parâmetro 12) e a probabilidade de acerto ao aca-so (parâmetro f);

• os valores de ª-e Q.estão na mesma escala de O, permitindo, dessa forma, uma análise qualitativa acurada do desempenho, ou seja, do nível de aprendi-zagem (O);

• a determinação empírica da probabilidade de acerto ao acaso (parâmetro f) enriquece as análises qua-litativas baseadas no valor de O;

• não há tratamento dos itens como réplicas uns dos outros, visto que, para cada item há uma determi-nada probabilidade de acerto (P(O)), que, por sua vez, é estabelecida em função da dificuldade, discriminação e probabilidade de acerto ao acaso;

• há invariância das propriedades métricas dos itens, isto é, um item exige sempre o mesmo valor de O para ser acertado, que é expresso por P(O), independendo, dessa maneira, do nível de aprendiza-gem do respondente (ver comentário feito ao final da seção 3.2 deste trabalho).GFEDCBA

CONSIDERAÇOES

FINAIS

A adoção do modelo TRI para a criação de bancos de itens, a partir da determinação dos seus parâmetros métricos, é uma tendência universal em áreas como a educação e a psicologia (Hambleton,

1990). Apesar dessa constatação, os psicometristas e pedagogos brasileiros ainda "engatinham" na ati-vidade de utilização do mencionado modelo (Pasquali, 1997) .

Diante disso, nada mais adequado que apre-sentar algumas vantagens de organizarem-se bancos de itens utilizando o modelo TRI. De acordo com Fletcher (1994):

(10)

. . . t a l v e z o a s p e c t o m a i s i m p o r t a n t e d a n o v a t e o -r i a é a p -r o m e s s a d e fo r n e c e r m e d i d a s i n v a -r i a n t e s d o d e s e m p e n h o c o g n i t i v o , q u e n ã o d e p e n d e m d o s i t e n s q u e c o m p õ e m a p r o v a o u d a s p e s s o a s i n v e s t i g a d a s n a a m o s t r a .

. . . A c a l i b r a ç ã o fo r n e c e a c a d a i t e m , p a r â m e t r o s q u e c a r a c t e r i z a m s u a s q u a l i d a d e s t é c n i c a s , i n -d e p e n -d e n t e s d a p o p u l a ç ã o i n v e s t i g a d a . . . . S e n -d o i n v a r i a n t e s , e l e s n ã o d e p e n d e m d a a m o s t r a s e l e c i o n a d a p a r a fi n s d e c a l i b r a ç ã o . S e n d o i n v a r i a n t e s , p o d e m s e r a p l i c a d o s a q u a l q u e r o u t r a p o p u l a ç ã o , p r o p o r c i o n a n d o r e s u l t a d o s n a

m e s m a e s c a l a d e h a b i l i d a d ezyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA(p. 24).

Para finalizar, são citadas algumas palavras de Pasquali (1997) a respeito do uso da TRI:

U m a d a s c o n s e q ü ê n c i a s m a i s r a d i c a i s d a T R l n o c a m p o d o s t e s t e s c o n s i s t e e m q u e o o b j e t i v o b á s i c o n e s t a á r e a n ã o r e s i d e e m e l a b o r a r e v a -l i d a r t e s t e s o u i n s t r u m e n t o s , c o m o s e fa z i a t r a -d i c i o n a l m e n t e , m a s c o n s i s t e e m e l a b o r a r e v a l i d a r t a r e fa s , i t e n s . . . A s s i m , oo b j e t i v o fi n a l d e s t e m o d o d e p e n s a r e m i n s t r u m e n t a ç ã o c o n

-s i -s t e n a c r i a ç ã o d e b a n c o s d e i t e n s p a r a c a d a

t r a ç o l a t e n t e e , a p a r t i r d e s s e b a n c o , c o n s t r u i rcbaZYXWVUTSRQPONMLKJIHGFEDCBA

o st e s t e s a d a p t a d o s a c a d a s u j e i t o r e s p o n d e n t e . A s s i m , a t a r e fa d o p s i c o m e t r i s t a j á n ã o s e r á m a i s d e v a l i d a r e n o r m a t i z a r t e s t e s e s i m d e p a r a m e t r i z a r t a r e fa s o u i t e n s . C o m i s s o s e q u e r d i z e r q u e a t a r e fa c o n s i s t e e m r e d i g i r a c a r t e i -r a d e i d e n t i d a d e d e c a d a i t e m , c o n t e n d o o ss e u s p a r â m e t r o s d i s t i n t i v o s , t a i s c o m o os e u c o e fi c i -e n t -e d -e v a l i d a d -e ( a c a r g a n o t r a ç o l a t e n t e ) , s e u í n d i c e d e d i s c r i m i n a ç ã o , n í v e l d e d i fi c u l d a d e , s e u í n d i c e d e d i s fu n ç ã o c u l t u r a l ( D I F ) , e o u -t r o s . . . é d e s e p r e v e r q u e e s -t a s e r á a -t e c n o l o g i a d o fu t u r o n a á r e a d o s t e s t e s . C o n s e q ü e n t e m e n -t e é n e l a q u e o p a í s d e v e i n v e s -t i r , oq u e c o n c r e -t a m e n -t e s i g n i fi c a e m i n v e s t i r n a e l a b o r a ç ã o d e

b a n c o s d e i t e n s (pp. 59-60).VUTSRQPONMLKJIHGFEDCBA

R E F E R Ê N C IA S B IB L IO G R Á F IC A S

ANDRlOLA, Wagner B. Inteligência, Aprendizagem e Rendimento Escolar segundo a Teoria Triárquica da Inteligência (TIl). E d u c a ç ã o e m D e b a t e , 35 (1 ), p. 75-80, 1998.

ANDRIOLA, Wagner B. & BARRETO, José A. E. Análise métrica de instrumento de medida da apren-dizagem através da Teoria de Resposta ao Item (TRI). E n s a i o , 5,jan-mar, 1997.

BARRETO, José A. E. Avaliação: mitos e armadilhas.

E n s a i o , I (1 ), p. 46-48, out-dez, 1993.

BRYMAN, Alan & CRAMER, Duncan. A n á l i s e d e d a d o s e m C i ê n c i a s S o c i a i s . I n t r o d u ç ã o à s t é c n i c a s

u t i l i z a n d o o S P S s . Oeiras: Celta Editora, 1992.

DIAS, Mardonio R. 1997.A n á l i s e fa t o r i a l : u m a i n t r o

-d u ç ã o . João Pessoa: Universidade Federal da

Paráiba. Manuscrito não publicado.

FERNÁNDEZ, José M.T e o r i a d e R e s p u e s t a a i o s Í t e m s . U n n u e v o e n fo q u e e n I a e v o l u c i ó n p s i c o l ó g i c a y

e d u c a t i v a . Madrid: Ediciónes Pirámide S.A., 1990.

FLETCHER, Philip R. A Teoria da Resposta ao item: medidas invariantes do desempenho escolar. E n s a i o . A v a l i a ç ã o eP o l í t i c a s P ú b l i c a s e m E d u c a ç ã o , 2 (1 ),

p. 21-28,jan-mar. 1994.

GA VÍRlA, José L.B r e v e i n t r o d u c c i ó n a I a P s i c o m e t r i a .

P r i n c i p a l e s T e o r i a s . Madrid: Universidad

Complutense de Madrid, 1995. Manuscrito não pu-blicado.

HAMBLETON, R. K. Item response theory: a broad psychometric framework for measurement advances. P s i c o t h e m a , 6 (3), p. 535-556, 1994.

HAMBLETON, R. K., SWAMINATHAN, H. & ROGERS, H. J. F u n d a m e n t a i s o f I t e m R e s p o n s e

T h e o r y . North Caroline: Sage Publications,

1991.

MuNIZ, J. & HAMBLETON, R.K. Medio siglo de Teoría de Respuestas aios Ítems. A n u a r i o d e P s i

-c o l o g i a , 5 2 , p. 41-66, 1992.

PASQUALI, Luiz. O investimento em Testes Psicoló-gicos. A n a i s d o I C o n g r e s s o I b e r o - A m e r i c a n o d e

A v a l i a ç ã o P s i c o l ó g i c a ( p . 5 9 - 6 0 ) . Porto Alegre:

PUCRS, 1997.

POPHAM, William J.M a n u a l d e a v a l i a ç ã o : regras prá-ticas para o avaliador educacional. Petrópolis, Vo-zes, 1977.

SILVA, Céres Santos. M e d i d a s ea v a l i a ç ã o e m e d u c a

-ç ã o . Petropólis, Vozes, 1992.

TYLER, Leona E. T e s t e s e m e d i d a s . Rio de Janeiro, Zahar Editores, 1981.

VIANNA, Hera\do M. T e s t e s e m E d u c a ç ã o . São Paulo: IBRASA, 1982.

Referências

Documentos relacionados

— escolha de um nome adequado para guardar este novo exerc´ıcio, na base de dados dos exerc´ıcios, tornando-se automaticamente dispon´ıveis para toda a comunidade (isto ir´a gerar

Eu vim tentando mostrar que há algo porque há seres que são necessários, a saber, o espaço, o tempo e as leis naturais básicas; e, assim, não poderia haver nada. E que as

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

Objeto: Objeto: Pregão Eletrônico - Contratação de empresa especializada para a prestação de serviço de organização de eventos para a realização dos

Para os clientes do estado de Santa Catarina, devido ao envio do selo ao TJSC, são solicitados mais dados a serem informados para um cadastro de solicitante, assim

Além de demonstrar seu interesse e admiração por poetas modernos, como Vicente do Rego Monteiro, Manuel Bandeira e Aloísio Magalhães, Paulo Bruscky também ressalta trabalhos

Prejuízo estético, em grau médio ou máximo, quando atingidos crânios, e/ou face, e/ou pescoço ou perda de dentes quando há também deformação da arcada

Conforme os ensinamentos de Requião (2010, p. 415), “O título é literal porque sua existência se regula pelo teor de seu conteúdo”. 415, para dar validade ao título de