ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM TESTE DE AVALIAÇÃO DE CONHECIMENTOS - UM ESTUDO DE CASO

(1)

Antonio Alves de Oliveira Filho Mariana Alves da Fonseca

ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM TESTE DE

AVALIAÇÃO DE CONHECIMENTOS - UM ESTUDO DE CASO

Curitiba, Junho de 2006

Projeto apresentado na disciplina de Laboratório de Estatística II do Curso de Estatística do Departamento de Estatística do Setor de Ciências Exatas da Universidade Federal do Paraná.

(2)

SUMÁRIO

1 INTRODUÇÃO... 4 1.1 O Problema... 4 1.2 Objetivo ... 5 1.3 Justificativa... 5 1.4 Estrutura do Trabalho ... 5 2 REVISÃO DE LITERATURA ... 6 2.1 Teoria Clássica ... 6 2.1.1 Confiabilidade de um teste... 8

2.1.2 Coeficiente de Correlação Linear de Pearson... 10

2.1.3 Coeficiente de Correlação Bisserial de Ponto... 11

2.1.4 Coeficiente de Correlação Bisserial... 11

2.2 Teoria de Resposta ao Item... 13

2.2.1 Modelos e Métodos de Estimação da TRI... 14

2.2.2 Modelo logístico unidimensional de um parâmetro ... 15

2.2.3 Modelo logístico unidimensional de dois parâmetros... 16

2.2.4 Modelo logístico unidimensional de três parâmetros ... 16

2.2.5 Métodos de Estimação na Teoria da Resposta ao Item... 17

2.2.5.1 Estimação dos parâmetros dos itens para habilidades conhecidas... 18

2.2.5.2 Estimação dos parâmetros dos itens para habilidades desconhecidas... 20

2.2.5.3 Estimação das habilidades... 21

3 MATERIAIS E MÉTODOS ... 24

3.1 Programas computacionais... 25

4 RESULTADOS E DISCUSSÃO... 28

4.1 Antes da instrução da disciplina. ... 28

4.1.1 O item mais difícil ... 28

4.1.2 O item mais fácil... 29

4.1.3 O item mais discriminante. ... 30

4.1.4 O item menos discriminante... 31

4.1.5 Estimativas dos parâmetros ... 32

4.2 Após a Instrução da Disciplina ... 35

4.2.1 O item mais difícil ... 35

4.2.2 O item mais fácil... 37

4.2.3 O item mais discriminante. ... 38

4.2.4 O item menos discriminante... 39

(3)

4.3 Comparativo Antes x Depois... 43 4.3.1 Habilidades ... 43 4.3.2 Grau de dificuldade ... 45 5 CONCLUSÃO ... 48 6 CRONOGRAMA ... 49 REFERÊNCIAS BIBLIOGRÁFICAS... 50 ANEXOS ... 52

Anexo I – Instrumento de Avaliação... 53

Anexo II – Curvas Características de todos os Itens ... 60

Anexo III - Quadro de Probabilidades... 61

(4)

1 INTRODUÇÃO

1.1 O Problema

Na educação o papel da avaliação é de fundamental importância, pois depende dela a progressão serial dos educandos e toda a sua vivência acadêmica. O instrumento de avaliação (teste, prova, etc) deve ser bem construído e os itens que o compõem devem ter as propriedades que o classifique como confiável.

Hoje em dia, no Brasil, a educação tem alguns problemas que são originários, principalmente, da desigualdade na distribuição de renda. Vários estudos apontam a evasão e a repetência como os principais problemas no Sistema Educacional Brasileiro. A evasão em alguns cursos do ensino superior é preocupante. Na área de Ciências Exatas a evasão atinge níveis superiores a 50%.

No que diz respeito à educação propriamente dita, em sala de aula, para otimizar o aprendizado do aluno é imprescindível que o educador realize periodicamente avaliação de desempenho dos educandos, assim como avaliação de seu próprio desempenho.

A adoção desse tipo de procedimento com determinada periodicidade viabiliza o constante aprimoramento no processo de orientação por parte do educador e aprendizagem por parte do aluno.

Atrelado à proposta de constante avaliação do planejamento adotado pelo educador - entenda-se por educador, além do professor de determinada disciplina/curso também a instituição de ensino onde o aluno está acompanhando este curso - se faz necessário o uso de ferramentas que permitam a avaliação fiel do que está sendo desenvolvido atualmente.

Assim, é indispensável à criação e manutenção de um sistema de mensuração de aprendizagem capaz de fornecer informações consistentes, periódicas e comparáveis. Logo, as metodologias científicas que fundamentam tal sistema devem apresentar consistência e confiabilidade nos resultados apresentados.

(5)

1.2 Objetivo

O objetivo desse trabalho é abordar as teorias da avaliação educacional, tanto a Teoria Clássica, quanto a Teoria da Resposta ao Item (TRI) nos seus vários aspectos. E, aplicá-las na análise de dados reais do ensino superior. O instrumento de avaliação usado para obtenção dos dados foi aplicado aos estudantes da disciplina CE204-Cálculo de Probabilidades I do Curso de Estatística da Universidade Federal do Paraná, antes da instrução dessa disciplina e depois da instrução da disciplina, quatro meses depois. A confiabilidade do instrumento também foi avaliada. O foco principal do trabalho está na avaliação das habilidades dos alunos em cada item.

1.3 Justificativa

Este trabalho se justifica por várias razões. Em primeiro lugar deve-se considerar que o estudo das teorias de avaliação (clássica e da resposta ao item - TRI), pelo conteúdo estatístico que as compõem necessitam ser do conhecimento dos estatísticos; por outro lado não existe um conhecimento completo sem uma aplicação real que motive os resultados teóricos e finalmente, a análise do instrumento de avaliação em uma disciplina fundamental do Bacharelado em Estatística fornece informações relevantes, tanto para os professores, quanto para a Coordenação do Curso.

A avaliação tem que se adequar a uma situação de real preocupação com o aluno e oferecer elementos para que alunos e professores possam esclarecer os seus reais propósitos, o que pretendem efetivamente conseguir e principalmente que a avaliação se torne uma motivação para a aprendizagem e o direcionamento correto dos educandos e também dos professores, por isso acreditamos que este trabalho possa contribuir de maneira positiva na reflexão da realidade acadêmica.

1.4 Estrutura do Trabalho

Neste trabalho consta, além dessa introdução, uma revisão da literatura sobre o tema no segundo capítulo, material e métodos no 3° _{capítulo, resultados e discussão}

(6)

2 REVISÃO DE LITERATURA

A revisão de literatura aborda livros e artigos que constam da bibliografia, a seguir, e que tratam dos seguintes assuntos:

• Teoria Clássica da Avaliação - Medidas da confiabilidade de um teste - Coeficientes de correlação serial, bisserial e de Pearson.

• Teoria da Resposta ao Item.

2.1 Teoria Clássica

É bem conhecido que avaliação educacional, assim como suas medidas, começaram a tomar corpo com os trabalhos de Ralph W. Tyler, principalmente aquele publicado no início da década de 40. A partir do trabalho de Tyler, surgiram vários modelos de avaliação tais como o de Hammond, o de Metfessel e Michael em 1967, e também os programas de avaliação da década de 1970, como o National Assesment of Educational Progress entre outros. Heraldo M. Vianna descreve muito bem as idéias que dominam estes trabalhos no seu livro de 1988. O trabalho de Cronbach de 1963, propõe várias direções para trabalhos futuros em avaliação educacional. Cronbach nesse trabalho estuda o relacionamento entre a avaliação e a tomada de decisão. E, ainda, verifica que uma boa decisão só ocorre quando o problema que provoca a decisão está bem avaliado; descreve as várias faces da avaliação educacional e aborda, também, a questão da performance do educando como indicador da qualidade do curso.

Segundo Ralph W. Tyler o objetivo principal da avaliação é verificar de tempos em tempos o desempenho da escola na educação dos alunos. Conseqüentemente este processo favorece uma reflexão, por parte dos educadores, e correção do rumo dos objetivos educacionais. Como os objetivos educacionais da escola pretendem alcançar a formação plena do aluno, é de fundamental importância se ter informações que possam conduzir a uma orientação eficiente durante o processo educacional. E, essas informações só podem ser fornecidas por avaliações eficientes. Ainda, segundo Tyler em Viana, o processo de avaliação sistemática favorece a identificação e correção de vários problemas educacionais que podem estar presentes na comunidade escolar.

(7)

Segundo Cronbach, em Viana, a avaliação é uma atividade que tem várias formas e conseqüentemente provoca vários tipos de decisões. Ainda, Cronbach em Viana afirma que avaliação conduz a:

• Verificar se a prática didática pedagógica, bem como o material de instrução, são eficazes;

• Identificar as dificuldades dos educandos e conseqüentemente a um planejamento educacional adequado;

• Verificar a eficiência do processo educacional como um todo, ou seja, métodos e professores.

Ainda, segundo Cronbach em Viana, a avaliação visa a melhoria do ensino e deve ter como objetivo principal verificar os resultados do ensino no comportamento do educando. De modo que a avaliação, quando bem analisada, aponta as componentes do ensino que necessitam de um re-trabalho. E, a comparação de cursos deve ser feita com muito cuidado, pois existem diferenças não só entre os educandos dentro dos grupos em comparação, como também, e principalmente, entre os grupos.

Hoje em dia pode-se traçar um paralelo entre o processo de ensino e avaliação com o chamado ciclo de Shewhart também conhecido como ciclo PDCA, das palavras em inglês que significam planejar, fazer, avaliar e realimentar. O ciclo PDCA é muito utilizado na economia visando o aperfeiçoamento dos processos de produção. Seguindo este ciclo, o que se deve fazer é planejar uma ação, aplicá-la, verificar os resultados e realimentar o planejamento e continuar sucessivamente e continuamente, de modo a que se alcance um aperfeiçoamento continuo do processo de ensino na sua forma plena. A figura 01 representa bem este ciclo:

(8)

Finalmente, de acordo com Viana, pode-se concluir que Ralph W. Tyler trata da avaliação educacional tendo em vista os objetivos que devem ser fixados levando-se em conta o estudante, a sociedade e o conteúdo. Já Cronbach considera que a avaliação educacional exige evidências dos resultados, deve determinar as mudanças que ocorreram no educando por força do ensino, e, ainda, que a análise dos itens de forma isolada é mais útil que simplesmente um escore total.

O processo educativo é dinâmico e composto por etapas. Então, a avaliação educacional tem que corresponder a cada fase e conseqüentemente tem as seguintes modalidades:

• Diagnóstica, que é feita quando da entrada do educando no sistema e conseqüentemente suas limitações devem ser identificadas para subsidiar o planejamento do ensino;

• Formativa, que é feita durante todo o processo de ensino e aprendizagem de modo a que os educadores possam controlar todo o processo e fazer as correções que se façam necessárias;

• Somativa, que é feita quando da saída do ciclo didático, de cada unidade ou de determinada disciplina, de modo que se possa controlar a qualidade dos resultados finais.

Resumindo, a avaliação conceitualmente trata-se de uma descrição quantitativa de processos ou educandos quanto a características próprias em conjunto com juízo de valor e com objetivos bem definidos.

Quanto ao desenvolvimento, trata-se de um processo sistemático e contínuo, que envolve fins, meios, processos e os resultados, começando com o planejamento e terminando com o julgamento da eficiência do processo quanto aos resultados obtidos. Do ponto de vista de modalidades, pode-se dizer que ela é diagnóstica, formativa e somativa.

2.1.1 Confiabilidade de um teste

A confiabilidade ou fidedignidade de um teste trata da estabilidade dos resultados e é desejável que eles sejam o mais consistente possível. Então, a confiabilidade (fidedignidade) de um teste pode ser estimada pelo coeficiente de correlação entre dois conjuntos de escores obtidos, independentemente, para um mesmo grupo.

O conceito de confiabilidade está associado com a idéia estatística de consistência. Mas, confiabilidade não significa um desempenho ideal sem falhas. Na

(9)

verdade existe uma gradação na confiabilidade, não sendo necessariamente tudo ou nada.

Um teste é confiável dependendo de três fatores: do teste por si mesmo, das condições de aplicação e do grupo de examinandos. Assim, a interação entre esses três fatores determina a confiabilidade do teste.

A confiabilidade é usada para descrever e avaliar os escores que examinandos obtêm em testes educacionais e é dada pela seguinte expressão:

fi = ₂ yˆ 2 v i i s s = ₂ yˆ 2 2 yˆ i i s s s − ε (2.1) Este coeficiente corresponde à correlação entre os escores dos testes. A estimativa indireta dessa quantidade é dada pelo coeficiente de correlação amostral entre os resultados obtidos nas duas aplicações. Mas, deve-se alertar que a estatística chamada coeficiente de correlação, embora varie de –1 a +1, deve indicar uma relação direta, ou seja, sua variação fica definida entre os valores de 0 a 1. Considerando os resultados de duas aplicações, o estimador é:

fi =

ρˆ

(X1,X2) =

∑

= = = − − − − n 1 i n 1 i 2 2 i 2 2 1 i 1 n 1 i 2 i 2 1 i 1 ) x x ( ) x x ( ) x x )( x x ( (2.2)

Um teste é composto por uma amostra de conteúdos abordados nos itens. No caso de um tamanho da amostra for muito pequeno, a chance de um examinando não ter estudado alguns daqueles poucos conteúdos será maior e isto influenciará o seu escore. Neste contexto, podemos utilizar a fórmula de Spearman-Brown, para medir a confiabilidade de um teste, porém neste estudo caso não deve ser aplicada,por se tratar de uma amostra de tamanho razoável.

Uma outra maneira de se medir a confiabilidade de um teste é aplicar a fórmula de Kuder-Richardson, indicado para este estudo, por se tratar de dados discretos e todos os itens serem dicotômicos.

A expressão desse estimador da confiabilidade é:

ρKR =

)

s

)

1 (

1 n

n

2 n 1 i i i

∑

= θ − θ − − , onde: (2.3) θ θθ

θi é a proporção dos examinandos que responderam corretamente ao item i; n é o número de itens do teste;

s2 é a variância dos escores do teste;

(10)

A estimativa da variância do teste s2_{é feita com base nos N escores dos} examinandos, conforme (2.4) :

s

2

=

1 N

)

ESC

(

N 1 i 2 i − −

∑

=

_(2.4)

A confiabilidade dos testes aplicados aos alunos da disciplina CE204 - Cálculo de Probabilidades I do Curso de Estatística da Universidade Federal do Paraná, antes da instrução dessa disciplina e depois da instrução da disciplina, foi calculado por:

ρKR(antes) = ) 16 , 8 55 , 9 1 ( 1 51 51 2 − −

= 0,87

ρKR(depois) = 7,41 ) 83 , 9 1 ( 1 51 51 2 − −

= 0,84

Note que os dois testes possuem um bom grau de confiabilidade, considerando que o nível ideal deve ser acima de 0,90. A redução da confiabilidade após a instrução da disciplina pode ser atribuída a uma variação aleatória.

2.1.2 Coeficiente de Correlação Linear de Pearson

Coeficientes de correlação são medidas utilizadas com o objetivo de verificar relação entre duas variáveis, indicando seu grau de associação.

O coeficiente mais conhecido e utilizado é o coeficiente de correlação de Pearson. Criado pelo inglês Karl Pearson, este coeficiente indica a correlação linear entre duas variáveis e seu estimador é definido pela razão entre a covariância das duas variáveis e o produto de seus desvios padrões, também equivalente à esperança das duas variáveis aleatórias padronizadas:

ρˆ (X,Y) =

∑

= = = − − − − n 1 i n 1 i 2 i 2 i n 1 i i i ) y y ( ) x x ( ) y y )( x x ( = y x xy s s S

(2.5)

O valor desse coeficiente varia no intervalo de –1 a +1. Valores positivos indicam uma associação direta entre duas variáveis, ou seja, o crescimento de uma das variáveis está relacionado ao crescimento da outra. Valores negativos acusam uma associação inversa entre as duas variáveis, indicando que o aumento na escala de uma das variáveis está associado ao decréscimo dos valores da outra.

Alguns autores apontam a existência de alta correlação quando o valor absoluto do coeficiente linear de Pearson é superior a 0,90, porém sabe-se da

(11)

existência de correlação entre duas variáveis mesmo com valores inferiores ao mencionado anteriormente. Ainda, se o coeficiente de correlação entre duas variáveis é nulo elas são não correlacionadas.

É importante ressaltar que o coeficiente de Pearson não deve ser utilizado de forma indiscriminada, pois apresenta limitações quanto à sua aplicação. Deve ser usado apenas quando as duas variáveis são contínuas, o relacionamento entre elas é linear e o número de pares de observações não for muito baixo.

Apesar de o software Bilog apresentar em suas saídas o coeficiente de Pearson, no caso deste estudo este coeficiente não deve ser considerado, pois a natureza das variáveis estudadas não é contínua.

2.1.3 Coeficiente de Correlação Bisserial de Ponto

Muito utilizado na área da educação, o coeficiente de correlação bisserial de ponto é indicado quando uma das variáveis é contínua e a outra é dicotômica. Sua interpretação é similar a do coeficiente de Pearson e é dado pela seguinte expressão:

ˆρ_pb

=

t t p s X X −−−−

_.

θ θ ˆ ˆ − − − − 1

, (2.6)

onde: p

X é a média dos escores dos examinandos que responderam ao item corretamente, t

X é a média global dos escores,

st

é o desvio padrão do teste

θˆ é a proporção de examinandos que responderam ao item corretamente.

2.1.4 Coeficiente de Correlação Bisserial

Similar ao coeficiente de correlação bisserial de ponto, este coeficiente deve ser utilizado quando uma das variáveis é discreta e a outra é dicotômica. É aplicado quando o escore está numa graduação e tem-se certo ou errado para cada item. É dado pela seguinte expressão:

b ˆρ

=

t t p s X X −−−−

_.

y ˆθ

, (2.7)

(12)

onde: p

X é a média dos escores dos examinandos que responderam ao item corretamente, t

X é a média global dos escores,

s

té o desvio padrão do teste

θˆ é a proporção de examinandos que responderam ao item corretamente.

y é a ordenada na curva Normal Padrão correspondente à área de θ

ˆ

O coeficiente de correlação bisserial corresponde ao índice de discriminação do item. O software Bilog apresenta os valores estimados para este coeficiente em suas saídas.

(13)

2.2 Teoria de Resposta ao Item

As principais ferramentas estatísticas utilizadas na avaliação educacional são a Teoria Clássica da Avaliação, também conhecida como Teria Clássica de Medidas e a Teoria da Resposta ao Item - TRI.

A Teoria Clássica da Avaliação foi desenvolvida anteriormente a TRI e contempla medidas educacionais importantes, porém apresenta algumas limitações quando comparada a outras teorias aplicadas com a mesma finalidade – a análise de avaliação educacional.

Por se tratar de uma metodologia computacionalmente complexa, devido às dificuldades de algumas análises, que exigem grande poder de processamento e avançados softwares, a utilização da TRI é recente. No Brasil os primeiros estudos envolvendo esta metodologia se deram apenas no início da década de 90.

Em conseqüência da evolução da tecnologia da informática, o desenvolvimento e a viabilidade de aplicação da Teoria da Resposta ao Item apresentaram um notável progresso na última década.

A TRI possui grandes vantagens sobre a Teoria Clássica da Avaliação. O que diferencia, de forma fundamental, as duas metodologias é que:

• a Teoria Clássica de Medidas se baseia em resultados obtidos em provas através de escores brutos ou padronizados. Esse tipo de medida apresenta uma limitação de aplicabilidade, pela dependência ao conjunto de itens que compõem o instrumento de medida. Por outro lado, os modelos matemáticos da TRI garantem a independência do item com a habilidade do examinando;

• a TRI propõe modelos probabilísticos para variáveis que não são medidas diretamente, tendo como característica principal o item, podendo-se entender por item, neste caso, cada questão da prova aplicada aos estudantes da disciplina CE204 - Cálculo de Probabilidades I, que constituem a representação da habilidade que se pretende medir. Na TRI é possível estimar a habilidade do indivíduo conhecendo-se os parâmetros dos itens; estimar os parâmetros dos itens conhecendo as habilidades dos indivíduos ou obter a estimação de ambas as medidas simultaneamente.

A Teoria Clássica, por tratar apenas o escore total de uma avaliação e não tratar os itens de um instrumento de medida individualmente não possibilita a estimação dos parâmetros relativos a cada item;

• os modelos utilizados na estimação dos parâmetros da TRI transmitem informação sobre a probabilidade do examinando, com uma habilidade específica,

(14)

acertar certo item de um teste; informação cuja obtenção não é possível se utilizada a Teoria Clássica.

Ainda, a TRI permite uma melhor análise de cada item que constitui o instrumento de avaliação, considerando algumas características, como as que medem a capacidade de discriminar os indivíduos e as dificuldades dos itens; permite conhecer, diretamente, quais itens estão produzindo a informação gerada e também permite a comparabilidade dos resultados produzidos para grupos de indivíduos diferentes, mesmo quando instrumentos parcialmente diferentes são aplicados.

A Teoria da Resposta ao Item pode ser utilizada com o propósito de avaliar o que os alunos sabem e são capazes de fazer, em diversos momentos de seu percurso escolar, permitindo comparar populações, comparar indivíduos dentro de cada população e avaliar os itens que compõem o teste e não, somente, o teste como um todo, como mencionado anteriormente.

A utilização desta nova metodologia nas avaliações educacionais vem possibilitando avanços em termos do acompanhamento do desenvolvimento escolar antes não possível, conforme afirma Valle (2001), já que hoje se pode avaliar o rendimento escolar de uma população pertencente a uma determinada série e ainda comparar os resultados de provas diferentes aplicadas em populações distintas (de uma série para outra), desde que haja itens comuns entre as provas.

Na análise dos itens usando a TRI é possível detectar em que etapa de construção dos conhecimentos os alunos se encontram, ou seja, quais os conteúdos dominados, podendo avaliar o nível de desempenho como um todo, assim como de cada item aplicado, identificando quais os temas de maior grau de dificuldade apresentado pelos alunos. Desta forma, pode-se alcançar um diagnóstico mais preciso, característica que diferencia a TRI da Teoria Clássica da Avaliação.

2.2.1 Modelos e Métodos de Estimação da TRI

Os modelos matemáticos utilizados pela Teoria da Resposta ao Item envolvem a determinação dos níveis de discriminação e dificuldade e a probabilidade de acerto ao acaso para cada item do instrumento de medida de construto.

Esses modelos se diferenciam em termos do número de parâmetros, podendo apresentar um, dois ou três parâmetros. São utilizados modelos logísticos cuja aproximação para distribuição normal é obtida substituindo, na função logística, o valor do parâmetro D de 1 para 1,7. Este fator de escala D faz com que para uma dada

(15)

habilidade (θ ) a probabilidade P(U =1|θ) seja aproximadamente a mesma nos dois

tipos de modelo e, conseqüentemente, permite que os valores das habilidades dos indivíduos sejam estimados com valores muito próximos em ambos os casos.

O modelo logístico utilizado neste estudo pressupõe a unidimensionalidade da prova aplicada, ou seja, deve haver apenas uma habilidade responsável pela realização de todos os itens desta prova, indicando o grau de desempenho do aluno. Para este estudo a habilidade responsável pela realização de todos os itens da prova pode ser descrita como o conhecimento básico em cálculo de probabilidades, envolvendo conceitos de contagem, números binomiais, análise combinatória e probabilidade.

Como os itens que compõem a prova são dicotômicos, ou seja, de respostas certas ou erradas considera-se o modelo de forma dicotômica. Os três modelos usualmente utilizados são descritos a seguir.

2.2.2 Modelo logístico unidimensional de um parâmetro

Foi criado em 1960 pelo matemático dinamarquês George Rasch e considera apenas o índice de dificuldade (bi) do item. Também conhecido como “The Rasch” é dado pela seguinte expressão:

P(Uij = 1 |

θ

j) = ₍ ₎ ) ( 1 j i i j b b e e − − + θ θ i = 1, ... ,n , j = 1, .... ,N e

θ

j

∈

R, bi

∈

R (2.8) onde:

• P(Uij = 1 |

θ

j) é a probabilidade de um examinando escolhido ao acaso e com habilidade

θ

j responder corretamente ao item i;

• bi é o parâmetro que indica o índice de dificuldade do item i; • n é o número de itens do teste;

• N é o número de examinandos que realizaram o teste;

O parâmetro de dificuldade do item pode ser alterado à medida em que os estudantes passam a realizar o teste e a responder corretamente ou incorretamente ao item. Os valores para bi variam neste modelo de -2 a +2, sendo que valores próximos a -2 são considerados itens fáceis e os valores próximos a +2 são considerados itens difíceis.

(16)

2.2.3 Modelo logístico unidimensional de dois parâmetros

Este modelo foi inicialmente proposto por Lord com base na distribuição normal padronizada e em seguida Birnbaum alterou o suporte deste modelo para a função logística. Considera apenas os índices de dificuldade e discriminação do item e é representado pela seguinte expressão:

P(Ui=1|

θ

) = ₍ ₎ ) ( 1 i i i i b Da b Da e e − − + θ θ i = 1,2, .... ,n ;

θ∈

R ; bi

∈

R e ai

∈

R e D

∈

R, ...(2.9) onde:

• P(Ui=1|

θ

) é a probabilidade de que um examinando escolhido ao acaso e com

habilidade

θ

responda corretamente ao item i;

• bié o parâmetro que indica o grau de dificuldade do item i;

• aié o parâmetro que indica o grau de discriminação do item i;

• n é o número de itens do teste;

• D é um fator de escala que aproxima a função logística da Gaussiana

2.2.4 Modelo logístico unidimensional de três parâmetros

Este modelo resultou da incorporação do parâmetro que representa a probabilidade de acerto ao acaso ao modelo de dois parâmetros. Sua forma é dada por: P(Ui=1|

θ

) = ci+(1- ci) ₍ ₎ ) ( 1 i i i i b Da b Da e e − − + θ θ i = 1,2, ... ,n;

θ∈

R; bi

∈

R; ai

∈

R;ci

∈

R+ e D

∈

R (2.10) onde,

• P(Ui=1|

θ

) é a probabilidade de que um examinando escolhido ao acaso e com

habilidade

θ

responda corretamente ao item i;

• cié o parâmetro que corresponde a probabilidade de acerto ao acaso do item i;

• n é o número de itens do teste;

(17)

A equação acima representa a probabilidade dos alunos responderem corretamente aos itens em função dos três parâmetros (a, b e c), cuja relação é demonstrada através da chamada Curva Característica do Item.

O parâmetro ci é conhecido também como parâmetro da pseudochance e, segundo, Lord todo examinando sabe responder corretamente ao item i com

probabilidade dada pela expressão acima e se não sabe, tenta acertar ao acaso com probabilidade ci.

2.2.5 Métodos de Estimação na Teoria da Resposta ao Item

Neste tópico serão verificados métodos de estimação dos parâmetros e habilidades do modelo logístico unidimensional de três parâmetros. Serão abordados os métodos que utilizam a máxima verossimilhança, mas é importante ressaltar que tais parâmetros também podem ser estimados com a aplicação da Inferência Bayesiana.

O modelo unidimensional de três parâmetros apresenta a seguinte forma:

(2.11)

onde:

•

θ

é a habilidade dp indivíduo j;

• cié o parâmetro que corresponde a probabilidade de acerto ao acaso do item i;

• D é um fator de escala que aproxima a função logística da Gaussiana

Serão consideradas as seguintes notações:

• Y.j = (Y1j , ... , Yij)’ é o vetor de respostas do j-ésimo indivíduo aos I itens ;

• Y.. = (Y’.1, ... , Y’.n)’ é o conjunto integral de respostas;

•

ζ

i = (ai , bi , ci)’ é o vetor dos parâmetros do item i;

•

ζ

= (

ζ

’1, ...,

ζ

’I )’ é o vetor dos parâmetros de todos os itens

(18)

2.2.5.1 Estimação dos parâmetros dos itens para habilidades conhecidas

Pela independência entre as respostas dos diferentes indivíduos e a independência local, podemos escrever a verossimilhança como:

(2.12)

onde na última igualdade temos que a distribuição de Yij, só depende de

ζ

através de

ζ

i. Usando a notação Pij = P(Yij = 1 |

θ

j,

ζ

i) e Qij = 1-Pij, temos que:

P(Yij = 1 |

θ

j ,

ζ

i) = P(Yij = 1 |

θ

j ,

ζ

i)yij P(Yij = 0 |

θ

j ,

ζ

i)1-yij

= Pij yij Qij 1-yij

Portanto, a verossimilhança pode ser descrita como:

(2.13)

Aplicando o logaritmo natural:

(2.14)

O vetor escore (equações de estimação) é dado por:

(2.15)

(19)

Como o sistema de equações descrito acima não possui solução explícita devemos utilizar um método interativo para resolvê-lo. Os métodos mais utilizados são o Método de Newton-Raphson e Escore de Fisher. Para a utilização de ambos os métodos é necessário o cálculo da Matriz Hessiana (Informação de Fisher), que é dada por:

e

em que

e

Dessa forma, considerando como uma estimativa de

ζ

i na iteração t, os prodecimentos de Newton-Raphson / Escore de Fisher podem ser definidos como:

Newton – Raphson

(2.16)

(2.17)

(2.18)

(20)

Escore de Fisher

2.2.5.2 Estimação dos parâmetros dos itens para habilidades desconhecidas

O processo de estimação dos parâmetros dos itens quando as habilidades são desconhecidas é o método de Máxima Verossimilhança Marginal (MVM). Esse método possui as vantagens de ser factível computacionalmente e possui propriedades muito importantes.

A idéia é considerar a existência de uma distribuição de probabilidade associada às habilidades, e considerar que os n indivíduos representam uma amostra

dessa distribuição.

A densidade g(θ/η) considerada é duplamente diferenciável e as componentes

de η são todas conhecidas. O caso mais comum a ser considerado é aquele em que θ

apresenta distribuição normal, embora essa não seja a única opção para θ.

Logo, a probabilidade marginal de um examinando j apresentar um

determinado padrão de respostas y. j é dada por:

A verossimilhança é dada por:

E a função logverossimilhança é dada por:

Para resolver o problema de indeterminação, mantém-se a componente η fixa,

e então são obtidas as seguintes equações de estimações para os parâmetros.

(2.20)

(2.21)

(2.22)

(21)

onde: ; ; ; ; e .

Como as integrais das equações em (2.24) não possuem solução explícita, é necessário o emprego de métodos numéricos de aproximação de integrais para a obtenção das estimativas dos parâmetros a, b e c.

2.2.5.3 Estimação das habilidades

Neste tópico será apresentada a estimação das habilidades por máxima verossimilhança considerando como conhecidos os parâmetros dos itens.

O procedimento é realizado da seguinte maneira: utilizamos as estimativas dos parâmetros dos itens na verossimilhança original, obtendo assim uma verossimilhança perfilada, que possui propriedades semelhantes à verossimilhança contínua.

(22)

A log-verossimilhança pode ser escrita como:

(2.25)

Expressões relativas aos processos de estimação: • vetor escore (2.26) • matriz hessiana • informação de Fisher com e

Assim, se considerarmos como uma estimativa de

θ

j , os métodos de Newton-Raphson e Escore de Fisher podem ser definidos como:

Newton – Raphson (2.27) (2.28) (2.29) (2.30) (2.31)

(23)

Escore de Fisher

(2.32)

t = 0,1,2,…

Os estimadores de máxima verossimilhança das habilidades convergem em distribuição para a normal com média igual ao verdadeiro valor das habilidades e variância igual à inversa da Matriz Hessiana (Informação de Fisher). A estimação é feita para cada indivíduo em separado e podem ser usados como parâmetros dos itens as estimativas baseadas em qualquer método.

(24)

3 MATERIAIS E MÉTODOS

A avaliação da habilidade do aluno em cálculo de probabilidades, que se caracteriza por ser uma variável não diretamente medida nem observada, caracteriza um construto teórico. Esta escala de valores é produzida a partir da prova constituída de itens - questões do teste – que se associam diretamente ao construto de interesse. Assim, as variáveis produzidas a partir das questões apresentadas no instrumento são variáveis indicadoras do construto que se deseja medir. Neste caso, o construto que se deseja medir é a habilidade dos alunos que realizaram as avaliações da disciplina CE204-Cálculo de Probabilidades I do Curso de Estatística da Universidade Federal do Paraná no início e no final do período letivo do primeiro semestre de 2004.

Com intuito de monitorar o aprendizado dos alunos desta disciplina, foi aplicada uma avaliação (anexo 01) em dois momentos. Em um primeiro momento, antes da instrução dessa disciplina, participaram da prova 54 alunos. No segundo momento, no final do período letivo, a prova foi realizada por 53 alunos.

O instrumento de avaliação media conhecimentos em contagem, números binomiais, análise combinatória e probabilidade, ao nível do ensino médio. Os estudantes tinham a opção de não se identificar, motivo pelo qual apenas 39 alunos foram comparáveis em relação às duas provas.

A correlação usada na análise foi a bisserial, pois os dados são constituídos de pares de variáveis, uma discreta (pontuação total no teste) e uma dicotômica (pontuação de acerto ou erro no item).

A confiabilidade foi estimada aplicando-se o método de Kuder-Richardson, devido à gradação do escore ser dicotômica. Tanto o índice de dificuldade, quanto o de discriminação da referida avaliação foram estimados com base no modelo logístico de três parâmetros.

(25)

3.1 Programas computacionais

Desde as primeiras aplicações da Teoria da Resposta ao Item (TRI), especialistas vêm desenvolvendo programas computacionais específicos para análise via TRI, devido a grande quantidade de dados que exigem compilação e também pela complexidade das operações. No Brasil, os programas mais utilizados para análise de itens dicotômicos aplicados para modelos unidimensionais com três parâmetros, ou seja, conjunto de itens medindo um único traço latente, são: BILOG, BICAL, MULTILOG, OPLM, WINSTEPS, BIGSTEPS, CONQUEST entre outros. Existem diversos tipos de situações possíveis para a aplicação destes programas de análise via TRI. Como exemplo, são demonstrados os princípios de aplicação de um deles, o BILOG, desenvolvido pela Scientific Software, Inc.. Este programa possui como entrada um arquivo em linguagem própria, extensão .blg,. conforme figura 02.

Figura 02 – Tela de entrada do software BILOG

Onde:

NParm=3 – Número de parâmetros do modelo logístico; SAVe – Local onde serão salvos os arquivos gerados; NITems=51 – Número de itens do teste;

(26)

O Bilog desenvolve-se através de três fases:

Fase de entrada e leitura de dados – informações de identificação de cada aluno com suas respectivas respostas ao teste.

Fase de calibração dos itens – estimação dos parâmetros dos itens novos para o presente caso. o método de estimação utilizado pelo programa é o de máxima verossimilhança marginal admitindo-se a independência entre as respostas dos examinandos.

Fase de estimação das habilidades dos respondentes – para cada aluno a partir dos resultados obtidos na fase anterior, fornecendo ainda a estimativa da média e desvio-padrão da distribuição de habilidades para cada população

de alunos.

O programa fornece como resultados de saída os seguintes arquivos:

• Os gráficos com as Curvas Características dos Itens em (antric.plt, deptric.plt)

Figura 03 – Curva característica do Teste

• Uma tabela com as estatísticas clássicas da avaliação de itens em (antric.ph1, deptric. ph1)

(27)

• Uma tabela com o número absoluto de acertos e de erros do examinando, percentual, estimativa da habilidade e o seu desvio padrão correspondente (antric.ph3, deptric.ph3 e antric.scor, deptric.scor);

• Uma tabela com as estimativas dos parâmetros dos modelos probabilísticos da Teoria da Resposta do Item (antric.par, deptric.par);

• Relatórios com todas as fases do processamento: fase 1, fase 2 e fase 3. Já existem disponíveis implementações feitas para rodar no software R a análise de itens e equalização de testes utilizando-se a Teoria Clássica e a Teoria da Resposta ao Item. Os métodos da máxima verossimilhança marginal e equalização a posteriori média-desvio e média-média são utilizados para a estimação dos parâmetros dos itens da TRI no R.

Foi utilizado o programa STATGRAPHICS 5.1 para obter um teste “t-pareado” de comparação das médias dos alunos, bem como, outras estatísticas descritivas incluídas neste trabalho.

(28)

4 RESULTADOS E DISCUSSÃO

4.1 Antes da instrução da disciplina.

Neste tópico será analisado o comportamento dos parâmetros dos itens considerando as avaliações realizadas pelos alunos da disciplina de CE204 – Cálculo de Probabilidades I, antes da instrução da referida disciplina. A intenção é avaliar os conhecimentos que os alunos trouxeram dos ensinamentos obtidos no ensino médio, possibilitando um melhor direcionamento dos conteúdos a serem abordados ao longo do semestre na instrução da disciplina. A seguir são apresentadas as curvas características dos itens limites para o teste.

4.1.1 O item mais difícil

O item 45 da avaliação apresentou o maior grau de dificuldade (b45 = 4,73) e foi o seguinte:

“Sejam A e B eventos tais que P(A) = 0,2, P(B) = p e P(A∪B) = 0,6. O valor de p, quando A e B são eventos independentes é:”

Figura 04 – Curva característica do item 45

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b Habilidade P R O B ( ac er ta r o ite m ) Metric Type Logistic Função Característica do Item 45

a = 0.76; b = 4.73; c = 0.07; 0 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b Habilidade P R O B ( ac er ta r o ite m ) Metric Type Logistic

Função Característica do Item 45

a = 0.76; b = 4.73; c = 0.07;

0 1

(29)

O item 45 da avaliação apresentou o maior grau de dificuldade e nota-se pela figura XX que este item é pouco discriminante (a45 = 0,76), isto é, independente da habilidade do avaliado, a probabilidade de acertar este item não sofre um aumento proporcional significativo. Para indivíduos com habilidade entre -5 e aproximadamente 2 a probabilidade de acertar este item parece não se alterar, ao contrário da proficiência, que pode apresentar uma grande variação.

4.1.2 O item mais fácil

O item 15 da avaliação apresentou o menor grau de dificuldade (b15 = -0,95) e foi o seguinte:

“Para fazer um passeio de final de semana de Curitiba à Paranaguá posso usar os seguintes meios de transporte: carro, trem (litorina) e táxi aéreo. Qual o número de modos de escolher os transportes, sabendo-se que não desejo usar na volta o mesmo meio de transporte.”

O item 15 mostrou-se o mais fácil, isto significa que uma habilidade baixa consegue uma probabilidade relativamente alta de acertar o item, logo ele é o mais

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b Habilidade P R O B ( ac er ta r o ite m ) Metric Type Logistic Função Característica do Item 15

a = 0.79; b = -0.95; c = 0.22; 0 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b Habilidade P R O B ( ac er ta r o ite m ) Metric Type Logistic Função Característica do Item 15

a = 0.79; b = -0.95; c = 0.22;

0 1

(30)

fácil. Quanto à discriminação observa-se que como a curva é suave, um deslocamento significativo no eixo da habilidade não causa uma alteração significativa na probabilidade de acerto do item, logo ele é pouco discriminante.

4.1.3 O item mais discriminante.

O item 40 da avaliação apresentou o maior grau de discriminação (a40 = 1,94) e foi o seguinte:

“Dois jogadores de xadrez jogaram 120 partidas, das quais F ganhou 60, K 40 e 20 terminaram empatadas. Agora, eles combinaram uma seqüência de 3 partidas no próximo mês. Então, a probabilidade de K ganhar as três partidas é:”

Observa-se que a curva característica do item é muito íngreme, assim um pequeno deslocamento no eixo da habilidade causa uma alteração significativa na probabilidade de acertar o item. Portanto, ele é fortemente discriminante, sendo também considerado um item moderadamente difícil pela escala adotada, com b40= 0,51, sendo que este é um item ideal para que se possa medir o aprendizado dos alunos. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b Habilidade P R O B (a ce rt a r o it e m ) Metric Type Logistic Função Característica do Item 40

a = 1.94; b = 0.51; c = 0.13; 0 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b Habilidade P R O B ( ac e rt ar o it em ) Metric Type Logistic

a = 1.94; b = 0.51; c = 0.13;

0 1

(31)

4.1.4 O item menos discriminante.

O item 11 da avaliação apresentou o menor grau de discriminação (a11 = 0,63) e foi o seguinte:

“O número de diagonais de um cubo é”

Pode-se ver na figura (XX) que a curva “S” é pouco suave e se mantém na

parte superior do gráfico, ou seja, na área de probabilidade mediana de acertar o item e, ainda, ela cresce de forma progressiva. Portanto, este é um item difícil.

Quanto ao índice de discriminação a curva é muito suave indicando que algum deslocamento positivo no eixo das habilidades praticamente não conduz a uma mudança significativa na probabilidade de acertar o item.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b H abilidade P R O B ( ac e rta r o ite m ) Metric Type Logistic Função Característica do Item 11

a = 0.63; b = 1.95; c = 0.24; 0 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b H abilidade P R O B ( ac e rta r o ite m ) Metric Type Logistic Função Característica do Item 11

a = 0.63; b = 1.95; c = 0.24;

0 1

(32)

4.1.5 Estimativas dos parâmetros

Na tabela 02 têm-se os valores estimados dos parâmetros de discriminação (a), dificuldade (b) e probabilidade de acerto ao acaso (c) de todos os itens componentes do teste. Foi construída uma escala ordinal para classificar os itens de acordo com o grau de dificuldade, conforme tabela 01:

Tabela 01 – Escala de dificuldade do item

Valor do parâmetro de dificuldade (b) Grau de dificuldade

menor -1,5 Muito Fácil

de - 1,49 a -0,5 Fácil

de -0,49 a 0,49 Moderado

de 0,5 até 1,5 Difícil

acima de 1,5 Muito Difícil

Fonte: os autores.

Tabela 02 – Estimativas dos Parâmetros Modelo TRI

ITEM a b c Grau de dificuldade

1 0,809 -0,719 0,208 Fácil 2 0,938 0,817 0,157 Difícil 3 0,777 1,454 0,157 Muito Difícil 4 1,241 1,907 0,107 Muito Difícil 5 1,099 -0,669 0,181 Fácil 6 1,447 0,981 0,135 Difícil 7 1,277 -0,543 0,184 Fácil 8 1,060 1,026 0,128 Difícil 9 0,969 -0,885 0,192 Fácil 10 0,702 3,699 0,117 Muito Difícil 11 0,635 1,952 0,239 Muito Difícil 12 1,036 1,589 0,123 Muito Difícil 13 0,835 1,502 0,218 Muito Difícil 14 0,716 -0,217 0,223 Moderada 15 0,795 -0,949 0,217 Fácil 16 1,259 2,525 0,086 Muito Difícil 17 1,047 3,156 0,085 Muito Difícil 18 0,876 2,109 0,132 Muito Difícil 19 1,229 1,868 0,118 Muito Difícil 20 1,196 1,729 0,164 Muito Difícil 21 1,227 0,749 0,137 Difícil 22 1,220 1,303 0,189 Difícil 23 0,708 0,235 0,204 Moderada 24 1,005 2,670 0,119 Muito Difícil 25 0,937 -0,685 0,208 Fácil 26 1,138 0,268 0,161 Moderada 27 0,918 3,260 0,122 Muito Difícil 28 1,291 0,469 0,149 Moderada 29 1,023 3,273 0,087 Muito Difícil 30 1,219 1,818 0,098 Muito Difícil 31 0,931 1,651 0,133 Muito Difícil 32 1,533 -0,083 0,182 Moderada 33 1,250 1,707 0,136 Muito Difícil 34 1,057 1,647 0,146 Muito Difícil 35 1,381 1,397 0,179 Difícil 36 1,407 1,946 0,134 Muito Difícil

(33)

Tabela 02 – Estimativas dos Parâmetros Modelo TRI (continuação)

37 1,087 0,286 0,217 Moderada 38 1,174 1,043 0,157 Difícil 39 1,754 0,763 0,167 Difícil 40 1,943 0,509 0,130 Difícil 41 1,345 0,994 0,115 Difícil 42 1,208 2,408 0,120 Muito Difícil 43 0,708 3,529 0,111 Muito Difícil 44 1,395 1,197 0,174 Difícil 45 0,758 4,732 0,066 Muito Difícil 46 0,917 2,033 0,176 Muito Difícil 47 0,933 2,647 0,183 Muito Difícil 48 1,310 2,086 0,109 Muito Difícil 49 1,531 0,888 0,127 Difícil 50 1,446 0,862 0,134 Difícil 51 1,112 1,776 0,146 Muito Difícil Fonte: os autores.

Na tabela seguinte constam os parâmetros de todos os itens para análise através da Teoria clássica da avaliação. De acordo com essa metodologia o coeficiente de correlação bisserial é utilizado para estimar o índice de discriminação de um item.

Tabela 03 – Estimativas dos Parâmetros pela Teoria Clássica

Correlação Item N° de acertos _acertos% de Logito

Pearson Bisserial 1 36.0 0.667 0.69 0.242 0.314 2 21.0 0.389 -0.45 0.370 0.471 3 18.0 0.333 -0.69 0.227 0.294 4 9.0 0.167 -1.61 0.398 0.594 5 35.0 0.648 0.61 0.354 0.456 6 16.0 0.296 -0.86 0.478 0.632 7 34.0 0.630 0.53 0.396 0.506 8 17.0 0.315 -0.78 0.424 0.555 9 37.0 0.685 0.78 0.317 0.414 10 7.0 0.130 -1.90 0.074 0.118 11 22.0 0.407 -0.37 -0.041 -0.052 12 13.0 0.241 -1.15 0.391 0.537 13 21.0 0.389 -0.45 0.199 0.254 14 33.0 0.611 0.45 0.203 0.258 15 38.0 0.704 0.86 0.213 0.281 16 5.0 0.093 -2.28 0.403 0.705 17 4.0 0.074 -2.53 0.296 0.553 18 12.0 0.222 -1.25 0.237 0.330 19 10.0 0.185 -1.48 0.443 0.644 20 14.0 0.259 -1.05 0.322 0.436 21 19.0 0.352 -0.61 0.496 0.639 22 18.0 0.333 -0.69 0.272 0.353 23 29.0 0.537 0.15 0.152 0.191 24 8.0 0.148 -1.75 0.239 0.367

(34)

26 25.0 0.463 -0.15 0.433 0.543

Tabela03 – Estimativas dos Parâmetros pela Teoria Clássica (continuação)

Correlação Item N° de acertos _acertos% de Logito

Pearson Bisserial 27 7.0 0.130 -1.90 0.129 0.205 28 22.0 0.407 -0.37 0.462 0.585 29 4.0 0.074 -2.53 0.252 0.470 30 9.0 0.167 -1.61 0.405 0.603 31 14.0 0.259 -1.05 0.355 0.480 32 29.0 0.537 0.15 0.468 0.587 33 12.0 0.222 -1.25 0.373 0.521 34 14.0 0.259 -1.05 0.376 0.509 35 16.0 0.296 -0.86 0.321 0.423 36 10.0 0.185 -1.48 0.290 0.422 37 28.0 0.519 0.07 0.314 0.394 38 18.0 0.333 -0.69 0.348 0.451 39 19.0 0.352 -0.61 0.435 0.560 40 19.0 0.352 -0.61 0.583 0.751 41 15.0 0.278 -0.96 0.525 0.701 42 8.0 0.148 -1.75 0.272 0.418 43 7.0 0.130 -1.90 0.101 0.161 44 17.0 0.315 -0.78 0.347 0.454 45 1.0 0.019 -3.97 -0.126 -0.367 46 15.0 0.278 -0.96 0.231 0.309 47 13.0 0.241 -1.15 0.099 0.136 48 8.0 0.148 -1.75 0.345 0.530 49 16.0 0.296 -0.86 0.505 0.667 50 17.0 0.315 -0.78 0.482 0.630 51 13.0 0.241 -1.15 0.296 0.407 Fonte:os autores.

(35)

4.2 Após a Instrução da Disciplina

Neste tópico foi realizada a análise do comportamento dos itens e seus parâmetros, considerando as avaliações realizadas pelos alunos após a instrução da disciplina de Cálculo de Probabilidades I. A intenção agora é avaliar os conhecimentos que os alunos apresentaram após os ensinamentos obtidos no período letivo, possibilitando posteriormente a análise da evolução desses estudantes e a eficiência da metodologia de estudo aplicada pelo professor na instrução dos conteúdos abordados.

4.2.1 O item mais difícil

O item 20 da avaliação apresentou o maior grau de dificuldade (b20 = 3,26) e foi o seguinte:

“O valor da expressão 0 n k n k =      

∑

ak_xn-k_{quando a = x = 1 é :”} Figura 08 – Curva característica do item 20

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b H abilidade P R O B ( ac er ta r o ite m ) Metric Type Logistic Função Característica do Item 20

a = 0.78; b = 3.26; c = 0.14;

0 1 2

(36)

Este item, com enunciado descrito anteriormente e curva característica representada pela figura 08, além de ser tido como o item mais difícil após a instrução da disciplina é também um item classificado como pouco discriminante (a20 = 0,78), característica comum a itens considerados difíceis.

Nota-se que a probabilidade de acerto ao item é praticamente a mesma para indivíduos com habilidade inferior a zero. Apenas para variações na habilidade acima deste valor é que se pode notar uma alteração na probabilidade de acerto do item.

Logo, pode ser um item considerado muito difícil e apenas examinandos com habilidades altas possuem probabilidades razoáveis de acertá-lo.

Por exemplo, a probabilidade de um indivíduo com habilidade igual a 2 responder corretamente a este item é de 28%, indicando que mesmo com uma habilidade alta a probabilidade de acerto ao item não é muito alta, característica da falta de discriminação deste item.

Neste caso a habilidade mais alta alcançada pelos indivíduos que realizaram a prova após a instrução desta disciplina foi o valor 2 e do grupo de 53 alunos que realizaram esta prova apenas 10alunos responderam corretamente a este item.

(37)

4.2.2 O item mais fácil

O item 49 da avaliação apresentou o menor grau de dificuldade (b49 = -2,72) e foi o seguinte:

“Se P(A) = p é a probabilidade de ocorrência do evento A, então a probabilidade do evento A não ocorrer é:”

Pode-se ver na figura 09que a curva característica do item possui a forma de “S” e é mais acentuada na parte esquerda superior do gráfico, ou seja, na área onde

as probabilidades de acerto são mais altas, característica de um item considerado muito fácil. Nota-se que mesmo para habilidades não muito altas, por exemplo habilidade = –2, a probabilidade de acerto ao item é de aproximadamente 85%.

Dos 53 alunos que realizaram a prova após a instrução desta disciplina 51 responderam corretamente a este item.

a = 1.21; b = -2.72; c = 0.20; 0 1 2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b H abilidade P R O B ( ac er ta r o ite m ) Metric Type Logistic

a = 1.21; b = -2.72; c = 0.20;

0 1 2

(38)

4.2.3 O item mais discriminante.

O item 29 da avaliação apresentou o maior índice de discriminação (a29 = 2,23) e foi o seguinte:

“Em uma sacola existem 10 cartões com as letras A, M, O e R, sendo 4 letras A, 2 letras M, 2 letras O e 2 letras R. Uma pessoa retira ao acaso quatro cartões da seguinte forma: retira o cartão, olha a letra e repõe o cartão. Faz isto quatro vezes. Então, a chance dela conseguir formar a palavra AMOR é:

Figura 10– Curva característica do item 29

Observa-se na curva característica deste item que o primeiro trecho que vai até a habilidade zero, se mantém praticamente paralelo ao eixo das habilidades e em seguida sobe consideravelmente. Isto indica um poder de discriminação muito grande, pois para indivíduos com pouca habilidade (neste caso abaixo de zero) a probabilidade de acerto do item é muito pequeno, próximo de 8%, que é a probabilidade de acerto ao acaso deste item, e esta probabilidade não se altera até atingir a habilidade zero.

Após este ponto, nota-se que alterações na habilidade causam alterações significativas na probabilidade de acerto do item. Não é necessário que o indivíduo possua habilidade extremamente alta para acertar a este item, porém se possuir uma habilidade baixa a probabilidade de acerto é baixa.

a = 2.23; b = 1.36; c = 0.08; 0 1 2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b H abilidade P R O B ( ac er ta r o ite m ) Metric Type Logistic

a = 2.23; b = 1.36; c = 0.08;

0 1 2

(39)

4.2.4 O item menos discriminante.

O item 2 da avaliação apresentou o menor índice de discriminação (a2 = 0,55) e foi o seguinte:

“ O valor da combinação C4₂ é: ”

Figura 11– Curva característica do item 2

Ao contrário do item visto anteriormente a curva deste item é muito suave indicando que deslocamentos no eixo da habilidade causam pequenas alterações na probabilidade de acertar o item. Isto indica que o item não é discriminante, de acordo com a estimativa do parâmetro de discriminação, (a2 = 0,55) o menor observado.

a = 0.55; b = 0.27; c = 0.23; 0 1 2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 c b H abilidade P R O B ( ac er ta r o ite m ) Metric Type Logistic Função Característica do Item 2

a = 0.55; b = 0.27; c = 0.23;

0 1 2

(40)

4.2.5 Estimativas dos parâmetros

Na tabela 04 têm-se os valores estimados dos parâmetros de discriminação (a), dificuldade (b) e probabilidade de acerto ao acaso (c) de todos os itens componentes do teste. Foi construída uma escala ordinal para classificar os itens de acordo com o grau de dificuldade, conforme tabela 01

Tabela01 – Escala de dificuldade do item

Valor do parâmetro de dificuldade (b) Grau de dificuldade

Abaixo de -1,5 Muito Fácil

de - 1,49 a -0,5 Fácil

de -0,49 a 0,49 Moderado

de 0,5 até 1,5 Difícil

acima de 1,5 Muito Difícil

Fonte: os autores.

Tabela04 – Estimativas dos Parâmetros Modelo TRI

1 0,714 -1,065 0,212 Fácil 2 0,547 0,272 0,226 Moderado 3 1,181 -1,606 0,200 Facílimo 4 1,376 1,980 0,115 Difícilimo 5 1,027 -1,144 0,198 Fácil 6 0,692 -1,092 0,212 Fácil 7 1,330 -1,015 0,187 Fácil 8 0,717 0,621 0,198 Difícil 9 0,750 -1,375 0,208 Fácil 10 1,257 1,427 0,140 Difícilimo 11 0,916 1,268 0,190 Difícil 12 1,093 -0,274 0,196 Moderado 13 0,917 0,463 0,205 Moderado 14 0,729 0,830 0,226 Difícil 15 1,044 -1,113 0,202 Fácil 16 1,120 2,140 0,140 Difícilimo 17 1,498 1,558 0,171 Difícilimo 18 1,109 1,540 0,207 Difícilimo 19 0,911 2,451 0,127 Difícilimo 20 0,779 3,259 0,143 Difícilimo 21 0,861 -1,274 0,201 Fácil 22 0,710 -2,182 0,214 Facílimo 23 0,712 -2,392 0,217 Facílimo 24 1,035 1,833 0,166 Difícilimo 25 0,606 -1,747 0,219 Facílimo 26 1,352 -0,485 0,183 Moderado 27 0,619 2,556 0,214 Difícilimo 28 1,090 -0,371 0,199 Moderado 29 2,229 1,363 0,079 Difícil 30 1,678 0,015 0,207 Moderado 31 1,117 -0,717 0,196 Fácil 32 0,705 -1,592 0,213 Facílimo 33 1,385 0,560 0,201 Difícil 34 0,761 -0,354 0,223 Moderado

(41)

35 1,917 0,594 0,165 Difícil

Tabela04 – Estimativas dos Parâmetros Modelo TRI (continuação)

36 1,312 0,754 0,160 Difícil 37 1,068 -1,306 0,217 Fácil 38 1,231 -0,476 0,217 Moderado 39 1,250 0,065 0,177 Moderado 40 1,638 -0,209 0,196 Moderado 41 1,510 -0,258 0,234 Moderado 42 1,214 2,287 0,114 Difícilimo 43 1,119 1,757 0,182 Difícilimo 44 0,734 -0,634 0,203 Fácil 45 1,354 1,418 0,146 Difícilimo 46 0,573 0,770 0,224 Difícil 47 0,693 -0,272 0,217 Moderado 48 0,868 0,895 0,172 Difícil 49 1,211 -2,719 0,204 Facílimo 50 1,124 -2,242 0,204 Facílimo 51 1,500 -0,532 0,188 Fácil Fonte: os autores.

A tabela XX serve para ilustrar os parâmetros estimados de todos os itens análise através da Teoria clássica da avaliação . De acordo com essa metodologia o coeficiente de correlação bisserial é utilizado para estimar o índice de discriminação de um item.

Tabela05– Estimativas dos Parâmetros pela Teoria Clássica

Correlação Nº do

Item Corretos Itens % Logit _Pearson _Bisserial

1 40.0 0.755 1.12 0.153 0.209 2 32.0 0.604 0.42 -0.021 -0.027 3 46.0 0.868 1.88 0.346 0.548 4 10.0 0.189 -1.46 0.314 0.454 5 42.0 0.792 1.34 0.343 0.486 6 40.0 0.755 1.12 0.140 0.192 7 42.0 0.792 1.34 0.455 0.645 8 28.0 0.528 0.11 0.179 0.224 9 42.0 0.792 1.34 0.160 0.227 10 16.0 0.302 -0.84 0.383 0.504 11 22.0 0.415 -0.34 0.287 0.362 12 35.0 0.660 0.66 0.394 0.510 13 29.0 0.547 0.19 0.299 0.376 14 28.0 0.528 0.11 0.121 0.152 15 42.0 0.792 1.34 0.376 0.532 16 12.0 0.226 -1.23 0.264 0.368 17 16.0 0.302 -0.84 0.289 0.381 18 20.0 0.377 -0.50 0.181 0.230 19 11.0 0.208 -1.34 0.288 0.408 20 10.0 0.189 -1.46 0.065 0.095 21 42.0 0.792 1.34 0.277 0.392 22 46.0 0.868 1.88 0.082 0.131

(42)

24 16.0 0.302 -0.84 0.278 0.366

Tabela05 – Estimativas dos Parâmetros pela Teoria Clássica (continuação)

Correlação Nº do

Item

Itens

Corretos % Logit Pearson Bisserial

25 43.0 0.811 1.46 0.052 0.075 26 37.0 0.698 0.84 0.480 0.632 27 19.0 0.358 -0.58 -0.077 -0.099 28 36.0 0.679 0.75 0.352 0.459 29 10.0 0.189 -1.46 0.597 0.865 30 33.0 0.623 0.50 0.457 0.584 31 39.0 0.736 1.02 0.331 0.446 32 43.0 0.811 1.46 0.158 0.229 33 27.0 0.509 0.04 0.370 0.463 34 36.0 0.679 0.75 0.158 0.206 35 24.0 0.453 -0.19 0.521 0.654 36 23.0 0.434 -0.27 0.466 0.587 37 44.0 0.830 1.59 0.263 0.390 38 38.0 0.717 0.93 0.313 0.417 39 31.0 0.585 0.34 0.406 0.513 40 35.0 0.660 0.66 0.481 0.622 41 37.0 0.698 0.84 0.379 0.499 42 9.0 0.170 -1.59 0.287 0.426 43 17.0 0.321 -0.75 0.176 0.230 44 37.0 0.698 0.84 0.205 0.269 45 16.0 0.302 -0.84 0.395 0.520 46 29.0 0.547 0.19 -0.002 -0.002 47 35.0 0.660 0.66 0.152 0.197 48 24.0 0.453 -0.19 0.291 0.366 49 51.0 0.962 3.24 0.319 0.736 50 49.0 0.925 2.51 0.316 0.587 51 38.0 0.717 0.93 0.506 0.673 Fonte: os autores.

A Teoria da Resposta ao Item possibilita a estimativa da probabilidade de que um examinando, que possui habilidade θ, acerte um determinado item com os parâmetros descrito nas tabelas 02 e 04 . Essas probabilidades foram calculadas e se encontram no anexo III, para análises mais detalhadas.