UMA APLICAÇÃO DA ANÁLISE FACTORIAL PLENA NA DETECÇÃO DAS DIMENSÕES COGNITIVAS EM TESTES DE AVALIAÇÃO EM LARGA ESCALA EM PORTUGAL

(1)

UMA APLICAÇÃO DA ANÁLISE FACTORIAL PLENA NA DETECÇÃO

DAS DIMENSÕES COGNITIVAS EM TESTES DE AVALIAÇÃO EM

LARGA ESCALA EM PORTUGAL

Patrícia Costa

Universidade da Beira Interior – Departamento de Matemática - Leacom Rua Marquês d'Ávila e Bolama, 6200-001 Covilhã - Portugal

patriciamotacosta@gmail.com

Maria Eugénia Ferrão

Universidade da Beira Interior – Departamento de Matemática Rua Marquês d'Ávila e Bolama, 6200-001 Covilhã - Portugal

meferrao@ubi.pt

Neimar da Silva Fernandes

Centro de Políticas Públicas e Avaliação da Educação – CAEd

Av. Dr. Deusdedith Salgado, 1311 – B. Cascatinha, Juiz de Fora- MG CEP: 36033-000 neimarfernandes@caed.ufjf.br

Tufi Machado Soares

Centro de Políticas Públicas e Avaliação da Educação – CAEd

Av. Dr. Deusdedith Salgado, 1311 – B. Cascatinha, Juiz de Fora- MG CEP: 36033-000 tufi@caed.ufjf.br

RESUMO

Este artigo tem como propósito analisar a dimensionalidade de um teste de Matemática aplicado a alunos da 9ª série em Portugal. Para isso, apresentam-se as técnicas utilizadas para a análise de dimensionalidade de um teste, em particular, os métodos de análise factorial de informação restrita e de informação plena. Os dados foram obtidos no âmbito de um Projecto de Investigação intitulado “Eficácia Escolar no Ensino da Matemática”, que é pioneiro em Portugal na utilização da Teoria da Resposta ao Item (TRI). O instrumento utilizado refere-se a um teste de múltipla escolha, constituído por 33 itens, que afere aprendizagens a Matemática. Participaram 277 alunos que compõem uma amostra aleatória de alunos da 9ª série da região da Cova da Beira, em Portugal. Os resultados mostraram que o teste é unidimensional e que os itens do teste se ajustam melhor ao modelo logístico de três parâmetros.

PALAVRAS CHAVE. Teoria da Resposta ao Item. Análise factorial. Análise da

dimensionalidade. Aplicações à Educação.

ABSTRACT

This paper evaluated the dimensionality of a mathematics test applied to 9th_{-grade students in}

Portugal. Techniques used to analyze test dimensionality are presented, with a particular emphasis on methods of factor analysis of restricted information and full information. Data were collected as part of a research project entitled "School Effectiveness in Mathematics Teaching", which is pioneer in the use of the Item Response Theory (IRT) in Portugal. The instrument consisted of a multiple choice test composed of 33 items, which assess learning in Mathematics. This study used a 277-student random sample of 9th graders of Cova da Beira region in Portugal. Results show that the test is unidimensional and that the best fit is achieved by a 3-parameter logistic model.

KEYWORDS. Item Response Theory. Factorial Analysis. Analysis of the dimensionality.

(2)

1. Introdução

Em Portugal, a Teoria da Resposta ao Item (TRI) tem sido utilizada, no âmbito do Projecto de Investigação intitulado “Eficácia Escolar no Ensino da Matemática” (3EM), em instrumentos de aferição de aprendizagens a Matemática para alunos da 1ª à 9ª série.O projecto de investigação 3EM é de responsabilidade da Universidade da Beira Interior (UBI) em Portugal, concretamente do Departamento de Matemática e do Departamento de Psicologia e Educação, e decorreu entre os anos 2004 e 2008. Este projecto foi pioneiro nesta área e visava: a estimação do efeito-escola (nas dimensões valor acrescentado, eficácia diferencial e equidade social) e a identificação dos factores intra-escolares que contribuem para a melhoria da qualidade da Educação em termos dos resultados escolares em Matemática e do processo ensino-aprendizagem. Para estimar o efeito-escola, particularmente, na componente do valor acrescentado (valor agregado), foi necessário construir instrumentos de aferição das aprendizagens. Foi neste processo que foram aplicados modelos da TRI. Outro dos objectivos deste projecto foi o de acompanhar o progresso escolar na disciplina de Matemática. Tratou-se de um estudo longitudinal, no qual a recolha de dados se realizou no início e no final do ano lectivo, e envolveu dois coortes de alunos, dos 1º, 2º e 3º ciclos do Ensino Básico da região da Cova da Beira (concelhos de Covilhã, Fundão e Belmonte). Em particular, os níveis de ensino envolvidos no estudo no ano lectivo 2005/6, e que compõem o 1º coorte de alunos, foram os correspondentes a 1ª, 3ª, 5ª, 7ª e 8ª séries. No ano lectivo 2006/7 procedeu-se ao acompanhamento destes alunos e entrou para o estudo um novo coorte da 1ª, 3ª, 5ª e 7ª série. Todos estes alunos foram acompanhados no ano lectivo 2007/8. As idades recomendadas para os alunos que frequentam da 1ª à 9ª série variam dos 6 aos 14 anos, respectivamente.

Os testes aplicados para aferir aprendizagens a Matemática designam-se 3EMat e foram construídos a partir da Matriz de Referência de Matemática (2005). As competências que se pretendem aferir estão associadas cada uma a um descritor específico da Matriz de Referência e estão presentes nos currículos nacionais portugueses. Na composição de cada teste, foi assegurada a representatividade de todos os conteúdos programáticos previstos no currículo nacional, tendo em conta o peso de cada um e a complexidade das tarefas propostas. Os testes 3EMat são constituídos por itens de múltipla escolha, retirados de um banco de itens construído para medir as competências desenvolvidas em Matemática no Ensino Básico. Mais detalhes sobre a metodologia adoptada para o desenvolvimento dos instrumentos 3EMat, em particular, no que se refere à constituição de Banco de Itens e à criação do teste a partir do Banco de Itens, podem ser encontrados em Ferrão et al. (2006)

Neste trabalho, propõe-se analisar a dimensionalidade de um teste de Matemática aplicado a alunos da 9ª série em Portugal. A estrutura do trabalho é a que se descreve seguidamente. Na secção 2, apresentam-se os métodos clássicos utilizados para analisar a dimensionalidade, nomeadamente a correlação bisserial e a correlação tetracórica. Na secção 3, descreve-se a metodologia baseada na TRI. Nesse sentido, apresenta-se um breve desenvolvimento histórico desta teoria; descrevem-se as vantagens do uso da TRI, especifica-se formalmente o modelo unidimensional logístico de três parâmetros; descrevem-se os pressupostos dos modelos unidimensionais da TRI e ilustram-se os procedimentos de estimação utilizados. Na secção 4, apresentam-se os principais métodos utilizados para a análise da dimensionalidade: método de informação restrita e método da informação plena. Na secção 5, descrevem-se e discutem-se os resultados obtidos, e, na última secção, apresentam-se as principais conclusões.

2. Métodos Clássicos para a Análise da Dimensionalidade 2.1. Correlação Bisserial

A correlação bisserial (D´Hainaut, 1981) é uma medida estatística que mede a correlação do resultado de um item, em particular, do teste com o resultado do teste como um todo, sendo, portanto, uma medida da capacidade de discriminação do item relativamente ao resultado do teste. É aplicada em testes constituídos por itens dicotómicos, isto é, itens para os quais se admite

(3)

duas respostas possíveis, certo ou errado. A correlação bisserial é uma medida muito usada na Teoria Clássica dos Testes (TCT). A fórmula utilizada para calcular este coeficiente, r , é dada bis

por

( )

p bis M M _p r S h p − = × (1) onde: p

M

é a média dos resultados no teste dos examinandos que acertaram no item;

M

é a média dos resultados no teste de todos os examinandos;

S

é o desvio padrão do resultado no teste de todos os examinandos;

p

_{é a proporção de acerto no item (denominado de facilidade do item).}

)

( p

h

é a ordenada da curva normal para um determinado valor z que limita inferiormente a proporção

p

.

2.2. Correlação Tetracórica

Segundo Soares (2005), o índice de correlação tetracórica mede a correlação entre os resultados dos itens de um teste. Supõe-se que Z ~ N(0,1) seja uma variável artificialmente 1

criada (e, associada ao factor latente) relacionada à resposta correcta ou não atribuída ao item 1 e

2

Z ~ N(0,1) representa a variável (igualmente associada ao factor latente do indivíduo) também artificialmente criada e associada à resposta correta, ou não, ao item 2. Sejam

p

₁ a proporção dos examinandos que acertam no item 1 e

p

₂a proporção de examinandos que acertam no item 2. Admita que os que acertam o item 1 são os que apresentam valores para Z1≥ zp1, onde

2 1 2 1 2 P u z e p du π − ∞

= ∫ e da forma análoga se obtém

p

2. Se Z e, 1 Z são, normalmente, distribuídas 2

conjuntamente com coeficiente de correlação ρ então, obtém-se a distribuição conjunta das duas variáveis e, consequentemente, a probabilidade de acerto de ambos os itens. A partir das proporções

p

₁e

p

₂ dos que acertaram os itens 1 e 2 no teste determina-se as estimativas

z

p₁e

2

p

z

, tal que, o coeficiente de correlação tetracórica

ρ

é obtido a partir de solução da identidade: 2 2 1 2 1 2 2 1 2 ( 2 u ) 2(1 ) 12 ₂ 1 2 1 2 1 p p u u u z z p e du du ρ ρ π ρ − + − ∞ ∞ ₋ = ∫ ∫ − (2)

onde

p

₁₂ é a proporção dos examinandos que acertaram ambos os itens no teste. Obviamente, como a relação é uma função implícita de

ρ

, uma solução para a equação acima tem que ser encontrada a partir de aproximações numéricas. Um método para obter-se uma aproximação da correlação tetracórica

ρ

é apresentado em Divgi (1979), e está disponível no software Testfact®_{2.13 (Wilson, Wood e Gibbons, 1998).}

3. Teoria da Resposta ao Item (TRI) 3.1. Desenvolvimento da TRI

A TRI surgiu com os trabalhos de Lord (1952), nos Estados Unidos, e Rasch (1960), na Holanda. A partir da década de 80, a TRI tem sido utilizada em testes de desempenho e aptidão, sendo a técnica predominante no campo de testes, passando a substituir grande parte da TCT aplicada à avaliação educacional. A partir de meados de 1980, o uso e desenvolvimento da TRI tem-se ampliado a outras áreas, tais como: Medicina (Bann et al., 2003; Teresi, Kleinman e Ocepek-Welikson, 2000); Biologia (Lee, Izard e Yeoh, 1998); Genética (Tavares, Andrade e

(4)

Pereira, 2004), Clinimetria (Fayers e Hand, 2002). Marketing (Singh, 2004); Gestão (Alexandre et al., 2002).

3.2. Vantagens e classificação dos modelos da TRI

A TRI apresenta inúmeras vantagens comparativamente com a TCT, na medida em que a unidade de análise é o item e não o instrumento/teste como um todo, isto é, permite analisar cada item do instrumento, considerando as suas características na produção das proficiências, facilitando a interpretação da escala produzida. Outras vantagens apontadas para o uso da TRI são: independência do instrumento aplicado, independência do grupo de examinandos a que é aplicado e a comparabilidade dos resultados produzidos para grupos de examinandos diferentes, mesmo quando os instrumentos aplicados são parcialmente distintos. Assim, na TRI, os parâmetros dos itens e do factor latente são considerados invariantes

A TRI assume a existência de um ou mais factores latentes. Assume que as respostas observadas num intrumento reflectem o factor (ou factores) latente(s) que se pretende (ou pretendem) medir.

A classificação dos vários modelos propostos na literatura depende, fundamentalmente, de três características: 1) natureza do item – dicotómicos ou não dicotómicos; 2) número de populações envolvidas – grupo único ou múltiplos grupos; 3) número de factores latentes que está a ser medido - unidimensional ou multidimensional. Neste estudo, os itens foram dicotomizados, é envolvida uma população e procura-se confirmar a existência de apenas um factor latente. Neste trabalho, para a construção da escala, foi usado o modelo da TRI logístico de três parâmetros.

3.3. Modelo logístico de 3 parâmetros. Especificação formal do modelo

Os modelos da TRI baseiam-se em dois postulados (Hambleton, Swaminathan e Rogers, 1991):

O desempenho de um examinando num item do teste explica-se em função de um ou mais factores latentes. No caso em estudo, o factor latente que não é directamente observável é a proficiência do aluno em Matemática, alcançada num determinado nível de ensino. Deste modo, a proficiência do aluno é obtida através das respostas a um conjunto de estímulos, que são os itens do teste.

A relação entre o desempenho no item e o factor latente pode ser descrita por uma função monótona crescente, chamada Curva Característica do Item (CCI). Esta função estabelece que, à medida que o nível do factor latente aumenta, a probabilidade de uma resposta correcta ao item também aumenta.

Nestes termos, os modelos da TRI constituem uma classe de modelos estatísticos que representam a relação entre a probabilidade de um examinando responder correctamente a um item e o seu factor latente na área do conhecimento avaliada, o qual não é observado directamente.

O modelo logístico de três parâmetros, discriminação, dificuldade e probabilidade de acerto ao acaso do item (Hambleton, Swaminathan e Rogers, 1991), é especificado como segue:

m)

1,2,...,

(j

n)

...,

2,

1,

(i

,

1 )

1 (

)

(

₍ ₎ ) (

=

+

−

+

=

− ₋ i j i i j i b Da b Da i i j i

e

c

P

_θ θ

θ

(3) onde:

)

(

_j i

P

θ

é a probabilidade de um examinando com factor latente

θ

j responder correctamente ao

item

i

;

i

a

é o parâmetro de discriminação do item

i

;

i

(5)

i

c

é o parâmetro que representa a probabilidade de examinandos com baixa proficiência responderem corretamente ao item i (muitas vezes referido como a probabilidade de acerto ao acaso);

1,702

D= é um factor de escala introduzido para fazer com que a função logística seja tão próxima quanto possível da função normal acumulada;

n

é o número de itens do teste;

m

é o número total de examinandos submetidos ao teste.

O valor de

b

i está localizado na escala do factor latente, no ponto onde a inclinação da

CCI é máxima, o qual corresponde à probabilidade de resposta correcta de 2

) 1 ( + c_i

. A inclinação da CCI em

b

_i é igual a 0,425a_i(1− c_i), onde

a

_irepresenta a discriminação do item, conforme a figura 1.

Figura 1 – CCI de um item obtida pela aplicação do modelo logístico de 3 parâmetros

3.4. Pressupostos

As vantagens da utilização dos modelos unidimensionais da TRI dependem, fundamentalmente, da verificação dos seus pressupostos. Assim, esta classe de modelos baseia-se em dois pressupostos:

1) Unidimensionalidade - existe um factor latente responsável pela realização de um conjunto de itens. Este assunto será mais detalhado na secção seguinte.

2) Independência local – dado o factor latente do examinando, as respostas aos diferentes itens são independentes entre si. Seja Y a resposta binária do examinando j ao item i (ij Yij = 1, se

for resposta correcta; Yij = 0 se for resposta incorrecta) e ( | )P Yij θ j a probabilidade de resposta

do examinando j dado o seu factor latente θ j. Considerando os n itens do teste, a probabilidade

conjunta, dado o θ jdo examinando é:

1 2 1 2 1 ( _j, _j,..., _nj| )_j ( _j| ) (_j _j| )... (_j _nj | )_j n ( | )_ij _j i P Y Y Y θ P Y θ P Y θ P Y θ P Y θ = = = ∏ (4)

Segundo Lord (1980) e Lord e Novick (1968), a independência local implica a unidimensionalidade, já que a única causa da resposta do examinando é o pressuposto do factor latente dominante. Assim, ao verificar-se a unidimensionalidade, a independência local fica subjacente.

3.5. Procedimentos de Estimação

Os procedimentos de estimação possibilitam a obtenção das estimativas dos parâmetros dos itens e da proficiência de cada examinando. Os procedimentos de estimação mais utilizados

(6)

baseiam-se na maximização da função de verosimilhança, sendo utilizado, neste trabalho, o procedimento de estimação de máxima verosimilhança marginal (Baker e Kim, 2004).

Sejam

(

Y Y1, ,...,2 Y as respostas dos examinandos a um conjunto de n itens onde n

)

Yi = 1,

se for resposta correcta e Y_i = 0 0 se for resposta incorrecta ao item i. A função de verosimilhança, admitindo-se a independência local para as respostas dadas aos itens, para um dado examinando j, e é dada por:

1 1 ( ; ) n ( ) Yij 1 ( ) Yij j j i j i j i L Y θ P θ P θ − =     =

∏

_ _{ } − _ (5).

A partir da função de verosimilhança, pode-se escrever a expressão geral da função de distribuição marginal para os parâmetros dos itens, da seguinte forma:

( , , , ) ( , ) ( ) P Y a b c + ∞ L Y θ g θ θd

− ∞

=

_∫

(6)

onde g(θ)é uma distribuição de probabilidade contínua que se admite para o parâmetro θ . O método da máxima verosimilhança marginal consiste em obter os parâmetros dos itens a , i b e i

i c que maximizam 1 ( ; , , ) m j j P Y a b c =

∏

para uma dada distribuição g(θ ). No caso em estudo, considerou-seg(θ)~N(0,1). A dificuldade de obter uma expressão analítica para (6), conduz à utilização de funções aproximadas. Uma vez substituída a equação original por uma aproximada, a condição necessária para os pontos de óptimo é explicitada e métodos iterativos, como o de algoritmo de Newton-Raphson ou método “Scoring” de Fischer, são usados para a obtenção da respectiva solução. Para estimar o factor latente é utilizado o mesmo método, que consiste em maximizar o logaritmo da função de verosimilhança para θ j:

1

log_e ( ; )_j _j n _ijlog_{e i}( ) (1_j _ij)log 1_e _i( )_j

i

L Y θ Y P θ Y P θ

=

 

=

∑

+ − _ − _ (7).

São usados métodos iterativos complexos e software específico para a obtenção das estimativas desejadas. No caso em análise, foi usado o software Bilog-MG®_3.0_{(Zimowski et al., 2003).} 4. Análise da Dimensionalidade

A questão da dimensionalidade de um teste consite em verificar quantos factores estão a ser medidos. Assim, o pressuposto de que existe um factor latente dominante responsável pelo desempenho num conjunto de itens de um teste (unidimensionalidade) deve ser verificado em cada teste para se poder utilizar qualquer um dos modelos unidimensionais da TRI. Segundo Soares (2005), existem dois tipos de métodos para a análise da dimensionalidade associada a um conjunto de variáveis dicotômicas: os, chamados, métodos da informação restrita e os métodos de informação plena. O método de informação restrita consiste na inspeção dos autovalores da matriz de correlação tetracórica (Soares, 2005) quanto aos demais. Um método para se obter uma aproximação da correlação tetracórica é apresentado em Divgi (1979), e está disponível no software Testfact®_{2.13 (Wilson, Wood e Gibbons, 1998).}

Os métodos de análise factorial da informação plena (Bock e Aitkin, 1981; Bock, Gibbons e Muraki, 1988; Muraki e Engelhard, 1985), foram propostos a partir de uma adaptação do modelo tradicional de análise factorial que considera a estrutura de dimensões associadas a variáveis contínuas (Thurstone, 1947).

4.1. Modelo de análise factorial para variáveis dicotómicas

Segundo Soares (2005), ambos os métodos de análise da dimensionalidade sugiram a partir do modelo de análise factorial considerando a estrutura de dimensões associadas a variáveis contínuas. Assim, a definição de uma variável artificial é a chave para a construção do método. Nesse sentido, definindo uma variável Xi, tal que σX = 1, e E(Xi) = 0, e o relacionamento

(7)

dessa variável com a variável dicotómica Yi que representa a resposta atribuída ao item i

(assumindo os valores 0 ou 1) é tal que:

Se Xi≥γi, então Yi = 1

e,

Se Xi < γi, então Yi = 0.

O modelo de análise factorial é então definido a partir da variável Xi da seguinte forma:

1 11 12 1 1 1 2 21 22 2 2 2 1 2 ... d d n n n nd d n X e X e X e X e λ λ λ θ λ λ λ θ Λ θ λ λ λ θ                         = = + = +                                   ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮ (8)

Os valores

λ

ij são conhecidos como as cargas associadas ao factor θj e à variável Xi,

sendo uma medida do grau de associação entre o factor e a variável. Representa-se o vector de dimensões latentes associadas por θ e, por hipótese, admite-se que E(θ e) = 0 e, E(θiθj) = 0

para i ≠ j, e, ainda, que e ~ N(0, Ψ), com Ψ diagonal. Dessa forma, sob essas hipóteses, é fácil mostrar que a correlação de X é dada por:

,

t

Σ = Λ Θ Λ + Ψ (9)

onde Θ é a matriz de covariância de θ. Em particular, se o modelo é unidimensional, então as linhas de

Λ

Θ

Λ

serão todas linearmente dependentes entre si e, portanto, os seus autovalores serão todos iguais a zero excepto um deles. Na prática, a unidimensionalidade deve ser entendida como a predominância de uma única dimensão sobre as demais. Assim, o primeiro método para se testar a dimensionalidade, que emerge naturalmente nesse contexto, é o da inspeção dos autovalores da matriz de correlações tetracóricas, considerando-se a dimensão do modelo o número de autovalores superiores a um determinado valor (normalmente, um). Mas esse critério é altamente subjectivo. De facto, na prática aceita-se como a dimensão associada às variáveis, um certo número de autovalores cujos valores sejam razoavelmente maiores que os dos demais. Embora, esse critério seja também subjectivo.

4.2. Método de análise factorial de informação plena

Com o intuito de evitar a subjectividade inerente ao uso do método da informação restrita para a detecção da dimensionalidade, Bock e Aitkin (1981), Bock, Gibbons e Muraki (1988), propuseram o método da análise factorial de informação plena. Considere, novamente, o modelo de análise factorial apresentado na secção anterior. Dessa forma, então, P( Yi = 1) = P( Xi≥ γi) =

1 (d _{ij j} _i _i) j P λ θ e γ = + ≥

∑

= 1 ( _i _i d _{ij j}) j P e γ λ θ =

≥ − ∑ . Lembrando que por hipótese e ~ N(0, Ψ), com Ψ

diagonal, tem-se então que:

(

)

2 1 -z 2

e

1

2

d i ij j j ei i

P Y

dz

γ λ θ σ

π

= ∞ − ∑

=

_∫

(10) onde σ2

ei é a variância de ei . Da estrutura do modelo pode-se verificar que 1 2

1 d ei ij j σ = − ∑ λ = , e

reparametrizando (10) da seguinte forma:

, , i i ij i i ij e e b γ a λ σ σ = − = (11)

(8)

tem-se um modelo multidimensional que utiliza a curva de ogiva normal (função de distribuição da normal padronizada): 2 1 -z 2 i e P (Y 1; ) 2 d i ij j j b a dz = ∞ + ∑ θ = θ = π

∫

(12)

onde bi é interpretado como a dificuldade geral do item, e os valores

a

ij

como os parâmetros de

discriminação específicos de cada dimensão.

Considerando a probabilidade de acerto ao acaso no caso multidimensional, a equação do modelo é a seguinte:

(

)

2 1 -z 2 i e P (Y 1; ) + 1 2 d i ij j j i i b a c c dz = ∞ + ∑ θ     = θ = −   π      

∫

(13)

O método para estimação dos parâmetros desse modelo pode ser, mutato mutandis, o mesmo método de máxima verossimilhança marginal (Bock e Aitkin, 1981) utilizado nos modelos mais comuns. Nota-se que as equações (11) fornecem uma forma directa para se obter as cargas do modelo de análise factorial, basta que se invertam as relações. Para a estimação dos parâmetros do modelo (12), empregando-se o método mencionado, utiliza-se o software Testfact®

2.13 (Wilson, Wood e Gibbons, 1998). O parâmetro de probabilidade de acerto ao acaso, é calculado utilizando o software Bilog-MG®_{3.0 (Zimowski et al., 2003) e, posteriormente, é}

inserido como constante no software Testfact®_{2.13 (Wilson, Wood e Gibbons, 1998).} 5. Análise dos resultados e discussão

Os dados utilizados neste trabalho referem-se a uma amostra de 277 alunos da 9ª série, da região da Cova da Beira, e foram obtidos no âmbito do projecto de investigação 3EM. O teste foi aplicado no final do ano lectivo 2006/2007. Era composto por 33 itens de múltipla escolha, com 4 opções de resposta, e estava dividido em duas partes. A primeira parte era constituída por 23 itens e a segunda era composta por 10 itens, sendo realizada com a ajuda de calculadora. A aplicação do teste foi colectiva e realizada na sala de aula, tendo a duração de 90 minutos. O teste continha itens da 8º série com vista à futura criação de uma escala vertical de proficiência a Matemática. Na composição do teste, foi assegurada a representatividade de todos os temas/conteúdos programáticos previstos no currículo nacional português, tendo em conta o peso de cada um e a complexidade das tarefas propostas.

Para a análise de dados, as respostas aos itens do teste foram dicotomizadas. A interpretação de cada item do teste foi feita, inicialmente, a partir das estatísticas da TCT (Lord e Novick, 1968): (1) índice de facilidade – proporção de alunos que responderam ao item correctamente; (2) correlação bisserial. A tabela 1 apresenta algumas estatísticas descritivas obtidas. Os resultados mostram que o teste apresenta 2 itens considerados fáceis (com índices de facilidade acima de 0,75 - itens 8 e 17) e 8 itens considerados difíceis (com índices de facilidade inferiores a 0,25 - itens 11, 18, 19, 21, 22, 27, 32 e 33). A média do índice de facilidade é de 0,40. Verifica-se que a correlação bisserial não apresenta valores inferiores a 0,2, tendo os seus valores variado entre 0,205 e 0,676 e a média de 0,44.

Para mensurar a fidedignidade do teste, utilizou-se o coeficiente de Kuder-Richradson KR20 (Kuder; Richardson, 1937; Dunn, 1989), que é um estimador da consistência interna do teste e que varia entre 0 e 1. A escala produzida para os 33 itens apresenta consistência interna medida pelo coeficiente KR20 de 0,75, que é considerado um valor adequado.

(9)

Tabela 1 – Estatísticas dos Itens para a análise baseada na TCT, no método de análise factorial de

informação restrita e de informação plena

Para se aplicar os modelos unidimensionais da TRI a apenas uma única dimensão latente, é necessário verificar a predominância dessa dimensão. Como as respostas aos itens estão em formato dicotómico, a investigação da unidimensionalidade do teste é feita a partir das ferramentas disponíveis no software Testfact®_{2.13 (Wilson, Wood e Gibbons, 1998).}

O primeiro passo do método de informação restrita consiste na inspecção dos autovalores da matriz de correlação tetracórica. Na tabela 2, apresentam-se os primeiros 11 autovalores. Verifica-se que o primeiro autovalor é 11,26 e o segundo é 2,64, ou seja, o primeiro é cerca de 4 vezes superior ao segundo. O terceiro autovalor é de apenas 2,07, sendo pouco inferior ao segundo, e, assim, sucessivamente. Nesse sentido, pode-se inferir que há um autovalor dominante extraído da matriz de correlação tetracórica.

Tabela 2 – Autovalores da matriz de correlação tetracórica

Dimensão 1 2 3 4 5 6 7 8 9 10 11

Autovalor 11,26 2,64 2,07 2,04 1,85 1,72 1,66 1,42 1,27 1,20 1,04 Estatísticas da TCT Método de

informação restrita Método de informação plena

Item Facilidade Correlação _Bisserial Dimensões

Parâmetros de discriminação ( ij a ) específicos de cada dimensão Comunalidade Dimensões 1 2 1° 2° 1° 2° 1 0,704 0,285 0,200 -0,066 0,220 0,066 0,050 0,207 0,083 2 0,361 0,501 0,639 0,074 0,853 -0,215 0,436 0,652 -0,105 3 0,473 0,566 0,615 0,330 1,025 0,206 0,522 0,693 0,204 4 0,390 0,551 0,591 0,035 1,231 0,080 0,603 0,768 0,118 5 0,404 0,507 0,649 0,104 1,040 -0,453 0,563 0,711 -0,238 6 0,329 0,366 0,517 0,098 1,721 1,101 0,807 0,711 0,549 7 0,542 0,319 0,358 0,266 0,404 0,315 0,208 0,333 0,311 8 0,841 0,359 0,207 0,204 0,543 0,969 0,552 0,305 0,678 9 0,462 0,407 0,592 0,461 1,081 0,440 0,577 0,676 0,347 10 0,484 0,486 0,522 0,107 0,961 0,094 0,482 0,683 0,128 11 0,181 0,404 0,567 0,166 0,798 0,104 0,393 0,612 0,135 12 0,383 0,355 0,502 -0,435 1,129 -0,436 0,594 0,741 -0,213 13 0,484 0,537 0,658 -0,180 1,016 -0,295 0,528 0,713 -0,141 14 0,466 0,381 0,436 -0,526 2,037 -1,799 0,881 0,755 -0,557 15 0,390 0,591 0,671 0,069 1,303 0,109 0,631 0,783 0,135 16 0,368 0,480 0,667 -0,037 1,183 -0,409 0,611 0,758 -0,190 17 0,773 0,426 0,356 0,262 0,874 -0,324 0,465 0,658 -0,180 18 0,220 0,394 0,577 -0,441 2,392 -1,551 0,890 0,834 -0,442 19 0,217 0,455 0,678 -0,421 4,961 -3,481 0,974 0,854 -0,494 20 0,466 0,638 0,723 0,349 1,594 -0,231 0,722 0,848 -0,048 21 0,152 0,674 0,870 -0,018 3,134 -0,218 0,908 0,953 0,017 22 0,058 0,676 0,726 -0,103 1,107 -0,551 0,605 0,724 -0,284 23 0,321 0,370 0,544 -0,166 6,794 -2,885 0,982 0,943 -0,306 24 0,321 0,209 0,359 0,159 0,309 -0,240 0,133 0,306 -0,197 25 0,635 0,517 0,569 0,110 0,974 0,081 0,489 0,689 0,119 26 0,343 0,394 0,504 0,315 0,599 -0,170 0,279 0,519 -0,099 27 0,101 0,588 0,654 0,255 1,080 1,101 0,704 0,533 0,648 28 0,682 0,349 0,399 -0,307 0,368 -0,101 0,127 0,351 -0,064 29 0,329 0,463 0,676 -0,135 1,747 0,630 0,775 0,799 0,370 30 0,307 0,492 0,542 -0,029 0,691 0,360 0,378 0,518 0,331 31 0,466 0,475 0,559 -0,081 0,827 -0,357 0,448 0,635 -0,210 32 0,177 0,226 0,510 -0,168 13,019 -0,030 0,994 0,993 0,085 33 0,224 0,205 0,556 -0,182 2,283 0,773 0,853 0,846 0,372

(10)

Com vista a complementar a inspecção dos autovalores utiliza-se a estatística G2_(Bock,

Gibbons e Muraki, 1988). Esta estatística permite verificar se existe diferença estatisticamente significativa no aumento da percentagem de variância explicada pelo acréscimo de uma dimensão Os resultados obtidos apresentam-se na tabela 3.

Tabela 3 – Análise da dimensionalidade

Número de factores

Variância Associada Diferença de

G2_. g.l. Sig.

Dimensão 1 Dimensão 2

1 50,966 - - -

-2 48,543 9,524 40,44 32 0,146

A percentagem de variância explicada para os 2 factores é, respectivamente, 48,543% e 9,524%. Por esta análise, já é possível constatar um ajuste adequado do modelo aos dados apenas com um factor. Acrescenta-se a isso o facto do acréscimo de explicação com a solução a 2 factores não ser estatisticamente significativo. No entanto, será apresentado o segundo factor com vista a confirmar-se se este é intepretável.

Na tabela 1, apresentam-se as cargas para o primeiro e o segundo factor obtidas pelo método de informação restrita e as estatísticas da análise baseadas no método de informação plena. Pela análise da quarta coluna da tabela, pode-se constatar que todos os itens possuem cargas positivas para o primeiro factor, o que significa que à medida que o primeiro factor aumenta, aumenta também a probabilidade de o item ser respondido correctamente. Adicionalmente, verifica-se que quase a totalidade dos itens apresenta cargas superiores a 0,30, que é considerado por alguns autores (Johnson; Wichern, 1992) um valor mínimo para que se possa considerar o item na interpretação do factor.

Já o segundo factor, que está representado na quinta coluna da tabela 1, apresenta cargas positivas e negativas sem, aparentemente, nenhum padrão lógico. Em particular, em 5 itens a carga é inferior a -0,3, em 4 itens é superior a 0,3 e nos restantes 24 itens a carga apresenta valores desprezíveis, cujos valores da carga em módulo não são superiores a 0,53. Pode-se concluir que o segundo factor não mede nenhuma informação relevante. Assim, pela aplicação do método de informação restrita pode-se concluir que uma dimensão, a cognitiva em Matemática, é dominante perante as demais.

Como uma forma de se complementar a análise feita anteriormente, utilizou-se a análise factorial pelo método de informação plena. A análise da tabela permite constatar que o primeiro factor apresenta todos os valores do parâmetro de discriminação positivos com mediana em torno de 1,08, enquanto o segundo factor tem um comportamento semelhante ao verificado no método de informação restrita.

Os resultados obtidos permitem verificar que existe um factor dominante pelo que pode-se ajustar os dados a um modelo da TRI unidimensional.

Foi realizado o mesmo tipo de análise da dimensionalidade, considerando o modelo multidimensional de 2 parâmetros. Verificou-se uma expressiva perda de informação, uma vez que diminuiu substancialmente a percentagem de variância explicada por cada factor, comparativamente, com os valores obtidos na tabela 1. O primeiro factor apresentou apenas 15,73% e o segundo factor 5,35%. Este facto é um forte indício de que o parâmetro de probabilidade de acerto ao acaso deve ser considerado na análise dos resultados.

Nesse sentido, foi ajustado o modelo logístico de 3 parâmetros aos dados. Para tal, foi utilizado o software Bilog-MG®_{3.0 (Zimowski et al., 2003) no cálculo dos parâmetros dos itens e}

da proficiência dos alunos.

As proficiências dos alunos foram obtidas pela aplicação do modelo logístico de 3 parâmetros. A tabela 4 apresenta algumas estatísticas descritivas da escala de proficiência. A análise da tabela permite verificar que esta distribuição é assimétrica positiva (coeficiente de assimetria = 0,778), apesar da distribuição se aproximar de uma normal, com média -0,007 e desvio padrão 0,856.

(11)

Tabela 4 – Estatísticas descritivas da escala de proficiência

Mínimo Máximo Média Desvio padrão _{de assimetria}Coeficiente _{coeficiente de assimetria}Erro associado ao -1,397 3,172 -0,007 0,856 0,778 0,146

6. Conclusão

A aplicação dos modelos da TRI permite garantir a qualidade de instrumentos usados para aferir aprendizagens e, posteriormente, estabelecer a comparabilidade dos resultados, com vista à construção de uma escala única.

Neste trabalho, foi efectuada a análise da dimensionalidade de um teste de Matemática aplicado a alunos portugueses que freqüentam a 9ª série. Os dados foram recolhidos no âmbito do projecto “Eficácia Escolar no Ensino da Matemática” (3EM) e referem-se a uma amostra aleatória de alunos da região da Cova da Beira. O teste foi aplicado a 277 alunos e era composto por 33 itens de múltipla escolha. Foram apresentados os métodos clássicos para analisar a dimensionalidade e métodos baseados na TRI. Foi verificado o pressuposto de unidimensionalidade, recorrendo de forma complementar a dois métodos: método de informação restrita e método de informação plena. Ambos os métodos indicaram que o modelo é unidimensional, ou seja, o teste afere aprendizagens da dimensão cognitiva Matemática. Nesse sentido, verificado este pressuposto, foi obtida a escala de proficiência a Matemática para a 9ª série pela aplicação do modelo logístico de 3 parâmetros.

A análise dos pressupostos dos modelos da TRI é essencial em avaliação educacional e decisiva para garantir a qualidade de todo o processo subseqüente. Assim, este trabalho é muito relevante para estudos futuros, uma vez que a metodologia adoptada poderá ser aplicada a outros testes, nomeadamente, aos aplicados no âmbito do projecto 3EM que aferem aprendizagens a Matemática desde a 1ª à 9ª série.

Referências

Alexandre, J., Andrade, D., Vasconcelos, A. e Araújo, A. (2002), Uma Proposta de Análise de

um Construto para medição dos factores críticos da Gestão pela qualidade por intermédio da Teoria da Resposta ao Item. Gestão & Produção, v. 9, n. 2, p. 129-141.

Baker, F.B. e Kim, S., Item Response Theory – Parameter Estimation Techniques, Marcel

Dekker Inc., New York, 2004.

Bann, C., Terrel, S., Mccornmack, L. e Berkam, N. (2003), Measuring beneficiary knowledge

of the medicare program: A Psychometric Analysis, Health Care Financing Review, v. 4, p. 111-125.

Bock, R. D. e Aitkin, M. (1981), Marginal Maximum Likelihood Estimation of Item Parameters:

Application of an EM Algorithm, Psychometrika, v. 46, n. 4, p. 443-459.

Bock, R. D., Gibbons, R. D. e Muraki, E. (1988), Full-Information Factor Analysis, Applied Psychological Measurement, v. 12, p. 261-280.

Divgi, D. R. (1979), Calculation of the tetrachoric correlation coefficient, Psycometrika, v. 44, n.

2, p. 169-172.

Dunn, G., Design and Analysis of Reliability Studies: the statistical evaluation of measurement errors, Edward Arnold, London, 1989.

Fayers, P. M. e Hand, D. J. (2002), Causal variables, indicator variables and measurement

scales: an example from quality of life, Journal of the Royal Statistical Society A, v. 165, p. 233-261.

Ferrão M. E., Costa P., Navio V. M. e Dias, V. M. (2006), Medição da competência dos alunos

do ensino básico em Matemática: 3EMAT, uma proposta, Actas da XI Conferência Internacional Avaliação Psicológica: Formas e Contextos, p. 905-915.

D´Hainaut, L., Conceitos e Métodos da Estatística – Volume II: Duas ou três variáveis segundo duas ou três dimensões, Fundação Calouste Gulbenkian, Lisboa, 1992.

Hambleton, R. K., Swaminathan, H. e Rogers, H. J., Fundamentals of Item Response Theory,

(12)

Johnson, R.A. e Wichern, D.W., Applied Multivariate Statistical Analysis, Prentice Hall, New

Jersey, 1992.

Kuder, G F. e Richardson, M. W. (1937), The theory of the estimation of test reliability, Psychometrika, v. 2, p.151-160.

Lee, Y., Izard, J. e Yeoh, O., Teacher Knowledge of Biological Evolution from the Perspectives of Classical Test and Item Response Theory, ERIC, CSA, 1998.

Lord, F. M., A theory of test scores, Psychometric Monograph, Psychometric Society, Iowa,

1952.

Lord, F., Applications of item response theory to practical testing problems, J: Erlbaum,

Hillsdale, New Jersey, 1980.

Lord, F.M. e Novick, M.R., Statistical Theories of Mental Test Scores, Addison-Wesley,

Reading, Massachusetts, 1968.

Matriz de Referência de Matemática do Projecto de Investigação: Eficácia Escolar No Ensino da Matemática. Covilhã: Universidade da Beira Interior – Departamento de Matemática,

2005.

Muraki, E. e Engelhard, G. (1985), Full Information Item Factor Analysis: applications of EAP

scores, Applied Psychological Measurement, v. 9, p. 417-430.

Rasch, G., Probabilistic models for some intelligence and attainment tests, Danish Institute for

Educational Research, Copenhagen, 1960.

Singh, J. (2004), Tackling measurement problems with Item Response Theory: Principles,

characteristics, and assessment, with an illustrative example, Journal of Business Research, v. 57, p. 184-208.

Soares, T. M. (2005), Utilização da Teoria da Resposta ao Item na Produção de Indicadores

Sócio-Econômicos. Pesquisa Operacional, Rio de Janeiro, v. 25, n. 1, p. 83-112.

Tavares, H.R., Andrade, D. F. e Pereira, C. (2004), Detection of determinant genes and

diagnostic via Item Response Theory, Genetics and Molecular Biology, v. 27, n. 4, p. 679-685, 2004.

Teresi, J., Kleiman, M. e Ocepek-Welikson, K. (2000), Modern psychometric methods for

detection of differential item functioning: application to cognitive assessment measures, Statistics in Medicine, v. 19, p. 1651-1683.

Thurstone, L. L., Multiple-factor analysis, University of Chicago Press, Chicago, 1947.

Wilson, D. T., Wood, R. e Gibbons, R., Testfact®_{2.13: Test Scoring, and Item Factor Analysis,}

Lincolnwood, Illinois, Scientific Software International, Inc., 1998.

Zimowski, M., Muraki, E., Mislevy, R. e Bock, D., Bilog- MG®_{3 for Windows, Scientific}