• Nenhum resultado encontrado

BANCO DE ITENS

3. SISTEMÁTICA PARA MANUTENÇÃO DO BANCO DE ITENS

3.1 PROCEDIMENTOS PROPOSTOS PARA A MANUTENÇÃO DO BI PARA CAT DE ALTO IMPACTO

3.1.1 FASE 1 Calibração de novos itens

Novos itens devem ser escritos, pré-testados e adicionados ao BI para a manutenção (STOCKING, 1994; SQUIRES, 2003). Assim, esta etapa de calibração de novos itens visa cobrir lacunas de conteúdo e melhorar as propriedades psicométricas e o desempenho de um CAT, bem como repor itens que se tornam obsoletos ou superexpostos com o tempo

e precisam ser eliminados do BI (BAN et al., 2001; VELDKAMP; MATTEUCCI, 2013; ZHENG, 2014). A eliminação de itens nestas situações será discutida na Fase 2 da sistemática.

Quando um item está pronto para ser utilizado no traço latente dos respondentes, ele é referido como um item operacional; antes disso, ele é referido como um item de pré-teste, pois ainda precisa passar por etapas de avaliação (NANDAKUMAR; ROUSSOS, 2004). Normalmente, esses itens de pré-teste não são incluídos na estimativa do traço latente do respondente; somente depois de calibrados poderão ser usados para este fim (BOCK; MURAKI; PFEIFFENBERGER, 1988; SQUIRES, 2003; ZHENG, 2014).

Stocking (1994) sugere duas formas para calibração de itens de pré-teste para serem inseridos no BI:

 Teste aplicado via P&P, contanto que seja demonstrado que os parâmetros dos itens não mudam quando muda o modo de aplicação (ver GREEN et al., 1984; WANG; KOLEN, 2001; GWALTNEY; SHIELDS; SHIFFMAN, 2008; ZITNY et al., 2012; RILEY; CARLE, 2012);

 Itens de pré-teste (novos) são aplicados junto com os itens operacionais durante o CAT para a obtenção de estimativas dos parâmetros dos itens. Este método é denominado de calibração on-line (STOKING, 1988b; GUO; WANG, 2003; THOMPSON; WEISS, 2011; MASTERS; MUCKLE; BONTEMPO, 2009; ZHENG, 2014) e será discutido ao longo desta seção.

É importante destacar que, quanto mais semelhante com o teste adaptativo for o método de aplicação dos itens de pré-teste para calibração, menores serão os possíveis efeitos nas estimativas dos parâmetros dos itens (WANG; KOLEN, 2001; BJORNER et al., 2007; DAVEY, 2011; VAN DER LINDEN; REN, 2015; MAKRANSKY; GLAS, 2010). Por isso, considera-se para esta sistemática, que os itens são aplicados junto ao CAT operacional, visando minimizar esses efeitos e aproveitando a própria aplicação do teste para calibrar novos itens, sem custos adicionais de coleta de dados com outra aplicação.

A aplicação junto ao CAT operacional também permite obter amostras grandes, representativas e motivadas dos respondentes em uma situação real de avaliação (DAVEY, 2011; ALI; CHANG, 2014; VAN DER LINDEN; REN, 2015; ZHENG, 2014), uma vez que o respondente não identifica quais são os itens novos que estão sendo calibrados (ALI; CHANG, 2014).

A Figura 7 apresenta os procedimentos para esta primeira fase de manutenção do BI, a qual envolve diferentes aspectos relacionados à expansão do BI. Para dar início a esta fase, é necessário que itens de pré- teste estejam disponíveis para serem aplicados. Caso contrário, novos itens devem ser elaborados com urgência e esta etapa de manutenção não é executada junto ao CAT operacional, o qual é aplicado normalmente, conforme regras definidas.

Supondo a existência de itens para serem pré-testados, os especialistas devem definir quais e quantos itens devem ser pré-testados e qual será o design de calibração on-line a ser adotado. O CAT é então aplicado e os dados são armazenados. Uma vez que o item de pré-teste atinge a regra de parada predefinida e tem seus parâmetros estimados, é preciso avaliar a qualidade do item. Caso o item não atinja a regra de parada, ele é novamente aplicado.

Assim, se o item apresenta características adequadas, ele pode ser inserido no BI e a função de informação do BI (FIBI) é atualizada para fornecer uma visão geral sobre o BI atual, finalizando a Fase 1. Se o item apresentar problema(s) nesta fase, deve ser enviado para análise por especialistas de conteúdo e, portanto, não vai para o BI, finalizando a Fase 1.

Os procedimentos para dar suporte a essas ações são detalhados a seguir. Para iniciar este processo de manutenção, duas questões precisam ser respondidas:

Quantos itens de pré-teste aplicar e qual o tamanho da amostra?

Não há um número máximo ou mínimo de itens de pré-teste que podem ser aplicados a cada edição do teste. A ideia é de quanto mais itens no BI, melhor para estimar com precisão o traço latente e reduzir a taxa de exposição dos itens. Porém, a definição do número de itens de pré-teste que serão aplicados depende do número de respondentes do teste. Se muitos itens de pré-teste estão disponíveis e a amostra for pequena, a aplicação de inúmeros itens de pré-teste poderá levar à imprecisão das estimativas dos parâmetros desses itens.

O comprimento do teste deve ser considerado nesta decisão de quantos itens serão pré-testados, uma vez que pode causar um impacto negativo no processo de calibração se ele for muito extenso. Como regra geral, Ali e Chang (2014) sugerem que o número de itens de pré-teste fique entre 25% e 33% do comprimento do CAT operacional.

Figura 7 – Representação da FASE 1 de manutenção do BI: Calibração de novos itens.

Conforme Zheng (2014), a literatura indica uma proporção típica de itens de pré-teste no teste, entre 1/10 e 1/4. O autor também destaca que a decisão pode depender da necessidade de novos itens e de outros aspectos práticos.

O tamanho mínimo da amostra de respondentes também depende de vários aspectos como a exigência da precisão da estimativa, urgência na reposição de itens, etc (ZHENG, 2014). Também, deve-se considerar que, quando os testes são de alto impacto, não se deve expor desnecessariamente os itens. Por isso, é preciso ponderar entre precisão aceitável e mínima exposição possível dos itens aos respondentes.

Na literatura, não há um consenso sobre o tamanho da amostra mais conveniente, pois depende, dentre outros fatores, do modelo da TRI utilizado, dos itens, das próprias respostas dadas pelos respondentes e do método de estimação utilizado (MOREIRA JÚNIOR, 2011).

Um estudo feito por Nunes e Primi (2005) verificou o impacto do tamanho da amostra sobre a calibração de itens para os modelos de dois e três parâmetros da TRI. Os autores concluíram que, a partir de 200 respondentes é possível obter estimativas adequadas; já outros estudos trazem como aceitável um tamanho entre 500 e 1.000 respondentes para obter estimativas estáveis (GREEN et al., 1984; DEMARS, 2010; DE AYALA, 2009; WAINER; MISLEVY, 2000).

Stocking (1990) forneceu algumas orientações para a escolha da amostra de calibração para auxiliar na estimação dos parâmetros dos itens com maior precisão quando as propriedades não são conhecidas. Os níveis ótimos do traço latente para a calibração foram definidos com base na matriz de informação de Fisher para modelos ótimos (D-optimal).

Com base nesse estudo, Stocking (1990) concluiu que, se ML3P é considerado para análise de itens, então: (1) a amostra ideal e mais informativa para melhor estimar a é uma combinação de respondentes cujos traços latentes estão acima e abaixo do parâmetro b do item; (2) a amostra ideal e mais informativa para estimar o parâmetro b de itens fáceis e difíceis são os respondentes com traço próximo ao b do item; e (3) a amostra ideal e mais informativa para estimar c são os respondentes com baixo traço latente. Assim, para estimar todos os parâmetros dos itens, uma ampla distribuição dos níveis do traço latente (por ex., uniforme) é mais informativa do que uma distribuição em forma de sino. Devido a esta problemática de que cada parâmetro exige uma amostra diferente para uma calibração mais precisa, a optimal design theory vem sendo muito utilizada, a qual lida com a definição de critérios de otimização para a estimativa simultânea de vários parâmetros. Segundo van der Linden e Ren (2015), a maior parte dos critérios

baseiam-se na matriz de covariância assintótica para os parâmetros que são estimados.

Um exemplo é a minimização do determinante da matriz de covariância ou, equivalente, a maximização do determinante da matriz de informação de Fisher; tal critério leva a soluções referidas como D- optimal [para mais detalhes, ver Berger (1994), van der Linden e Ren (2015), Zheng (2014), Guo (2016)]. Essa teoria auxilia a definir as amostras ideais em que, através de um plano de amostragem incompleta, diferentes amostras são atribuídas a diferentes itens, conforme ocorre no design adaptativo de calibração on-line (VAN DER LINDEN; REN, 2015; ZHENG, 2014).

Quais itens de pré-teste devem ser calibrados?

Ao longo do tempo, nem toda edição de testes causará, obrigatoriamente, a necessidade de exclusão itens. É preciso acompanhar e detectar esta necessidade, identificando quais são as áreas prioritárias de reposição. Esta é uma tarefa de extrema importância e muito desafiadora. Por isso, a calibração de novos itens deve acontecer em toda edição de testes, seja para substituir itens superexpostos e/ou que apresentem alguns problema ou para melhorar a precisão da escala.

Nos casos de domínios (conteúdos) com pouca informação, é desejável expandir o BI focando nestes domínios para aumentar a quantidade de informação disponível em vários pontos da escala. Porém, conforme destacam Luecht, De Champlain e Nungester (1998), esta é uma tarefa não trivial, uma vez que requer que os itens sejam escritos para determinados níveis de dificuldade, assim como para satisfazer os requisitos do conteúdo.

As informações dadas pelo especialista no processo de elaboração dos itens (conteúdo e nível de dificuldade), podem auxiliar na tomada de decisão de quais itens novos devem ser selecionados para aplicação. Cabe destacar que, além desses requisitos, critérios psicométricos, técnicos e pedagógicos devem ser considerados para garantir clareza, qualidade na apresentação do item e nas alternativas de resposta, além de evitar erros de linguagem e gramática (ver BRASIL, 2010; HALADYNA, 2004).

Nesse contexto, a seleção dos itens de pré-teste dependerá muito do BI que cada programa de teste já tem à sua disposição. Análise da FIBI e uma análise descritiva da quantidade de itens nos diferentes níveis de dificuldade para os diferentes conteúdos avaliados podem auxiliar nesta decisão.

3.1.1.1 Design de calibração on-line

A definição do design de calibração para itens de pré-teste envolve tomada de decisão sobre como serão obtidos os parâmetros dos itens. Os principais fatores para o design de calibração on-line são (ZHENG, 2014; GUO, 2016): (I) método de seleção de itens de pré-teste; (II) local de inserção do item de pré-teste no CAT; (III) método de estimação (algoritmo estatístico usado para estimar os parâmetros do item); e (IV) regra de parada para itens do pré-teste. Tais fatores nortearão as discussões a seguir, onde sugestões e estudos serão apresentados para auxiliar nas decisões referentes a esta etapa.

Uma das grandes vantagens do design de calibração on-line é que, como os itens novos são aplicados em conjunto com os itens operacionais no CAT, não é preciso utilizar um método de ligação; os itens utilizados para dar o traço latente ao respondente servem como ligação para os itens de pré-teste que estão sendo calibrados, ou seja, para colocar os itens na mesma escala de medida (VAN DER LINDEN; REN, 2015; ZHENG, 2014).