2.5 ELABORAÇÃO DA AVALIAÇÃO
2.5.3 Procedimentos Analíticos
2.5.3.1 Validade da avaliação
McNamara (2000) caracteriza a validade como uma avaliação do pró- prio teste e a define como o processo para investigar os procedimentos pelos quais decisões são tomadas a partir das inferências feitas sobre os resultados do teste. Segundo o autor,
A validação de um teste envolve o pensar na lógica do teste, especialmente em seu design e em suas inten- ções, e também envolve olhar para as evidências em- píricas – os fatos – que emergem dos dados advindos de um julgamento do teste ou de administrações ope- racionais. Se não houver procedimentos de validação disponíveis, há potencial para parcialidades e injusti- ças. Esse potencial é significativo em proporção ao que está em jogo3
126
As inferências sobre os resultados do teste frequentemente vão muito além dos desempenhos observados. Os resultados dos testes não são uti- lizados simplesmente para relatar como um indivíduo se saiu ao responder alguns itens em determinado momento e sob certas condições. Ao contrário, as pontuações do teste são usadas para apoiar afirmações diversas, como, por exemplo, afirmar que um indivíduo possui certo nível de habilidade em algum construto ou possui alguma probabilidade de sucesso em um programa edu- cacional ou outra atividade. Essas afirmações geralmente não são evidentes nas avaliações. É necessário avaliar a plausibilidade das afirmações com base nos resultados dos testes para validar as interpretações e utilizações desses resultados (KANE, 2013).
A confiabilidade da avaliação é considerada como uma condição ne- cessária para a validade, mas não suficiente. Essa afirmação é derivada do fato de que, se a pontuação dos testes varia substancialmente quando se repetem os procedimentos, é difícil fazer inferências consistentes sobre os resultados do teste. Desse modo, as exigências sobre a qualidade das avaliações devem estar sempre presentes, independentemente de objetivos, finalidade ou abran- gência da avaliação (KANE, 2013).
A precisão na classificação de proficiência dos examinandos está re- lacionada com o fato de as decisões baseadas nos resultados dos testes cor- responderem às decisões que teriam sido tomadas se as pontuações fossem livres de erros de medição. Como é muito difícil a obtenção de testes livres de erros, principalmente em áreas educacionais, é necessário estimar a preci- são com que ocorrem as classificações dos examinandos em relação às suas habilidades.
Para isso, pode ser utilizada a comparação entre os resultados de testes paralelos. Se os indivíduos são classificados de forma aproximada em duas formas de testes equivalentes, a precisão da classificação é alta. A desvan- tagem maior desse método reside na dificuldade de aplicar dois testes, que medem as mesmas habilidades, aos mesmos examinandos em uma mesma ocasião. Assim, a precisão da classificação tem de ser avaliada com base na aplicação de um teste único.
Certo número de procedimentos para avaliar a confiabilidade da pon- tuação, e consequentemente a precisão da classificação, foi desenvolvido com base na Teoria Clássica de Testes (TCT), entretanto, procedimentos que uti-
and its intentions, and also involves looking at empirical evidence – the hard facts – emerging from data from test trials or operational administrations. If no validation procedures are available there is potential for unfairness and injustice. This potential is significant in proportion to what is at stake (McNAMARA, 2000, p. 48, tradução nossa).
lizam modelos derivados da Teoria de Resposta ao Item (TRI) estão sendo cada vez mais utilizados. Um dos métodos que está recebendo muita atenção nas pesquisas recentes para a determinação da precisão em que são feitos os julgamentos nas avaliações com itens abertos utiliza o modelo multifacetas de Rasch. Esse modelo é uma extensão do modelo de Rasch, que é o modelo da TRI e um parâmetro.
Nas avaliações com itens de respostas construídas, são muitos os fa- tores que podem afetar a medida do desempenho das pessoas ao executar a tarefa determinada no teste. Em primeiro lugar, está a habilidade do exami- nando, mas a pontuação que ele receberá no exame não depende apenas da sua capacidade ou do conhecimento sobre o construto que está sendo me- dido, depende também da severidade do avaliador, da dificuldade das tarefas, do formato da questão, do tema abordado, dos critérios e da escala de pon- tuação e de outras variáveis que podem interferir em cada evento de avaliação em particular.
Esses e outros fatores são frequentemente constatados em estudos re- lacionados com avaliações com itens abertos, principalmente nas avaliações da linguagem de primeira e segunda língua. Alguns exemplos podem ser ob- tidos nos trabalhos de Huang (2012), Rezai e Lovorn (2010), Gyagenda e Engelhard (2009), Jonsson e Svigby (2007), Sudweeks, Reeve e Bradshaw (2005) e Weigle (1999).
Alguns procedimentos estatísticos para avaliar a confiabilidade da pontuação baseados na TCT são expostos na Seção 2.5.3.2. O modelo multifacetas de Rasch, entretanto, está se mostrando uma ferramenta superior às fornecidas pela TCT para as análises de dados provenientes das avaliações com itens abertos, por permitir análises tanto no nível de grupo quanto no nível individual.
As análises para os efeitos individuais causados por cada elemento que faz parte da avaliação, ou seja, cada examinando, cada avaliador, cada uma das tarefas, cada critério de pontuação utilizado, entre outros, forne- cem a possibilidade de obter informações que possam servir de diagnóstico, no nível individual, sobre o funcionamento de cada elemento em particular. Essa é uma vantagem valiosa sobre outros métodos e torna especial a utiliza- ção do modelo multifacetas de Rasch nas avaliações com itens abertos. Nas avaliações da linguagem, a utilização do modelo multifacetas de Rasch tem possibilitado o levantamento sobre o modo como cada avaliador pontua cada uma das tarefas elaboradas pelos examinandos, possibilitando inclusive a de- tecção de efeitos nas pontuações de difícil diagnóstico, por se apresentarem camuflados.
128
Por esse motivo, e também por apresentar outras vantagens, o modelo multifacetas de Rasch tem se tornado popular em avaliações da linguagem (MACNAMARA; KNOCH, 2012; SUDWEKS; REEVE; BRADSHAW, 2005; MYFORD, 2002), nas avaliações de inglês para estrangeiros (LIM, 2011; JOHNSON; LIM, 2009; MYFORD; WOLF, 2000; WEIGLE, 1999) e também em análises de avaliações que necessitam do julgamento de ava- liadores em diversas áreas, como, por exemplo, para estudo das habilidades essenciais para a escrita criativa (BARDOT et al., 2012), estudos sobre a criatividade (HUNG; CHEN; CHEN, 2012), avaliações orais (VAN MOERE, 2006), análise comportamental em relação a alimentos doces e salga- dos (VIANELLO; ROBUSTO, 2010), avaliação do desempenho médico (McMANUS; ELDER; DACRE, 2013; LUNZ; WRIGHT, 1997), estudos turísticos (PARRA-LÓPES; OREJA-RODRÍGUES, 2014), desempenho na patinação artística (LINACRE, 2002b).
Algumas estatísticas são utilizadas com o objetivo de avaliar a adequa- ção dos dados aos modelos de Rasch e também a qualidade das pontuações provenientes dos avaliadores, a qualidade e dificuldade dos itens, a quali- dade dos critérios e das escalas de classificação utilizadas, entre outros. Esses índices podem auxiliar na determinação da qualidade da avaliação e conse- quentemente apoiar a sua validação. Essas estatísticas estão organizadas em três grupos: (1) Estatísticas de ajuste, que indicam o grau com que as pon- tuações observadas se aproximam das pontuações esperadas que são geradas pelo modelo multifacetas de Rasch; (2) Estatísticas de separação, que indi- cam o quanto os elementos da avaliação estão separados entre si (examinan- dos, avaliadores, itens, etc.); (3) Médias justas e observadas, que auxiliam na obtenção de uma interpretação entre as diferenças nas medidas dos elementos participantes da avaliação e suas implicações. Essas medidas podem ser obti- das para todas as variáveis incluídas no modelo e que fazem parte do sistema de avaliação como um todo. Essas estatísticas são descritas no Capítulo3, Seções3.5.1,3.5.2e3.5.3, respectivamente.
O modelo multifacetas de Rasch, por ser uma extensão do modelo de Rasch, deve ser utilizado em testes que medem a proficiência dos indivíduos em uma única dimensão do construto. Ou seja, os modelos de Rasch são modelos unidimensionais. Quando os resultados da avaliação estão ajustados com os resultados esperados pelo modelo, o pressuposto da unidimensiona- lidade é suportado (ECKES, 2011; SMITH, 1998; TENNANT; PALLANT, 2006). No entanto, diferenças significativas entre os valores esperados pelo modelo de Rasch e os valores observados podem ocorrer por diversas razões, não significando de imediato que a causa seja a multidimensionalidade, para
tanto são necessárias outras análises.
No contexto das medidas de Rasch, existem algumas abordagens para testar a unidimensionalidade (TENNANT; PALLANT, 2006; LINACRE, 1998; SMITH, 1998). A maioria dessas abordagens se baseia em análises do ajuste dos dados ao modelo de Rasch. Quando os dados estão em con- formidade com o modelo de Rasch, toda variação sistemática detectada nos dados é explicada por uma única dimensão. Os resíduos calculados para as pessoas e itens, a partir das observações em uma única dimensão, possuem uma estrutura aleatória normal e variância previsível. Consequentemente, os residuais calculados para os pares de itens, por meio das pessoas, não estão correlacionados. Essa característica é o que define a independência local. No contexto de análises de traços latentes, ou, ainda, das medidas de Rasch, independência local é modelada para manter cada pessoa em pontos correspondentes sobre a variável latente (LINACRE, 1998).
Uma vez que a muldimensionalidade é manifestada pelo comporta- mento dos dados, esses dados devem ser examinados. Após a construção das medidas de Rasch, um valor esperado pode ser calculado para cada observa- ção. O residual da observação é a diferença entre a observação e a expecta- tiva dessa observação. Analisando os padrões entre esses resíduos, podem-se identificar valores que indicam a ocorrência de multidimensionalidade rele- vante (LINACRE, 1998). Segundo Wright (1995 apud LINACRE, 1998), “A análise do ajuste dos dados para a (independência local) é o dispositivo estatístico pelo qual os dados são avaliados quanto ao seu potencial de medi- ção – para sua validade medição”.
Um dos métodos para testar a unidimensionalidade consiste em exa- minar os índices médias quadráticas infit e outfit. Neste trabalho, essas es- tatísticas encontram-se definidas no Capítulo3, Seção3.5.1. Valores desses índices relativamente diferentes de seus valores esperados podem representar sintomas de multidimensionalidade no teste.
Os valores infit e outfit podem ser estimados para cada examinando, cada avaliador, cada critério e são sensíveis para detectar desvios em relação aos valores esperados de acordo com o modelo de Rasch. Por exemplo, as análises sobre a dificuldade relativa de cada critério podem indicar multidi- mensionalidade uma vez que os critérios devem trabalhar juntos para definir uma única dimensão do traço latente. Embora os desvios possam ser causados por uma série de fatores, um desses fatores poderá ser a multidimensionali- dade do construto (ECKES, 2011).
Existem muitos motivos nos quais os valores observados podem dife- rir dos valores esperados calculados pelo modelo de Rasch, por isso tem sido
130
sugerido que as diferenças mais grosseiras sejam investigadas em primeiro lugar. Linacre (1998) sugere um processo em três fases para as análises dos dados com desvios grosseiros: (1) corrigir contradições sistemáticas às me- didas de Rasch, que normalmente são sinalizadas por correlações bisseriais negativas; (2) diagnosticar pessoas e itens idiossincráticos por meio das es- tatísticas de ajuste como as médias quadráticas infit e outfit; (3) procurar por multidimensionalidade.
No Capítulo3(Seção3.6) são apontadas análises que devem ser feitas para aferir a qualidade de uma avaliação com itens de respostas construídas no contexto do modelo multifacetas de Rasch.