3.9 CORREÇÃO DE TESTES
3.9.2 Variabilidade relacionada à tarefa (e ao texto)
A segunda fonte de variação apontada por McNamara e citada no início
é a opção de escolha de tarefa a ser realizada. No caso desta pesquisa o tipo
de tarefa é o mesmo para todos, evitando a variação em função da possível
escolha, porém, o tipo de tarefa que o elaborador seleciona para ser realizado
no teste também influencia no desempenho dos leitores. Antes, porém, de
tratar desse assunto, é interessante observar que existe uma possibilidade de o
texto se constituir em uma fonte de variabilidade.
No teste de suficiência proposto, a variação do texto na avaliação
também pode exercer alguma influência nos resultados finais do processo
avaliativo. Pode-se encontrar um exemplo no processo de avaliação da UFPR
no presente momento. Os departamentos da universidade têm autonomia para
decidir se querem um teste de suficiência específico para o seu departamento
ou não e quem vai ser encarregado de elaborar esse teste. O Departamento de
Línguas Estrangeiras Modernas do Curso de Letras prepara os testes para
aqueles departamentos que não exigem provas específicas e, neste caso, são
elaborados três testes enfocando três grandes áreas de conhecimento:
tecnológica, biológica e humanas. Dependendo das diretrizes de cada
departamento, o candidato pode ter a liberdade de escolher em qual das três
áreas de conhecimento ele quer fazer o teste, ou seja, ele pode escolher entre
três textos diferentes. A implicação disso é que se um profissional da área
tecnológica, digamos um engenheiro, quiser fazer mestrado na área de
educação, mesmo tendo que trabalhar no mestrado com textos relacionados à
área de educação, ele pode escolher fazer o teste da área tecnológica, em
função do assunto tratado e da linguagem utilizada no texto ser mais familiar.
Alderson afirma que
a importância do conhecimento antecedente, cultural, de assunto e tópico em compreensão significa que elaboradores de teste devem estar conscientes de que é bem possível que tal conhecimento influencie escores de teste ou medidas de leitura. Normalmente nós não estamos interessados em medir tal conhecimento em testes de leitura: isto poderia representar uma redução na validade da nossa medida. Uma precaução, então, pode ser selecionar textos em tópicos que são reconhecidos como sendo igualmente familiares ou não familiares a todos os candidatos.91 (2000,p. 81,tradução nossa).
Apesar do fato de que neste contexto, como apontado acima, não há
possibilidade de escolha de tarefa, uma vez que todos os leitores terão que
realizar as mesmas tarefas propostas, cabe ao elaborador do teste escolher o
tipo de tarefa considerado mais apropriado aos propósitos do teste. É
importante salientar que o tipo de tarefa a ser realizado no teste deve ser o
mais semelhante possível às tarefas que ele realiza ou deve realizar em
situações reais de uso da língua. De acordo com Alderson
a influência do propósito no processamento e entendimento do texto sugere que avaliadores precisam pensar nas suas questões/tarefas de teste como propósitos de leitura. Quanto mais perto elas chegarem dos propósitos da vida-real, dentro dos limites óbvios de situação de teste, mais probabilidade nós temos de conseguir resultados de teste que vão generalizar e apresentar uma imagem válida daquele tipo de leitura em particular.92 (2000, p. 82-3, tradução nossa).
91 “The importance of background, cultural, subject and topic knowledge in comprehension means that test designers must be aware that such knowledge may well influence test scores or measures of reading. Normally we are not interested in measuring such knowledge in reading tests: this would represent a reduction in the validity of our measure. One precaution, then, can be to select texts on topics which are known to be equally familiar or unfamiliar to all candidates.”
92 “The influence of purpose on text processing and understanding suggests that testers need to think of their test questions/tasks as reading purposes. The closer they can come to real-life
Em se tratando de avaliações de leitura, “É importante entender que
não há nenhum ‘método melhor’ para testar leitura. Nenhum único método de
teste pode preencher todos os vários propósitos para os quais nós podemos
testar.” (ALDERSON, 2002, p.203, tradução nossa). Alguns tipos de teste são
mais utilizados por questões de conveniência e eficiência (são mais rápidos e
fáceis de corrigir, por exemplo), mas seria ingenuidade pensar que por serem
mais usados esses testes podem ser considerados mais válidos que os outros.
Segundo Bachman e Palmer (1997) várias pesquisas sobre os efeitos
dos métodos de testes no desempenho dos testes levam à conclusão de que “é
sempre provável que as características das atividades usadas afetem a
pontuação dos testes em algum grau, de tal forma que virtualmente não há
nenhum teste que dê somente informações sobre a habilidade que nós
queremos medir” (p.46, tradução nossa) e, “visto que não podemos eliminar
totalmente os efeitos das características da atividade, nós devemos aprender a
entendê-los e controlá-los de maneira a assegurar que os testes que vamos
usar têm as qualidades que desejamos e são apropriados para os usos para os
quais eles são pretendidos.” (p. 46, tradução nossa).
Alderson (2002) apresenta alguns tipos de métodos, ou atividades
93,
que podem ser utilizados em avaliações de leitura. Embora não seja o objetivo
desta pesquisa classificar tipos de itens de avaliação, e nem se pretenda
aprofundar cada uma deles, alguns tipos, que ele e outros estudiosos
consideram em suas classificações, serão apresentados a seguir, no intuito de
proporcionar um melhor entendimento da discussão sobre o tipo de questão
selecionado para o teste da pesquisa, que se fará em seguida.
Cloze test: este tipo de item é construído no próprio texto. Uma ou
duas sentenças são mantidas intactas no início e no final do texto, para
purposes, within the obvious limits of the testing situation, the more likely we are to get test results that will generalize and present a valid picture of that particular type of reading.”
93 Em função do emprego de Alderson do termo método, neste momento o emprego do termo método e atividade são equivalentes aos termos item (de teste) e questão, devendo ser considerados sinônimos. Dar-se-á preferência, no entanto, aos termos item e questão, para evitar possíveis ambigüidades.
estabelecer maior coesão textual, e um número variável de palavras é retirado
do texto, para ser recolocada, ou identificada. Retira-se a enésima palavra do
texto, independente de que palavra seja, sendo que ‘n’ geralmente varia entre
cada 5ª e cada 12ª palavra.
Preencher de lacunas (Gap-filling): este tipo diferencia-se do anterior
pelo fato de que as palavras retiradas são escolhidas racionalmente e não por
um procedimento pseudo-fortuito, isto é, o que importa não é o número de
palavras entre uma lacuna e outra, mas a palavra em si. Procura-se deixar um
mínimo de 5 a 6 palavras entre cada lacuna, para permitir a contextualização.
Múltipla escolha (Multiple-choice): nestes itens, para cada pergunta
são propostas várias alternativas para que se escolha uma ou mais entre elas.
Este é um tipo de questão freqüentemente usado em avaliações de leitura.
Relacionar (Matching): item em que se deve fazer a correspondência
entre dois grupos de informações, por exemplo, notícias de jornal e suas
manchetes.
Ordenar (Ordering): como o próprio nome diz, o objetivo destes itens
é ordenar um grupo de palavras, sentenças, parágrafos ou textos, que estão
colocados fora de ordem. A ordem pode ser, por exemplo, de importância,
cronológica, de seqüência lógica, ou de acordo com o texto.
Verdadeiro ou Falso (Dichotomous): nesses itens, para cada
sentença relativa a um texto dado, existem duas alternativas entre as quais se
deve escolher: verdadeiro ou falso / certo ou errado / concorda ou discorda do
texto. Às vezes há uma terceira alternativa, como: não mencionado / não diz,
ou algo assim.
Editar (Editing): este tipo de item consiste de um texto (ou uma parte
de) contendo erros, que deverão ser identificados e, possivelmente, corrigidos.
Respostas curtas (Short-answer): esta é uma alternativa
semi-objetiva para as questões de múltipla escolha. As perguntas feitas devem ser
respondidas de forma breve, com poucas palavras, mas não apenas com
Sim/Não ou Verdadeiro/Falso.
Transferência de informação (Information-transfer): o objetivo
destes itens é identificar no texto alvo as informações requisitadas e
transferi-las, freqüentemente, para uma tabela, um mapa, um esquema, ou para outra
forma qualquer. As informações podem ser constituídas de números, nomes,
pequenas frases ou sentenças; e podem ser pontuadas objetiva ou
subjetivamente.
Questão aberta (Open-ended): Este tipo de questão não faz parte da
lista proposta por Alderson (2002), aqui apresentada e, talvez por isso mesmo,
ele não esclareça o que entende por “open-ended questions” (questões
abertas), limitando-se a colocá-las em oposição às “closed questions”
(questões fechadas). No entanto, considerando a existência de métodos que
não poderiam ser classificados em nenhum dos tipos por ele relacionados, há a
necessidade de apresentar a visão de outros autores a respeito desta questão.
Davies et al no Dictionary of language testing (2002, p.32) adota as
atividades de questão aberta (open-ended question) como sinônimo das
chamadas de resposta construída (constructed-response) e resposta extensa
(extended response), classificando não a questão em si, mas o tipo de resposta
que se espera obter através da questão. De acordo com esses autores este
tipo de questão distingue-se das chamadas de escolha forçada (forced-choice)
no fato de que no primeiro o leitor deve formular sua própria resposta e neste
último o leitor deve escolher uma das opções propostas. Além disso, eles
consideram alguns dos métodos (itens) classificados por Alderson como os
mencionados acima, formas de respostas construídas, por exemplo: “cloze” e
respostas curtas, ou formas de atividades de escolha forçada.
Bachman (1991, p.129) estabelece uma classificação parecida com a
de Davies et al. Muda somente os termos e não o que se entende por eles, e
propõe dois tipos de respostas esperadas: reposta selecionadas e respostas
construídas. Bachman e Palmer (1996, p. 54) dividem os tipos de resposta em
três: resposta selecionada, em que o indivíduo tem que selecionar uma ou mais
respostas, entre as alternativas possíveis; resposta de produção limitada, que
podem ir de uma palavra a uma sentença e resposta de produção extensa, que
são livres e podem ter duas ou mais sentenças. Nuttall (2000, p.186) discute as
questões abertas, as de múltipla escolha e as de verdadeiro ou falso, como
itens pertencentes a um mesmo nível de classificação. Ela afirma que nas
questões abertas o aluno pode dar qualquer resposta que considerar
apropriada, mas que essas questões são particularmente aplicadas a
perguntas “Q” (Que, Quem, Quando), “Como” e “Por que”.
Entre os estudiosos citados, apenas Nuttall (2000, p.186-7) em sua
classificação, apresenta claramente vantagens e desvantagens dos itens
chamados de questões abertas, que se aplicam às questões elaboradas para
os testes desta pesquisa. As duas desvantagens são que essas questões não
podem ser avaliadas objetivamente, o que pode dificultar bastante a correção e
que nem sempre o leitor é capaz de fazer uso da segunda língua para produzir
a resposta, sendo necessária a aceitação do uso da LM na elaboração da
resposta. As três vantagens que ela cita são: a relativa facilidade de elaboração
das questões, em relação às de múltipla escolha; o fato de que as questões
abertas podem ser usadas, praticamente, para qualquer propósito e,
principalmente, o fato de elas permitirem que o avaliador tenha um acesso
maior à capacidade de compreensão, elaboração e síntese, do leitor.
Vários testes internacionalmente (re)conhecidos utilizam questões
objetivas e não discursivas para avaliação de leitura compreensiva. De acordo
com Tumolo (2005) o módulo de leitura acadêmica da avaliação do IELTS
94é
composto por três textos seguidos de questões de múltipla escolha, questões
de respostas curtas, questões de completar, entre outras de resposta
selecionada e de produção limitada e o TOEFL
95tem como característica
avaliar os diferentes níveis de compreensão com o uso de questões de múltipla
escolha. Em sua análise desses testes, Tumolo (2005) encontrou em ambos,
de modo geral, validade de construto (habilidade de leitura compreensiva). No
entanto, apontou a existência de algumas questões irrelevantes ao construto,
tais como algumas que testavam conhecimento de vocabulário, ou
conhecimentos anteriores sobre o assunto. Alderson (2002, p. 98) afirma que
“Bachman et al. (1998) descobriram que quase 70% da variação na dificuldade
dos itens no sub-teste de leitura TOEFL poderia ser explicados poraspectos do
conteúdo do teste relacionados à gramática e ao conteúdo acadêmico e atual
dos itens de leitura”. (tradução nossa). Além disso, ele afirma que em relação
ao teste IELTS, ele (ALDERSON, 1993) encontrou “elevada correlação entre
94 International English Language Testing System