Consistência interna e evidências de validade

6 RESULTADOS E DISCUSSÃO

6.2 Definições de avaliação

6.3.1 Consistência interna e evidências de validade

A literatura sobre testes educacionais e psicológicos recomenda o cálculo da consistência interna como um dos métodos de validação de instrumentos (FRASER, 1998). O coeficiente de consistência interna mede a similaridade entre os itens do teste levando em consideração a correlação deles. A TAB. 5 compara a consistência interna do SCoA no Brasil com os resultados de Brown et al. (2009) na Nova Zelândia.

TABELA 5

Comparação da consistência interna do SCoA entre amostras do Brasil e Nova Zelândia

Fator Coeficiente

Alfa de Cronbach

Brasil Nova Zelândia

Melhora (aluno) .83 .88 Melhora (professor) .83 .80 Emoção (aluno) .67 .75 Emoção (sala) .86 .87 Irrelevante (ruim) .52 .77 Irrelevante (ignorar) .59 .67 Responsabilização (aluno) .72 .71 Responsabilização (escola) .76 .63

Nota: tamanho das amostras: Brasil (756), Nova Zelândia (705).

Como apontado na TAB. 5, o valor do Coeficiente Alfa de Cronbach para cada fator variou entre .52 e .86 no Brasil e entre .63 e .88 na Nova Zelândia. De acordo com Hair et al. (2005), os valores de Alfa de Cronbach de .60 a .70 são considerados o limite inferior da aceitabilidade. Na presente pesquisa, utilizamos o critério de corte de .70. No

Brasil, os fatores “Emoção (aluno)”, “Irrelevante (ruim)” e “Irrelevante (ignorar)”

apresentaram valor inferior a .70. Já na Nova Zelândia, isso aconteceu com os fatores

“Irrelevante (ignorar)” e “Responsabilização (escola)”. Dessa forma, a maioria dos

fatores teve uma estimação de confiabilidade interna suficiente para fins de comparação entre as duas amostras. Entretanto, vale destacar que os coeficientes de consistência interna possuem a limitação de considerar que todos os itens medem igualmente o construto. Além disso, a análise da consistência interna não pode ser considerada como prova cabal da validade de construto do teste (PASQUALI, 2003). Apontamos ainda

que o fato de “Emoção (aluno)” e “Responsabilização (escola)” possuírem apenas dois

Antes de discutir as evidências de validade do instrumento, lembramos o modelo completo proposto por Brown et al. (2009), que possui quatro fatores de segunda ordem (Melhora, Emoção, Irrelevante e Responsabilização) e oito fatores de primeira ordem (Melhora-aluno, Melhora-professor, Emoção-aluno, Emoção-sala, Irrelevante-ruim, Irrelevante-ignorar, Responsabilização-aluno, Responsabilização-escola). Assim, esperávamos encontrar evidência convergente entre os fatores I e II, III e IV, V e VI, VII e VIII, pois todos eles compartilham um mesmo fator de segunda ordem (ex:

“Emoção-aluno” e “Emoção-sala”). Já entre os fatores que não compartilham um

mesmo fator de segunda ordem, esperávamos encontrar evidência discriminante (ex:

“Melhora-aluno” e “Irrelevante-ruim”). Nesse sentido, apresentamos na TAB. 6 a

matriz de correlação completa entre os fatores do SCoA brasileiro.

TABELA 6

Correlação entre os fatores do SCoA Brasileiro Fatores do SCoA

I II III IV V VI VII VIII I. Melhora (aluno) 1.00

II.Melhora (professor) .62 1.00

III. Emoção (aluno) .60 .87 1.00

IV. Emoção (sala) .39 .51 .63 1.00

V. Irrelevante (ruim) -.47 -.61 -.68 -.29 1.00

VI. Irrelevante (ignorar) -.63 -.47 -.50 -.21 .79 1.00

VII. Respons (aluno) .58 .81 .83 .54 -.53 -.44 1.00

VIII. Respons (escola) .50 .72 .62 .42 -.44 -.35 .69 1.00 Nota: correlações estimadas com Análise Fatorial Confirmatória.

Quanto à evidência convergente, os valores foram de acordo com o esperado, apresentando correlações médias e fortes. As correlações entre os fatores I e II, III e IV, V e VI, VII e VIII variaram entre .62 e .79 A correlação maior foi entre os fatores

“Irrelevante-ruim” e “Irrelevante-ignorar” (r = .79).

Já com relação à evidência discriminante, os valores não foram de acordo com o esperado, pois algumas correlações foram altas. São alguns exemplos: “Emoção

(aluno)” e “Melhora (professor)” (r = .87); “Melhora (professor)” e “Responsabilização (aluno)” (r = .81). As correlações entre os fatores que não compartilham um mesmo

fator de segunda ordem variaram entre -.21 e .87. Tomados em conjunto, esses resultados indicam que alguns fatores são redundantes. Também chama a atenção o fato de que algumas correlações tiveram valores superiores aos encontrados na evidência convergente. No entanto, como já destacamos na seção 5.2.3, existem métodos mais robustos para a validação de um questionário como, por exemplo, a Análise Fatorial

Confirmatória (AFC). Nesse sentido, a próxima seção descreve de forma detalhada os resultados da AFC.

6.3.2 - Análise Fatorial Confirmatória

Nessa pesquisa também utilizamos a Análise Fatorial Confirmatória (AFC), por ser um procedimento de estimação mais robusta para a validação do questionário.

Com relação às concepções de avaliação dos alunos (itens 1 ao 32), analisamos os índices de ajuste de três modelos: quatro fatores (ou seja, agrupamos os oito fatores); oito fatores; e o modelo completo proposto por Brown et al. (2009) com quatro fatores de segunda ordem (Melhora, Emoção, Irrelevante e Responsabilização) e oito fatores de primeira ordem (Melhora-aluno, Melhora-professor, Emoção-aluno, Emoção-sala, Irrelevante-ruim, Irrelevante-ignorar, Responsabilização-aluno, Responsabilização- escola). A solução com fatores de segunda ordem foi inadmissível na Análise Fatorial Confirmatória.

O software MPLUS versão 3.11 foi utilizado para realizar a AFC do SCoA. O método de Máxima Verossimilhança, que é o estimador padrão do MPLUS, assume uma normalidade multivariada. Esse pressuposto é violado com o SCoA, que contém itens do tipo Likert de seis pontos. Assim, a AFC foi conduzida usando um estimador robusto do MPLUS para a análise de indicadores categóricos denominado Mean and variance-adjusted weighted least squares estimator (WLSMV). O WLSMV fornece uma estimação sem viés (unbiased estimates) para escalas Likert de diferentes números de categorias e graus de simetria e curtose (FLORA; CURRAN, 2004).

A TAB. 7 indica os valores encontrados para as respostas ao SCoA brasileiro.

TABELA 7

Comparação de índices de ajuste dos modelos da AFC: Concepções de avaliação

Modelos 2 gl CFI TLI Gamma

hat RMSEA SRMR 4 fatores 2198.634 127 .64 .89

.85 .147 .087 8 fatores 1116.312 138 .83 .95 .92 .097 .057 Nota: Todos os valores 2 foram estatisticamente significantes (p < . 0000).

Como apontado na TAB.7, o modelo de quatro fatores teve um ajuste muito ruim e o modelo com oito fatores teve o melhor ajuste. A estatística qui-quadrado do

ajuste do modelo foi significante. Três índices sugerem um bom ajuste do modelo (TLI = .95; gamma hat = .92; SRMR = .057). Esses índices demonstram o ajuste global do modelo (em que medida a hipótese teórica se ajusta aos dados observados). Juntos esses índices sugerem que as respostas ao SCoA brasileiro se ajustam bem à estrutura fatorial proposta de oito fatores. As cargas fatoriais padronizadas de todos os itens relacionados às concepções de avaliação do SCoA brasileiro (itens 1 ao 32) são apresentadas na TAB. 8.

TABELA 8

Cargas fatoriais padronizadas dos itens do SCoA Brasileiro: Concepções de avaliação Melhora (aluno) Melhora (prof) Emoção (aluno) Emoção (sala)

Item Carga Item Carga Item Carga Item Carga

1 .64 5 .75 6 .66 2 .82 10 .69 8 .86 31 .84 12 .84 14 .72 9 .86 17 .70 15 .86 23 .70 21 .68 19 .78 27 .51 25 .80 30 .70 28 .78

Irrelev (ruim) Irrelev (Ignorar)

Respons (aluno) Respons (escola)

Item Carga Item Carga Item Carga Item Carga

3 .60 7 .57 4 .65 11 .74

13 -.18 29 .62 16 .75 24 .88 18 .40 32 .77 20 .80

22 .33 26 .87

Como indicado na TAB. 8, a maioria dos itens teve cargas fatoriais altas. O item 13 foi uma exceção. Esse item se mostrou problemático em todas as análises realizadas. Na AFC, por exemplo, ele apresentou uma variância residual de .97. Dessa forma, esse item precisa ser modificado ou excluído em futuras aplicações do questionário. A hipótese que temos sobre a causa do mau funcionamento do item 13 na versão brasileira

se refere à tradução. O item original em inglês é “Assessment interferes with my

learning” e a tradução para o português foi “A avaliação interfere no meu aprendizado”. Acreditamos que a palavra “interfere” pode apresentar uma ambiguidade, significando

tanto algo como “faz diferença, modifica o meu aprendizado” ou “atrapalha meu

aprendizado”. Talvez isso tenha confundido os respondentes do questionário.

Por fim, uma mesma crítica que foi feita na análise das definições de avaliação

pode ser feita aqui. Dois fatores “Emoção (aluno)” e “Responsabilização (escola)”

possuem somente dois itens. Tecnicamente, não é muito adequado ter um fator só com dois itens. Por isso, recomendamos que novos itens sejam incluídos nesses fatores em futuras análises.

No documento A avaliação no ensino superior: concepções múltiplas de estudantes brasileiros (páginas 90-94)