Generalização das avaliações - Confiabilidade e validade estatísticas da avaliação docente pelo

O estudo da generalização diz respeito ao grau de confiança com que os dados resultantes dos processos de avaliação reflitam a qualidade do ensino do professor em qualquer semestre letivo. Decisões pessoais implicam em previsões sobre a qualidade do ensino daquele professor em cursos futuros. Por isso, o termo generalização, um conceito que incorpora os conceitos de confiabilidade e validade (AUBRECHT, 1981).

Este é o único estudo publicado no Brasil até a data desta defesa, que trata da estabilidade da estrutura fatorial de instrumento de avaliação da docência pelos alunos e da estabilidade das avaliações dos alunos com respeito ao corpo docente ao longo do tempo.

Nos estudos de generalização, duas abordagens têm sido empregadas pelos pesquisadores: a Teoria da Confiabilidade Clássica e a Teoria da Generalização.

A Teoria da Confiabilidade é usada para analisar as correlações nos níveis de satisfação dos alunos sob as seguintes condições:

1- mesma disciplina – mesmo professor (MD – MP); 2- mesma disciplina – diferente professor (MD – DP); e 3- diferente disciplina – mesmo professor (DD – MP).

A condição MD-MP controla o efeito classe que é uma combinação do efeito professor, efeito disciplina e a interação entre disciplina e professor. A condição MD-DP serve para isolar o efeito disciplina, enquanto a condição DD-MP serve para isolar o efeito professor.

A Teoria da Generalização usa a técnica de análise de variância para examinar a quantidade de variância nos níveis de satisfação dos alunos devido ao “efeito professor”, “efeito disciplina”, “efeito classe” (AUBRECHT, 1981).

Hogan (1973), Bausell et al. (1975), Marsh (1982), (apud AUBRECHT, 1981) usaram a teoria de confiabilidade para estudar os efeitos diferenciais do professor e da disciplina, correlacionando os níveis de satisfação dos alunos nas três categorias diferentes MD-MP, MD-DP, e DD-MP. As correlações encontradas por Hogan (1973) e Bausell et al. (1975) e Marsh (1982) seguem apresentadas na tabela 7. O valor entre parênteses corresponde ao percentual da variância explicada para cada uma das combinações.

Tabela 7: Correlações do Estudo de Hogan (1973), Bausell et al (1975) e Marsh (1982).

Correlações Efeitos

Hogan Bausell et al Marsh

DD – MP (professor) 0,40 (16%) 0,37 (13,69%) 0,52 (27,04%) MD–DP (disciplina) 0,19 (3,61%) 0,24 (5,76%) 0,14 (1,96%) MD–MP (classe) 0,70 (49%) 0,64 (40,96%) 0,71 (50,41%) Fonte: Aubrecht (1981).

Os resultados das pesquisas de Marsh (1984), Hogan (1973), Bausell et al. (1975), Gillmore et al. (1978) apontam evidências de que o professor, não a disciplina, fornece argumentos para os níveis de satisfação dos alunos; possibilitando, então, a prática de comparar avaliações de professores diferentes para decisões diversas (aperfeiçoamento, estabilidade, promoção, etc.).

4 VALIDADE DAS AVALIAÇÕES DOS DOCENTES PELOS DISCENTES

4.1 Introdução

Para Churchill (1979), uma medida tem validez quando as diferenças entre os valores observados refletirem somente diferenças verdadeiras sobre as características que se pretende medir e não sobre outros fatores. Por exemplo, dois professores A e B obtiveram respectivamente a pontuação nove e sete quanto à sua avaliação no construto “avaliação”. Se a medida for válida, a diferença de dois pontos percentuais observada, deve-se aos atributos da boa docência que distingue um professor do outro. O professor “A”, por exemplo, é aquele que elabora a avaliação numa linguagem clara, fixa os critérios de correção, elabora a avaliação com vistas aos objetivos acordados com a turma; enquanto que o professor “B” manifesta essas qualidades, mas em menor intensidade. No entanto, se a pontuação nove obtida pelo professor é decorrente de uma troca, ou seja, o professor consegue iludir os alunos com notas altas para obter melhores níveis de satisfação, há uma situação de fraqueza para os resultados da avaliação, resultando em informações não válidas com vistas à melhora da qualidade do ensino.

É necessário o estudo da confiabilidade e da validade dos itens que compõem a escala e do instrumento como um todo, para evidenciar a qualidade das medidas decorrentes do processo avaliativo, ou seja, comprovação de que as medidas estão isentas das diversas fontes de erro que atuam durante o processo de medição. Peter (1981), considera que a medida de um conceito é válida quando cumpre os seguintes requisitos: a) medirem a grandeza e a direção de uma amostra representativa de indicadores do conceito e b) a medida não está enviesada com elementos procedentes do domínio de outro construto ou com erros.

Para Ramos (1986), o conceito de validez é fundamental na investigação científica, pois dessa característica primordial da medida decorrem os conceitos de contraste, verdade, adequação à realidade, utilidade dos resultados, que estão todos vinculados ao conceito de validade da medida. Segundo Magnuson (1966, apud RAMOS, 1986), um teste ou instrumento de medição cuja confiabilidade é conhecida, será válido se medir os traços para o qual foi construído. Por essa definição, fica claro que, para estimar a validade do instrumento de medida, é necessário o conhecimento prévio dos conceitos que se espera que o instrumento seja capaz de medir. Assim, se existir, no instrumento, um conjunto de variáveis ou itens intercorrelacionados e essas convergirem, segundo os procedimentos empíricos de análises de dados, para a direção do conceito investigado, diz-se que esse conjunto de indicadores é válido para auxiliar o pesquisador no estabelecimento pleno do conceito. Em sentido restrito, um instrumento de medida é válido se cumpre satisfatoriamente ao propósito para o qual foi construído, nesse caso, avaliar a qualidade do ensino no âmbito da sala de aula. Para Ramos (1986), o tema validez é complexo e justifica a sua afirmação pelas seguintes razões:

1) o caráter indireto da medição, já que nunca se mede uma variável latente. O que se mede são algumas manifestações do domínio de condutas, que se supõem serem manifestadas pelos indivíduos. Nesse sentido, fica difícil manifestar se o instrumento é válido ou não válido, e sim em que grau é válido para medir o que se pretende medir, dado que somente uma amostra de itens é considerada para medir determinado traço latente; e

2) o que possibilita a determinação do grau de validez do instrumento de medida são as valorações atribuídas aos diversos itens do instrumento por uma amostra representativa de respondentes. Assim, a estimativa do grau de validez do instrumento passa a ser uma característica da população considerada. Desse modo, um instrumento pode ter um certo

grau de validade para uma população de indivíduos e não ser válido ou não apresentar o mesmo grau de validade para outra população de respondentes distinta.

No documento Confiabilidade e validade estatísticas da avaliação docente pelo discente: proposta metodológica e estudo de caso (páginas 81-86)