• Nenhum resultado encontrado

CAPÍTULO 2 – METODOLOGIA: DADOS, MEDIDAS E MODELOS

2.4 M ODELOS DE REGRESSÃO MULTINÍVEL

2.4.1 Necessidade de uso desses modelos em educação

Se este trabalho fosse na área da agricultura, outras metodologias de análise poderiam, facilmente, ser aplicadas. Por exemplo, para se testar o efeito de um determinado agrotóxico, poder-se-ia optar por manter uma cultura de controle, na qual não se utiliza o produto, e outra cultura, com especificações semelhantes, mas em que

o agrotóxico seria aplicado. E, ao final, comparar-se-ia o resultado obtido nos dois plantios. Ainda que o processo de pesquisa também não seja tão simples assim na agricultura, na área educacional tais metodologias são especialmente complicadas de serem implementadas. Para sanar tais dificuldades, a estatística desempenha um papel fundamental nas Ciências Sociais.

Uma das técnicas estatísticas mais utilizadas para se analisar a relação entre variáveis é o modelo de regressão, mais popularmente o modelo de regressão linear. Implementar um modelo desse tipo é, na verdade, buscar uma relação matemática entre dois conjuntos de dados, as variáveis. Essa relação matemática pode ser descrita pela equação a seguir:

Yi = β0 + β1*xi + ri (3)

Nesse modelo, o “Y” denota o conjunto de dados que se pretende explicar, ou seja, a variável dependente; o “x” é a variável independente, portanto a parte β0 + β1*xi é a componente explicativa do modelo ou preditor linear. Como a equação anterior apresenta apenas uma variável explicativa, pode-se denominá-la de modelo de regressão linear simples, mas, normalmente, pretende-se estudar o efeito de várias variáveis e, neste caso, o modelo seria de regressão linear múltipla. Na prática, os dados não “caem” exatamente sobre a reta de regressão e, por isso, é necessário acrescentar ao modelo um termo que represente esse erro. O “r” da equação mede justamente a diferença entre o “Y” observado e “Y” teórico, fornecido pela equação da reta, e sua estimativa é conhecida como resíduo.

Pode-se afirmar, então, que o principal objetivo, ao se utilizar essa técnica estatística, é o de ajustar o modelo aos dados. Isso significa estimar os parâmetros desconhecidos β0, β1 e demais betas, caso a regressão seja múltipla. Vários modelos podem se ajustar ao conjunto de dados, o melhor ajuste será aquele que torne os resíduos tão próximos de zero quanto possível.

Registre-se aqui que uma relação entre duas variáveis, explicitada por um modelo de regressão, ainda que muito forte, não implica na existência de causalidade. A relação causa-efeito, se necessária, precisa ser buscada por outros meios.

No entanto, esta técnica de regressão linear múltipla não considera o fato, corriqueiro em situações escolares, que os diferentes alunos de uma turma ou escola se influenciam mutuamente e, portanto, suas proficiências não são independentes. Ou

seja, o dado educacional é naturalmente mais complexo e exige assim instrumentos de modelagem, com um nível comparável de complexidade (GOLDSTEIN, 2001, p. 86). A solução encontrada e desenvolvida, concomitantemente, por Goldstein, no Instituto de Educação da Universidade de Londres, e Bryk e Randenbush, na Universidade de Harvard, é hoje denominada modelos hierárquicos ou multiníveis, que se tornaram padrão em pesquisa educacional empírica (LEE, 2001b).

Esses modelos incorporam

naturalmente, e de uma forma parcimoniosa, a estrutura hierárquica ou de agrupamento da população em estudo, tratando o intercepto e os coeficientes de inclinação como variáveis aleatórias. Desta forma, o modelo permite a variabilidade das estimativas entre os grupos (FERRÃO, 2003, p. 31).

Esta técnica estatística permite captar a complexidade da relação entre os fatores de cada um dos níveis e como esses níveis se influenciam mutuamente. Além disso, os dados de alunos são utilizados nos modelos de análise, mas o interesse analítico é a organização escolar (SOARES et al, 2004)22, ou, como argumenta Lee

(2001a), existem algumas questões de pesquisa que são intrinsecamente multíniveis, e, portanto, utilizar técnicas analíticas de um único nível implica em uma série de limitações. A modelagem multinível é que proporciona uma abordagem capaz de lidar adequadamente com questões multiníveis. Para detalhes técnicos sobre os modelos multinível, sugere-se Ferrão (2003), Raundenbush e Bryk (2002) e Natis (2001).

Nas análises multinível deve-se especificar a que nível a variável pertence e quais os efeitos diretos, bem como quais os efeitos de interação entre os níveis que são esperados. Em relação à medição das variáveis, estas podem ser feitas diretamente no próprio nível da variável e, também, por agregação ou desagregação” (Andrade; Laros, 2007, p. 34).

Dependendo dessas escolhas, vários tipos de modelos podem ser implementados. Os modelos multinível mais utilizados são aqueles em que apenas o intercepto é aleatório e a variância da variável dependente é decomposta entre os níveis, denominados de componentes de variância; e aqueles em que se testa o efeito randômico dos coeficientes de inclinação, denominados coeficientes aleatórios (Ferrão, 2003).

22 O que é muito relevante, tendo em vista que “esses modelos produziram uma solução para o

sério problema da unidade de análise, cujo equacionamento limitou, durante anos, a análise de dados provenientes de organizações” (Soares et al, 2004. p. 21).

A equação abaixo ilustra, de forma introdutória, o que vem a ser um modelo de regressão multinível. No próximo item, será detalhado o modelo base para as análises desta tese.

Nível 1: Yij = β0j + β1j*Xij + rij (4)

Nível 2: β0j = γ00 + γ01*Zij + u0j β1j = γ10

onde:

• Yij é a variável dependente. No caso desta pesquisa, a proficiência em

Matemática ou em Leitura, do i-ésimo aluno da escola j;

• β0j é o intercepto, ou seja, a proficiência média dos alunos quando Xij é

zero;

• β1j é o coeficiente de inclinação, ou seja, é a mudança esperada na

proficiência quando Xij aumenta uma unidade;

• Xij é a primeira variável explicativa do nível do aluno, isto é, do nível 1;

• rij é o resíduo associado ao i-ésimo aluno da escola j, também

denominado de resíduo do nível 1. É a parte da proficiência não explicada pelo modelo;

• γ00 é a média dos interceptos de j escolas;

• Zij é a primeira variável explicativa do nível da escola, isto é, do nível 2;

• u0j é o efeito associado a j-ésima escola, também denominada de

variância residual do nível 2;

• γ10 é a média dos coeficientes de regressão de j escolas para a primeira

variável do nível 1.

Documentos relacionados