• Nenhum resultado encontrado

CAPÍTULO 3 Metodologia Econométrica

3.1 O Modelo Hierárquico Linear

No presente trabalho, a estratégia empírica irá considerar a estrutura hierárquica presente nos dados educacionais, portanto, o modelo multinível se apresenta como uma alternativa metodologicamente apropriada para a análise proposta no presente estudo. O modelo econométrico irá considerar dois níveis hierárquicos: serão incluídas as variáveis relacionadas aos alunos (nível 1) e as relacionadas às escolas (nível 2). Dessa maneira, será possível considerar a variabilidade existente entre os alunos e entre as escolas, ou seja, leva-se em conta a possibilidade de variação de interceptos e inclinações entre as escolas.

De acordo com Laros e Marciano (2008a), ao tratar variáveis em diferentes níveis, o modelo de regressão clássico pode não ser o mais apropriado, por não levar em conta a presença de correlação entre indivíduos relacionados em um mesmo nível de agregação. No caso desta pesquisa, por exemplo, seria representado pela correlação entre alunos de uma mesma escola.

O argumento mais simples a favor do uso de técnicas de análise multinível expõe que, devido ao fato de que muito do que se é estudado tem uma natureza hierárquica, devem-se utilizar teorias e técnicas de análise que considerem essa estrutura. Ao ignorar o contexto, surge o problema de que o modelo assumirá que os coeficientes de regressão se aplicam igualmente a todos os contextos (LUKE, 2004).

Diante disso, infere-se que os modelos lineares hierárquicos são úteis para estudar estrutura de dados como os educacionais, uma vez que esses permitem que cada nível de hierarquia tenha uma especificação separada, que é reunida, posteriormente, em um modelo único. Além disso, esses modelos permitem incorporar efeitos aleatórios relacionados a cada um dos níveis, que representam as diferenças existentes entre as unidades de cada nível em relação à variável de interesse do estudo. No caso do sistema educacional, quando se deseja avaliar a proficiência em Língua Portuguesa dos estudantes de uma dada série, pode-se considerar que os alunos, em cada escola, sejam o primeiro nível do modelo e que as escolas sejam o segundo. O modelo irá permitir que variáveis como, por exemplo, nível socioeconômico, sexo, escolaridade dos pais, entre outras, possam ser incorporadas no primeiro nível do modelo, enquanto que variáveis relacionadas às escolas, como, por exemplo, escolaridade dos professores, infraestrutura e custo por aluno são incorporadas no segundo

nível, ou seja, cada nível do modelo irá incluir variáveis que busquem explicar as fontes de variabilidade da proficiência entre os estudantes (NATIS, 2001).

Em outras palavras, o modelo de regressão hierárquico explicado em dois níveis considera o aluno como a unidade do nível 1 (determinado pelo subscrito i) e a escola, como unidade do nível 2 (determinado pelo subscrito j). Assume-se a presença de J escolas, , cada uma delas com alunos, . As duas fontes de variação (aluno e escola) podem ser incorporadas em um modelo em dois níveis da seguinte forma, conforme Barbosa e Fernandes (2000), Natis (2001), Luke (2004) e Machado et al. (2008):

Nível 1 (2)

Onde: representa a proficiência do i-ésimo aluno da escola j; uma matriz de variáveis explicativas para a proficiência dos alunos e um vetor de termos de erro que agrupa os fatores não observados que impactam a proficiência dos alunos da escola j. O intercepto corresponde à proficiência esperada de um aluno da escola j, quando é igual à sua média amostral global; já é a variação esperada na proficiência quando aumenta uma unidade em relação à média, mantidas as demais variáveis explicativas fixas.

A equação (2) se assemelha à estrutura típica de regressão de MQO. No entanto, o subscrito j mostra que um diferente modelo de nível 1 é, inicialmente, estimado para cada unidade j no segundo nível. Cada escola (nível 2) no estudo, por exemplo, pode ter uma pontuação média em uma determinada disciplina diferente ( ) e um diferente efeito do tempo de estudo na pontuação ( ). Dessa maneira, permite-se que o intercepto e a inclinação variem entre as unidades de nível 2. Dito de outro modo, essas equações mostram que as escolas possuem interceptos e inclinações diferentes, de modo que os efeitos aleatórios ajudam a explicar essa diferenciação entre as unidades de ensino. A inclusão de variáveis explicativas pode ser feita tanto no nível 1, bem como no nível 2.

Para ilustrar tal fato a Figura 5 exemplifica o caso de 10 escolas, com 10 retas de regressões ajustadas para cada escola tendo o Nível socioeconômico como preditor da proficiência. Na figura as linhas coloridas representam as escolas, enquanto que a linha preta representa a reta de regressão total calculada para todas as escolas juntas. Comparando as retas de regressão individuais com a reta de regressão global, nota-se que as escolas possuem inclinações e interceptos diferentes.

Figura 5: Retas de regressão para dez escolas

Fonte: Elaboração própria a partir de dados da Prova Brasil / INEP 2013

A inclusão de variáveis explicativas pode ser feita tanto no nível 1, bem como no nível 2. Assim, um modelo alternativo para o nível 2 pode ser apresentado da seguinte forma:

Nível 2 (3)

(4)

Onde: corresponde ao valor esperado dos interceptos da população de escolas; , uma matriz de variáveis explicativas para a proficiência da escola; é a estimativa das inclinações na população de escolas; e representam os efeitos aleatórios das escolas.

As equações (3) e (4) indicam: como cada um dos parâmetros do nível 1 são funções das variáveis explicativas e da variabilidade do nível 2; é o intercepto no nível 1 na unidade j do nível 2; é o valor médio da variável dependente do nível 1, mantendo constante os preditores do nível 2 ( ); é o efeito (inclinação) do preditor do nível 2 ( ); e é o erro, ou a variabilidade não modelada, para cada unidade j. A interpretação para a quarta equação é similar, mas nela estão sendo modelados os efeitos do nível 2 sobre a inclinação de ; é a inclinação no nível 1 na unidade j do nível 2; é o valor médio da inclinação do nível 1,

mantendo constante os preditores do nível 2 ( ); é o efeito das variáveis explicativas do nível 2; e é o erro para unidade j.

Substituindo as equações e rearranjando-as, temos uma equação que descreve o modelo geral:

(5)

Fixa Aleatória

Repare-se que os não são diretamente estimados, mas são estimados indiretamente através dos .

A seguir, é apresentada a estratégia de estimação do modelo hierárquico por meio de cinco passos, conforme sugerido por Hox (2002). Primeiramente, é realizada a análise de um modelo vazio ou nulo, isto é, a estimação é feita apenas com o intercepto e sem nenhuma variável explicativa, conforme abaixo:

(6)

Onde: representa a proficiência do aluno i na escola j; representa o intercepto da regressão; e são, respectivamente, os resíduos dos níveis da escola e do nível do aluno. Assume-se que os resíduos sigam distribuição normal, com média zero e variância e .

Esse primeiro passo ajuda na tomada de decisão acerca da necessidade de se utilizar a modelagem multinível, isto é, ajuda a entender como características do nível superior (escola) influenciam no comportamento do nível individual (aluno). Dito de outra forma, o modelo nulo é útil porque permite calcular uma estimativa da correlação intraclasse (grau de correlação entre observações empilhadas) , que nos dá a proporção da variância entre as escolas frente à variância total (o quanto da variação da proficiência escolar entre os alunos é explicado por diferenças presentes entre as escolas a que pertencem). O índice de correlação intraclasse (ICC) é dado pela seguinte equação:

Onde: é a variância dos resíduos do nível da escola e é a variância dos resíduos do nível do aluno.

A partir do coeficiente de intracorrelação, pode-se estimar o grau de agrupamento existente em uma amostra (GOLDSTEIN, 1995). Esse coeficiente varia entre 0 e 1, e quanto mais próximo de zero, maior o indício de não haver estrutura de agrupamento, isto é, mais homogêneas serão as escolas, representando uma baixa influência no desempenho do estudante. Enquanto que, quanto mais o índice for próximo de 1, maior a estrutura de agrupamento, indicando que a variação no desempenho do estudante se deve a diferenças existentes entre as escolas, isto é, as características próprias do estudante não afetam o seu desempenho (BARBOSA; FERNANDES, 2000). O cálculo dessa estatística é, geralmente, utilizado para justificar a aplicação de modelos hierárquicos ao invés de modelos clássicos de regressão.

No segundo passo, analisam-se todas as variáveis explicativas no nível 1 (nível do aluno), considerando-as como efeitos fixos, conforme apresentado abaixo:

(8)

em que corresponde a uma matriz das p variáveis explicativas para a proficiência dos alunos. A escolha por iniciar com as variáveis do primeiro nível ocorre em virtude do maior número de observações disponíveis nesse nível, gerando coeficientes melhores. Além disso, é estimada a contribuição dessas variáveis para a redução da variância (SOUZA; LAROS, 2010). Feito isso, segue-se para o terceiro passo, quando se incorporam q variáveis explicativas para o nível 2 (nível da escola), representadas por , conforme a equação (9).

(9)

Os modelos presentes na equação (8) e (9) são conhecidos como modelos de componente da variância, visto que eles decompõem a variância do intercepto em diferentes componentes de variância, para cada nível de hierarquia. Nesses modelos, considera-se que os coeficientes de regressão são fixos, mas que o intercepto varia entre as escolas (LAROS; MARCIANO, 2008a).

Na próxima etapa da estimação, é feita a inclusão da interação entre os resíduos do nível da escola ( ) e as variáveis explicativas do nível do aluno ( ) para que se possa verificar

se algum dos coeficientes de regressão das variáveis explicativas do menor nível possui variância significativa. Esse modelo é conhecido como modelo de coeficientes randômicos, sendo a equação representativa descrita da seguinte forma:

(10)

No quinto passo, incluem-se no modelo as interações entre variáveis explicativas do nível da escola e as variáveis explicativas do nível do aluno, as quais tiveram significância estatística no passo anterior. Assim, tem-se o modelo completo descrito na equação (11):

(11)

Por fim, essas equações mostram que as escolas possuem interceptos e inclinações diferentes, de modo que os efeitos aleatórios ajudam a explicar essa diferenciação entre as unidades de ensino. Conforme apresentado, a inclusão de variáveis explicativas pode ser feita tanto no nível 1, bem como no nível 2.