• Nenhum resultado encontrado

CAPÍTULO III – FONTES DE DADOS E MÉTODO

3.3 Métodos

De posse do banco de dados, o manuseio dos dados foi dividido em dois momentos. No primeiro foi realizada a análise descritiva da população objeto desse estudo, sendo traçado o perfil dos alunos, das escolas e dos docentes, possibilitando não só o diálogo com a legislação e as políticas educacionais, mas também compreender possíveis mudanças nessas características ocorridas no período.

O segundo momento consistiu na aplicação de uma regressão logística binária múltipla. Uma técnica “formulada para prever e explicar uma variável categórica binária” (HAIR JR. et al., 2009, p. 225), no nosso caso, a defasagem escolar: o aluno encontra-se em ano escolar (antiga série) inadequado para sua idade (sim ou não). As variáveis explicativas a serem testadas são aquelas apresentadas no Quadro I.

3.3.1 Limpeza e construção do banco

Os microdados do censo escolar, quando baixados do site do Inep, vêm desagregados segundo quatro unidades de análise que correspondem respectivamente a quatro formulários distintos: matrícula, turma, docente e escola. Por sua vez, os bancos de matrículas e docentes também são desagregados por grande região. Logo, o primeiro passo foi unir os arquivos, montando um banco nacional para cada ano que apresentasse todas as variáveis de interesse em um só lugar. Em seguida, foram selecionadas as variáveis a serem utilizadas, apagando as restantes que não foram incluídas no estudo. Por fim foi gerado um Banco contendo apenas os alunos com NEE. Esse procedimento foi necessário para dinamizar a análise dos dados, pois quanto menor o banco, mais rápido o processamento dos dados.

Uma vez limpo o banco, foram verificadas as frequências da variável etapa (que capta ano e nível que está sendo cursado) onde foi identificada a ausência de informação para 9,7% dos casos em 2013; e 9,8% em 2017. Ou seja, quase 10% das matrículas contabilizadas no censo escolar nesses anos não estavam associados a nenhuma etapa de ensino. Ainda no que diz respeito à etapa, foram criadas duas variáveis: a primeira, resultado da compatibilização entre o ensino fundamental de 8 e 9 anos; onde foram somados os alunos do 2º ano do fundamental de 9 anos com os da 1º série do de 8 anos e assim por diante. Tal procedimento foi adotado de forma a compatibilizar as etapas do ensino fundamental segundo

os critérios da Lei n. 11274/2006 que implementou o ensino fundamental de 9 anos no país. Depois, foi criada uma variável dicotômica “em fase” codificada segundo definição do INEP e do MEC:

[...] considerando o Censo Escolar do ano t e a série k do ensino fundamental, cuja a idade adequada é de i anos, então o indicador será expresso pelo quociente entre o número de alunos que, no ano t, completam i + 2 anos ou mais (nascimento antes de t -[i + 1]), e a matrícula total na série k. A justificativa deste critério é que os alunos que nasceram em t - [i + 1], completam i + 1 anos no ano t e, portanto, em algum momento deste ano (de 1º de janeiro a 31 de dezembro) ainda permaneciam com i anos e, por isso, o critério aqui adotado, considera estes alunos como tendo idade adequada para esta série. Os que nasceram depois de t - [i + 1] completam, no ano t, i anos ou menos (MEC/INEP, 2007).

De forma simplificada tem-se, portanto, que a defasagem escolar ou distorção idade-série é dada pelo percentual de estudantes com dois anos a mais do que o indicado para aquela etapa do ensino fundamental ou médio. Seu cálculo é expresso pela seguinte fórmula:

𝑇𝐷𝐼𝑆𝑘𝑠 = 𝑀𝑘𝑠𝑎_𝑠𝑢𝑝

𝑀𝑘𝑠 ∗ 100 Onde:

TDISks é a taxa de distorção idade-série (ou idade-ano) no nível de ensino k em

sua série/ano s. Onde, Mksa_sup é o número de matrículas de estudantes que nasceram em anos

anteriores ao ano de nascimento dos estudantes que cumprem a idade recomendada para o nível de ensino k e na série/ano s no ano de realização do censo escolar. Enquanto, Mks é o

número total de matrículas no nível de ensino k na série/ano s.

Foram construídas também, variáveis referentes à grande região e à dependência administrativa da escola. Na primeira, a variável da UF foi recodificada a fim de classificar os dados segundo as cinco grandes regiões (Norte, Nordeste, Sudeste, Sul e Centro-Oeste). Já a dependência, originalmente trazia as categorias, “municipal”, “estadual”, “federal” e “privada”, teve as três primeiras opções sintetizadas na categoria “pública”.

3.3.2 O modelo logístico

Como explicitado anteriormente, foram construídos quatro modelos de regressão logística múltipla: um para matrículas de estudantes com NEE em 2013 e outro para SNEE em 2013; um para NEE em 2017 e um último para SNEE em 2017.

A regressão logística é utilizada justamente quando a variável que queremos explicar é uma dicotômica que assume apenas dois valores possíveis. No presente trabalho, estar defasagem escolar (situação identificada no banco de dados pelo código 1) e não estar em defasagem escolar (registrada com o código 0). Denomina-se “múltipla”, quando contempla duas ou mais variáveis explicativas. As variáveis explicativas consideradas nessa dissertação e suas respectivas categorias estão listadas no Quadro 2.

QUADRO 2 – Variáveis explicativas consideradas no modelo logístico 2013-2017

Variável Categoria

Sexo Masculino

Feminino

Idade Até 10 anos

11-14 anos Cor/raça Brancos Pretos Pardos Amarelos Indígenas Sem declaração Localização Urbana Rural Região Norte Nordeste Sudeste Sul Centro- Oeste

Dependência administrativa Pública

Privada

Dependências PNE Sim

Não Fonte: Elaboração própria.

Na construção dos modelos foram consideradas as matrículas apenas de estudantes de até 14 anos, para enfatizar a condição das crianças inseridas no sistema escolar. Assim, no modelo NEE (2013) foram considerados 476.572 casos; no modelo NEE (2017), 605.657 casos; no modelo SNEE (2013) 26.410.616 casos; e, por fim, no modelo SNEE (2017), outros 24.751.582 casos.

Observa-se que as variáveis utilizadas na regressão logística não correspondem necessariamente às da análise descritiva. Um exemplo disso são as variáveis relativas à capacitação docente. Sua exclusão na construção do modelo logístico decorre do fato de que embora a capacitação docente seja parte essencial para o funcionamento das políticas educacionais, avaliar o impacto desta na defasagem escolar é muito difícil, pois seria necessário avaliar a capacitação de todos os professores que o aluno em defasagem já teve

para verificar o peso da capacitação sobre estar ou não em fase. Além disso, para aqueles alunos que têm aulas com mais de um professor seria necessário criar um meio de articular essas informações, o que complexificaria demasiadamente deste primeiro trabalho. Por existirem muitos estudos anteriores utilizando a mesma base de dados, optou-se por realizar um trabalho mais exploratório e de caráter fortemente descritivo.

O método de inserção de variáveis explicativas no modelo de regressão logística foi o stepwise avaliado através da razão de verossimilhança. Segundo Field (2009), métodos passo-a-a passo (stepwise) são mais indicados para estudos exploratórios do que métodos que inserem no modelo todas as variáveis de uma vez só (conhecido como “enter”). Isso, porque ao inserir uma variável de cada vez, torna mais fácil a identificação daquelas que são significativas para o modelo. Dentro dos métodos stepwise ainda é possível escolher entre o “forward” (insere uma variável no modelo de cada vez) “backward” (começa com um modelo maior e retira uma variável por vez). A diferença entre os dois é que o último possui menos chances de apresentar efeito supressor do que o primeiro. O efeito supressor ocorre quando um previsor tem efeito significativo apenas quando outra variável é mantida constante (FIELD, 2009).

CAPÍTULO IV – PANORAMA DA SITUAÇÃO DA POPULAÇÃO COM