EFICIÊNCIA DO ENSINO NO DISTRITO FEDERAL
PELO DEA
Autor: Glauco Lívio Silva Azevedo
Orientador: Dr. Rogério Boueri Miranda
Mestrado
PRÓ-REITORIA DE
PÓS-GRADUAÇÃO
AUTOR: GLAUCO LÍVIO SILVA AZEVEDO
EFICIÊNCIA DO ENSINO NO DISTRITO FEDERAL PELO DEA
Dissertação apresentada no Programa de Pós-graduação Strictu Senso em Mestrado em Economia de Empresas da Universidade Católica de Brasília como requisito parcial para obtenção de Título de Mestre em Economia de Empresas
Orientador: Dr. Rogério Boueri Miranda
Brasília
Ficha elaborada pela Coordenação de Processamento do Acervo do SIBI – UCB.
15/04/2009
A994e Azevedo, Glauco Lívio Silva.
Eficiência do ensino no Distrito Federal pelo DEA / Glauco Lívio Silva Azevedo. – 2009.
44 f. ; il. ; 30 cm
Dissertação (mestrado) – Universidade Católica de Brasília, 2009. Orientação: Rogério Boueri Miranda
1. Ensino – Distrito Federal. 2. Data Envelopment Analysis - DEA. I. Miranda, Rogério Boueri , orient. II. Título.
"Há escolas que são gaiolas. Há escolas que
são asas."
AZEVEDO, Glauco Lívio Silva. Eficiência do Ensino no Distrito Federal pelo DEA. 2009. 44 folhas. Dissertação do Curso de Mestrado em Economia de Empresas – Universidade Católica de Brasília, 2009.
Este trabalho analisou a eficiência das escolas de ensino médio públicas e privadas do Distrito Federal a partir de um modelo paramétrio e outro não-paramétrico. No primeiro caso utilizou-se o modelo Data Envelopment Analysis – DEA para o cálculo da eficiência. A nota da prova do Enem de 2007 foi adotada como produto/resultado. Os insumos endógenos utilizados no modelo DEA foram previamente convertidos em índices com base no modelo de Análise dos Componentes Principais (ACP). Após o calculo da eficiência, adotou-se o modelo paramétrico de regressão linear para se identificar a influência de variáveis exógenas na determinação da eficiência. Os resultados demonstram que a classificação das escolas públicas melhorou quando se utiliza o índice de eficiência ao invés apenas das notas do Enem. As variáveis exógenas de renda per capita, tipo de dependência administrativa (pública ou privada), quantidade de alunos e adoção do Programa TV Escola demonstraram ter correlação positiva com a eficiência.
AZEVEDO, Glauco Lívio Silva. Efficiency of Schools in the Federal District of Brazil
measured by DEA. 2009. 44 pages. Dissertation of Master`s Degree of Enterprise Economy
Course– Catholic University of Brasília, 2009.
This thesis used parametric and a non-parametric modeling to analyze the efficiency of private and public middle schools in the Federal District, Brazil. Initially, a Data Envelopment Analysis – DEA was undertaken to calculate school efficiency. The product/result adopted was the grade attained in the national middle school scholastic exam – ENEM – of 2007. Index numbers were constructed for the endogenous inputs of the model using Principal Components Analysis. Following these efficiency calculations, a linear regression analysis was then used to identify the influence of exogenous variables on school efficiency. Results demonstrate that the efficiency index portrays a better school performance than the single ENEM grade. Exogenous variables showing positive correlation to efficiency include per capita income, type of institutional administration (private/public), number of students enrolled and the adoption of the “TV Escola” governmental program.
1 INTRUDUÇÃO ... 08
1.1 MOTIVAÇÃO ... 08
1.2 LITERATURA ... 10
2 FUNÇÃO DE PRODUÇÃO EDUCACIONAL ... 12
3 METODOLOGIA ... 15
3.1 DATA ENVELOPMENT ANALYSIS (DEA) ... 15
3.2 ANÁLISE DOS COMPONENTES PRINCIPAIS ... 18
3.2.1 Formalização da Análise dos Componentes Principais... 20
4 BASE DE DADOS E TRATAMENTO DAS VARIÁVEIS ... 23
4.1 ENEM ... 23
4.2 O CENSO ESCOLAR ... 24
4.3 TRATAMENTO DAS VARIÁVEIS... 26
5 RESUMO E CONCLUSÃO ... 38
5.1 MELHORAMENTOS SUGERIDOS ... 41
1 INTRODUÇÃO
1.1 MOTIVAÇÃO
Existem diversos trabalhos científicos que trataram do tema Educação, nos mais diversos
prismas, que mostram a correlação positiva entre o aprimoramento educacional e a melhoria
da qualidade de vida dos indivíduos e das sociedades. Seja por meio de ganho de
produtividade dos trabalhadores, da melhor distribuição da renda, da redução da mortalidade
infantil (por aumento da escolaridade das mães), da redução do trabalho infantil, do aumento
da longevidade ou da melhoria das condições de trabalho. Qualquer que seja o foco adotado, a
educação tem permitido às sociedades alcançarem maiores índices de qualidade de vida.
A disponibilidade de trabalhos que demonstram essa correlação é tão grande que se criou na
sociedade brasileira uma consciência da sua relevância. Esse discurso é quase uníssono,
contudo os debates públicos relativos a este tema pouco tem aprofundado sobre a qualidade
dos serviços educacionais, sobre quais são os seus principais condicionantes e qual a melhor
alocação de recursos.
Isso é bastante evidente quando se observa os discursos políticos em defesa da aplicação de
recursos públicos para a Educação. Eles destacam a importância de recursos, mas pouco ou
vagamente se referem a resultados, que é realmente o que interessa à sociedade. Adicione-se a
isso a pressão feita por sindicatos ligados aos docentes e por grupos estudantis em favor de
recursos financeiros para Educação, mas que não tem mesmo empenho pela qualidade, seja
pela formação do corpo docente, seja pelo aprendizado dos discentes1.
Isso é reflexo, também, do pouco debate nos meios acadêmicos. É escassa a literatura que
trata da qualidade da educação fornecida pelas escolas e que vai além dos limites das
comparações de notas entre estabelecimentos de ensino ou entre países. Mais escassa ainda é
a literatura que trata da eficiência das unidades responsáveis pelo produto Educação.
1
Não ignoramos ou desprezamos a relevância da qualidade em termos absolutos, quando as
capacidades cognitivas são desenvolvidas e mensuradas por exames. O que pretendemos
destacar por meio deste trabalho são os condicionantes que influenciam as capacidades
cognitivas dos alunos e que estão fora do controle das unidades produtivas (escolas), que são
os efeitos exógenos, como os sócio-econômicos e os tipos de gestão, de forma a lançar mais
luz sobre este assunto.
Além disso, diferentemente de boa parte dos trabalhos que estudam a efetividade do ensino,
pretendemos analisar também a eficiência das unidades de ensino. Ou seja, buscamos ir além
da mensuração das capacidades cognitivas proporcionadas pelas escolas aos seus alunos,
mensuradas através de exames. Pretendemos mensurar as eficiências das unidades produtivas,
levando em conta os diferentes tipos e diferentes quantidades insumos que possam tornar as
escolas eficientes ou não, como escolaridade do corpo docente e infra-estrutura, também serão
considerados.
Assim, o objetivo deste trabalho é fazer uma comparação da eficiência das unidades
responsáveis pelo ensino médio (as escolas) do Distrito Federal, levando-se em conta as
dotações (insumo) físicas de cada uma. Além disso, verificar o impacto das variáveis
exógenas sobre a eficiência, como realidades sócio-econômicas e de tipos de gestão (publica
ou privada) diferentes. Para avaliar os insumos físicos utilizados pelas escolas (input), serão
consideradas as várias características das escolas e que são passíveis de alguma gerência pelas
unidades de ensino (DMU – Decision Maker Unit)2. Elas foram obtidas por meio do Censo
Escolar, promovido pelo Ministério da Educação e Cultura (MEC). Posteriormente, serão
adicionadas à análise variáveis que estão além da capacidade gerencial das DMUs que são as
variáveis sócio-econômicas, que são diferentes para cada Região Administrativa – RA, e
serão adotadas como proxy para qualidade do “insumo” aluno. Como forma de mensurar os
resultados efetivos do aprendizado utilizaremos as notas do Enem (outcome).
Esta trabalho está organizado da seguinte maneira: a) A Seção 2 apresenta a função de
produção educacional; b) A Seção 3 apresenta e comenta a metodologia utilizada no cálculo
2
da eficiência da escolas de ensino médio do Distrito Federal; c) A Seção 4 apresenta as bases
de dados do estudo, comenta sobre suas variáveis e explica o tratamento utilizado para os
aspectos computacionais; e d) A Seção 5 comenta os resultados e sugere aprimoramentos para
futuras extensões.
1.2 LITERATURA
Conforme já mencionado, são poucos os trabalhos que analisam a eficiência do ensino. Para o
caso brasileiro podemos citar alguns como o de Gasparini & Ramos (2003). Nesse estudo,
eles se utilizam da proficiência em Português e Matemática aplicada ao ensino médio nas 27
unidades federativas em 1997. Os dados foram obtidos no Sistema Nacional do Ensino Básico
– SAEB. Os dados são agregados para informações das escolas públicas e privadas e são
considerados proxy do desempenho do setor público, visto que mais de 80% dos alunos do
ensino médio estudam em escolas públicas. Em um primeiro momento é feita uma
comparação da eficiência das escolas. Os gastos médios por aluno das despesas
governamentais com educação foram utilizados como insumos e a avaliação pelo SAEB,
como produto. Depois, foram introduzidas variáveis exógenas, via regressão linear, para se
verificar o efeito na eficiência dos estados. A conclusão foi que alguns estados, como o Acre,
eram considerados ineficientes basicamente por questões de baixo desenvolvimento
sócio-econômico. Quando este efeito era corrigido, no geral, tiveram melhoria nos seus
desempenhos. No caso específico do Acre, foi considerado mais eficiente do que todos os
estados da região Sudeste, devido a disparidade de dados sócio-econômicos.
Outro estudo sobre a eficiência do sistema de educação é o de Machado & Delgado (2007).
Eles fazem uma análise de eficiência utilizando-se do modelo semiparamétrico, que é a
adoção conjunta do DEA e de um modelo paramétrico. Foram adotados como produtos os
exames de proficiência de matemática e português de 4ª a 8ª séries do ensino fundamental e 3ª
do ensino médio das escolas públicas de Minas Gerais, avaliadas pelo Sistema Mineiro de
Avaliação da Educação Púbica (Simave), e a quantidade de alunos matriculados, obtidas no
Censo Escolar. Como insumos foram adotadas variáveis relacionadas a custos (obtidas no
Sistema Informacional de Custo por Aluno – Sica), a dados de infra-estrutura (obtidos no
Censo Escolar) e a socio-econômicas (obtidas no Simave). O modelo é feito em dois estágios,
sendo que no primeiro foram calculados os índices de eficiência e no segundo foram feitas
localização e de dotação. Eles concluíram que enquanto alguns equipamentos como
computador podem incrementar o indicador de eficiência, outros como televisores,
bibliotecas, videotecas e laboratórios de ciências não proporcionam o mesmo resultado.
Quanto aos indicadores familiares (grau de escolaridade da responsável feminina, ter livro em
casa), eles se mostraram tão importantes para o desempenho quanto a própria escola.
Outro trabalho que também aborda o tema eficiência no sistema de educação foi feito por
Reinaldo, Possamai & Thomaz (2002). Eles analisaram as escolas do ensino fundamental (5ª a
8ª séries) das escolas municipais de Fortaleza. Utilizaram-se apenas de variáveis passíveis de
controle da gestão das escolas, mas que na prática dependem da gestão da secretaria de
educação. O número de alunos aprovados foi adotado como medida de produto. Os autores
concluem que maior eficiência poderia ser obtida se a gestão da quantidade de professores e
2 FUNÇÃO DE PRODUÇÃO EDUCACIONAL
Na Economia, o estudo da produção de bens e serviços se concentra nas unidades produtivas
ou firmas e nos conceitos de fronteiras de produção. Por exemplo, as funções de produção
(tecnologia) representam o máximo que se pode obter a partir de uma determinada quantidade
de insumos. Como outro exemplo, podermos citar a função de custo, do qual se pode inferir o
gasto mínimo necessário para a obtenção de uma determinada quantidade de produto.
Na figura 1 abaixo podemos notar pelos gráficos a relação entre as variáveis: x (insumos:
recursos utilizados) e y (produto: resultado obtido a partir da utilização da quantidade x). A
função f(x) representa a função de produção (tecnologia). Sobre ela está a quantidade máxima
que se pode obter de produto (y) para uma determinada quantidade de insumo (x)3.
Figura 01 – Função de Produção
O ponto P é um ponto de produção viável, pois está dentro do plano de produção. Nele a
produção é OA. Contudo, com a mesma quantidade de insumos utilizada (OC) é possível
produzir uma quantidade superior, conforme o ponto D. Portanto, P é um ponto ineficiente.
Ou ainda, para a mesma quantidade de produto (OA) é possível utilizar-se de uma menor
quantidade de insumos, conforme pode ser visto no ponto B.
Dessa forma, ser eficiente significa estar na fronteira de produção, na qual para qualquer
aumento de produto é necessária uma maior quantidade de insumo, ou uma redução de
insumo necessariamente implica em redução de produto. Estar abaixo dela evidencia um
3 A função de produção deve respeitar as propriedades de: a) negatividade; b) fraca essencialidade; c)
não-decrescente em x; e d) côncava em x. Para detalhes ver Coelli et all (2005), pág 12-13 e 43. C
O
P D
f(x)
B A
déficit de eficiência (ser ineficiente) no qual é possível que se aumente o produto sem
aumento do insumo ou reduzir o insumo sem reduzir o produto.
Visto que, tanto o ponto B, quanto o ponto D, encontram-se na fronteira de eficiência, é
importante destacar que o índice de eficiência pode ser obtido pela ótica do insumo ou pela do
produto. Assim, da mesma forma que a partir do ponto P pode-se se expandir o produto até o
ponto D, mantendo-se o mesmo nível de insumo (OC), poder-se-ia também fazer uma análise
de quanto seria necessário reduzir do insumo a partir do ponto P para se obter o mesmo
produto OA. No primeiro caso teríamos um índice produto-orientado e no segundo,
insumo-orientado.
Este trabalho adotará técnicas de programação linear para mensurar o grau de proximidade
entre o ponto em que estão situadas as unidades produtoras de serviços educacionais (as
escolas) e a fronteira de eficiência. Com isso, poderá ser criado um índice de eficiência que
servirá de base comparativa entre elas4.
No caso específico da função de produção de serviços educacionais, os estudos sobre o tema
têm se utilizado de diversos indicadores para mensurar o produto e os insumos. Geralmente
são adotados como produto as notas de proficiência em exames padronizados, quantidade de
alunos matriculados ou de aprovados. Há distinção de produtos indiretos e diretos. Quando se
avalia uma unidade de ensino por meio de um produto como o número de alunos aprovados,
obtém-se uma informação sobre um produto indireto, pois nada se sabe sobre o grau de
aprendizagem dos alunos, que é o que interessa a sociedade. Ou seja, o número de alunos
matriculados é um produto indireto do que a sociedade deseja que é o aprendizado. Por outro
lado, quando se utiliza nota de proficiência para mensurar a eficiência, o que se mede é
capacidade cognitiva desenvolvida pelos alunos naquela unidade (escola). Esses conceitos são
discutidos por Tanzi e Schuknecht (2006), os quais eles chamam o primeiro de output
(produto) e o segundo de outcome (resultado)5. No presente trabalho serão adotadas somente
as notas de proficiência do Enem/2007.
Pelo lado do insumo, pode-se ter um grande número de variáveis. Geralmente são usadas as
que se relacionam com o corpo docente, com a infra-estrutura da escola (quantidade de salas,
4 Para detalhes, ver capítulo 3 de Coelli et all (2005). 5
condições sanitárias), com a quantidade de turmas, com os recursos financeiros despendidos
(salários dos professores, custos administrativos, subsídios de estudos) e com os
equipamentos disponíveis (videoteca, biblioteca, laboratórios, computadores). Este estudo
3 METODOLOGIA
3.1 DATA ENVELOPMENTE ANALYSIS (DEA)
Existem basicamente duas abordagens utilizadas para a estimação de fronteiras em economia.
Uma delas é a paramétrica. A partir de uma forma funcional definida (ou imposta), estima-se
a função de produção como sendo o ajuste ideal para os pontos médios das variáveis
independentes para se obter o produto final, como por exemplo y=f(x), no qual x é um vetor
com K possíveis insumos. Desta forma, o que este procedimento pressupõe é que, em média,
as unidades produtivas (observações) são eficientes, situando-se sobre a fronteira. Porém, é
plausível considerar que em algumas unidades gestoras ou firmas (DMUs) a ineficiência
possa perdurar por algum tempo, deixando de ser considerada apenas um erro aleatório. Isso
pode acontecer principalmente em unidades produtoras que não estão totalmente sujeitas às
regras de mercado, como as escolas públicas ou as particulares, na qual os consumidores têm
algum nível de assimetria de informação ou escolhas limitadas por razões geográficas ou de
disponibilidade de vagas.
A outra forma de abordagem é a não-paramétrica. A partir do paper seminal de Farrell (1957),
que criou um modelo não-paramétrico de programação linear para a mensuração da eficiência
produtiva, seguiram-se outros trabalhos para medição da eficiência das unidades produtivas,
que deram origem ao Data Envelopment Analysis – DEA. Os principais responsáveis pelo seu
desenvolvimento foram Charnes, Cooper e Rhodes (1978, 1981) e mais tarde o modelo foi
estendido por Baker, Charnes e Cooper (1984)6. Ele será aplicado para a comparação da
eficiência neste trabalho.
O DEA visa criar uma função que envolva os dados por meio de uma superfície com faces
lineares sobre o topo das observações (para custos, seria sob a base). A estimação é feita por
meio de técnicas de programação linear. São necessárias algumas hipóteses quanto ao
conjunto de produção (tecnologia). A primeira é que há livre disponibilidade de recursos (free
disposal) e a segunda é a convexidade (possibilidade de combinação de fatores).
6
Comparando-se o modelo DEA com os modelos paramétricos, ele tem algumas vantagens:
a) flexibilidade para trabalhar com múltiplos insumos e produtos;
b) foco em observações individuais em contraste com as médias da amostra;
c) fornece estimativa robusta de eficiência relativa;
d) é livre de unidades de medida (há normalização dos dados);
e) a imposição de suposições menos restritivas sobre as fronteiras (como a não imposição de
formas funcionais);
f) a ponderação das variáveis não sofre qualquer influência exógena no processo de
estimação.
g) captam a melhor prática existente da organização produtiva e criam um referencial para as
unidades analisadas.
Por outro lado, o DEA tem como pontos fracos o fato de a convergência ser lenta, o que para
pequenas amostras pode ser um fator limitador, e que qualquer desvio da fronteira de
eficiência é interpretado pelo modelo como ineficiência e não como um erro aleatório.
Para fins de formulação da metodologia DEA, admitamos que existam S observações (DMUs)
a serem analisadas (s = 1,...,S) e que cada observação combina K recursos (inputs) xs = (xs1,
..., xsK) para produzir M resultados (outcomes) ys = (ys1, ..., ysM). Suponhamos, ainda, que a
tecnologia de transformação de insumos em produtos satisfaça às propriedades de retornos
constantes de escala (Constant Return Scale – CRS) e disponibilidade de recursos (free
disposal). A assunção de CRS será relaxada mais adiante.
Conforme mencionado anteriormente, o DEA visa construir uma superfície de forma que os
dados fiquem sobre a fronteira ou aquém dela. A partir fronteira encontrada podemos obter
um índice de eficiência (θ*) para cada observação (DMU), que é a sua distância radial para a
fronteira.
Com base nas hipóteses acima, desenvolveremos um modelo de DEA-C. Primeiramente, o
modelo será orientado para recursos (insumo-orientado):
i h s s
i x y θ
θ
θ, *( , )=min
k k x h x S s sk s ik
i 0; 1,...,
1 = ≥ −
∑
= θ (1) M m y y h im S s sms ; 1,...,
1 = ≥
∑
= S s hsi ≥0; =1,...,
θ
A solução dessa programação linear irá apontar para uma solução de redução radial exigida
para que a DMU em questão se situe na fronteira de tecnologia. Ou seja, quanto dos insumos
deve ser reduzido para que a DMU se torne tão eficiente como os seus melhores pares. O
valor ótimo de θ* ficará entre 0 e 1. A diferença para 1 (ou seja, 1 - θ*) representa quando dos
insumos poderão ser poupados, mantendo-se o mesmo nível de produto. Quanto mais
próximo de 1 mais eficiente.
Para obtermos um índice similar relativo a escalas de rendimentos não-crescentes (NIRS) ou
variáveis (VRS) é necessário que se faça restrições adicionais ao modelo anterior:
∑
= ≤ S s s h 11 Retornos Não Crescentes de Escala (DEA-NI)
∑
= = S s s h 11 Retornos Variáveis de Escala (DEA-V)
Além disso, a orientação também pode ser alterada. Ao invés de insumo-orientada, como no
modelo anterior, podemos calcular um índice de eficiência para um modelo
produto-orientado. No caso padrão de escala adotado anteriormente (DEA-C), o problema ficaria da
seguinte forma:
i h s s
i x y φ
φ φ, * max ) , ( = sujeito a: k k x h x S s sk s ik
i 0; 1,...,
1 = ≥ −
∑
= φ (3) M m y y h im S s sms ; 1,...,
1 = ≥
∑
= S s hsi ≥0; =1,...,
φ
O modelo acima é análogo ao anterior. Contudo, muda a interpretação do indicador de
eficiência. Agora, um φ>1 indica a proporção em que o vetor de produtos (y) deve aumentar
mantendo-se o mesmo nível de insumos. Assim na figura 01 mostrada anteriormente, para o
ponto P equivaleria a razão entre OD/OA.
A fronteira DEA-C é sempre uma reta, um plano ou um hiperplano. A fronteira DEA-V tem
pelo menos um ponto em comum com o DEA-C. Isso indica que quando θiDEA-V = θiDEA-C ,
tem-se rendimentos constantes de escala (CRS). Caso não sejam iguais, cabe verificar outras
duas possibilidades: a) θiDEA-V = θiDEA-NI , o que indica rendimentos decrescentes de escala
(NIRS); ou b) θiDEA-V≠θiDEA-C ≠θiDEA-NI, que indica retornos crescentes de escala (NDRS)7.
3.2 ANÁLISE DOS COMPONENTES PRINCIPAIS
Para subsidiar a análise da fronteira de eficiência via metodologia DEA, foi utilizada a
Análise dos Componentes Principais (PCA). Havia uma diversidade de variáveis de insumo
para Educação disponível. Preferimos recorrer a PCA para selecionar as mais representativas,
de forma a evitar que as variáveis relevantes não fizessem parte de geração da fronteira de
eficiência via o DEA ou que uma possível escolha pelo autor fosse pouco representativa8.
O objetivo era reduzir a dimensionalidade (número de variáveis) da análise e detectar a
estrutura de relacionamento entre as variáveis. Por meio da PCA podemos reduzir a
dimensionalidade de um conjunto de dados, identificando aquelas características mais
representativas e que contribuem com a maioria da variância, mantendo-as e ignorando as
demais menos representativas. Além disso, a PCA revela a estrutura interna dos dados em
uma maneira que se possa explicar a variância.
O que ela faz é, primeiramente, identificar a função que melhor representa os objetos em um
espaço. Em seguida, deriva a função perpendicular (ortogonal) dessa função. No novo sistema
de coordenadas, a distinção entre os objetos se fará por suas medidas nos novos eixos e as
unidades (denominadas escores) serão abstratas, não sendo nem o X nem o Y originais
(PEREIRA, 2001, p. 115-118). Na seqüência de gráficos da figura 2 abaixo, no gráfico (a)
temos alguns objetos distribuídos no espaço e que são referenciados pelas coordenadas X e Y.
Em seguida, é encontrada a função perpendicular que está representada no gráfico (b). Depois
7 Coelli, T. at al (2005), cap. 6. 8
há uma rotação dos eixos e os objetos passarão e ter novas coordenadas abstratas que não são
mais as antigas que se referiam ao X e ao Y, conforme o gráfico (c). Desta forma, as variáveis
que antes se encontram distribuídas entre os eixos X e Y, agora tem uma relação quase linear
com o novo eixo de baixo (como se fosse o eixo X rodado, mas com medidas abstratas).
Assim, um pesquisador poderia dispensar o outro eixo (que representa outra variável) para
explicar os seus dados por meio de apenas uma dimensão com pouca perda de informação.
Figura 02 – Rotação dos eixos para criar novas coordenadas
Em um gráfico bidimensional este procedimento parece desnecessário, mas essa técnica
também pode ser aplicada para qualquer número de dimensões. A PCA fornece ao usuário
uma “imagem” de poucas dimensões (uma “sombra” ou uma “projeção”) para um conjunto de
dados de várias dimensões quando eles são vistos (em algum senso) de um outro ponto de
vista mais informativo9. Por exemplo, a interpretação de, digamos, 15 variáveis pode ser
muito complexa. A PCA permite identificar, suponhamos, 2 ou 3 variáveis mais relevantes e
que explicam a maioria da variância, permitindo ao usuário uma compreensão mais fácil do
comportamento das variáveis, ainda que com alguma perda de informação.
O método PCA irá calcular as novas coordenadas gerando os factor scores e a sua
contribuição para a explicação da variância das variáveis originais. O pesquisador irá escolher
então, de forma decrescente, os fatores mais representativos até o nível mínimo aceitável de
variância total (acumulada por fatores) por ele determinado (geralmente 60%). Os demais
fatores poderão ser dispensados, pois representam pouca perda de informação em relação ao
9
benefício de se poder explicar o comportamento dos objetos estudados através de poucas
variáveis. Essa escolha dos factor scores mais relevantes, com descarte das demais é
denominada Análise Fatorial (DUNTEMAN, 1989, p. 55-57).
Para o cálculo dos fatores, antes é necessário que variáveis sejam agrupadas conforme as suas
similaridades. Assim, se existirem, digamos, 15 variáveis sobre educação que podem ser
classificadas em 3 grupos como infra-estrutura da escola, qualificação dos professores e
variáveis sócio-econômicas, o usuário deve fazer a agregação, gerar a PCA por grupo e
encontrar a(s) variável(eis) mais representativa(s) de cada grupo. Porém, antes de serem
carregados no software de cálculo dos fatores10, é necessário normalizá-los. Isso é feito para
cada variável, subtraindo-se de cada observação a média do conjunto de observações e
dividindo-se pelo desvio padrão. Esses procedimentos foram realizados neste trabalho.
Entre as propriedades da PCA estão: a) é uma análise não-paramétrica, não exigindo um
modelo a priori; e b) a resposta é única e independente de qualquer hipótese sobre a
distribuição de probabilidade dos dados.
A PCA tem como premissas: a) a linearidade da combinação das variáveis; b) a importância
estatística da média e da variância; c) as maiores variâncias representam as dinâmicas mais
importantes. Estas premissas são suas maiores vantagens e também suas maiores fraquezas.
Além disso, tem como grande limitação o fato de que não atenta para a separação de classes
das variáveis, o que deve ser feito pelo usuário11.
3.2.1 Formalização da Análise dos Componentes Principais
O maior objetivo da PCA é encontrar uma nova representação (coordenadas abstratas) para as
variáveis originais e saber qual a participação de cada uma na variância total. Para isso é
necessário que se encontre uma matriz que faça esta transformação. Ou seja, precisamos saber
quais os componentes da matriz A de forma que possa representar a relação abaixo:
Y = AT . X (3)
10
Para mais detalhes sobre PCA, a Análise de Fatores e seu processamento, ver Shlens (2005) e Dunteman (1989).
11
Onde:
Y: vetor de p elementos dos escores dos componentes principais;
AT: matriz transposta pxp dos vetores latentes com a i-ésima linha correspondendo a
elementos do vetor latente associado com i-ésima raíz latente;
X: vetor coluna dos p elementos das variáveis originais;
p: o número de variáveis utilizadas na análise.
Assumindo que cov(Y) é uma matriz diagonal e A-1 = AT (a propriedade de matriz ortogonal),
temos:
cov(Y) =E[YYT]
cov(Y) =E[(ATX)(ATX)T]
cov(Y) =E[(ATX)(XTA)]
cov(Y) =ATE[XXT] A
cov(Y) =ATcov(X)A (4)
Pré-multiplicando (4) por A:
Acov(Y) = AATcov(X)A
Acov(Y) = cov(X)A (5)
Adotando-se cov(Y) = Λ e cov(X)=R e substituindo ambos em (5), temos:
AΛ=RA (6)
Como queremos encontrar Λ, pré-multiplicamos (6) por AT ambos os lados e assim teremos:
ATAΛ = ATRA
Λ = ATRA (7)
O problema agora se torna então12:
12
} {A :
Max ATRA
s.a:
∑
=
= = p
j ij j
ia a
a
1 2
1 (8)
onde:
a: vetor de ponderação das variáveis
Depois de realizada a maximização das covariâncias, o pesquisador deve ordenar de forma
decrescente os λi da matriz Λ. Se a soma dos k<p primeiros componentes principais for
próxima da do total das variáveis (p), então ele pode capturar a maior parte da informação,
utilizando-se somente de k variáveis (DUNTEMAN, 1989, p. 17). O percentual deverá ser
arbitrado pelo pesquisador, mas geralmente utiliza-se o mínimo de 60% da variação total
(
∑
=
k
i
i p
1
/
4 BASE DE DADOS E TRATAMENTO DAS VARIÁVEIS
Este trabalho teve como fonte de dados: i) a pesquisa de Microdados do Censo Escolar; ii) o
resultado do Enem por escola; e iii) a Pesquisa Distrital por Amostra de Domicílio
(PDAD/DF);
O último relatório é fornecido pela Companhia de Planejamento do Distrito Federal
(Codeplan) e traz informações sócio-econômicas por Região Administrativa13, cuja última
publicação foi em 2004.
4.1 ENEM
As informações referentes às notas do Enem por escola do DF foram obtidas no site do
Inep/MEC14. Teve como ano-base 2007. Consideramos que a defasagem de um ano entre o
Censo Escolar e o resultado do Enem não é grande o suficiente para afetar a análise,
sobretudo pelo fato de serem relativamente estáveis a infra-estrutura das escolas, a quantidade
de turmas e a de alunos. Some-se a isso, o fato de os alunos que fizeram o Enem em 2007
utilizaram-se, ao longo de 2006, de todos os insumos oferecidos pelas escolas e informados
no censo.
Ao todo, alunos de 170 escolas do Distrito Federal fizeram provas no Enem. Contudo, 47
delas ficaram sem conceito (nota). Quando o número de participantes de cada escola é pouco
representativo, o INEP não calcula a nota para evitar viés estatístico. Assim, restaram 123
escolas que foram utilizadas para a análise. Deste total 77 são públicas estaduais, 1 é pública
federal e 45 são particulares.
O Exame Nacional de Ensino Médio (Enem) destina-se aos alunos que já concluíram o ensino
médio (egressos) ou irão concluí-lo ao final do ano de realização do exame (concluintes).
Implementado em 1998, a adesão tem crescido sistematicamente. Em 2007, foram 2,7
milhões participantes, sendo que 83,4% dos estudantes declararam ter cursado todo o ensino
médio em escola pública.
13
Endereço do site da Codeplan < http://www.codeplan.df.gov.br/> acessado em 28/11/2008.
14 Obtidos no site do Inep na parte relativa ao Enem < http://mediasenem.inep.gov.br/desempenho.php> , em
Das 24.279 escolas de ensino médio que constavam do Censo Escolar, 94,5% tiveram alunos
concluintes que participaram do exame em 2007, uma participação relevante, sobretudo
porque é um exame voluntário. A alta participação dos estudantes no Enem faz dele um
importante instrumento de diagnóstico do sistema, que contribui para a melhoria do ensino.
4.2 O CENSO ESCOLAR
O Microdados do Censo Escolar é um levantamento de informações estatístico-educacionais
de âmbito nacional, realizado anualmente pelo Instituto Nacional de Estudos e Pesquisas
Educacionais (INEP), autarquia vinculada ao Ministério da Educação. Ele abrange a
Educação Básica, em seus diferentes níveis – Educação Infantil, Ensino Fundamental e
Ensino Médio – e modalidades Educação Regular, Educação Especial e Educação de Jovens e
Adultos. Como mencionado anteriormente, o foco do trabalho foi o ensino médio do DF. O
ano-base utilizado foi 2006.
Realizado com a colaboração das secretarias estaduais e municipais de educação e com a
participação de todas as escolas públicas e privadas do País, o Censo Escolar é instrumento
importante para promoção da melhoria da qualidade na educação.
Ele coleta anualmente os dados sobre a educação básica nacional. Estas informações servem
de base para a formulação de políticas públicas e para distribuição de recursos públicos
(merenda e transporte escolar, distribuição de livros e uniformes, implantação de bibliotecas,
instalação de energia elétrica, Dinheiro Direto na Escola e FUNDEB, entre outros).
Para se ter um rápido panorama de como se dispõe o sistema de ensino no Brasil, foram
extraídos alguns dados do Censo Escolar de 2006 e que estão resumidos na tabela 01 mais
abaixo. Estão separados por região, para o DF e consolidado para o Brasil.
Pela tabela 01 podemos notar que havia quase 56 milhões de estudantes no Brasil, dos quais
16% deles estavam no ensino médio (8,9 milhões), com pouca variação percentual entre as
regiões do país. Em média, 88% dos estudantes do ensino médio são da rede pública, sendo a
grande maioria (85%) na rede estadual. Em média 12% estão na rede privada, havendo,
entretanto, uma grande variação entre as regiões, que vai de 7% no Norte a 14% no Sudeste e
Outro fator que chama a atenção é seu percentual de alunos nos cursos noturnos (23%), sendo
quase metade da média nacional (43%). O número de estabelecimentos privados no DF
também é quase o dobro da média nacional. No que se refere a quantidade de alunos por
turma, o DF está ligeiramente acima da média.
Com dados de outra fonte, foi feito um quadro-resumo relativo à quantidade de
estabelecimentos de ensino de nível médio por Região Administrativa (RA) do DF, que
podem ser vistos na tabela 02. Os dados podem divergir um pouco da tabela anterior, pois se
referem a anos distintos. Pode-se observar que há uma grande concentração das escolas
privadas em poucas RAs. Do total de 84 escolas privadas, quase metade (40) estão localizadas
no Plano Piloto e em Taguatinga. As escolas públicas, por outro lado, estão melhor
distribuídas, mas ainda assim, há uma certa concentração. Plano Piloto, Gama, Taguatinga e
Ceilândia totalizam 37 das 85 escolas.
Tabela 01 - Panorama Quantitativo do Ensino no Brasil
Brasil N NE SE S CO DF Total de Matrículas 55.942.047 5.374.166 18.079.266 21.389.348 7.184.746 3.914.521 687.709
Ed. Infantil 13% 11% 12% 14% 12% 10% 14% Ensino Fundamental 59% 62% 60% 58% 59% 62% 57%
Ensino Médio 16% 14% 15% 17% 17% 17% 16%
Ed. Especial 1% 0% 0% 1% 1% 1% 1% Ed. de Jovens e Adultos 10% 12% 12% 9% 8% 9% 11% Ed. Profissional 1% 1% 1% 2% 2% 1% 1%
Qtde Alunos Ensino Médio 8.906.820 755.773 2.692.512 3.597.691 1.213.531 647.313 109.567 Por Dependência
Federal 1% 1% 1% 1% 1% 1% 1% Estadual 85% 92% 85% 84% 86% 85% 76% Municipal 2% 0% 4% 2% 1% 0% 0% Privado 12% 7% 10% 14% 13% 14% 23%
Por Localização
Urbano 98% 97% 96% 99% 98% 98% 99%
Por Turno
Noturno 43% 49% 46% 41% 38% 39% 23%
Qtde de Estabelec. Ens.Med. 24.131 1.685 6.355 10.437 3.717 1.937 180 Por Dependência
Federal 1% 1% 1% 0% 1% 1% 1% Estadual 67% 79% 63% 64% 74% 67% 42% Municipal 3% 3% 8% 2% 1% 2% 0% Privado 29% 17% 28% 34% 24% 30% 57%
Por Localização
Urbano 94% 84% 92% 97% 94% 92% 96%
Alunos por Turma do Ensino Médio
Total (Fed, Est, Mun e Priv) 36 37 39 36 32 34 39 Federal 33 33 35 33 28 33 35 Estadual 37 37 40 37 32 35 40 Municipal 35 26 36 33 32 19 nd Privado 32 38 34 29 33 32 35 Aluno Ensino Médio / Pop 15-17 (1) 87% 77% 86% 90% 85% 86% 87%
Tabela 02 – Quantidade de Estabelecimentos por Região Administrativa
Região Administrativa (Nº e Nome) Estadual Federal Privada Total geral
01 – P. PILOTO 8 1 26 35
02 – GAMA 7 7 14
03 – TAGUAT 9 14 23
04 – BRAZLÂNDIA 4 4
05 – SOBRADINHO I 5 5 10
06 – PLANALTINA 7 3 10
07 – PARANOÁ 4 4
08 – N BANDEIRANTE 1 3 4
09 – CEILÂNDIA 13 7 20
10 – GUARÁ 4 5 9
11 – CRUZEIRO 2 2
12 – SAMAMBAIA 5 1 6
13 – S MARIA 4 2 6
14 – S SEBESTIÃO 3 1 4
15 – REC EMAS 3 1 4
16 – L SUL 1 3 4
17 – R FUNDO 2 2 4
18 – L NORTE 1 1
19 – CANDANGOLÂNDIA 1 1
20 – Á CLARAS 3 3
22 – SW-OCTOG 1 1
26 – SOBRDINHO II 1 1
Total geral 85 1 84 170
Fonte: Resultado do Enem/2007 (Inep/MEC)
Dep. Administrativa
4.3 TRATAMENTO DAS VARIÁVEIS
Para atingir o objetivo de se criar um índice de eficiência para as escolas do Distrito Federal,
adotou-se o método não-paramétrico Data Envelopment Analysis (DEA). Este método
mensura a eficiência entre as unidades produtoras de bens e serviços (DMUs) a partir dos
produtos (resultados) e insumos. No caso específico, foi utilizado como medida de resultado a
nota Média com Correção do Enem15, que incluía a prova objetiva e a redação.
Pelo lado dos insumos, devido a grande disponibilidade de informações no Censo Escolar,
preferiu-se que a seleção dos insumos mais representativos fosse feita pelo método da Análise
dos Componentes Principais (PCA), conforme mencionado no tópico sobre esse assunto. Ao
analista coube a tarefa de criar agrupamentos de variáveis que julgasse semelhantes para que a
técnica pudesse ser utilizada. Assim, a intervenção manual seria reduzida ao mínimo possível.
15
O Inep faz uma correção estatística das notas. A metodologia pode ser encontrada na página 4 da Nota Técnica do Enem 2007 encontradas no seguinte endereço:
Foram feitos 4 agrupamentos a partir do Censo Escolar. A discriminação de todas as variáveis
por agrupamento está mais abaixo. Por enquanto, segue abaixo apenas uma breve descrição:
1) iedis: infra-estrutura disponível como cantina, refeitório, quadra de esportes coberta,
etc. São variáveis dummy com respostas sim ou não;
2) euesc: equipamentos em uso na escola, como microcomputadores, DVD, videocassete,
etc.
3) usoti: uso da tecnologia da informação, aplicação da informática pelos alunos, pelos
professores, pelo setor administrativo, etc. São variáveis dummy com respostas sim ou não;
4) salrh: salas de aula e recursos humanos, como número de salas de aula permanentes
ou provisórias, quantidade de professores por nível de escolaridade.
O detalhamento das variáveis que fizeram parte de cada agrupamento segue abaixo:
EUESC: Equipamentos Utilizados na Escola Tipo Var. Cód. Dummy Cod.Tipo
Vídeocassete -- -- euesc_n_VVIDEO Aparelhos de TV -- -- euesc_n_VTV Antena parabólica para TV (digital+analógica) -- -- euesc_n_ANALOGTV
DVD -- -- euesc_n_VDVD
Microcomputadores -- -- euesc_n_COMPPENT Internet (se os micros estão ligados a Internet ou não) Dummy N=0, S=1 euesc_d_REDE_LOC
IEDIS: Infra-Estrutura Disponível Tipo Var. Cód. Dummy Cod.Tipo
Tipo de Propriedade: Estadual Dummy N=0, S=1 iedis_d_prop_est Tipo de Propriedade: Federal Dummy N=0, S=1 iedis_d_prop_fed Tipo de Propriedade: Municipal Dummy N=0, S=1 iedis_d_prop_mun Tipo de Propriedade: Particular Dummy N=0, S=1 iedis_d_prop_par
Ocupação de Prédio Próprio Dummy N=0, S=1 iedis_d_proprio
Videoteca Dummy N=0, S=1 iedis_d_VIDEOTEC
Sala para TV/Vídeo Dummy N=0, S=1 iedis_d_SALTVVID
Laboratório de informática Dummy N=0, S=1 iedis_d_LAB_INFO
Laboratório de ciências Dummy N=0, S=1 iedis_d_LAB_CIEN
Ginásio de esportes Dummy N=0, S=1 iedis_d_GIN_ESP
Cantina Dummy N=0, S=1 iedis_d_CANTINA
Refeitório Dummy N=0, S=1 iedis_d_REFEITOR
Biblioteca Dummy N=0, S=1 iedis_d_BIBLIO
Quadra de esportes descoberta Dummy N=0, S=1 iedis_d_QUAD_DES
Quadra de esportes coberta Dummy N=0, S=1 iedis_d_QUAD_COB
Sanitário fora do prédio Dummy N=0, S=1 iedis_d_SANI_FOR
Sanitário dentro do prédio Dummy N=0, S=1 iedis_d_SANI_DEN
Sala de leitura Dummy N=0, S=1 iedis_d_SAL_LEIT
USOTI: Uso da Tecnologia da Informação Tipo Var. Cód. Dummy Cod.Tipo
SALRH: Salas de Aula e RH Tipo Var. Cód. Dummy Cod.Tipo
Número de sala de aulas existentes (permanentes) -- -- salrh_n_PERMANEN Número de sala de aulas existentes (provisórias) -- -- salrh_n_PROVISOR Número de sala de aulas utilizadas (no prédio) -- -- salrh_n_NOESTAB Número de sala de aulas utilizadas (fora do prédio) -- -- salrh_n_FORAESTA Número total de professores (por etapa, só ens. méd. e médio integrado) -- -- salrh_n_VDG1C4 Número prof. ens. med. capac. alunos com necessidades especiais -- -- salrh_n_VDG1R4 Número prof. Com Fund. (1º Grau) Incompleto -- -- salrh_n_VDG171 Número prof. Com Fund. (1º Grau) Completo -- -- salrh_n_VDG172 Número prof. Com Médio (2º Grau) Magistério Completo -- -- salrh_n_VDG173 Número prof. Com Médio (2º Grau) Outra Formação Completa -- -- salrh_n_VDG174 Número prof. Superior (3º Grau) Licenc. Completa -- -- salrh_n_VDG175 Número prof. Superior (3º Grau) compl. sem Licenciatura Com Magist. -- -- salrh_n_VDG176 Número prof. Superior (3º Grau) compl. sem Licenciatura Sem Magist. -- -- salrh_n_VDG177
As variáveis foram normalizadas. De cada observação foi deduzida a média e o resultado foi
dividido pelo desvio padrão. Após o agrupamento das variáveis e a normalização, os dados
foram processados pelo software SPSS para a aplicação da Análise dos Componentes
Principais (PCA). Os critérios adotados para a seleção das variáveis mais representativas
foram:
a) Número amostras por variável maior ou igual a 5;
b) Duas ou mais variáveis deveriam ter correlação de 0,30 ou mais;
c) Os valores da diagonal principal da matriz anti-imagem com 0,60 ou mais;
d) Teste de adequação de Kaiser-Meyer-Olkin (KMO) maior ou igual a 0,50;
e) Teste de Esfericidade de Bartlett (BTS) com significância inferior a 0,05;
f) Communality maior ou igual a 0,50;
g) Escore da Matriz Rodada maior ou igual a 0,40 e não poderia fazer parte de mais de
um fator;
h) Variância Explicada maior ou igual a 60%.
O quadro abaixo mostra o resumo dos resultados da Análise Fatorial após a aplicação de todos
os testes.
Tabela 03 – Resumo Geral da Análise Fatorial
No Variáveis na 1ª Interação (1)
NoVariáveis na Última
Interação (2) Fator (3)
Variância Explicada KMO Quantidde de Interações (4)
iedis 18 3 1 77,8% 0,672 6
euesc 6 4 1 78,5% 0,756 3
usoti 5 2 1 70,4% 0,500 3
salrh 9 2 1 60,2% 0,500 3
TOTAL 38 11
(1) Quantidade de Variáveis selecionadas para análise na primeira interação
(2) Quantidade de Variáveis adotadas na tabela de Variância Explicada após todas as interações (3) Quantidade de fatores adotados na redução de dimensionalidade
Nos agrupamentos acima as variáveis que se mostraram mais representativas e restaram após
a adoção dos procedimentos da análise fatorial foram:
a) IEDIS: o tipo de propriedade do imóvel sendo estadual, a existência de biblioteca e a
existência de quadra de esportes coberta.
b) EUESC: videocassete, aparelhos de TV, aparelhos de DVD e microcomputadores.
c) USOTI: uso da tecnologia da informação por alunos orientados por professores e por
professores.
d) SALRH: número de sala de aulas utilizadas no prédio e o número de professores com curso
superior e licenciatura completa.
Com a aplicação do método de análise dos componentes principais e análise fatorial, cada
agrupamento foi reduzido a escores de fatores. Como as variáveis eram normalizadas, seus
valores antes da aplicação do método PCA incluíam valores negativos, o que resultou em
fatores, também, com valores negativos.
A metodologia DEA cria uma função que envolva os dados por meio de uma superfície com
faces lineares sobre o topo das observações e por isso não pode ter números negativos. Então,
os valores resultantes a análise fatorial foram corrigidos para terem média igual a 100 e desvio
padrão igual a 10, de modo que nenhum valor fosse negativo16.
Em seguida, para a obtenção da eficiência no DEA, os dados foram processados pelo software
Efficiency Measurament System (EMS) desenvolvido por Holger Scheel da Universidade de
Dortmund, Alemanha17.
A mensuração do índice de eficiência depende da escala de produção na qual as DMUs estão
trabalhando. Nenhuma premissa foi estabelecida no estudo a respeito do tipo de escala nas
quais as unidades deveriam ser avaliadas. Assim, o cálculo de eficiência foi feito para as
seguintes possibilidades de escala: a) Retornos Constantes (CRS); b) Retornos
Não-Crescentes (NIRS); e c) Retornos Não-Decrescentes (NDRS). A escala Variável (VRS) não
foi considerada para efeitos de determinação do melhor tipo de escala porque, por
16
_
x DP x
xcorrigido = normalizado× + ; onde DP: desvio padrão e
_
x: média e xnormalizado: fator obtido após normalização da variáveis.
17
características intrínsecas, a curva de eficiência se adequa às observações e, assim, diversas
DMUs se ajustam para se tornarem eficientes.
Os resultados de cada DMU foram confrontados para que se encontrasse o tipo de escala
predominante e, a partir de então, fosse adotada no cálculo de eficiência pelo modelo DEA.
Para se encontrar a escala de cada DMU, adotou-se o seguinte critério18: a) escala constante se
θCRS= θVRS; b) escala crescente se θNIRS≠θVRS; e c) escala decrescente se θNIRS = θVRS. Após a
análise, 113 das 123 DMUs estavam na escala Crescente (NDRS), enquanto 5 estavam na
escala Constante (CRS) e 5 na Decrescente (NIRS). Dada a predominância de NDRS, essa foi
a escala adotada para o cálculo dos índices de eficiência.
Pelos índices de eficiência DEA (θNDRS), 79 DMUs eram eficientes (θNDRS = 100%). Deste
total, 72 eram escolas públicas (94%) e apenas 7 eram escolas privadas. Essa é uma grande
alteração quando se compara com a classificação feita apenas pelas notas do Enem. Dos 79
primeiros lugares, apenas 35 eram de escolas públicas (44%) e 44 de particulares. As notas do
Enem medem de forma absoluta as capacidades cognitivas desenvolvidas pelos alunos, mas
não ponderam em qualquer momento as diferenças de insumos entre as DMUs. Cabe ao DEA
a tarefa de mensurar e de comparar a eficiência de cada DMU em transformar diferentes
quantidades de insumos em produtos. O resultado passa, então, a ser relativo.
De forma geral, a principal razão para a melhoria na classificação das escolas foi o baixo
volume de insumos. Isso pode ser percebido por meio de uma análise da quantidade de
insumos utilizados pelas DMUs que melhoram de classificação após o cálculo da eficiência
(NDRS), em relação a classificação com a nota do Enem, vis-à-vis o grupo das que pioraram.
Para a demonstração deste evento, optou-se por comparar a média dos insumos e a das notas
do Enem dos dois grupos. Em ambos os parâmetros, os dados são normalizados para média
igual 100 e desvio padrão igual a 10, da mesma forma como foi feito para o cálculo do DEA.
Na tabela 04 teremos o resumo dos resultados.
18 Para saber com foi encontrado o tipo de escala, ver a sessão deste trabalho correspondente a metodologia DEA
Tabela 04 – Situação da Classificação após DEA
Situação pós DEA Média dos
Insumos
Média da Nota do
Enem
Nota do Enem /
Insumos
Melhoraram 96,9 94,8 0,98
Pioraram 105,9 110,0 1,04
Pode ser visto acima que as DMUs, públicas ou privadas, que melhoraram de posição tinham
uma média de insumos (96,9) inferior a das que pioraram na classificação (105,9), a despeito
destas últimas também terem maiores notas no Enem e, inclusive, terem também uma relação
Nota do Enem / Insumos maior: 1,04 para as que pioraram versus 0,98 das que melhoraram.
Isso demonstra a relevância das diferenças de quantidades de insumos no cálculo da
eficiência.
Abaixo podemos notar a comparação do desempenho das escolas públicas e privadas em
relação à nota do Enem e pelo índice de eficiência. No gráfico (a) está o desempenho das
escolas na nota do Enem. No eixo das abscissas as escolas estão classificadas por
dependência, sendo as escolas públicas no x=0 e as privadas no x=1. Nas ordenadas estão as
notas do Enem/07. Quanto mais alta a nota, melhor o desempenho, que neste caso é uma
medida absoluta e mede a capacidade cognitiva dos alunos, não levando em conta as
diferenças de insumos. Pode-se notar que há uma predominância das escolas privadas na parte
mais alta e que ainda há uma região de confluência entre as melhores escolas públicas e as
piores privadas. Existem apenas duas exceções, sendo uma pública federal muito bem
classificada (em 13º lugar) e outra privada que se destaca pela disparidade com as demais
privadas (em 121º lugar).
Analogamente, o gráfico (b) faz a comparação dos índices de eficiência (para escala NDRS)
das escolas públicas com as privadas. Pode-se perceber uma melhora na classificação das
escolas públicas. Deve-se lembrar que pelo fato de que 72 terem sido consideradas eficientes
70 80 90 100 110 120 130
-0.5 0.0 0.5 1.0 1.5
Dependência (Pub=0 e Priv=1)
N
ot
a do E
nem
/07
Figura 03 - Nota do Enem versus Dependência (Pub ou Priv) 0.70 0.75 0.80 0.85 0.90 0.95 1.00 1.05
-0.5 0.0 0.5 1.0 1.5
Dependência (Pub=0 e Priv=1)
E fi c iê n c ia (N D R S )
Figura 04 – Eficiência (NDRS) versus Dependência (Pub ou Priv)
As demais DMUs consideradas ineficientes não tiveram desempenho tão inferior. O menor
índice obtido foi de 90,4%, indicando baixa dispersão. Isso significa que para ser eficiente a
DMU deveria reduzir seus insumos em 9,6% e manter a mesma quantidade de produtos (notas
do Enem).
Após calculados os índices de eficiência para cada DMU, a etapa seguinte foi fazer regressão
para se saber a importância de algumas variáveis na determinação da eficiência e que estão
além da capacidade de gestão da DMU. Com exceção das dummies, a regressão foi feita com
as variáveis logaritmizadas. Elas são:
1) Variável Dependente: índice de eficiência DEA para escala Constante (θCRS);
2) Variáveis Independentes:
2.1) Tipo de Dependência (dades_o_dep_pub0_priv1): variável tipo dummy para o
tipo de dependência administrativa. Valor 0 se pública e 1 se privada.
2.2) Programa TV Escola (dades_d_tv_esc): variável tipo dummy se a escola
participa ou não do Programa TV Escola do MEC. Valor 0 se não e 1 se sim.
2.3) Renda Per Capita (ndisc_n_rndpc): é a renda per capita das famílias de cada
Região Administrativa. É estimado em salários mínimos.
2.4) Quantidade de Alunos (qtde_alunos_desn): é a quantidade de alunos de cada
A escala adotada para a variável dependente foi a constante (CRS). Conforme havia sido
mencionado anteriormente, a maioria das DMUs apresentou escala crescente (NDRS).
Contudo, como na regressão o efeito da escala seria mensurado pela variável quantidade de
alunos, adotou-se escala constante (CRS) para a variável dependente. Enquanto para NDRS
foram encontradas 79 DMUs eficientes, para CRS foram apenas 5. A variável quantidade de
alunos em cada escola foi escolhida para medir o efeito da escala porque o dimensionamento
de parte da infra-estrutura depende da quantidade de alunos que estão estudando.
Em relação ao tipo de dependência administrativa, a razão de sua escolha foi que,
intuitivamente, se esperava que o modelo de administração fosse relevante para a eficiência
das escolas. Neste caso, foi utilizada uma variável dummy, na qual escolas públicas (estaduais
ou federal) tinham código iguais a 0 e escolas privadas iguais a 1. A influência de programas
de governo no incentivo ao ensino foi medido pela variável sobre o Programa TV Escola
(dades_d_tv_esc). Como variável exógena de fatores sócio-econômicos foi utilizada a Renda
Per Capita (ndisc_n_rndpc) de cada RA na qual estava localizada a escola.
Abaixo segue um resumo dos resultados da regressão para os modelos de Mínimos Quadrados
Ordinários (MQO) e do modelo Tobit.
Tabela 05 – Resumo da Regressão
Variáveis Coeficientes do
MQO (t-stat) Coeficientes do Tobit (z-stat) DADES_O_DEP_PUB0_PRIV1 0.0685 (4.9117) 0.06717 (5.2206) DADES_D_TV_ESC 0.0240 (1.8104) 0.0297 (2.5816) NDISC_N_RNDPC 0.0192 (2.6127) 0.0224 (3.2928) QTDE_ALUNOS_DESN 2.27E-05 (2.7074) 2.23E-05 (3.1278)
INTERCEPTO (C) -0.1895
(-15.1868)
-0.1949 (-16.8845)
R2 0.2867 0.3093
R2-Ajustado 0.2625 0.2785
Durbin-Watson 1.9057 -
A regressão pelo modelo Tobit foi utilizada devido a variável dependente, eficiência, ser
censurada. Os valores da eficiência estão compreendidos no intervalo entre de 0 e 100% e, no
caso específico da regressão, limitados pelos seus logaritmos. Mesmo assim, para efeito de
comparação foi feita uma regressão linear pelo Método dos Mínimos Quadrados. Ambas as
regressões têm valores muito próximos e o mesmo sentido. Isso permite que os comentários a
seguir sejam válidos para ambos os modelos.
Pode-se notar que a variável com coeficiente mais relevante é a referente à dependência
administrativa. Como ela é uma variável dummy, o sinal positivo indica que as escolas
privadas (que assumem valor 1 na dummy) são mais eficientes do que as públicas. O gráfico
da figura 05 abaixo, de forma análoga aos anteriores, mostra os índices de eficiência em
relação ao tipo de dependência administrativa, ressaltando que neste caso específico a escala
adotada foi a CRS, a mesma da regressão. Pela análise visual pode-se perceber que, apesar
das escolas públicas ficarem mais bem classificadas em relação à nota do Enem, as escolas
privadas tendem a ser mais eficientes.
Uma hipótese para isso seria a de que os incentivos por trás da gestão poderiam ser
determinantes na eficiência da educação. Escolas privadas têm fortes incentivos de proverem
um bom nível educacional. Quanto maior o desempenho dos seus alunos em provas de
proficiência ou no vestibular, mais os pais estão dispostos a pagar por esse serviço (o
sacrifício financeiro em um colégio particular pode ser compensado pela gratuidade e
0.68 0.72 0.76 0.80 0.84 0.88 0.92 0.96 1.00
-0.5 0.0 0.5 1.0 1.5
Dependência (Pub=0 e Priv=1)
E
fic
iê
n
c
ia
(C
R
S
)
Figura 05 - Eficiência (CRS) versus Dependência Administrativa
Há incentivos também para o corpo docente. Professores com boa didática e capacidade de
transmitir o conteúdo podem trabalhar em escolas que lhes paguem melhor ou pelo menos
manterem os seus empregos, sendo desta forma motivados por resultados. Por outro lado, as
escolas públicas padecem de incentivos. Os professores das escolas públicas por mais que se
empenhem e consigam desenvolver em seus alunos boas capacidades cognitivas, ganham o
mesmo salário dos que têm desempenho inferior. Isso no médio e longo prazo faz com que
deixem de buscar o melhor de si.
O segundo maior coeficiente foi o da variável Programa TV Escola (dades_d_tv_esc). O
coeficiente positivo indica que as escolas que adotaram o esse recursos de mídia para
aplicação direta de conteúdo educacional de qualidade tiveram melhores resultados no
desempenho dos alunos. Das 78 escolas públicas, 34 adotam este programa (não se aplica
para escolas privadas).
A variável de Renda Per Capita (ndisc_n_rndpc) também apresentou coeficiente positivo,
demonstrando que quanto maior a renda, maior é a eficiência das escolas. Esta variável é um
correlacionada com os níveis de instrução19, pode também indicar que filhos de pais com
maior instrução têm melhores desempenhos. Pais com maiores graus de escolaridade tendem
a dar mais valor à educação e cobrar isso dos seus filhos.
O coeficiente deste indicador poderia ter sido mais revelador quanto a esta relação entre renda
e eficiência se tivesse sido possível fazer a estimativa com base no desempenho em
proficiência de cada aluno vís-a-vís a renda familiar. Contudo, esta informação não estava
disponível e a renda per capita da Região Administrativa na qual a escola se localizava foi
usada como proxy. Em uma unidade da federação tão pequena quanto o DF, isso pode ter
conseqüências, pois pode haver “migração”. Ou seja, os alunos de uma escola não
necessariamente residem naquela Região Administrativa - RA e, assim, o estudo pode
estabelecer uma relação indevida de nota e renda familiar (ou grau de escolaridade dos pais)
de parte dos alunos.
Quanto à última variável, a quantidade de alunos tem sinal positivo indicando que quanto
mais alunos, maior a eficiência. Isso confirma o que já havia sido observado quando da
análise DEA que identificou que a maioria das escolas estava em escala crescentes.
A interpretação dos resultados deve ser feita à luz de algumas considerações sobre as
variáveis. A primeira delas se refere à nota da prova do Enem. Como ela é de caráter
voluntário, geralmente são feitas por alunos que buscam vagas em vestibulares e que por esta
razão estão mais motivados20. Isso pode influenciar a verdadeira média da escola, visto que a
amostra pode estar viesada. Contudo, não deve ter efeito diferente entre as escolas públicas e
privadas, pois o percentual de alunos que realizou o Enem em relação à quantidade de alunos
na 3ª série foi praticamente o mesmo, sendo respectivamente 43,1% e 43,8% (e desvios
padrões de 20% e 24%).
Outra variável que merece comentário é a Renda Per Capita. Assim como já foi mencionado
anteriormente, a renda per capita da Região Administrativa - RA na qual se localizava a
escola foi considerada como proxy para a das famílias dos alunos. Em uma unidade da
19
Foi feita uma matriz de correlação da Renda Per Capita com 8 faixas de escolaridade por Região Administrativa. Em 7 a correlação foi superior, em módulo, a 0,8 (positiva para os maiores índices de escolaridade e negativa para as inferiores).
20 Na Revista do Enem 2007 (pág 23), ano base 2006, 71% dos entrevistados em nível nacional disse que fazia o
federação pequena como o DF pode haver “migração” de alunos. Eles se deslocam para outras
RAs em busca de melhores escolas. Na comparação entre unidades da federação, realizadas
em outros estudos sobre a eficiência em Educação, esse efeito é bem menor, pois migrações
populacionais são menores e as intra-estados não têm esse efeito. Para que a correlação entre
variáveis sócio-econômicas e eficiência pudesse ser melhor demonstrada, o ideal seria poder
associar a renda familiar de cada aluno à sua nota no Enem.
Na análise DEA, os insumos foram analisados pela suas quantidades físicas. Se por um lado
tem a vantagem de se igualar as DMUs quanto aos insumos, sem a possível distorção dos
custos de aquisição, por outro a relação custo/benefício financeiro fica impedida de ser
calculada, não sendo possível ao leitor comparação dos custos de oportunidade da sociedade
entre as opções de ensinos público ou privado. Mas esta comparação só poderia ser feita se
houvesse informação disponível referente ao montante de gastos pelos pais dos alunos de
escolas privadas. Adicionalmente a esta dificuldade, o levantamento dos gastos públicos
sempre traz os riscos de erros no cômputo de todas as verbas e programas de incentivos
(municipais, estaduais e federais), bem como a dificuldade de se mensurar os gastos indiretos
relacionados à educação, como os das equipes administrativas do setor público envolvidas na
5 RESUMO E CONCLUSÃO
O tema Educação é objeto de constante destaque e discussão nos meios de comunicação. A
sua importância para a formação dos cidadãos e da sociedade é bastante reconhecida. A
despeito da abundância de trabalhos acadêmicos sobre a Educação nos mais diversos prismas,
existem poucos que tratam sob a ótica da eficiência. Desses, o foco principal é o ensino
público. O presente trabalho buscou fazer uma comparação entre a eficiência do ensino
público e do privado para as escolas do ensino médio do Distrito Federal.
Para isso adotou ferramentas clássicas como a regressão estatística, o modelo DEA (Data
Envelopment Analysis) e a PCA (Análise dos Componentes Principais). O modelo
semiparamétrico empregado é composto de um modelo não-paramétrico e outro paramétrico.
O primeiro utiliza a análise de eficiência proporcionada pela ferramenta DEA em associação
com a PCA. O segundo, os modelos de regressão linear. Os dados tiveram como fonte a Prova
do Enem 2007, que forneceu informações a respeito do produto Educação (nota das provas),
enquanto que os insumos e os dados para a regressão foram extraídos do Censo Escolar 2006
(Inep/MEC) e do relatório PDAD (produzido pelo Governo do Distrito Federal).
Primeiramente, foram calculadas as eficiências de cada unidade escolar (DMU – Decision
Maker Unit) a partir de insumos que são passíveis de gestão pelas escolas. Em seguida os
resultados foram comparados à classificação do Enem. A etapa seguinte foi fazer uma
regressão dos resultados encontrados para a eficiência com fatores exógenos à capacidade de
gestão das escolas para se encontrar os principais determinantes da eficiência.
A análise de eficiência pelo modelo DEA mostrou uma grande melhoria na classificação das
escolas públicas. Inicialmente, apenas com base nas notas do Enem, das 79 primeiras
posições, 35 eram de escolas públicas, sendo que as duas melhores classificadas entre elas
eram uma escola federal, em 13º lugar, e outra estadual, em 40º. Depois de consideradas as
diferenças de insumos entre as escolas e calculadas as eficiências, essa quantidade aumentou.
O número de escolas públicas dentre as 79 primeiras passou para 72. Essa grande melhoria se
deve em parte a baixa quantidade de insumos das escolas públicas em relação às privadas. As
demais escolas que foram consideradas ineficientes eram na sua maioria escolas privadas.
Porém, é preciso destacar que a dispersão foi baixa e a escola mais ineficiente ficou com
índice de 90,4%, o que demonstra que as escolas privadas ficaram muito próximas da
Entre os fatores adotados, o que mais se destacou pela importância do seu coeficiente foi o do
tipo de dependência administrativa, aqui entendida como administração/gestão pública ou
privada. Deve-se lembrar que este é um fator exógeno à DMU, visto que os diretores das
escolas não podem mudar de opção ou simplesmente adotar as regras do outro sistema para
aprimorarem a administração das suas escolas (ex: um diretor de escola pública não pode
contratar ou demitir professores sem seguir o rito legal, que em geral está além da sua
capacidade de gestão). A regressão mostrou que quando a unidade de ensino é privada ela
tende a ser mais eficiente. Uma hipótese para explicar isso é que os diferentes incentivos
existentes entre a gestão pública e privada podem ser determinantes. Os proprietários das
escolas particulares veriam no maior nível de ensino dos seus alunos uma forma de atrair
novos “clientes” e auferirem mais lucros. Da mesma forma, os professores da rede privada
teriam estímulo para aprimorarem as suas qualificações e seus recursos didáticos para
transmitirem o máximo de conhecimento e, com isso, serem disputados pelas escolas (ou pelo
menos manterem os seus empregos com bons salários), diferentemente dos professores da
rede pública cujos salários não têm vínculo com o desempenho dos alunos.
O sistema de ensino privado, além de se mostrar mais efetivo por meio de melhores notas na
prova do Enem, mostrou ter, também, uma tendência a ser mais eficiente quanto ao uso dos
insumos. Apesar de não ter sido possível demonstrar a eficiência em termos financeiros de
forma a possibilitar a escolha racional dos pais consumidores entre um sistema e outro,
atualmente parte deles já paga concomitantemente os dois sistemas. Os pais que têm filhos em
escolas privadas pagam os seus impostos e não usam o sistema público de ensino. Os
descontos de gastos em educação no imposto de renda são praticamente simbólicos em
relação ao custo do médio do ensino privado21. Aumento nas margens de descontos poderia
incentivar mais pais a se utilizarem o sistema privado, desafogando o sistema público e dando
mais eficiência ao conjunto do sistema de educação. Deve-se lembrar ainda, que mesmo a
educação tendo falhas de mercado, devido às externalidades positivas, muitas famílias
gostariam de “consumir” deste produto/serviço. Segundo a Pesquisa Nacional de Qualidade
da Educação realizada pelo Inep/Mec em 2005, o número de alunos que já haviam
21