A medida de qualidade é dada pela equação (30), ou seja, combina as medidas de qualidade estimadas por efeito fixo, com as estimadas por efeito between30 com os indicadores de insumo das escolas. Para isso, estimamos a equação (22) a partir de um modelo GMM considerando as quatro medidas de resultado e os insumos, dados por X, explicitados a seguir.
As variáveis de insumos escolares utilizadas são provenientes da Prova Brasil e do Censo Escolar. Por hipótese, admitimos que essas variáveis afetam os indicadores de valor adicionado apenas indiretamente via qualidade da escola. Trabalharemos com as seguintes variáveis:
i) experiência do diretor na função de direção – variável da Prova Brasil presente no questionário de diretores - uma variável acumulativa indicando se o diretor está há pelo menos 10 anos na função;
ii) percepção do diretor da escola sobre problema de falta de professores na sua escola – variável da Prova Brasil presente no questionário de diretores - variável dummy que assume valor ‘1’ quando o diretor diz haver um problema de alto índice de faltas de professores em sua escola;
iii) escolaridade dos professores de 1ª a 4ª serie (ou do 1 ao 5º ano) da escola - variável do Censo Escolar do bloco de variáveis de professores – variável indicando a porcentagem de professores na escola que tem pelo menos ensino superior completo;
iv) % de professores na escola com vínculo efetivo - variável da Prova Brasil do questionário da escola – uma variável dummy que assume valor “1” se mais de 75% dos professores da escola tem vínculo efetivo; v) jornada média de aulas das turmas de 1ª a 4ª serie (ou do 1 ao 5º ano) da escola - variável do Censo Escolar do bloco de variáveis das turmas – selecionou-se apenas as turmas do 1º ciclo do ensino fundamental da escola e calculou-se a media da jornada escolar para essas turmas; e
vi) existência de modalidade EJA na escola - variável do Censo Escolar do bloco de variáveis da escola – variável dummy igual a 1 que indica que a escola oferece EJA. No caso dessa última variável, vale um comentário. A ideia aqui é que escolas especializadas, no caso, em ensino regular, podem ser mais eficientes, ter mais qualidade.
Todas essas variáveis foram consideradas em termos de desvios da média entre todas as escolas para estimar a equação (22). A tabela do Apêndice A traz os resultados do GMM para as estimativas dos coeficientes de interesse dos insumos (
α
k) e dos outros indicadores de resultados (βj)31. Os resultados dos coeficientes (α
k) são no sentido esperado e todos significativos com pelo menos 90% de confiança. Os
30 Realizamos testes considerando o efeito aleatório ao invés do efeito between, entretanto, como as estimativas de efeito aleatório foram similares as do modelo de efeito fixo, optamos por não considerá-las. Conforme mencionado na seção II deste artigo, se o tamanho médio das escolas for suficientemente grande não seria surpreendente encontrarmos estimativas similares entre os modelos de efeito fixo e efeito aleatório.
31 Foram estimados outros modelos considerando um conjunto maior de variáveis de insumo e os resultados permaneceram semelhantes.
coeficientes estimados são parecidos entre os anos, embora o teste de Hansen tenha apresentado um resultado bastante superior para a estimativa de 2009.
Ao estimar o GMM também é possível conhecer a matriz de variâncias e covariâncias dos erros (gj), e a partir da estratégia de identificação de Σ detalhada na seção IV do artigo podemos conhecer a estrutura de pesos e calcular o indicador de qualidade das escolas proposto aqui.
A estratégia de identificação de Σ pode ser entendida com uma proposição do modelo desenvolvido com base no MIMIC que nos permite encontrar a maior valor de Var
[ ]
ei como proporção da[ ]
giVar 1 , dentro do intervalo em que as condições R1 e R2, definidas na seção V, são respeitadas. Esse valor traz como resultado a definição do peso relativo dos insumos e dos indicadores de resultado no indicador final de qualidade da escola.
Como dito anteriormente, o indicador final deverá apresentar menor erro de medida por combinar linearmente essas diferentes medidas de resultado e insumos proporcionalmente à suas variâncias e covariâncias. As equações (29) e (30) fornecem os pesos ωj necessários para obter a medida qˆi de interesse. A tabela 1 abaixo mostra a estrutura de pesos para 2007 e 2009 após a re-ponderação de forma a somar ‘1’.
Tabela 1: Ponderadores da medida de qualidade da educação - qˆi
ef fixo mat ef between mat ef fixo lp ef between lp Insumos 2007 -0,6688 1,5392 2,2035 -2,1977 0,1239 2009 0,4220 0,0212 1,7298 -1,5671 0,3941
Fonte: Elaboração própria com dados da Prova Brasil e Censo Escolar, ambos dos anos de 2007 e 2009.
As linhas da tabela 1 acima mostram os pesos obtidos para os indicadores de resultado e variáveis de insumos em 2007 e em 2009. Em 2009, observamos que as duas disciplinas aparecem com ponderação positiva: matemática com 44% e língua portuguesa com 16%. No entanto, em 2007, os pesos dos efeitos fixo e between de língua portuguesa praticamente se anulam – ao final língua portuguesa fica com peso de 1% - deixando matemática com peso de 88%. Com relação aos insumos, observamos que os mesmos têm peso maior em 2009: 40% em 2009 e 12% em 2007. De qualquer forma, o peso dos insumos pode ser entendido como um valor razoável considerando que a estratégia de identificação proposta é conservadora no sentido de atribuir o menor peso possível ao indicador de insumos e processos.
Com base então nos pesos obtidos, construímos o indicador de qualidade de acordo com a equação (30) para cada uma das 464 escolas em 2007 e 2009. Uma das características esperadas para esse indicador, que tende a reduzir os erros de medidas relativamente aos seus componentes individuais, de modo a produzir uma maior estabilidade na ordenação de escolas de um ano para outro.
Para investigarmos a estabilidade na ordenação, fizemos o seguinte exercício. Primeiramente, ranqueamos as escolas em 2007 e em 2009 de acordo com o indicador de qualidade proposto; em seguida, calculamos a diferença absoluta entre a posição da escola no ranking em 2009 e a posição no ranking em 2007; a ideia é verificar se há mudanças de posição muito grandes entre os anos. Apresentamos na tabela seguir, a média da diferença de posições entre os anos de 2007 e 2009 considerando todas as escolas, e também, as médias dessa diferença considerando as 100, 50 e 20 escolas que apresentaram a maior variação de posição relativa entre os anos. A título de comparação fizemos o mesmo exercício considerando as medidas individuais de qualidade que compõem o nosso indicador.
Tabela 2 – Maiores variações absolutas de posições entre os anos de 2007 e 2009 segundo cada um dos indicadores de qualidade da escola
Nota matemática Efeito fixo matemática Efeito between matemática insumos indicador qualidade qi média (total) 87,2 96,5 137,6 112,59 77,75 média entre as 20 maiores variações 291,6 310,9 368,1 320,60 259,86 média entre as 50 maiores variações 245,48 265,14 329,08 277,33 222,28 média entre as 100 maiores variações 205,82 223,2 288,55 239,26 180,28
Fonte: Elaboração própria com dados da Prova Brasil e Censo Escolar, ambos dos anos de 2007 e 2009.
Como esperado, a ordenação das escolas de acordo com o indicador proposto de qualidade qi é a
mais estável: em média, de acordo com o indicador proposto, uma escola mudou 77 posições entre 2007 e 2009. A ordenação seguindo a proficiência bruta de matemática é a segunda mais estável; por outro lado, a ordenação usando o valor adicionado de matemática estimado via efeito between é a menos estável.
A tabela a seguir possibilita outro tipo de análise da estabilidade de ranking. Para cada uma das medidas de qualidade e para cada um dos anos, obtivemos um ranking de escolas. Em seguida, dividimos estas distribuições em cinco partes e três tipos de resultados relacionados à estabilidade foram produzidos. A linha ‘nunca’ mostra a probabilidade da escola de acordo com a medida de qualidade escolhida não estar entre as 20% melhores em nenhum dos anos; a linha ‘uma vez’ mostra a probabilidade de a escola aparecer em um dos anos; e, por fim, a linha ‘duas vezes’ mostra a probabilidade de a escola aparecer nos dois anos. Para comparação, mostramos também os resultados esperados caso tivéssemos uma medida perfeitamente estável de qualidade e os resultados obtidos caso o ranking fosse formado aleatoriamente.
Tabela 3 - Frequência das escolas entre as 20% melhores no ranking produzido por diferentes medidas*
medida
estável loteria
nota de
mat Ef fixo mat
Ef between mat insumos escolaridade dos pais* indicador qualidade qi Nunca 80% 64% 70,91% 70,04% 65,73% 69,0% 71,77% 72,4% uma vez 0% 32% 18,53% 20,26% 28,88% 22,6% 16,81% 15,5% duas vezes 20% 4% 10,56% 9,70% 5,39% 8,4% 11,42% 12,1%
* pelo menos ensino médio completo.
Fonte: Elaboração própria com dados da Prova Brasil e Censo Escolar, ambos dos anos de 2007 e 2009.
Nesse exercício, mais uma vez, observamos que a medida proposta é a que apresenta melhor desempenho. Ela é seguida de perto pelas ordenações resultantes dos indicadores ‘escolaridade dos pais’, ‘nota de matemática’ e ‘efeito fixo de matemática’. Por exemplo, tendo por base a linha que indica que a escola não aparece em nenhum dos anos entre as 20% melhores; num ranking totalmente estável esse número deveria ser de 80%. A ordenação pelo indicador de qualidade proposto indica que isso acontece para 72,4% das escolas; via escolaridade dos pais acontece para 71,77%; via nota bruta acontece para 70,9% das escolas; e via efeito fixo acontece para 70% das escolas. Novamente, a ordenação via efeito between foi a menos estável. Vale dizer, no entanto, que todas as ordenações superam um ranking puramente aleatório (no caso da ordenação via efeito between por muito pouco).
Tendo em vista, o desempenho semelhante entre a medida proposta e os indicadores de proficiência bruta de matemática e efeito fixo de matemática, apresentamos a tabela 4, com as correlações de ordem de
i
qˆ com os outros indicadores de qualidade da escola. As maiores correlações da nossa medida são com o score bruto de matemática, seguido pelo efeito fixo, resultado condizente com os números da tabela anterior.
Tabela 4: Correlação de ordem (spearman) entre qˆi e os outros indicadores de resultado
2007 2009
Nota mat 0.9735 0.9100
Ef fixo mat 0.9504 0.8592
Ef between mat 0.4429 0.4198
insumos 0.4216 0.4503
Por fim, na tabela 5 apresentamos a correlação de ordem das diferentes medidas de qualidade e a escolaridade média dos pais (tabela 5). A correlação da nossa medida com a escolaridade dos pais foi a maior (0,63 em 2007 e 0,6 em 2009), mas novamente seguida de perto pelos indicadores nota bruta (0,6 em 2007 e 0,52 em 2009) e efeito fixo (0,51 em 2007 e 0,4 em 2009). As medidas de qualidade estimadas como um efeito between, por construção, não apresentam correlação com a escolaridade dos pais.
Tabela 5: Correlação de ordem (spearman) entre as medidas de qualidade e escolaridade dos pais* 2007 2009 Nota mat 0.5984 0.5205 Ef fixo mat 0.5119 0.4000 Ef between mat 0.0006 0.0160 Qi 0.6278 0.6046
*pelo menos Ensino Médio Completo
Comentários finais
Este artigo procurou contribuir com a identificação de uma medida de qualidade da escola menos sujeita a erros de medida e que traga mais informações relacionadas à influência da escola no desempenho dos estudantes, relativamente às medidas usuais dos programas de school accountability.
Considerando que os efeitos da escola no resultado obtido pelos seus alunos nos testes não é uma variável observável e que toda medida utilizada está sujeita a erros, sejam eles sistemáticos ou aleatórios, construímos uma medida de qualidade composta por uma combinação linear de diversas medidas de resultados, insumos e processos. Os pesos utilizados foram baseados na estimação de um modelo MIMIC, o qual trata a qualidade da escola como uma variável latente e estimada a partir das correlações entre as variáveis causas e as indicadoras da qualidade. Nesse modelo, a hipótese principal é que as variáveis causas afetam as variáveis indicadoras exclusivamente através da qualidade da escola. Assim, a disponibilidade e a escolha dessas variáveis são muito relevantes para a aplicabilidade do modelo.
As variáveis indicadoras de resultado utilizadas foram derivadas das medidas de desempenho em exames padronizados aplicados em determinado ano. Calculamos os valores adicionados pelo modelo de efeito fixo e between, aplicando um corretor pelo número de alunos testados na escola (shrinkage estimator) para diminuir os problemas de erros de medidas.
Uma aplicação para as escolas municipais da cidade de São Paulo foi realizada. Para tanto utilizamos dados da Prova Brasil e Censo Escolar para os alunos do 5º ano do ensino fundamental referentes aos anos de 2007 e 2009. Medidas de valor adicionado fora computadas tanto para leitura quanto para matemática. Os insumos utilizados foram retirados do Censo Escolar e dos questionários da Prova Brasil.
A estimativa de qualidade resultante do modelo MIMIC se mostrou muito parecida com o indicador da nota bruta e efeito fixo de matemática. As correlações de ordem entre nosso indicador e essas medidas são bastante elevadas. No entanto, foi possível verificar vantagem do nosso indicador quando analisamos a
estabilidade das medidas. Por outro lado, nosso indicador apresentou maior correlação com o indicador socioeconômico utilizado.
A similaridade entre nosso indicador e as medidas de nota bruta e efeito fixo se devem, muito provavelmente, à própria similaridade entre os indicadores de qualidade que foram combinados. Todos foram derivados da mesma avaliação, ou seja, da Prova Brasil dos respectivos anos. A ideia é que o indicador proposto combine diferentes informações de qualidade a partir dos indicadores individuais de forma a produzir um indicador final com menor erro de medida. O problema aqui é que parece que todos os indicadores fornecem a ‘mesma’ informação. Assim, como próximo passo, iremos combinar medidas derivadas de provas diferentes.
Referências
Andrejko, L. (2004) “Value-Added Assessment: A View from A Practitioner” Journal of Educational and Behavioral Statistics 29, no. 1, 7-9.
Bajada, C. e Schneider, F. (2005) “The Shadow Economies of the Asia-Pacific” Pacific Economic Review 10, no 3, 367-401.
Baker, E. et al. (2010) Problems with the Use of Student Test Scores to Evaluate Teachers. Economic Policy Institute Briefing Paper no. 278.
Ballou, D. (2009) “Test Scaling and Value-Added Measurement” Education Finance and Policy 4, no. 4, 351-383.
Ballou, D., Sanders, W. e Wright, P. (2004) “Controlling for Student Background in Value-Added Assessment of Teachers” Journal of Educational and Behavioral Statistics 29, no. 1, 37-65.
Breusch, T. (2005) Estimating the Underground Economy using MIMIC Models. Working Paper, National University of Australia, Canberra, Australia.
Briggs, D. C., e Betebenner, D. W. (2009) Is growth in student achievement scale dependent? Paper Presented at the Annual Meeting of the National Council on Measurement in Education, San Diego, CA.
Callender, J. (2004) “Value-Added Student Assessment” Journal of Educational and Behavioral Statistics 29, no. 1, 5.
Card, D. e Krueger, A. B. (1992) “Does School Quality Matter? Returns to Education and the Characteristics of Public Schools in the United States” Journal of Political Economy 100. no. 1, 1-40.
Card, D. e Krueger, A. B. (1996) “Labor Market Effects of School Quality: Theory and Evidence.” In Burtless, G. (Ed) Does Money Matter? The Effect of School Resources on Student Achievement and Adult Success, Washington D. C.: Brookings Institute, 97-140.
Cullen, J. B. e Reback, R. (2006) "Tinkering Toward Accolades: School Gaming Under a Performance Accountability System.” In Gronberg, T. J. e Jansen, D. W. (Eds) Advances in Applied Microeconomics 14, Elsevier, 1-34.
Dell’Anno, R e Schneider, F. (2003) “The Shadow Economy of Italy and other OECD Countries: What do we Know?” Journal of Public Finance and Public Choice 21, no 2-3, 97-120.
Figlio, D. e Loeb, S. (2011) “School Accountability”. In Hanushek, E., Machin, S. e Woessmann, L. (Eds) Handbook of the Economics of Education, Volume 3, North-Holland, 383-421.
Frey, B. S. e Weck-Hannemann, H. (1984) “The Hidden Economy as an Unobservable Variable” European Economic Review 26, no 1, 33-53.
Giles, D.E.A. (1999a) “Modelling the Hidden Economy and the Tax-gap in New Zealand” Empirical Economics 24, no 4, 621-640.
Giles, D.E.A. (1999b) “Measuring the Hidden Economy: Implications for Econometric Modeling” The Economic Journal 109, no 46, 370-380.
Hanushek, E. A. e Raymond M. E. (2003) “Improving Educational Quality: How Best to Evaluate Our Schools?” In Kodrzycki, Y. (Ed) Education in the 21st Century: Meeting the Challenges of a Changing World. Boston, MA: Federal Reserve Bank of Boston, 193-224.
Hanushek, E. A. e Raymond M. E. (2005) “Does School Accountability Lead to Improved Student Performance?” Journal of Policy Analysis & Management 24, no 2, 297-327.
Helberger, C. e Knepel, H. (1988) “How Big is the Shadow Economy? A Re-Analysis of the Unobserved- Variable Approach of B.S. Frey and H. Weck-Hannemann” European Economic Review 32, no 4, 965- 976.
Hill, R. (2002) “The Underground Economy in Canada: Boom or Bust?” Canadian Tax Journal 50, no 5, 1641-1654.
Jacob, B. A. (2005) “Accountability, Incentives and Behavior: The Impact of High-Stakes Testing in the Chicago Public Schools.” Journal of Public Economics 89, no 5-6, 761-796.
Jacob, B. A. (2007) Test-Based Accountability and Student Achievement: An Investigation of Differential Performance on NAEP and State Assessments. NBER Working Paper, no 12817.
Jacob, B. A. e Levitt, S. D. (2003) “Rotten Apples: An Investigation of the Prevalence and Predictors of Teacher Cheating.” Quarterly Journal of Economics 118, no 3, 843-877.
Jöreskog, K. G. e Goldberger A. S. (1975) “Estimation of a Model with Multiple Indicators and Multiple Causes of a Single Latent Variable.” Journal of the American Statistical Association 70, no 351, 631-639.
Jöreskog, K. G. (2000) Latent Variable Scores and Their Uses. Scientific Software International, http://www.ssicentral.com/lisrel.
Kane, T. J. e Staiger D. O. (2001) Improving School Accountability Measures. NBER Working Paper, no 8156.
Kane, T. J. e Staiger D. O. (2002) “The Promise and Pitfalls of Using Imprecise School Accountability Measures.” Journal of Economic Perspectives 16, no 4, 91–114.
Ladd, H. F. (2001) “School-Based Educational Accountability Systems: The Promise and the Pitfalls”. National Tax Journal 54, no 2, 385-400.
McCaffrey, D. et. al. (2003) Evaluating Value-Added Models for Teacher Accountability. Santa Monica, CA: RAND.
McCaffrey, D. et. al. (2004) “Models for Value-Added Modeling of Teacher Effects” Journal of Educational and Behavioral Statistics 29, 67-101.
Mizala, A., Romaguera, P. e Urquiola, M. (2007) “Socioeconomic Status or Noise? Tradeoffs in the Generation of School Quality Information.” Journal of Development Economics 84, no 1, 61-75.
Ng, H.L. e Koretz, D. (2012) Sensitivity of School-Performance Ratings to Scaling Decisions. Working Paper, Harvard Graduate School of Education, Cambridge, MA.
Raudenbush, S. W. (2004) “What are Value-Added Models Estimating and What Does this Imply for Statistical Practice?” Journal of Educational and Behavioral Statistics 29, 121-129.
Raudenbush, S. W e Willms, J.D. (1995) “The Estimation of School Effects” Journal of Educational and Behavioral Statistics 20, no. 4, 121-129.
Reback, R. (2007) “Teaching to the Rating: School Accountability and the Distribution of Student Achievement.” Journal of Public Economics (forthcoming).
Reckase, M. D. (2004) “The Real World is More Complicated than We Would Like” Journal of Educational and Behavioral Statistics 29, 117-120.
Rivkin, S. G., Hanushek, E. A e Kain, J. F. (2005) “Teachers, Schools and Academic Achievement” Econometrica 73, no. 2, 417-458.
Rubin, D. B., Stuart, E. A. e Zanutto, E. A. (2004) “A Potential Outcomes View of Value-Added Assessment in Education” Journal of Educational and Behavioral Statistics 29, 103-116.
Sanders, W. L., Saxton, A. M. e Horn, S. P. (1997) “The Tennessee Value-Added Assessment System: A Quantitative Outcomes-Based Approach to Educational Assessment”. In Millman. J. (Ed.) Grading Teachers, Grading Schools: Is Student Achievement a Valid Educational Measure? Thousand Oaks, CA: Corwin Press, 137-162.
Smith, R. S. (2002) “The Underground Economy: Guidance for Policy Makers?” Canadian Tax Journal 50, no 5, 1655-1661.
Tekwe, C. D. et. al. (2004) “An Empirical Comparison of Statistical Models for Value-Added Assessment of School Performance” Journal of Educational and Behavioral Statistics 29, 11-36.
von Zastrow, C. e Janc, H. (2004). Academic atrophy: The condition of the liberal arts in America’s public schools. Washington, DC: Council for Basic Education.
Wooldridge, J. (2002) Econometric Analysis of Cross Section and Panel Data. Cambridge, Massachusetts, MIT Press.
Wainer, H. (2004) “Introduction to the Value-Added Assessment Special Issue” Journal of Educational and Behavioral Statistics 29, no. 1, 1-3.
Apêndice A – Resultados GMM 2007 2009 oferece_eja -3,301 -2,888 0,907 0,773 exp_dir_10_anos_ou_mais 3,790 3,270 0,934 0,906 percep_dir_falta_prof -1,694 -3,336 0,837 0,900
% de prof com ensino superior ou mais ciclo1_EF
0,069 0,174
0,041 0,068
mais de 75% dos professores têm vínculo efetivo 2,514 1,525 0,807 0,778 jornada_media_ciclo1_EF 0,060 0,047 0,013 0,017 beta2 0,265 0,361 0,053 0,070 beta3 0,984 0,892 0,046 0,055 beta4 0,230 0,286 0,052 0,064 Coeficientes e desvios-padrão. Nº parâmetros = 9; Nº de momentos = 24; Nº de obs = 464 Hansen's J chi2(15) = 28.2065 (p = 0.0203) Hansen's J chi2(15) = 12.614 (p = 0.6321)