Em Busca de uma Medida da Qualidade da Escola

(1)

Em Busca de uma Medida da Qualidade da Escola

Reynaldo Fernandes [email protected]

Elaine Toldo Pazello [email protected] Roberta Loboda Biondi

[email protected]

Fabiana de Felicio [email protected] Resumo

Classificação JEL: I2 Educação; C01 Econometria; C5 Modelagem Econométrica.

Abstract APRESENTAÇÃO EM PORTUGUÊS  FEA-RP/USP. _FEA-RP/USP. _EESP-FGV. 

Metas - Consultoria em Pesquisa e Avaliação Educacional.

Este artigo procura contribuir para a identificação de uma medida de qualidade da escola menos sujeita a erros de medida, e que traga mais informações relacionadas à influência da escola no desempenho dos estudantes, relativamente às medidas usuais dos programas de school accountability. A proposta é a construção de uma medida de qualidade composta por uma combinação linear ponderada de diversas medidas de resultados, insumos e processos, onde a estrutura de pesos é definida por um modelo MIMIC (múltiplos indicadores e múltiplas causas), e não de forma arbitrária, uma das vantagens do método desenvolvido. Os indicadores de resultado utilizados são os valores adicionados calculados pelos modelos de efeito fixo e between, para o qual propomos a correção das estimativas pelo número de alunos testados na escola, conhecido como shrinkage estimator. A partir das estimativas por SUR e uma hipótese de identificação derivada do próprio modelo propomos um indicador de qualidade. Realizamos uma aplicação para o Estado de São Paulo utilizando os dados do SARESP 2008 e 2010 para o 5º ano do ensino fundamental. Encontramos uma medida de qualidade da escola menos sujeita a erros de medida, mais estável e com menor correlação com as características socioeconômicas dos alunos relativamente às outras medidas. Não surpreendentemente, o indicador também demonstrou elevada correlação com os indicadores de resultado que a compõe. Nossa conclusão é que o método teórico desenvolvido se mostrou robusto, principalmente no que se refere à estratégia de identificação, além de apresentar bons resultados quando aplicados aos dados.

Palavras-chave: qualidade da escola, school accountability, modelos de valor adicionado, modelos MIMIC.

This works contributes to the identification of a school quality measure that is less subject to measurement errors and also brings more information about the influence the school has over the students‟ achievement, relatively to those commonly used on school accountability programs. It is proposed a quality measure, formed by a weighted average of several results‟, input‟ and processes‟ mean, on which the weight structure is defined by a MIMIC model (Multiple Indicators and Multiple Causes) and not of arbitrary form, which is one of this method‟s advantages. The results‟ indicators used are the additional values calculated by the fixed effect and between models, for which it is proposed the correction of the estimative by the school‟s number of tested students, known as shrinkage estimator. We did the indicator based on SUR estimates and on identification hypothesis derived from the model. We applied this method for the state schools of São Paulo using 2008 and 2010 SARESP‟s data. We found a quality measure less subject to measurement errors, more stable and less correlation with the socioeconomic characteristics of students than to the other measures. Not surprisingly, this measure also was highly correlated with the result indicators that compose it. Our conclusion is that the theoretical method proved to be robust, especially as regards the strategy for the identification, besides having good results when applied to the data.

Key words: school quality, school accountability, Value-Added Models, MIMIC Models. Classificação JEL: I2 Educação

(2)

I. Introdução

A prática de avaliar escolas através do desempenho de seus estudantes em exames padronizados tem se tornado cada vez mais freqüente em todo o mundo. Também tem sido usual atrelar recompensas, sanções e assistência a tais resultados. Dado a importância de transmitir aos professores e pais o motivo das escolas serem recompensadas ou penalizadas, indicadores simples de desempenho seriam desejáveis. Talvez por esse motivo, a pontuação média dos estudantes da escola tem sido uma das medidas de desempenho mais utilizadas pelos programas de school accountability.1 No entanto, medidas simples

podem ter propriedades não desejadas.

A estrutura de incentivos subjacente aos programas de school accountability depende, fundamentalmente, da medida de desempenho considerada. Nesse ponto, dois potenciais problemas dos programas têm sido ressaltados: i) “gaming” e ii) distorção de incentivos. O primeiro problema decorre do fato que as escolas podem adotar estratégias para alterar os resultados dos exames que não mudam a qualidade do ensino ministrado como, por exemplo, treinar e motivar os estudantes para os testes ou excluir dos exames alunos de baixa proficiência. No segundo caso, o destaque tem sido dado ao fato que as escolas, ao concentrar esforços nos aspectos cobrados pelos programas, são levadas a negligenciar outros aspectos igualmente importantes. Em relação a isso, o estreitamento de currículo e a exclusão de alunos de baixa proficiência tem sido uma preocupação2.

Neste artigo o interesse recai sobre um tipo específico de distorção de incentivos. Aquela que advém do fato que os indicadores utilizados nos programas de school accountability serem medidas imperfeitas dos objetivos restritos que eles se propõem a avaliar, ainda que nenhum “gaming” esteja presente. Por exemplo, se um teste de matemática se propõe avaliar a capacidade das escolas em proporcionar aos seus estudantes um bom aprendizado na disciplina, ele é imperfeito porque seus resultados incorporam, além do esforço da escola, influências advindas da família, dos amigos e das habilidades inatas dos estudantes, bem como do erro aleatório de medida. Kane e Staiger (2001 e 2002) notaram que os resultados de exames padronizados são medidas sujeitas a muito ruído em virtude da grande variância do termo erro, particularmente entre as pequenas escolas.

Mizala, Romaguera e Urquiola (2007) sugerem que policy makers estejam frente ao seguinte

trade-off: a) escolher uma medida que reflita mais as características socioeconômicas dos estudantes ou b) optar

por uma medida que ordene as escolas de forma a imitar uma loteria. Assim, por exemplo, a pontuação média dos estudantes ordenaria escolas mais com base nas características socioeconômicas dos estudantes do que com base na qualidade da escola. Já medidas que procuram reduzir a influência socioeconômica

1_{Ver Kane e Staiger (2002) e Hanushek e Raymond (2003) para uma descrição dos programas americanos. Para uma discussão}

da incipiente experiência brasileira sobre school accountability, ver Brooke (2006) e Andrade (2008).

2_{Para uma discussão desses problemas, ver, entre outros, Jacob (2005 e 2007), Jacob e Levitt (2003), Hanushek e Raymond}

(3)

como, por exemplo, o valor adicionado, estariam muito influenciadas pelo erro aleatório de medida e, portanto, produziriam rankings bastante voláteis. Premiar ou penalizar escolas com base no perfil dos alunos que elas recebem ou com base em uma loteria traria conseqüências indesejáveis à estrutura de incentivos implícita nos programas de school accountability. Por exemplo, escolas que são mal avaliadas por receberem alunos pobres poderiam se sentir desestimuladas a melhorar a qualidade de ensino, uma vez que o ranking de escolas reflete pouco do esforço realizado. Por outro lado, programas que têm como foco as melhores e as piores escolas, para promover prêmios e punições, trazem pouco incentivo para as grandes escolas. A probabilidade da escola aparecer no topo ou no fim do ranking é muito maior para as pequenas, uma vez que a variância do erro diminui com o número de estudantes [Kane e Staiger (2002)].

Tentar identificar, nos resultados obtidos pelos estudantes nos exames padronizados, a parcela que advém do trabalho da escola (ou do professor) tem sido a base para os Modelos de Valor Adicionado (Value-Added Models – VAMs). Infelizmente, isso não é uma tarefa fácil. A literatura de VAMs apresenta uma diversidade de modelos, envolvendo medidas relativamente simples de valor adicionado a complexos modelos estatísticos, que necessitam admitir hipóteses questionáveis, não testáveis. Medidas simples tendem a produzir instabilidade de rankings, em virtude da grande variância do erro aleatório de medida. Já os modelos mais sofisticados exigem uma quantidade de dados (ex. testar todos os alunos, todos os anos e nas mesmas disciplinas) que são disponíveis apenas em poucos sistemas de avaliação no mundo3.

A influência da escola no desempenho de seus alunos nos testes padronizados não é uma variável diretamente observável e toda medida utilizada está sujeita a erros, sejam eles sistemáticos ou aleatórios. Deste modo, seria mais apropriado considerar que qualquer medida de qualidade da escola, entendida como a contribuição da escola para que seus alunos adquiram as habilidades e conhecimentos exigidos pelos testes, divirja da “verdadeira” qualidade por um fator de escala mais um termo erro. O objetivo, então, seria obter uma medida de qualidade onde a variância do erro, medida como proporção da variância da qualidade, seja a menor possível4.

Uma forma de lidar com esse problema seria obter mais de uma medida da qualidade das escolas e, então, extrair a média delas. O sistema de pesos dessa média deve ser apropriadamente calculado de forma a minimizar a variância do erro. Kane e Staiger (2001) propõem utilizar os resultados dos testes de anos anteriores para tal fim. No entanto, essa proposta possui dois inconvenientes. O primeiro é que ela pressupõe que as escolas possuam um histórico de resultados em exames padronizados, o que não é disponível para muitos dos novos programas de school accountability. O segundo é que, em virtude da qualidade relativa das escolas não ser fixa ao longo do tempo, seria necessário impor alguma estrutura para

3

Para escolas (ou professores) com poucos alunos, as estimativas anuais do efeito escola (professor) estão sujeitas a muita flutuação amostral. Existem, no entanto, estratégias – e.g. o Best Linear Unbiased Predictor usado no Tennessee Value Added Assessment System (TVAAS) – que procuram lidar com esse problema. Para uma revisão e discussão dos VAMs ver, por exemplo, McCaffrey at. al. (2003) e o simpósio do Journal of Education and Behavioral Statistics (2004).

4

(4)

tentar capturar a variação temporal na qualidade relativa das escolas. Kane e Staiger (2001) supõem que o “efeito escola”, implícito na pontuação média dos estudantes da escola, segue um processo autoregressivo de ordem um, onde o parâmetro do modelo é considerado o mesmo para todas as escolas5.

No presente artigo, sugerimos utilizar mais de uma medida de qualidade da escola extraídas de um mesmo período de tempo6. Assim, propomos utilizar exames em diferentes disciplinas e mais de uma medida de qualidade por disciplina, bem como variáveis de insumos e processos. Para tanto, sugerimos a implementação de um modelo MIMIC (múltiplos indicadores e múltiplas causas), o qual trata a qualidade da escola como uma variável latente e estimada a partir da correlação entre as variáveis “causas” e as variáveis “indicadoras” de qualidade. No fundo, nossa proposta não diverge do procedimento utilizado por vários programas de school accountability, ao utilizar um indicador que é uma média de diversas medidas de resultados, insumos e processos. A diferença é que o sistema de pesos não é arbitrário7.

O modelo MIMIC tem sido utilizado por economistas para obter uma medida da Economia Subterrânea, mas a validade de tal procedimento tem sido contestada por diversos comentadores8. A principal crítica recai sobre a hipótese de que as variáveis “causas” afetam as variáveis “indicadoras” exclusivamente através da Economia Subterrânea. Nosso argumento é que tal hipótese é menos restritiva quando a variável latente é a qualidade da escola.

Entretanto, para nossos propósitos, uma restrição importante do modelo MIMIC padrão refere-se à hipótese que, dado a variável latente, as variáveis indicadoras são mutuamente independentes. Se, por exemplo, Y1 e Y2 são medidas da qualidade da escola extraídas dos resultados dos exames de leitura e matemática, então, não seria razoável admitir que a covariância dos erros entre as duas medidas seja zero, especialmente se os exames foram realizados no mesmo dia. Assim, abandonamos a hipótese de que as covariâncias entre os erros das variáveis indicadoras, tomadas como medida de qualidade da escola, sejam zero.

Por fim, uma restrição ao modelo MIMIC pode surgir em virtude do uso de variáveis de insumos e processos educacionais. Economistas geralmente consideram medidas baseadas nos resultados dos estudantes preferíveis a medidas baseadas em insumos ou processos educacionais. Isto em vista da fraca correlação, freqüentemente encontrada, entre as variáveis de insumos e processos com o desempenho dos estudantes. Deste modo, os incentivos de uma medida híbrida de qualidade da escola - incluindo variáveis

5

Na verdade, como eles trabalham com dois exames (leitura e matemática), eles supõem um vetor autoregressivo (VAR) de primeira ordem e parâmetros idênticos para todas as escolas.

6_{O que não significa que a inclusão de medidas de diferentes períodos não possa ser considerada.}

7_{Assim, a variável qualidade da escola é considerada unidimensional. Isso difere de grande parte dos modelos na literatura de}

VAM, onde a qualidade da escola é considerada multidimensional: a qualidade da escola em propiciar o aprendizado em matemática, em leitura etc.

8_{Para o uso do modelo MIMIC na estimação da Economia Subterrânea ver, entre outros, Frey e Weck-Hannemann (1984),}

Giles (1999a e 1999b), Dell‟Anno e Schneider (2003) e Bajada e Schneider (2005). Para uma avaliação crítica dessa abordagem ver, entre outros, Helberger e Knepel (1988), Smith (2002), Hill (2002) e Breusch (2005).

(5)

de resultados, insumos e processos - seriam confusos. Como ressaltam Hanushek e Raymond (2003) “a

school could be rewarded for improving its procedures even if it does not result in additional student achievement". Este tipo de argumentação, no entanto, minimiza as dificuldades de se obter uma medida da

qualidade da escola a partir dos resultados de exames padronizados. Nosso argumento é que se variáveis de insumos e processos possuem alguma informação sobre a qualidade da escola não há porque desprezá-la.

O restante deste artigo é organizado da seguinte forma. A seção II discute as dificuldades de se extrair o sinal de qualidade da escola a partir dos resultados de exames padronizados. Na seção III, analisam-se as vantagens e desvantagens dos modelos de efeito fixo e aleatório para obtenção do efeito escola. A seção IV apresenta o modelo MIMIC proposto para se obter um indicador da qualidade da escola. Uma estratégia de identificação do modelo MIMIC é apresentada na seção V. Outros problemas de estimação, não tratados no presente artigo, são discutidos na seção VI. Na seção VII realizamos uma aplicação do modelo MIMIC para o Brasil. E, por fim, a seção VIII conclui o artigo.

II. O Problema de Extrair o Sinal da Qualidade da Escola a partir dos Resultados de Exames Padronizados

Rubin, Stuart e Zanutto (2004) argumentam que um problema básico na literatura de VAMs é a falta de definição clara da quantidade que esses modelos buscam estimar. Se o interesse é estimar um efeito causal (contribuição da escola para o desempenho de seus alunos) e efeitos causais são inerentemente comparações de produtos potenciais (pontuação dos estudantes nos testes em diferentes cenários), eles alegam que os VAMs falham em identificar o experimento do qual eles procuram se aproximar. Quais são as unidades de tratamento (escolas ou estudantes em particular)? Qual é o tratamento (estar na escola j ao invés da escola j‟ ou as práticas de ensino adotadas pela escola j)? Diferentes experimentos podem gerar resultados diferentes.

Raudenbush e Willms (1995) definem dois tipos de efeitos causais que poderiam ser objeto de estimação dos VAMs. O primeiro (efeito tipo A) seria de interesse dos pais, na escolha da escola de seus filhos. O segundo (efeito tipo B) seria de interesse dos gestores do sistema educacional, para responsabilizar o staff das escolas pelo desempenho de seus alunos. Eles definem o produto potencial do aluno i na escola j (Yij) como uma função das características do aluno (Si), um erro aleatório (eij) e dois

aspectos da escola: contexto da escola (Cj) e práticas de ensino (Pj). Professores e diretores possuem pouco

controle sobre Cj, o qual inclui ambiente e composição social da escola. Em contraste, professores e

diretores possuem substancial influência sobre Pj.

Para pais seria irrelevante distinguir a contribuição de Cj e Pj no aprendizado de seus filhos e, na

escolha entre a escola j e a escola j‟, o pai do estudante i deveria observar



i, j, j, ij



ij'



i, j', j', ij'



ij

i Y S C P e Y S C P e

(6)

escola j‟, para o estudante i. Para efeitos de school accountability, no entanto, a comparação desejada seria











Y S C P e Y S C P e j j



E

Q_j  _ij _i, _j, _j, _ij  _ij* _i, _j, _j*, _ij*  , onde Qj é a qualidade da escola j ao adotar as práticas

de ensino Pj, em comparação com a qualidade que ela teria se adotasse as práticas de ensino Pj*. No

primeiro caso as unidades de tratamento seriam os estudantes da escola j, o tratamento seria estar na escola j e o tratamento alternativo seria estar na escola j‟. Já no segundo caso as unidades de tratamento seriam as escolas, o tratamento seria adotar as práticas de ensino P e o tratamento alternativo seria adotar as práticas de ensino P . Raudenbush e Willms (1995) argumentam que, com base nos dados usualmente disponíveis, *

seria possível obter uma estimativa com pequeno viés para o efeito tipo A, mas não para o efeito tipo B. Isso porque as práticas de ensino (P) não são definidas e, muito menos, observadas. Assim, os VAMs teriam potencial em gerar quantidades estimadas de interesse para pais de alunos e que, combinadas com outras informações, seriam úteis para estimular discussões sobre como melhorar as práticas de ensino das escolas. Mas eles não gerariam medidas diretas para manter o staff das escolas responsabilizado pelo desempenho de seus alunos.

O que grande parte dos VAMs para efeito escola parece estimar é algo ligeiramente diferente do efeito tipo A de Raudenbush e Willms (1995). Em nossa opinião, no entanto, tais estimativas podem ser muito úteis para programas de school accountability e não apenas para escolha de escolas. Vamos admitir que os alunos de todas as escolas sejam testados ao final do curso e que todos eles concluam o curso na escola que ingressaram e no tempo “correto”, de modo que fenômenos como evasão, repetência e transferência de escola estejam ausentes. Seja M a proficiência em matemática obtida pelo aluno k ao _ki

final de seu curso na escola i e MkiA o produto potencial desse aluno sob o tratamento alternativo. Então, o

efeito do tratamento sobre o aluno k é A ki ki

ki M M

Q   e o impacto médio do tratamento sobre os tratados é Qi E



Mki  MkiAii



, onde Qi seria a medida de qualidade. Por essa perspectiva, a qualidade da escola

seria multidimensional: qualidade do ensino em matemática, leitura, ciências, história etc.9

Em muitos VAMs o tratamento alternativo parece ser a alocação aleatória do estudante k em uma das escolas do sistema. Então, A

ki

M pode ser definido como a proficiência esperada em matemática para o aluno k da escola i caso ele tivesse sido aleatoriamente alocado em uma das escolas do sistema. Deste modo, a qualidade da escola, no ensino de matemática, é definida como o impacto da escola no aprendizado dos alunos que ela serve. Se Q_i 0 significa que os alunos da escola i estão, em média, melhores do que estariam numa escola com características médias. Note que se as escolas forem altamente especializadas para o público que recebe é possível observarmos Q_i 0 para todas as escolas.

9_{Assim, se estamos interessado em uma única medida de qualidade da escola teríamos que gerar um índice que agregue essas}

(7)

Neste ponto, a questão chave a ser esclarecida refere-se ao significado de se ordenar escolas com base em tal indicador de qualidade. Suponha que a proficiência média dos alunos da escola i seja M_i80 e o produto potencial médio sob o tratamento alternativo seja A 70

i

M . Já para escola j, esses valores

seriam M_j95 e MAj 90. Então, teríamos Qi10 e Qj 5, de modo que a escola i seria considerada

de melhor qualidade. Tal comparação supõe que um ganho de mesmo tamanho em qualquer ponto da escala de proficiência representa o mesmo incremento de aprendizagem (ou habilidade). Uma escala que possui tal propriedade é conhecida como escala de intervalos. Claramente, se a escala é representada pelo número de itens corretos em uma prova ela não possui tal propriedade, uma vez que os itens não são de igual dificuldade. No entanto, alguns psicometristas argumentam que uma escala obtida pela Teoria da Resposta ao Item (TRI) é uma escala de intervalos, embora isso esteja longe de ser um consenso (Ballou, 2008). De qualquer modo, um ranking de qualidade das escolas obtido pelo procedimento acima seria mais defensável caso a proficiência dos estudantes fosse obtida com base na TRI.

Ainda que possamos considerar que a escala de proficiência seja uma escala de intervalos, utilizar tais estimativas para efeitos de accountability pode ser questionado. Poder-se-ia alegar, por exemplo, que é mais difícil elevar a proficiência de um estudante de 90 para 95 do que de 70 para 80. Para analisar esse ponto vamos admitir que as variáveis de contexto não sejam importantes para o aprendizado dos alunos e que diferentes alunos são diferentemente afetados pelas práticas de ensino. Por exemplo, podemos imaginar que os alunos com maiores proficiências são mais independentes das práticas de ensino do que os alunos com baixas proficiências. Admita que, no exemplo acima, a escola j possui as melhores práticas de ensino entre todas as escolas do sistema, enquanto a escola i possui práticas de ensino apenas ligeiramente melhores do que as da escola média. Apesar disso, a escola i seria considerada de melhor qualidade. Isso porque uma pequena melhora nas práticas de ensino produziria um incremento significativo para os alunos da escola i, que possuem baixa proficiência. Deste modo, alguém poderia considerar injusto que a escola j, que possui as melhores práticas de ensino, seja classificada abaixo da escola i. Por tal argumento, a escola deveria ser avaliada por sua qualidade “intrínseca”, independentemente da contribuição ao aprendizado de seus alunos.

A ideia que a escola (ou professor) deva ser avaliada(o) por sua qualidade “intrínseca” é compartilhada por muitos pesquisadores na área de educação. Além das dificuldades de ordem operacional (a dificuldade ou impossibilidade de se obter uma medida da qualidade das práticas de ensino - Raudenbush e Willms, 1995), tal posicionamento parece estar mais fundamentado em alguma concepção de justiça do que em incentivos. A concepção de justiça, além de difícil consenso, não parece ser um bom guia para orientar um programa de school accountability.

Os programas de educational accountability estão baseados na idéia que os responsáveis pelo aprendizado nas escolas (professores, diretores e gestores) podem alterar suas condutas e, assim, proporcionar aos estudantes um melhor ensino. Melhorar a qualidade do ensino pode exigir alterações em

(8)

práticas e hábitos enraizados no processo escolar e, portanto, de difícil execução. Assim, o potencial de um programa de educational accountability depende muito de sua capacidade em induzir mudanças nos procedimentos adotados que contribuam para melhorar o ensino. Aqueles que acreditam que a qualidade da educação pode melhorar admitem, ao menos implicitamente, que alguns dos responsáveis pela educação (professores, diretores, gestores de rede ou governantes) podem fazer algo diferente do que vêm fazendo. Nessa perspectiva, em algum nível (professores, escolas ou sistemas de ensino), a accountability pode ser necessária.

Por esse ponto de vista, a medida de accountability deveria ser avaliada pelo incentivo que ela produz. Programas de accountability com diferentes medidas de qualidade de escola podem gerar diferentes incentivos. Por exemplo, avaliar o staff da escola com base em sua qualidade “intrínseca” pode gerar o seguinte sinal a seus membros: melhorem suas práticas. Se a medida for a proficiência média dos alunos ao final do curso, o sinal seria: melhorem suas práticas e procurem se alocar em escolas onde os alunos já ingressam com alta proficiência (ou procurem selecionar alunos com alta proficiência) . No caso de se utilizar o valor adicionado (diferença da proficiência média dos alunos entre o início e o final do curso) como medida de qualidade da escola, a mensagem seria: melhorem suas práticas e procurem se alocar em escolas onde o potencial de crescimento dos alunos é maior (ou procurem selecionar alunos com alto potencial de crescimento)10. Por fim, na medida aqui discutida (Qi) o sinal seria: melhorem suas

práticas e procurem escolas onde seu trabalho faz mais diferença (ou procurem selecionar alunos que seu trabalho faz mais diferença). Esta última é a mais condizente com a eficiência, no sentido de aumentar a proficiência média dos alunos do sistema como um todo.

Na análise acima consideramos que as variáveis de contexto não são importantes para o aprendizado dos alunos, o que é pouco razoável. Como Qi não separa variáveis de contexto de variáveis

relacionadas às práticas de ensino, ela estaria sinalizando para professores e diretores, além dos aspectos discutidos acima, a procurarem se alocar em escolas com boas variáveis de contexto. Por exemplo, a depender do mecanismo de como professores são alocados às escolas, isso poderia levar que escolas com piores variáveis de contexto acabariam por receber também aqueles professores de pior desempenho que, em virtude disso, não conseguiram se colocar em escolas com maiores valores de Qi. Isso acabaria por

reduzir, ainda mais, o aprendizado dos alunos nas escolas com piores variáveis de contexto.

Enquanto isso vem a ser um problema, não significa que a medida Qi seja de utilidade apenas para

pais de alunos, no momento de escolher a escola de seu filho. Uma escola com um valor muito negativo de

Qi pode ser um sinal para o gestor do sistema que seria melhor fechá-la e redistribuir seus alunos entre as

demais escolas. O fato é que o impacto de um programa de school accountability sobre a proficiência

10

Suponha que a prática escolar considerada seja „ter bons professores‟. Então, caso seja mais fácil agregar valor a alunos de menor proficiência, os professores procurariam as escolas onde os alunos ingressam com baixa proficiência. Se as escolas estão interessadas em contratar bons professores e possuem liberdade para fazê-lo, o resultado final seria uma diminuição na desigualdade de proficiência no sistema. Por outro lado, caso agregar valor seja mais fácil a alunos de maior proficiência, o resultado final do programa de accountability seria um aumento da desigualdade de notas.

(9)

média dos alunos do sistema depende de todo o desenho do programa e não apenas da medida de desempenho utilizada. Como são escolhidos os diretores de escolas? Diretores podem contratar e demitir professores? Qual o tratamento dado às escolas de pior desempenho? Nosso argumento é que se uma boa estimativa de Qi for disponível, então ela seria uma melhor medida da qualidade da escola i do que as

usualmente adotadas pelos programas de school accountability como, por exemplo, a pontuação média dos estudantes da escola nos exames padronizados, a variação da pontuação média entre dois períodos de tempo e a variação da pontuação média para uma coorte de estudantes entre diferentes séries. Sendo assim, o problema passa a ser o de encontrar uma boa estimativa de Qi.

Com base na discussão anterior, podemos definir a proficiência em matemática obtida pelo aluno k ao final de seu curso na escola i como:

ki A ki i ki Q M v M    , (1) i ki ki Q Q v   .

Em (1) Q é o efeito escola que queremos identificar e _i v é a diferença entre o efeito da escola i _ki

para o aluno k e a esperança do efeito escola para a escola i. Vamos admitir que



, i



0

A ki ki M Q v E e

 

2 v ki v

Var  . Estamos considerando também que cada coorte de estudantes que entra na escola i a cada ano é constituído de uma amostra aleatória de potenciais estudantes de determinada população, de modo

que

 

i v i n v Var 2 

 , onde n é o número de alunos testados na escola i e _i



  ni k ki i i v n v 1 1 .

O principal problema para se obter uma estimativa de Q refere-se ao fato de _i M_kiA não ser

observado. Antes, no entanto, é preciso reconhecer que mesmo M não é diretamente observado. O que _ki

dispomos é uma estimativa da proficiência de determinado aluno extraída da realização de um exame. Definindo tal estimativa como P , temos: _ki

ki i ki

ki M z

P    , (2)

Em (2), o termo _ki é um distúrbio aleatório individual que é independente da escola que o aluno se encontra, enquanto o termo z é um distúrbio aleatório que afeta todos os estudantes da escola i e pode _i

(10)

motivação dos estudantes no dia do teste. Vamos admitir que E



ki Mki,Qi

 

 E ziMki,Qi



 0,

 

2

  ki 

Var , Var

 

z_i _z2 e Cov



_ki, z_i



Cov



_ki,v_ki



Cov



v_ki,z_i



0. Substituindo (2) em (1) e extraindo a média por escolas obtemos (3).

i A i i i Q M P    , (3) i i i i z v      ,

 

2 2 2 z i v i n Var      .

Em (3) observamos que o primeiro termo da variância do erro se reduz com o aumento do número de alunos testados (ni), mas não o segundo. Kane e Staiger (2001 e 2002) argumentam que rankings de

escolas baseados em P tendem a ser voláteis devido à magnitude da _i Var

 

_i , especialmente entre as pequenas escolas.

A estratégia básica dos VAMs é encontrar uma estimativa de A i

M , substituí-la em (3) e, então, obter-se uma estimativa de Q . Vamos admitir que: _i

ki A

ki a

M   X'kib  . (4)

Em (4), X é um vetor de variáveis explicativas observáveis que pode incluir, caso seja disponível, _ki um medida da proficiência do estudante k no momento que ele ingressa na escola i. Vamos supor que



ki Xki



 0

E ,

 

2



 _ki 

Var e Cov



_ki,_ki



0. Podemos pensar _ki como o resíduo que seria obtido da regressão de A

ki

M sobre X , caso _ki A ki

M fosse observada. Assim, o impacto sobre A ki

M de variáveis não

observadas, mas correlacionadas com X , seriam capturadas pelos parâmetros de (4). Extraindo a média _ki por escolas e substituindo o resultado de (4) em (3) obtemos (5).

i i i i A P   X'ib   (5) a Q A_i  _i  .

Evidentemente, A produz a mesma ordenação de escolas do que _i Q . Tomando _i A como nossa _i

medida de qualidade da escola e considerando bˆ o estimador de b, o procedimento padrão dos VAMs, para se obter uma estimativa da qualidade da escola, é dado por (6).

(11)

 

i i i

i

i P A

Aˆ   X'_ibˆ   X'_i bbˆ   (6)

Em (6), o termo X'i

 

bbˆ _i dá uma medida do viés de seleção, que decorre das escolas receberem públicos diferentes. O primeiro elemento reflete o viés de seleção baseado em características observadas, não eliminado devido ao erro de estimação de b. Já o segundo elemento reflete o viés de seleção baseado em características não observadas. É razoável imaginar que exista uma associação positiva entre qualidade de escolas (A ) e qualidade dos estudantes (_i A

i

M )11. Assim, podemos estabelecer que:

 

bb  cAi Cki X' i ˆ , (7) ki i ki dA  D  . (8)

Em (7) podemos pensar C como a soma do resíduo e da constante que seriam obtidos de uma _ki

regressão de X'_ki

 

bbˆ sobre A , caso _i X'_ki

 

bbˆ e A fossem observados. O mesmo procedimento _i

valendo para D , podemos definir _ki Ci  E



Cki ii



, Di  E



Dkiii



, cki Cki Ci e dki  Dki  Di,

onde E



c_ki A_i

 

Ed_ki A_i



 0, Var

 

c_ki _c2 e Var

 

d_ki _d2. Assim, podemos reescrever (7) e (8) como:

 

bb cAi Ci  cki X'ki ˆ , (7‟) ki i i ki dA  D d  . (8‟)

Extraindo a média por escolas de (7‟) e (8‟) e substituindo os resultados em (6), obtemos (9).

i i i A Aˆ    , (9) d c   1  , i i i i C  D  l  , i i i i c d l    .

Em (9) a estimativa da qualidade da escola i (Aˆ_i) difere da “verdadeira” medida (A ) por um fator _i

de escala () e por um termo de erro ( _i). Como o fator de escala não altera a ordenação de escolas, o problema recai sobre o termo erro. O termo erro, por sua vez, é composto por um componente sistemático

11_{Bons alunos tendem a ter pais com mais recursos e mais preocupados com a educação e que, por esses motivos, estão}

dispostos a despender mais esforços e recursos para obter uma melhor escola para seus filhos. Por outro lado, boas escolas tendem a ter mais demanda do que vagas disponíveis e, assim, podem lançar mão de algum critério de seleção. Tal critério, provavelmente, visaria escolher alunos com maior potencial.

(12)

(C_i  D_i) e por um componente aleatório ( l ): _i E



Aˆ_iii



A_i C_i  D_i. A redução do erro sistemático depende de possuirmos boas variáveis explicativas de M_kiA e da capacidade de produzirmos boas estimativas de b.

Ainda que o erro sistemático possa ser considerado pequeno, de modo que o viés de estimativa não seja importante, ordenar escolas com base em Aˆ_i pode ser problemático. Isso em virtude que a variância de l pode ser expressiva. A variância de _i l é dada por (10). _i

 

i d c v z i n l Var 2 2 2 2 2      _      (10)

Em (10) observamos que o segundo termo da variância de l se reduz com o aumento do número _i

de alunos testados, de modo que a imprecisão de estimativa tende a ser agravado entre as pequenas escolas. Kane e Staiger (2002), analisando os dados da Carolina do Norte, mostram que, tanto para o score médio como para o valor adicionado, virtualmente todas as escolas com os melhores e os piores desempenhos foram pequenas. As pequenas escolas foram também mais prováveis de reportar maiores mudanças no score médio e no valor adicionado de um ano para o próximo. Enquanto o problema de variação amostral impõe volatilidade ao ranking de escolas nas duas medidas, ele é ainda mais grave para o caso do valor adicionado.12 Kane e Staiger (2002) calculam que a parcela da variância, entre as pequenas escolas, explicada por fatores não persistentes é de 27% no caso do score médio e 56% no caso do valor adicionado.

Uma forma de mitigar o problema de variação amostral entre as pequenas escolas seria “ajustar” a estimativa do fator específico, E_i A_i C_i  D_i  z_i, pelo número de alunos testados na escola. O termo E inclui, além da medida de qualidade, o erro sistemático (_i C_i  D_i) e o erro aleatório que é comum a todos os alunos da escola i ( z ). Admita, então, que para determinada escola tenhamos duas _i

estimativas de E , dadas por (11) e (12). _i

i i i E Aˆ   e (11) i i E A    . (12)

12_{Uma medida simples de valor adicionado pode ser obtida de (6). Para isso basta que} ki

X inclua apenas a proficiência dos alunos ao ingressar na escola e se considere bˆ 1.

(13)

A primeira estimativa é obtida por (9), onde _i v_i _i  c_i  d_i. Já a segunda é dada por



 G i i A G ₁ ˆ 1

, onde G é o número de escolas. Dado que E

 

_i  E

 

_i  0 e Cov



_i,_i



0, o melhor preditor de E é dado por (13): _i



c



A A c A~_i  ˆ_i  1 , (13)

 

i

 

i i Var Var Var c      .

Em (13), A~_i é um shrinkage estimator. Assim, quanto maior a variância da estimativa do efeito específico da escola i, em relação à variância do efeito específico entre todas as escolas, menor o peso dado à estimativa do seu fator específico. Essa relação depende do número de alunos testados na escola i, de forma que escolas com muito poucos alunos tendem a ter um peso maior do fator escola médio. Para implementar tal procedimento, necessitamos obter estimativas de Var

 

_i e Var

 

_i .

III. Estimando o Efeito Escola: Efeito Fixo versus Efeito Aleatório

Um aspecto envolvido na discussão sobre a estimação do efeito escola diz respeito à melhor forma de representar tal efeito: como efeito fixo ou como efeito aleatório. Para analisar essa questão seria conveniente reescrever P como: _ki

ki i ki F w P  X'_kib   , (14) i i i i d A D z F (1 )   , ki ki ki ki d v w    .

Em (14), o fator escola específico, F , diverge do fator de qualidade, _i A , por um fator de escala _i



1d



e por um termo erro



D_iz_i



. Em uma regressão com dados em cross section não é possível separar (1d )A_i de



D_iz_i



e o máximo que podemos conseguir é uma estimativa não enviesada de F . _i

A estimativa de b em um modelo de efeito fixo pode ser obtida por uma regressão em OLS de (15).





ki i ki P w P   XkiXi 'b  , (15) i ki ki w w w    .

(14)

Para obtermos o shrinkage estimator, podemos considerar o estimador da Var

 

ki 2 como: H G N w G i n k ki w i    



1 1 2 2 2 ˆ ˆ ˆ      , (16)



  G i i i n N .

Em (16), H é o número de regressores em (15). Definindo

 



 



 

_        i ki i i n E Var Var E Var   1 ,

podemos considerar que a variância da distribuição, entre escolas, do estimador dado por (11) seja

 

Ai Var

 

Ei Var

 

i

Var ˆ    . Então, dado que Var

 

E_i Var

 

_i , obtemos

 

i i n ar V 2 ˆ ˆ _ _  e

 

_





_

      G i i G i i i n G A A G ar V 1 2 1 2 1 1 ˆ ˆ 1 1 ˆ    .

Uma condição importante para que o modelo de efeito fixo funcione é que não haja seleção com base em MkiA. Se os alunos que freqüentam a mesma escola possuam um alto grau de homogeneidade em

A ki

M , o fato de um estudante estar matriculado em uma ou outra escola já seria um forte indicador de seu potencial de aprendizagem. Assim, ordenar as escolas com base no score médio dos estudantes ou com base nos fatores específicos estimados (Fˆ_i's) pode não se mostrar muito diferente. Por exemplo, Mizala, Romaguera e Urquiola (2007) mostram que, para o Chile, adicionar controles da condição socioeconômica em uma regressão que já inclui dummies de escolas altera muito pouco o poder explicativo de uma regressão cuja variável dependente é o score bruto dos estudantes.

Caso os alunos dentro das escolas sejam bastante homogêneos em relação à M_kiA e não haja seleção

por não observados, teríamos como consequência, que X variaria pouco dentro das escolas. Então, uma _ki regressão que utiliza apenas informações intra-escolas teria dificuldade para identificar b. Por outro lado, se os alunos dentro das escolas são heterogêneos em relação à X , mas homogêneos em relação à _ki A

ki

M , seria uma indicação da existência de seleção por não observados. Ou seja, alunos com melhores características observadas (X ) apresentariam características não observadas (_ki u ) mais desfavoráveis. _ki

Isso imporia, dentro das escolas, uma correlação negativa entre X e _ki d . Então, uma regressão que _ki

utiliza apenas informações intra-escolas tenderia a produzir uma estimativa enviesada de b, no sentido de aproximá-la de zero.

(15)

Uma alternativa seria estimar (14) por um modelo de efeito aleatório. O modelo de efeito aleatório possui a vantagem de utilizar, além das informações intra-escolas, as informações entre escolas. Para melhor avaliar esse ponto seria conveniente reescrever a equação (14) como:

ki i ki F f w P   X'_kib   , (14‟) i i F f F   .

Note que, por construção, E

 

f_i  0, onde F é a média dos efeitos específicos F_i' . O s

procedimento, então, é tratar f como um erro aleatório, onde _i E



fi Xki



 0,

 

2 f i f Var  e



w_ki, f_i



0

Cov . Definindo _ki f_i w_ki, para a escola i temos:





                       2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 ... . . ... ... w f f f f f f w f f f f f w f E                ' π π Ω _i _i , (17)

onde Ω é uma matriz de dimensão ni X ni. De posse de uma estimativa para Ω, a forma geral do estimador de efeito aleatório é dada por (18):

                 



i 1 i i 1 i'Ω X X 'Ω P X β  G i G i 1 1 1 ˆ ˆ _. ₍₁₈₎

Então, para implementar (18), precisamos de Ω . Uma estimativa de 2



 pode ser obtida ao estimar (14”) por OLS.

i i

i F X b

P   '  , (14”)

Assim, uma estimativa de 2_f seria dada por



      G i i w G i i f n G H G 1 2 1 2 2 _ˆ _ˆ 1 1 1 1 ˆ    , onde ˆw2 é

obtido por (16). Para obter o shrinkage estimator, podemos considerar que

 

i i n ar V 2 ˆ ˆ _ _ e Vˆar

 

_i ˆ2_f .

(16)

O modelo de efeito aleatório, por também considerar as informações entre escolas, é menos afetado pelo problema de viés de seleção de alunos com base em MkiA. No entanto, a presença de correlação entre

as variáveis f e _i X enviesará os coeficientes estimados (viés de variável omitida). Nesse caso, o viés é _ki no sentido de afastar bˆ de zero. O modelo de efeito aleatório é uma combinação do modelo de efeito

within (efeito fixo) e o modelo de efeito between (equação 14”). O peso dado a cada um desses efeitos

depende do número médio de estudantes dentro das escolas: quanto maiores forem as escolas, mais o modelo de efeito aleatório tenderá se aproximar do modelo de efeito fixo (e.g. Wooldridge, 2002, ch. 10). Então, se o tamanho médio das escolas for suficientemente grande não seria surpreendente encontrarmos estimativas similares entre os modelos de efeito fixo e efeito aleatório.

Outra possibilidade seria considerar o modelo de efeito between, estimando (14”) por OLS. O modelo de efeito between contorna o problema de viés de seleção, mas agrava o problema de viés introduzido pela correlação entre f e _i X . _ki

Em suma, nenhum dos modelos acima está isento de produzir medidas da qualidade da escola que sejam seriamente influenciadas por erros de medidas, sejam eles sistemáticos ou aleatórios. Admitindo que todas as variáveis incluídas em X impactem positivamente em _ki A

ki

M (b  0), então o modelo de efeito fixo tende a produzir bˆ b, caso haja seleção com base em MkiA. Por sua vez, o modelo de efeito between

tende a produzir bˆ b, caso haja uma associação positiva entre X e _ki Q . Sendo esse o caso, deve haver _i

uma combinação das estimativas de b, obtidas pelos modelos de efeito fixo e betwwen, que reduza o viés de estimação. Em tal situação o modelo de efeito aleatório nunca será a pior alternativa, mas nada garante que seja a melhor. Na prática, os modelos de efeito fixo e aleatório podem produzir estimativas do efeito escola muito similares. Por exemplo, o modelo de efeito aleatório aplicado para o sistema educacional das principais capitais brasileiras produziu estimativas praticamente idênticas ao do modelo de efeito fixo, enquanto as estimativas do modelo de efeito between mostraram-se diferentes.

Ainda que tenhamos bˆ  b, o problema de erro de medida pode ainda ser grave. Note que o procedimento de ajustar a estimativa do efeito escola pelo número de alunos testados pode mitigar o problema de variação amostral que afeta principalmente as pequenas escolas, mas ele em nada afeta o distúrbio aleatório que incide sobre todos os estudantes de uma determinada escola, o qual pode ser significativo. Por outro lado, nada foi feito para lidar com o problema de viés de seleção baseado em características não observadas.

Por fim, os modelos aqui analisados consideram a qualidade da escola como multidimensional: qualidade do ensino em matemática, leitura, ciências, história etc. Para os programas de school

accountability, no entanto, seria importante obtermos uma medida única da qualidade das escolas. Nesse

caso, o procedimento padrão é adotar uma média desses indicadores. O problema é que a literatura de VAMs não nos dá qualquer indicativo sobre o melhor sistema de pesos a ser utilizado. Na seção seguinte

(17)

apresentamos uma forma de utilizar as medidas de qualidade da escola aqui analisadas (associadas a medidas de insumos e processos da escola) com o objetivo de produzir um indicador de qualidade que procura lidar com esses problemas.

IV. O Modelo MIMIC

O modelo MIMIC (múltiplos indicadores e múltiplas causas) foi originalmente desenvolvido por Jöreskog e Goldberg (1975), onde múltiplos indicadores e múltiplas causas de uma única variável latente são observados. No nosso contexto a variável latente seria a qualidade unidimensional da escola, Q. Vamos admitir que:

ji i j j ji Q Q     , (19)



jiQi



 0 E  .

Em (19), i é um indexador de escolas e j é um indexador da dimensão da qualidade: qualidade do ensino em matemática, leitura, ciências, história etc. Então, a qualidade do ensino em matemática diverge da qualidade geral da escola por um fator de escala ( _j) e por um termo erro (_j  _ji). Como vimos acima, Q_ji não é diretamente observado e o que podemos obter é uma medida de qualidade que diverge de

ji

Q por um fator de escala e por um termo erro. Assim, podemos considerar que nossa medida imperfeita

da qualidade do ensino de matemática diverge da qualidade geral, Q , também por um fator de escala e por _i

um termo erro.

A especificação do modelo é como segue. A variável latente q é linearmente determinada, sujeita ao distúrbio aleatório e, por um conjunto de causas exógenas observáveis x,

i ki k i i x x e q ₁ ₁ ....  . (20)

Por outro lado, a variável latente determina linearmente, sujeita ao distúrbio aleatório u, um conjunto de indicadores endógenos observáveis,

ji i j

ji q u

(18)

Em (20) e (21), a letra minúscula das variáveis significa que elas estão expressas como desvio da média, de forma que nenhuma constante se faz necessária. O índice j refere-se ao indicador e i refere-se à escola.13 Substituindo (20) em (21) obtemos a forma reduzida do modelo:

ji ki k j i j ji x x v y  1 1 ....   



j 1,2,....,m



, (22) onde v_ji _je_i u_ji.

Seja x e α vetores de dimensão k X 1, enquanto y, β e u vetores de dimensão m X 1. Então, podemos reescrever (22) como:

v x Π' y  , (22‟) αβ' Π  , u β v  e_i  .

As hipóteses do modelo são dadas por (23).

 

e_iu 0 E , (23)

 

2 2 i e E e

 

uu' Θ E ,

onde Θdiag



₁,...,_m



, com θ‟s sendo as variâncias dos u‟s. Ou seja, os distúrbios são assumidos para não se relacionarem entre si. Assim, a matriz de covariância da forma reduzida dos erros é dada por,

 

vv' ββ' Θ

Ω 2 

E . (24)

Em geral, a estrutura do modelo MIMIC implicará em restrições nos parâmetros da forma reduzida de Π e Ω. Primeiro, a matriz de coeficientes Π tem rank um, de modo que seus k X m elementos são expressos em termos dos k + m elementos de α e β. Segundo, a matriz de covariância Ω é a soma de uma matriz de rank um e uma matriz diagonal, de modo que seus m X (m + 1)/2 distintos elementos são expressos em termos dos 1 + 2m elementos de σ2, β e θ. Por fim, é possível observar em (22) que os

13_{Os indicadores seriam a medida de qualidade do ensino em matemática obtida por um modelo de efeito fixo, a medida de}

qualidade do ensino em matemática obtida por um modelo de efeito between, a medida de qualidade do ensino em leitura obtida por um modelo de efeito fixo etc.

(19)

parâmetros da forma reduzida permanecem inalterados quando β é multiplicado por um escalar e α e σ são divididos por esse mesmo escalar. Tal indeterminação exige um procedimento de normalização. Dentre as várias possibilidades, uma bastante utilizada, a qual será adotada no presente artigo, é fixar ₁ 1. A estimação do modelo MIMIC é, tipicamente, por máxima-verossimilhança, com a hipótese adicional de que os termos erros (ei e u) possuem uma distribuição conjunta normal. Para tal estimação o pesquisador

pode lançar mão de softwares especialistas tal como o LISREL.

As hipóteses do modelo MIMIC trazem duas importantes implicações para a estrutura de correlação entre as variáveis observáveis: i) condicional na variável latente q, as variáveis indicadoras são independentes das variáveis causas e ii) condicional na variável latente q, as variáveis indicadoras são mutuamente independentes. A primeira condição impõe que toda influência das variáveis causas sobre as variáveis indicadoras se dá através da qualidade da escola. Em linguagem de variáveis instrumentais, as variáveis x₁,x₂,..., x_k são instrumentos de q. Como observado por Jöreskog e Goldberg (1975), as variáveis y₁, y₂,..., y_m seriam medidas alternativas de mesma coisa: a quantidade não observada q. Esses diferentes indicadores da qualidade da escola divergiriam apenas em virtude de um fator de escala e por erros de medida. A segunda condição, por sua vez, impõe que esses erros de medida sejam não correlacionados.

Neste artigo aceitamos a primeira das condições acima, mas mudamos a estrutura básica do MIMIC de forma a considerar que a matriz Θ seja irrestrita. No nosso caso, a hipótese que os erros de medida das variáveis indicadoras sejam não correlacionados é provável não se verificar. Note que se as variáveis indicadoras são obtidas a partir de diferentes testes (matemática, leitura, ciência etc) realizados num curto período de tempo (freqüentemente no mesmo dia), então, qualquer fator externo que, para um determinado aluno ou para o conjunto de alunos de determinada escola, afete a medida de desempenho em um teste é provável, também, afetar o resultado dos demais. Por outro lado, os erros de medida das variáveis indicadoras obtidas pelo mesmo exame (ex. matemática), mas por modelos diferentes (efeito fixo ou aleatório) são, necessariamente, correlacionados.

Seguindo Breusch (2005), podemos reescrever (22) na estrutura padrão de um modelo de equações simultâneas. Para isso basta subtrair jy1i de cada variável indicadora yji



j 1



. Então, fixando 1 1, o modelo pode ser reescrito como:

i ki k i i x x g y₁ ₁ ₁ ....  ₁, (25) ji i j ji y g y  ₁ 



j  2,3,....,m



, onde g₁_i e_i u₁_i e g_ji  u_ji  _ju₁_i



j 1



.

(20)

Para estimarmos (25) podemos utilizar um procedimento de GLS interado, o seemingly unrelated

regression (SUR). Esse procedimento está disponível em muitos pacotes econométricos, tal como o

comando “sureg” no Stata. É importante ressaltar que ao estimarmos (25) por SUR, nenhuma restrição é imposta à matriz de variância e covariância dos erros (g‟s). Assim, as hipóteses que E

 

e_iu 0 e



_m



diag₁,..., 

Θ não seriam necessárias.14 Tal procedimento produz uma estimativa para todos os

α’s e β’s, bem como para a matriz de variância e covariância dos erros. De posse dessas estimativas, o

próximo passo é obter uma estimativa para a variável latente q . Uma possibilidade freqüentemente _i

utilizada é considerar o valor predito da primeira variável indicadora,

  

qi xi E yi xi



xi kxki

E  1 1 1 .... . (26)

Nesse caso, teríamos um indicador orientado por variáveis de insumos e processos. A questão aqui é justificar porque tal indicador seria preferível a utilizar diretamente yji



j 1,2,...m



. No presente artigo

propomos utilizar um indicador de qualidade da escola que seja uma média dos y_ji



j 1,2,...m



e dos



j k



x_ji 1,2,..., .

Definindo y__m_₁__i ₁x₁_i ...._kx_ki, u__m_₁__i e_i e _m_₁ 1, podemos reescrever (20) como:

m i m qi um i

y _₁   _₁  _₁ . (20‟)

Para obtermos uma estimativa de q , inserimos (20‟) em (21) e, seguindo Jöreskog (2000), _i

consideramos que os valores dos β’s e α’s são conhecidos. Na prática eles serão iguais aos ˆ's e ˆ's

obtidos da estimativa de (25). Assim, podemos obter, para cada uma das escolas, a estimativa de sua qualidade, q , conforme (27). _i





i 1 1 1 y Σ β' β Σ β'     i qˆ , (27)





          2  0 0 Θ Σ ' u u E .

14_{Entretanto, como veremos adiante, nós ainda admitiremos que}

 

_u ₀ i

e

(21)

A equação (27) supõe E

 

e_iu 0, mas não impõe qualquer restrição em Θ.15 Ela implica estimar, para cada escola i, uma regressão em GLS de y_ji em _j



j 1,2,...,m,m1



, sendo q o parâmetro a _i

ser obtido. O vetor *

u adiciona u_m1_i ao vetor u . Seja jk



j,k 1, 2,....,m, m1



os elementos de Σ

e _jk os elementos de Σ , então 1 qˆ é dado por (28). _i



     ₁ 1 1 1 ˆ _m j j j m j j ji i y q    , (28) m j m mj m j j j  11  22 ...     1 1  .

Dado que y__m_1__i 1x1_i ...._kx_ki, então podemos reescrever (28) como,



     k j ji j m m j ji j i y x q 1 1 1 ˆ    , (29)



   ₁ 1 m j j j j j     .

Note que a qualidade da escola foi arbitrariamente fixada para ter a mesma dimensão de y , de ₁

modo que, sem qualquer prejuízo, podemos dividir q por uma constante c. Assim, temos: _i



      k j ji j m m j ji j i i y x c q q 1 1 1 * ˆ    , (30) 1 1    



m _m j j c   , 1 1 1 



  m j j 

A medida de qualidade da escola seria uma média ponderada das variáveis indicadoras e das variáveis causas. Em outras palavras, nossa medida seria um mix de variáveis baseadas na performance dos estudantes e de variáveis de insumos e processos. A equação (30) pode ser reescrita de forma que as

15

Veremos adiante que, para identificarmos Σ, necessitamos fazer alguma restrição em Θ. Entretanto, não será necessário supor que Θ diag



₁,...,_m



.

(22)

variáveis não sejam expressas como desvios da média e, caso os 's pudessem ser considerados estáveis ao longo do tempo, teríamos,



     k j jit jt m m j jit j it Y X Q 1 1 1 *    . (31)

Deste modo, poderíamos obter as estimativas dos 's em um determinado ano (t = 0) e verificarmos, além do ranking de qualidade nesse mesmo ano, a variação temporal da qualidade do sistema. O procedimento de considerar a qualidade da escola como uma média ponderada, com pesos fixos, entre variáveis de resultados, insumos e processos já é utilizado por alguns sistemas de ensino. A diferença aqui é que a determinação dos pesos não é ad hoc. Para implementarmos tal procedimento necessitamos, entretanto, de uma estimativa de Σ.

De (25) temos,

 

g_i Var

 

e_i Var

 

u_i

Var ₁   ₁ (32)

 

gji Var

 

uji jCov



uji ui



jVar

 

ui

Var 1 2 1 , 2   



j 1





gi gji



Cov



ui uji



jVar

 

ui Cov ₁,  ₁,   ₁



j 1





gji gki



kCov



gi gji



jCov



g i gki



Cov



uji uki



j kVar

 

ui

Cov ,   1,   1,  ,    1



j,k 1



Note que em (32) existe uma incógnita a mais do que o número de equações. Assim, é necessário uma restrição para podermos identificar Σ. Para isso bastaria supor que uma covariância é igual a zero ou que duas covariâncias sejam iguais. Evidentemente, diferentes restrições podem implicar em resultados bastante diferentes nos pesos atribuídos em (31). O problema é que não existe uma regra geral para impormos tal restrição e a melhor solução pode depender de caso a caso. Na seção seguinte nós apresentamos uma estratégia de identificação de Σ, a qual será utilizada na aplicação realizada na seção VII.

V. Uma Estratégia para Identificar Σ

Vamos definir Yji (j1,2,3e 4) como nosso indicador j para a qualidade da escola i. Esses indicadores seriam: i) qualidade da escola i no ensino de matemática estimada como um efeito fixo (j = 1); ii) qualidade da escola i no ensino de matemática estimada como um efeito between (j = 2); iii) qualidade da escola i no ensino de leitura estimada como um efeito fixo (j = 3); e iv) qualidade da escola i no ensino