Em Busca de uma Medida da Qualidade da Escola

(1)

Em Busca de uma Medida da Qualidade da Escola

I. Introdução

A prática de avaliar escolas através do desempenho de seus estudantes em exames padronizados tem se tornado cada vez mais frequente em todo o mundo. Também tem sido usual atrelar recompensas, sanções e assistência a tais resultados. Dado a importância de transmitir aos professores e pais o motivo das escolas serem recompensadas ou penalizadas, indicadores simples de desempenho seriam desejáveis. Talvez por esse motivo, a pontuação média dos estudantes da escola é ainda uma das medidas de desempenho mais utilizadas pelos programas de school accountability.1 No entanto, medidas simples podem ter propriedades indesejadas.

De modo geral, os programas de school accountability são desenhados com o objetivo de fornecer incentivos para que as escolas atuem para elevar o desempenho de seus alunos nos aspectos considerados pelos programas. Portanto, a estrutura de incentivos subjacente aos programas de school accountability depende das medidas de desempenho adotadas. Nesse ponto, duas preocupações têm sido ressaltadas. A primeira diz respeito à seleção dos aspectos que deveriam ser considerados pelas medidas de desempenho e a segunda refere-se à acurácia dessas medidas em relação aos aspectos que elas se propõem a medir.

Em relação ao que medir, a preocupação decorre do fato que as escolas, ao concentrar esforços nos aspectos cobrados pelos programas, podem ser levadas a negligenciar outros aspectos igualmente importantes. Por exemplo, alguns críticos dos programas de school accountability têm argumentado que as medidas geralmente incluídas em tais programas consideram apenas uma pequena parcela dos conhecimentos, habilidades e valores que seriam desejáveis que os estudantes adquirissem nas escolas. Assim, as escolas seriam induzidas a realizar um indesejado “estreitamento do currículo”.2 Por outro lado, a inclusão de um amplo conjunto de medidas educacionais pode ser custosa, tanto em termos de recursos financeiros quanto em tempo dos estudantes dedicado à realização de testes. Além disso, ela pode levar as escolas a desviar o foco das atividades mais diretamente relacionadas à aquisição das habilidades e dos conhecimentos mais fundamentais. Isso mostra que a questão sobre quais aspectos educacionais os programas de school accountability deveriam considerar em seu desenho é extremamente importante, mas ela está além dos objetivos deste artigo.

O interesse do presente artigo recai sobre a questão da acurácia das medidas adotadas pelos programas de school accountability. O objetivo é propor um indicador de qualidade da escola que seja

1_{Para um survey recente sobre a literatura de school accountability, ver Figlio e Loeb (2011).} 2

(2)

menos influenciado por erros de medida (sistemáticos ou aleatórios) e no qual o conceito de qualidade reflita a capacidade da escola em propiciar aos seus estudantes um melhor aprendizado em algumas disciplinas chaves. Um indicador de accountability baseado no aprendizado dos estudantes que minimize a influência de aspectos não diretamente relacionados ao trabalho da escola traria mais credibilidade ao programa, reforçaria o sistema de incentivos na direção almejada e reduziria as resistências frequentemente apresentadas por professores e diretores de escolas.3 A unidade de accountability considerada é a escola, antes que professores individuais.4

Tem sido amplamente reconhecido que as medidas utilizadas pelos programas de school accountability estão sujeitas a uma série de imperfeições. Por exemplo, se um teste de matemática é proposto para avaliar a capacidade das escolas em proporcionar aos seus estudantes um bom aprendizado na disciplina, ele é imperfeito porque seus resultados incorporam, além do esforço da escola, influências advindas da família, dos amigos e das habilidades inatas dos estudantes, bem como do erro aleatório de medida. Kane e Staiger (2001 e 2002) mostram que os resultados de exames padronizados são medidas sujeitas a muito ruído, particularmente entre as pequenas escolas. Tem sido destacado também que medidas que visam reduzir a influência do status socioeconômico dos estudantes – como, por exemplo, a variação da pontuação média dos estudantes entre anos ou séries consecutivas – tendem a aumentar a influência do erro aleatório e, assim, tendem a gerar rankings bem mais voláteis. Com base nisso, Mizala, Romaguera e Urquiola (2007) sugerem que policy makers são postos frente ao seguinte trade-off: a) escolher uma medida que reflete mais as características socioeconômicas dos estudantes ou b) optar por uma medida que ordena as escolas de forma a imitar uma loteria.

Premiar ou penalizar escolas com base no perfil dos alunos que elas recebem ou com base em uma loteria traria conseqüências indesejáveis à estrutura de incentivos implícita nos programas de school accountability. Por exemplo, escolas que são mal avaliadas por receberem alunos pobres poderiam se sentir desestimuladas a melhorar a qualidade de ensino, uma vez que o ranking de escolas reflete pouco do esforço realizado. Por outro lado, programas que têm como foco as melhores e as piores escolas, para promover prêmios e punições, trazem pouco incentivo para as grandes escolas. A probabilidade da escola aparecer no topo ou no fim do ranking é muito maior para as pequenas [Kane e Staiger (2002)]. Alem disso, avaliar o staff da escola por aspectos que estão fora de seu controle reduz o suporte político dos programas de school accountability.

3

A principal alegação de professores e diretores acerca dos motivos de sua oposição aos programas de school accountability diz respeito à injustiça. Eles argumentam que as medidas consideradas nos programas são demasiadamente influenciadas por aspectos que estão fora do seu controle.

4_{É possível argumentar que as mudanças mais importantes para a melhoria do aprendizado dos estudantes localizam-se no} nível da escola, ao invés de professores individuais, o que justificaria a escolha da escola como unidade primaria de accountability (Ladd, 2001). Para nossos propósitos, no entanto, é importante destacar que os problemas de erros de medidas (sistemáticos ou aleatórios) são dramaticamente agravados quando se busca identificar a contribuição de professores individuais para o aprendizados dos estudantes.

(3)

Tentar identificar nos resultados obtidos pelos estudantes nos exames padronizados a parcela que advém do trabalho da escola (ou do professor) tem sido a base para os Modelos de Valor Adicionado (Value-Added Models – VAMs). No entanto, a validade das medidas produzidas por tais modelos não é isenta de controvérsias. A literatura de VAMs apresenta uma diversidade de modelos que, de modo geral, necessitam admitir questionáveis hipóteses não testáveis. Alguns desses modelos exigem uma quantidade de dados (e.g. testar todos os alunos, todos os anos e nas mesmas disciplinas) que não são disponíveis na maioria dos sistemas de avaliação existentes.5

A influência da escola no desempenho de seus alunos nos testes padronizados não é uma variável diretamente observável e toda medida utilizada está sujeita a erros, sejam eles sistemáticos ou aleatórios. Deste modo, seria mais apropriado considerar que qualquer medida de qualidade da escola, entendida como a contribuição da escola para que seus alunos adquiram as habilidades e conhecimentos exigidos pelos testes, divirja da “verdadeira” qualidade por um fator de escala mais um termo erro. O objetivo, então, seria obter uma medida de qualidade onde a variância do erro, medida como proporção da variância da qualidade, seja a menor possível.6

Uma forma de lidar com esse problema seria obter mais de uma medida da qualidade da escola e, então, extrair a média delas. O sistema de pesos dessa média deve ser apropriadamente calculado de forma a minimizar a variância do erro. Por exemplo, para estimar o desempenho da escola em determinado ano, série e disciplina, Kane e Staiger (2001) propõem um método que leva em consideração informações de outros anos, séries e disciplinas. O objetivo é minimizar o impacto de flutuações transitórias nas medidas de desempenho utilizadas (pontuação média e média dos ganhos na pontuação entre duas séries consecutivas).

No presente artigo, sugerimos utilizar mais de uma medida de qualidade da escola (ou Valor Adicionado), obtidas de diferentes anos, séries, disciplinas e modelos de Valor Adicionado. Além das medidas de Valor Adicionado, propomos utilizar informações extraídas de variáveis de insumos e processos. Para tanto, sugerimos a implementação de um modelo MIMIC (múltiplos indicadores e múltiplas causas), o qual trata a qualidade da escola como uma variável latente e estimada a partir da correlação entre as variáveis “causas” e as variáveis “indicadoras” de qualidade. As diversas medidas de Valor Adicionado são consideradas variáveis “indicadoras” de qualidade e as variáveis de insumos e processos consideradas como causas dessa qualidade. Em termos práticos, nossa proposta não diverge do procedimento utilizado por vários programas de school accountability, ao utilizar um indicador que é uma

5_{Para uma revisão e discussão dos VAMs ver, por exemplo, McCaffrey at. al. (2003) e o simpósio do Journal of Education and} Behavioral Statistics vol. 29, no. 1, 2004.

6

(4)

média de diversas medidas de resultados, insumos e processos. A diferença é que o sistema de pesos não é arbitrário.7

Uma das principais preocupações no uso do modelo MIMIC na estimação de uma variável latente diz respeito à hipótese de que as variáveis “causas” afetam as variáveis “indicadoras” exclusivamente através da variável a ser estimada. Por exemplo, o modelo MIMIC tem sido largamente utilizado para obter uma medida da Economia Subterrânea, mas a validade de tal procedimento tem sido contestada por diversos comentadores.8 Esses críticos alegam que não há como sustentar que a relação entre as variáveis “causas” e as variáveis “indicadoras” usualmente utilizadas se dê exclusivamente através do que vem a ser chamado de Economia Subterrânea. Assim, as medidas obtidas por esses modelos careceriam de significado.

Nosso argumento é que a hipótese acima é bem menos restritiva no caso em questão. Ou seja, nos parece bem mais defensável considerar que as variáveis de insumos e processos educacionais afetam as medidas de Valor Adicionado exclusivamente via uma variável latente denominada qualidade da escola. Entretanto, para nossos propósitos, uma restrição importante do modelo MIMIC padrão refere-se à hipótese que, dado a variável latente, as variáveis indicadoras são mutuamente independentes. Se, por exemplo, Y1 e Y2 são medidas da qualidade da escola extraídas dos resultados dos exames de leitura e matemática, então, não seria razoável admitir que a covariância dos erros entre as duas medidas seja zero, especialmente se os exames foram realizados no mesmo dia. Assim, abandonamos a hipótese de que as covariâncias entre os erros das variáveis indicadoras, tomadas como medida de qualidade da escola, sejam iguais a zero.

Por fim, uma objeção ao procedimento adotado no artigo pode surgir em virtude da inclusão de variáveis de insumos e processos educacionais. Alguns analistas têm considerado que medidas baseadas nos resultados dos estudantes são preferíveis a medidas baseadas em insumos ou processos educacionais. Isto em vista da fraca correlação, freqüentemente encontrada, entre as variáveis de insumos e processos com o desempenho dos estudantes. Deste modo, os incentivos de uma medida híbrida de qualidade da escola - incluindo variáveis de resultados, insumos e processos - seriam confusos. Como ressaltam Hanushek e Raymond (2003) “a school could be rewarded for improving its procedures even if it does not result in additional student achievement". Este tipo de argumentação, no entanto, minimiza as dificuldades de se obter uma medida da qualidade da escola a partir dos resultados de exames padronizados. A

7_{Vale destacar que, no nosso caso, a variável qualidade da escola é considerada unidimensional. Isso difere de grande parte dos} modelos na literatura de VAM, onde a qualidade da escola é considerada multidimensional: a qualidade da escola em propiciar o aprendizado em matemática, em leitura etc.

8_{Para o uso do modelo MIMIC na estimação da Economia Subterrânea ver, entre outros, Frey e Weck-Hannemann (1984),} Giles (1999a e 1999b), Dell’Anno e Schneider (2003) e Bajada e Schneider (2005). Para uma avaliação crítica dessa abordagem ver, entre outros, Helberger e Knepel (1988), Smith (2002), Hill (2002) e Breusch (2005).

(5)

princípio, se variáveis de insumos e processos possuem alguma informação sobre a qualidade da escola não há porque desprezá-la.

O restante do artigo é organizado da seguinte forma. A seção II discute as dificuldades de se extrair o sinal de qualidade da escola a partir dos resultados de exames padronizados. Na seção III, tais dificuldades são analisadas sob a luz de duas estratégias de identificar o efeito escola: modelos de efeito fixo vs modelos de efeito aleatório. A seção IV apresenta o modelo MIMIC proposto para se obter um indicador da qualidade da escola. Uma estratégia de identificação desse modelo é apresentada na seção V. Na seção VI realizamos uma aplicação dessa abordagem para o Brasil. E, por fim, a seção VII conclui o artigo.

II. O Problema de Extrair o Sinal da Qualidade da Escola a partir dos Resultados de Exames

Padronizados

Rubin, Stuart e Zanutto (2004) argumentam que um problema básico na literatura de VAMs é a falta de definição clara da quantidade que esses modelos buscam estimar. Se o interesse é estimar um efeito causal (contribuição da escola para o desempenho de seus alunos) e efeitos causais são inerentemente comparações de produtos potenciais (pontuação dos estudantes nos testes em diferentes cenários), eles alegam que os VAMs falham em identificar o experimento que eles procuram se aproximar. Quais são as unidades de tratamento? Escolas ou estudantes em particular? Qual é o tratamento? Estar na escola j ao invés da escola j’ ou as práticas de ensino adotadas pela escola j? Diferentes experimentos podem gerar resultados diferentes.

Raudenbush e Willms (1995) definem dois tipos de efeitos causais que poderiam ser objeto de estimação dos VAMs. O primeiro (efeito tipo A) seria de interesse dos pais, na escolha da escola de seus filhos. O segundo (efeito tipo B) seria de interesse dos gestores do sistema educacional, para responsabilizar o staff das escolas pelo desempenho de seus alunos. Eles definem o produto potencial do aluno i na escola j (Yij) como uma função das características do aluno (Si), um erro aleatório (eij) e dois

aspectos da escola: contexto da escola (Cj) e práticas de ensino (Pj). Professores e diretores possuem pouco

controle sobre Cj, o qual inclui ambiente e composição social da escola. Em contraste, professores e

diretores possuem substancial influência sobre Pj.

Para pais seria irrelevante distinguir a contribuição de Cj e Pj no aprendizado de seus filhos e, na

escolha entre a escola j e a escola j’, o pai do estudante i deveria observar

(

i, j, j, ij

)

ij'

(

i, j', j', ij'

)

ij

i Y S C P e Y S C P e

Q = − , onde Qi é a qualidade da escola j, em comparação com a

(6)

(

)

(

)

[

Y S C P e Y S C P e j j

]

E

Q_j = _ij _i, _j, _j, _ij − _ij* _i, _j, _j*, _ij* = , onde Qj é a qualidade da escola j ao adotar as práticas

de ensino Pj, em comparação a qualidade que ela teria se adotasse as práticas de ensino

*

j

P . No primeiro caso as unidades de tratamento seriam os estudantes da escola j, o tratamento seria estar na escola j e o tratamento alternativo seria estar na escola j’. Já no segundo caso as unidades de tratamento seriam as escolas, o tratamento seria as práticas de ensino P e o tratamento alternativo seria as praticas de ensino P . * Raudenbush e Willms (1995) argumentam que, com base nos dados usualmente disponíveis, seria possível obter uma estimativa com pequeno viés para o efeito tipo A, mas não para o efeito tipo B. Isso porque as práticas de ensino (P) não são definidas e, muito menos, observadas. Assim, os VAMs teriam potencial em gerar quantidades estimadas de interesse para pais de alunos e que, combinadas com outras informações, seriam úteis para estimular discussões sobre como melhorar as práticas de ensino das escolas. Mas eles não gerariam medidas diretas para manter o staff das escolas responsabilizado pelo desempenho de seus alunos.

O que grande parte dos VAMs parece estimar é algo ligeiramente diferente do efeito tipo A de Raudenbush e Willms (1995). Em nossa opinião, no entanto, tais estimativas podem ser muito úteis para programas de school accountability e não apenas para escolha de escolas.

Vamos admitir que os alunos de todas as escolas sejam testados ao final do curso e que todos eles concluam o curso na escola que ingressaram e no tempo “correto”, de modo que fenômenos como evasão, repetência e transferência de escola estejam ausentes. Seja M a proficiência em matemática obtida pelo _ki aluno k ao final de seu curso na escola i e M o produto potencial desse aluno sob o tratamento _kiA alternativo. Então, o efeito do tratamento sobre o aluno k é Q_ki = M_ki − M_kiA e o impacto médio do tratamento sobre os tratados é Q_i= E

[

M_ki − M_kiAi=i

]

, onde Qi seria a medida de qualidade. Por essa

perspectiva, a qualidade da escola seria multidimensional: qualidade do ensino em matemática, leitura, ciências, história etc.9

O que grande parte dos VAMs considera como tratamento alternativo parece ser a alocação aleatória do estudante k em uma das escolas do sistema. Então, M pode ser definido como a proficiência _kiA esperada em matemática para o aluno k da escola i caso ele tivesse sido aleatoriamente alocado em uma das escolas do sistema. Deste modo, a qualidade da escola, no ensino de matemática, é definida como o impacto da escola no aprendizado dos alunos que ela serve. Se Q_i> 0 significa que os alunos da escola i estão, em média, melhores do que estariam numa escola com características médias. Note que se as escolas

9_{Assim, se estamos interessado em uma única medida de qualidade da escola teríamos que gerar um índice que agregue essas} diferentes qualidades. Isso será feito na seção IV.

(7)

forem altamente especializadas para o público que recebe é possível observarmos Q_i >0 para todas as escolas.

Neste ponto, caberia esclarecer o significado de se ordenar escolas com base em tal indicador de qualidade. Suponha que a proficiência média dos alunos da escola i seja Mi=80 e o produto potencial médio sob o tratamento alternativo seja MiA= 70. Já para escola j, esses valores seriam Mj =95 e

90

=

A j

M . Assim, teríamos Q_i=10 e Q_j=5, de modo que a escola i seria considerada de melhor qualidade. Portanto, a questão substantiva a ser respondida seria: como poderíamos justificar tal ordenação?

Evidentemente, classificar as escolas com base em alguma medida de qualidade envolve um juízo de valor, de modo que não existe uma forma inquestionável de fazer isso. Vamos, inicialmente, considerar que a escala de medida do teste seja uma escala de intervalos, de forma que um ganho de mesmo tamanho em qualquer ponto da escala representa o mesmo incremento do atributo que está sendo medido. E mais, vamos considerar que o atributo sujeito à medida seja substantivo, algo que valha desejar que o “estoque” na população de estudantes seja maximizado (“estoque” de conhecimentos e habilidades). Então, nesse cenário, a justificativa de se considerar a escola i como de melhor qualidade é que ela, em comparação a uma escola média, contribui mais para a aquisição de conhecimentos e habilidades de seus alunos do que faz a escola j. Em outras palavras, a escola i faz mais diferença para seus alunos do que a escola j faz para os dela.

Pode-se criticar o critério de contribuição para o aprendizado dos alunos por, por exemplo, argumentar que menos ênfase deveria ser dada a resultados puramente acadêmicos e que deveríamos buscar critérios mais diretamente ligados ao bem estar dos estudantes, como o desempenho futuro no mercado de trabalho [Card e Krueger (1992 e 1996)].10 Pode-se argumentar, ainda, que a escola deveria ser avaliada por sua qualidade “intrínseca”, independentemente da contribuição ao aprendizado de seus alunos. No exemplo acima, poderia ser mais difícil elevar a proficiência de um estudante de 90 para 95 do que de 70 para 80. Isso se os alunos com maiores proficiências tenderem a ser mais independentes das práticas de ensino do que os alunos com baixas proficiências.11 Por fim, a própria prática, implícita nos VAMs, de considerar que a métrica dos testes possua propriedade de intervalos tem sido questionada. 12

10_{Caso a relação entre pontuação no teste e salário no mercado de trabalho seja não linear, a ordenação de escolas com base no} valor adicionado tenderia a mudar a depender da medida utilizada: pontuação no teste ou salário. Um inconveniente de medidas como essa é que ordenação de escolas fica dependente das condições sociais que são muito distantes do universo escolar, como as condições de oferta e demanda por habilidades dos trabalhadores no mercado de trabalho.

11_{Admita que a escola j possua as melhores práticas de ensino entre todas as escolas do sistema, enquanto a escola i possui} práticas de ensino apenas ligeiramente melhores do que as da escola média. Apesar disso, a escola i seria considerada de melhor qualidade. Isso porque uma pequena melhora nas práticas de ensino produziria um incremento significativo para os alunos da escola i, que possuem baixa proficiência. Deste modo, alguém poderia considerar injusto que a escola j, que possui as melhores

(8)

Em relação a esse último ponto, a questão é que conhecimentos e habilidades cognitivas não são variáveis observáveis e têm que ser inferidas a partir de comportamentos observados, como o padrão de respostas de um teste. Se admitirmos que seja função da escola proporcionar aos seus estudantes um conjunto de conhecimentos e habilidades que lhes possibilitem ter uma vida mais edificante, então o sucesso educacional de um estudante ou grupo de estudantes deveria ser avaliado pela aquisição de tais conhecimentos e habilidades. O modo tradicional de fazer isso é submeter os estudantes a testes que, em principio, exigiriam tais conhecimentos e habilidades. Infere-se que quanto melhor o desempenho no teste, maior tende ser o domínio do aluno desses conhecimentos e habilidades. Entretanto, não há qualquer meio de determinar se a métrica adotada pelo teste possui ou não propriedades de intervalo em relação a esses conhecimentos e habilidades. Na verdade, teríamos dificuldades até mesmo em explicitar quais são esses conhecimentos e habilidades.

Os VAMs têm por objetivo avaliar o impacto da escola (ou professor) no desempenho de seus alunos nos testes, considerando a métrica adotada pelos mesmos. Assim, os resultados obtidos dependem tanto do teste em si como da forma de escalá-lo. É esse último aspecto que, para nossos propósitos, requer maior consideração.

Diferentes testes podem exigir diferentes combinações de conhecimentos e habilidades, de modo que a contribuição da escola para o aprendizado de seus alunos pode variar de teste para teste. Uma determinada escola pode, em comparação com outra, contribuir mais para o aprendizado de seus alunos em matemática e menos em leitura. Da mesma forma, dois testes de matemática podem, por exemplo, enfatizar diferentes conhecimentos e habilidades. Nessa perspectiva, a qualidade da escola deveria ser vista como multidimensional, refletindo a obtenção de diferentes conhecimentos e habilidades.13 Se os testes utilizados pelos programas de school accountability consideram os conhecimentos e habilidades mais apropriados é uma questão extremamente relevante, mas que, como enfatizado na introdução, está além do objeto do presente artigo.

A medida de valor adicionado, no entanto, pode depender da forma que o teste é escalado. Um teste visa aferir o domínio dos estudantes de determinados conhecimentos e habilidades que, em teoria, são

operacional: a dificuldade ou impossibilidade de se obter uma medida direta da qualidade das práticas de ensino (Raudenbush e Willms, 1995).

12_{Embora alguns psicometristas assumam que uma escala de intervalos baseada nos aspectos substantivos do processo de} ensino-aprendizagem possa ser obtida com base na Teoria da Resposta ao Item (TRI), tal posicionamento tem sido criticado por vários pesquisadores. Para muitos, a escala produzida deveria, no máximo, ser considerada como ordinal. Ver Ballou (2009) e Briggs e Betebenner (2009) para uma discussão recente sobre esse tópico.

13_{Note que se o teste avalia apenas conhecimentos e habilidades básicas ele pode ter dificuldade em diferenciar escolas que} recebem alunos de alta proficiência. Isso porque os alunos apresentariam um bom desempenho, independentemente do trabalho da escola. Então, escolas que recebem alunos de alta proficiência tenderiam a ter um resultado próximo do esperado. Seria necessário um teste que exija conhecimentos e habilidades mais avançados para diferenciar essas escolas. Ou seja, uma escola que recebe alunos de alta proficiência pode apresentar um resultado apenas intermediário em um teste e, ao mesmo tempo, um excelente desempenho em outro.

(9)

necessários para o bom desempenho no mesmo. A idéia é que o domínio desses conhecimentos e habilidades possa ser representado por um único parâmetro ou índice, que podemos denominar proficiência. Abstraindo as questões relacionadas a erros de medida, o ponto a ser considerado diz respeito à sensibilidade da ordenação de escolas, com base no valor adicionado, em relação a diferentes formas de construir uma escala de proficiência para um mesmo teste. Se a ordenação de escolas for sensível a diferentes métodos de escalar os resultados do teste e se não há uma forma clara de sustentar que uma das abordagens é superior as demais, então, alguém pode considerar que a ordenação utilizada depende de uma escolha arbitrária.

Enquanto não há uma resposta definitiva para essa questão, é importante ressaltar que o quadro pode não ser tão preocupante. Primeiro, existem formas de escalar os resultados dos testes que são mais defensáveis que outras. Tem sido aceito que os métodos de escala baseados na Teoria de Resposta ao Item (TRI) são superiores aos métodos clássicos, baseados no número de respostas certas. Isso porque, na TRI, a distribuição da pontuação dos examinados não depende da dificuldade dos particulares itens testados, o que torna a medida de valor adicionado menos dependente da realização específica de um teste. Segundo, não tem sido mostrado que diferentes alternativas de escalar um teste com base na TRI apresentam diferenças significativas na ordenação do valor adicionado das escolas.14 Por fim, as medidas de valor adicionado são compatíveis com o propósito dos programas de school accountability: o de maximizar o desempenho médio dos estudantes nos testes.

Note que, ao adotarmos o desempenho médio como referência, estamos assumindo que a escala do teste apresenta propriedades de intervalo. Uma alternativa seria estabelecer um threshold e, então, considerar que o objetivo do programa seja o de maximizar o número de estudantes acima dele. Assim, poderíamos estimar a proporção esperada de alunos da escola que atenderiam ao objetivo. Nesse caso, nossa medida de valor adicionado seria a diferença entre a proporção observada de alunos acima do threshold e a proporção estimada. Para essa medida de valor adicionado, não seria necessário admitir que a escala do teste possua propriedades de intervalo.15

Na análise acima consideramos que as variáveis de contexto não são importantes para o aprendizado dos alunos, o que é pouco razoável. Como Qi não separa variáveis de contexto de variáveis

relacionadas às práticas de ensino, ela inclui aspectos que estão fora do controle do staff da escola. Além

14

Por exemplo, Briggs e Betebenner (2009) e Ng e Koretz (2012) avaliam essa questão e encontram que o impacto de diferentes métodos de escala sobre a ordenação do valor adicionado das escolas é modesto. Ng e Koretz (2012) encontram resultados mais significativos apenas quando o score bruto está sujeito a um efeito teto mais severo. Evidentemente, tais resultados estão restritos aos métodos particulares investigados e, portanto, não podem ser generalizados. De qualquer modo, é uma indicação de que a ordenação de escolas pode ser robusta a diferentes alternativas para se escalar os resultados do teste com base na TRI. 15_{Mas, evidentemente, pode criar outras dificuldades. Por exemplo, a ordenação de escolas pode depender do trheshold adotado} e não há uma forma clara de defini-lo. Além disso, o critério pode incentivar que as escolas “deixem para traz” os alunos que elas consideram difícil de fazer com que venham a ultrapassar o trheshold estabelecido.

(10)

disso, ela pode trazer problemas de distorção de incentivos ao sinalizar para professores e diretores a procurarem se alocar em escolas com boas variáveis de contexto.16

Enquanto isso vem a ser um problema, não significa que a medida Qi seja de utilidade apenas para

pais de alunos, no momento de escolher a escola de seu filho. Uma escola com um valor muito negativo de Qi pode ser um sinal para o gestor do sistema que seria melhor fechá-la e redistribuir seus alunos entre as

demais escolas. O fato é que o impacto de um programa de school accountability sobre a proficiência média dos alunos do sistema depende de todo o desenho do programa e não apenas da medida de desempenho utilizada. Como são escolhidos os diretores de escolas? Diretores podem contratar e demitir professores? Qual o tratamento dado às escolas de pior desempenho? Nosso argumento é que se uma boa estimativa de Qi for disponível, então ela seria uma melhor medida da qualidade da escola i do que as

usualmente adotadas pelos programas de school accountability como, por exemplo, a pontuação média dos estudantes da escola nos exames padronizados, a variação da pontuação média entre dois períodos de tempo e a variação da pontuação média para uma coorte de estudantes entre diferentes séries. Sendo assim, o problema passa a ser o de encontrar uma boa estimativa de Qi.

Com base na discussão anterior, podemos definir a proficiência em matemática obtida pelo aluno k ao final de seu curso na escola i como:

ki A ki i ki Q M v M = + + , (1) i ki ki Q Q v = − .

Em (1) Q é o efeito escola que queremos identificar e _i v é a diferença entre o efeito da escola i _ki para o aluno k e a esperança do efeito escola para a escola i. Vamos admitir que E

[

v_ki M_kiA,Q_i

]

=0 e

[ ]

2

v ki v

Var =σ . Estamos considerando também que cada coorte de estudantes que entra na escola i a cada ano é constituído de uma amostra aleatória de potenciais estudantes de determinada população, de modo

que

[ ]

i v i n v Var 2

σ

= , onde n é o número de alunos testados na escola i e i

∑

= = ni k ki i i v n v 1 1 .

O principal problema para se obter uma estimativa de Q refere-se ao fato de _i M não ser _kiA observado. Antes, no entanto, é preciso reconhecer que mesmo M não é diretamente observado. O que ki

16

A depender do mecanismo de como professores são alocados às escolas, isso poderia levar que escolas com piores variáveis de contexto acabariam por receber também aqueles professores de pior desempenho que, em virtude disso, não conseguiram se colocar em escolas com maiores valores de Qi. Isso acabaria por reduzir, ainda mais, o aprendizado dos alunos nas escolas com

(11)

dispomos é uma estimativa da proficiência de determinado aluno extraída da realização de um exame. Definindo tal estimativa como P , temos: _ki

ki i ki

ki M z

P = + +

ω

, (2)

Em (2), o termo

ω

_ki é um distúrbio aleatório individual que é independente da escola que o aluno se encontra, enquanto o termo z é um distúrbio aleatório que afeta todos os estudantes da escola i e pode i

refletir um erro de procedimento do aplicador do exame ou algum evento que afetou a concentração ou a motivação dos estudantes no dia do teste. Vamos admitir que E

[

ω

ki Mki,Qi

] [

= E zi Mki,Qi

]

=0,

[ ]

2

ω

σ

ω

ki =

Var , Var

[ ]

zi =

σ

z2 e Cov

[

ω

ki, zi

]

=Cov

[

ω

ki,vki

]

= Cov

[

vki, zi

]

=0.

Substituindo (2) em (1) e extraindo a média por escolas obtemos (3).

i A i i i Q M P = + +

ε

, (3) i i i i z v

ω

ε

= + + ,

[ ]

2 2 2 z i v i n Var

ε

=

σ

+

σ

ω +

σ

.

Em (3) observamos que o primeiro termo da variância do erro se reduz com o aumento do número de alunos testados (ni), mas não o segundo. Kane e Staiger (2001 e 2002) argumentam que rankings de

escolas baseados em P tendem a ser voláteis devido à magnitude da _i Var

[ ]

ε

_i , especialmente entre as pequenas escolas.

A estratégia básica dos VAMs é encontrar uma estimativa de M , substituí-la em (3) e, então, iA

obter uma estimativa de Q . Vamos admitir que: _i

ki A

ki a

M = + X'_kib +

η

. (4)

Em (4), X_ki é um vetor de variáveis explicativas observáveis que pode incluir, caso seja disponível, um medida da proficiência do estudante k no momento que ele ingressa na escola i. Vamos supor que

(12)

[

_ki X_ki

]

= 0

E

η

, Var

[ ]

η

_ki =

σ

_η2 e Cov

[

η

_ki,

ε

_ki

]

=0. Podemos pensar

η

_ki como o resíduo que seria obtido da regressão de M sobre _kiA X_ki, caso M fosse observada. Assim, o impacto sobre _kiA M de variáveis não _kiA observadas, mas correlacionadas com Xki, seriam capturadas pelos parâmetros de (4). Extraindo a média

por escolas e substituindo o resultado de (4) em (3) obtemos (5).

i i i i A P = + X'_ib +

η

+

ε

(5) a Q A_i = _i + .

Evidentemente, A produz a mesma ordenação de escolas do que i Q . Tomando i A como nossa i

medida de qualidade da escola e considerando bˆ o estimador de b , o procedimento padrão dos VAMs, para se obter uma estimativa da qualidade da escola, é dado por (6).

( )

i i

i P A

Aˆ = − X_i'bˆ = + X'_i b−bˆ +

η

+

ε

(6)

Em (6), o termo X'_i

( )

b−bˆ +

η

_i dá uma medida do viés de seleção, que decorre das escolas receberem públicos diferentes. O primeiro elemento reflete o viés de seleção baseado em características observadas, não eliminado devido ao erro de estimação de b . Já o segundo elemento reflete o viés de seleção baseado em características não observadas (não correlacionadas com Xki). É razoável imaginar

exista uma associação positiva entre qualidade de escolas (A ) e qualidade dos estudantes (i A i

M ).17 Assim, podemos estabelecer que:

( )

b−b =cAi +Cki X'_ki ˆ , (7) ki i ki =dA + D

η

. (8) 17

Bons alunos tendem a ter pais com mais recursos e mais preocupados com a educação e que, por esses motivos, estão dispostos a despender mais esforços e recursos para obter uma melhor escola para seus filhos. Por outro lado, boas escolas tendem a ter mais demanda do que vagas disponíveis e, assim, podem lançar mão de algum critério de seleção. Tal critério, provavelmente, visaria escolher alunos com maior potencial.

(13)

Em (7) podemos pensar C como a soma do resíduo e da constante que seriam obtidos de uma _ki

regressão de X'ki

( )

b−bˆ sobre A , caso i X

( )

b b

'

ki −ˆ e A fossem observados. O mesmo procedimento i

valendo para D , podemos definir ki Ci = E

[

Ckii=i

]

, Di = E

[

Dkii=i

]

, cki =Cki − Ci e dki = Dki − Di,

onde E

[

c_ki A_i

] [

=Ed_ki A_i

]

= 0, Var

[ ]

c_ki =

σ

_c2 e Var

[ ]

d_ki =

σ

_d2. Assim, podemos reescrever (7) e (8) como:

( )

b−b = cAi +Ci +cki X'ki ˆ , (7’) ki i i ki = dA + D + d

η

. (8’)

Extraindo a média por escolas de (7’) e (8’) e substituindo os resultados em (6), obtemos (9).

i i i A Aˆ =

κ

+

µ

, (9) d c + + =1 κ , i i i i =C + D + l µ , i i i i c d l = + + ε .

Em (9) a estimativa da qualidade da escola i (Aˆi) difere da “verdadeira” medida (A ) por um fator i

de escala (κ) e por um termo de erro ( µi). Como o fator de escala não altera a ordenação de escolas, o

problema recai sobre o termo erro. O termo erro, por sua vez, é composto por um componente sistemático (C_i + D_i) e por um componente aleatório ( l ): _i E

[ ]

Aˆ_i i=i =κA_i +C_i + D_i. A redução do erro sistemático depende de possuirmos boas variáveis explicativas de M e da capacidade de produzirmos boas _kiA estimativas de b .

Ainda que o erro sistemático possa ser considerado pequeno, de modo que o viés de estimativa não seja importante, ordenar escolas com base em Aˆi pode ser problemático. Isso em virtude que a variância

de l pode ser expressiva. A variância de _i l é dada por (10). _i

[ ]

i d c v z i n l Var 2 2 2 2 2 σ σ σ σ σ ₊ + ω + + = (10)

(14)

Em (10) observamos que o segundo termo da variância de l se reduz com o aumento do número _i de alunos testados, de modo que a imprecisão de estimativa tende a ser agravado entre as pequenas escolas. Kane e Staiger (2002), analisando os dados da Carolina do Norte, mostram que, tanto para o score médio como para o valor adicionado, virtualmente todas as escolas com os melhores e os piores desempenhos foram pequenas. As pequenas escolas foram também mais prováveis de reportar maiores mudanças no score médio e no valor adicionado de um ano para o próximo. Enquanto o problema de variação amostral impõe volatilidade ao ranking de escolas nas duas medidas, ele é ainda mais grave para o caso do valor adicionado.18 Kane e Staiger (2002) calculam que a parcela da variância, entre as pequenas escolas, explicada por fatores não persistentes é de 27% no caso do score médio e 56% no caso do valor adicionado.

Uma forma de mitigar o problema de variação amostral entre as pequenas escolas seria “ajustar” a estimativa do fator específico, E_i =κA_i +C_i + D_i + z_i, pelo número de alunos testados na escola. O termo E inclui, além da medida de qualidade, o erro sistemático (i Ci + Di) e o erro aleatório que é

comum a todos os alunos da escola i ( z ). Admita, então, que para determinada escola tenhamos duas _i estimativas de E , dadas por (11) e (12). _i

i i i E Aˆ = +

τ

e (11) i i E A = + λ . (12)

A primeira estimativa é obtida por (9), onde τ_i =v_i +ω_i +c_i + d_i. Já a segunda é dada por

∑

= G i i A G 1 ˆ 1

, onde G é o número de escolas. Dado que E

[ ] [ ]

τ_i = Eλ_i = 0 e Cov

[

τ_i, λ_i

]

=0, o melhor preditor de E é dado por (13): i

( )

c A A c A~_i = ˆ_i + 1− , (13)

18_{Uma medida simples de valor adicionado pode ser obtida de (6). Para isso basta que}

ki

X inclua apenas a proficiência dos alunos ao ingressar na escola e se considere bˆ =1.

(15)

[ ]

i

[ ]

i i Var Var Var c

τ

λ

+ = .

Em (13), A~_i é um shrinkage estimator. Assim, quanto maior a variância da estimativa do efeito específico da escola i, em relação à variância do efeito específico entre todas as escolas, menor o peso dado à estimativa do seu fator específico. Essa relação depende do número de alunos testados na escola i, de forma que escolas com muito poucos alunos tendem a ter um peso maior do fator escola médio. Para implementar tal procedimento, necessitamos obter estimativas de Var

[ ]

λi e Var

[ ]

τi .

III. Estimando o Efeito Escola: Efeito Fixo versus Efeito Aleatório

A equação (5) poderia ser estimada por uma regressão em cross section, onde seriam necessárias apenas observações sobre o desempenho dos alunos de cada escola para um determinado ano e série. No entanto, é possível que o desempenho dos alunos da escola (professor) seja observado para diferentes anos e/ou séries (turmas). Nesse caso, seria possível estimar o efeito escola (professor) por um modelo que considere todas essas informações conjuntamente.19 Ao invés disso, a abordagem proposta no presente artigo consiste em estimar diversas medidas de valor adicionado e, então, extrair a média delas para compor a medida de qualidade da escola. Assim, o primeiro estágio da metodologia seria o de estimar diversos modelos com dados em cross section para obter essas medidas de qualidade. Por exemplo, poderíamos estar interessado em estimar diversas medidas de Aisgt: a qualidade da escola i, na disciplina s,

na série g e no ano t.

Um aspecto envolvido na discussão sobre a estimação do efeito escola diz respeito à melhor forma de representar tal efeito: como efeito fixo ou como efeito aleatório. Para analisar essa questão seria conveniente reescrever P como: ki

ki i ki F w P = X'_kib + + , (14) i i i i d A D z F =(1+ ) + + , ki ki ki ki d v w = + +ω . 19

(16)

Em (14), o fator escola específico, F , diverge do fator de qualidade, _i A , por um fator de escala _i

(

1+d

)

e por um termo erro

(

Di+zi

)

. Em uma regressão com dados em cross section não é possível

separar (1+d )A_i de

(

D_i+z_i

)

e o máximo que podemos conseguir é uma estimativa não enviesada de F . _i A estimativa de b em um modelo de efeito fixo pode ser obtida por uma regressão em OLS de (15).

(

)

ki

i

ki P w

P − = X_ki−X_i 'b +&&& , (15)

i ki

ki w w

w&& = − & .

Para obtermos o shrinkage estimator, podemos considerar o estimador da Var

[ ]

τki =σ_τ2 como:

H G N w G i n k ki w i − − = =

∑∑

=1 =1 2 2 2 ˆ ˆ ˆ & & & σ στ , (16)

∑

= = G i i i n N .

Em (16), H é o número de regressores em (15). Definindo

[ ]

[

[ ]

]

[ ]

      = = i ki i i n E Var Var E Var

τ

1 ,

podemos considerar que a variância da distribuição entre escolas do estimador dado por (11) seja

[ ]

Ai Var

[ ]

Ei Var

[ ]

i

Var ˆ = +

τ

. Então, dado que Var

[ ]

Ei =Var

[ ]

λi , obtemos

[ ]

i i n ar V 2 ˆ ˆ _τ ₌ στ e

[ ]

∑

(

)

∑

= = − − − = G i i G i i i n G A A G ar V 1 2 1 2 1 1 ˆ ˆ 1 1 ˆ τ σ λ .

Uma condição importante para que o modelo de efeito fixo funcione é que haja heterogeneidade de

A ki

M dentro das escolas. Se os alunos que freqüentam a mesma escola possuam um alto grau de homogeneidade em M , o fato de um estudante estar matriculado em uma ou outra escola já seria um _kiA forte indicador de seu potencial de aprendizagem. Assim, ordenar as escolas com base no score médio dos estudantes ou com base nos fatores específicos estimados (Fˆi's) pode não se mostrar muito diferente. Por

(17)

condição socioeconômica em uma regressão que já inclui dummies de escolas altera muito pouco o poder explicativo de uma regressão cuja variável dependente é o score bruto dos estudantes.

Caso os alunos dentro das escolas sejam bastante homogêneos em relação à M e não haja seleção _kiA por não observados, teríamos, como consequência, que X_ki variaria pouco dentro das escolas. Então, uma regressão que utiliza apenas informações intra-escolas teria dificuldade para identificar b. Por outro lado, se os alunos dentro das escolas são heterogêneos em relação à Xki, mas homogêneos em relação à

A ki M , seria uma indicação da existência de seleção por não observados. Ou seja, alunos com melhores características observadas (X_ki) apresentariam características não observadas (u ) mais desfavoráveis. _ki Isso imporia, dentro das escolas, uma correlação negativa entre X_ki e d . Então, uma regressão que _ki utiliza apenas informações intra-escolas tenderia a produzir uma estimativa enviesada de b , no sentido de aproximá-la de zero.

Uma alternativa seria estimar (14) por um modelo de efeito aleatório. O modelo de efeito aleatório possui a vantagem de utilizar, além das informações intra-escolas, as informações entre escolas. Para melhor avaliar esse ponto seria conveniente reescrever a equação (14) como:

ki i ki F f w P = + X'_kib + + , (14’) i i F f F = + .

Note que, por construção, E

[ ]

fi =0, onde F é a média dos efeitos específicos Fi' . O s

procedimento, então, é tratar f como um erro aleatório, onde _i E

[

f_i X_ki

]

= 0, Var

[ ]

f_i =

σ

2_f e

[

wki, fi

]

=0

Cov . Definindo πki= fi +wki, para a escola i temos:

[

]

                  + + + = = 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 ... . . ... ... w f f f f f f w f f f f f w f E

σ

' π π Ω i i , (17)

onde Ω é uma matriz de dimensão ni X ni. De posse de uma estimativa para Ω , a forma geral do estimador de efeito aleatório é dada por (18):

(18)

                = − = − − =

∑

i 1 i i 1 i'Ω X X 'Ω P X β ) G i G i 1 1 1 ˆ ˆ _. ₍₁₈₎

Então, para implementar (18), precisamos de Ω) . Uma estimativa de

σ

_π2 pode ser obtida ao estimar (14”) por OLS.

i i

i F X b

P = + ' +

π

, (14”)

Assim, uma estimativa de

σ

2_f seria dada por

∑

= = − − − = G i i w G i i f n G H G 1 2 1 2 2 1 1 ˆ ˆ 1 1 ˆ

π

σ

, onde

σ

ˆ_w2 é

obtido por (16). Para obter o shrinkage estimator, podemos considerar que

[ ]

i i n ar V 2 ˆ ˆ

_τ

₌

σ

τ _e

[ ]

2 ˆ ˆ f i ar V

λ

=

σ

. O modelo de efeito aleatório, por também considerar as informações entre escolas, é menos afetado pelo problema de viés de seleção de alunos com base em M . No entanto, a presença de correlação entre _kiA as variáveis f e i Xki enviesará os coeficientes estimados (viés de variável omitida). Nesse caso, o viés é

no sentido de afastar bˆ de zero. O modelo de efeito aleatório é uma combinação do modelo de efeito within (efeito fixo) e o modelo de efeito between (equação 14”). O peso dado a cada um desses efeitos depende do número médio de estudantes dentro das escolas: quanto maiores forem as escolas, mais o modelo de efeito aleatório tenderá se aproximar do modelo de efeito fixo (e.g. Wooldridge, 2002, ch. 10). Então, se o tamanho médio das escolas for suficientemente grande não seria surpreendente encontrarmos estimativas similares entre os modelos de efeito fixo e efeito aleatório.

Outra possibilidade seria considerar o modelo de efeito between, estimando (14”) por OLS. O modelo de efeito between contorna o problema de viés de seleção, mas agrava o problema de viés introduzido pela correlação entre f e _i X_ki.20

Em suma, nenhum dos modelos acima está isento de produzir medidas da qualidade da escola que sejam seriamente influenciadas por erros de medidas, sejam eles sistemáticos ou aleatórios. Admitindo que todas as variáveis incluídas em X_ki impactem positivamente em M (_kiA b > 0), então o modelo de efeito

20_{Para obter o shrinkage estimator, considera-se os mesmos valores de}

[ ]

i

ar

Vˆ τ e Vˆar

[ ]

λ_i utilizados para modelo de efeito aleatório.

(19)

fixo tende a produzir bˆ < b, caso haja seleção com base em M . Por sua vez, o modelo de efeito between _kiA tende a produzir bˆ >b, caso haja uma associação positiva entre Xki e Q . Sendo esse o caso, deve haver i

uma combinação das estimativas de b , obtidas pelos modelos de efeito fixo e betwwen, que reduza o viés de estimação. Em tal situação o modelo de efeito aleatório nunca será a pior alternativa, mas nada garante que seja a melhor. Na prática, os modelos de efeito fixo e aleatório podem produzir estimativas do efeito escola muito similares. Por exemplo, o modelo de efeito aleatório aplicado para o sistema educacional das principais capitais brasileiras produziu estimativas praticamente idênticas ao do modelo de efeito fixo, enquanto as estimativas do modelo de efeito between mostraram-se diferentes.

Ainda que tenhamos bˆ ≅ b, o problema de erro de medida pode ainda ser grave. Note que o procedimento de ajustar a estimativa do efeito escola pelo número de alunos testados pode mitigar o problema de variação amostral que afeta principalmente as pequenas escolas, mas ele em nada afeta o distúrbio aleatório que incide sobre todos os estudantes de uma determinada escola, o qual pode ser significativo. Por outro lado, nada foi feito para lidar com o problema de viés de seleção baseado em características não observadas.

Por fim, os modelos aqui analisados consideram a qualidade da escola como multidimensional: qualidade do ensino em matemática, leitura, ciências, história etc. Para os programas de school accountability, no entanto, seria importante obtermos uma medida única da qualidade das escolas. Nesse caso, o procedimento padrão é adotar uma média desses indicadores. O problema é que, de modo geral, a literatura de VAMs não nos dá indicativos sobre o melhor sistema de pesos a ser utilizado. Na seção seguinte apresentamos uma forma de utilizar as medidas de qualidade da escola aqui analisadas (associadas a medidas de insumos e processos da escola) com o objetivo de produzir um indicador de qualidade que procura lidar com esses problemas.

IV. O Modelo MIMIC

O modelo MIMIC (múltiplos indicadores e múltiplas causas) foi originalmente desenvolvido por Jöreskog e Goldberg (1975), onde múltiplos indicadores e múltiplas causas de uma única variável latente são observados. No nosso contexto a variável latente seria a qualidade unidimensional da escola, Q. Vamos admitir que:

ji i j j ji Q Q =

ϕ

+

γ

+

ρ

, (19)

[

_jiQ_i

]

= 0 E

ρ

.

(20)

Em (19), i é um indexador de escolas e j é um indexador da dimensão da qualidade. Por exemplo, a qualidade pode variar por disciplina e série: qualidade do ensino em matemática na segunda série, qualidade do ensino em leitura na terceira série etc. Então, a qualidade na dimensão j diverge da qualidade geral da escola por um fator de escala (

γ

j) e por um termo erro (

ϕ

j +

ρ

ji). Como vimos acima, Q não é ji

diretamente observado e o que podemos obter é uma medida de qualidade que diverge de Q por um fator _ji de escala e por um termo erro. Assim, podemos considerar que nossa medida imperfeita da qualidade do ensino de matemática na segunda série diverge da qualidade geral, Q , também por um fator de escala e _i por um termo erro.

A especificação do modelo é como segue. A variável latente q é linearmente determinada, sujeita ao distúrbio aleatório e, por um conjunto de causas exógenas observáveis x,

i ki k i i x x e q =

α

1 1 +....+

α

+ . (20)

Por outro lado, a variável latente determina linearmente, sujeita ao distúrbio aleatório u, um conjunto de indicadores endógenos observáveis,

ji i j

ji q u

y =

β

+

(

j =1,2,....,m

)

. (21)

Em (20) e (21), a letra minúscula das variáveis significa que elas estão expressas como desvio da média, de forma que nenhuma constante se faz necessária. Aqui o índice j se ao indicador e i refere-se à escola.21 Substituindo (20) em (21) obtemos a forma reduzida do modelo:

ji ki k j i j ji x x v y =

β

α

₁ ₁ + ....+

β

α

+

(

j =1,2,....,m

)

, (22) onde v_ji =

β

_je_i + u_ji.

21_{É possível obter mais de um indicador para a mesma dimensão de qualidade. Assim, j pode se referir à medida de qualidade} do ensino em matemática obtida por um modelo de efeito fixo, à medida de qualidade do ensino em matemática obtida por um modelo de efeito between, à medida de qualidade do ensino em leitura obtida por um modelo de efeito fixo etc.

(21)

Seja x e α vetores de dimensão k X 1, enquanto y, β e u vetores de dimensão m X 1. Então, podemos reescrever (22) como:

v x Π' y = + , (22’) αβ' Π = , u β v = ei + .

As hipóteses do modelo são dadas por (23).

[ ]

e_iu =0 E , (23)

[ ]

2 =

σ

2 i e E e

[ ]

uu' =Θ E ,

onde Θ= diag

(

θ

₁,...,

θ

_m

)

, com θ’s sendo as variâncias dos u’s. Ou seja, os distúrbios são assumidos para não se relacionarem entre si. Assim, a matriz de covariância da forma reduzida dos erros é dada por,

[ ]

vv' ββ' Θ

Ω = =

σ

2 +

E . (24)

Em geral, a estrutura do modelo MIMIC implicará em restrições nos parâmetros da forma reduzida de Π e Ω. Primeiro, a matriz de coeficientes Π tem rank um, de modo que seus k X m elementos são expressos em termos dos k + m elementos de α e β. Segundo, a matriz de covariância Ω é a soma de uma matriz de rank um e uma matriz diagonal, de modo que seus m X (m + 1)/2 distintos elementos são expressos em termos dos 1 + 2m elementos de σ2, β e θ. Por fim, é possível observar em (22) que os parâmetros da forma reduzida permanecem inalterados quando β é multiplicado por um escalar e α e σ são divididos por esse mesmo escalar. Tal indeterminação exige um procedimento de normalização. Dentre as várias possibilidades, uma bastante utilizada, a qual será adotada no presente artigo, é fixar

β

1 =1. A estimação do modelo MIMIC é, tipicamente, por máxima-verossimilhança, com a hipótese adicional de que os termos erros (ei e u) possuem uma distribuição conjunta normal. Para tal estimação o pesquisador

(22)

As hipóteses do modelo MIMIC trazem duas importantes implicações para a estrutura de correlação entre as variáveis observáveis: i) condicional na variável latente q, as variáveis indicadoras são independentes das variáveis causas e ii) condicional na variável latente q, as variáveis indicadoras são mutuamente independentes. A primeira condição impõe que toda influência das variáveis causas sobre as variáveis indicadoras se dá através da qualidade da escola. Em linguagem de variáveis instrumentais, as variáveis x1, x2,..., xk são instrumentos de q. Como observado por Jöreskog e Goldberg (1975), as

variáveis y₁, y₂,..., y_m seriam medidas alternativas de mesma coisa: a quantidade não observada q. Esses diferentes indicadores da qualidade da escola divergiriam apenas em virtude de um fator de escala e por erros de medida. A segunda condição, por sua vez, impõe que esses erros de medida sejam não correlacionados.

Neste artigo aceitamos a primeira das condições acima, mas mudamos a estrutura básica do MIMIC de forma a considerar que a matriz Θ seja irrestrita. No nosso caso, a hipótese que os erros de medida das variáveis indicadoras sejam não correlacionados é provável não se verificar. Note que se as variáveis indicadoras são obtidas a partir de diferentes testes (matemática, leitura, ciência etc) realizados num curto período de tempo (freqüentemente no mesmo dia), então, qualquer fator externo que, para um determinado aluno ou para o conjunto de alunos de determinada escola, afete a medida de desempenho em um teste é provável, também, afetar o resultado dos demais. Por outro lado, os erros de medida das variáveis indicadoras obtidas pelo mesmo exame (eg. matemática), mas por modelos diferentes (efeito fixo ou aleatório) são, necessariamente, correlacionados.

No

presente artigo propomos estimar (22) por GMM (Generalized Method of Moments), onde dispomos de m X k condições de momentos dadas por (25).

(

,

)

1 0 1 = =

∑

= n i ri ji jr v x n M

β

α

(

j =1,2,....,m;r =1,2,...,k

)

(25)

Seja M o vetor contendo todas as condições de momentos Mjr

(

β

,

α

)

, então a estimação dos parâmetros se dá por escolher β’s e α’s que minimizam (26), onde W =Var

[ ]

M .

(

β

,

α

)

'W 1M

( )

β

,

α

M

(23)

É importante ressaltar que a estimação por GMM não impõe qualquer restrição à matriz de variância e covariância dos erros (g’s). Assim, as hipóteses que E

[ ]

e_iu =0 e Θ =diag

(

θ

₁,...,

θ

_m

)

não seriam necessárias.22 Tal procedimento produz uma estimativa para todos os α’s e β’s, bem como para a matriz de variância e covariância dos erros. Ele também permite testar as restrições impostas pelo MIMIC.23

O próximo passo é obter uma estimativa para a variável latente q . Uma possibilidade i

freqüentemente utilizada é considerar o valor predito da primeira variável indicadora,

[ ] [

qi xi E yi xi

]

xi kxki

E = ₁ =

α

₁ ₁ +....+

α

. (27)

Nesse caso, teríamos um indicador orientado por variáveis de insumos e processos. A questão aqui é justificar porque tal indicador seria preferível a utilizar diretamente yji

(

j =1,2,...m

)

. No presente artigo propomos utilizar um indicador de qualidade da escola que seja uma média dos yji

(

j =1,2,...m

)

e dos

(

j k

)

xji =1,2,..., .

Definindo y₍_m₊₁₎_i =

α

₁x₁_i +....+

α

_kx_ki, u₍_m₊₁₎_i = −e_i e

β

_m₊₁ =1, podemos reescrever (20) como:

(m )i m qi u(m )i

y ₊₁ =

β

₊₁ + ₊₁ . (20’)

Para obtermos uma estimativa de q , inserimos (20’) em (21) e, seguindo Jöreskog (2000), _i consideramos que os valores dos β’s e α’s são conhecidos. Na prática eles serão iguais aos

β

ˆ's e

α

ˆ's obtidos da estimativa de (22). Assim, podemos obter, para cada uma das escolas, a estimativa de sua qualidade, q , conforme (28). _i

(

)

i 1 1 1 y Σ β' β Σ β' − − − = i qˆ , (28) 22

Entretanto, como veremos adiante, nós ainda admitiremos que E

[ ]

eiu =0.

23_{As condições de primeira ordem de (26) ficam indeterminas quando todos os α’s são iguais a zero. Assim, no processo de} otimização, os valores inicias dos α’s devem ser diferentes de zero.

(24)

[ ]

      = = ∗ ∗ 2

σ

0 0 Θ Σ ' u u E .

A equação (28) supõe E

[ ]

eiu =0, mas não impõe qualquer restrição em Θ .

24

Ela implica estimar, para cada escola i, uma regressão em GLS de y em _ji

β

_j

(

j =1,2,...,m,m+1

)

, sendo q o parâmetro a _i ser obtido. O vetor u adiciona * u₍m+1₎i ao vetor u. Seja

σ

jk

(

j,k =1,2,....,m,m+1

)

os elementos de Σ

e

δ

_jk os elementos de Σ−1, então qˆ é dado por (29). _i

∑

+ = + = = ₁ 1 1 1 ˆ m j j j m j j ji i y q

φ

β

φ

, (29) (m )j m mj m j j j =

β

1

δ

1 +

β

2

δ

2 +...+

β

δ

+

β

+1

δ

+1

φ

.

Dado que y₍_m₊1₎_i =

α

1x1_i + ....+

α

_kx_ki, então podemos reescrever (29) como,

∑

= + = + = k j ji j m m j ji j i y x q 1 1 1 ˆ

ω

α

, (30)

∑

+ = = ₁ 1 m j j j j j

φ

β

φ

ω

.

Note que a qualidade da escola foi arbitrariamente fixada para ter a mesma dimensão de y1, de

modo que, sem qualquer prejuízo, podemos dividir q por uma constante c. Assim, temos: _i

(

)

∑

= = + − = = k j ji j m j ji j i i y x c q q 1 1 * 1 ˆ

α

λ

π

λ

, (31) 24

Veremos adiante que, para identificarmos Σ, necessitamos fazer alguma restrição em Θ. Entretanto, não será necessário supor que Θ= diag

(

θ

₁,...,

θ

_m

)

.