Limitações metodológicas e dos dados - Avaliação de impacto de formação docente e serviço: o pr

Como exposto, durante a pesquisa, buscaram-se alternativas que permitissem, com rigor científico, encontrar pistas sobre a influência do programa Letra e Vida na formação do participante e investigar seus possíveis impactos nos resultados obtidos pelos alunos.

Para isso, procurou-se investigar em que medida a composição da equipe docente das escolas com alta proporção de professores que fizeram o curso influiria nos resultados obtidos pelos alunos de 1ª série, tanto estabelecendo controle sobre professores que completaram o

111

curso até 2005 quanto adotando uma variável que contabilizasse a proporção geral dos egressos do curso nas escolas.

A elaboração de indicadores de contexto, que mensurassem de alguma forma se o uso do material de leitura indicado no curso e o apoio de coordenadores pedagógicos, diretores e supervisores aos professores que procuravam adotar uma prática calcada no Programa também pretendeu verificar se haveria covariância entre tais indicadores e os resultados dos alunos. Da mesma forma, com a produção da variável prática pedagógica B, indicativa da não utilização dos pressupostos do Letra e Vida, esperava-se obter um indício de análise: a correlação entre essa variável e os resultados dos alunos podia ser negativa, e a covariância entre elas, não significativa, indicando que a prática pedagógica B não era uma boa explicação para os resultados. Contrariamente, se os resultados obtidos fossem significativos, talvez indicassem que práticas do Letra e Vida não são suficientes para impactar os resultados dos alunos.

Os cuidados com a validade também são parte do esforço para dar rigor metodológico ao trabalho, mas isso não significa que o desenho desta pesquisa é o melhor para a investigação de questões de natureza causal como a investigação de efeito ou impactos. Como visto no Capítulo 1, há muito debate sobre metodologias de pesquisa adequadas à atribuiação de causalidade, e há autores que defendem apenas os métodos experimentais controlados com seleção aleatória, enquanto outros preconizam pesquisas observacionais. Sendo dificilmente mensuráveis, os pressupostos metodológicos aqui assumidos demandam controle, de modo que as conclusões a que foi possível chegar devem ser consideradas indícios de impactos, estimulando novas pesquisas.

No entanto, as trilhas metodológicas deste trabalho poderiam ter sido menos tortuosas se, no planejamento do Programa e no Saresp, a sistematização e o tratamento dos dados fossem mais constantes. Sem dúvida, esse aspecto deve ser destacado entre as limitações desta tese, pois o refinamento de estratégias e metodologias de avaliação de programas depende também do aprimoramento dos dados e de sua disponibilidade para o pesquisador.

Pode-se dizer que o primeiro entrave ao trabalho proposto, ainda no processo de seleção para o doutorado na Faculdade de Educação da Universidade de São Paulo, foi a descontinuidade das políticas públicas. Quando o programa Letra e Vida foi substituído pelo Ler e Escrever: prioridade da escola, a pesquisadora perdeu a oportunidade de acompanhar um grupo de cursistas ao longo do processo, que fazia parte do desenho de pesquisa original. A saída foi trabalhar com dados já coletados, incorporando à pesquisa a perspectiva

112

retrospectiva. Nesse momento, além das dificuldades metodológicas, entrou em cena a restrição dos dados.

A partir do recebimento dos dados do Saresp 2005 e 2007, fornecidos pela FDE, procedeu-se a uma análise descritiva inicial dos dados quantitativos, para fazer uma aproximação com a realidade a ser estudada. A primeira limitação dos dados foi a dificuldade de identificar no Saresp uma continuidade metodológica e temporal.

Implantado a partir de 1996, com periodicidade irregular, o Saresp já realizou treze avaliações nas escolas da rede estadual de São Paulo,25 sendo que, em alguns anos, participaram algumas redes municipais e escolas particulares.

Para o interesse específico da pesquisadora, observou-se que os alunos da 1ª série do Ensino Fundamental foram avaliados em 2003, 2004, 2005 e 2007. O programa Letra e Vida foi implantado no início de 2003, o que permitiria supor que os resultados nas avaliações de 2004, 2005 e 2007 seriam diferentes dos de 2003, se o Programa surtisse efeitos positivos.

Contudo, não foi possível contemplar toda a série histórica dos resultados da 1ª série. Em 2003, por exemplo, a análise dos resultados foi qualitativa, não tendo sido atribuídas porcentagens médias aos acertos dos alunos:

Cabe ressaltar que as provas das 1ª e 2ª série do Ensino Fundamental foram corrigidas de forma qualitativa, sendo criadas categorias de desempenho, portanto, nessas séries, não serão discutidas as porcentagens médias de acertos em cada habilidade, mas a porcentagem de alunos em cada categoria, por tópico de análise. As categorias de classificação das respostas dessas duas séries foram determinadas por especialistas da SEE/SP (São Paulo, 2005a).

Em 2004, os alunos foram distribuídos em níveis, segundo a escala de desempenho reproduzida no Quadro 3.8.

Vê-se que a análise dos resultados continuou qualitativa, mas, diferentemente do ano anterior, associou-se um número de pontos a cada nível de desempenho. A alteração do tratamento dos resultados impossibilitava um estudo comparativo rigoroso entre os resultados das duas avaliações. Tais análises poderiam ser feitas sobre os resultados qualitativos, mas as mudanças ocorridas nos descritores poderiam induzir conclusões errôneas sobre os resultados e sua relação com o Programa. Além disso, não era possível distinguir, entre os alunos avaliados, os que haviam estudado com professores egressos do Letra e Vida.

113

Níveis da escala de desempenho em leitura e escrita

Ensino Fundamental Ciclo I – 1ª série

nível de desempenho: INSUFICIENTE

(de 0 a 9 pontos)

Neste nível, os alunos ainda não escrevem com correspondência sonora alfabética. nível de desempenho: REGULAR

(de 10 a 12 pontos)

Neste nível, os alunos escrevem com correspondência sonora alfabética.

nível de desempenho: BOM

(de 13 a 18 pontos)

Neste nível, os alunos escrevem com correspondência sonora alfabética e leem com

autonomia, localizando parcialmente

informações no texto. nível de desempenho: MUITO BOM

(de 19 a 20 pontos)

Neste nível, os alunos escrevem

alfabeticamente com ortografia regular e leem com autonomia, localizando integralmente informações no texto e sendo capazes de inferir uma informação a partir da leitura. nível de desempenho: ÓTIMO

(de 21 a 24 pontos)

Neste nível, os alunos escrevem

alfabeticamente com ortografia regular e leem com autonomia, sendo capazes de inferir uma informação a partir da leitura. Produzem texto com algumas características de linguagem escrita e do gênero proposto (carta).

nível de desempenho: EXCELENTE

(25 pontos)

Neste nível, os alunos escrevem

alfabeticamente com ortografia regular e leem com autonomia, sendo capazes de inferir uma informação a partir da leitura. Produzem texto com características de linguagem escrita e do gênero proposto(carta).

Quadro 3.8 – Níveis da escala de desempenho do Saresp 2004 para a 1ª série do EF Fonte: SEE/SP. Relatório Saresp 2004, p. 40

Novas mudanças foram propostas para a escala do Saresp 2005, como se vê no Quadro 3.9. Não só aumentou o número de níveis (de 6 em 2003, para 8 em 2005) como se passaram a considerar outros aspectos em cada nível.

Nível Pontuação Descrição dos níveis

abaixo de 1 0-4 Alunos que não demonstram domínio das habilidades

avaliadas pelos itens da prova

1 5-9 Escrevem com correspondência sonora ainda não

alfabética

2 10-12 Escrevem com correspondência sonora alfabética

3 13-18 Escrevem com correspondência sonora alfabética e

leem com autonomia (texto informativo)

4 19-25 Escrevem com ortografia regular

5 26-38 Produzem texto com algumas características de

linguagem escrita e do gênero proposto (conto)

6 39-40 Produzem texto com características de linguagem

escrita e do gênero proposto (conto)

7 41-44 Produzem texto com características de linguagem

escrita e do gênero proposto (texto informativo), a partir de situação de leitura autônoma e de texto de outro gênero.

Quadro 3.9 – Escala de desempenho em leitura e escrita no Saresp 2005 na 1ª série do EF

114

Finalmente, perdeu-se a possibilidade de comparar os anos de 2005 e 2007. Notou-se que não se podia usar mais de uma medida de desempenho (2005 e 2007) para forjar um desenho de pré-teste/pós-teste, pois houve alteração significativa no esquema de pontuação da avaliação, acrescida das mudanças na disposição das categorias qualitativas.

Assim, enquanto o instrumento do Saresp 2005 produzia um escore máximo de 44 pontos, distribuídos em 8 níveis de desempenho, o Saresp 2007 adotou uma escala de 6 níveis, com uma pontuação máxima de 49 pontos (Quadros 3.10 e 3.11).

Nível Pontuação Descrição dos níveis

1 0-3 Os alunos escrevem sem correspondência sonora

2 4-8 Os alunos escrevem com correspondência sonora

ainda não alfabética

3 9-16 Os alunos escrevem com correspondência sonora

alfabética

4 17-25 Os alunos escrevem com correspondência sonora

alfabética e produzem texto com algumas características da linguagem escrita e do gênero proposto (carta)

5 26-37 Os alunos escrevem com ortografia regular,

produzem texto com características da linguagem escrita e do gênero proposto (carta) e localizam, na leitura, informações explícitas contidas no texto informativo

6 38-49 Os alunos escrevem com ortografia regular,

produzem texto com características da linguagem escrita e do gênero proposto (carta) localizam informações explícitas e fazem inferência de informações a partir de um texto lido (texto informativo)

Quadro 3.10 – Escala de desempenho em leitura e escrita no Saresp 2007 na 1ª série do EF

Fonte: Sumário Executivo do Saresp 2007

A própria distribuição dos alunos nos níveis, feita pela SEE e por seus assessores externos, não parece precisa, já que os critérios de pontuação para a distribuição são diferentes, assim como o número de pontos que marca os limites inferior e superior de cada nível. Independentemente da precisão, a diferença entre os instrumentos e as formas de análise implica questões de instrumentação que, se utilizadas, ameaçariam a validade dos resultados da pesquisa, como explicam Shadish, Cook e Campbell (2002), o que pode acontecer quando não é possível encontrar outras formas de análise que não uma comparação direta entre os resultados das diversas avaliações.

115

comparações entre os resultados dos diversos anos, também foram os motivos que impossibilitaram a análise dos ganhos dos resultados entre uma aferição e outra, que seria uma alternativa metodológica, caso fosse possível controlar os patamares de saída e identificar os resultados de alunos de professores egressos do curso.

Ainda no que se refere às questões de instrumentação, vale lembrar que o nível de precisão dos resultados do SARESP pode ser afetado pela própria natureza do tipo de questão que compôs a prova de 1ª série, com questões abertas. Apesar de terem sido fornecidos roteiros de correção e treinamentos para os aplicadores e corretores, a natureza subjetiva do processo de correção de qualquer prova, potencializada em instrumentos com itens de resposta “aberta”, não pode deixar de ser apontada como um limite da pesquisa.26

Além disso, desde o início da pesquisa, pretendia-se verificar se haveria diferenças substanciais entre o desempenho de alunos que estudaram com professores que participaram do Letra e Vida e com professores que não o fizeram, pois, como visto antes, essa diferenciação é característica essencial de uma avaliação de impacto.

Para estabelecer essa relação, na proposta inicial do projeto de tese, se usariam as respostas dos professores no questionário que acompanhou o Saresp de 2007, em que se incluíram, a pedido da equipe do Letra e Vida, questões que permitissem identificar os professores participantes. Segundo a consultora da SEE (informação verbal)27, tratava-se de identificar esses professores e cruzar essa informação com os resultados obtidos por seus alunos, mas, durante a aplicação do Saresp, houve troca de professores aplicadores entre escolas, com exceção dos professores das duas séries iniciais do ensino fundamental. Nesse caso, os professores de 1ª e 2ª série que aplicaram a avaliação foram os da própria escola, mas em outras turmas.

Assim, os questionários dos professores de 1ª e 2ª série não foram respondidos pelos responsáveis por cada turma, perdendo-se a possibilidade de cruzar os dados obtidos pelos respondentes que fizeram o Letra e Vida com os percentuais de rendimento dos alunos, que seria um dado importante para a análise do impacto do Programa. Mais uma vez, para tentar superar esse problema, optou-se por trabalhar com a escola como unidade de pesquisa, e não com os professores individualmente.

26_{Uma análise da validade de conteúdo da prova de 1ª série do SARESP 2007, a fim de verificar se os itens}

“constituem uma amostra representativa de áreas de conteúdo e de capacidade desenvolvidas num determinado curso” (Vianna, 1981) fugiria aos propósitos desse trabalho, cuja temática é ampla e suficiente complexa. É necessário, contudo, que estudos que utilizem dados quantitativos disponíveis comecem a relatar como as medidas foram produzidas e a reportar as estatísticas de validade e fidedignidade dos testes.

116

As dificuldades encontradas no decorrer da pesquisa permitiram chegar a duas conclusões principais. Primeiramente, a dinâmica de funcionamento do sistema educacional de São Paulo e as constantes mudanças e readequações que ajustam os programas às demandas dificultam a análise de resultados baseada numa metodologia que exige controle de variáveis e, assim, a manutenção de algumas estruturas propostas inicialmente. Programas que mudam constantemente, informações que não são controladas ou nem sequer colhidas pelos aplicadores do Saresp (e que poderiam ser úteis à gestão do sistema), desafios técnicos e metodológicos para a manutenção da unidade nas propostas e a equivalência dos resultados são parte dos aspectos a considerar, se o objetivo são análises mais profundas e sustentáveis com validade interna e externa.

Em segundo lugar, a SEE, que poderia replanejar e aprimorar a coleta e o gerenciamento de dados para prover condições mais favoráveis à pesquisa em educação e ao aprimoramento da reflexão teórica sobre os resultados educacionais, parece pouco preocupada com o desperdício de informações geradas anualmente e que poderiam ser usadas em prol do próprio sistema educacional.

De todo modo, um maior cuidado na organização das avaliações e no tratamento de dados sobre professores poderia ser decisivo para o desenvolvimento de propostas de avaliação de programas, quer de sua implementação, de seus resultados ou de seus impactos.

Por outro lado são esses mesmos percalços que impõem a necessidade de estudos como o presente, a fim de contribuir com o acúmulo de conhecimentos na avaliação de impacto de programas sociais e, mais especificamente, na compreensão das influências das atividades de formação continuada docente nos resultados de desempenho dos alunos.

AVALIAÇÃO DE

IMPACTO EM PROCESSO

(PARTE I):_ANÁLISES

A PARTIR DE

CAPÍTULO 4

AVALIAÇÃO DE IMPACTO EM PROCESSO (PARTE I):

ANÁLISES A PARTIR DE DADOS DO SARESP

La formación docente tiene el honor de ser, simultáneamente, el peor problema y la mejor solución en educación.

Fullan, 1993

Neste capítulo, fazem-se análises exploratórias de dados obtidos no Questionário para os Professores de 1ª e 2ª séries do Ensino Fundamental aplicados pela SEE/SP no Saresp 2007 e das variáveis utilizadas nas análises estatísticas. Os resultados obtidos nos estudos quantitativos a partir do uso de técnicas de regressão linear múltipla, das árvores de decisão e dos testes de média são explicados.

4.1 Professores do ciclo de alfabetização da rede estadual paulista: quem são? Onde

No documento Avaliação de impacto de formação docente e serviço: o programa Letra e Vida (páginas 132-140)