Base de dados Cepesp e dados para simulação

4. Modelo de Simulação

4.1 Base de dados Cepesp e dados para simulação

Para montar uma base de dados com cobertura nacional na escala de análise proposta pela Dersa, tivemos de combinar uma série de bases de porte. Em particular os micro-dados dos

Censos de 1991 e 2000, da PNAD e da Contagem de 1996 e das RAIS de 1991, 1996 e 2000. Essas são essencialmente as bases utilizadas na análise do Rodoanel com uma diferença crucial: no estudo anterior estávamos trabalhando apenas com a RMSP. Isso implica em mudar a base de centenas de milhares para milhões de registros. O sistema original baseado em Access não era mais capaz de gerenciar o volume de dados necessários para gerar uma base de dados na escala nacional.

A importância de descrever a base utilizada é que o modelo desenvolvido pretende ser uma ferramenta para uso da Dersa para análise econômica da implementação de qualquer viário (em princípio de qualquer modo). Atualmente, a relação entre o modelo econômico e o modelo de transportes ocorre de forma manual mas em princípio podemos automatizar esse processo se for o caso. Em outras palavras, o modelo exposto nesse relatório representa uma semente para a análise do impacto na decisão de localização de empresas e firmas decorrentes de mudanças no sistema viário paulista.

O primeiro elemento da base é denominado de “base bruta” e corresponde ao simples acumulo de bases secundárias. Em princípios os micro-dados não devem nunca sair do Cepesp visto que foram gerados por outras instituições. No entanto, os micro-dados do censo, por exemplo, podem ser obtidos facilmente do Ibge enquanto as bases da RAIS necessitam da aprovação do ministério do trabalho. O produto para consumo externo dessa base será sempre composto por tabulações. Atualmente esses dados estão todos em MySQL, um programa “livre” e que também tem sido usado pela equipe de transportes da Dersa. A base tem um sistema de dicionário que mantém o nome original da variável mas padroniza a classificação permitindo que as bases sejam facilmente cotejadas.

Assim, a base no seu estágio atual tem certamente dois atributos importantes. A importação de grandes bases de dados já foi realizada com sucesso e o dicionário criado dá conta de padronizar ao menos parcialmente as diversas denominações para variáveis idênticas em diferentes pesquisas. Além de reunir e padronizar diversas bases de grande porte, a base de dados do Cepesp também tem um sistema de tabulação bastante funcional. Essencialmente o sistema permite que se selecione as variáveis desejadas, o grau de agregação geográfico e os períodos para os quais se pretende tabular dados. Além disso o sistema permite que os dados sejam tabulados de forma empilhada (ou seja, com uma variável para o ano) ou com os anos tabulados (ou seja, cada variável/ano ocupando uma nova coluna). Ainda que a criação dessa base represente um avanço considerável, o sistema poderia ser melhorado pois atualmente exige um conhecimento razoável das bases com as quais se está trabalhando. Além do mais, não se pode dizer que o sistema seja totalmente amigável. Dentro da continuidade desse trabalho pretendemos realizar avanços substanciais na base de dados com o objetivo de implementá-la definitivamente no departamento de planejamento da Dersa em complemento à base de transportes atualmente operacional.

A partir da “base bruta” geramos as tabulações intermediárias que alimentam os modelos e permitem a estimação de parâmetros. A grande especificidade das tabulações utilizadas para o corredor é a dimensão setorial. Como as classificações setoriais de cada uma das bases que compõem a “base bruta” variam consideravelmente, foi necessário encontrar uma classificação comum. Essa classificação foi denominada de SMC9100 (Setores Mínimos Comparáveis de 1991 à 2000) e compreende 31 setores. A partir dessas bases algumas consultas foram realizadas:

• Emprego e massa salarial formal por AMC9100 (Áreas Mínimas Comparáveis de 1991 a 2000 propostas pelo IPEA) por SMC9100 a partir da RAIS de 1991, 1996 e 2000 (3 consultas).

• Emprego e massa salarial formal por município/Zona OD da RMSP (ou seja, para a RMSP os dados foram abertos por zona da pesquisa de Origem-Destino do Metrô) por setor_pddt (a classificação compatível com a MIP de 1996 e que compreende 42 setores) a partir da RAIS de 2000 (1 consulta).

• Massa salarial total por Estado por SMC9100 a partir dos Censos de 1991 e 2000 e da PNAD de 1996 (3 consultas).

• Emprego e massa salarial formal por Estado/RM (ou seja, para os 9 estados com Regiões Metropolitanas, a RM foi separada do restante do Estado) por SMC9100 a partir da RAIS de 1991, 1996 e 2000 (3 consultas).

• Emprego e massa salarial total por Estado/RM por SMC9100 a partir dos Censos de 1991 e 2000 e da PNAD de 1996 (3 consultas).

Cabe uma observação com relação à divisão geográfica do segundo grupo de consultas. As zonas de tráfego propostas pelo pddt e que são a nossa unidade principal de análise dividem o Município de São Paulo (MSP) em 9 zonas diferentes. Os dados da RAIS apresentam o município, que pode ser codificado de forma relativamente simples, mas para divisões menores do que o município é necessário codificar o endereço da empresa. Aproveitamos o trabalho anterior para o Rodoanel no qual localizamos cerca de 90% das empresas da RMSP por zona de OD. Como temos a compatibilidade das zonas OD do MSP com as zonas de tráfego do pddt, é possível dividir o MSP em 9. O grande problema é que essa consulta ficou relativamente remendada. Aqui também valeria pensar em uma estratégia para encontrar uma solução genérica para esse tipo de problema, ou seja, casos em que temos uma divisão para o Estado e uma diferente para a RMSP.

Os 2 últimos grupos de consultas foram utilizados para gerar “pesos” para recuperar, a partir da RAIS, o emprego total. O sistema atual de pesos é bastante imediato. Os pesos são dados simplesmente pela relação entre o emprego total e o emprego formal no setor na região. A grande dificuldade é que para 1991 não temos a informação de onde trabalha o indivíduo e em 1996 a maior desagregação possível é por Estado e, para estados com regiões metropolitanas (RM), a divisão entre a RM do estado e os demais municípios. Assim, para uniformizar o critério, resolvemos utilizar a divisão de Estados e RMs para todos os anos a partir da informação do município de moradia. Formalmente, o peso é dado por: J j e e p IfJ t J I j I, = , / , ∈

Onde p_I_,_j é o peso do setor I na região j (por exemplo, uma AMC) que é uma

desagregação da região J (no nosso caso, J é o Estado/RM mas poderia ser, por exemplo,

meso regiões); eIt,J representa o emprego total no setor I, região J e f

J I

e, representa o emprego formal no setor I, região J. Toda a notação dessa nota desconsidera o tempo pois

a análise será proposta em cross section com todas as variáveis independentes defasadas em relação à dependente como deve ficar claro mais adiante. Note que, por definição, a soma do emprego formal por Estado/RM ponderado pelo sistema acima obrigatoriamente retorna o emprego total por Estado/RM. O primeiro problema é que todos os municípios do

Estado/RM devem ter o mesmo grau de informalidade em cada setor o que pode ser uma hipótese um pouco forte. Além disso, a classificação setorial mais desagregada possível, combinando as 4 classificações existentes nas nossas bases, é composta apenas por 31 setores. Para obter uma classificação mais desagregada poderíamos adotar exatamente a mesma idéia da divisão geográfica e definir os pesos como:

I i J j e e p_i_,_j = t_I_,_J/ _If_,_J ∈ ; ∈

Onde i seria uma desagregação de I. Foi exatamente o que fizemos para encontrar o emprego total para 2000 para a divisão proposta pelo pddt (42 setores). Essa ponderação é ainda mais problemática que anterior pois assume adicionalmente que o grau de informalidade dos setores agregados é o mesmo para todos eles. Uma proposta de avanço na ponderação que pretendemos desenvolver no âmbito do pddt procura utilizar outras características dos municípios que podem ser recuperadas para 1991 e 1996 além das próprias informações contidas nos dados de emprego formal para criar um sistema de ponderação por planta. As consultas citadas acima são então intermediárias para a obtenção das consultas finais que efetivamente alimentam a base de dados. As 7 consultas fundamentais para o modelo de simulação usado na análise do corredor de exportações podem ser divididas em 3 grupos:

1. Emprego, massa salarial e produto total por AMC por SMC9100 para 1991, 1996 e 2000 (3 consultas).

2. Emprego, massa salarial e produto total por zona_pddt (zonas de tráfego propostas pelo pddt) por setor_pddt para 2000 (1 consulta).

3. Emprego e massa salarial total por pddt_AMC (uma agregação das zonas de tráfego propostas pelo pddt – vide planilha anexa <div_terr_completa.xls> e comentários a seguir) por SMC9100 para 1991, 1996 e 2000 (3 consultas).

Como temos apenas os dados do produto por estado (a partir das contas regionais) a maneira como o produto foi distribuído pelas regiões menores foi a partir da proporção da massa salarial da região no setor na massa salarial do estado (e por isso necessitamos da consulta com a massa salarial total por estado). Note que como a massa salarial total por região foi obtida a partir da multiplicação dos pesos pela massa salarial formal, necessitamos apenas do total por estado para fazer a alocação.

Outro ponto importante é a necessidade da classificação pddt_AMC. Ocorre que a classificação proposta pela Dersa não é compatível com as divisões municipais que ocorreram entre 1991 e 2000. Por esse motivo, para gerar uma série histórica para os anos 1990 foi necessário criar essa agregação da divisão proposta pelo pddt composta por cerca de 797 zonas. O grupo 1 foi utilizado essencialmente para calcular as elasticidades produto e salário para estimar a variação do emprego por setor (sem controles) decorrente de variações no produto e nos salários (como discutido na próxima seção). O segundo grupo (composto por apenas uma consulta) foi utilizado para projetar os dados de 2005 em diante na divisão geográfica e setorial desejada e o último grupo é simplesmente uma agregação do primeiro e fornece parte das variáveis necessárias para gerar os parâmetros da simulação. Além dessas, as variáveis geradas pelo banco de dados para compor a base necessária para estimação dos parâmetros são:

4. Domicílios por faixa de renda do chefe, % de domicílios ligados à rede de esgotos, anos de estudo do chefe do domicílio e renda per capta por pddt_AMC para 1991 e 2000 a partir dos censos de 1991 e 2000 (2 consultas).

5. Domicílios por faixa de renda do chefe, % de domicílios ligados à rede de esgotos, anos de estudo do chefe do domicílio e renda per capta por zona pddt para 2000 a partir do censo de 2000 (1 consulta).

A combinação dos grupos 3 e 4 somados a características geográficas das zonas pddt_AMC (área, indicador de região costeira e indicador do estado) formam a base de variáveis “diretamente observadas”. As demais variáveis decorrem essencialmente da interação entre essas variáveis e i. a MIP de 1996 agregada por SMC9100 gerando variáveis representando a proporção de consumidores e fornecedores (definidos a seguir) por SMC9100 por pddt_AMC para 1991 e 2000 e ii. a matriz de tempos (invertidos) por

pddt_AMC gerando variáveis “defasadas espacialmente” para todas as variáveis descritas anteriormente. Todas essas variáveis juntas formam a base de dados histórica que gera os parâmetros para a simulação. A combinação dos grupos 2 e 5 somados a características geográficas das zonas pddt e às interações do grupo 2 com a MIP usual (42 setores) e de todas as variáveis com a matriz de tempos (invertidos) por zona pddt geram a base de dados para 2000 por zona e setor pddt. A partir dessa base serão geradas as simulações para 2005 em diante.

Então a nossa principal restrição no momento, como deve ter ficado claro, é a necessidade de utilizar diversas agregações para permitir a interação de bases diferentes. Temos 4 agregações distintas: Censo 91 e PNAD 96; RAIS 91; CNAE e CNAE_dom. A diferença com relação às agregações geográficas é que não há uma hierarquia. Atualmente o que temos é a relação entre cada uma delas e o SMC9100. No entanto, a relação entre CNAE e CNAE_dom certamente permite um número bem maior de setores. Avanços na classificação setorial e no sistema de pesos serão fundamentais para aumentar a precisão das variáveis por setor e as possibilidades de desagregação setorial.

No documento Indução à ocupação decorrente da implantação do corredor de exportações no Estado de São Paulo (páginas 38-42)