• Nenhum resultado encontrado

3. DADOS E MÉTODO

3.2. Fontes e tratamento de dados

Esta tese utilizou duas principais fontes de dados. A primeira, uma lista de egressos dos programas de pós-graduação stricto sensu foi obtida junto a CAPES e incluía a identificação do egresso, nome dos egressos, programas e áreas de conhecimento, além das datas de defesa e títulos dos trabalhos defendidos entre 1998 e 2012 - incluindo programas de mestrado acadêmico, mestrado profissional e doutorado. A segunda, a base de microdados identificados da RAIS (Relação Anual de Informações Sociais) foi obtida mediante acordo da Fundação Getúlio Vargas (FGV) com a Coordenação Geral de Estatísticas do Trabalho do Ministério do Trabalho e Emprego (MTE). A base RAIS-indivíduo recebida inclui informações censitárias sobre vínculos empregatícios no Brasil entre 2003 e 2013. Nela constam, entre outras informações, o CPF, remuneração mensal, horas trabalhadas, Código Brasileiro de Ocupação (CBO), tipo de vínculo (estatutário ou CLT), tipo de salário (horista ou mensal), CNPJ do empregador e sua Classificação Nacional de Atividades Econômicas (CNAE). A base RAIS- estabelecimento, dentre outras variáveis, incluía a quantidade de vínculos ativos e inativos por CNPJ.

O banco de dados fornecido pela CAPES, com as informações dos egressos do doutorado, mestrado acadêmico e mestrado profissional continha 574.5309 teses ou dissertações defendidas entre 1998 e 2012, o que corresponde a 497.078 diferentes egressos. Foram eliminados 7.478 egressos por inconsistências no documento de identificação (CPF)10, deixando 489.600 egressos para análise.

9 Existe uma divergência entre a base encaminhada pela CAPES e os dados disponíveis no GEOCAPES. No

GEOCAPES, o número de titulados no período foi de 575.940.

10 Esta análise inicial permitiu verificar que na variável Documento Discente existiam números de CPF, RG,

número de passaporte de estrangeiros, códigos dos alunos na IES, números únicos para reportar todos os alunos da IES, entre outras situações. Como o objetivo final foi obter as informações dos egressos na base de dados da RAIS (Relação Anual de Informações Sociais) foi necessário verificar a consistência do número do CPF dos egressos. Primeiro, verificou-se a existência de egressos titulados no mesmo programa com o mesmo nível, ou seja, um aluno que fez dois mestrados ou doutorado no mesmo programa (a chave primária foi composta por Código do Programa, Nível e CPF). O número obtido foi de 273 CPFs (ou 549 trabalhos defendidos). Nesta verificação, os erros mais encontrados foram: o mesmo trabalho reportado pelos programas em anos diferentes e o mesmo CPF como nomes de autores diferentes. Os nomes dos egressos e o título da dissertação foram utilizados em sites de busca na internet para verificar qual dos registros deveria ser mantido na base de dados. Após a eliminação dos dados duplicados 269 CPFs (ou 270 trabalhos defendidos) foram mantidos na análise e 279

A base de egressos validada foi cruzada com a RAIS. Neste procedimento, 434.314 de 489.600 egressos (88,3% do total) foram encontrados em pelo menos um ano da RAIS. Por fim, a consistência dos nomes relacionados aos CPFs da base de dados da RAIS e da base de dados de egressos foi verificada11. Neste procedimento, 1.230 egressos foram eliminados. Ao final de todos os procedimentos de depuração da base de dados, o número total de egressos encontrados na RAIS, em pelo menos um ano, foi de 433.084, ou 87,1% do total (Figura 4). Esses egressos foram responsáveis por 501 mil trabalhos defendidos entre 1998 e 2012 (Tabela 2).

Figura 4 - Etapas do tratamento do banco de dados

Estes egressos se distribuem entre os diferentes programas (doutorado, mestrado acadêmico e mestrado profissional) como descrito na Tabela 1. Dos mestres titulados no período analisado, 18,9% também se titularam no doutorado. Vale destacar que cerca de 40,7%

trabalhos defendidos foram excluídos, uma vez que os autores estavam com CPFs errados. Após esta análise inicial, por meio de um algoritmo desenvolvido em Python para validação de CPFs, conclui-se que 489.600 CPFs eram válidos, o que corresponde a 567.843 teses ou dissertações defendidas no período analisado.

11 Um algoritmo em Python foi desenvolvido para tratar os acentos e os erros mais comuns de digitação dos nomes.

Em seguida, a Distância de Levenstein, que consiste no número mínimo de operações necessárias para transformar um texto em outro foi utilizada para eliminar os casos em que os nomes relacionados a um CPF apresentaram inconsistências.

Consistência de nomes e CPF

Cruzamento dos dados de egressos com a RAIS Validação CPF e análise de registros repetidos Base Inicial 497.078 com documento discente

disponível 489.600 CPFs válidos 434.314 encontrados 433.084 CPFs utilizados na análise 1230 CPFs eliminados 55.386 não encontrados 7478 CPFs eliminados 62.764 eliminados + não econtrados 63.994 eliminados + não encontrados

dos doutores não obtiveram o título de mestre dentro do período analisado (porém podem tê-lo obtido antes de 1998).

Tabela 1 - Número de egressos por nível entre 1998 e 2012

Nivel Mestrado Doutorado Profissional Total

Mestrado 291.240 291.240

Doutorado 68.272 47.430 115.702

Profissional 221 637 25.253 26.111

Total 359.733 48.067 25.253 433.05312

Nota. Desta tabela de dupla entrada, foram excluídos 31 egressos que fizeram os três programas no período analisado.

Dado que a estratégia de identificação deste estudo se baseia em modelos de diferenças em diferenças (vide item 3.4), buscou-se uma amostra de egressos com informações disponíveis sobre vínculo empregatício na RAIS antes da entrada no programa e após a titulação. Como o banco de dados da CAPES utilizado não possui a data exata da entrada no PPG, mas disponibiliza a data de titulação do egresso, considerou-se como ano de entrada para o doutorado cinco anos antes do ano da titulação e, para os mestrados, três anos antes da titulação. Este valor é consistente com as diretrizes observadas pela CAPES, que recomendam que o prazo médio de titulação seja menor que 4,5 anos para o doutorado e 2,5 anos para os mestrados. Logo, o ano de entrada para os titulados no doutorado em 2010 é 2005, o que deixa para a análise da trajetória antes da entrada no PPG os dois primeiros anos da série disponível da RAIS, ou seja, ano de 2003 e 2004. Por outro lado, os doutorandos que ingressaram no PPG em 2007 titularam-se em 2012. Para este grupo, o ano de 2013 foi utilizado para análise do período pós titulação. Análise similar pode ser realizada para os mestrados, conforme apresentado na Tabela 2.

Diante desta restrição, nesta etapa, o público de interesse da presente tese incluiu 32.236 egressos do doutorado (ano de entrada entre 2005 e 2007), 155.080 do mestrado acadêmico e 15.382 do mestrado profissional (ano de entrada entre 2005 e 2009). A Tabela 2 detalha o número de egressos por ano de entrada e ano de titulação.

12 Dentre o total de egressos, os 868 egressos que fizeram mais de um mestrado, doutorado ou mestrado profissional

foram excluídos da análise, para evitar dificuldades na definição do tratamento dentro da estratégia de identificação escolhida.

Tabela 2 - Número de trabalhos defendidos nos PPG entre 1998 e 2012 Ano entrada (estimado) Ano titulação Doutorado Ano entrada (estimado) Ano titulação Mestrado Acadêmico Mestrado Profissio-nal 1993 1998 3.455 1995 1998 11.190 0 1994 1999 4.212 1996 1999 13.364 49 1995 2000 4.703 1997 2000 15.703 185 1996 2001 5.360 1998 2001 17.467 289 1997 2002 6.121 1999 2002 20.901 832 1998 2003 7.377 2000 2003 23.323 1.416 1999 2004 7.365 2001 2004 22.486 1.716 2000 2005 8.193 2002 2005 25.847 1.816 2001 2006 8.504 2003 2006 26.475 2.297 2002 2007 8.949 2004 2007 26.976 2.118 2003 2008 9.615 2005 2008 29.160 2.432 2004 2009 10.123 2006 2009 30.535 2.860 2005 2010 9.984 2007 2010 30.088 3.051 2006 2011 10.602 2008 2011 31.762 3.252 2007 2012 11.650 2009 2012 33.535 3.787 Total 116.213 Total 358.812 26.100

Finalmente, para implementar a estratégia de identificação era necessário que os egressos possuíssem informações sobre o vínculo empregatício no momento da entrada no pro. Os dados mostram que um número expressivo de egressos satisfizeram tal condição. Os 32,2 mil doutores titulados entre 2010 e 2012 foram encontrados na RAIS, em média, em 7,3 anos entre 2003 e 2013 (Tabela 20). Desses, 19,7 mil possuíam informações sobre as características do vínculo empregatício no ano de entrada no doutorado, o que corresponde a 61% do total de egressos (Tabela 21). Para o mestrado acadêmico, os 155 mil egressos foram encontrados, em média, em 6,8 anos e cerca de 57% estavam na RAIS no ano de entrada (89,2 mil). Por fim, estes números para o mestrado profissional são mais expressivos. Dos 15,3 mil egressos os mestres profissionais foram encontrados 9 anos na RAIS, em média, e 84% apresentavam vínculo empregatício no ingresso no PPG (12,8 mil).

Diante de todos os procedimentos apresentados e da disponibilidade de dados, a amostra final de interesse conta com 19.717 egressos do doutorado, 89.163 do mestrado acadêmico e 12.881 do mestrado profissional.