• Nenhum resultado encontrado

UFABC KARINA VALDIVIA DELGADO

N/A
N/A
Protected

Academic year: 2018

Share "UFABC KARINA VALDIVIA DELGADO"

Copied!
8
0
0

Texto

(1)

ANÁLISE DA ATUALIZAÇÃO DOS CURRÍCULOS LATTES

Uma análise macro sobre as datas das últimas atualizações

dos currículos Lattes

LUCIANO ANTONIO DIGIAMPIETRI digiampietri@usp.br USP ROGÉRIO MUGNAINI mugnaini@usp.br USP JESÚS PASCUAL MENA-CHALCO jesus.mena@ufabc.edu.br UFABC KARINA VALDIVIA DELGADO kvd@usp.br USP JOSÉ DE JESÚS PÉREZ-ALCÁZAR jperez@usp.br USP

EIXO TEMÁTICO: Bases de Dados

MODALIDADE: Apresentação oral

1 1 INTRODUÇÃO

Ao longo dos últimos anos, estudos bibliométricos e cientométricos têm utilizado cada

vez mais grandes volumes de informação. No Brasil existe uma base ímpar de dados

bibliométricos que é a Plataforma Lattes. Nesta plataforma há mais de 3,2 milhões de

registros cadastrados (http://www.cnpq.br/web/portal-lattes/dados-e-estatisticas) contendo

informações sobre formação, áreas de atuação, projetos de pesquisa, produções

(bibliográficas, técnicas e artísticas), participação em eventos, bancas, orientações dentre

outras.

Em especial, na última década diferentes pesquisas acadêmicas têm considerado a

Plataforma Lattes como principal fonte de dados.O espectro de trabalhos varia do nível macro

ao micro. Por exemplo, trabalhos que visam a apresentar um panorama de toda a produção

científica nacional (LEITE et al, 2011), incluindo a rede social acadêmia de coautorias

(MENA-CHALCOet al, 2014), descrições sobre as informações presentes na plataforma

(2)

(DIGIAMPIETRI et al, 2012), ferramentas para a extração e/ou mineração dos dados da

plataforma (ALVES et al, 2011; MENA-CHALCO e CESAR JUNIOR, 2009), estudos sobre

grupos específicos de pesquisadores (DIGIAMPIETRI et al, 2012b; ARRUDA et al, 2009;

WAINER, J. e VIERA, P., 2013; COSTA, B.G. et al, 2013), predição de relacionamentos

(LIBEN-NOWELL e KLEINBERG, 2003), entre outros.

Apesar da abundância e relevância das informações contidas na Plataforma Lattes

existem diversas características que devem ser consideradas para sua utilização (CAÑIBANO

e BOZEMAN, 2009). Entre elas: o fato das informações não serem validadas (i.e., os dados

são inseridos pelos possuidores dos currículos sem posterior validação); muitos campos são

preenchidos manualmente, acarretando em erros de digitação e/ou falta de padronização; a

frequência de atualização dos dados depende dos possuidores dos currículos e varia bastante;

muitos campos são opcionais,limitando alguns tipos de análise.Este alto grau de liberdade no

registro das informações curriculares é pouco estudado pelos pares. No campo da Ciência da

Informação, SILVA e SMIT (2009) alertam para o comprometimento da consistência dos

dados para recuperação da informação, o que acaba limitando o uso desta fonte curricular tão

abrangente para uma análise mais profunda da produção científica nacional.

Em particular, a frequência de atualização dos dados é de extrema importância para

trabalhos que pretendam identificar ou prever tendências na produção nacional, predição de

relacionamentos ou de citações em redes acadêmicas, e recomendação de trabalhos

científicos.Este artigo tem por objetivo analisar a atualização dos currículos vitae (CVs) da

Plataforma Lattes, segmentando estes currículos pelas áreas de conhecimento de seus

possuidores e também pela formação acadêmica máxima dos mesmos.

2 2 METODOLOGIA

A metodologia está estruturada em duas partes: obtenção dos dados e tratamento dos

dados (que inclui a organização e o processamento automático).

2.1 Obtenção dos Dados

Para este trabalho, foram obtidos os arquivos XML de 3.187.710CVsda Plataforma

Lattesdurante o mês de julho de 2013. Para a obtenção destes currículos as seguintes

(3)

Plataforma Lattes de forma a solicitar a lista de todos os currículos cadastrados; esta consulta

retornou múltiplas páginas Web de resposta; (b) cada uma das páginas de resposta foi copiada

e os identificadores numéricos dos CVs (IDs Lattes) foram extraídos através de um script de

computador; (c) com o identificador de cada currículo foi possível baixar cada CV Lattes em

formato XML.

2.2 Tratamento dos dados

O tratamento dos dados foi dividido em três etapas: separação das informações de

interesse; divisão das informações nos grupos de interesse; e cálculo de métricas.

2.2.1 Separação das informações de interesse

Neste trabalho três tipos de informação dos CVs Lattes foram consideradas: (a) a data

da última atualização (oriunda das informações gerais de cada CV); (b) as grandes áreas de

atuação; e (c) as formações acadêmicas/titulações. Foi desenvolvido um script para extrair as

informações de interesse de cada currículo.

2.2.2 Divisão das Informações nos Grupos de Interesse

Além da análise conjunto da atualização de todos os CVs da Plataforma Lattes,

também foram identificados grupos, segundo as grandes áreas de atuação e a maior formação

presente em cada currículo. Cada CV pode manter registro de zero ou mais grandes-áreas de

atuação, permitindo que determinado CV faça parte de mais de um grupo. Segundo a CAPES,

São nove asgrandes-áreas do conhecimento:Ciências Agrárias; Ciências Biológicas; Ciências

da Saúde; Ciências Exatas eda Terra; Ciências Humanas; Ciências Sociais Aplicadas;

Engenharias; Linguística, Letras e Artes; e Outros/Multidisciplinar. Também foi criado um

grupo adicional formadopor CVs que não continham esta informação. Quanto às formações

acadêmicas/titulaçõesforam definidas 12 opções, das quais este estudo considerou seis:

Ensino Fundamental/Primeiro Grau, Ensino Médio/Segundo Grau, Curso Técnico

Profissionalizante, Graduação, Mestrado/Mestrado Profissionalizante eDoutorado.Além

destes, foram criadosdois grupos adicionais: um contendo os CVs que não apresentavam

nenhuma destas formações/titulações e outro contendo os possuidores de bolsa de

produtividade em pesquisa do CNPq (os CVs destes pesquisadores compõem tantona conta do

grupo Doutorado quanto do grupo Produtividade). Para a criação destes grupos só foram

consideradas as formações/titulações máximas entre as seis destacadas (independente de

(4)

estarem concluídas ou em andamento). Já que os possuidores de bolsa produtividade

frequentemente atualizam seus currículos (ao menos) logo antes do pedido da bolsa optou-se

por selecionar os CVs daqueles que possuiam bolsa produtividade em 2010.

2.2.3 Cálculo de Métricas

Tanto para o conjunto de todos os CVs quanto para cada uma das divisões feitas foram

calculadas as seguintes métricas: quantidade média de dias desde a última atualização; valor

da mediana de dias desde a última atualização; distribuição das atualizações por meses; e

quantidade de dias desde a última atualização para cada decil (cada decil representa 1/10 do

total do conjunto de dados).

3 3 RESULTADOS

Os resultados são apresentados em três subseções. Na primeira, são apresentados

alguns dados gerais envolvendo todos os CVs analisados. Em seguida apresenta-se uma

análise da atualização dos CVs considerando-se as grandes-áreas de atuação. Por fim, é

descrita uma análise considerando-se as formações/titulações dos currículos registrados no

conjunto de dados.

3.1 Dados Gerais

Dos 3.187.710 de CVs examinados, baixados da Plataforma Lattes em julho de 2013,

as datas de atualização variaram de 22/08/1997 (CV com data de atualização mais antiga) a

30/07/2013 (currículo que foi atualizado no dia que foi baixado), este intervalo de datas

corresponde a pouco mais de 16 anos (194 meses). Na média os CVs foram atualizados 860

dias antes de terem sido baixados (correspondendo, na média, a 16/03/2011), já a mediana é

de 486 dias (correspondendo a 24/03/2012). É possível observar que, considerando esse

conjunto de dados, mais da metade dos currículos foram atualizados pela última vez há mais

de um ano.

A Figura 1 indica a porcentagem de currículos que foram atualizados dentro de

períodos mensais. Só são exibidos os 36 primeiros meses dentro dos quais 70,96% dos

currículos foram atualizados. 5,4% dos CVs foram atualizados há, no máximo, um mês da

data que foram baixados. A curva cinza apresenta os valores acumulados. É possível observar

(5)

0% 10% 20% 30% 40% 50% 60% 70% 80% 0% 1% 2% 3% 4% 5% 6%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

% acumulada

% de

currículos

Figura 1 – Porcentagem de CVs atualizados ao longo do tempo

3.2 Grandes Áreas

A Tabela 1 mostra os decis da variável dias desde a última atualização. Por exemplo,

ao se analisar os 10% CVs mais atualizados em Ciências Biológicas estaremos olhando para

CVs atualizados até 28 dias antes da data em que os CVs foram baixados. Ao se analisar 50%

de todos os currículos que declararam esta mesma grande área estaremos olhando para CVs

atualizados há até 247 dias antes da data em que foram baixados. A coluna Total contém o

número total de currículos pertencente ao respectivo grupo.

Tabela 1 – Número de dias desde a última atualização dos CVs por grande-área

Grande Área Total CVs 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Sem Grande Área 1.006.088 124 328 637 978 117 3 142 5 171 8 212 1 263 1 5782

Ciências Agrarias 141.730 31 63 103 168 278 441 661 104 3

206 6 5779

Ciências Biológicas 175.384 28 59 97 151 247 398 613 100 1

194 4 5783

Ciências da Saúde 459.825 45 95 158 257 397 530 741 109 3

192 1 5780

Ciências Exatas e da Terra 266.693 40 78 130 218 344 501 747 118 7

225 1 5796

Ciências Humanas 417.334 37 78 130 201 316 478 670 975 178 3 5779

Ciências SociaisAplicadas 439.330 47 99 168 275 418 561 776 114 6

200 9 5795

Engenharias 192.495 44 90 151 258 403 566 851 145 0

263 3 5814

Linguística, Letras e Artes 157.597 40 83 137 218 333 487 684 101 2

183 4 5599 Outros/Multidisciplinar 337.017 49 86 125 179 242 330 420 469 708 5780

(6)

Mundo Lattes 3.187.710 55 112 196 333 486 715 104 5 152 3 229 3 5814

Na Tabela 1 é possível observar que os CVs da área de Ciências Biológicas são

aqueles atualizados mais recentemente (exceto pela última coluna). Já os currículos que não

têm nenhuma área de atuação declarada são aqueles mais desatualizados (exceto novamente

pela última coluna). A última coluna da tabela representa a quantidade de dias passados desde

a última atualização do currículo com data de atualização mais antiga de cada grupo. Por isto,

esta informação não é muito representativa.

3.2 Formações Acadêmicas/Titulações

A Tabela 2 está organizada da mesma maneira que a Tabela 1, porém os CVs foram

agrupados de acordo com sua maior formação acadêmica. É interessante notar que mais de

dois terços dos CVs tem a graduação (completa ou em andamento) como maior formação.

Dentre os grupos, aqueles de maior formação são atualizados mais recentemente para a

grande maioria das colunas. É possível observar, por exemplo, que ao se analisar metade dos

CVs dos doutores (ou doutorandos) da plataforma estamos lidando com a última atualização

realizada em 114 dias. Já para os 20% dos currículos mais atualizados dos graduados (ou

graduandos) a última atualização foi realizada há 141 dias.

Tabela 2 – Número de dias desde a última atualização dos CVs por formação.

Maior Formação/Titulação Total CVs 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

SemFormação Declarada 108.758 621 793 120 2 202 1 229 0 244 2 258 4 280 4 320 2 5814

EnsinoFundamentalPrimeiroGrau 15.508 123 176 434 561 697 783 841 921 115 6 4157 EnsinoMédioSegundoGrau 121.554 112 196 368 485 621 697 781 849 1114 4284

CursoTécnicoProfissionalizante 30.940 205 552 678 781 878 104 4 132 9 176 2 260 4 5786

Graduação 2.203.076 70 141 247 384 523 791 113 8

156 1

223 9 5796

Mestrado 428.264 34 74 124 187 299 478 747 119

5 209

3 5787

Doutorado 279.610 19 34 55 79 114 167 281 533 131

(7)

Já para os possuidores de bolsa produtividade, 80% dos currículos atualizados mais

recentemente foram atualizados há menos de quatro meses da data em que os currículos foram

baixados (111 dias). Por outro lado, os CVs que não possuem nenhuma formação declarada

são aqueles que foram atualizados há mais tempo.

4 4 CONSIDERAÇÕES FINAIS

Alguns dos principais fatores considerados na análise de dados são: completude,

corretude e atualização dos dados(CAÑIBANO e BOZEMAN, 2009). Apesar dos dados

contidos na Plataforma Lattes serem de grande valia para pesquisas bibliométricas e

cientométricas nenhum destes fatores é garantido, pois os três dependem dos usuários que

estão cadastrando seus currículos e do recorte utilizado para selecionar os CVs Lattes. Mesmo

com estas limitações, a quantidade e a riqueza da informação disponível sãotão grandesque

justificam sua ampla utilização.

Neste trabalho analisamos a data da última atualização dos CVs considerando-se as

diferentes áreas de atuação e maior formação acadêmica. Com a análise apresentada

pretende-se deixar mais claro quais grupos de CVsmantêm atualizados (visão macro) de forma a

auxiliar os trabalhos futuros na seleção dos grupos de currículos a serem utilizados e/ou dos

recortes a serem feitos.

5 REFERÊNCIAS

ARRUDA, D. et al. Brazilian computer science research: Gender and regional distributions.

Scientometrics, v. 79, p.651-665, 2009.

ALVES, A. D.et al. LattesMiner: a multilingual DSL for information extraction from lattes

platform. In Proceedings of SPLASH’11, SPLASH ’11 Workshops, New York, NY, USA, p.85–

92, 2011.

CAÑIBANO C., e BOZEMAN B.Curriculum vitae method in science policy and research evaluation: the state-of-the-art. Research Evaluation, v. 18, n. 2, p.86-94, 2009.

COSTA, B.G. et al. Scientific collaboration in biotechnology: the case of the northeast region in Brazil. Scientometrics, v. 95, p. 571-592, 2013.

(8)

DIGIAMPIETRI, L. A. et al. Minerando e Caracterizando Dados de Currículos Lattes. In Proceedings of the Brazilian Workshop on Social Network Analysis and Mining (BraSNAM - CSBC 2012), 2012

_______________________ . Dinâmica das Relações de Coautoria nos Programas de Pós-Graduação em Computação no Brasil. In Proceedings of the Brazilian Workshop on Social Network Analysis and Mining (BraSNAM - CSBC 2012), 2012.

LEITE, P. et al. A new indicator for international visibility: exploring Brazilian scientific community. Scientometrics, v. 88, p. 311-319, 2011.

LIBEN-NOWELL, D. e KLEINBERG, J. The link prediction problem for social networks. In

Proceedings of the twelfth international conference on Information and knowledge management - CIKM ’03, New York, New York, USA, p. 556, 2003.

MENA-CHALCO, J. P. et al.Brazilian bibliometriccoauthorship networks. Journal of the Association for Information Science and Technology, 2014.

MENA-CHALCO, J. P.e CESAR JUNIOR, R. M. scriptLattes: an open-source knowledge extraction system from the Lattes platform. Journal of the Brazilian Computer Society, v.15, n. 4, p. 31-39, 2009.

SILVA, F. e SMIT, J. W. Organização da informação em sistemas eletrônicos abertos de Informação Científica & Tecnológica: análise da Plataforma Lattes. Perspect. ciênc. inf., Belo Horizonte , v. 14, n. 1, 2009 .

Imagem

Tabela 1 – Número de dias desde a última atualização dos CVs por grande-área
Tabela 2 – Número de dias desde a última atualização dos CVs por formação.

Referências

Documentos relacionados

Principais critérios: o ranking utiliza seis indicadores para classificar as universidades, incluindo o número de ex-alunos e docentes ganhadores de Prêmios Nobel,

"Todas as praias algarvias que se candidataram recebe- ram o galardão e este ano conseguimos o recorde absolu- to de praias com Bandeira Azul, são mais 14 praias que no.

 Identificação de eventuais medidas de P+L aplicadas nos curtumes que contribuam para melhoria da gestão de água destas unidades produtivas – do quadro 13, há

Todos os anos, na solenidade de Nossa Se- nhora Aparecida, em 12 de outubro, o rio Tietê recebe a imagem peregrina da Padroeira do Brasil.. O momento faz parte do projeto “Tietê

Prestar colaboração e assegurar de forma eficaz e eficiente a execução das tarefas da subunidade, nomeadamente: - proceder aos registos contabilísticos, encerramentos mensais,

O presente trabalho tem como objetivo fazer a prospecção de patentes de produtos desenvolvidos com Morinda Citrifolia, através do sistema Orbit e A61K36/746 (IPC), que

Os profissionais que não estão atuando na área puderam se desligar do CRF/MG até o dia 31 de março sem pagar a anuidade de 2018.. Conforme um parecer jurídico da Advocacia-Geral

Para continuar em prova, os atletas devem chegar e sair do posto de controlo antes do seu encerramento, caso contrário, só poderão continuar se entregarem o dorsal e o chip à