DA POSSIBILIDADE DE UMA WEB OF SCIENCE PARA A
AMÉRICA LATINA E CARIBE
:
extração automática de uma base de citações do SciELO para o periódico PCI
e para a Coleção Saúde Pública
Profa. Dra. BEATRIZ VALADARES CENDÓN (ECI-UFMG; orientadora) Profa. Dra. MARIA CRISTINA SOARES GUIMARÃES (ICICT-FIOCRUZ)
Profa. Dra. CÍCERA HENRIQUE DA SILVA (ICICT-FIOCRUZ)
Prof. Dr. RICARDO HIROSHI CALDEIRA TAKAHASHI (MATEMÁTICA-UFMG) Profa. Dra. MARLENE OLIVEIRA TEIXEIRA DE MELO (ECI-UFMG)
Profa. Dra. RENATA MARIA ABRANTES BARACHO PORTO (ECI-UFMG)
UTOPIA / MOTOR:
inverter a relação 99% suor + 1% análise PARA 1% suor + 99% análise INÍCIO [no doutorado]:
• Discussão no grupo de pesquisa: TCC Wesley R. Fernandes
Disponibilidade no PORTAL CAPES das fontes citadas nas teses de 2005-2007 na ECI-UFMG • Continuidade: BDTD (extração automática de PDF…)
PIBIC – problemas de padronização das referências Redes Neurais: base criada manualmente - Magali R. G. Meireles • SciELO – arquivos XML
Relevância do trabalho • Possibilidade de…
• estudos posteriores por área, periódico, coleção… • aumento da visibilidade dos periódicos do SciELO • automação da extração de dados estatísticos
Criação de uma metodologia que permtirá a interpretação de todos os arquivos XML do SciELO
oferecendo a possibilidade de criação de uma Web of Science para a América Latina, Caribe e outras Coleções do SciELO
• Introdução (Cap. 1) 1’ – 11’ • Fundamentação teórica (Cap. 2) 11’ – 25’ • Metodologia (Cap. 3) 25’ – 37’
• FASE I – Dados Cadastrais
• Resultados (Cap. 4) • Análise da FASE I (Cap. 7) • FASE II – Base de Citações (Cap. 3)
• Análise das FASES I e II (Cap. 7)
• Resultados para a PCI (Cap. 5) 37’ – 42’ • Resultados para a CSP (Cap. 6) 42’ – 46’ • Análise da FASE II (Cap. 7) 46’ – 48’
• Garfield (processamento manual) • PORTAL CAPES
ARMAZENAMENTO MAGNÉTICO
• Grandes volumes de dados • Automação
• Nascimento do ISI - WoS
ÍNDICES LOCAIS • Importância • Políticas, investimentos, avaliação
SciELO
Extração automática (XML)FIGURA 1 – Fundamentos para estudo das bases de citações
Fonte: Desenvolvida pelo autor
Estruturação da fundamentação teórica (CAP. 2)
BC
Bibliotecas Digitais de Periódicos Científicos BIBLIOTECAS DIGITAIS Cientometria BIBLIOMETRIA Avaliação de Coleções Digitais AVALIAÇÃO DE COLEÇÕESJustificativa
• Medir publicações científicas não cadastradas no ISI é importante,
porém há carência de bases de dados nesses moldes
• SciELO: iniciativa para contemplar essas publicações
(MENEGHINI, 1998)
• Áreas de conhecimento em que a tradição é de disseminação local
(CENDÓN, GUIMARÃES, SILVA, OLIVEIRA, MATTOS, SANTANA e FERNANDES, 2012)
• Processos de gestão de atividades científicas deformados pela falta
de índices locais
Justificativa
• Dificuldade: processar um enorme volume de dados • Esforços datam de 1927 (mapeamento fracionado)
(GARFIELD, 1972)
• Usar a tecnologia como recurso essencial de desenvolvimento da CI Protótipo
• Integração CC e CI:
Lourenço (2005) – MER e MTD-BR
Pergunta
É POSSÍVEL A AUTOMAÇÃO DO PROCESSO DE CRIAÇÃO DE UMA BASE DE CITAÇÕES PARA OS PERIÓDICOS
DO SciELO?
Objetivos
• Descrição de uma metodologia para a criação de uma base de
citações atualizada automática e continuamente a partir dos periódicos cadastrados no SciELO
• Desenvolver um protótipo para testar a metodologia • Validar o protótipo para testar sua aplicação prática • Identificar fatores limitadores e propor alternativas
Premissas e limites
• Não se pretendeu corrigir o conteúdo dos arquivos XML • Não foram usados critérios para filtragem de informações
• Não integra o escopo do trabalho a análise específica de nenhuma
área
• O processo depende dos padrões identificados para acesso aos dados
Periódicos científicos e a Internet: bibliotecas digitais
• “A comunicação [científica] situa-se no próprio coração da ciência”
(MEADOWS, 1999)
• Internet: visibilidade a todos os periódicos
• Preços: incentivo à disseminação de periódicos de acesso aberto • SciELO (meados 1990)
(MENEGHINI E SILVA, 2012, informação verbal)
• Bibliotecas digitais:
• Expansão do número de usuários e abrangência
Bibliometria e Cientometria: criação e uso da Web of Science
• Price (Lotkka, Bradford, Zipf): leis cientométricas; “mapas de ciência” • “Mapas”: evidenciam importância e cobertura das revistas
• “Mapas”: embasamento do projeto do ISI
(SANTOS E KOBASHI, 2009)
• VINITI – All-Union Institut for Science and Technical Information • Academia de Ciências da ex-URSS
• 1969: Nalimov e Mulchenko – termo “cientometria” no título • Nalimov (cibernética), Styazhkin e Vledutsiv em 1959:
“As informações científicas e técnicas como uma das tarefas da cibernética”
(VANTI, 2011)
Bibliometria e Cientometria: criação e uso da Web of Science
• Garfield percebeu a possibilidade de uso das referências citadas
como elementos de recuperação assim como palavras-chave
• Base para a criação da WoS
(VANTI, 2011)
• WEB OF SCIENCE
• +12.000 periódicos de grande impacto no mundo inteiro • +150.000 conferências
• + 250 disciplinas • A partir de 1.900
01.10.2013 MAX CIRINO DE MATTOS
Bibliometria e Cientometria: criação e uso da Web of Science • ISI: “rei” absoluto
• “Candidatos ao trono”: limitação uma/poucas áreas; não
empreendem esforços para prover índices de citação nos moldes do ISI (ADAM, 2002)
• Importância de índices locais para o desenvolvimento científico (WEBSTER, 1998;
XIN-NING, 2001;
GOGOLIN ET AL., 2003;
NEGISHI, SUN e SHIGI, 2004; SULEIMENOV, 2009;
GUIMARÃES, SILVA, SANTANA, BRAGA, BOCHNER, E GOLDBAUM, 2011;
CENDÓN, GUIMARÃES, SILVA, OLIVEIRA, MATTOS, SANTANA E FERNANDES, 2012; ZIBAVERA e PARMON, 2012)
Bibliometria e Cientometria: criação e uso da Web of Science
(Interesse: criação do ISI -> criação da BC do SciELO) GARFIELD (1972; 1979; 1992; 1995)
• Mapas fragmentados (esforço manual) • Uso de meio magnético
• Amostra: out/dez 1969 (2.200 periódicos; 1.000.000 citações) • Listagens:
• Frequência de citações
• Estatística dos periódicos citados • Estatística dos periódicos citantes
FIGURA 6 – Frequências de citações
32
33
FIGURA 7 – Estatísticas dos periódicos citados Fonte: Garfield, 1972, p.52934
Fonte: Garfield, 1972, p.530 FIGURA 8 – Estatísticas dos periódicos citantesBibliometria e Cientometria: criação e uso da Web of Science
(Interesse: criação do ISI -> criação da BC do SciELO) Base de citação (GARFIELD):
• Potencial de gerenciamento de coleções de periódicos
• Principal aplicação: avaliação de pesquisas e políticas científicas • Definição de políticas de investimento e avaliação de desempenho • Alerta para a cobertura seletiva do ISI: sugeriu a criação de um
Bibliometria e Cientometria: criação e uso da Web of Science • WoS x Google Scholar (WINTER, ZADPOOR E DODOU, 2013)
• Acesso restrito X público
• Indexação seletiva X coleta automática (frágil)
Jacsó (2005; 2008), Cathcart e Roberts (2005);
Donlan e Cooke (2005); Vine (2006) e Wleklinski (2005)
• Evolução do Google Scholar
• Química, Física, Economia, Medicina (HARZING, 2013)
• Perfis de +30.000 pesquisadores (RADICCHI E CASTELLANO, 2013) • Críticas aos resultados (PRATHAP, 2013)
Bibliometria e Cientometria: criação e uso da Web of Science • Colaboração científica
• Coautoria (SCHUBERT E BRAUN, 1990)
• Cooperação Turquia/Malásia: combustíveis energéticos
(KUMAR E JAN, 2013)
• Estudos de gênero
• Produção feminina iraniana (NOURMOHAMMADI E HODAEI, 2013)
• Preferência no uso de gráficos e tabelas entre homens e mulheres
(HARTLEY E CABANAC, 2013)
• Nanotecnologia – JCR 2005 e 2007 (SOTUDEH E KHOSHIAN, 2013) • Uso do EXCEL e SPSS (99% suor…)
Bases de citações locais e o uso do SciELO • Negishi, Sun e Shigi (2004)
• Criação de um índice de citações para periódicos japoneses
Citation Database for Japanese Papers (CJP)
• Importância da criação de índices de língua não inglesa • Chinese Science Citation Database
• China Scientific and Technical Papers and Citations Database
• Chinese Social Science Citation Index
• Zibareva e Parmon (2012) : Russian Science Citation Index • Suleimenov et al. (2009) : Kazakh Science Citation Index
Bases de citações locais e o uso do SciELO • América Latina e Caribe
• Krauskopf et al. (1995) : ISI entre 1981 e 1993
Argentina, Brasil, chile, Colômbia, Costa Rica, Cuba, Jamaica, México, Peru e Venezuela (recebido em 10 mai. 1995)
• Collazo-Reyes (2013): português passou a ser a segunda língua
– atrás apenas do inglês – na produção científica registrada no ISI para países da América Latina e Caribe
• Análise bibliométrica da produção científica sobre AIDS na
América Latina e Caribe
(MACIAS-CHAPULA, RODEA-CASTRO E NARVAEZ-BERTHELENOT, 1998)
Bases de citações locais e o uso do SciELO
• O uso de indicadores provenientes do SciELO contribui para a
adequação de critérios de avaliação da produção científica nacional (MUGNANI, 2006)
• “a metodologia do Projeto [SciELO] é diferenciada do conjunto de
informações levadas à Internet, por obedecer a rígido controle de avaliação, seleção e operacionalidade”
(VASCONCELLOS, 1999)
Bases de citações locais e o uso do SciELO
• Obtenção dos dados estatísticos de forma manual
• Goldenberg et al. (2007) – Acta Cirúrgica Brasileira • Solano e Valdivea (2003) – AIDS 1997 a 2003
• Población e Goldenberg (2001) – Acta Cirúrgica Brasileira • A importância do SciELO é inegável
Outras aplicações: avaliação de coleções digitais • O que o acervo possui e não deveria possuir;
e o que não possui mas deveria possuir… (LANCASTER, 1996)
• Acervo do PORTAL CAPES
• 45% dos artigos citados estavam disponíveis no PORTAL CAPES • Análise bibliométrica como critério para gestão do acervo
(FERNANDES E CENDÓN, 2010)
• Histórico de criação do PORTAL CAPES e composição do acervo
(CORREA ET AL., 2008; ALMEIDA, GUIMARÃES E ALVES, 2010; FERNANDES, 2012)
Outras aplicações: avaliação de coleções digitais • Estudos sobre a coleção do PORTAL CAPES
• Avaliação a partir da percepção do usuário
(MAIA, 2005; CUNHA, 2009; SANTANA e PEIXOTO, 2010; FERNANDES, 2012; MAIA e CENDÓN, 2012)
• Avaliação a partir da existência das referências citadas
(OLIVEIRA e ODDONE, 2007; FERNANDES, 2009;
FERNANDES e CENDÓN, 2010; SANTANA e PEIXOTO, 2010)
• Limitações:
Caracterização da pesquisa
• Pesquisa aplicada ou exploratória (LAKATOS E MARCONI, 2007)
Demonstrar a viabilidade de um determinado programa ou técnica como uma solução em potencial para problemas práticos
• Híbrida (CRESWELL E CLARCK, 2011)
Utiliza métodos qualitativos (abstração, generalização - metodologia) e quantitativos – base de citações associada à bibliometria
FIGURA 9 – Visão geral da metodologia: passos e modelagem de dados simplificada
FASE I – Dados Cadastrais FIGURA 3 – Processo automático de preparação dos dados cadastrais dos periódicos do SciELO Fonte: desenvolvida
• Periódicos de uma Coleção
• Periódicos correntes e não-correntes
FASE I – Dados Cadastrais
Fonte: desenvolvida pelo autor
FASE I – Dados Cadastrais – Resultados (CAP. 4)
FASE I – Dados Cadastrais – Resultados (CAP. 4) • 904 periódicos
• 895 vinculados a somente 1 Coleção • 9 encontrados em 2 Coleções
• 1 delas sempre a CSP
MESMO ISSN EM DUAS COLEÇÕES
DADOS CADASTRAIS DIFERENTES?
FASE II – Base de Citações
FIGURA 2 – Fases para a criação da base de citações do SciELO
FASE II – Base de Citações
Fonte: Desenvolvida pelo autor
FASE II – Base de Citações
• Dados fonte de cada periódico (scielo_estatistica – 7.324 registros) • ISSN, ano, fascículos, artigos
FASE II – Base de Citações Fonte: Desenvolvida pelo autor FIGURA 18 – Módulo “Base de Citações”
FIGURA 28 – Quantidade de registros incorporados no banco de dados: PCI
FASE II – Base de Citações – Análise (CAP. 7) FASE I x FASE II TABELA 16 – Periódicos encontrados em mais de uma Coleção do SciELO e dados XML
FIGURA 22 – Resumo da importação de dados do SciELO: dados fonte e arquivos XML
FIGURA 29 – Frequências de citações: PCI
Fonte: desenvolvida pelo autor
Fonte: desenvolvida pelo autor
Fonte: desenvolvida pelo autor
Fonte: desenvolvida pelo autor
Fonte: desenvolvida pelo autor
FIGURA 35
FIGURA 37
Problemas identificados que podem justificar diferenças • Exclusão de informações do SciELO
• Estrutura incompleta de TAGS XML
FASE II – Base de Citações
• Importação foi considerada satisfatória: > 260.000 arquivos XML • As 4 situações identificadas, caso corrigidas,
podem reduzir significativamente as diferenças encontradas
• Sugere-se uma análise mais aprofundada da metodologia SciELO • Falta de padronização de nomes de autores e fontes
Próximos passos
• Criação de bases de citação para cada periódico do SciELO • Criação de base centralizada com todos os periódicos
para consultas da produção científica nacional registrada no SciELO
• Gestão de conteúdo: criação de interfaces para desambiguação
manual
Desambiguação automática de nomes de autores e de fontes • Muita informação incompatível e redundante em SICT
(LATTES, OJS/SEER, QUALIS, COLETA, BDTD)
• Vinculação por CPF / Researcher ID / Google Acadêmico • Aspectos culturais, políticos, tecnológicos
• FAPESP: exige Researcher ID
• CPF informado no OJS/evento: dados do LATTES
• Evita duplicação de nome em eventos por grafia diferente • Distingue homônimos
• ISSN: obtenção automática do QUALIS
Avaliação automática de coleções: PORTAL CAPES
• A partir das fontes armazenadas na base de citações • Para determinado periódico ou Coleção
• Fazer a consulta automática ao PORTAL CAPES • Identificar fontes disponíveis no PORTAL…
… e fontes usadas mas não disponíveis
• Repetir o processo para outras bibliotecas digitais • OJS/SEER
Relevância do trabalho • Possibilidade de…
• estudos posteriores por área, periódico, coleção… • aumento da visibilidade dos periódicos do SciELO • automação da extração de dados estatísticos
Criação de uma metodologia que permtirá a interpretação de todos os arquivos XML do SciELO
oferecendo a possibilidade de criação de uma Web of Science para a América Latina, Caribe e outras Coleções do SciELO
Possibilidades…
FIGURA 20 – Periódicos SciELO agrupados por área de conhecimento
Descrição de uma metodologia para a criação de uma base de citações atualizada automática e continuamente a partir dos periódicos cadastrados no SciELO
Desenvolver um protótipo para testar a metodologia Validar o protótipo para testar sua aplicação prática Identificar fatores limitadores e propor alternativas