XVII Encontro Nacional de Pesquisa em Ciência da Informação (XVII ENANCIB)
GT 7 – Produção e Comunicação da Informação em Ciência, Tecnologia & Inovação
INEFICÁCIA DO POVOAMENTO AUTOMATIZADO DE REPOSITÓRIOS INSTITUCIONAIS A PARTIR DA WEB OF SCIENCE
INEFECTIVENESS OF AUTOMATED SETTLEMENT OF INSTITUTIONAL REPOSITORIES FROM THE WEB OF SCIENCE
Denilson de Oliveira Sarvo1, Leandro Innocentini Lopes de Faria2, Mesailde Souza de Oliveira Matias3, Paulo Matias4, Roniberto Morato do Amaral5
Modalidade da apresentação: Pôster
Resumo: Os repositórios institucionais de acesso aberto maximizam as ações voltadas para a preservação e promoção do livre acesso à informação científica, apesar dos inúmeros desafios de caráter político, tecnológico, de recursos humanos e gestão que tangem à sua implementação, nota-se um crescimento do
1
graduação em Biblioteconomia e Ciência da Informação pela Universidade Federal de São Carlos e MBA em Gestão de Unidades de Informação, atua como bibliotecário na Seção de Acesso às Bases de Dados da Biblioteca Comunitária - BCo/UFSCar
2 Professor Adjunto da Universidade Federal de São Carlos (UFSCar) desde 2002, vinculado ao Departamento de Ciência da Informação. Professor do Programa de Pós-Graduação em Ciência, Tecnologia e Sociedade da UFSCar. Coordenador executivo do Núcleo de Informação Tecnológica em Materiais da UFSCar. Atuação em Ciência da Informação, Prospecção Tecnológica, Inteligência Competitiva, Bibliometria e Indicadores de C&T. Engenheiro de Materiais pela UFSCar (1994). Doutor em Ciência e Engenharia dos Materiais pela Universidade Federal de São Carlos (2001) e em Ciência da Informação e Comunicação pela Universite dAix-Marseille III (2001)
3 graduação em Licenciatura Plena em Letras pela Universidade Federal do Pará (UFPA) e curso técnico Desenvolvedor de Programas pelo Instituto Federal de Educação, Ciência e Tecnologia do Pará (IFPA). Atualmente é Técnica em Tecnologia da Informação do Instituto Federal de Educação, Ciência e Tecnologia do Pará (IFPA). Especialista em Educação para Relações Étnicorraciais pelo mesmo Instituto.
4
Doutor (2016) em Física Aplicada - Computacional pelo Instituto de Física de São Carlos da Universidade de São Paulo. Mestre (2011) e Bacharel (2009) em Física Computacional pelo mesmo Instituto.
5
número de repositórios no país, contudo esses apresentam um baixo número de itens em suas coleções, o que pode estar relacionado com a ineficácia dos métodos de povoamento adotados. O objetivo deste estudo foi comparar a eficácia dos métodos de povoamento automatizados, envolvendo a extração de metadados da base de dados proprietária Web of Science e da Plataforma Lattes. O método utilizado foi o estudo de caso exploratório e a unidade caso foi a Universidade Federal de São Carlos (UFSCar). Como resultados, foram observadas diferenças significativas, nos resultados da aplicação dos dois métodos, quanto a completude e cobertura da produção científica recuperada, que se acentuaram quando analisadas por áreas do conhecimento. Conclui-se com base nos resultados que os métodos de povoamento a partir da Plataforma Lattes compreendem uma melhor solução quanto a completude e cobertura da produção científica.
Palavras-chave: Comunicação Científica. Acesso Livre. Repositórios Institucionais. Buscas em Linha. Extração de Informação em Bases de Dados.
Abstract: Open access institutional repositories maximize actions aimed at the preservation and promotion of free access to scientific information. Despite the numerous management, human resources, political and technological challenges concerning their implementation, one can notice a low number of items in their collections, which might be related to the ineffectiveness of the currently adopted settlement methods. The aim of the present study was to compare the effectiveness of the automated settlement methods, involving the extraction of metadata from the proprietary database Web of Science and from the Lattes Platform. The method utilized was the exploratory case study and the unit of analysis was the Federal University of São Carlos (UFSCar). Consequently, significant differences were observed in the result of the application of both methods, as to the completeness and coverage of the scientific production retrieved, differences which were accentuated when analyzed by areas of knowledge. Based on the results obtained, it was concluded that the settlement methods from the Lattes Platform comprise a better solution as to the completeness and coverage of scientific production.
Keywords: Scientific Communication. Open Access. Institutional Repositories. Online Searching. Knowledge Discovery in Databases.
1 INTRODUÇÃO
Merton (1977) aponta que a formalização da comunicação científica é resultado da
institucionalização da ciência iniciada durante o século XVIII por meio da criação de
organizações voltadas ao seu desenvolvimento e promoção. A partir dessa institucionalização, as
atividades científicas passam a ser orientadas por um interesse coletivo, o que aumenta a
necessidade de trocas de informação entre os indivíduos que buscavam compartilhar e obter
reconhecimento perante aos seus pares, essa dinâmica está presente nos dias atuais e constituem a
base da comunicação científica. O periódico científico é um dos principais canais de
comunicação utilizado pela ciência, existindo significativo interesse por parte dos autores em
publicar nos denominados periódicos centrais, indexados em bases de dados, que lhes concedem
publicações nesses periódicos resulta em barreiras de acesso à informação, por estarem
disponíveis somente em bases de dados privadas e com elevados custos para acesso (GOMES;
ROSA, 2010). Diante das barreiras de acesso à informação, o Movimento de Acesso Aberto surge
com o objetivo de gerar alterações no modelo de comunicação científica tradicional, promovendo
suas iniciativas por meio de duas estratégias: a via dourada, que promove a criação de periódicos
científicos e a via verde, relacionada com a criação de repositórios institucionais, um tipo de
biblioteca digital que visa organizar, armazenar, preservar e disseminar a produção científica da
instituição (GARCIA; SUNYE, 2003; KURAMOTO, 2006).
A implementação de repositórios institucionais apresenta diversos desafios: políticos, de
gestão, de recursos tecnológicos e humanos, entre esses o povoamento apresenta-se como uma
atividade complexa que exige grande demanda de recursos para sua realização. Diferentes
estratégias são adotadas pelas instituições para o povoamento de seus repositórios como as
políticas de depósito compulsório, o autoarquivamento, o povoamento mediado e os métodos de
povoamento automatizados. Matias (2015) apontou as dificuldades encontradas pelas instituições
para a identificação e recuperação de suas publicações científicas, as práticas de povoamento
automatizado descritas na literatura demonstram que as instituições nacionais têm optado pelo
uso de bases de dados proprietárias para a identificação, recuperação e coleta de metadados,
como exemplo, o caso da Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP)
que utilizou a Web of Science (WoS) como fonte de coleta de metadados para a criação de seu
repositório institucional, adotando posteriormente outras fontes como a SciELO, Scopus e a
Plataforma Lattes (VIDOTTI, 2015; VIDOTTI et al., 2015). Estratégias semelhantes foram
adotadas para o povoamento de repositórios como o caso da Universidade Estadual de Campinas
(UNICAMP) (LIMA et al., 2014) e a Universidade de São Paulo (USP), que adotou como fonte
de coleta a Web of Science e SciELO para o povoamento de seu repositório (FERREIRA, 2014).
Iniciativas de povoamento como as apresentadas por Matias (2015) e Vidotti (2015) têm
utilizado a Plataforma Lattes como alternativa para a obtenção de metadados armazenados nos
currículos acadêmicos dos pesquisadores que atuam no Brasil. Atualmente a Plataforma Lattes é
adotada como referência para a avaliação do desempenho dos pesquisadores pelas instituições de
ciência e tecnologia e agências de fomento (BRITO; QUONIAM, 2015). Apesar das iniciativas
necessário investigar a eficácia de tais métodos, quanto a completude e cobertura da produção
científica identificada e recuperada através deles.
Com o intuito de contribuir para o sucesso das iniciativas do movimento de acesso aberto
envolvendo a implementação de repositórios institucionais, o objetivo deste estudo foi comparar
a eficácia dos métodos de povoamento automatizados, envolvendo a extração de metadados da
base de dados proprietária Web of Science e da Plataforma Lattes.
2 DESENVOLVIMENTO
O método utilizado foi o estudo de caso exploratório (GRESSLER, 2007) e a unidade
caso foi a Universidade Federal de São Carlos (UFSCar), que contempla uma iniciativa de
povoamento automatizado baseada nos dados extraídos da Plataforma Lattes, desenvolvida por
Matias (2015), que possibilita a correlação entre os metadados coletados sobre a produção
científica da instituição, na Plataforma Lattes, com a sua estrutura organizacional.
Para a identificação e recuperação da produção científica da unidade caso, foi utilizada a
sistemática de carga automatizada de metadados a partir da Plataforma Lattes desenvolvida e
aplicada por Matias (2015), a coleta ocorreu no período de julho de 2015, sendo processados
1414 Currículos Lattes de docentes ativos e inativos da UFSCar, foram recuperados 116.960
registros, que posteriormente foram tratados quanto à duplicidade, resultando em 100.346
registros únicos. Os dados obtidos a partir da Plataforma Lattes foram tratados e analisados como
o uso do VantagePoint, software voltado para o tratamento estatístico e confecção de indicadores.
Com o auxílio do VantagePoint a produção científica indexada na base de dados Web of Science
foi identificada a partir da aplicação de tesauros com os números de ISSN dos periódicos, que
foram relacionados às áreas de conhecimento utilizadas pela WoS. Por fim, foram realizadas as
comparações e observações dos resultados alcançados com a extração automatizada dos
3 RESULTADOS
Após a aplicação dos algoritmos computacionais desenvolvidos por Matias (2015) para a
recuperação e extração dos dados da Plataforma Lattes e tratamento dos dados, foram selecionados
um total de 98.491 registros de artigos em periódicos e anais de eventos, posteriormente foram
identificados quais registros apresentavam o ISSN, identificador necessário para a comparação
entre registros do Lattes e da Web of Science. Do total de registros recuperados pelo Lattes 34.857
apresentam ISSN (35%), desses uma parcela de 13.325 registros estão indexados na WoS (14%)
(Tabela 1).
Tabela 1 – Resultado da coleta de metadados a partir da Plataforma Lattes
Artigo em periódico científico
Artigo em anais de
evento
Total (%)
Docentes ativos e inativos da UFSCar (1968-2014)
Registros na Plataforma Lattes 29939 68552 98491 100
Publicações com ISSN 21532 13325 34857 35
Publicações sem ISSN 3516 60118 63634 65
Indexações na WoS 12901 424 13325 14
Docentes ativos da UFSCar (1968-2014)
Registros na Plataforma Lattes 24963 57934 82897 100
Publicações com ISSN 22702 7399 30101 36
Publicações sem ISSN 2261 50535 52796 64
Indexações na WoS 11114 393 11507 14
Fonte: Elaborada pelos autores.
Visando uma comparação mais refinada entre a totalidade de artigos recuperados no
Lattes com o conteúdo indexado pela Web of Science optou-se por utilizar como amostragem os
artigos de periódicos científicos publicados no período de 1968-2014 por docentes ativos da
UFSCar, essa escolha ocorreu devido a 91% dos registros de artigos de periódicos recuperados
(24.963) apresentarem ISSN (22.702) possibilitando a comparação do conteúdo entre as duas
fontes. Apesar do número de publicações sem ISSN (65%), foi possível identificar diferenças
significativas quanto ao número de publicações recuperadas pelo Lattes e as indexadas na WoS.
Para estabelecer a relação das publicações recuperadas com as áreas de conhecimento
desenvolvidas pela instituição foi realizada a estratificação dos artigos científicos de acordo com
Tabela 2 – Estratificação por centros acadêmicos dos registros recuperados
Centros acadêmicos da UFSCar
Artigo em periódico científico
Indexações na WoS
(Total)
Indexações na WoS
(%)
Centro de Ciências Exatas e de Tecnologia 11657 6849 59 Centro Ciências Tecnologias para Sustentabilidade 930 503 54 Centro de Ciências Biológicas e da Saúde 5733 2724 48
Centro de Ciências da Natureza 430 197 46
Centro de Ciências Agrárias 1539 523 34
Centro de Ciências Humanas e Biológicas 761 211 28
Centro de Ciências em Gestão e Tecnologia 414 89 21
Centro de Educação e Ciências Humanas 3970 230 6
Fonte: Elaborada pelos autores.
As publicações indexadas na WoS apresentam maior cobertura nas áreas de ciência
exatas, tecnológicas, biológicas e da saúde, esse resultado é esperado devido ao enfoque dado ao
conteúdo da base de dados. Nota-se, porém, que somente 59% das publicações do Centro de
Ciências Exatas e de Tecnologia recuperadas na Plataforma Lattes e que continham ISSN estão
indexadas, ao analisar essa cobertura por departamentos observamos a não completude da
produção científica, mesmo nas áreas que são focos de cobertura da base, como por exemplo, o
Departamento de Química em que os docentes ativos apresentaram 79% das publicações
indexadas, Engenharia Química (71%), Física (69%) e Engenharia de Materiais (53%). O mesmo
ocorre com os departamentos ligados às áreas de ciências biológicas e da saúde como Genética e
Evolução (76%), Ciências Fisiológicas (70%), Biologia (62%), Fisioterapia (54%) e Medicina
(47%).
No caso dos centros ligados a área das ciências humanas é nítida que a coleta de
metadados via WoS não garante a cobertura mínima para a recuperação de metadados,
apresentando apenas 6% do conteúdo do Centro de Educação e Ciências Humanas. Ao realizar a
análise por departamentos essa ausência de cobertura é ressaltada, o Departamento de Psicologia
tem contemplado 16% de sua produção científica indexada, Ciência da Informação (11%),
Administração (7%) e Economia (5%), é importante ressaltar que esses são os departamentos da
UFSCar ligados à área de ciências humanas que apresentaram maior número de itens indexados
4 CONSIDERAÇÕES PARCIAIS
O estudo demonstra como a escolha da fonte para a coleta de metadados pode influenciar a
capacidade do repositório de representar a totalidade da produção científica institucional, nota-se
que diversas iniciativas de povoamento automatizado têm se restringido a utilização de bases de
dados proprietárias, que possuem os mesmos tipos de limitações que as apresentadas no presente
estudo. Essa ineficácia, como identificada na WoS, está relacionada às características das bases de
dados proprietárias, que compreendem conteúdos ligados a determinadas áreas de conhecimento,
limitações de títulos indexados e de período de cobertura, o que justifica a inexistência de
registros que representem a totalidade da produção científica da instituição.
Nesse sentido recomenda-se o uso de fontes que garantam a recuperação de registros que
melhor representem a completude da produção científica institucional, como a Plataforma Lattes,
que devido ao caráter compulsório que assume no país, pode garantir uma melhor cobertura e
completude na identificação e recuperação da produção científica institucional. Cabe ressaltar a
necessidade da aplicação de uma sistemática que garanta a integridade dos registros recuperados,
como a desenvolvida e aplicada por Matias (2015).
Como perspectiva para o desenvolvimento desta pesquisa estão o tratamento e a
identificação dos números de ISSN de todo o conteúdo recuperado, salvo os registros
bibliográficos que não apresentam essa informação, a partir da utilização do ISSN-L,
identificador único atribuído a um título de uma obra seriada e que reúne todas as versões de
ISSN, que essa possui referente às suas diferentes versões e suportes, o que possibilitará uma
análise comparativas mais abrangente dos dados obtidos na Plataforma Lattes com os de outras
fontes, a fim de verificar qual a eficácia dos diferentes métodos destinados à coleta de metadados
REFERÊNCIAS
BRITO, A. G. C.; QUONIAM, L. Uso da Plataforma Lattes por assunto: recuperação automática de identificadores dos Currículos Lattes. In: REUNIÃO ANUAL DA SBPC, 67., 2015. Anais... São Carlos: UFSCar, 2015.
DAVYT, A.; VELHO, L. A avaliação da ciência e a revisão por pares: passado e presente. Como será o futuro? História, Ciências, Saúde-Manguinhos, v. 7, n. 1, p. 93-116, 2000.
FERREIRA, S. M. S. P. Da política institucional de informação da Universidade de São Paulo ao acesso aberto à produção científica do CRUESP. Revista Eletrônica de Comunicação,
Informação & Inovação em Saúde, v. 8, n. 2, p. 195-209, 2014.
GARCIA, P. A. B.; SUNYE, M. S. O protocolo OAI-PMH para interoperabilidade em bibliotecas digitais. In: CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS DO CONE SUL - CONGED, 1., 2003, Ponta Grossa. Anais... Ponta Grossa: UFPR, 2003. v. 1. GOMES, M. J.; ROSA, F. Comunicação científica: das restrições ao acesso livre. In: GOMES, M. J.; ROSA, F. Repositórios institucionais: democratizando o acesso ao conhecimento. Salvador: EDUFBA, 2010. p. 11-34.
GRESSLER, L. A. Introdução à pesquisa: projetos e relatórios. 3 ed. São Paulo: Loyola, 2007. KURAMOTO, H. Informação científica: proposta de um novo modelo para o Brasil. Ciência da Informação,v. 35, n. 2, p. 91-102, 2006.
LIMA, G. M. et al. Implantação da biblioteca digital da produção intelectual e científica da UNICAMP: disseminando informação tecnológica. Sínteses: Revista Eletrônica do SIMTEC, n. 5, 2014.
MATIAS, M. Base referencial para o povoamento de repositórios institucionais: coleta automatizada de metadados da Plataforma Lattes. 2015. Dissertação (Mestrado em Gestão de Organizações e Sistemas Públicos) - Universidade Federal de São Carlos, São Carlos, 2015.
MERTON, R. K. La estructura normativa de la ciencia. In: MERTON, R. K. La Sociologia de la ciencia. Madrid: Alianza, 1977. p. 355-368.
VIDOTTI, S. A. B. G. Coleta de dados a partir dos currículos da Plataforma Lattes:
procedimentos utilizados no repositório institucional UNESP. Ponto de Acesso, v. 9, n. 3, p. 117-132, 2015.
VIDOTTI, S. A. B. G. et al. Reutilização de metadados para o povoamento de um repositório institucional: procedimentos aplicados no repositório institucional UNESP. In:
INTERNATIONAL CONFERENCE ON DUBLIN CORE & METADATA APPLICATIONS (DC-2015), 15., 2015, São Paulo. Proceedings…, 2015. p. 234-235. Disponível em: