• Nenhum resultado encontrado

ANALISE DE PROPRIEDADES DE ARTIGOS DIGITAIS BIOMEDICOS COMO INDICADORES DA DINÂMICA DO CONHECIMENTO CIENTIFICO

ANALISYS OF PROPERTIES OF BIOMEDICAL DIGITAL ARTICLES AS INDICATORS OF THE DYNAMIC OF SCIENTIFIC KNOWLEDGE

Carlos H. Marcondes Luciana Reis Malheiros

Resumo: Apesar de amplamente utilizados e reconhecidos como indicadores de contribuições à ciência, citações têm longo tempo de maturação, dependem de que uma nova contribuição à ciência seja publicada e posteriormente citada por outros autores para que se tornarem efetivos. No contexto de sistemas Web de submissão de artigos a periódicos eletrônicos, propõe-se como indicador da relevância de um artigo a comparação do conteúdo de sua conclusão com termos contidos em terminologias biomédicas padronizadas hoje também disponíveis na Web. Artigos com conclusões cujos termos sejam pouco representados nestas terminologias seriam um indicador de que tais artigos trariam contribuições relevantes. Esta comparação seria poderia ser feita automaticamente pelo próprio sistema e se daria no momento da submissão/publicação do artigo, quando a sua conclusão seria digitada pelo próprio autor juntamente com os outros metadados bibliográficos convencionais. O objetivo do trabalho é discutir as bases teóricas, opções metodológicas e resultados obtidos até agora, que sustentam esta proposta. Como metodologia para avaliar a efetividade do indicador, conjuntos de artigos que reportam resultados de uma descoberta significativa nas ciências biomédicas foram analisados cronologicamente e o indicador calculado para cada artigo. Constatou-se que quando termos nas conclusões não eram identificados/mapeados a termos MeSH que indexavam um artigo, o mesmo trazia uma contribuição relevante para a área.

Palavras-chave: indicadores bibliométricos, publicações eletrônicas, Medical Subject Headings, Web Semântica, publicações semânticas.

Abstract: Although largely used and recognized as indicators of the relevance of contributions to science citations are mechanisms which have large time delay, depend on the publication of new contributions and their citation to be effective. Within the scope of a Web submission system to an electronic journal an indicator of the relevance of a scientific article is proposed based on the comparison between the content of biomedical articles conclusion with terms in standard biomedical terminologies today available throughout the Web. Articles with conclusions which terms are poorly represented in those terminologies are indicators that such articles report relevant contributions. The comparison could be automatically performed by the system at the moment of submission/publishing an article, when an article conclusion would is typed by the author, together with conventional bibliographic metadata. The aim of this paper is to discuss theoretical bases, methodological options and results obtained so far that support the proposal of such an indicator. As a methodology to evaluate the effectiveness of the indicator groups of articles which report relevant contributions to science were chronologically analyzed and the indicator was calculated to each article. When terms in the conclusion of an article were not identified/mapped to MeSH terms which index the article record such article does reports a relevant contribution.

Keywords: Bibliometric indicators, electronic publishing, Medical Subject Headings, Semantic Web, semantic publishing.

1 INTRODUÇÃO

“If I have seen farther, it is by standing on the shoulders of giants”16

A ciência se desenvolve sobre o conhecimento previamente acumulado. O mecanismo universalmente aceito para o compartilhamento do conhecimento científico é a comunicação científica através de artigos avaliados por pares e publicados em periódicos de prestígio entre a comunidade de determinada área. O conhecimento científico é acumulado e disseminado através das coleções armazenadas em bibliotecas e, atualmente, nas suas congêneres digitais.

Citações tem sido o mecanismo tradicionalmente utilizado para filtrar as contribuições relevantes para a ciência. O pressuposto implícito no uso de citações é que um autor, ao citar outro artigo, esta avalizando seu conteúdo e a contribuição deste para sua própria pesquisa. Desde a década de 70 citações são compiladas sistematicamente em sistemas como Science Citation Index17. Citações são utilizadas como insumo na avaliação, fomento e planejamento da atividade científica, por governos, agências de fomento, universidades; este mecanismo de avaliação é considerado e faz parte do cotidiano de todo cientista.

No entanto várias críticas têm sido feitas aos métodos bibliométricos e cientométricos. Segundo Niiniluoto (2002), estes métodos: “... do not take into account the semantic content of scientific publications”. Apesar de amplamente utilizados e reconhecidos, citações são mecanismos de avaliação a posteriori da relevância de resultados de pesquisa. Têm maturação longa, dependem de que uma nova contribuição à ciência seja publicada e posteriormente citada por outros autores. Este ciclo, dependendo da área, pode levar vários meses e até mesmo anos. São conhecidos os casos de contribuições importantes para a ciência que permaneceram vários anos sem serem citadas, as chamadas “sleeping beauties” da ciência (Van Haan, 2004).

O surgimento da Web vem impactando cada vez mais a atividade científica. Este impacto pode ser percebido em diversos aspectos. Nas atividades tradicionalmente abrangidas pela Ciência da Informação, como comunicação científica, citações e avaliação da ciência, recuperação da informação, etc., surgem novos mecanismos viabilizados pela plataforma Web, como bases de dados, repositórios, bibliotecas digitais, publicações digitais, identificadores persistentes de publicações digitais, além de movimentos como o livre acesso, que permitem acesso imediato e mais democrático aos resultados de pesquisa, todos

16

Carta de Isaac Newton a Robert Hooke, 5 de fevereiro de 1676.

17

impensáveis no período pré-Web. Esta mudança de cenário vem impactando e colocando novos desafios para a CI.

As próprias atividades de pesquisa passam cada vez mais a serem mediadas pelas tecnologias de informação. O computador trouxe o laboratório para mesa do cientista. A coleta sistemática de grandes quantidades de dados em formatos processáveis por computador alterou os próprios métodos de fazer ciência (THE FOURTH PARADIGM, 2009), permitindo a publicação e citação de conjuntos de dados de pesquisa, viabilizando seu compartilhamento e reuso destes dados entre a comunidade científica (datacite.org). Grandes projetos científicos cooperativos interligados pelas tecnologias da informação são hoje viabilizados, como até então não havia sido possível (projeto Genoma Humano18, identificação do bóson de Higgs pelo CERN19, o telescópio Huble pela Web20, etc.). Junto a estas iniciativas, as tecnologias da informação – TIs -, viabilizam também o tratamento do conhecimento contido da crescente quantidade de publicações digitais, através, por exemplo, dos métodos denominados “Literature-based discovery” (SWANSON et al., 2006), (KOSTOFF et al., 2008) e “text mining” (BATH, 2002).

Hoje é possível, tendo como base a plataforma Web, interligar diferentes atividades e recursos científicos, sejam elas publicações, conjuntos de dados, códigos computacionais, ontologias computacionais/vocabulários padronizados, capazes de agregar semântica a este conjunto de informações. Tecnologias como dados abertos interligados (BIZER; CYGANIAK; HEATH, [2007]) e protocolos de interoperabilidade, juntamente como os novos formatos de publicação científica utilizando as tecnologias da Web Semântica, técnicas computacionais de visualização e mineração de grandes conjuntos de dados, permitem formar uma “rede de conhecimento” (MARCONDES, 2012). Esta “rede”viabiliza a integração de dados científicos, seu reuso, seu processamento distribuído, além de novas e inéditas aplicações, acelerando o avanço da ciência.

Com relação às publicações científicas, o repositório PubMed tem registradas hoje mais de 23 milhões de artigos científicos, oferecendo novas e inusitadas oportunidades para o tratamento deste conteúdo por meio de computadores. Neste contexto, pode-se especular sobre a viabilidade de novos métodos e indicadores que, com o aporte da Web como plataforma tecnológica, permitam identificar potenciais contribuições relevantes para a ciência com base no

18 Ver em http://www.genome.gov/12011238. 19 Ver em http://press.web.cern.ch/. 20 Ver em http://hubblesite.org/.

conteúdo de artigos científicos digitais, seja de elementos ricamente “semânticos” do próprio texto, como de sua conclusão, ou de seus metadados, assinalados pelo próprio autor no momento da submissão do artigo, ou posteriormente, por serviços de informação, quando do seu registro nestes. Estes conteúdos podem ser registrado segundo os novos formatos semânticos trazidos pela Web Semântica. Tais indicadores poderão ajudar a superar as limitações dos tradicionais indicadores bibliométricos como a citação, que têm um longo tempo de maturação.

As possibilidades delineadas acima começaram a ser exploradas na pesquisa desenvolvida por Malheiros (2010) e Malheiros e Marcondes (2013), ao explorarem novos indicadores de relevância de publicações científicas, tornados viáveis no contexto dão novo ambiente Web de publicações semânticas. Propõe-se aí como indicador a comparação do conteúdo de conclusões de artigos biomédicos com termos contidos em terminologias biomédicas também disponíveis na Web. Esta comparação seria feita pelo próprio autor e no momento da submissão do artigo a um periódico, no contexto hoje bastante comum21, de um sistema Web de submissão de artigos pelos próprios autores, a um periódico científico eletrônico.

A presente proposta de pesquisa amplia estes resultados, revendo a metodologia utilizada à luz da experiência da pesquisa anterior e aplicando-a a um novo conjunto de artigos que também reportam a evolução de uma descoberta ao longo do tempo. O objetivo geral desta pesquisa é buscar e tornar operacionais tais métodos e indicadores. Como objetivo específico, este trabalho quer expor e discutir (na seção 4) metodologias que viabilizem identificar possíveis indicadores de novas descobertas através da analise de um conjunto de artigos – seu conteúdo e seus metadados -.

Este trabalho está organizado como se segue. Após esta Introdução, a seção 2 discute os antecedentes da pesquisa atual, detalha seus pressupostos e hipóteses; a seção 3 discute as bases teóricas e metodológicas que sustentam a hipótese de novos indicadores de relevância de uma publicação científica; a seção 4 resume os resultados já obtidos na fase anterior da pesquisa e apresenta resultados parciais da fase atual; a seção 5 concentra o objetivo específico do trabalho, discutir a metodologia de análise de um conjunto de artigos na busca de novos indicadores de relevância de contribuições à ciência e os resultados da sua aplicação a um novo conjunto de artigos; por fim, a seção 6 apresenta as considerações finais.

21

Um bom exemplo seria o sistema SEER – Sistema Eletrônico de Editoração de Revistas, um “software” livre, distribuído pelo IBICT. Ver em http://seer.ibict.br/;

2 ANTECEDENTES: IDENTIFICAÇÃO DE INDÍCIOS DE DESCOBERTAS