4. PROPOSTA DO TRABALHO E METODOLOGIA
4.1. Captura
4.1.2. Captura de dados a partir de artigos XML da base PLOS ONE
O XML (eXtensible Markup Language), é uma linguagem de marcação para a criação de documentos com dados organizados hierarquicamente, tais como textos, banco de dados ou desenhos vetoriais. Assim, é possível padronizar uma sequência de dados com o objetivo de organizar, separar o conteúdo e integrá-lo com outras linguagens, personalizando a estrutura de acordo com a necessidade.
O processo de captura em artigos no formato XML consiste basicamente na identificação de campos de dados rotulados, pois estes tipos de arquivos já estão digitalmente formatados e padronizados de acordo a respectiva estrutura de dados proposta.
Neste trabalho, foram utilizados artigos no formato XML que seguem a formatação padronizada da base de dados aberta PLOS ONE [69]. Desta forma, dado o padrão de conjunto de chaves e valores do modelo PLOS ONE, foram analisados todos os rótulos necessários para identificar e extrair os seguintes atributos destes artigos:
Artigo
Título da publicação
Identificador único da publicação
Autor (nome)
País (localização dos autores)
Palavras-chave (definida por critério da PLOS ONE)
Ano de publicação (ano de publicação do artigo)
Seguindo o padrão de extração para arquivos PDF, descrito anteriormente, também serão extraídos atributos secundários, como as referências de artigos, as quais serão inseridas como informações complementares dos nós. Da mesma forma, os relacionamentos entre os atributos estão listados em um tópico adiante e foram extraídos de acordo com a ocorrência destes para cada artigo.
Capítulo 4 - Proposta do Trabalho e Metodologia 54 É importante mencionar que o atributo "palavra-chave" na base de dados PLOS ONE é uma informação definida por um processo padronizado próprio, que confere determinadas palavras-chave de acordo com o conteúdo do artigo, após uma análise realizada por um algoritmo automatizado específico. Assim, o valor deste atributo se difere em muitos aspectos dos demais artigos nos quais as palavras-chave são definidas por autores. A consequência da adoção deste tipo de abordagem da base PLOS ONE será comentada adiante na seção de resultados.
A seguir encontra-se a descrição do método de extração de dados dos artigos em formato XML que utilizam o padrão PLOS ONE, para cada um dos atributos mencionados:
Título e identificador único do artigo
As informações relacionadas ao artigo estão localizadas em hierarquia seguindo o padrão XML, de acordo com o especificado abaixo:
Título da publicação
<front>< article-meta><title-group><article-title>
Identificador único da publicação
<front>< article-meta><article-id><pub-id-type><doi>
Nome de autores
Por se tratar de um conjunto de informações, pois na maioria das vezes os artigos possuem múltiplos autores, as informações relacionadas aos nomes dos mesmos, estão localizadas na estrutura de contribuição que segue:
<front><article-meta><contrib-group><contrib>
Esta estrutura possui informações específicas para cada autor, que devem ser verificadas através de um iterador que percorre toda estrutura. Para formar o nome completo, deve-se extrair o primeiro nome, concatenando-se em seguida com o sobrenome:
Capítulo 4 - Proposta do Trabalho e Metodologia 55 <contrib-type><author><name><given-name>
concatenado com
<contrib-type><author><name><surname>
Países (localização de autores)
A informação de localização de autores segue o padrão exemplificado na extração de nomes de autores, portanto está representada como uma estrutura de dados que é identificada pelos respectivos campos:
<front><article-meta><aff><id><aff><addr-line>
Após extraída a informação completa de endereço dos autores, é utilizada uma função de comparação de textos que tem como fonte, um dicionário externo com nomes e siglas de países oficialmente reconhecidos seguindo o padrão “ISO Alpha-3 Code”. Conforme mencionado anteriormente, o dicionário possui variações dos nomes e das siglas de países de forma a melhorar a eficácia na identificação dos mesmos. Desta forma, é possível identificar e separar o nomes dos países do restante do texto de endereço.
Palavras-chave (definida por critério da PLOS ONE)
Conforme mencionado anteriormente, as palavras-chave nos artigos provenientes da base PLOS ONE são atribuídos artificialmente por um procedimento automatizado. As informações relacionadas a este campo podem estar disponíveis nas seguintes estruturas de dados encontradas no conteúdo do artigo XML:
<front><article-meta><article-categories><subj-group><Discipline><subject> <front><article-meta><article-categories><subj-group><Discipline-v2><subject>
Ano de publicação
As informações relacionadas a este campo, podem estar disponíveis nas seguintes estruturas de dados encontradas no conteúdo do artigo XML:
Capítulo 4 - Proposta do Trabalho e Metodologia 56 <front><article-meta><permissions><copyright-year>
<front><article-meta><pub-date><year>
Referências
Todas as referências de um artigo, podem ser encontradas a partir das estruturas de dados listadas abaixo, variando de acordo a versão do modelo do XML. Desta forma, foi implementada uma função para tratamento de erros para identificar qual a formatação utilizada, propiciando assim a correta extração dos dados a partir dos campos existentes. <back><ref-list><element-citation><article-title> <back><ref-list><element-citation><article-title><italic> <back><ref-list><element-citation><source> <back><ref-list><element-citation><source><italic> <back><ref-list><mixed-citation><article-title> <back><ref-list><mixed-citation><article-title><italic>
Antes de verificar a informação de cada atributo no arquivo XML é importante mencionar que uma função para tratamento de erros foi utilizada para garantir que o procedimento de identificação não seja interrompido caso a condição especificada não exista, ou seja, a função apenas retorna o valor se a informação estiver presente segundo o modelo estrutural.