Módulo de Instanciação da Ontologia de Colaboração Científica

4.3 MÓDULOS DE PRÉ-PROCESSAMENTO DOS DADOS E

4.3.2 Módulo de Instanciação da Ontologia de Colaboração Científica

O módulo de instanciação da ontologia VIVO-ISF tem como pré- requisitos dois módulos de pré-processamento dos dados: a) Módulo de transformação do currículo XML para RDF e b) Módulo de processamento do perfil expandido do pesquisador.

a. Módulo de transformação do currículo XML para RDF: este módulo é responsável por transformar cada currículo XML em um arquivo RDF contendo um conjunto de triplas anotadas com os mesmos tipos utilizados nas ontologias do projeto VIVO. Como pode ser visualizado na Figura 45 cada currículo é processado através de uma folha de estilo XSLT (eXtensible Stylesheet Language for Transformation) que transforma um Currículo Lattes XML em triplas RDF. Neste módulo isso é feito em um processo automatizado, onde para currículo XML é gerado um arquivo RDF correspondente.

Figura 45 - Transformação de XML em RDF

Fonte: Autor.

O XSLT (lattes-vivo.xsl) utilizado faz parte de um projeto open source chamado "Semantic Lattes"30_{. O Quadro 12 abaixo exibe um}

snapshot deste XSLT que indica como cada tag TRABALHO-EM- EVENTOS do currículo XML deve ser transformada para triplas RDF. Observa-se na linha 536 deste snaptshot, um padrão de código que permite a geração individualizada do URI (Uniform Resource Identificator) de um recurso que se repete para outros tipos de recursos. Neste caso, está sendo gerado um recurso (resource) do tipo ConferencePaper da ontologia VIVO_ISF.

30_{github.com/arademaker/slattes/}

Quadro 12 - Snapshot do XSLT

Fonte: Autor.

O XSLT original30_{foi modificado para permitir a geração não}

duplicada do URI de recursos, necessário quando ocorre o processamento de vários currículos XML e estendido para incluir a transformação das palavras-chave de cada tipo de produção bibliográfica.

b. Módulo de criação do perfil expandido do pesquisador: este módulo é responsável por criar o perfil expandido do pesquisador. Denomina-se perfil expandido, o conjunto ou vetor de termos oriundos dos títulos das produções bibliográficas do pesquisador conjuntamente com as respectivas frequências, que ajudam a formar, complementar ou qualificar o perfil inicial do pesquisador, formado pelas palavras-chave das produções bibliográficas cadastradas pelo pesquisador e suas respectivas frequências.

Neste trabalho, a criação do perfil expandido acontece através de um processo de mineração de dados textuais a partir dos títulos das

produções do pesquisador, no qual são extraídos os termos mais significativos das produções e que caracterizam o perfil do referido pesquisador. É através deste processo que o conteúdo produzido pelos pesquisadores da rede é minerado (coletado, pré-processado, representado) para posterior utilização em tarefas de análise de colaboração.

Verificou-se que aproximadamente 50% das produções bibliográficas dos currículos dos contextos coletados não tinham nenhuma palavra-chave cadastrada. Logo, a criação do perfil expandido em muitos casos, ajuda até mesmo a criar o perfil inicial do pesquisador. A Figura 46 ilustra o processo de extração de termos e formação do perfil expandido.

Figura 46 - Processo de extração de termos das produções bibliográficas

Fonte: Autor.

O processo implementado neste módulo inicia com a coleta dos títulos das produções de cada currículo.rdf gerado no módulo anterior. A partir do conjunto de títulos de produção de cada pesquisador são identificados termos simples e compostos que aparecem com uma determinada frequência no conjunto de documentos. Para isso foi utilizado o algoritmo Lingo (OSINSKI; WEISS, 2005) até a sua fase de indução de rótulo (label induction) conforme explicado na seção 2.4.2.

termos compostos com frequência maior ou igual a dois.

Finalmente, a instanciação da ontologia VIVO_ISF se dá através de um módulo específico que primeiramente popula a ontologia VIVO_ISF com as triplas dos arquivos .RDF gerados pelo primeiro módulo de pré-processamento (a) e posteriormente utiliza os resultados do segundo módulo de pré-processamento (b) para complementar a instanciação. Os módulos foram desenvolvidos na linguagem Java, utilizando Jena RDF e OWL API31_{e a linguagem de consulta e}

manipulação de grafos RDF SPARQL32_.

4.3.3 Módulo de Instanciação da Ontologia de Métricas de ARS Este módulo demanda primeiramente que uma rede de colaboração científica seja criada e que a partir dela sejam calculadas as métricas de ARS que o framework requisita.

Sugere-se a utilização da ferramenta scriptLattes33 _{para a coleta}

dos dados curriculares e para a criação da rede de colaboração baseada em coautoria. O scriptLattes é um sistema de código aberto, que permite coletar o currículo Lattes de um grupo de pesquisadores do site do CNPq, extrair informações de interesse, detectar produções científicas iguais ou similares e criar relatórios diversos através da compilação ou sumarização de produções intelectuais, projetos, orientações, etc., bem como o grafo de colaboração dos membros do grupo de pesquisadores (MENA-CHALCO; CESAR-JR, 2009).

O processo de detecção de produções acadêmicas iguais ou similares da ferramenta ScriptLattes visa detectar um relacionamento de colaboração entre os membros do grupo analisado. Assim, quando é encontrada uma produção considerada similar ou igual no conjunto das produções do grupo analisado conclui-se que exista um relacionamento de colaboração entre os mesmos. As explicações dos mecanismos de detecção de similaridade encontram-se em Mena-Chalco e Cesar-Jr (2013)

A rede de coautoria consiste em um arquivo .GDF contendo os nodos e as relações de coautoria juntamente com as frequências. As métricas de ARS podem ser calculadas a partir desse arquivo GDF com a utilização de um software de análise de rede.

31_{https://jena.apache.org/}

Sugere-se a utilização do software de visualização e análise exploratória de dados de rede Gephi (BASTIAN; HEYMANN; JACOMY, 2009). Com esse software é possível calcular as métricas solicitadas e exportar os resultados em um arquivo .JSON.

O módulo de instanciação das métricas de ARS consiste em ler o arquivo .JSON e instanciar a ontologia SNAMetrics com os valores calculados. O módulo foi desenvolvido na linguagem Java.

No documento FRAMEWORK BASEADO EM CONHECIMENTO PARA (páginas 172-177)