Componentes - Linguagens de Domínio Específico

3 REVISÃO DE LITERATURA

4.1. Linguagens de Domínio Específico

4.1.1. LattesMiner

4.1.1.2. Componentes

A linguagem LattesMiner é composta por seis componentes: Descoberta de Dados, Aquisição de Dados, Extração de Dados, Estruturação de Dados, Visualização de Dados e Análise de Dados. A saída de um componente é utilizada como entrada para outro componente. A Figura 4.2 ilustra os componentes da linguagem LattesMiner.

Figura 4.2 - Componentes da linguagem LattesMiner.

O componente “Descoberta de Dados” é opcional, ou seja, é necessário somente se o ID dos pesquisadores não estiver disponível. O componente

“Aquisição de Dados” também é opcional, uma vez que o currículo Lattes de um pesquisador pode ser baixado diretamente do sítio do CNPq, sendo necessário apenas que o currículo seja armazenado como arquivo HTML. Uma visão geral da arquitetura de componentes da linguagem LattesMiner é ilustrada na Figura 4.3.

Figura 4.3 - Arquitetura de componentes da linguagem LattesMiner.

Os componentes “Descoberta de Dados” e “Aquisição de Dados” acessam o sistema Currículo Lattes através do código ou ID do pesquisador. Para o componente “Descoberta de Dados” é retornado apenas a parte inicial do currículo Lattes para verificar se o nome contido no currículo é igual ao nome procurado. Para o componente “Aquisição de Dados” é retornada uma cópia do currículo Lattes que é armazenado como arquivo HTML.

Os componentes “Visualização de Dados” e “Análise de Dados” dependem do componente “Estruturação de Dados” que armazena os dados extraídos em XML ou em um banco de dados. Isso é necessário para que o desempenho não seja tão comprometido, uma vez que os arquivos XML são bem menores que os arquivos HTML, pois guardam apenas os dados de interesse e o acesso a um banco de dados é ainda mais eficiente pois não há a necessidade de carregar para a memória o arquivo HTML armazenado em disco. Esses dois componentes extraem informações que permitem a descoberta de conhecimento. A seguir todos os componentes da linguagem LattesMiner são detalhados.

Descoberta de Dados

O componente “Descoberta de Dados” é utilizado para descobrir o número (ID) dos pesquisadores. Cada currículo Lattes tem uma URL que permite acessá-lo diretamente. Usualmente, apenas o nome do pesquisador está disponível e o sistema Currículo Lattes não permite realizar a busca automática por nome. A URL é composta por um número de 16 dígitos (por exemplo, http://lattes.cnpq.br/6187221670775160). Com esse número (ID), é possível acessar um determinado currículo automaticamente quantas vezes forem necessárias e, portanto, pode ser acessada por mecanismos de busca automáticos.

Outra forma de acessar um currículo Lattes é utilizando um outro identificador do pesquisador (código) que é composto por letras e números (por exemplo, http://buscatextual.cnpq.br/buscatextual/visualizacv.do?metodo=apresentar&id=

K4787637J9). A linguagem LattesMiner permite acessar um currículo Lattes utilizando qualquer uma das formas.

Uma questão importante a ser respondida é como obter esses identificadores.

Normalmente, a única informação disponível é o nome do pesquisador. Isso configura outros problemas, pois em uma lista simples de nomes pode conter homônimos, os nomes podem ser informados incorretamente ou parcialmente, e até mesmo uma mudança no nome do pesquisador, como por exemplo, quando uma pessoa se casa e o sobrenome do cônjuge é acrescentado.

Aquisição de Dados

O resultado do componente “Descoberta de Dados” pode ser utilizado como entrada para o componente “Aquisição de Dados”. Este componente é responsável por baixar os currículos Lattes dos pesquisadores a partir do sítio do CNPq. Na implementação da linguagem LattesMiner optou-se por baixar os currículos Lattes como arquivos HTML por estarem acessíveis na Web, ao contrário dos arquivos XML que têm acesso restrito. Atualmente, para baixar um currículo Lattes como arquivo XML é necessário informar um código alfanumérico cuja finalidade é evitar que currículos sejam baixados automaticamente por scripts. Este componente também permite baixar um currículo Lattes utilizando o identificador do pesquisador de 16 dígitos ou o identificador composto por letras e números (código). Esse identificador é utilizado como nome do arquivo HTML que armazena o currículo Lattes do pesquisador.

Extração de Dados

O componente “Extração de Dados” é o principal componente da linguagem LattesMiner. Este componente é responsável pela extração de informações dos arquivos HTML que armazenam os currículos Lattes dos pesquisadores.

Atualmente, os dados que são extraídos estão indicados na Tabela 4.1.

Tabela 4.1 - Dados extraídos pela linguagem LattesMiner.

Dados Pessoais

Código, número (ID), nome, categoria de bolsista PQ (se for o caso), data da última atualização, data da morte (se for o caso), data e hora do arquivo, e resumo

Endereço Profissional Instituição, cidade, estado, país, CEP e homepage

Formação Acadêmica

Nível, orientador, ID do orientador (se for o caso), instituição, título, ano de início, ano de conclusão, ano de obtenção, agência financiadora da bolsa, área, curso, código do curso na CAPES, conceito CAPES e palavras-chave

Formação Complementar Curso, instituição, carga horária, ano de início e ano de conclusão

Áreas de Atuação Grande área, área, subárea e especialidade Linhas de Pesquisa Título, objetivo e palavras-chave

Projetos de Pesquisa Título, descrição, ano de início, ano de conclusão e agência financiadora

Artigos completos publicados em periódicos

Autores, título, periódico, volume, série, páginas, DOI, ISSN, ano e se é um dos 5 trabalhos mais relevantes

Trabalhos completos publicados em anais de congressos

Autores, título, evento, páginas, ano e se é um dos 5 trabalhos mais relevantes

Resumos expandidos Autores, título, evento, páginas, ano e se é um dos 5 trabalhos mais relevantes

Resumos publicados em anais de

congressos Autores, título, evento, páginas, ano e se é um dos 5 trabalhos mais relevantes

Livros publicados Autores, título, ISBN, ano e se é um dos 5 trabalhos mais relevantes

Capítulos de livros publicados Autores, título, ISBN, ano e se é um dos 5 trabalhos mais relevantes

Programas de computador sem

registro Autores, título, ano e se é um dos 5 trabalhos mais relevantes Produtos Tecnológicos Autores, título, ano e se é um dos 5 trabalhos mais relevantes Processos ou Técnicas Autores, título, ano e se é um dos 5 trabalhos mais relevantes Outras produções bibliográficas Autores, título, natureza, ano e se é um dos 5 trabalhos mais

relevantes

Trabalhos técnicos Autores, título, ano e se é um dos 5 trabalhos mais relevantes Demais tipos de produção

técnica Autores, título, ano e se é um dos 5 trabalhos mais relevantes Patentes Inventores, título, data de depósito, instituições financiadoras,

país, número do registro e ano

Participação em bancas Tipo, aluno, título, instituição, área, curso, palavras-chave e ano Orientações concluídas Tipo, nível, aluno, título, instituição, área, curso, palavras-chave

e ano.

Membro de Corpo Editorial Periódico, ano de início e ano de término Revisor de Periódico Periódico, ano de início e ano de término Participação em eventos Tipo, título e ano

Organização de eventos Tipo, título, autores e ano

Idiomas Idioma, leitura, escrita, fala e compreensão Prêmios e títulos Ano e título

Citações Todas as formas de citação de um pesquisador Contatos Links para outros currículos Lattes

Estruturação de Dados

Os dados extraídos podem ser armazenados em arquivos no formato XML ou em um banco de dados qualquer utilizando o componente “Estruturação de Dados”. No caso do banco de dados, qualquer um pode ser utilizado, uma vez que a linguagem LattesMiner possui um arquivo de propriedades que permite tal configuração, podendo ser alterado facilmente a qualquer instante.

Visualização de Dados

O componente “Visualização de Dados” é responsável pela identificação e visualização de redes sociais acadêmicas. A identificação dessas redes sociais é feita verificando os relacionamentos entre os pesquisadores obtidos a partir dos currículos Lattes. E como essa identificação considera apenas as informações acadêmicas dos pesquisadores, essas redes são chamadas de redes sociais acadêmicas.

Análise de Dados

O componente “Análise de Dados” é responsável pela análise dos dados extraídos e também pela análise dos relacionamentos identificados. No momento, a linguagem LattesMiner permite apenas análises simples das relações identificadas, como a identificação de cliques e da clique máxima.

Este componente também permitirá a análise de dados utilizando técnicas de estatística descritiva.

No documento INPESãoJosédosCampos2014 TesedeDoutoradodoCursodePós-GraduaçãoemComputa-çãoAplicada,orientadapelosDrs.HoracioHidekiYanasse,eNeiYoshihiroSoma,aprovadaem26defevereirode2014. AlexandreDonizetiAlves DESENVOLVIMENTOEAPLICAÇÕESDEFERRAMENTASCOMPUTACIONAISPARAOMA (páginas 83-88)