Ferramenta de Separa¸c˜ao de Publica¸c˜oes

Como visto na se¸cão anterior, nem todos os arquivos de uma universidade são HTML podendo existir arquivos do tipo PDF ou PS. O primeiro passo é a conversão destes arquivos para o formato texto. Para realizar a conversão foram utilizadas ferramentas do Sistema Operacional e sobre os arquivos textos gerados usou-se um programa, criado em Python, para marcar o in´ıcio de cada publica¸cão. Em alguns casos, as ferramentas de conversão cometiam alguns erros o que exigia um processo semi-automático para marcar o in´ıcio das publica¸cões.

Logo após todos os arquivos PDF/PS da universidade terem sido convertidos, o pro- grama Split, que foi também implementado em linguagem Python, irá iniciar seu trabalho e separar as publica¸cões. Esta ferramenta conseguirá realizar esta tarefa com base nas tags HTML e nas marca¸cões inseridas no texto convertido. Caso o arquivo contenha as marcas então o trabalho é bastante simples, resumindo-se a encontrar uma marca que indica o in´ıcio de uma publica¸cão e capturar o texto até antes da marca da próxima publica¸cão. Estas buscas são feitas até todas as marcas terem sido processadas.

Caso o arquivo seja HTML então a ferramenta Split irá se basear nas tags para deli- mitar o texto de cada publica¸cão. O primeiro passo é encontrar todas as ocorrências do sobrenome do autor. Vale lembrar que o Tokenizer também adota esta premissa de que o sobrenome do autor é conhecido. Para cada ponto do texto HTML onde o sobrenome do autor foi encontrado procura-se ao redor por tags que caracterizem uma divisão lógica de idéias, como por exemplo separar as publica¸cões usando tags de tabelas (“<td>” e “</td>”) ou um separador “<p>”. O programa Split possui uma lista contendo vários tipos de tags que caracterizam divisões de conte´udo, e somente estas são utilizadas como separadoras de publica¸cões. Alguns exemplos destas tags são: “<li>”,“<p>”,“<div>”, “<tr>”,“<td>”, “<dt>”, e “<ptitle>”. O texto da publica¸cão é capturado utilizando-se as tags separadoras mais próximas do sobrenome do autor. Exemplo:

<h2> Articles in conference proceedings </h2> <ul class="index">

<li> D. Burkett and D. Klein, "Two languages are better than one (for syntactic parsing)," in <em>Proc. 2008 Conf. on Empirical Methods in Natural Language Processing (EMNLP ’08)</em>, ACL Anthology, Stroudsburg, PA: Association for Computational Linguistics, 2008, pp. 877-886.

</li><p>

Neste exemplo as tags “<li>” e “</li>” delimitam o texto da publica¸cão e são usadas para separá-lo.

Um problema encontrado foi quanto ao uso da tag “<br>”, pois ela pode caracterizar tanto uma divisão entre duas publica¸cões distintas, como um pulo de linha dentro de uma mesma publica¸cão. A ferramenta Split somente usa este separador para dividir as publica¸cões se não foi encontrada nenhuma outra tag separadora. Esta abordagem funciona muito bem para a maioria dos casos, mas para algumas páginas a tag “<br>” é usada para separar duas publica¸cões distintas, e existem outras tags separadoras próximas, servindo, por exemplo, para agrupar artigos em diferentes temas. Nesse caso ocorre uma falha, e Split extrai um texto muito maior, contendo duas ou mais publica¸cões. Ocorre que durante o processamento da universidade são exibidos dados sobre o andamento da execu¸cão, tais como, nome do autor, quantas publica¸cões foram extra´ıdas, tamanho da maior publica¸cão, e média do tamanho das publica¸cões. Caso ocorra esta situa¸cão, para aquele autor serão extra´ıdas poucas publica¸cões e cada uma terá um tamanho anormal. Conforme estes dados vão aparecendo os nomes dos autores que apresentaram problemas são anotados manualmente. No final o processo é refeito, ou seja, Split é novamente executado para aquela universidade, mas agora é passado todos os nomes anotados para que o programa force a divisão entre publica¸cões através do “<br>”. Este procedimento mostrou-se eficaz na extra¸cão do texto da referência.

No momento que Split extrai uma publica¸cão, a ferramenta Tokenizer é chamada para extrair o ve´ıculo da mesma. Portanto a sa´ıda do Split já é o resultado do processamento

sobre cada referˆencia. ´E dado abaixo um exemplo de como uma linha do arquivo de sa´ıda

´e estruturada:

Uma linha tem o seguinte formato:

Venue ; Acro ; Year ; C/J/O? ; Author ; University ; FullRef , onde

• FullRef ´e o texto completo da referˆencia. Exemplo: Azriel Rosenfeld , John L.

Pfaltz, Sequential Operations in Digital Picture Processing, Journal of the ACM (JACM), v.13 n.4, p.471-494, Oct. 1966.

40 Cap´ıtulo 3. Ferramentas de Extra¸c˜ao e Ordena¸c˜ao dos Ve´ıculos

• University ´e o nome da universidade de origem desta publica¸c˜ao. Exemplo: virgi-

nia (nome ´unico e padronizado para representar “The University of Virginia”).

• Author é o nome do autor da página de onde foi extra´ıdo a publica¸cão. Exemplo:

John L. Pfaltz

• C/J/O? é um código usado para marcar se uma publica¸cão já foi identificada

previamente como uma conferência (C), um periódico (journal ) (J), ou se sabe que é outro tipo (O).

• Year é o ano extra´ıdo da publica¸cão. Exemplo: 1966. • Acro é o acrônimo extra´ıdo da publica¸cão. Exemplo: jacm.

• Venue ´e o nome do ve´ıculo de publica¸c˜ao extra´ıdo. Exemplo: journal of the acm.

A seguir o resultado dos testes com a ferramenta Split, e na próxima se¸cão será descrito o funcionamento do Tokenizer, que é responsável por encontrar no texto da publica¸cão o nome do ve´ıculo, acrônimo e ano de publica¸cão.

3.2.1 Teste do Split

Recolheu-se um conjunto amostral de 372 elementos para analisar os erros na segmenta¸cão das referências bibliográficas. Este valor foi escolhido para garantir um n´ıvel de confian¸ca de 95% com um intervalo de confian¸ca de 5%. Foi analisado a porcentagem de erro de segmenta¸cão (referências não segmentadas ou segmentadas parcialmente) e porcentagem de excesso, ou seja, trechos que não fazem parte de qualquer referência bibliográfica, mas que foram segmentados. No total, ocorreram 3% de erros e 7% de trechos de textos não relacionados com as referências. Esses 7% de trechos inválidos irão gerar nomes de ve´ıculos inválidos na fase de extra¸cão, e podem contribuir em outros erros (como no agrupamento).

No documento Ranking de publicações baseado na extração de textos da Internet (páginas 48-50)