Processamento - Ferramenta de Extra¸c˜ao do Ve´ıculo de Publica¸c˜ao

3.3 Ferramenta de Extra¸c˜ao do Ve´ıculo de Publica¸c˜ao

3.3.2 Processamento

O processo usado para a extra¸cão do ve´ıculo de publica¸cão utiliza análises numéricas e estat´ısticas, além de regras e métodos heur´ısticos, tal como visto na Se¸cão 2.5. No texto de uma referência são identificadas várias expressões, como números, palavras, volume, edi¸cão, v´ırgulas, pontos, etc., e, analisando a posi¸cão e quantidade dessas expressões, pode-se segmentar trechos no texto. Após segmentar uma parte da referência (um autor, autores, t´ıtulo, etc) usa-se essa informa¸cão para as próximas segmenta¸cões. Este processo é análogo ao usado pelo FLUX-CiM (Se¸cão 2.7), onde os blocos rotulados são utilizados para descobrir o tipo de campo bibliográfico dos blocos não rotulados. Um exemplo seria na segmenta¸cão do t´ıtulo numa referência dado que os autores já foram segmentados, neste caso se os autores estão distantes do in´ıcio do texto então supõe-se que do in´ıcio do texto até o in´ıcio do segmento dos autores está compreendido o segmento do t´ıtulo. Logicamente esta é uma abordagem heur´ıstica e é baseada na premissa de que as referências iniciem com os autores ou com o t´ıtulo.

Na referência passada como parâmetro, o processamento inicia marcando-se as ex- pressões regulares. Um exemplo de uma expressão pode ser o volume de um periódico

que é escrito na forma “volume #”, onde “#” é um número qualquer. Mas esta não é

a única forma regular para descrever um volume; outras varia¸cões são: “v.#”, “vol.#”

ou “vol #”. Estas varia¸cões estão implementadas. Algumas expressões marcadas são: volume, edi¸cão, acrônimo entre parênteses, página, número ordinal, números, abrevia¸cões de uma letra, separadores (v´ırgula, ponto, ponto e v´ırgula e aspas), palavras, expressões que definem uma tese ou um relatório técnico e endere¸cos Web.

Em seguida, nas palavras encontradas, usa-se dicionários (inglês Americano, inglês Britânico e Português) para identificá-las e tentar encontrar o idioma da referência. Se uma palavra não foi encontrada no dicionário então ela é candidata a ser classificada como uma abrevia¸cão. Isto somente ocorrerá se ela for in´ıcio de qualquer outra palavra no idioma da referência e for seguida por um ponto no texto. Um exemplo dessa situa¸cão é a palavra “trans” que não é encontrada no dicionário em inglês, mas como ela inicia outras palavras como “transactions” ela é marcada como uma abrevia¸cão caso exista um ponto a sua frente.

O próximo passo é encontrar o nome do autor. Usando o sobrenome passado como parâmetro, realiza-se uma busca para encontrá-lo, e no ponto do texto onde ele é identificado faz-se uma varredura para a esquerda e para a direita com o intuito de identificar todo o nome do autor e de que forma ele está estruturado. No momento da varredura para a esquerda, a partir do sobrenome, se um separador é encontrado então significa que o(s) primeiro(s) nome(s) estão à frente do sobrenome, mas se outras palavras são encontradas

então o sobrenome está escrito por último dentro do nome do autor. Exemplos destes

dois tipos de estruturas s˜ao:

• . Luckham, D. C. - partindo de “Luckham” encontra-se um separador `a esquerda

então os primeiros nomes estão à direita.

• , John L. Pfaltz, - partindo de “Pfaltz” encontra-se uma palavra `a esquerda ent˜ao

o nome est´a escrito em ordem.

Identificado o primeiro autor e o formato do nome faz-se novas varreduras para a esquerda e direita tentando encontrar outros autores. O critério de parada da busca é quando se encontra várias palavras seguidas, sem nenhum separador, o que caracterizaria

um t´ıtulo ou nome de ve´ıculo, ou quando se encontra o ´ultimo autor identificado pela

palavra “e” ou “and ”.

Segundo caracter´ısticas observadas, se a região dos autores está deslocada do in´ıcio do texto da referência então as palavras que vêm antes desta região irão compor o t´ıtulo.

Do lado direito da referência procura-se o primeiro termo relacionado com o nome do ve´ıculo ou com a publica¸cão, mas que com certeza não faz parte explicitamente do nome do ve´ıculo, são exemplos disto o volume, a edi¸cão, o ano e a cidade de publica¸cão. Desta

44 Cap´ıtulo 3. Ferramentas de Extra¸c˜ao e Ordena¸c˜ao dos Ve´ıculos

forma é delimitada uma região entre o término dos autores e o in´ıcio destes marcadores. Se o t´ıtulo estava no come¸co então esta região será o nome do ve´ıculo de publica¸cão, mas em muitos outros casos essa região conterá o t´ıtulo seguido do nome do ve´ıculo cabendo ao algoritmo encontrar o ponto de divisão dos dois.

Algumas heur´ısticas para dividir a região encontrada entre t´ıtulo e nome de ve´ıculo são: verificar se existe um único separador que separa dois blocos de palavras; verificar se

existe um certo n´umero de palavras entre aspas seguido de um separador, caracterizando

o t´ıtulo; e uso de palavras chave para identificar o local do ve´ıculo, tais como proceedings. Caso estes processos falhem então tentam-se outros mais suscet´ıveis a erros como separar usando a v´ırgula, mesmo existindo mais de uma na região, o que indicaria que o t´ıtulo ou o nome do ve´ıculo contém v´ırgulas resultando numa poss´ıvel divisão errada.

O nome do ve´ıculo encontrado ´e ent˜ao limpo dos marcadores e devolvido pelo programa juntamente com o t´ıtulo encontrado e a lista de autores.

No documento Ranking de publicações baseado na extração de textos da Internet (páginas 52-54)