• Nenhum resultado encontrado

3.3 Ferramenta de Extra¸c˜ao do Ve´ıculo de Publica¸c˜ao

3.3.2 Processamento

O processo usado para a extra¸c˜ao do ve´ıculo de publica¸c˜ao utiliza an´alises num´ericas e estat´ısticas, al´em de regras e m´etodos heur´ısticos, tal como visto na Se¸c˜ao 2.5. No texto de uma referˆencia s˜ao identificadas v´arias express˜oes, como n´umeros, palavras, volume, edi¸c˜ao, v´ırgulas, pontos, etc., e, analisando a posi¸c˜ao e quantidade dessas express˜oes, pode-se segmentar trechos no texto. Ap´os segmentar uma parte da referˆencia (um autor, autores, t´ıtulo, etc) usa-se essa informa¸c˜ao para as pr´oximas segmenta¸c˜oes. Este processo ´e an´alogo ao usado pelo FLUX-CiM (Se¸c˜ao 2.7), onde os blocos rotulados s˜ao utilizados para descobrir o tipo de campo bibliogr´afico dos blocos n˜ao rotulados. Um exemplo seria na segmenta¸c˜ao do t´ıtulo numa referˆencia dado que os autores j´a foram segmentados, neste caso se os autores est˜ao distantes do in´ıcio do texto ent˜ao sup˜oe-se que do in´ıcio do texto at´e o in´ıcio do segmento dos autores est´a compreendido o segmento do t´ıtulo. Logicamente esta ´e uma abordagem heur´ıstica e ´e baseada na premissa de que as referˆencias iniciem com os autores ou com o t´ıtulo.

Na referˆencia passada como parˆametro, o processamento inicia marcando-se as ex- press˜oes regulares. Um exemplo de uma express˜ao pode ser o volume de um peri´odico

que ´e escrito na forma “volume #”, onde “#” ´e um n´umero qualquer. Mas esta n˜ao ´e

a ´unica forma regular para descrever um volume; outras varia¸c˜oes s˜ao: “v.#”, “vol.#”

ou “vol #”. Estas varia¸c˜oes est˜ao implementadas. Algumas express˜oes marcadas s˜ao: volume, edi¸c˜ao, acrˆonimo entre parˆenteses, p´agina, n´umero ordinal, n´umeros, abrevia¸c˜oes de uma letra, separadores (v´ırgula, ponto, ponto e v´ırgula e aspas), palavras, express˜oes que definem uma tese ou um relat´orio t´ecnico e endere¸cos Web.

Em seguida, nas palavras encontradas, usa-se dicion´arios (inglˆes Americano, inglˆes Britˆanico e Portuguˆes) para identific´a-las e tentar encontrar o idioma da referˆencia. Se uma palavra n˜ao foi encontrada no dicion´ario ent˜ao ela ´e candidata a ser classificada como uma abrevia¸c˜ao. Isto somente ocorrer´a se ela for in´ıcio de qualquer outra palavra no idioma da referˆencia e for seguida por um ponto no texto. Um exemplo dessa situa¸c˜ao ´e a palavra “trans” que n˜ao ´e encontrada no dicion´ario em inglˆes, mas como ela inicia outras palavras como “transactions” ela ´e marcada como uma abrevia¸c˜ao caso exista um ponto a sua frente.

O pr´oximo passo ´e encontrar o nome do autor. Usando o sobrenome passado como parˆametro, realiza-se uma busca para encontr´a-lo, e no ponto do texto onde ele ´e identi- ficado faz-se uma varredura para a esquerda e para a direita com o intuito de identificar todo o nome do autor e de que forma ele est´a estruturado. No momento da varredura para a esquerda, a partir do sobrenome, se um separador ´e encontrado ent˜ao significa que o(s) primeiro(s) nome(s) est˜ao `a frente do sobrenome, mas se outras palavras s˜ao encontradas

ent˜ao o sobrenome est´a escrito por ´ultimo dentro do nome do autor. Exemplos destes

dois tipos de estruturas s˜ao:

• . Luckham, D. C. - partindo de “Luckham” encontra-se um separador `a esquerda

ent˜ao os primeiros nomes est˜ao `a direita.

• , John L. Pfaltz, - partindo de “Pfaltz” encontra-se uma palavra `a esquerda ent˜ao

o nome est´a escrito em ordem.

Identificado o primeiro autor e o formato do nome faz-se novas varreduras para a esquerda e direita tentando encontrar outros autores. O crit´erio de parada da busca ´e quando se encontra v´arias palavras seguidas, sem nenhum separador, o que caracterizaria

um t´ıtulo ou nome de ve´ıculo, ou quando se encontra o ´ultimo autor identificado pela

palavra “e” ou “and ”.

Segundo caracter´ısticas observadas, se a regi˜ao dos autores est´a deslocada do in´ıcio do texto da referˆencia ent˜ao as palavras que vˆem antes desta regi˜ao ir˜ao compor o t´ıtulo.

Do lado direito da referˆencia procura-se o primeiro termo relacionado com o nome do ve´ıculo ou com a publica¸c˜ao, mas que com certeza n˜ao faz parte explicitamente do nome do ve´ıculo, s˜ao exemplos disto o volume, a edi¸c˜ao, o ano e a cidade de publica¸c˜ao. Desta

44 Cap´ıtulo 3. Ferramentas de Extra¸c˜ao e Ordena¸c˜ao dos Ve´ıculos

forma ´e delimitada uma regi˜ao entre o t´ermino dos autores e o in´ıcio destes marcadores. Se o t´ıtulo estava no come¸co ent˜ao esta regi˜ao ser´a o nome do ve´ıculo de publica¸c˜ao, mas em muitos outros casos essa regi˜ao conter´a o t´ıtulo seguido do nome do ve´ıculo cabendo ao algoritmo encontrar o ponto de divis˜ao dos dois.

Algumas heur´ısticas para dividir a regi˜ao encontrada entre t´ıtulo e nome de ve´ıculo s˜ao: verificar se existe um ´unico separador que separa dois blocos de palavras; verificar se

existe um certo n´umero de palavras entre aspas seguido de um separador, caracterizando

o t´ıtulo; e uso de palavras chave para identificar o local do ve´ıculo, tais como proceedings. Caso estes processos falhem ent˜ao tentam-se outros mais suscet´ıveis a erros como separar usando a v´ırgula, mesmo existindo mais de uma na regi˜ao, o que indicaria que o t´ıtulo ou o nome do ve´ıculo cont´em v´ırgulas resultando numa poss´ıvel divis˜ao errada.

O nome do ve´ıculo encontrado ´e ent˜ao limpo dos marcadores e devolvido pelo programa juntamente com o t´ıtulo encontrado e a lista de autores.

Documentos relacionados