• Nenhum resultado encontrado

3.4 An´alise de complexidade

4.1.2 Cole¸c˜oes reais

As cole¸c˜oes reais utilizadas na avalia¸c˜ao foram extra´ıdas a partir das bibliotecas digitais DBLP e BDBComp. A seguir, s˜ao apresentadas as cole¸c˜oes reais.

KISTI

Esta cole¸c˜ao, conhecida como KISTI1, foi constru´ıda por pesquisadores do Instituto

Coreano de Ciˆencia e Tecnologia da Informa¸c˜ao (Kang et al., 2011) para avalia¸c˜ao de m´etodos que tentam resolver o problema de homˆonimos em nomes de autores. Compreende os registros de cita¸c˜ao dos top 1000 nomes de autores mais frequentes da DBLP at´e o ano 2007. Uma referˆencia foi constru´ıda para cada nome de autor em cada registro de cita¸c˜ao. Foi realizada uma desambigua¸c˜ao manual baseada em busca usando o Google para recuperar p´aginas pessoais de publica¸c˜oes de autores. Para cada referˆencia, uma consulta composta pelo sobrenome do autor e o t´ıtulo do trabalho foi submetido ao motor de busca. Em uma inspe¸c˜ao manual, das p´aginas Web recuperadas, primeiro identificou-se a p´agina pessoal correta do autor para cada registro de cita¸c˜ao. Esta cole¸c˜ao tem 37.613 registros de cita¸c˜ao, 881 grupos amb´ıguos e 6.921 autores.

Observa-se, pela Figura 4.2, a distribui¸c˜ao anual das cargas na cole¸c˜ao KISTI. ´E poss´ıvel notar que existe um aumento de publica¸c˜oes a cada ano, come¸cando com poucos

1

Experimentos 33

registros de cita¸c˜ao nos anos iniciais e acentuando-se nos anos finais, principalmente a partir do ano 2000. 0 1000 2000 3000 4000 5000 6000 # de r egis tr os Carga (ano) Coleção KISTI

Figura 4.2: Distribui¸c˜ao do n´umero de registros por carga (ano) na cole¸c˜ao KISTI.

BDBComp

Outra cole¸c˜ao de testes utilizada foi a cole¸c˜ao de registros de cita¸c˜ao extra´ıda da BDBComp. Ela totaliza 363 registros associados a 184 autores, cerca de dois registros por autor. Uma caracter´ıstica dessa cole¸c˜ao ´e que, apesar de ser relativamente pequena, ela possui muitos autores com apenas um registro de cita¸c˜ao, o que torna a tarefa de desambigua¸c˜ao mais dif´ıcil. Esta cole¸c˜ao cont´em os 10 maiores grupos amb´ıguos encontrados na BDBComp de 1987 a 2007. A desambigua¸c˜ao ´e particularmente dif´ıcil em grupos amb´ıguos, tais como o grupo “F. Silva”, no qual a maioria dos autores somente possui um registro de cita¸c˜ao. A Tabela 4.2 apresenta informa¸c˜oes mais detalhadas sobre a cole¸c˜ao BDBComp e seus grupos amb´ıguos (Carvalho et al., 2011).

Com rela¸c˜ao `a BDBComp a Figura 4.3 mostra a distribui¸c˜ao anual das cargas. Note que, nesta cole¸c˜ao, tamb´em existe um aumento de publica¸c˜oes a cada ano, come¸cando com poucos registros de cita¸c˜ao nos anos iniciais e acentuando-se nos anos finais.

Tabela 4.2: Grupos amb´ıguos na cole¸c˜ao BDBComp.

Grupo amb´ıguo Total de registros Total de autores distintos

A. Oliveira 52 16 A. Silva 64 32 F. Silva 26 20 J. Oliveira 48 18 J. Silva 36 17 J. Souza 35 11 L. Silva 33 18 M. Silva 21 16 R. Santos 20 16 R. Silva 28 20 0 10 20 30 40 50 60 70 80 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 # de r egis tr os Carga (ano) Coleção BDBComp

Figura 4.3: Distribui¸c˜ao do n´umero de registros por carga (ano) na cole¸c˜ao BDBComp.

4.2 Baselines

Foram utilizados trˆes m´etodos propostos na literatura como baselines para a compara¸c˜ao com a proposta apresentada nesta disserta¸c˜ao: o INDi (Carvalho et al., 2011), HHC (Cota et al., 2010) e LASVM-DBSCAN (Huang et al., 2006).

4.2.1 INDi

INDi funciona de forma incremental e prioriza a pureza dos grupos, ou seja, em caso de d´uvidas ele atribui o novo registro de cita¸c˜ao a um novo autor (ou seja, um novo grupo) em vez de atribuir a um autor pr´e-existente. Primeiro, ele tenta encontrar um grupo com o nome do autor semelhante, pelo menos um coautor com o nome semelhante e o t´ıtulo do

Experimentos 35

trabalho ou o t´ıtulo do ve´ıculo de publica¸c˜ao similares. Ele usa o algoritmo Compara¸c˜ao por Fragmento, descrita na Subse¸c˜ao 2.1.2, para medir a similaridade entre nomes de autores e coautores e a Similaridade do Cosseno, tamb´em descrita na Subse¸c˜ao 2.1.2, para comparar os t´ıtulos dos trabalhos e os locais de publica¸c˜ao. Quando o novo registro de cita¸c˜ao ou o grupo n˜ao possuem coautores, o INDi aumenta os valores dos limiares (αtitle e αvenue) usados para verificar se os t´ıtulos dos trabalhos e os locais de publica¸c˜ao

s˜ao semelhantes.

4.2.2 HHC

HHC (Cota et al., 2010) ´e um m´etodo que funciona em duas etapas. No primeiro passo, criam-se grupos de referˆencias com nomes de autores similares que compartilham pelo menos um nome de coautor similar. Esta etapa produz grupos muito puros, mas fragmentadas. Em seguida, na segunda etapa, fundem-se sucessivamente grupos de referˆencias com nomes de autores similares de acordo com a similaridade entre os outros atributos dos registros de cita¸c˜oes (o t´ıtulo do trabalho e o t´ıtulo do ve´ıculo de publica¸c˜ao). Em cada rodada de fus˜ao, quando dois ou mais grupos de autores compat´ıveis s˜ao fundidos, a informa¸c˜ao desses grupos ´e agregada (todos os termos dos t´ıtulos s˜ao considerados em conjunto) provendo maior informa¸c˜ao para as pr´oximas rodadas. Este processo repete-se, sucessivamente, at´e que n˜ao haja mais grupos compat´ıveis para fus˜ao de acordo com um limiar de similaridade.

4.2.3 LASVM-DBSCAN

LASVM-DBSCAN (Huang et al., 2006) utiliza o DBSCAN (Ester et al., 1996) para agrupar as referˆencias de um mesmo autor. Em primeiro lugar, a medida de distˆancia entre pares de cita¸c˜oes (vetores de similaridade) usada pelo DBSCAN ´e calculada utilizado-se o algoritmo Online Active Support Vector Machine (LASVM). S˜ao usadas diferentes fun¸c˜oes para cada atributo para gerar os vetores de similaridade. Neste trabalho, utiliza- se a Similaridade do Cosseno para calcular a similaridade dos t´ıtulos dos trabalhos e os t´ıtulos dos ve´ıculos de publica¸c˜ao e soft-TFIDF para a compara¸c˜ao dos nomes dos autores e coautores. Tamb´em usa-se o pacote LaSVM (Bordes et al., 2005) e o DBSCAN dispon´ıvel no Weka2.

2

4.3 M´etricas de avalia¸c˜ao

Para a avalia¸c˜ao dos experimentos, foram utilizadas as m´etricas P M G (Pureza M´edia por Grupo), P M A (Pureza M´edia por Autor) e K (m´edia geom´etrica entre P M G e P M A), definidas por Lapidot (2002). Estas m´etricas tˆem sido amplamente empregadas em trabalhos de desambigua¸c˜ao de nomes de autores e, recentemente, foram usadas por trabalhos: Carvalho et al. (2011), Cota et al. (2010), Ferreira et al. (2012c, 2014), Velden et al. (2011) e Wu et al. (2012).

M´etrica PMG

A m´etrica P M G avalia a pureza dos grupos gerados automaticamente em rela¸c˜ao aos grupos de referˆencia gerados manualmente, ou seja, se esses grupos incluem apenas elementos que est˜ao presentes nos grupos de referˆencia. Assim, quanto mais puros forem os grupos gerados automaticamente, mais pr´oxima de 1 ser´a este valor, que varia de 0 a 1. A f´ormula para o c´alculo de P M G ´e descrita pela Equa¸c˜ao (4.1)

PMG = 1 N q X i=0 R X j=0 n2ij ni (4.1) onde

- R ´e o n´umero de grupos de referˆencia (gerados manualmente); - N ´e o n´umero total de publica¸c˜oes na cole¸c˜ao;

- q ´e o n´umero de grupos gerados automaticamente;

- nij ´e o n´umero total de elementos do grupo i gerado automaticamente pertencente

ao grupo j gerado manualmente; e

- ni ´e o n´umero total de elementos do grupo i gerado automaticamente.

M´etrica PMA

A m´etrica P M A mede o grau de fragmenta¸c˜ao dos registros de cita¸c˜ao pertencentes a um determinado autor, gerados automaticamente em rela¸c˜ao aos grupos de referˆencia (gerados

Experimentos 37

manualmente). Seus valores podem variar entre 0 e 1 e, quanto menos fragmentadas estiverem as referˆencias a um mesmo autor, mais pr´oximo de 1 ser´a o valor de P M A. A f´ormula para o c´alculo de P M A ´e mostrada pela Equa¸c˜ao (4.2)

PMA = 1 N q X i=0 R X j=0 n2ij nj (4.2)

onde nj ´e o n´umero total de elementos do grupo j gerado manualmente. Os demais

parˆametros possuem o mesmo significado da Equa¸c˜ao (4.1)

M´etrica K

A m´etrica K corresponde `a m´edia geom´etrica entre P M G e P M A, sendo expressa pela Equa¸c˜ao (4.3):

K =√P M A× P MG (4.3)

onde o valor de K determina o equil´ıbrio entre as duas m´etricas. O melhor caso poss´ıvel ´e atingido quando tanto P M G quanto P M A s˜ao iguais a 1.

Documentos relacionados