RESOLUÇO DE ENTIDADES E CRIAÇO DE
UMA ABORDAGEM BASEADA NA WEB PARA
RESOLUÇO DE ENTIDADES E CRIAÇO DE
ARQUIVOS DE AUTORIDADE
Tese apresentada ao Programa de
Pós--GraduaçãoemCiên ia daComputaçãodo
Instituto de Ciên ias Exatas da
Universi-dade Federal de Minas Gerais omo
requi-sito par ial para a obtenção do grau de
Doutor emCiên ia daComputação.
Orientador: Berthier Ribeiro de Araújo Neto
Co-Orientador: Nivio Ziviani
Belo Horizonte - MG
A WEB-BASED APPROACH FOR ENTITY
RESOLUTION AND CREATION OF AUTHORITY
FILES
Thesis presented to the Graduate Program
inComputerS ien e ofthe Federal
Univer-sityof MinasGeraisinpartialfulllmentof
the requirements for the degree of Do tor
inComputer S ien e.
Advisor: Berthier Ribeiro de Araújo Neto
Co-Advisor: Nivio Ziviani
Belo Horizonte - MG
2009, Denilson Alves Pereira. Todos os direitosreservados.
AlvesPereira,Denilson
D1234p A Web-based Approa h for Entity Resolutionand
Creation of Authority Files / Denilson AlvesPereira.
Belo Horizonte- MG,2009
xxxviii,94 f. : il.; 29 m
Tese (doutorado) FederalUniversity of Minas
Gerais
Orientador: Berthier Ribeiro de AraújoNeto
Co-Orientador: NivioZiviani
1. Entity Resolution. 2.Authority File. 3.Web
Sear h Engine. 4. Name Disambiguation.
5.Clustering. I. Título.
To my parents Duarte and Tereza.
Emespe ial,agradeçodofundodomeu oraçãoaminhaesposaFabianaeaomeulho
João Vítor. À Fabiana,portodoamor, in entivoeapoioirrestritodurantetodos esses
anos. Ao João Vítor,que mesmo sem entender o porquê da minha ausên ia, adorava
os pou os momentos quepassávamos juntos.
A Deus porme dar forçae sabedoria para hegar aonal.
Aosmeus pais eirmãos pelo arinhoe in entivo emespe ial aminha mãe, que
om sua visãofoi a prin ipalresponsável por eu ter hegado até aqui.
Ao meu orientador, Prof. Berthier Ribeiro-Neto, por tudo que me ensinou; ao
meu o-orientador, Prof. Nivio Ziviani,peloseu prossionalismoe dedi ação;ao Prof.
Alberto Laender, por suas detalhadas revisões que muito ontribuíram para este
tra-balho; aoProf. Mar os Gonçalves, porsuas valorosas sugestões; aos demais membros
da ban a, Profs. Carlos Heuser, Edleno Silva e Mar o Antonio Casanova, pelas suas
avaliaçõese ontribuiçõese aos fun ionáriosdo DCC, sempre muito ompetentes.
Aos olegas e amigos do Latin: Alan, Álvaro, Anísio, Claudine, Daniel, David,
Fabiano,Guilherme,Hendri kson, Humberto,Mar o Cristo,Mar o Modesto, Ri kson,
Thierson, Tupy,Viní ius,Walla e eWladmir. AoamigoAndersonAlmeidapelas
valo-rosas dis ussões té ni as. Aos olegaseamigos om quem onvivi emalgum momento
no DCC: Borghetti, Evandrino,Guilherme Tavares, Maurí io, Max, PioeRuiter. Aos
olegas e amigos do UNI-BH. And to my English Tea her, Rosely Veiga, por suas
revisões e ensinamentos nalíngua inglesa.
RepositóriosdedadosnaWebnormalmente ontêmreferên iasparamilharesde
entida-des domundo real. Nãoé in omum quemúltiplasentidades ompartilhemum mesmo
rótulo(homnimos)equevariaçõesdistintasderótulossejamasso iadasaumamesma
entidade (sinnimos), oque frequentemente onduz a interpretaçõesambíguas. V
aria-çõese erros de graas, siglas eformas abreviadas ontribuem para tornar o problema
ainda mais difí il. Resolver este problema requer identi ar quais rótulos
orrespon-dem auma mesmaentidade domundo real,um pro esso onhe ido omo resolução de
entidades. Umaabordagempara resolver o problema é sele ionar um identi ador de
autoridade para ada entidade, bem omo, uma listade formas variantes usadas para
referen iá-la uma estrutura de dados onhe ida omo arquivo de autoridade.
Oobjetivo desta tese é propor um novométodode gerararquivosde autoridade
baseado eminformações disponíveis na Web. O método onsiste em oletar
informa-ções sobre as referên ias a entidades, submetê-las omo onsultas a uma máquina de
bus a Web, analisar o onjunto resposta e extrair informações para desambiguar as
referên ias. Um ar abouço genéri o e ongurável, hamado WER (do inglês,
Web-based Entity Resolution), foi implementado e validado. Experimentos om três bases
de dados distintas mostram que esse método supera os métodos de referên ia
sele io-nados para omparação,al ançandoganhosnamétri apairwiseF1de até125%. Uma
espe ialização doar abouçopara resoluçãode nomesde autoresem itações
bibliográ- as também é apresentada. Tal solução usa heurísti as para identi ar do umentos
ontendo itações de um úni o autor e um pro edimento de agrupamento que olo a
em um mesmo grupo itações en ontradas em um mesmo do umento. É feita uma
omparação dessa solução espe í a om a soluçãogenéri a.
Palavras- have: ResoluçãodeEntidades,ArquivosdeAutoridade,MáquinadeBus a
Web data repositories usually ontain referen es to thousands of real-world entities,
originated from multiple sour es. It is not un ommon that multiple entities share
a same label (polysemes) and that distin t label variations are asso iated with the
sameentity(synonyms), whi hfrequentlyleadstoambiguousinterpretations. Further,
spelling variants, a ronyms, abbreviated forms, and misspellings ompound to make
the problem worst. Solving this problemrequires identifying whi h labels orrespond
toasamereal-world entity,apro ess thatisknown asentityresolution. One approa h
tosolvethe entityresolutionproblemistosele tanauthorityidentierforea hentity,
as wellas a listof variant formsadata stru ture known as anauthority le.
The obje tive of this thesis is to propose a new method of generating authority
lesbasedoninformationavailableintheWeb. Themethod onsistsofgathering
infor-mation onentity referen es, submittingthem asqueries to aWeb sear h engine,
pars-ingthe answer set, andextra tinginformationtodisambiguatereferen es. Wepresent
the design, implementation, and validation of a generi and ongurable framework
for entity resolution and reation of authority les, alled WERWeb-based Entity
Resolution. Experimentsonthreedistin tdatasetssuggestthatthemethodfar
outper-formssele tedbaselines,a hievinggainsinthe pairwiseF1metri upto125%. Wealso
present a spe ialization of the framework for author name resolution in bibliographi
itations. It uses heuristi s to identify do uments ontaining itations of a single
au-thor and a lustering pro edure that groups itations in a same do ument together.
Introdução
A tarefa de identi ar diferentes referên ias a umamesma entidadedomundoreal em
grandesrepositóriosdedadoséárdua. Porexemplo,espera-sequeserviços de atálogo
deprodutosdisponíveisnaWebgereminformaçãorela ionadaaosprodutosdeinteresse
do usuário. Entretanto, dado que rótulos similarespodem ser usados para referen iar
produtosdistintosempáginasdiferentes daWeb,produtosnãorela ionadosàintenção
do usuáriopodem apare er no onjuntoresposta. Para ilustrar,enquanto Impressora
HP O ejet J3680 tudo-em-umaFax, S anner, Copiadora, Impressora
Multifun io-nal HP CB071A#A2L J3680O ejet eImpressora Multifun ional HewlettPa kard
O ejet 3680 (CB071A) se referem a uma mesma impressora, Impressora HP
Of- ejet J4580 tudo-em-uma Fax, S anner, Copiadora orresponde a uma impressora
diferente.
Bibliote asdigitais ne essitam manter metadados de itaçõesbibliográ as
ole-tados de várias fontes e enfrentam um problema similar. Alémde dados repli ados, é
omum en ontrarmos nomes de autores ambíguos em itações bibliográ as. A
ambi-guidade pode o orrer devido à existên ia de múltiplos autores om um mesmo nome
(homnimos) oudiferentes variações de nomes para um mesmoautor (sinnimos).
Dadas várias referên ias a entidades, tais omo rótulos de produtos ou itações
bibliográ as,opro essodeidenti arquaisdelas orrespondemaumamesmaentidade
domundorealé onhe ido omoresoluçãodeentidades. Ummesmoregistro, omposto
de um oumais atributos, pode onter referên ias a múltiplas distintasentidades. Por
exemplo,uma itaçãobibliográ apode onteratributos tais omonomesdos autores,
títulodotrabalhoenomedoveí ulodepubli ação, adaatributo orrespondendoauma
entidadedistinta. Istoé,nóspodemosquereren ontrarosregistrosquesereferemaum
mesmo veí ulo depubli ação ouquesereferemaum mesmoautorouquesereferem a
um mesmo artigo(útil para en ontrar itações repli adas) três entidades distintas.
entidadeaserdesambiguadadeveser forne ida omoentrada. Nósfrequentementenos
referimos ao registro omposto de atributos omo referên ia a entidade. Entretanto,
pode ser que os atributos sirvam om referên ia a múltiplas entidades. Nesse aso, é
ne essáriodeixar explí itoqualatributoserá onsiderado omoareferên ia aentidade
aser desambiguada.
Nos asos de identi ar répli as,algunstrabalhos tambémtratamoproblema de
juntaras referên ias repli adas gerando uma forma anni a para ada entidade. Nos
asos em que a entidade a ser desambiguada onsiste de somente um dos atributos
das referên ias a entidades, alguns trabalhos também obtêm um nome de autoridade
(nome anni o) para ada entidade e mantêm uma lista de formas variantes usadas
para referen iar a ela, gerando um arquivo de autoridade. A abordagemdeste
traba-lhoé gerar arquivos de autoridade, nós não temos omo objetivo juntar referên ias a
entidades dupli adas.
Nesta tese, nós apresentamos uma abordagembaseada naWeb para oproblema
de resolução de entidades, a qual nós nos referimos omo WER (do inglês Web-based
EntityResolution). Nós onstruímosum ar abouçogenéri o e ongurávelpara tratar
om várias instân ias do problema de resolução de entidades, o qual permite o
de-senvolvimento de soluções fá eis e onvenientes para novos domínios. Nós dis utimos
uma solução espe í a para resolução de nomes de autores, odi ada usando nosso
ar abouço.
Dado um onjunto de referên ias a entidades de um domínio espe í o, nossa
soluçãoWERé ompostadequatropassos: (1)de adareferên iaaumaentidade,gere
uma onsulta, submeta-a a uma máquina de bus a Web e olete os
m
do umentos dotopodo onjuntoresposta,(2)do onjuntodedo umentos oletadospara ada onsulta,
extraia alguns atributos tais omo URLs, títulos, textos dos do umentos, nomes e
siglas usadas para referir à entidade, (3) aplique um pro edimento de agrupamento
para agrupar as referên ias a entidades, tal que ada grupo represente um entidade
distinta do mundo real, e (4) gere um arquivo de autoridade sele ionando um nome
em ada grupo para ser o nome anni o da entidade. Nossa abordagem é singular,
porque ombinaosatributosoriginais omosatributosextraídosdaWebparamelhorar
opro edimentode agrupamento.
As prin ipais ontribuições desta tese são: (1) um novo método que usa
infor-mação disponível na Web omo uma fonte adi ional de evidên ia para resolução de
entidades e riação de arquivos de autoridade. Esse método, o qual in lui heurísti as
espe í asparaextrairinformaçãopertinentededo umentosWeb, onduzaresultados
ar a-resolução de entidades e avaliarseus resultados; (3)uma validação empíri a danossa
solução para o problema de resolução de entidades om experimentos extensivos; (4)
uma implementação personalizadade nossasolução para desambiguar nomesde
auto-res (em itações bibliográ as), bem omo sua omparação om uma implementação
variante (da mesma solução)sobre nosso ar abouço ongurável.
A Abordagem WER
No problema de resolução de entidades, nós re ebemos omo entrada um onjunto de
registros
R = {r
1
, r
2
, ..., r
n
}
, onde ada registror
i
tem atributosr
i
.A
1
, r
i
.A
2
, ..., r
i
.A
k
, os quais nós hamamos de atributos espe í os do domínio. A referên ia para aenti-dadeaserdesambiguada,aqualnósnosreferimos omoentidadeprimária,
pe
,tambémé forne ida omo entrada. Oproblema de resoluçãode entidades onsisteem(i)
deter-minaro onjunto
E = {e
1
, e
2
, ..., e
m
}
de entidadesdistintasdomundoreal rela ionadas à entidade primáriape
e (ii) asso iar a ada registror
i
a orrespondente ( orreta) entidadee
j
∈ E
. O númerom
de entidades distintasnão é forne ido omo entrada.Um arquivo de autoridade é um índi e de registros de autoridade, onde ada
registrorepresentaumaentidade,mantémum abeçalhoparaserorótulodeautoridade
e uma lista de variações de rótulos usados para se referir à entidade, hamados de
referên ias ruzadas. Os abeçalhoseasreferên ias ruzadassãousadasporumsistema
de bus a quando um usuário pesquisa por dados rela ionados a uma entidade. Por
exemplo, em um arquivode autoridade de nomes de autores, ada registro representa
um autor, seu nome ompleto poderia ser es olhido para ser o abeçalho enquanto os
outros nomes poderiam ser mantidos omo formas alternativas usadas para se referir
àqueleautor. Umusuáriopodepesquisarporpubli açõesdeumautorusandoqualquer
um de seus nomes. Dado um onjunto de registros
R
euma entidadeprimáriape
,umarquivode autoridadepode sergeradodepoisdeseresolveroproblemade resoluçãode
entidades. Desdeque adagruporepresentaumaentidade,ésu ientesele ionar,para
ada um, um abeçalhorela ionado a
pe
para ser orótulo de autoridade da entidade.A abordagem WER usa a Web om uma fonte de informação adi ional para
resolução de entidades e riação de arquivos de autoridade. Segue abaixo um resumo
dos prin ipaispassos donosso método:
•
Passo 1 (Coletandoinformação daWeb): Submeta onsultas a uma máquina de bus a Web e olete osm
do umentos do topo dos onjuntos respostas. Cadadomíniode ada registro
r
i
na entrada. O sub onjunto de atributos usadospara ompora onsultaé sele ionado pelousuário.•
Passo 2 (Extraindo informação dos do umentos): Extraia atributos inferidos da Web para ada registror
i
analisando os do umentos no onjunto resposta asso- iado a sua onsulta. Os atributos inferidos da Web são, por exemplo, URLs,títulos, textos dos do umentos, nomes e siglas. Em prin ípio, todos podem ser
usados para referir à entidade.
•
Passo 3(Agrupando registros): Agrupeos registrosusandouma ombinaçãodos atributos originaisespe í os dodomínioe dos inferidos daWeb.•
Passo 4 (Gerando um arquivo de autoridade): Gere um arquivo de autoridade sele ionando um nome em ada grupopara ser onome anni o da entidade.Extraindo Informação dos Do umentos
Osdo umentos retornados por ada onsulta asso iada aoregistro
r
i
são usados para seextrair novos atributos parar
i
(Passo 2), osquaisnós nos referimos omoatributos inferidosda Web. Osdetalhes desse passo são apresentados aseguir.Extraindo Atributos de ada Do umento
Nesta tese, nós propomos um métodopara extrair osseguintes in o atributos: URL,
título e texto de um do umento, abeçalho e sigla para a entidade primária. F
ormal-mente, seja
D
i
o onjuntodosm
do umentosnotopodo onjuntoresposta da onsulta asso iada aoregistror
i
. O onjunto de todos osdo umentos oletados formaa sub o-leção de do umentos WebD
. De ada do umentod
j
∈ D
, nós extraímos valores para os seguintes atributos: URL (d
j
.B
url
), título (d
j
.B
titulo
), texto (d
j
.B
texto
), abeçalho (d
j
.B
cabec
) e sigla(d
j
.B
sigla
). A extração dos três primeirosatributos édireta.d
j
.B
url
éaURLasso iada om odo umento,d
j
.B
titulo
éotítulododo umento,istoé,otexto entre os elementos HTML <title> e </title>, ed
j
.B
texto
é o onteúdo do texto do do umento.Para extrair o abeçalhoasso iado om o do umento
d
j
∈ D
i
, nós primeiro que-bramosotexto dodo umentoemfrases, onde adafraseéformadaporuma sequên iade palavrasdelimitadas por mar asde pontuação. Depois,nós extraímosa frasemais
similar ao valor do atributo de
r
i
orresponde à entidade primária. A similaridade é baseadaemumafunçãotal omoo oe ientedesimilaridadedeJa ard. Abreviaçõesexpansão for bem su edida, a forma expandida é onsiderada omo uma andidata
para o abeçalho.
Quandoovalordoatributodo abeçalhoéumtexto urto(umaouduaspalavras)
eapalavraéidenti ada omoumasigla, então essasiglaéexpandida ontraasfrases
extraídas de
d
j
(isto é,para ada letranasiglatenta-se asso iar umapalavra). A frase omomaisalto oe ientedeexpansão,maisaltoqueumdadolimiar,ées olhido omoo abeçalho. Para siglasde entidadesbem onhe idas, amáquinade bus ageralmente
retorna a sigla e o nome longo da entidade nos do umentos, porque as duas formas
estão frequentementejuntas.
Dotexto de
d
j
, nósextraímosuma sigla(se elaexistir) que asa omo abeçalho extraído. Candidatas a sigladevem ter pelo menos duas letras maiús ulas. Ométodode expansão tenta asar letras ini iais, abreviações e onversões omuns, omo 2 e
to em inglês. Um oe iente de expansão é omputado omo a taxade símbolosda
siglaqueforamexpandidos. A sigla om omaisalto oe ientede expansão,maisalto
que um dado limiar, éextraída para representar asiglaasso iada om
d
j
.Compondo os Atributos Inferidos da Web
Usando os atributos extraídos dos do umentos
D
i
retornados pela onsulta asso iada ao registror
i
, nós denimos valores para osseguintes atributos inferidos daWeb parar
i
: onjunto de URLs dos do umentos (r
i
.B
url
), onjunto de títulos dos do umentos (r
i
.B
titulo
), onjunto de textos dos do umentos (r
i
.B
texto
), abeçalho der
i
(r
i
.B
cabec
), e sigla der
i
, se ela existir (r
i
.B
sigla
). Esses atributos são denidos omo expli ado a seguir.Os valores para os atributos onjuntos de URLs, títulos e textos para o registro
r
i
são obtidosdos do umentosd
j
∈ D
i
,respe tivamente, omo:r
i
.B
url
=
[
j
d
j
.B
url
r
i
.B
titulo
=
[
j
d
j
.B
titulo
r
i
.B
texto
=
[
j
d
j
.B
texto
Nós sele ionamoso abeçalho om a mais altasoma de similaridades emrelação
r
i
. SejasimH(d
j
.B
cabec
, d
k
.B
cabec
)
afunção queretornaa similaridadeentre as adeias de ara teresd
j
.B
cabec
ed
k
.B
cabec
. Então, nós omputamos a soma de similaridades entre as adeias de ara teresd
j
.B
cabec
ed
k
.B
cabec
,∀d
j
, d
k
∈ D
i
, omo segue:sumSim(d
j
.B
cabec
) =
X
k6=j
simH(d
j
.B
cabec
, d
k
.B
cabec
)
(1)E então, ovalorpara oatributo abeçalho para oregistro
r
i
é omputado omo:r
i
.B
cabec
= d
j
.B
cabec
, talqued
j
.B
cabec
tem amáximasumSim(d
j
.B
cabec
)
(2)Nós sele ionamos a sigla mais frequente obtida dos do umentos
d
j
∈ D
i
omo o valordo atributosiglapara o registror
i
. SejaaCount(d
j
.B
sigla
)
afunção que onta o número de o orrên ias de ada sigladistintae não nulad
j
.B
sigla
. Então, o valorpara oatributosigla parao registror
i
é omputado omo:r
i
.B
sigla
= d
j
.B
sigla
,tal qued
j
.B
sigla
tem a máximaaCount(d
j
.B
sigla
)
(3)Agrupando Registros
Para agrupar dados (Passo 3), nós usamos os valores dos atributos espe í os do
do-mínioe atributos inferidos da Web. Cada grupoé esperado representar uma entidade
distintadomundo real. Opro edimentode agrupamento omputa asimilaridade
par-a-pardosregistros
r
i
er
j
usandoafunçãodesimilaridade,sim(r
i
, r
j
)
,baseadaemuma ombinação linear de funções de similaridade que omparam os valores dos atributosasso iados om ada registro. Seja
F
p
(r
i
, r
j
)
a função de similaridade para op
esimo
atributo dos registros
r
i
andr
j
, e sejaw
p
um peso asso iado om op
esimo
atributo. Então, nós denimos
sim(r
i
, r
j
) =
P
p
w
p
× F
p
(r
i
, r
j
)
P
p
w
p
= 1
(4)As funções de similaridade para ada um dos atributos inferidos da Web são
F
url
(r
i
, r
j
) =
(
1.0
se|r
i
.B
url
∩ r
j
.B
url
| ≥ q, q > 0
p
q
se|r
i
.B
url
∩ r
j
.B
url
| = p, 0 ≤ p < q
onde
q
é um parâmetro denido empiri amente, orrespondendo ao número requeridode URLs em omum nos dois onjuntos.
F
titulo
(r
i
, r
j
) = simT (r
i
.B
titulo
, r
j
.B
titulo
)
Analogamente à função
F
titulo
(r
i
, r
j
)
, nós denimos as funçõesF
texto
(r
i
, r
j
)
eF
cabec
(r
i
, r
j
)
usando as funções de similaridadesimX(r
i
.B
texto
, r
j
.B
texto
)
esimH(r
i
.B
cabec
, r
j
.B
cabec
)
, respe tivamente, ondesimT
,simX
esimH
são quaisquer funções de similaridade de adeias de ara teres, tais omo oe iente de Ja ard ousimilaridade do osseno. Finalmente,
F
sigla
(r
i
, r
j
) =
1.0
ser
i
.B
sigla
= r
j
.B
sigla
er
i
.B
sigla
não énulo0.0
ser
i
.B
sigla
6= r
j
.B
sigla
v
ser
i
.B
sigla
é nulo er
j
.B
sigla
é nulo, 0.0 ≤ v ≤ 1.0
onde
v
é um parâmetro denido empiri amente, usado quando não há nenhuma siglaem omum.
Para o agrupamento de registros, nós podemos usar um pro edimento de
agru-pamentobaseado em qualquer té ni a, tal omo K-vizinhos-mais-próximos(KNN) ou
o agrupamento aglomerativohierárqui o(HAC).
Gerando um Arquivo de Autoridade
No Passo 4, nós geramos um arquivo de autoridade. Desde que ada grupo
c
k
gerado noPasso3representaumaentidadedistintadomundoreale
k
∈ E
então, elerepresenta umregistrodeautoridadear
k
,enósarmazenamosumaligaçãoparaosregistrosqueele agrupa. Ainda,nós armazenamoso onjuntode valoresdos atributos de seus registrosorrespondentesàentidadeprimária,oqual ompreendeoatributoreferên ias ruzadas
ar
k
.A
cruz
. E ainda, nós denimos seu atributo abeçalhoar
k
.A
cabec
, omputado omo segue.Analogamente à Eq. (1) e à Eq. (2), nós omputamos o atributo abeçalho
ar
k
.A
cabec
para o registro de autoridadear
k
, onde adar
i
.B
cabec
é o abeçalho doregistro
r
i
∈ c
k
, omo segue:sumSim(r
i
.B
cabec
) =
X
j6=i
simH(r
i
.B
cabec
, r
j
.B
cabec
)
ar
k
.A
cabec
= r
i
.B
cabec
, talquer
i
.B
cabec
tem a máximasumSim(r
i
.B
cabec
)
Seumasiglaexistirparaqualquerregistroem
c
k
,nós omputamosoatributosiglaar
k
.A
sigla
paraoregistrodeautoridadear
k
eo on atenamosao abeçalho,dandomais informaçãosobre aentidade. Analogamenteà Eq.(3), eleé omputado omo:ar
k
.A
sigla
= r
i
.B
sigla
,tal quer
i
.B
sigla
tem amáximaaCount(r
i
.B
sigla
)
Congurações do Ar abouço WER
Nósimplementamosumar abouçogenéri oe ongurávelpararesoluçãodeentidadese
riaçãodearquivosdeautoridade. Oar abouçoé ompostode lasses, orrespondendo
aospassosdaabordagemWER.Essas lasses ontêm operaçõesbási aspararesolução
de entidades e riação de arquivos de autoridade genéri os, e podem ser estendidas
para apli açõesde domínio espe í o.
O ar abouço WER é ongurável e o usuáriopode, porexemplo, denir os
atri-butosdos registros,sele ionarosatributospara omporas onsultas,oatributo
orres-pondente àentidade primária,otipo dodo umento aser oletado(texto resumido ou
texto ompleto), as funções de similaridade aserem usadas para omparar adeias de
ara teresnaextraçãodeinformaçãoenopro edimentode agrupamento(ex: distân ia
deedição, oe ientedeJa arde osseno), opro edimentode agrupamentoeospesos
aserem usados nas funçõesde similaridade doagrupamento.
O ar abouço WER também implementaalgumas métri as para avaliaros
agru-pamentos, tais omo amétri aK,pairwiseF1 e lusterF1. Eleéútilpara simulações,
permitindo modelar diferentes estratégias para resolução de entidades e para medir
Parademonstraraefetividadedos atributosinferidos daWeb, nósavaliamosométodo
WERusandofunçõesde similaridadeapli adassomenteaeles,sem ombiná-los omos
atributos espe í os dodomínio. Oobjetivo dos nossos experimentosfoi omparar tal
estratégia ontra um método de referên ia (baseline) que usa o mesmo pro edimento
de agrupamento e as mesmas funções de similaridade, porém, apli adas somente a
atributos espe í osdo domínio.
Nos experimentosmostrados, para todas as funções de similaridade que
ompa-ram atributos do tipo adeia de ara teres, nós usamos o oe iente de similaridade
de Ja ard,paraambos,ométododereferên iaeoWER.Nósexperimentamos outras
funções de similaridade tais omo distân ia de edição, osseno e Ja ard ombinado
om distân iade edição. Para todas elas, asdiferenças nos resultados foramsimilares
à Ja ard. E ainda, nós ajustamos os pesos das ontribuiçõesdas funçõesde
similari-dadepara obterosmelhores resultados,tantopara ométodode referên iaquantopara
o WER. Para o pro edimento de agrupamento, os resultados relatados se referem ao
KNN, desde que elese mostroumelhor doque oHAC, que tambémexperimentamos.
Para obter informaçãodaWeb, nós submetemos onsultas usando aAPI Google
Sear he oletamos os
10
textos resumidos notopodo resultado de ada onsulta.Nós avaliamos o WER apli ado aos seguintes três problemas: resolução de
des- riçõesde impressoras, títulosde veí ulosde publi ação enomesde autores. Cadaum
dos problemas usou uma base de dados distinta. A base de dados de des rições de
impressoras foi oletadaa partir de onsultas aoGoogle's Produ t Sear h usando
des- rições de impressorasobtidas de sítios de fabri antes de impressoras. Elaé omposta
de
2.169
adeias de ara teres distintas de des rições de impressoras, distribuídas em158 grupos, ontendo em média
13, 7
adeiasporgrupo. A base de dados para opro-blema de resolução de títulos de veí ulos de publi ação ontém itações bibliográ as
oletadas apartirde onsultas aoGoogleS holar usandonomesde professores de
qua-tro departamentos de iên iada omputação das prin ipaisuniversidades ameri anas.
Ela é omposta de
16.689
registros de itações ontendo8.399
adeias de ara teresdistintaspara o títulodoveí ulo de publi ação. Nós avaliamosuma amostraaleatória
dessa base ontendo
691
adeias de ara teres distintas, distribuídas em110
grupos,ontendo em média
6, 3
adeias por grupo. E a base de dados para o problema deresolução de nomes de autores ontém itações bibliográ as oletadas da DBLP. Ela
é omposta de
8.442
registrosde itações, om480
autores distintos, divididos em14
grupos ambíguos.
ganhos do WER, os quais são estatisti amente signi ativos, ex eto para a métri a
luster F1 ( F1) para os dois últimos problemas. Os resultados em luster F1 são
baixos porque as bases de dados ontêm muitos grupos grandes, ontendo ada um
muitas formas variantes, oque torna difí ilobter grupostotalmente orretos.
Método Problema K(%) pF1(%) F1 (%)
WER impressora 76.2
±
1.8 63.9±
2.0 6.3±
1.0 baseline impressora 51.6±
2.1 28.4±
1.9 0.2±
0.2 ganhosdo WER 47.7 125.0 3050.0WER vei . publi ação 75.4
±
3.2 37.5±
3.6 27.6±
3.3 baseline vei . publi ação 67.2±
3.5 19.3±
2.9 25.1±
3.2ganhosdo WER 12.2 94.3 10.0
WER autores 72.6
±
5.0 66.4±
9.3 3.8±
1.7 baseline autores 55.9±
3.6 37.3±
7.7 5.1±
2.2ganhosdo WER 28.1 78.0 -25.5
Tabela 1. Comparação do WER ontra métodos de referên ia (baselines) para
os problemas de resolução de des rições de impressoras, veí ulos de publi ação
e nomes de autores. Todos os métodos usam a função de similaridade baseada
no oe iente de Ja ard para omparar adeias de ara teres e o pro edimento
de agrupamento KNN. Cada élula mostra o valor obtido pelo método para as
métri as K, pairwise F1 (pF1) e luster F1( F1), e seus intervalos om 95% de
onança. Para adaproblema, ater eiralinhamostraosganhosdoWER, ujos
valoresemnegritosãoestatisti amente signi antes.
Manualmenteveri andoosresultadosdosagrupamentos,nóspudemos onrmar
que adeias de ara teres similares tais omo Impressora HP O ejet J3680
tudo-em-uma Fax, S anner, Copiadora e Impressora HP O ejet J4580 tudo-em-uma
Fax, S anner, Copiadora, des revendo impressoras distintas, foram olo adasem um
mesmo grupo pelo método de referên ia e em grupos distintos pelo WER. Também,
adeiasde ara teres om pou as palavras em omum, tais omoImpressora HP
O- ejet J3680 tudo-em-uma Fax, S anner, Copiadora e Impressora Multifun ional HP
CB071A#A2LJ3680 O ejet, des revendo uma mesma impressora, foram olo adas
emum mesmogrupopeloWERe emgruposdistintospelo métodode referên ia. Em
ambosos asos,asURLsforamimportantesparadesambiguá-las. Resultadossimilares
o orremnas outras duas basesde dados, sendo quenoproblema de títulos de veí ulos
depubli açãoassiglastambémdesempenhamumpapelimportantenadesambiguação.
Nós analisamos asos de falhasdo WERe en ontramos erros para desambiguar,
por exemplo, impressoras que possuem variações de um mesmo modelo, tais omo
Impressora Laser HP P3005, Impressora Laser HP P3005d e Impressora Laser
mesmosendoimpressorasdistintas. Nesse aso,ométododereferên iatambémproduz
resultados in orretos.
Nós também avaliamos a qualidade dos abeçalhos dos arquivos de autoridade
gerados pelo WER, omparando-os om as adeias de ara teres originais
orrespon-dentes às des riçõesde impressoras, aos títulosde veí ulos de publi ação e aos nomes
de autores. OsresultadosmostramqueoWERobtémmelhoresdes riçõespara
40, 7%
das impressoras, om umataxadeerro de
7, 4%
,obtémmelhorestítulosde veí ulosdepubli ação para
25, 0%
dos títulos, om umataxa de erro de6, 5%
,e obtémum nomeexpandido orretopara
27, 4%
dos autores, om uma taxade erro de4, 7%
.Uma Solução Espe í a para Resolução de Nomes
de Autores
Nossa proposta de extrair informação da Web para ajudar no pro esso de
desambi-guação de entidades pode ser espe ializado para algumas apli ações. Nesse aso, nós
podemos usar onhe imento espe í o sobre a apli ação para apli ar heurísti as que
podemmelhorarosresultados. Nósapli amosessa ideiapara desenvolveruma solução
espe í a para resolução de nomesde autores.
Emnossosexperimentosnaresoluçãode nomesde autores, nóssubmetemos
on-sultas a uma máquina de bus a objetivando en ontrar do umentos ontendo
publi a-ções dos autores. E então, nós onamos no fato de que se duas ou mais onsultas
retornam do umentos em omum, isso pode indi ar que tais do umentos ontêm
pu-bli ações de um mesmo autor. De fato, isso é verdade para muitos do umentos. No
entanto, hámuitos outros que ontém publi açõesde autoresdistintos, tais omo
tex-tos de artigos ou páginas de artigos em bibliote as digitais que também ontém suas
referên ias bibliográ as, ou listas de artigos de uma revista ou edição de uma
on-ferên ia. Nós podemos tirar vantagem de onhe er tais propriedades espe í as da
apli ação e usar algumas heurísti as para determinar quais são os do umentos que
podem efetivamenteajudar nopro esso de desambiguaçãode nomesde autores.
Nossa solução espe í a é similar a nossa solução genéri a no sentido que nós
submetemos onsultas a uma máquina de bus a usando os valores dos atributos das
itações de entrada, oletamos e extraímos informaçãodos do umentos dos onjuntos
respostas das onsultas e apli amos um pro edimento de agrupamento para agrupar
itações de um mesmo autor. A prin ipal diferença é que nós usamos onhe imento
ti ar do umentos de um úni o autor, isto é, do umentos ontendo itações de uma
úni apessoa,tal omoum urrí ulo,(2)ponderarosdo umentos, gerandouma ordem
de sua importân ia no pro esso de desambiguação e (3) apli ar um pro edimento de
agrupamentoespe í ousandoosdo umentosde um úni oautoreoordenamentodos
do umentos.
Para identi ar um do umento de um úni o autor, nós pro uramos pelo nome
de autor notítulo da páginade um do umento,em sua URL e noiní io de seu texto.
No último aso, nós tentamos identi ar urrí ulos, onde o nome do autor apare e
no iní io do do umento junto om palavras tais omo urri ulum vitae, urrí ulo,
nome,endereço e fone. Se um nome de autor apare e sozinho emum desses três
lugareseomesmonomeapare eemtodasas itaçõesen ontradasnodo umento,então
odo umento é onsiderado de um úni o autor.
A importân iade ada do umentonopro esso de desambiguaçãoé quanti ada
usandoafrequên iainversadoservidor(IHF,inversehostfrequen y). AIHFquanti a
a raridade relativa de um servidor na Internet, semelhante à frequên ia inversa do
do umento (IDF), usada em re uperação de informação. A ideia é que páginas de
sítios Web raros têm mais importân ia no pro esso de desambiguação do que as de
sítios omuns, tais omo páginasde bibliote as digitais.
Finalmente, nós usamos um pro edimento de agrupamento aglomerativo
hierár-qui o que agrupa itações en ontradas em do umentos de um úni o autor om alto
IHF. Tais do umentos são provavelmente urrí ulos ou páginas pessoais ontendo
i-tações de uma úni a pessoa. Para os do umentos de um úni o autor om baixo IHF,
o WER agrupa somente aquelas itações que forem também en ontradas juntas em
outrosdo umentos. Tais do umentossão provavelmentepáginas de autoresem
biblio-te asdigitais,enós pro uramospormaisevidên iaspara agruparsuas itações,desde
quebibliote as digitais podem onter erros.
Resultadosexperimentaismostramquenossasoluçãoespe í apararesoluçãode
nomes de autores produz melhores resultados doque nossa solução genéri a e do que
outrosdois métodos não supervisionadospropostos naliteratura. E éestatisti amente
equivalente a um método supervisionado baseado no SVM, tendo a vantagem de não
Nós apresentamos um novo método que usa informação extraída daWeb para
resolu-ção de entidades e riação de arquivos de autoridade. Nós propusemos uma sequên ia
de passos para submeter onsultas a uma máquina de bus a, extrair informação dos
do umentos no onjunto resposta e riar agrupamentos de registros baseados nas
in-formações extraídas. Nós tiramos vantagem dos sosti ados pro edimentos de bus a
e dos grandes repositórios implementados pelas máquinas de bus a modernas. Nosso
métodoé genéri o epode ser apli adoa diferentes tipos de entidades. Nós
implemen-tamos um ar abouço ongurável ontendo operações bási as para resolução genéri a
de entidades e riação de arquivos de autoridade, que pode ser estendido para
apli a-ções de domínioespe í o. Ele é útil para simulações, permitindo modelar diferentes
estratégias para resolução de entidades emedir seus resultados.
Nossos resultados indi amgrandes ganhos na qualidade da resolução de
entida-des quandoapli adosemtrêsbases dedadosdistintas, al ançandoganhosde até
125%
na métri a pairwise F1. Na riação de arquivosde autoridade, nosso métodoé apaz
de estender formas abreviadas e obter nomes anni os de boa qualidade, e também
pode produzir siglas automati amente. Nós também apresentamos uma solução
espe- ializada para resolução de nomes de autores, que obtém melhores resultados quando
omparados a métodos de referên ia não supervisionados, e é estatisti amente
empa-tado om um métodosupervisionado, o qual requer rotulação humana e muito tempo
de treinamento.
Hámuitas direçõesinteressantes quepodemosseguirpara trabalhosfuturos. Em
nossos experimentos, nós não obtivemos bons resultados usando osatributos onjunto
de títulos e onjunto de textos inferidos da Web. Nós pretendemos investigar melhor
omo usá-los porque eles ontêm informação valorosa. Também, nós pretendemos
estudarousode métodossupervisionados tais omooSVMouoRandomForestspara
ombinar os pesos e asfunções de similaridades.
No ampo de bibliote as digitais, para nossa solução de resolução de nomes de
autores, nóspretendemosextrairinformaçõestais omoe-mail,endereço,aliaçãoe
no-mes ompletos de autores dos do umentosde um úni o autor paraajudarnopro esso
de desambiguação. Essas informações estão normalmente disponíveis em urrí ulos
dos autores. Extraçãode nomes ompletos deautoresétambémimportantepara riar
arquivosde autoridade de nomes de autores. Nós tambémpodemos ombinar
estraté-gias paradesambiguar nomesde autorese títulosde veí ulos de publi açãoao mesmo
tempo. Usando nosso método, nós pretendemos desenvolvermelhoresestratégias para
3.1 Representation of two strings
s
i
ands
j
in the ve tor spa e model, onsid-ering onlytwowordsk
1
andk
2
. . . 193.2 Points of 11re ords representing four lusters. . . 27
3.3 A dendrogram example presenting the progressive merge of lusters. A
level of similarity higher than a threshold indi atesthe desired number of
lusters. (Based on[Chakrabarti, 2003℄. . . 27
3.4 K-nearest-neighbor graphs from original data in a two-dimensional spa e:
(a)original data, (b) 1-, ( ) 2-,and (d) 3-nearest-neighborgraphs. (Taken
from[Karypis et al., 1999℄). . . 28
4.1 Exampleofabibliographi itationre ords hema ontainingthe attributes
authorname, oauthor names, work title, publi ationvenue title, and year
published, and itsprimary entities. . . 34
4.2 Four steps that ompose the entity resolution algorithm in the WER
Ap-proa h.. . . 35
4.3 WER framework lass diagram. . . 43
5.1 Designoftheexperiments. (a)Baselineusesthedomain-spe i attributes
A
i
of the input re ordsto omputesim(r
i
, r
j
)
(b) WERusesthe inferred attributesB
i
extra ted fromthe Web to omputesim(r
i
, r
j
)
.. . . 481 ComparaçãodoWER ontramétodos dereferên ia(baselines)paraos
pro-blemas de resolução de des rições de impressoras, veí ulos de publi ação e
nomes de autores. Todos os métodos usam a função de similaridade
ba-seada no oe iente de Ja ard para omparar adeias de ara teres e o
pro edimento de agrupamento KNN. Cada élula mostra o valor obtido
pelo método para as métri as K, pairwise F1 (pF1) e luster F1 ( F1), e
seusintervalos om 95%de onança. Para adaproblema, ater eiralinha
mostra os ganhos do WER, ujos valores em negrito são estatisti amente
signi antes.. . . xxvi
4.1 Example of four itations(
r
1
tor
4
) ontaining ea h one its author names, work title, publi ationvenue title, and year published, respe tively. . . 324.2 Twoauthorityre ords, inthis ase relativetopubli ationvenues, that
om-pose the authority le for the Example 1 of Se tion 4.1. The attribute
ar
i
.A
head
is the heading and the attributear
i
.A
cross
ontains the ross ref-eren es of authority re ordi
. The heading in ludes the a ronym and theanoni al titleof the publi ation venue. . . 34
5.1 Examples of printer des riptionsfound inthe test dataset. . . 48
5.2 Comparison of WER with the baselines for four similarity fun tions using
the KNN lustering pro edure. Ea h ell shows the value for the K, the
pairwise(pF1), and the luster F1 ( F1)metri s. . . 50
5.3 Comparison of WER with the baselines for four similarity fun tions using
the HAC lustering pro edure. Ea h ell shows the value for the K, the
viduallyto ompose the similarity fun tionof WER. All methodsused the
KNN lustering pro edure and the omparison of the attributes used the
Ja ardsimilarityfun tion,ex eptfor theset ofURLs. Ea h ellshowsthe
value for the K, the pairwise(pF1), and the luster F1 ( F1)metri s. . . . 51
5.5 Examples of distin treferen es to the VLDB Conferen e found in the test
dataset. . . 53
5.6 Comparison of WER against the baseline for the sample-at-random and
sample-of-the-largest sets from the dataset. Ea h ell shows the value for
the K,the pairwise(pF1),and the luster F1 ( F1)metri s. . . 55
5.7 Example ofthree itations(
c
1
toc
3
) ontaining ea hone its authornames, work title, publi ationvenue title, and year published, respe tively. . . 575.8 Information about the dataset proposed by Hanet al. [2005℄, divided into
14ambiguousgroups. Ea h olumnlists,respe tively,thenamelabelofthe
ambiguous group, the number of authors ea h name label orresponds to,
and the total numberof itationsin the orrespondent ambiguous group. . 58
5.9 Comparison of WER againstthe baseline. Ea h ell shows the mean value
among the 14 groups of authors for the K, the pairwise (pF1), and the
luster F1 ( F1)metri s. . . 58
6.1 Resultsfor the WERmethodusingquery option1(unquoted authorname
+publi ations + unquoted work title). Std Dev - Standard Deviation. 70
6.2 Resultsfor the WERmethodusingquery option2(unquoted authorname
+quoted worktitle). Std Dev -Standard Deviation. . . 70
6.3 Comparisonofthespe i solution(WERspe i )againstthegeneri
solu-tion (WERgeneri ) and the unsupervised methodsWeb-HACand KWAY.
Ea h ellshows the mean value amongthe 14groups of authorsfor the K,
pairwise(pF1),and lusterF1 ( F1)metri s,andits95% onden einterval. 72
6.4 Comparison of the spe i solution (WER spe i ) against the generi
so-lution (WER generi ) and the supervised learning based method (SVM).
Ea h ellshows the mean value amongthe 14groups of authorsfor the K,
pairwise(pF1),and lusterF1 ( F1)metri s,andits95% onden einterval. 73
6.5 Resultsfor the WERmethodusingquery option3(unquoted authorname
+three unquoted work titles). Std Dev - Standard Deviation. . . 74
6.6 Resultsusing oauthorinformationtofuse lustersafterapplyingtheWER
Agrade imentos xi
Resumo xiii
Abstra t xv
Resumo Estendido xvii
List of Figures xxxi
List of Tables xxxiii
1 Introdu tion 1
1.1 Obje tives of the Thesis . . . 2
1.2 Contributions of the Thesis . . . 3
1.3 Organization ofthe Thesis . . . 4
2 Related Work 5
2.1 Entity Resolution . . . 5
2.2 Authority Files . . . 8
2.2.1 Authority Control inTraditionalDigital Libraries . . . 8
2.2.2 Automated Authority Control . . . 10
2.3 PersonalName Disambiguation . . . 11
2.3.1 PersonalName Disambiguationonthe Web . . . 11
2.3.2 Author Name Disambiguation . . . 12
3 Basi Con epts 15
3.1 String-based Similarity Fun tions . . . 15
3.1.1 Chara ter-based SimilarityFun tions . . . 16
3.2 PairwiseSimilarityFun tions . . . 20
3.2.1 Unsupervised PairwiseSimilarityFun tions . . . 21
3.2.2 Supervised PairwiseSimilarityFun tions . . . 22
3.3 Classi ation and Clustering . . . 23
3.3.1 Classi ation . . . 23
3.3.2 Clustering . . . 24
4 The WER Approa h 31
4.1 Examples of Entity Resolution . . . 31
4.1.1 Example1 . . . 31
4.1.2 Example2 . . . 32
4.2 The WER Formulation . . . 33
4.3 Extra ting Informationfrom Do uments . . . 36
4.3.1 HeadingExtra tion . . . 37
4.3.2 A ronym Extra tion . . . 38
4.3.3 URLs,Titles, and Texts . . . 38
4.3.4 Heading . . . 38
4.3.5 A ronym . . . 39
4.4 Clustering Re ords . . . 39
4.5 Generating anAuthority File . . . 40
4.6 The WER Framework . . . 41
4.6.1 Detailsof Implementation . . . 42
4.6.2 UserInterfa e . . . 44
4.6.3 Howto Empiri allyDetermine the Parameters . . . 45
5 Experimental Evaluation 47
5.1 Experimentswith Printer Des riptionResolution . . . 48
5.1.1 Dataset . . . 49
5.1.2 Results. . . 49
5.2 Experimentswith Publi ationVenue TitleResolution . . . 53
5.2.1 Dataset . . . 53
5.2.2 Results. . . 54
5.3 Experimentswith AuthorName Resolution. . . 56
5.3.1 Dataset . . . 57
5.3.2 Results. . . 57
6.2 Extra ting Informationfrom Do uments . . . 64
6.2.1 Lookingfor CitationsinDo uments . . . 64
6.2.2 Identifying Single Author Do uments . . . 65
6.2.3 Weighting Do uments . . . 66
6.3 Clustering Citations . . . 67
6.4 ExperimentalEvaluation . . . 69
6.4.1 Results for the WER Method . . . 69
6.4.2 Baselines . . . 71
6.4.3 Comparison with Baselines . . . 72
6.4.4 Improvements . . . 73
6.4.5 Analysis of FailureCases . . . 75
7 Con lusions and Future Work 79
7.1 Con lusions . . . 79
7.2 Future Work . . . 81
7.2.1 Improving the Generi Solution . . . 81
7.2.2 DisambiguatingBibliographi Citations. . . 82
Introdu tion
In large-s ale data repositories, it is oftenhard to re ognize distin t referen es to the
same real-world entity. For instan e, onlineprodu t atalogs are expe ted togenerate
informationrelatedtoprodu tsofthe userinterest. However, given thatsimilarlabels
an be used to refer to distin t produ ts in dierent Web pages, produ ts that are
not related to the user intention might appear in the answer set. To illustrate,while
HP O ejet J3680 All-in-One Printer, Fax, S anner, Copier, HP CB071A#A2L
J3680 O ejetMultifun tionPrinter,and HewlettPa kard O ejet3680All-in-One
Printer (CB071A) refer to the same printer, HP O ejet J4580 All-in-One Printer,
Fax,S anner, Copier refers toa dierent one.
Digital libraries fa e a similar hallenge, as they need to keep bibliographi
i-tation metadata olle ted from several sour es. It is usual to nd ambiguous author
names in bibliographi itations. Ambiguity may o ur due to the existen e of
mul-tiple authors with the same name (polysemes) or dierent name variations for the
same author (synonyms). Also, they need to identify multiple distin t referen es to
the same arti le. Su h problem is referred to in the literature as the entity
resolu-tion problem [Benjelloun etal., 2008;Bhatta harya and Getoor, 2007; Bilenko etal.,
2003;Tejada etal., 2001℄.
To illustrate, onsider the set of bibliographi referen es of a book omposed of
several hapterswrittenbydierent ontributors. Chapterauthorsusedistin tvariant
forms, orlabels, toreferto thevarious onferen es and journals ontainingthe papers
they ited. Forinstan e,the InternationalConferen e onVeryLarge DataBases an
be written of several forms, su h as VLDB, Conferen e on Very Large Databases,
and Int. Conf. on Very Large Data Bases (VLDB). We would like to normalizethe
labelsto avoid onfusion and missinterpretation. An appealing solution to normalize
listof the variantlabelsused to refertoita data stru ture known asauthority le
[Auld, 1982; Fren h etal.,2000℄.
Given many entity referen es, su h as produ t labels or bibliographi itations,
entityresolution isthe pro ess ofidentifyingwhi hofthem orrespond toareal-world
entity. A same re ord, omposed of one or more attributes, may ontain referen es
tomultiple distin tentities. For instan e, a bibliographi itation re ordmay ontain
attributessu hasauthornames, worktitle,and publi ationvenue title,ea hattribute
orresponding toa distin tentity. That is, we may want to nd the entity referen es
thatrefertothe samepubli ationvenue, orthatrefertothe sameauthor,orthatrefer
tothe same arti le (useful for nding repli ated itations)three distin t entities. In
thersttwo ases,theentity tobedisambiguated onsistsofanattributeofthere ord,
and in the latter ase, it onsists of the whole re ord. Thus, it should be lear that
theentity tobedisambiguated hastobeprovidedas input. Wefrequentlyrefertothe
re ord omposed of attributes as the entity referen e. However, it might be that the
attributes serve asreferen es tomultipleentities. In this ase, itis ne essary to make
expli itwhi h attribute willbe onsidered asthe entity referen eto disambiguated.
In the ase of identifying repli as, some previous works alsodeal with the
prob-lem of merging the repli ated re ords generating a anoni al form for ea h entity
[Benjelloun et al., 2008; Wi k et al., 2009℄. If the entity to be disambiguated onsists
of only one of the attributes of the re ords, some previous works generate an
author-ity name( anoni al name) forea hentity and keep alistof variantforms that an be
usedtorefertoit,generatinganauthorityle[Fren h etal.,2000;Warner and Brown,
2001℄. In here,weaimatgenerating authorityles, without on ern tothe mergingof
repli atedre ords.
1.1 Obje tives of the Thesis
The main obje tive of this thesis is to study the entity resolution problem and the
reationofauthorityles. Weproposeasolutionthatusesinformationavailableonthe
Webasasour eofadditionalknowledgetodisambiguateentityreferen esandtoobtain
anoni al names for entities. Our hypothesis is that we an obtain su h additional
knowledgesubmittingqueries toaWeb sear hengineand extra tinginformationfrom
the do uments returned by the queries. We study a generi solution that may be
appliedtoseveral distin tdatasets and a spe i solutionfor author nameresolution,
aproblemfa ed by digital libraries.
for disambiguating purposes. For example, to disambiguate author names in
biblio-graphi itations, some previous works [Cota et al., 2007; Han etal., 2005℄ use only
basi attributes su h as author names, work title, and publi ation venue title. Other
works[Bhatta harya and Getoor,2007;Huang et al.,2006;Song etal.,2007℄use
addi-tional attributes su h as abstra ts, keywords, e-mails, and aliationsof authors. The
problemwiththeseapproa hesisthatsu hadditionalattributesaresometimesdi ult
to obtain.
We extra tfromthe Web additionalattributesthat an beusedtodisambiguate
entities. The Web is a valuable sour e of eviden e where we an nd urri ula vitae
of authors whose referen es are ambiguous or obtain a ronyms that an be used to
expand abbreviated publi ation venue titles. The hallenge is to formulate the most
suitable queries to a Web sear h engine and extra t from the answer sets information
that an be used ee tively fordisambiguationpurposes.
Inthisthesis,wepresentanapproa htosolvetheentityresolutionproblem,whi h
werefertoasWERWeb-basedEntityResolution. Webuiltageneri and ongurable
framework for dealing with various instan es of the entity resolution problem, whi h
allows the easy and onvenient development of solutions to new domains. We also
dis uss a spe i solutionfor author nameresolution, en oded using our framework.
1.2 Contributions of the Thesis
The major ontributions of the thesis are:
•
A new method that uses information available on the Web as a sour e of addi-tionaleviden e forentityresolution and reationofauthorityles [Pereira etal.,2008,2009a℄. Thismethod,whi hin ludesspe i heuristi stoextra tpertinent
informationfromWebdo uments,leadstoimprovedresultswhen omparedwith
state-of-the-art solutionsfor the problem (Chapter 4);
•
A ongurable framework that allows onveniently modelingdierent strategies for entity resolution and assessingtheir results (Chapter 4);•
An empiri al validation of our solution for the entity resolution problem with extensive experiments (Chapter 5);•
A ustomized implementation of our solution for disambiguation author names (in bibliographi itations)[Pereira etal.,2009b℄, aswell asits omparisonwitha variant implementation (of the same solution) on our ongurable framework
The results of this thesis an be used to improve the quality and the e a y of
online produ t atalog servi es, in whi h a user an, for example, ompare pri es of
produ ts. Indigitallibraries,itmayimprovetheautomati gatheringofstatisti sabout
ele troni do umentssu h as statisti sinvolvingauthors and their aliations. In this
ase,the rst step is toreliably identify individualsorinstitutions before determining
howmany and whatpapers were writtenby ea hone. Our workmay alsobeuseful to
identifythe proleofs ienti publi ationsofinstitutions. Inthis ase, we an identify
publi ation venues asso iated with ea h of the publi ation of a institution, and then
generate statisti al data about, for example, venue titles and venue types (journal,
onferen e, workshop) inwhi han institution publishes more arti les.
1.3 Organization of the Thesis
Therest ofthisthesisisorganizedasfollows. InChapter2,wedis usstherelatedwork
onentity resolution and authority les. In Chapter 3, we present basi on epts that
are usefull for a better understanding of the subsequent hapters. In Chapter 4, we
des ribe detailsof the Web-based approa h. In Chapter 5, we report our experiments
and their results using three distin t datasets. In Chapter 6, we dis uss a spe i
solutionforauthorname resolution omparing itwith our generi solution. Finally,in
Related Work
In Se tion 2.1, we review previous resear hrelated tothe entity resolution problemin
its more general approa h. As our work also produ es authority les, in Se tion 2.2,
we review the literature on this subje t. In Se tion 2.3, we des ribe the work related
topersonalnamedisambiguation,sin ewepropose aspe i solutionfor authorname
disambiguation.
2.1 Entity Resolution
The entity resolution problem has been studied in various dis iplines under
dierent names su h as re ord linkage [NewCombe etal., 1959℄, identity
un- ertainty [Pasula etal., 2002℄, itation mat hing [Lee et al., 2007℄, merge/purge
[Hernández and Stolfo,1995℄,dedupli ation[Sarawagi and Bhamidipaty,2002℄,among
others. The rst arti les on the task of mat hing equivalent re ords that dier
synta ti ally (re ord linkage) are from the 1950s and the 1960s with the works of
NewCombe etal. [1959℄ and Fellegi and Sunter [1969℄. The latter formulated a series
of statisti al methods for dealing with the problem of mat hing population re ords,
whi h are the base for subsequent works on re ord linkage. Febrl [Febrl, 2009℄ is an
example ofa toolthatimplementssu hmethods. Agoodsurveyondedupli ation an
befound in[Elmagarmidetal.,2007℄.
Works on entity resolution aim at identifying entity referen es judged to
rep-resent the same real-world entity. In some ases, the goal is to identify
repli- ated referen es whose attribute values dier synta ti ally [Bilenko etal., 2003;
Sarawagi and Bhamidipaty, 2002℄. Forexample, when the obje tiveis toidentify
us-tomer entities in ustomer databases oming fromdierent subsidiaries of a ompany.
donot represent repli as[Bhatta harya and Getoor,2007;Cohen, 1998℄. Forexample,
when the obje tive is to allo ate bibliographi itations to the orresponding author.
The itations allo ated to ea h author are not ne essarily repli as. In addition, after
identifyingrepli as,someworksdeal withtheproblemofmergingre ordsgeneratinga
anoni alformforea hentity[Benjelloun et al.,2008;Wi k et al.,2009℄,whereassome
othersalsoobtainanauthoritynameforea hentity [Fren h etal.,2000;Pereira etal.,
2008℄. We do not propose solutions to merge repli ated referen es, but we generate
authority les by sele tingan authority name forea h disambiguated entity.
Traditional approa hes to entity resolution ompare re ords measuring the
sim-ilarity of their attribute values based on a distan e metri , su h as edit distan e or
osine. Several works have studied algorithms for approximate string mat hing that
anbeusedforentityresolution. Cohen etal.[2003a,b℄ omparedseveralstringmetri s
for the task of mat hing names. They evaluated string metri s applied to individual
attributes of the entities and proposed a supervised strategy to ombine similarity
metri s on all attributes to handle entity mat hing. Fren h etal. [2000℄ investigated
strategies touse traditionalstring mat hing applied toaliationsof authorsand
pro-poseda ombinationofJa ardsimilarity oe ientwithedit distan e,whi hwasalso
used in our experiments generating good results. Lawren e et al. [1999a,b℄ proposed
severalalgorithmsformat hing itationsfromdierentsour esbasedoneditdistan e,
word mat hing,phrase mat hing,and attribute extra tion.
Some approa hes use adaptive supervised algorithmsthat learn string similarity
measures fromlabeled data. Bilenko etal.[2003℄ represent everypair of re ordsusing
ave toroffeaturesthatdes ribesimilaritybetweenindividualre ordattributes. Their
methoduses trainingdatain formofmat hed and unmat hedre ord pairsto trainan
algorithm for lassifying re ord pairs as dupli ate and nondupli ate. Then they use
the distan e fromthe hyperplane, inaSVM lassier, as the measure of onden e in
the pair of re ordsreferring to the same entity.
Based on the same idea for training on mat hed and unmat hed pairs,
Tejada etal.[2001℄ developed anentity identi ationsystem thatapplies aset of
gen-eral string transformations and an a tive learning te hnique that learns rules, using
de isiontrees,formappingre ords. In[Tejadaet al.,2002℄,theyextended theirsystem
tolearntoweighttransformationsforaspe i appli ationdomain. Anotherapproa h
using supervised learning was proposed by Pasula et al. [2002℄ to nd repli as of
bib-liographi itations. They reate a relational probabilisti model for the domain that
involves onstru ting agenerative modelfor individualattributes and using a Markov
hain MonteCarlo pro edure toobtain mat hing de isions.
programming [Koza, 1992℄. A geneti programming based approa h to repli a
identi- ation in data repositories was developed by de Carvalho etal. [2008℄. The idea is
toautomati allysuggestsimilarityfun tionsthat ombines thebesteviden eavailable
among the re ord attributes, in order to identify two re ords referring to the same
entity.
Supervised ma hine learning te hniques a hieve high a ura y but require
labo-rious human labeling and expensive trainingtime. To ir umvent the problemof only
a smallamount of labeled data being available, Blumand Mit hell [1998℄ proposed a
modelinwhi h unlabeled data an beused toenlarge the trainingset. The idea is to
use twoviews of anexamplethat are redudant but not ompletely orrelated inwhi h
twolearningalgorithmare trainedseparatelyonea h view, and thenea h algorithm's
predi tion onnew unlabeled examplesisusedtoaugmentthetrainingset ofthe other.
Unsupervisedte hniqueshavealsobeen proposed. Cohen[1998℄presentsaquery
language that identies referen es to the same entity providing approximate answers
in a database system. His model onverters the attribute values in the database into
ve tors of text and ranks them using the ve tor spa e model. Chaudhuriet al. [2005℄
developed a lustering te hnique to identify re ord repli as that aptures lo al
stru -tural properties of data to hara terize groups of repli ated re ords. However, their
solutionworkswellforappli ationswherethesizesofgroupsofrepli asaresmall,whi h
is not usually the ase for appli ations that olle t data from the Web. Like we do,
Carvalho and da Silva[2003℄ also use a linear ombinationto weight the ontribution
of ea h attribute to ompose the pairwise similarity fun tion for identifying repli as.
They evaluate four distin tstrategies to ompose the fun tion using the ve tor spa e
modelfor omputing similarity.
A re ent line of works has taken the relationship among re ords into a ount.
Dong etal. [2005℄ proposed a generi framework based on a dependen y graph that
exploits the asso iation among entity referen es belonging to multiple related lasses.
First, their method uses the relationship among referen es to provide eviden e for
re on iliation de isions. Then, it propagates information between re on iliation
de i-sions for dierent pairs of referen es, and after, it addresses the la k of information
in ea h referen e by using the enri hed information already obtained in the previous
steps. Bhatta harya and Getoor [2007℄ proposed to resolve entities olle tively based
on the relationship among entity referen es, asin the bibliographi domainwhere
au-thornamesinpapersare onne tedby oauthorlinks. Theyuseagreedyagglomerative
lustering algorithm where, at any stage, the urrent set of lusters ree ts the
ur-rent belief about the mapping of the referen es to entities. The similarity between
lusters.
Considering e ien y and s alability issues, Benjelloun etal. [2008℄ proposed a
generi entity resolution framework that views the fun tions used to ompare and
merge re ords as bla k-boxes, and they developed strategies that minimize the
num-ber of invo ations to su h bla k-boxes. Several works follow the theory suggested by
Fellegiand Sunter [1969℄,in whi h the e ien y isa hieved by some typeof blo king
s heme that redu es the number of re ord pairs to be ompared. The idea is to split
re ordsinto bu kets [Jaro, 1989℄ or anopies [M Callum etal., 2000℄,and to ompute
similaritiesonly among referen es in the same blo k. Bilenko etal. [2006℄ proposed a
me hanismtoautomati allylearntheoptimalblo kingfun tion. Givensimilarity
pred-i atesondierentre ordattributes,theiralgorithmndsanearlyoptimal ombination
of those predi ates as the blo king fun tion. The problem with blo king strategies is
that an error in the blo king does related re ords never being put together. Other
workspropose toimprove the e ien y by in reasing the parallelismof the entity
res-olution[Benjelloun et al., 2007;sik Kim and Lee, 2007℄. Our work,ontheother hand,
fo used onimprovingee tiveness.
OurworkusestheWeb asasour eofadditionalinformationforentityresolution,
aswellas Elma iogluet al.[2007℄do. Theirproposalistouse a Web sear h engineto
measurehowfrequentlytwoentityreferen es appeartogether withasameinformation
on the Web. If this frequen y is high, an entity referen e is onsidered a dupli ate
of the other. Kan and Tan [2008℄ examined the problem and the solutions for entity
resolution indigital library metadata. They point that the Web is a fruitful sour eof
eviden efor entity resolution if arefully leanedand utilized.
2.2 Authority Files
Our work also produ es authority les. Following, we dis uss authority ontrol in
traditionaldigital librariesand works on automatedauthority ontrol.
2.2.1 Authority Control in Traditional Digital Libraries
Authority ontrol is not a new problem [Auld, 1982℄, but its importan eis in reasing
with the reation of a variety of new digital libraries and bibliographi indexing
sys-tems,a essible through the Web. Traditionaldigitallibrariesmaintain authorityles
and work to maintain them onsistent to redu e ambiguity. To illustrate, the Virtual
of three institutions (US Library of Congress, the Deuts he Nationalbibliothek, and
the BibliothèqueNationale de Fran e) intoa single authority servi e.
From experien e in ondu ting the US Library of Congress name authority le
[Library of Congress, 2009℄, Tillett [2000℄ fo uses on how the authority ontrol
per-formed by libraries an help the Web and suggest some of the next steps in making
this tremendous resour e of authority re ords available and used internationally. In
[Tillett, 2001℄, she explores dierent models of how a pool of authority re ords for
bibliographi entities may be used on the Web. The obje tives of su h initiative are:
(1) fa ilitate sharing in order to redu e ataloguing osts for libraries, as well as for
museums, ar hives, rightsmanagementagen ies,et , (2)simplify reationand
mainte-nan e of authority re ords internationally, and (3) enable users to a ess information
in the language, the s ript,and the formthey prefer. More re ently, Tillett [2004℄
ex-plores anewviewofInternationalFederation ofLibraryInstitutionsand Asso iations'
UniversalBibliographi Control(UBC) inafuture visionof avirtual international
au-thority leas abuildingblo k forthe Semanti Web, andreinfor es the importan eof
the authority ontrol toimprove the pre isionof sear hes inlarge databases or onthe
Web.
Snyman and vanRensburg [2000℄ dis ussthe eortto standardizeauthor names
using aunique number, alledINSAN. In the INSAN model,ana ess ontrolleand
a ess re ords an be reated instead of an authority le with authority re ords. It
means that the variation of a name is linked without having any name one de lared
as authoritative. Variations of a name are simplylinked to the author name number
and it provides a ess to the bibliographi re ords of the publi ations. However the
a eptan e of the INSAN isfar from being real.
Xia[2006℄proposes improvementstothe identi ationofauthornamesindigital
repositories. First, hepresentsananalysisof urrentnameauthoritiesindigital
repos-itories, and some featuresof existing repository appli ations. Se ond, he proposes two
solutionstoimprovetheidenti ationofauthornames: (1)using ompositeidentiers
whi h ombine the name ofthe author, the dateof the publi ation,and author
alia-tion, (2)requiring the authorsto inputthe variantsof their names, if any, atthe time
of depositing arti les.
Therearemanyotherworksinliteratureaboutauthority ontrolandrelated
on-texts. Authority ontrol has been exhaustively dis ussed inpapers of the Information
S ien es area, in whi h the main goals are: to propose models to reateand maintain
atalog systems in traditionaldigital libraries,to develop sear hing systems for them,
to integrateauthorityles fromdierentdigital libraries,and touse bibliographi