• Nenhum resultado encontrado

4.5

Validação da Ferramenta Utilizando a

BDBComp

Para validar a implementação da ferramenta, utilizamos o repositório da Biblioteca Digital Brasileira de Computação (BDBComp). A BDBComp surgiu como um projeto do Laboratório de Bancos de Dados do DCC/UFMG com o objetivo de disponibilizar na Web informações bibliográficas referentes a trabalhos da comunidade brasileira de computação, suprindo a carência de um acervo brasileiro centralizado e on-line na área e permitindo que pesquisadores disseminassem seus trabalhos para toda a comunidade [Laender et al., 2004]. A BDBComp foi construída a partir de componentes que seguem o padrão OAI e adota o formato Dublin Core para seus metadados. Em dezembro de 2007, quando foi realizada a validação da ferramenta, ela possuia 5277 registros de metadados de trabalhos apresentados, principalmente, em eventos promovidos pela Sociedade Brasileira de Computação. O seu conteúdo vem sendo catalogado pelos administradores a partir dos dados obtidos de várias fontes. Além disso, a BDBComp possui um serviço de auto-arquivamento [Silva et al., 2007]. Dessa forma, esse ambiente serve como um cenário interessante para validação da ferramenta.

Inicialmente, o conteúdo da BDBComp foi extraído através de seu componente OAI-PMH Provider3. A extração feita através desse componente, além dos registros

de citações de publicações, obteve também os registros de citação que identificam as coleções catalogadas, que no caso são as ocorrências dos eventos. Após a coleta, foi executado o processo de resolução de ambigüidade dos 5277 registros de citações extraídos. A partir deles, foram gerados 14856 registros de autoria, uma média de aproximadamente 2,8 registros de autoria por registro de citação. Apenas 1055 registros de autoria possuiam o nome autor no formato curto. Ao término da execução, a ferramenta definiu 8058 grupos, o que corresponderia a 8058 autores catalogados. De acordo com os grupos obtidos, pode ser visto que cerca de 73% dos autores possuem apenas um trabalho na BDBComp. A Tabela 4.1 mostra a quantidade de grupos encontrados para uma determinada quantidade de registros de autoria.

Os grupos gerados que possuiam acima de 20 de registros de autoria (32 grupos) foram individualmente analisados para verificação da qualidade interna obtida. Foi verificado se o autor de cada registro de autoria era o mesmo dos demais registros do grupo. Para isso, foram utilizados os dados do currículo Lattes e da página dos autores na Web. Em alguns casos, os artigos não eram encontrados, mas analisando o registro de autoria, o currículo Lattes ou através de busca na Web, encontrou-se a informação

3

40

Capítulo 4. Uma Ferramenta para Resolução de Ambigüidade em Bibliotecas Digitais

Tabela 4.1. Número de grupos por quantidade de registros de autoria

Número de Número de Número de Número de registros grupos registros grupos

49 1 19 4 43 1 18 8 42 1 17 6 41 1 16 5 39 1 15 19 35 1 14 8 33 1 13 12 32 1 12 16 31 1 11 22 29 2 10 24 28 4 9 31 27 1 8 46 26 4 7 72 25 1 6 77 24 1 5 137 23 2 4 193 22 2 3 433 21 2 2 1038 20 4 1 5875

necessária para concluir se o registro de autoria foi atribuído corretamente ou não. Como exemplo, havia registros de citação referentes a publicações que não estavam no currículo Lattes de um pesquisador, mas na lista de alunos orientados havia o nome de um co-autor com o título da dissertação relacionado ao título do registro de autoria.

Para esses 32 grupos, também foi verificado se havia registros de autoria isolados em outros grupos. Do total de 907 registros manualmente inspecionados, foram en- contrados 21 erros (aproximadamente 2,3%) seja por registros fragmentados, seja por registros atribuídos ao autor errado. O baixo número de erros mostra que a ferramenta desenvolvida com base no método HHC apresenta bons resultados para a resolução de ambigüidade em bibliotecas reais.

Os erros encontrados podem ser classificados em três tipos: erro na catalogação dos dados, dados incompletos e falha das medidas de similaridade (ou do algoritmo de comparação por fragmentos).

No primeiro caso, verificou-se, por exemplo, que o autor José Marcos Silva Nogueira teve um registro isolado, devido a um erro na catalogação na BDBComp. No registro, dentro da mesma tag creator havia o nome de outro autor. A ferramenta

4.5. Validação da Ferramenta Utilizando a BDBComp 41

considerou que se tratava de um autor e criou um grupo apenas para esse registro de autoria.

No segundo caso, erro devido à falta de dados, o autor Carlos José Pereira de Lucena teve dois grupos criados isolados porque os registros de citação respectivos não continham o veículo de publicação e nesses casos também não havia co-autores em comum entre esses registros de autoria e os 28 registros que formaram o grupo principal do autor. Neste caso, a falta de uma evidência adicional além da similaridade textual dos nomes fez com que o método HHC não agrupasse os dois trabalhos.

Como exemplo de erro das medidas de similaridade, podemos citar o caso do autor Paulo Roberto Freire Cunha, que teve um registro de autoria erroneamente atribuído a ele. O autor do registro era outro pesquisador com o nome Paulo Cunha Filho.

Considerando os grupos analisados, podemos concluir que, embora a ferramenta não consiga resolver todos os casos de ambigüidade e até introduza alguns erros, agru- pando citações de autores diferentes, existem ganhos significativos na sua utilização. A BDBComp poderia se beneficiar da ferramenta desenvolvida para recatalogar seu conteúdo, atribuindo um identificador interno para representar cada autor. Isso pos- sibilitaria, por exemplo, agrupar os resultados de uma busca por nome de autor ou padronizar a exibição do nome de um autor nas suas citações.

Capítulo 5

Conclusões

5.1

Revisão do Trabalho

Citações bibliográficas desempenham um importante papel em muitos sistemas rela- cionados ao mundo acadêmico. Usuários desses sistemas geralmente utilizam citações bibliográficas para encontrar informação de interesse e pesquisadores as utilizam para estimar o impacto de um artigo. Adicionalmente, quando o conteúdo de diferentes bibliotecas digitais é integrado, elas servem como identificadores dos documentos as- sociados. Portanto, as citações bibliográficas devem ser mantidas o mais consistente e atualizadas possível. Isto não é uma tarefa fácil, considerando os vários tipos de erro que podem ocorrer, entre os quais, podemos citar erros na catalogação dos dados, variedade de formatos, nomes de autores ambíguos, abreviação dos nomes de veículos de publicação [Lee et al., 2007].

Nesta dissertação, foi apresentado um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidade entre nomes de autores em citações bibliográficas. O método baseia-se em várias heurísticas que exploram os componentes das citações (nomes de co-autores, título do trabalho, nome do veículo de publicação) para fundir sucessivamente grupos de citações de autores com nomes compatíveis.

Experimentos realizados com uma base de dados extraída da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identificação de padrões na resolução de ambigüidade entre nomes [Oliveira, 2005] mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, o método a supera em 21%. Em relação a uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado (K-Means), o ganho é de 15,5%.

44 Capítulo 5. Conclusões

Por fim, foi apresentada uma ferramenta para auxiliar os administradores de coleções de bibliotecas digitais na tarefa de remoção de ambigüidade entre nome de autores que utiliza o método HHC. A ferramenta extrai as citações de uma coleção através do protocolo OAI-PMH [Open Archives Initiative, 2006], executa o método HHC e ao fim da execução atribui um identificador único a cada autor. A ferramenta foi avaliada utilizando o repositório da BDBComp e os resultados obtidos mostraram a efetividade do método em um caso real. Entretanto, tendo em vista ser a BDBComp uma biblioteca digital relativamente pequena e restrita a uma comunidade específica, é necessário ainda estudar a escalabilidade do método. Esse e outros tópicos são abor- dados na próxima seção.

Os exemplos de falhas discutidos na Seção 4.5 mostram a dificuldade para se resolver ambigüidade entre nomes de autores sem qualquer supervisão humana. Se um método exigir uma grande similaridade entre os componentes das citações para agrupá-las, após o processamento muitas citações ainda podem ficar isoladas em gru- pos menores. Isso ocorre devido à dinâmica dos autores em relação às suas atividades de pesquisa, por exemplo, publicando trabalhos sobre diversos temas, interagindo com vários grupos de pesquisa e contribuindo em vários veículos de publicação. Por outro lado, se um método exigir um baixo limiar de similaridade, a ocorrência de falsos posi- tivos aumenta consideravelmente, causando impacto na qualidade dos grupos gerados. Considerando os grupos analisados no estudo de caso da BDBComp, podemos concluir que, embora a ferramenta desenvolvida não consiga resolver todos os casos de ambigüidade e até introduza alguns erros existem ganhos significativos na sua utiliza- ção. A BDBComp poderia se beneficiar da ferramenta desenvolvida para recatalogar seu conteúdo, possibilitando, por exemplo, agrupar os resultados de uma busca por nome de autor ou padronizar a exibição do nome de um autor nas suas citações.

Documentos relacionados