• Nenhum resultado encontrado

5.4 Outro avaliação realizada para identificar a similaridade entre as

5.4.3 Resultados

As Figuras 19 e 21 referem-se ao uso das seleções de termos dos nomes das entidades para as coleções de dados Artigos Científico e Veículos de Publicação, respectivamente. Analisando os gráficos, percebe-se que para ambas as coleções de dados, ao se utilizar apenas o termo de maior IDF houve um alto acerto para os pares similares (19a e 21a); da mesma maneira, ao analisar os gráficos não similares (19b e 21b), percebe-se que os valores de similaridade dos pares estão bem próximos dos similares, mostrando que no geral, os valores finais de similaridade para todos os pares ficaram com valores no intervalo entre 0,6 e 0,8, o que gera um alto número de verdadeiros-positivos.

Considerando a soma dos termos de maiores IDF, percebe-se que para a coleção de Artigos Científicos (19), a abordagem gera um acerto de aproximadamente 70% tanto para os pares similares, quanto para os não similares, para o valor de similaridade igual a 0,4, quando a base de dados MAS é utilizada para o treinamento do modelo. Para a base de dados da Google Scholar, houve acerto de 80% para os pares similares e não similares. Já o uso da soma de todos os termos gera um acerto de 75% dos pares similares e cerca de 60% para os pares não similares para a base de dados MAS e 80% para os pares similares e aproximadamente 60% para os pares não similares para a base de dados Google Scholar.

Quando se observa a soma dos termos de maiores IDF para os termos do nome de entidade da coleção Veículo de Publicação na Figura 21, tem-se 95% de acerto para os pares similares e 8% de acerto para os pares não similares, quando o valor de similaridade 0,4 é considerado e a base de dados MAS é usada para treinar o modelo. Sendo assim, percebe-se que essa abordagem gera um número expressivo de falsos negativos. Quando se

(a) Pares similares (b) Pares não similares

Figura 19 – Similaridade com word embeddings para nomes da entidade Artigo Científico

usa a base de dados Google Scholar para treinar o modelo, tem-se o acerto de 50% para os pares similares e mais de 90% para os pares não similares.

Analisando, ainda, a soma de todos os termos para os nomes das entidades do tipo Veículo de Publicação, foi obtido um acerto de 50% nos pares similares e 95% dos pares não similares, quando se usa o valor de similaridade igual a 0,4 e base de dados MAS para treinar o modelo. Quando o treinamento do modelo é feito com Google Scholar, tem-se um acerto de 75% para os pares similares e 50% para os pares não similares.

Diante disso, é notável que o modelo de word embeddings treinado com a base de dados MAS trouxe, no geral, para ambas as coleções de dados, Artigos Científicos e Veículos de Publicação, resultados melhores para a soma dos termos de melhores IDF e a

(a) Pares similares (b) Pares não similares

Figura 20 – Comparação do método com baseline para a coleção de dados Artigos Cientí- ficos.

Capítulo 5. Experimentos e Resultados 57

(a) Pares similares (b) Pares não similares

Figura 21 – Similaridade com word embeddings para nomes da entidade Veículo de Publi- cação

soma de todos os termos, em relação a Google Scholar que gerou um grande número de falsos positivos para essas mesmas seleções de termos na coleção Veículo de Publicação. Isso se deve a diversidade e representatividade dos termos do espaço semântico gerado pelo modelo, em relação aos dados de entrada para o treinamento, uma vez que a base dados MAS possui uma quantidade maior de dados em relação a Google Scholar.

Com o objetivo de melhorar o resultado da similaridade entre os pares similares, foi feita uma soma dos resultados obtidos nos Passos 1 e 2, considerando agora apenas os resultados obtidos com a base de dados MAS. Conforme pode ser observado nas Figuras 22 e 20, para os pares similares da coleção da entidade Artigo Científico (20a), considerando o valor de similaridade igual a 0,4, houve um ganho de 15% para a soma dos termos de maiores IDF e de cerca de 5% para a soma de todos os termos. Mas esse ganho tende a dar um salto em mais de 40% quando o valor de similaridade fica entre 0,6 e 0,8. Considerando ainda o valor de similaridade igual a 0,4, a soma dos Passos 1 e 2 gera um ganho de 55% em relação ao coeficiente jaccard e até 60% em relação ao NDG. Isso se deve ao fato do NDG considerar apenas a coocorrência de termos em páginas web. Em relação aos pares não similares, a soma dos Passos 1 e 2 não gera perda expressiva, cerca de no máximo 5% ao longo de todos os valores de similaridade, uma vez que esses valores já tendem a ser mais próximos de zero para os pares não similares. A soma dos termos de melhores IDF apresenta um ganho de 30% em relação ao NDG e a soma de todos os termos apresenta um ganho de 20% também em relação ao NDG.

Para a coleção de dados da entidade Veículo de Publicação, os pares que tiveram seus valores somados com o Passo 1, tiveram um aumento de 20% para a soma dos termos de maiores IDF para o valor de similaridade igual a 0,4. Na soma de todos os termos, a partir do intervalo de valor de similaridade 0,4 e 0,6, há um ganho superior a 10%

do número de pares que alcançaram uma similaridade. O ganho do número de pares similares quando os valores dos Passos 1 e 2 são somados, chega a aproximadamente 35% e 55%, respectivamente, em relação ao uso do coeficiente de jaccard apenas sobre os nomes (Figura 22a) e um ganho de superior a 60% em relação ao NDG. Dessa forma, com a soma, não se perde o acerto de pares do Passo 1 em relação ao Passo 2. Para os pares não similares, visto na Figura 22b, a soma dos passos 1 e 2 não altera significativamente o valor de similaridade final dos pares, o que não influencia em perda de acerto dos pares, para o valor de similaridade igual a 0,4. Para os pares não similares (Figura 22b), o NDG obteve um acerto melhor; no entanto, os resultados relacionados a soma dos termos de melhores IDF tiveram resultados próximos, com uma variação de cerca de 10% de perda em relação a um acerto de aproximadamente 90%.

Os nomes de entidades das coleções de dados Artigos Científicos e Veículos de publicação pertencem a diversas grandes áreas e para um bom desempenho do método proposto nesta Seção, é importante uma base de dados que contemple assuntos bibliográficos de diversas grandes áreas para treinar o modelo de onde os o word embeddings serão extraídos. Pode-se usar ainda a combinação de várias bases de dados de áreas diversas para serem usadas juntas como entrada para treinar o modelo.

(a) Pares similares (b) Pares não similares

Figura 22 – Comparação do método com baseline para a coleção de dados Veículos de Publicação.

59

6 Conclusões

Neste trabalho foi proposto um método para estimar a similaridade entre nomes de entidades e possui dois passos. O Primeiro Passo realiza a comparação direta dos nomes de entidades usando o coeficiente de jaccard e o Segundo Passo usa dados obtidos da web, através de um motor de busca, para estimar a similaridade entre o par, no qual os resultados desse Passo utilizando modelagem de tópicos obteve um melhor acerto dos pares similares em relação ao uso do TF-IDF.

Uma Lista de Termos de Gênero, elaborada manualmente para cada tipo de entidade que se deseja comparar, auxilia as etapas do Passo 2, como a extração de textos das páginas web, ordenação das páginas web e na etapa de seleção de termos. O bom funcionamento do método depende da escolha minuciosa dos termos que vão compor a Lista de Termos de Gênero, caso contrário, o desempenho do método pode ficar comprometido.

Para avaliar experimentalmente o método proposto, foram utilizadas duas coleções contendo apenas os nomes de entidades. Os resultados mostram que o método foi capaz de indicar a similaridade entre os nomes de entidades relacionadas, mesmo quando elas não possuem, ou possuem poucos, termos em comum, superando o método utilizado como baseline. As seleções de termos utilizadas apresentaram resultados bem aproximados, tanto para os pares similares, quanto para os pares não similares. No entanto, a seleção de termos de melhores IDF apresentou um resultado melhor na coleção de dados Artigos Científicos e a seleção de termos próximos aos termos de gênero apresentou resultados melhores na coleção Veículos de Publicação, quando combinados com o Passo 1.

Foi apresentada também uma avaliação que utiliza word embeddings para comparar nomes de entidades e que pode substituir o Passo 2 do método proposto. Essa avaliação também obteve resultados melhores comparados ao método NDG e resultados interessantes quando comparados ao Passo 2 utilizando modelagem de tópicos com os dados obtidos da web com auxílio de um motor de busca. A avaliação usando word embeddings depende de uma grande coleção de dados referente a entidade comparada para ser capaz de gerar um espaço semântico capaz de auxiliar a estimativa de similaridade entre nomes que, em na maioria das vezes, não compartilham termos em comum. Por outro lado, a Web já é uma fonte de dados existente e que com auxílio do motor de busca é fácil pesquisar dados sobre qualquer tipo de assunto ou entidade.

Como trabalho futuro, pretende-se:

executar o Passo 2. A intuição é que se o Passo 1 for suficiente para verificar a similaridade entre os nomes, o Passo 2, que possui um custo de execução maior, não precisa ser realizado.

• Como os termos de cada documento referente as páginas web recuperadas da web estão organizados de tal forma que, cada termo esteja associado a um termo de gênero, pretende-se comparar diretamente os termos associados aos mesmos termos de gênero entre o par de nomes comparados.

• Avaliar o uso de outros motores de busca específicos do domínio da entidade com- parada. Para a entidade Artigo Científico, poderia ser usado por exemplo, a ACM

Digital Library1 ou IEEE Xplore Digital Library2, dentre outras.

• Avaliar o desempenho do método proposto junto a um método de Resolução de Entidades (RE), substituindo a função de similaridade da RE pelo cálculo de similaridade deste trabalho.

1 https://dl.acm.org/

61

Referências

ASSIS, G. T. D. et al. A genre-aware approach to focused crawling. World Wide Web, Springer, v. 12, n. 3, p. 285–319, 2009. 18, 25, 26, 33, 35

ÁVILA, G. Euclides, geometria e fundamentos. Revista do Professor de Matemática, v. 45, 2001. 28

BLEI, D. M. Probabilistic topic models. Commun. ACM, ACM, New York, NY, USA, v. 55, n. 4, p. 77–84, abr. 2012. ISSN 0001-0782. Disponível em: <http://doi.acm.org/10.1145/2133806.2133826>. 23

BLEI, D. M.; NG, A. Y.; JORDAN, M. I. Latent dirichlet allocation. J. Mach. Learn.

Res., JMLR.org, v. 3, p. 993–1022, mar. 2003. ISSN 1532-4435. 17, 23, 31, 33, 39

BOLLEGALA, D.; MATSUO, Y.; ISHIZUKA, M. A web search engine-based approach to measure semantic similarity between words. IEEE Transactions on Knowledge and Data

Engineering, IEEE Educational Activities Department, Piscataway, NJ, USA, v. 23, n. 7,

p. 977–990, jul 2011. ISSN 1041-4347. 15, 18, 31, 33

BRIZAN, D. G.; TANSEL, A. U. A survey of entity resolution and record linkage methodologies. Communications of the IIMA, 2015. 15

CALADO, P. et al. Link-based similarity measures for the classification of web documents.

Journal of the American Society for Information Science and Technology, Wiley Online

Library, v. 57, n. 2, p. 208–221, 2006. 18

CILIBRASI, R. L.; VITANYI, P. M. The google similarity distance. IEEE Transactions

on knowledge and data engineering, IEEE, v. 19, n. 3, 2007. 18, 30, 33, 42, 55

HARISPE, S. et al. Semantic measures for the comparison of units of language, concepts or entities from text and knowledge base analysis. CoRR, abs/1310.1285, 2013. 17 HASLHOFER, B.; MARTINS, F.; MAGALHãES, J. Using skos vocabularies for improving web search. In: ACM. Proceedings of the 22nd International Conference on World Wide

Web. [S.l.], 2013. p. 1253–1258. 15

HERLOCKER, J. L. Understanding and Improving Automated Collaborative Filtering

Systems. Tese (Doutorado), Minneapolis, MN, USA, 2000. AAI9983577. 15

HEUER, H. Text comparison using word vector representations and dimensionality reduction. arXiv preprint arXiv:1607.00534, 2016. 32

JARO, M. A. Advances in record-linkage methodology as applied to matching the 1985 census of tampa, florida. v. 84, p. 414–420, 06 1989. 28

JESUS, H.; PEREIRA, D. Enriching an authority file of scientific conferences with information extracted from the web. Journal of Computer Science, v. 13, p. 68–77, 04 2017. 18

JONES, K. S. A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, v. 28, p. 11–21, 1972. 21

LE, Q. V.; MIKOLOV, T. Distributed representations of sentences and documents. In:

ICML. [S.l.]: JMLR.org, 2014. v. 32, p. 1188–1196. 24, 25, 32

MARTINEZ-GIL, J.; ALDANA-MONTES, J. F. Smart combination of web measures for solving semantic similarity problems. Online Information Review, v. 36, n. 5, p. 724–738, 2012. 15, 18

MEYMANDPOUR, R.; DAVIS, J. G. A semantic similarity measure for linked data: An information content-based approach. Knowledge-Based Systems, Elsevier, v. 109, p. 276–293, 2016. 15

MIKOLOV, T. et al. Efficient estimation of word representations in vector space. CoRR, abs/1301.3781, 2013. Disponível em: <http://arxiv.org/abs/1301.3781>. 17, 53

MIKOLOV, T.; YIH, W.-t.; ZWEIG, G. Linguistic regularities in continuous space word representations. In: Proceedings of the 2013 Conference of the North American Chapter of

the Association for Computational Linguistics: Human Language Technologies. [S.l.: s.n.],

2013. p. 746–751. 27

PENNINGTON, J.; SOCHER, R.; MANNING, C. Glove: Global vectors for word representation. In: Proceedings of the 2014 conference on empirical methods in natural

language processing (EMNLP). [S.l.: s.n.], 2014. p. 1532–1543. 32

SAHAMI, M.; HEILMAN, T. D. A web-based kernel function for measuring the similarity of short text snippets. In: International Conference on World Wide Web. [S.l.: s.n.], 2006. 15, 18, 30, 33

SALTON, G.; WONG, A.; YANG, C. S. A vector space model for automatic indexing.

Commun. ACM, ACM, v. 18, n. 11, p. 613–620, nov. 1975. ISSN 0001-0782. 21

SANTANA, A. F. et al. Incremental author name disambiguation by exploiting domain-specific heuristics. Journal of the Association for Information Science and

Technology, Wiley Online Library, v. 68, n. 4, p. 931–945, 2017. 15

TAN, Y. F.; KAN, M. Y.; LEE, D. Search engine driven author disambiguation. In: ACM.

Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries. [S.l.], 2006. p.

314–315. 18

TENSORFLOW. Vector Representations of Words. [S.l.], 2018 (acessado em 05 de setembro de 2018). Disponível em: <https://www.tensorflow.org/tutorials/representation/ word2vec>. 26

WU, H. C. et al. Interpreting tf-idf term weights as making relevance decisions. ACM

Trans. Inf. Syst., ACM, New York, NY, USA, v. 26, n. 3, p. 13:1–13:37, jun. 2008. ISSN

1046-8188. 22

YANG, Z.; KITSUREGAWA, M. Efficient searching top-k semantic similar words. In:

Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence.

Referências 63

ZANCANARO, A. et al. Publishing multidimensional statistical linked data. In: . [S.l.: s.n.], 2013. p. 290–304. 18

ZHAO, S. et al. Semantic computation in geography question answering. In: 12th

International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery - ICNC-FSKD. [S.l.: s.n.], 2016. p. 1572–1576. 15

Documentos relacionados