http://tede.mackenzie.br/jspui/bitstream/tede/3494/5/Bruno%20Mendon%C3%A7a%20Paris

Texto

(1)UNIVERSIDADE PRESBITERIANA MACKENZIE ´ ˜ EM PROGRAMA DE POS-GRADUAC ¸ AO ´ ˜ ENGENHARIA ELETRICA E COMPUTAC ¸ AO. Bruno Mendon¸ca Paris. Learning to Rank: Combina¸c˜ ao de algoritmos aplicando stacking e an´ alise dos resultados. São Paulo 2017.

(2) UNIVERSIDADE PRESBITERIANA MACKENZIE ´ ˜ EM PROGRAMA DE POS-GRADUAC ¸ AO ´ ˜ ENGENHARIA ELETRICA E COMPUTAC ¸ AO. Bruno Mendon¸ca Paris. Learning to Rank: Combina¸c˜ ao de algoritmos aplicando stacking e an´ alise dos resultados. Disserta¸caõ de Mestrado apresentada ao Programa de Pós-Gradua¸caõ em Engenharia Elétrica e Computa¸caõ da Universidade Presbiteriana Mackenzie como requisito para a obten¸cão do t´ıtulo de Mestre na a´rea de Engenharia de Computa¸caõ.. Orientador: Prof. Dr. Nizam Omar. São Paulo 2017.

(3) P232 Paris, Bruno Mendonça Learning to Rank: combinaçăo de algoritmos aplicando stacking e análise dos resultados / Bruno Mendonça Paris. 80 f.: il. ; 30 cm Dissertação (Engenharia Elétrica e Computação) - Universidade Presbiteriana Mackenzie, São Paulo, 2017. Orientador: Nizam Omar Bibliografia: f. 63-69 1. Recuperação de informação 2. Ranking 3. Learning to Rank 4. Stacking. CDD 006.6. Bibliotecário Responsável: Maria Gabriela Brandi Teixeira – CRB 8/ 6339.

(4)

(5) AGRADECIMENTOS Agrade¸co especialmente ao meu orientador prof. Dr. Nizam Omar por ajudar a direcionar e guiar esse trabalho ao sucesso, com sua sabedoria da pesquisa cient´ıfica adquirida durante anos. A minha esposa e fam´ılia agrade¸co também pela compreensão e apoio durante esses anos de constru¸cão desse trabalho. Por fim, agrade¸co ao Dr. Thiago Salles pela ajuda na idealiza¸caõ do tema dessa pesquisa e conhecimento profundo nesse assunto.. i.

(6) RESUMO Com o crescimento da quantidade de informa¸caõ dispon´ıvel nos u ´ltimos anos, a qual irá continuar crescendo devido ao aumento de usuários, dispositivos e informa¸cões compartilhadas pela internet, acessar a informa¸caõ desejada deve ser feita de uma maneira rápida a fim de não se gastar muito tempo procurando o que se deseja. Uma busca em buscadores como Google, Yahoo, Bing espera-se que os primeiros resultados tragam a informa¸caõ desejada. Uma a´rea que tem o objetivo de trazer os documentos relevantes para o usuário é conhecida por Recupera¸cão de Informa¸caõ e pode ser auxiliada por algoritmos Learning to Rank, que aplica aprendizagem de máquina para tentar trazer os documentos importantes aos usuários na melhor ordena¸caõ poss´ıvel. Esse trabalho visa verificar uma maneira de obter uma ordena¸caõ ainda melhor de documentos, empregando uma técnica de combinar algoritmos conhecida por Stacking. Para isso será utilizada a ferramenta RankLib, parte de um projeto conhecido por Lemur, desenvolvida na linguagem Java, que contém diversos algoritmos Learning to Rank, e o conjuntos de dados provenientes de uma base mantida pela Microsoft Research Group conhecida por LETOR. Palavras-chave: recupera¸cão de informa¸cão, ranking, Learning to Rank, stacking. i.

(7) ABSTRACT With the growth of the amount of information available in recent years, which will continue to grow due to the increase in users, devices and information shared over the internet, accessing the desired information should be done in a quick way so it is not spent too much time looking for what you want. A search in engines like Google, Yahoo, Bing is expected that the first results bring the desired information. An area that aims to bring relevant documents to the user is known as Information Retrieval and can be aided by Learning to Rank algorithms, which applies machine learning to try to bring important documents to users in the best possible ordering. This work aims to verify a way to get an even better ordering of documents, using a technique of combining algorithms known as Stacking. To do so, it will used the RankLib tool, part of Lemur Project, developed in the Java language that contains several Learning to Rank algorithms, and the datasets from a base maintained by Microsoft Research Group known as LETOR. key-words: information retrieval, ranking, Learning to Rank, stacking. i.

(8) Sum´ ario 1 Introdu¸c˜ ao. 1. 1.1. Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.2. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3. Organiza¸cão do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2 Recupera¸c˜ ao de Informa¸c˜ ao 2.1. 2.2. 6. Modelos Clássicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.1.1. Modelo Booleano . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.1.2. Modelo Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.1.3. Modelo Probabil´ıstico. . . . . . . . . . . . . . . . . . . . . . . . . . 14. O Conceito Relevância para Recupera¸cão de Informa¸caõ . . . . . . . . . . 15. 3 Avaliando Sistemas de Recupera¸c˜ ao de Informa¸c˜ ao. 18. 3.1. Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18. 3.2. Cobertura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19. 3.3. Medida F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20. 3.4. Precisão em n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20. 3.5. Média dos Valores da Precisão Média . . . . . . . . . . . . . . . . . . . . . 21. 3.6. Mean Reciprocal Rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22. 3.7. Normalized Discounted Cumulative Gain . . . . . . . . . . . . . . . . . . . 23. 3.8. Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25. 4 T´ ecnicas de Ensemble. 26. 4.1. Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27. 4.2. Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29. 4.3. Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30. 5 Learning to Rank. 32. 5.1. Defini¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33. 5.2. Features (Caracter´ısticas) . . . . . . . . . . . . . . . . . . . . . . . . . . . 36. 5.3. Pointwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.3.1. Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39. 5.3.2. Classifica¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41. 5.3.3. Regressão Ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.

(9) 5.4. 5.5. Pairwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.4.1. RankNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. 5.4.2. RankBoost. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. Listwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.5.1. ListNet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46. 5.5.2. LambdaMART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47. 6 Experimentos. 49. 6.1. Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49. 6.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55. 7 Conclus˜ ao 7.1. 62. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62. Referˆ encias Bibliogr´ aficas. 69.

(10) Lista de Tabelas 1. Representa¸caõ do documento em forma de Vetor . . . . . . . . . . . . . . . 10. 2. Cole¸cões de Teste para Algoritmos de Recupera¸caõ de Informa¸cão . . . . . 18. 3. Documentos relevantes de acordo com a posi¸caõ . . . . . . . . . . . . . . . 21. 4. Valores da Precisão em n . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21. 5. Documentos e Informa¸co˜es para o cálculo do MRR . . . . . . . . . . . . . 23. 6. Resultados base dos algoritmos Learning to Rank . . . . . . . . . . . . . . 55. 7. Resultados do Stacking para o conjunto de treinamento MQ2008 . . . . . . 56. 8. Resultados do Stacking para o conjunto de treinamento MQ2007 . . . . . . 57. 9. Resultados utilizando vota¸cão para combinar os algoritmos . . . . . . . . . 58. 10. Melhores resultados do Stacking para o conjunto de treinamento MQ2008 . 59. 11. Melhores resultados do Stacking para o conjunto de treinamento MQ2007 . 60.

(11) Lista de Figuras 1. Aumento da quantidade de informa¸caõ dispon´ıvel (JAMES, 2014) . . . . .. 1. 2. Processo durante a Recupera¸cão de Informa¸caõ (TAKAO, 2001) p.12 . . .. 7. 3. Comportamento do modelo Booleano (BARTH, 2013) p.250 . . . . . . . .. 9. 4. Remo¸cão de Stop-Words (PASSARIN, 2005) p.22 . . . . . . . . . . . . . . 11. 5. Exemplo de Stemming (PASSARIN, 2005) p.23 . . . . . . . . . . . . . . . 11. 6. ˆ Angulo θ formado pela representa¸caõ vetorial do documento e da consulta (FERREIRA, 2011) p.23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13. 7. Precisão x Cobertura. 8. Processo para combinar predi¸cões de Redes Neurais (OPITZ; MACLIN, 1999) p.171 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27. 9. Processo de amostragem do conjunto de treinamento para Bagging (OPITZ; MACLIN, 1999) p.173 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28. 10. Superf´ıcie de separa¸caõ de dados utilizando Bagging (ZHOU, 2012) p.50 . . 28. 11. Processo de amostragem do conjunto de treinamento para Boosting (OPITZ; MACLIN, 1999) p.173 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29. 12. Superf´ıcie de separa¸caõ de dados utilizando Boosting (ZHOU, 2012) p.30 . 30. 13. Stacking de modelos de aprendizagem . . . . . . . . . . . . . . . . . . . . . 31. 14. Processo utilizado na Recupera¸caõ de Informa¸caõ Tradicional (HANG, 2011) p.1854 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32. 15. Processo utilizado na RI utilizando Learning to Rank (LIU et al., 2009) p.239 34. 16. Abordagem Pointwise. 17. Fun¸caõ de perda quadrática (LIU, 2011) p.34. 18. Fun¸caõ de perda hinge para o algoritmo SVM (LIU, 2011) p.36 . . . . . . 42. 19. Abordagem Pairwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43. 20. Abordagem Listwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. 21. Stacking de rankers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52. 22. Formato do arquivo de treinamento do algoritmo L2R . . . . . . . . . . . . 53. 23. Formato do arquivo de treinamento para o ranker de N´ıvel 2 . . . . . . . . 54. 24. Novo vetor de caracter´ısticas para o ranker de N´ıvel 2 . . . . . . . . . . . . 54. 25. Evolu¸cão da medida NDCG após stacking para a base de dados MQ2008 . 60. 26. Evolu¸cão da medida NDCG após stacking para a base de dados MQ2007 . 61. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 . . . . . . . . . . . . . . . . 40.

(12) 1. Introdu¸c˜ ao A quantidade de informa¸cão dispon´ıvel pela WEB e ambientes privados de empresas. vêm aumentando, seja em forma de documento textual, áudio ou imagens, acontecendo o mesmo para o n´ umero de usuários de computadores, impusionados pelas diferentes tecnologias e aparelhos dispon´ıveis. Uma pesquisa realizada pela empresa DOMO, informa que a cada minuto 2.5 milhões de pessoas compartilham conte´ udo, 277 mil tweets são enviados e 200 milhões de e-mails são trocados, ilustrados na Figura 1 (JAMES, 2014). Somente em 2012, o Google recebeu em média 2 milhões de consultas por dia. Dois anos depois, esse valor que duplicou (JAMES, 2014). Em 2013, por exemplo, o Google processou 20 petabytes de informa¸caõ por dia (GUNELIUS, 2013).. Figura 1: Aumento da quantidade de informa¸caõ dispon´ıvel (JAMES, 2014). Em meio à grande quantidade de informa¸co˜es dispon´ıveis, encontrar os documentos desejados não é uma tarefa fácil, mas que pode ser ajudado se os documentos estiverem ranqueados de acordo com sua relevância ou importância perante a` consulta. Essa tarefa de ranking acontece em diversas aplica¸co˜es, como motores de busca na área de recupera¸cão de informa¸caõ, em sistemas de recomenda¸caõ (sugestões de produtos similares em sites de comércio eletrônico ou ainda sugestões de filmes/seriados em aplicativos de streaming). Haja vista a quantidade de informa¸caõ existente e que somente tende a aumentar, de1.

(13) senvolver técnicas que sejam capazes de encontrar a informa¸caõ desejada rapidamente é de extrema importância e é alvo de estudo nesse trabalho. Para isso, existem os métodos clássicos (modelo booleano e vetorial), semelhan¸ca de documentos através de medidas como TFIDF ou BM25, Learning to Hash (WANG et al., 2016), técnica atual para encontrar informa¸co˜es semelhantes em grandes bases de dados, como áudios, imagens e v´ıdeos. Outro método e o qual é foco desse trabalho é conhecido como Learning to Rank, que utiliza os conceitos de aprendizagem de máquina ao problema de Recupera¸caõ de Informa¸caõ, a fim de obter uma lista de objetos ranqueados na melhor ordem poss´ıvel ´ essencial também compreender quais algoritmos existem, perante uma certa consulta. E sua história, entender as diferen¸cas e saber combiná-los, a fim de poder criar um algoritmo que obtenha resultados melhores de acordo com as métricas do Cap´ıtulo 3. Por fim, não apenas utilizar algoritmos isoladamente, mas saber combiná-los, técnica conhecida por Ensemble, vem demonstrando bons resultados na capacidade de predi¸caõ de modelos de aprendizagem de máquina. Dentre os principais método, a serem apresentados no Cap´ıtulo 4, um chamou aten¸caõ durante uma competi¸caõ promovida pelo Netflix a fim de predizer uma lista de filmes que um usuário possivelmente iria gostar baseado em filmes vistos ou curtidos previamente. Esse método, conhecido por Stacking e que visa utilizar a predi¸caõ de diferentes algoritmos como entrada para outro algoritmo, foi utilizado pelos dois primeiros colocados Koren (2009) e Sill et al. (2009) da competi¸caõ, evidenciando sua aplicabilidade em situa¸co˜es reais e que pode acarretar bons resultados. Campos et al. (2017) ao combinar (utilizando stacking) diferentes algoritmos de classifica¸caõ de texto baseados em Random Forests também obteve melhores resultados (17%), considerando-se a medida F, do que cada algoritmo se observado individualmente.. 1.1. Justificativa. As informa¸co˜es apresentadas anteriormente evidenciam três pontos importantes que motivam a pesquisa. Primeiramente, a quantidade de informa¸caõ atualmente dispon´ıvel evidencia que é necessário estudar e elaborar cada vez técnicas melhores para encontrar o dado necessário.. 2.

(14) Se isso não for feito, ficará cada vez mais dif´ıcil encontrar a informa¸caõ por mais que ela exista. Além disso, pode-se apontar também a quantidade de informa¸caõ existente dentro das empresas. Os funcionários realizam buscas (enterprise search) nas empresas em que trabalham, seja no website interno ou externo, a fim de encontrar um texto em formato eletrônico desejado, o qual pode ser um e-mail, documento, banco de dados ou outra informa¸caõ (HAWKING, 2004). Assim como o Google ajuda a encontrar informa¸cões pela Web, a existência de buscadores internamente se faz necessário. Uma pesquisa realizada pela Feldman e Sherman (2011) aponta que o fato de não encontrar a informa¸cão desejada pode acarretar o seguinte dentro de uma empresa: • Decisões mal executadas devido a` informa¸caõ errada encontrada; • Duplica¸caõ de esfor¸cos devido a diferentes equipes não encontrarem a informa¸cão desejada e estarem trabalhando para realizar a mesma tarefa; • Perda de vendas devido aos clientes não encontrarem a informa¸caõ desejada sobre o produto ou servi¸co oferecido; • Perda de produtividade devido aos funcionários não encontrarem rapidamente a informa¸caõ desejada na intranet e recorrerem a outros meios para encontrá-la;. Outra área ainda que se beneficia da tecnologia por do Learning to Rank são os sites de Comércio Eletrônico e de Conte´ udo. Amatriain (2013) mostra a importância do uso dessas técnicas por parte da empresa Netflix a fim de sugerir conte´ udo personalizado ou ainda quando (WESTON; YEE; WEISS, 2013) mostra a sua aplicabilidade e bons resultados para recomendar v´ıdeos no Youtube. Saber recomendar produtos ou v´ıdeos corretamente farão com que os usuários comprem mais ou fiquem mais tempo utilizando o servi¸co fornecido, ocasionando mais vendas ou que atraiam mais an´ uncios direcionados aos usuários. Tem-se ainda outra aplicabilidade da a´rea mostrada por Le et al. (2016) em que evidenciou o uso de Learning to Rank ao propor uma técnica de encontrar partes do código ordenadas por relevância que possam ser a causa raiz de uma certa falha em um software, podendo diminuir o tempo e energia gasta ao procurar o motivo em todo o 3.

(15) código. Dehghani et al. (2015) ainda mostra a eficácia ao usar algoritmo de Learning to Rank para integrar diferentes fontes de conhecimento e poder indexar uma grande quantidade de documentos relacionados a` pol´ıtica para fácil recupera¸caõ posteriormente. Em segundo lugar, o tema dessa pesquisa é aplicado na prática por buscadores, tais como, Bing, Yahoo. Esse buscadores são acessados por milhões de pessoas diariamente, o que confirma que as técnicas que serão apresentadas em breve e que são utilizadas por esses buscadores funcionam se utilizadas corretamente. Logo, conhecer a teoria sobre Learning to Rank é de extrema importância para saber aplicar os algoritmos corretamente. Em terceiro lugar, algoritmos de aprendizagem de máquina famosos de diversas áreas utilizam métodos de Ensemble para obter melhor capacidade de predi¸caõ como é o caso do LambaMART, a ser apresentado na Subse¸cão 5.5.2. Assim, para Learning to Rank não seria diferente e conhecer os resultados de combinar diferentes algoritmos, no caso utilizando stacking, pode ser importante para o caso de uso a ser aplicado. Portanto, esses tópicos Learning to Rank e Stacking evidenciam a extrema relevância dessa tema atual para o cotidiano de usuários comuns e que será aprofundado nessa disserta¸caõ.. 1.2. Objetivo. O objetivo dessa pesquisa consiste em realizar um mapeamento do campo teórico sobre a área de conhecimento de Learning to Rank e seus algoritmos. Não obstante, deseja-se também verificar se a técnica de Ensemble conhecida por Stacking, se aplicada a esses algoritmos, pode ocasionar uma melhoria na qualidade do ranking dos documentos retornados. Para isso serão analisadas duas medidas (NDCG e MAP) de cada algoritmo individualmente e, na sequência, verificar se essas medidas obterão uma melhoria através da combina¸cão de modelos individuais (Ensemble). Essas métricas são utilizadas quando se deseja analisar a qualidade de um ranking obtido através de um algoritmo, desde quando existem documentos com relevâncias diferentes até quando estes não possuem distin¸caõ, sendo considerados apenas relevantes a uma consulta ou não. Dessa maneira, será poss´ıvel identificar futuros campos de pesquisa ou restri¸co˜es a respeito desse assunto.. 4.

(16) 1.3. Organiza¸ c˜ ao do trabalho. No Cap´ıtulo 2 será abordado a fundo o tema de Recupera¸caõ de Informa¸caõ, conceitos primordiais e os primeiros tipos, porém ainda usados, de sistemas de Recupera¸caõ de Informa¸caõ. Por fim, é detalhado também o conceito de relevância, no que se diz respeito a saber o que é um documento relevante perante a uma consulta, ou seja, aquilo que deve ser priorizado. No Cap´ıtulo 3 é abordado as diferentes maneiras de se avaliar um algoritmo de Recupera¸caõ de Informa¸caõ, a fim de que seja poss´ıvel entender quando um algoritmo possui melhor performance que outro durante a sessão de Experimentos. No Cap´ıtulo 4 serão abordados os diferentes métodos de combinar algoritmos (Ensemble), tais como bagging, boosting e stacking. Esse conhecimento é necessário pois no próximo cap´ıtulo tem-se algoritmos que utilizam essas técnicas e durante o Cap´ıtulo 5 serão realizados experimentos acerca do método stacking. No Cap´ıtulo 5 é abordado a fundo o tema de Learning to Rank, os três diferentes tipos de algoritmos (Pointwise, Pairwise e Listwise) e também o conceito de features, que pode ser resumido com as caracter´ısticas que são importantes dentro de um texto a fim de que o algoritmo seja capaz de encontrar documentos relevantes perante a uma certa consulta e também a ranqueá-los da maneira correta ao apresentar o resultado. No Cap´ıtulo 6 serão realizados alguns experimentos a fim de alcan¸car o objetivo apresentado previamente. Para isso, foram utilizados dois conjuntos de dados famosos da a´rea de Learning to Rank, conhecido por LETOR. Esses conjuntos são disponibilizados para que a comunidade cient´ıfica possa testar diferentes algoritmos e comparar os resultados. Além do mais, cinco diferentes algoritmos de diferentes tipos (pointwise, pairwise e listwise) foram selecionados para que possam ser combinados utilizando stacking em que, para cada um dos testes a serem realizados, um diferente algoritmo irá receber os dados do resultado dos outros algoritmos. Assim, será poss´ıvel descobrir se esse tipo de Ensemble irá ocasionar um algoritmo com melhor performance do que algoritmos analisados separadamente. Por fim, no Cap´ıtulo 7 são apresentados sugestões para trabalhos futuros com base nos resultados alcan¸cados e uma conclusão dessa disserta¸caõ. 5.

(17) 2. Recupera¸c˜ ao de Informa¸ c˜ ao Neste Cap´ıtulo serão apresentados conceitos formais de Recupera¸cão da Informa¸caõ,. quando surgiu e como evoluiu desde então, abordando os principais modelos clássicos existente a fim de permitir o usuário encontrar a informa¸caõ desejada. Segundo Baeza-Yates e Ribeiro-Neto (1999), o homem vem organizando informa¸cões há muito tempo segundo a fim de poder encontrá-las quando necessário. Criar ´ındices é uma técnica antiga porém ainda muito utilizada, podendo ser encontrada em livros ou em empresas para localizar clientes ou pacientes. As bibliotecas por exemplo utilizam um sistema muito similar, dado que um grande ´ındice existe com os nomes de livros e seus respectivos autores (BAEZA-YATES; RIBEIRO-NETO, 1999). O termo Recupera¸cão da Informa¸caõ (RI) surgiu quando Mooers (1951) o definiu: .”Recupera¸cão de Informa¸cão é o nome do processo onde um poss´ıvel usuário de informa¸cão pode converter a sua necessidade de informa¸cão em uma lista real de cita¸c˜ oes de documentos armazenados que contenham informa¸cões u ´teis a ele...”. Já para Manning et al. (2008), e de uma maneira mais simples de compreender, Recupera¸caõ de Informa¸caõ significa encontrar material (usualmente documentos) que estão em uma natureza não estruturada (normalmente texto) que satisfaz uma necessidade de informa¸caõ em grande cole¸co˜es (normalmente gravadas em computadores). Durante uma consulta a um Sistema de Recupera¸caõ de Informa¸cão (SRI) a fim de encontrar um documento pertinente a um problema do usuário, pode-se dizer que os seguintes passos ocorrerão:. • O usuário precisa de uma informa¸caõ e irá fazer uma pesquisa no sistema traduzindo sua necessidade ; • O sistema de Recupera¸caõ tem ciência de todos documentos, uma vez que estão armazenados utilizando alguma técnica de representa¸caõ, tentando assim encontrar aqueles que são pertinentes a` pesquisa; • Os documentos relevantes serão retornados ordenados por relevância, ou seja, aqueles que possuem maior similaridade com a consulta serão retornados primeiro;. 6.

(18) No SRI, o usuário irá entrar com um texto em linguagem natural, nem sempre bem escritos ou que claramente informe a necessidade da procura, e o sistema irá devolver os documentos relevantes. Ser capaz de receber consultas não estruturadas ou com erros e mesmo assim localizar os documentos relevantes é importante, pois demonstra que o sistema foi capaz de compreender um texto (a consulta) e localizar documentos relacionados em meio a um grande volume de dados (BAEZA-YATES; RIBEIRO-NETO, 1999). A área da Recupera¸caõ de Informa¸cão tem como objetivo principal localizar documentos em alguma base de informa¸caõ, tendo como entrada uma consulta ou texto do usuário. Os documentos serão recuperados e retornados ao usuário na melhor ordem poss´ıvel a fim de que o mesmo facilmente encontre a informa¸caõ que está procurando, conforme ilustrado no processo da Figura 2.. Figura 2: Processo durante a Recupera¸cão de Informa¸caõ (TAKAO, 2001) p.12. Os modelos, segundo Baeza-Yates e Ribeiro-Neto (1999), para RI são compostos por 4 partes D, Q, F, R(q,d): • D são as representa¸cões dos documentos que existem no Sistema de Recupera¸cão de Informa¸caõ; • Q são as consultas ou representa¸co˜es para aquilo que o usuário necessita; • F é um Sistema de modelagem das representa¸co˜es dos documentos, perguntas e relacionamentos; • R(q,d) é uma fun¸caõ de ordena¸caõ capaz de definir a ordem dos documentos com rela¸caõ à consulta 7.

(19) A quantidade de informa¸cão presente e dispon´ıvel às pessoas está em constante crescimento, seja a informa¸cão em formato visual, textual ou de aúdio. Ser capaz de recuperar a informa¸caõ desejada será cada vez mais demandado e, por tal motivo, estudar e continuar melhorando as técnicas e algoritmos da a´rea da Recupera¸cão de Informa¸caõ será sempre importante. Para Baeza-Yates e Ribeiro-Neto (1999), a tarefa do usuário em buscar a informa¸caõ desejada pode ser dividida em dois grandes grupos. O primeiro, conhecido por Navega¸cão, consiste quando não se tem uma consulta espec´ıfica ao sistema, porém ocorrerá uma explora¸caõ da base de documentos, seja um diretório, sem nenhuma organiza¸caõ, ou quando se tem hierarquias que dividem os documentos. O segundo é conhecido por Recupera¸cão e pode ser subdividido em Ad-Hoc e Filtragem. No tipo de sistema em que os documentos são estáticos (quase estáticos) e as queries (consultas) variam bastante é nomeado Recupera¸cão Ad-Hoc. Ou seja, os usuários vão interagir com o Sistema de Recupera¸caõ de Informa¸caõ, realizando consultas a fim de encontrar a informa¸cão desejada, em que isso é o que acontece com os sistemas de busca da Web, por exemplo (KANAAN et al., 2004). Já nos sistemas em que os documentos variam, em constante adi¸caõ ou remo¸cão, e as queries (consultas) são estáticas é o que se chama de Filtragem (TAKAO, 2001), cujo exemplo é o mercado de a¸cões, devido às grandes varia¸co˜es de dados durante o dia e as consultas fixas (KANAAN et al., 2004).. 2.1. Modelos Cl´ assicos. Nessa se¸caõ serão abordados alguns dos diversos modelos de Recupera¸caõ de Informa¸caõ existentes, aprofundando-se um pouco sobre três deles e de uso mais difundido, Booleano, Vetorial e Probabil´ıstico, e uma breve cita¸caõ de outros modelos também considerados clássicos para referência.. 2.1.1. Modelo Booleano. ´ um modelo simples e com objetivo bem definido, tornando-o de ampla utiliza¸caõ E pelos Sistemas de Recupera¸caõ de Informa¸caõ e baseado na Teoria dos Conjuntos e na ´ Algebra de Boole (KURAMOTO, 2002). 8.

(20) Os termos dos documentos a serem procurados estão previamente indexados e as buscas são feitas por meio de textos as quais contém expressões lógicas (AND, OR, NOT ) (FERREIRA, 2011). A Figura 3 mostra esse caso, em que se a consulta fosse sobre o termo t1 e t2, a resposta seria a a´rea cinza, já se fosse apenas sobre o termo t2, seria a parte cinza e o lado direita da figura, enquanto que se fosse apenas sobre o termo t1, a resposta seria a parte cinza e o lado esquerdo da figura.. Figura 3: Comportamento do modelo Booleano (BARTH, 2013) p.250. Formalmente, segundo Takao (2001), a similaridade nesse modelo está relacionada ao documento conter a expressão lógica da consulta, sendo considerado assim relevante. Caso a expressão lógica da consulta não aconte¸ca no documento, este não será considerado relevante. Logo, o resultado para uma dada consulta são os documentos cujo conte´ udo satisfazem essa expressão lógica (query) informada pelo usuário. Esses documentos recuperados são analisados simplesmente se satisfazem ou não a consulta do usuário, ocasionando que não exista uma prioridade de documentos entre eles, como se todos fossem igualmente relevantes. Pode-se dizer, conforme Takao (2001) que esse modelo tem como resposta 0 ou 1, exclusivo, para uma certa consulta. Assim, a similaridade entre um documento e uma certa consulta é 1, caso o documento seja relevante, ou seja, a expressão da consulta existe nesse documento. Ou então a similaridade é 0, caso a expressão da consulta não exista.. 2.1.2. Modelo Vetorial. Esse modelo, encontrado inicialmente em Salton (1971), Salton e Lesk (1968) e Salton, Wong e Yang (1975) está relacionado a comparar documentos na forma vetorial com 9.

(21) as consultas que também estão na forma vetorial, em um espa¸co n-dimensional, sendo n a quantidade de palavras existentes e não filtradas, podendo assim verificar quais documentos são mais semelhantes a` consulta, através da distância do cosseno, a ser visto em breve, e assim retornar apenas esses documentos para avalia¸cão do usuário (FERREIRA, 2011). A transforma¸caõ do texto em sua forma vetorial é essencial para esse Modelo, a fim de que documentos na forma textual possam ser analisados, estruturados em vetores e pass´ıveis de futuras buscas e compara¸cões entre si. O vetor resultante dessa transforma¸cão, representado na Tabela 1, possui diversas colunas (letra a), as quais são as palavras contidas no documento e cujo valor (letra p) de cada coluna é o peso ou importância daquela palavra perante ao documento (BARION; LAGO, 2015).. •. a1. a2. .... an. d. p1. p2. .... pn. Tabela 1: Representa¸cão do documento em forma de Vetor. Essa transforma¸caõ de um documento (texto) para vetor acontece usualmente em 4 etapas (BARION; LAGO, 2015):. • Análise Léxica: Serão identificadas as palavras do texto que poderão fazer parte do vetor. Os delimitadores utilizados nessa fase são os espa¸cos, quebras de linha ou tabula¸co˜es. A princ´ıpio cada palavra, incluindo preposi¸co˜es, conjun¸co˜es, será separada e considerada para a próxima etapa (BARION; LAGO, 2015). • Remo¸caõ de Stopwords: nessa fase ocorre a remo¸caõ de palavras que não apresentam relevância para o vetor uma vez que não são representativas perante o documento, permitindo assim que o vetor contenha apenas palavras que agreguem valor e realmente representem o documento. Essas palavras removidas normalmente são os artigos, preposi¸cões, interjei¸co˜es e conjun¸co˜es. Existem ainda outras palavras que também são removidas por aparecerem muito frequentemente em documentos. Logo, nessa fase normalmente os documentos são comparados com um dicionário a fim de encontrar as palavras que devem ser removidas. A remo¸cão dos stopwords ajuda a. 10.

(22) diminuir o espa¸co de armazenamento melhorando assim o desempenho dos algoritmos de Minera¸caõ de Textos (BARION; LAGO, 2015). Na Figura 4 é ilustrado o processo de remo¸caõ de stopwords.. Figura 4: Remo¸caõ de Stop-Words (PASSARIN, 2005) p.22. • Stemming: As palavras do textos serão reduzidas por uma transforma¸cão léxica com o objetivo de encontrar o radical da palavra, em que serão removidos sufixos, prefixos e normalizadas para o singular. Isso ajudará com que palavras distintas, porém de significado semelhante (mesma raiz), sejam consideradas iguais durante a representa¸cão do documento em vetor. Nota-se assim que esse processo é dependente do idioma dos documentos, uma vez que cada l´ıngua trata diferente prefixos, plural, etc. Como exemplo dessa etapa, mostra-se na Figura 5 o processo de Stemming.. Figura 5: Exemplo de Stemming (PASSARIN, 2005) p.23. • Thesaurus: Representam-se dicionários, acrônimos, abrevia¸co˜es que são relacionados a um certo dom´ınio e aplicados aos documentos em análise com o objetivo de 11.

(23) reduzir o n´ umero de palavras a serem analisadas e ajudar o usuário a encontrar a informa¸caõ desejada. Nessa fase também pode-se identificar certos erros gramaticais mas que sejam comuns dado um certo dom´ınio. Caso estejam sendo analisados documentos provenientes das redes sociais, certos erros gramaticais existirão e serão frequentes, tais como escrever certos caracteres repetidos. Logo, é poss´ıvel também normalizar os textos com base nessas informa¸co˜es espec´ıficas a um dom´ınio. Para exemplificar a utiliza¸caõ, tenha como exemplo um documento que contenha a palavra ONG e outro que contenha o termo “Organiza¸caõ não Governamental”. Ambas palavras têm o mesmo significado e espera-se que esta rela¸cão esteja dispon´ıvel no thesaurus para que quando ocorra a transforma¸caõ do texto em vetor ambos documentos, com rela¸caõ a essa palavra em espec´ıfico, possuam o mesmo atributo (RONCERO, 2010). Após essas etapas, já é poss´ıvel identificar todas as colunas do vetor que representará cada documento. Falta ainda saber qual será o peso ou importância de cada um desses atributos e, para isso, existem as seguintes métricas: (MATSUBARA; MARTINS; MONARD, 2003) (MORAIS; AMBRóSIO, 2007): • Indica¸caõ binária: 1 caso ocorra a palavra no documento e 0 caso não ocorra • Frequência absoluta: normalmente denominada como term frequency (tf) e medida como a quantidade de vezes que a palavra aparece no documento. • Frequência relativa: calculado pela divisão entre a frequência absoluta (tf) e o n´ umero de palavras naquele documento. • TFIDF: também conhecida como term frequency-inverse document frequency, é calculada pela Equa¸caõ 1, onde ftd é a frequência do termo t no documento d, N é o n´ umero total de documentos e nt é o n´ umero de documentos contendo a palavra t:. T F IDF = ftd × log(. N ) nt. (1). Tendo uma representa¸caõ vetorial para o documento d e para a consulta q utilizando as 4 etapas anteriores, é poss´ıvel então realizar uma busca e identificar os documentos 12.

(24) mais similares a essa consulta. Quanto mais perto estiverem os vetores que representam o documento e a consulta, menor será o aˆngulo θ, ilustrado na Figura 6, e consequentemente mais importante será esse documento com rela¸caõ a` consulta (FERREIRA, 2011).. ˆ Figura 6: Angulo θ formado pela representa¸caõ vetorial do documento e da consulta (FERREIRA, 2011) p.23. Conforme Ferreira (2011), a similaridade entre o documento e a consulta pode ser obtida através da medida conhecida como Similaridade do Cosseno e calculada pela Equa¸cão 2: →·→ q d Sim(d, q) = cos(θ) =

(25)

(26)

(27)

(28)

(29)

(30)

(31)

(32)

(33)

(34)

(35) →

(36) ×

(37) →

(38) d. (2). q. onde: • : → · → é o produto escalar entre os dois vetores d. q.

(39)

(40)

(41)

(42)

(43)

(44)

(45)

(46) • :

(47) →

(48) ×

(49)

(50) →

(51)

(52) é o produto das distâncias Euclidianas dos dois vetores d. q. Dado que a maneira utilizada para representar os documentos é a mesma para todos documentos, permite assim comparar similaridade de documentos e entre documentos e a consulta, o que permite retornar os documentos ao usuário utilizando um certo ranking (TAKAO, 2001). Dada a teoria simples e coerente por trás desse modelo, permite-se o seu uso amplo e, consequentemente, o desenvolvimento de solu¸co˜es que tratam a indexa¸caõ de documentos 13.

(53) e sua consequente recupera¸caõ, como é o caso do software Lucene (BARTH, 2013).. 2.1.3. Modelo Probabil´ıstico. Modelo baseado na Teoria das Probabilidades, inicialmente encontrado em Robertson (1977) e Robertson e Jones (1976), onde se assume que exista um grupo de documentos perfeito R que deva ser recuperado para cada consulta q poss´ıvel. Segundo Baeza-Yates e Ribeiro-Neto (1999), dado uma consulta (query) e um documento (d ) existente, esse modelo irá estimar a probabilidade do usuário encontrar o documento desejado. Essa probabilidade depende somente da consulta e da representa¸caõ dos documentos, muitas vezes similares a` representa¸cão explicada anteriormente. Para cada consulta, assume que existe um grupo de documentos R que responde perfeitamente uma consulta q. Assim, os documentos desse conjuntos são relevantes à consulta, enquanto que aqueles que não estão presentes, R, não são relevantes. Assim, dada uma consulta q e os poss´ıveis documentos, quando o usuário selecionar alguns desses documentos, a consulta assim como documentos serão submetidos novamente, a fim de melhorar o resultado. Esse processo é conhecido como Relevance Feedback e atribui uma relevância baseada em probabilidade (SILVA et al., 2013). Através do Princ´ıpio da Ordena¸caõ Probabil´ıstica, os termos que ocorrem no grupo de documentos R podem ajudar a encontrar outros documentos relevantes. Esse princ´ıpio nos diz que a distribui¸caõ dos termos na cole¸cão pode informar a relevância provável de um documento na consulta (BAEZA-YATES; RIBEIRO-NETO, 1999). Assim, para uma consulta q, o modelo probabil´ıstico assinala uma similaridade para cada documento dj existente (ALMEIDA, 2007). Essa similaridade é calculada conforme a Equa¸caõ 3:. sim(dj , q) =. P (R|dj ) P (R|dj ). (3). Existem diversas abordagens para calcular as probabilidades acima mencionadas (ALMEIDA, 2007), e uma delas é a métrica BM25, que vem sendo bem sucedida ao ser usada. 14.

(54) com o modelo probabil´ıstico (ROBERTSON; WALKER, 1999) (ROBERTSON et al., 1995). Essa métrica e outras serão aprofundadas na Se¸caõ 5.2. Assim é poss´ıvel ordenar os documentos recuperados para uma certa consulta de um usuário, uma vez que se tem a probabilidade de cada documento ser relevante (BARTH, 2013).. 2.2. O Conceito Relevˆ ancia para Recupera¸c˜ ao de Informa¸c˜ ao. Relevância é o ponto principal nos Sistemas de Recupera¸caõ de Informa¸cão. O objetivo principal é criar técnicas artificiais que sejam capazes de oferecer ao usuário documentos pertinentes a` sua busca ordenados da melhor forma poss´ıvel. Essa ordena¸cão é baseada no ranking que cada documento possui com rela¸caõ a uma certa query e é objeto de estudo dessa disserta¸caõ (SILVA et al., 2013). Segundo Mizzaro (1997) muitos pesquisadores estudaram o assunto da relevância, sendo que é poss´ıvel citar 3 dos primeiros estudos que ajudaram a entender melhor esse conceito:. • Vickery (1959a) e Vickery (1959b): apresenta uma distin¸caõ entre a relevância referente a um certo assunto, que se refere ao que o Sistema de Recupera¸cão de Informa¸caõ diz ser relevante, e relevância ao usuário, que refere-se aquilo que o usuário realmente necessita; • Rees e Schultz (1967): estudo que mostra a dificuldade em acreditar-se nas relevâncias apontadas para os documentos e que podem ser afetadas por mais de 40 variáveis; • Cuadra (1967) e Cuadra e Katter (1967): encontra 38 variáveis que influenciam a relevância apontada para documentos, questionando assim a relevância apontada por humanos;. Mizzaro (1998) explica com detalhes em seu artigo a importância da relevância para sistemas de busca e diz que a relevância pode ser estudada através de suas 4 dimensões. A primeira seriam os recursos da informa¸caõ, que possui três partes constituintes: 15.

(55) • Documento: entidade f´ısica que o usuário vai obter do sistema; • Representa¸cão: representa¸caõ do documento, em que pode conter t´ıtulo, autor, bibliografia e outras informa¸cão; • Informa¸caõ: entidade (não f´ısica) que o usuário recebe e cria quando lendo o documento;. A segunda dimensão está relacionada com a representa¸cão do problema do usuário. Esse está necessitando de alguma informa¸caõ e precisa informar ao sistema de Recupera¸caõ de Informa¸caõ essa necessidade. Assim, pode-se definir RIR (Real Informa¸caõ Requisitada) como sendo a informa¸caõ que o usuário está precisando. Essa informa¸caõ será traduzida ou representada na mente do usuário de uma outra forma, em que se define outro termo ICR (Informa¸cão Compreendida Requisitada). Na sequência, o usuário irá expressar o ICR em linguagem natural, uma requisi¸caõ, e por fim realizar uma consulta (conjunto de termos, expressões booleanas) junto ao Sistema de Recupera¸caõ de Informa¸caõ. Essa dimensão retrata a dificuldade do usuário em colocar através de palavras o seu problema, uma vez que podem existir diversas maneiras de expressá-lo os quais nem sempre trarão os documentos que procura. A terceira está referente com a questão tempo, em que a RIR pode variar com o passar do tempo ou que um documento que antes era a informa¸caõ requisitada pode não ser mais para a mesma consulta. Esse dinamismo ilustra um comportamento comum e que acontece com sistemas de Recupera¸cão de Informa¸caõ. Por fim, a quarta dimensão são os componentes de uma busca, que seria a decomposi¸caõ das entidades das duas primeiras dimensões:. • Tópico: assunto de pesquisa do usuário; • Tarefa: o que o usuário vai fazer com os documentos recuperados; • Contexto: tudo que não está relacionado ao tópico ou tarefa mas que influencia nos resultados, como por exemplo documentos já conhecidos e que não são relevantes ao resultado; 16.

(56) A ideia de relevância está como ponto de importância e preocupa¸cão nos modelos de implementa¸caõ dos Sistemas de Recupera¸caõ de Informa¸caõ. Ser capaz de anotar e saber quais documentos os usuários consideram relevantes irá ajudar a obter um melhor ranking dos documentos durante as buscas feitas pelo usuário. Como melhorar e ser capaz de sempre devolver os documentos na melhor ordem poss´ıvel será estudado durante o Cap´ıtulo 5.. 17.

(57) 3. Avaliando Sistemas de Recupera¸ c˜ ao de Informa¸ c˜ ao Neste Cap´ıtulo serão apresentadas quais são as maneiras existentes de se analisar. um algoritmo de Recupera¸cão de Informa¸caõ a fim de verificar se ele está retornando as informa¸co˜es procuradas pelo usuário, ou seja, se o conjunto de documentos retornado é relevante ou não para o usuário. O foco nesse caso não é uma resposta exata, mas sim em verificar se os melhores documentos (mais relacionados a consulta) estão sempre sendo retornados (BAEZA-YATES; RIBEIRO-NETO, 1999). A fim de avaliar esses algoritmos e obter as métricas, usam-se cole¸co˜es de dados para teste de uma maneira padronizada, conforme a Tabela 2, possuindo as seguintes colunas (BARTH, 2013): • Consulta: diversas consultas reais que usuários irão fazer ao sistema de Recupera¸cão de Informa¸caõ; • Documento: poss´ıveis documentos a serem recuperados, podendo estar indexados por partes (t´ıtulo, autor) ou como um texto longo apenas; • Relevância: grau de relevância de um documento perante uma certa consulta, obtido conforme um dos dois métodos a serem apresentados na Se¸caõ 5.1; Consulta. Documento. Relevância. c1. Documento1. 1. c1. Documento2. 2. c1. Documento3. 1. c2. Documento5. 0. c2. Documento8. 0. c2. Documento19. 1. Tabela 2: Cole¸co˜es de Teste para Algoritmos de Recupera¸cão de Informa¸caõ. 3.1. Precis˜ ao. Precisão (precision em inglês) está relacionado com a quantidade de documentos que foram recuperados corretamente, ou seja, que são relevantes, para uma certa consulta 18.

(58) (BAEZA-YATES; RIBEIRO-NETO, 1999). Formalmente, pode-se definir segundo a Equa¸caõ 4:. T n(relevantes recuperados) P recisao = n(recuperados). (4). Exemplificando o cálculo, considera-se que para uma certa consulta, temos:. • documentos recuperados: d1, d2, d3, d4, d5 (ou seja, 5 documentos) • documentos relevantes para a consulta: d1, d2 e d6 • documentos relevantes e recuperados para a consulta: d1, d2. Nesse caso, a precisão seria de 40%, pois 2 documentos relevantes foram recuperados dentre os 5 documentos recuperados para a consulta.. 3.2. Cobertura. Cobertura (recall em inglês) está relacionado com a quantidade de documentos relevantes recuperados tendo em vista todos documentos relevantes para uma certa consulta (BAEZA-YATES; RIBEIRO-NETO, 1999). Formalmente, pode-se definir de acordo com a Equa¸cão 5:. T n(relevantes recuperados) cobertura = n(relevantes). (5). Utilizando o mesmo exemplo de consulta da se¸cão anterior, a cobertura seria de 66,67%, pois recuperou-se 2 documentos relevantes dentre os 3 documentos relevantes poss´ıveis. A rela¸cão entre os conceitos Precisão e Cobertura pode ser visualizada pela Figura 7.. 19.

(59) Figura 7: Precisão x Cobertura. 3.3. Medida F. Um sistema que retorna sempre todos documentos poss´ıveis terá garantia de possuir 100% de cobertura, mas com uma baixa precisão. Já um sistema que retorna somente um documento, há chances de ter uma alta precisão, mas uma baixa cobertura, já que retorna apenas um documento. Dessa maneira, existe a Medida F que é responsável por uma média harmônica entre a precisão e a cobertura (MANNING et al., 2008), segundo a Equa¸caõ 6.. F =. 2 × (precisao × cobertura) precisao + cobertura. (6). Utilizando os mesmos exemplos da se¸cão 3.1, a medida F nesse caso seria 0.5, pois F = 2 × (0.4 × 0.6667) / (0.4 + 0.6667).. 3.4. Precis˜ ao em n. Segundo a defini¸caõ de Barth (2013), a Precisão em n (P@n) mede a relevância dos n primeiros documentos em uma lista ordenada, em que n é o n´ umero de documentos retornados e r é o n´ umero de documentos retornados relevantes até a posi¸cão n. 20.

(60) Para o cálculo da Precisão em n, utiliza-se a Equa¸cão 7:. P @n =. r n. (7). Suponha-se que para uma dada consulta, os 5 primeiros documentos retornados são os especificados na Tabela 3. Posi¸caõ. Documento Relevante?. 1. sim. 2. sim. 3. não. 4. não. 5. sim. Tabela 3: Documentos relevantes de acordo com a posi¸caõ Para esse caso espec´ıfico, tem-se que a Precisão em n para esses documentos recuperados são os valores da Tabela 4. Precisão em n. Valor. P@1. 1. P@2. 1. P@3. 2/3. P@4. 2/4. P@5. 3/5. Tabela 4: Valores da Precisão em n. 3.5. M´ edia dos Valores da Precis˜ ao M´ edia. A média dos Valores da Precisão Média, em inglês Mean Average Precision (MAP), tem como objetivo sumarizar os valores da Precisão em N depois que cada documento relevante foi recuperado para cada uma das consultas. Esta métrica é uma das mais utilizadas quando deseja-se uma métrica com rela¸caõ a várias consultas (AGICHTEIN; BRILL; DUMAIS, 2006). 21.

(61) Sendo rq o n´ umero total de documentos relevantes para uma certa consulta, N o numero total de documentos recuperados na consulta e rel(n) uma fun¸cão binária cujo valor é 1 caso o documento em questão seja relevante e 0 caso contrário. Assim, primeiramente define-se a Precisão Média, em inglês Average Precision (AP), a qual visa obter a média dos valores P@n para uma consulta espec´ıfica tendo-se como base apenas os documentos relevantes (BARTH, 2013), é calculado pela Equa¸caõ 8: PN AP =. n=1. P @n × rel(n) rq. (8). Tendo-se como base a Tabela 4, com valores de Precisão em n, o valor de AP seria:. AP =. (1 × 1) + (1 × 1) + (2/3 × 0) + (2/4 × 0) + (3/5 × 1) = 0.86 3. Assim, a MAP seria a média dos AP considerando-se todas as consultas realizadas. Logo, se tivermos 5 consultas, em que a AP de cada uma é {0.9, 0.8, 0.8, 0.5, 0.7}, a MAP seria:. M AP =. 3.6. 0.9 + 0.8 + 0.8 + 0.5 + 0.7 = 0.74 5. Mean Reciprocal Rank. Mean Reciprocal Rank (MRR) é uma medida utilizada para o caso em que o foco é uma u ńica resposta correta (BARTH, 2013), ou com rela¸cão ao contexto de Recupera¸caõ de Informa¸caõ, em que o foco é um u ńico documento tido como correto com rela¸caõ a uma certa consulta. Sendo N o n´ umero total de consultas realizadas, pi a posi¸cão correta do documento (rank ) para a consulta i, a medida MRR é definida como a média do inverso do rank para todas as consultas realizadas (BURGES; RAGNO; LE, 2006), conforme Equa¸cão 9 : PN M RR = 22. 1 i=1 pi. N. (9).

(62) Tenha como base a Tabela 5: Consulta. Resultado Ordenado. Documento Correto. Posi¸caõ Correta. Reciprocal Rank. c1. doc1 , doc2. doc1. 1. 1. c2. doc1 , doc2. doc2. 2. 1/2. c3. doc1 , doc2 , doc3. doc3. 3. 1/3. Tabela 5: Documentos e Informa¸cões para o cálculo do MRR. Para esse exemplo, o valor de MRR seria 0.61, conforme o cálculo abaixo: M RR =. 3.7. 1 + 1/2 + 1/3 = 0.61 3. Normalized Discounted Cumulative Gain. A medida NDCG (Normalized Discounted Cumulative Gain) é uma medida utilizada quando existem diferentes graus de relevância para os documentos retornados de uma ´ o caso em que para uma consulta existiriam documentos com grau de certa consulta. E relevância 0 (nada relacionado com a consulta), 1 (pouco relacionando com a consulta), 2 (relevante a` consulta) e 3 (muito relevante à consulta) (BARTH, 2013). Essa medida tem duas vantagens com rela¸caõ a`s outras medidas. Primeiramente, como dito anteriormente, ela pode ser obtida dos casos em que existem graus de relevância para os documentos e não somente resultados binários de relevância (sim ou não). A segunda vantagem está relacionada com o fato de priorizar os documentos retornados no come¸co, o que as outras medidas não diferenciam (WANG et al., 2013). Dada uma lista de documentos retornados de uma consulta, documentos os quais estão ordenados por grau de relevância, é claro que os seguintes pontos são verdadeiros e ¨ ¨ AINEN, ¨ considerados para o cálculo do NDCG (JARVELIN; KEKAL 2002): • Documentos que estão nas primeiras posi¸co˜es são mais importantes para o usuário • Quanto mais para o fim da lista o documento estiver, menos importante ele será, já que será dif´ıcil para o usuário acessá-lo. 23.

(63) A fim de melhor compreender o cálculo do NDCG, este será dividido em três etapas. A primeira consiste em apresentar o Ganho Acumulado (CG). Essa medida é calculada como a soma das relevâncias desde a posi¸caõ 1 até a posi¸cão atual para todas as posi¸co˜es do vetor. Considere o seguinte vetor G, que consiste dos documentos retornados para uma certa consulta, em que o valor para cada posi¸caõ é o grau de relevância, sendo 0 o ¨ ¨ AINEN, ¨ menor valor e 3 o maior poss´ıvel (JARVELIN; KEKAL 2002):. G = { 3, 2, 3, 0, 0, 1, 2, 2, 3, 0, ... }. Formalmente, CG é definido recursivamente de acordo com a Equa¸caõ 10, onde G[i] ¨ ¨ AINEN, ¨ é o grau de relevância para a posi¸cão i (JARVELIN; KEKAL 2002):. CG[i] =.   G[i],. se i = 1 (10).  CG[i − 1] + G[i] se i > 1. Para o vetor G apresentado anteriormente e considerando-se a Equa¸caõ 10, ter´ıamos o Ganho Acumulado (CG) sendo:. CG = { 3, 5, 8, 8, 8, 9, 11, 13, 16, 16, ... }. A segunda etapa garante o que foi mencionando anteriormente ao informar que os documentos mais pro fim da lista serão menos importantes. Para isso, uma fun¸cão que irá progressivamente diminuir a importância é necessário e será apresentada ao calcular-se o Ganho Acumulado Descontado (DCG). Sendo b a base do logaritmo, DCG é calculado ¨ ¨ AINEN, ¨ recursivamente(JARVELIN; KEKAL 2002) pela Equa¸caõ 11:. DCG[i] =.   CG[i],. se i < b (11).  DCG[i − 1] + G[i]/ log i se i ≥ b b. Utilizando o vetor G apresentado anteriormente e tendo-se a base do logaritmo b = 2, pode-se obter o Ganho Acumulado Descontado sendo: 24.

(64) DCG = { 3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61, ... }. Por fim, é poss´ıvel agora calcular-se o Ganho Acumulado Descontado Normalizado (NDCG). Tendo-se um vetor I, chamado de Ideal, contendo uma lista de documentos dado uma certa consulta ordenada da melhor maneira através do grau de relevância, é poss´ıvel calcular o DCGi = { i1 , i2 , i3 , i4 , i5 ... }. Tendo-se também os valores de DCG calculados através dos documentos recuperados e representados como DCGr = { r1 , r2 , r3 , r4 , r5 ... }, a medida NDCG pode ser calculada dividindo-se cada posi¸caõ de DCGr por DCGi , ¨ ¨ AINEN, ¨ de acordo com a Equa¸caõ 12 (JARVELIN; KEKAL 2002):. N DCG = {i1 /r1 , i2 /r2 , i3 /r3 , ...}. (12). Por exemplo, se o valor ideal de DCGi for { 3, 6, 7.89, 8.89, 9.75, 10.52, 10.88, 11.21, 11.53, 11.83 ... }, e utilizando o valor de DCG obtido anteriormente, tem-se NDCG:. NDCG = { 1, 0.83, 0.87, 0.77, 0.70, 0.69, 0.73, 0.77, 0.83, 0.81, ... }. 3.8. Acur´ acia. A acurácia é uma medida muito comum em algoritmos de aprendizagem de máquina, que consiste em calcular a razão entre a quantidade de predi¸co˜es corretas sobre todas as predi¸co˜es realizadas. Contudo, por mais que a tarefa da área de Recupera¸caõ de Informa¸caõ possa ser vista como um problema de classifica¸caõ de duas classes (relevante e não relevante), essa não é uma medida muito apropriada para esse cenário. Normalmente a maioria dos documentos podem ser considerados não relevantes para uma certa consulta, ou seja, apenas uma pequena parcela satisfaz a consulta do usuário. Assim sendo, um sistema que sempre informe os documentos com a classe não relevante, teria uma grande acurácia, afinal estaria predizendo corretamente a classe para uma grande quantidade de documentos e, consequentemente, teria uma grande acurácia. Contudo, os documentos relevantes não teriam sido recuperados, ocasiando uma falsa idéia que o sistema tenha uma boa capacidade de predi¸cão (VECHTOMOVA, 2009).. 25.

(65) 4. T´ ecnicas de Ensemble Neste Cap´ıtulo será apresentado um conceito conhecido por Ensemble. Uma vez que. esse trabalho tem como objetivo avaliar se ao combinar diferentes algoritmos Learning to Rank é poss´ıvel obter um algoritmo que consigo retornar documentos mais relevantes a pesquisa e em melhores posi¸cões, é necessário conhecer como é feita essa combina¸cão, as diferentes maneiras e principalmente o método conhecido por Stacking. Algoritmos de aprendizagem de máquina têm como objetivo serem capazes de representar pontos do espa¸co vetorial, representados pelo vetor x, e uma certa classe y, através de uma fun¸cão f, tal que y = f(x). Assim, deve-se encontrar uma fun¸caõ h que seja o mais próximo poss´ıvel da fun¸caõ y. Porém encontrar essa fun¸caõ h não é uma tarefa fácil e pode sofrer de dois problemas. O primeiro é o fato da possibilidade de existir muitos dados de treinamento (x) e consequentemente a fun¸caõ h pode funcionar corretamente somente para uma parte desse conjunto de dados, ou seja, a fun¸caõ varia com diferentes dados de treinamento. Um algoritmo que possui esse comportamento é conhecido por ter alta variância. O segundo problema está relacionado a como estimar a fun¸cão h, uma vez que certos algoritmos tendem a fazer alguma suposi¸caõ sobre como criá-la e, algoritmos que possuem muitas suposi¸co˜es são conhecidos por terem um alto viés. A fim de tentar ajudar a combater esses dois problemas, é poss´ıvel combinar algoritmos utilizando uma técnica conhecida por Ensemble (DIETTERICH, 2002). O termo Ensemble consiste em criar um modelo de aprendizagem de máquina (um classificador por exemplo) que irá combinar as predi¸cões de outros modelos. Espera-se que o resultado desse modelo combinado possua uma melhor capacidade de predi¸caõ, ou seja, que possa por exemplo identificar mais classes corretas em um teste do que qualquer modelo individual que foi utilizado (OPITZ; MACLIN, 1999). Diversos estudos realizados como, por exemplo o do Hansen e Salamon (1990) ou Hashem (1997), apontam que um bom Ensemble é aquele em que cada um dos modelos individuais possui capacidade de predi¸caõ correta ou comete erros em diferentes partes do conjunto de treinamento. Com isso, o modelo combinado será capaz de unir os pontos fortes de cada algoritmo. Um processo usual de Ensemble acontece de acordo com a figura 8. Cada uma das. 26.

(66) Redes Neurais (network 1 até network N), que poderiam ser substituidas por outro tipo de classificador, é treinada com o mesmo conjunto de treinamento. Então, o resultado de cada um desses classificadores é combinado para produzir um resultado final (ensemble output), sendo que pode ser combinado através de vota¸cão simples, ou seja, a classe que teve mais votos é eleita a classe correta a ser predita (BREIMAN, 1996).. Figura 8: Processo para combinar predi¸cões de Redes Neurais (OPITZ; MACLIN, 1999) p.171. A seguir serão apresentados três métodos da literatura que visam combinar diferentes modelos de aprendizagem de máquina: Bagging, Boosting e Stacking.. 4.1. Bagging. Bagging é um método de Ensemble criado por Breiman (1996), acrônimo para bootstrap aggregating, que visa reduzir a variância, obtendo-se um modelo com melhor qualidade de predi¸caõ, ou seja, fazer com que o modelo a ser criado não seja espec´ıfico ao conjunto de treinamento. Um dos fatos que chamou a aten¸cão para esse método foi a sua simplicidade de implementa¸cão e, posteriormente comprovado por B¨ uchlmann e Yu (2002) que realmente melhora a capacidade de predi¸caõ para algoritmos de regressão ou árvores de classifica¸caõ. O algoritmo consiste em criar diversos modelos utilizando uma amostra aleatória do conjunto de treinamento de tamanho N. Assim, cada modelo será criado utilizando N amostras desse conjunto, porém pode ter-se elementos repetidos e logo alguns faltantes. Tenha-se, por exemplo, o seguinte conjunto de treinamento dispon´ıvel: 1,2,3,4,5,6,7 e 8. Na Figura 9 verifica-se com qual conjunto de treinamento cada modelo seria treinado. 27.

(67) No primeiro caso tem-se uma amostra de 8 n´ umeros, porém os n´ umeros 4 e 5 não estão presentes enquanto os n´ umeros 3 e 7 estão repetidos. Dessa maneira, para cada modelo espera-se ter um erro maior do que se fosse usado todos os dados dispon´ıveis, porém, se combinados, normalmente produzem menos erros do que cada um dos modelos individuais.. Figura 9: Processo de amostragem do conjunto de treinamento para Bagging (OPITZ; MACLIN, 1999) p.173. Esse processo repete-se t vezes e após ter-se t modelos criados com diferentes conjuntos de treinamento, calcula-se uma vota¸cão para eleger a classe mais predita, caso for um modelo de classifica¸caõ, ou uma média de valores, caso o modelo for de regressão. Na Figura 10a existe um u ńico modelo criado tentando-se encontrar uma fronteira de separa¸caõ entre os dois diferentes dados. Já na Figura 10c existem os t diferentes modelos criados utilizando partes aleatórias do conjuntos de treinamento e, por fim, na Figura 10b o modelo final de Bagging que foi poss´ıvel ser encontrado.. Figura 10: Superf´ıcie de separa¸cão de dados utilizando Bagging (ZHOU, 2012) p.50. 28.

(68) 4.2. Boosting. Boosting é uma técnica que consiste em criar diversos modelos fracos, porém que se combinados, serão capazes de ter uma predi¸caõ melhor do que qualquer um dos modelos individuais. Esse método foi primeiramente encontrado em Schapire (1990) e Freund, Schapire et al. (1996), em que se cria uma série de modelos onde o conjunto de treinamento de cada modelo é escolhido baseado no resultado da etapa anterior. Logo, é importante salientar que esse método não é paralelizável, uma vez que o modelo posterior é dependente do anterior, diferentemente do que acontece no Bagging. Isso acontece porque exemplos que foram preditos corretamente durante um treinamento têm menos chances de serem escolhidos para as próximas etapas, uma vez que foca-se nos exemplos dif´ıceis de serem preditos corretamente. Assim, diferentemente de Bagging, o conjunto de treinamento é dependente da etapa anterior. Na Figura 11 tem-se o seguinte conjunto de treinamento inicial: 1,2,3,4,5,6,7 e 8. Porém, considerando-se que o exemplo 1 é o mais dif´ıcil a se predizer corretamente, ele passa a ocorrer mais frequentemente nas próximas itera¸cões, a fim de tentar criar um modelo que seja capaz de lidar com esse exemplo. Assim como no Bagging, o resultado final também pode ser escolhido através de uma vota¸caõ majoritária.. Figura 11: Processo de amostragem do conjunto de treinamento para Boosting (OPITZ; MACLIN, 1999) p.173. Para visualizar a superf´ıcie de separa¸cão de um conjunto de dados utilizando Boosting, tem-se a Figura 12b, em que combina classificadores fracos (Figura 12c), e demonstra ter uma capacidade maior de separa¸cão entre as duas classes existentes do que a Figura 12a, que possui apenas um modelo para tentar separar os dados.. 29.

(69) Figura 12: Superf´ıcie de separa¸cão de dados utilizando Boosting (ZHOU, 2012) p.30. 4.3. Stacking. Stacking é um método criado por Wolpert (1992) que visa criar um novo modelo que seja capaz de combinar diferentes modelos. Ou seja, ao invés de utilizar uma vota¸cão para definir qual a predi¸caõ correta, nesse caso deve ser realizado um treinamento de um algoritmo com o objetivo de realizar essa tarefa. Os modelos que serão combinados são conhecidos por Modelos de N´ıvel 1, enquanto que o modelo que irá realizar a combina¸caõ é conhecido por Modelo de N´ıvel 2 ou meta-learner. Deve-se treinar todos os modelos de N´ıvel 1 utilizando o conjunto de dados de treinamento inicial e utilizar a sa´ıda desses modelos como entrada para o modelo de N´ıvel 2, sendo que o valor esperado, ou classe esperada se for um modelo de classifica¸caõ, é a ´ recomendável que os mesma dos dados iniciais, processo esse ilustrado na Figura 13. E algoritmos do N´ıvel 1 sejam de diferentes tipos, como Redes Neurais, Random Forest, etc, garantindo uma variedade de resultados na predi¸caõ desses modelos (ZHOU, 2012).. 30.

(70) Figura 13: Stacking de modelos de aprendizagem. Uma outra maneira de realizar o Stacking consiste em dividir o conjunto de dados de treinamento em duas partes diferentes, em que a primeira parte é utilizada para treinar os modelos de N´ıvel 1 e a segunda parte para testá-los, sendo que o resultado desse teste será utilizado para gerar o conjunto de treinamento para o modelo de N´ıvel 2 (SEWELL, 2008). Pode-se ainda separar o conjunto de treinamento realizando uma valida¸caõ cruzada de k pastas, em que se deve dividir aleatoriamente esse conjunto em k partes, D1 , ...., Dk . Seja então D(j) o conjunto de teste e D(−j) o conjunto de treinamento para cada uma das pastas. Para cada um dos modelos do N´ıvel 1 então será utilizado os dados D(−j) para treinamento e os dados D(j) para teste, o qual produzirá novos dados de treinamento a serem utilizados para o modelo de N´ıvel 2. Deve-se lembrar que após os novos dados serem gerados, os modelos do N´ıvel 1 são criados novamente, agora utilizando todo conjunto de treinamento dispon´ıvel (ZHOU, 2012).. 31.

(71) 5. Learning to Rank Nesse Cap´ıtulo é apresentado um campo de estudo conhecido por Learning to Rank. que pode ser aplicado em diversas áreas tais como de Recupera¸caõ de Informa¸caõ, Processamento de Linguagem Natural (PLN) e Minera¸caõ de Dados, cujas aplica¸co˜es práticas podem ser os Sistemas de Recupera¸cão de Informa¸caõ, Filtro Colaborativo (do inglês collaborative filtering), sistemas de perguntas e respostas, tradu¸co˜es automáticas e outros. Diferentemente dos modelos clássicos, esses algoritmos empregam técnicas de Aprendizagem de Máquina e Inteligência Artificial, a fim de serem capazes de retornar os documentos em uma ordena¸caõ melhor e fazer com que o usuário encontre mais facilmente a informa¸caõ desejada. Os Sistemas de Recupera¸caõ de Informa¸caõ possuem ciência de todos documentos e, dado uma certa consulta que recebe, este irá retornar os documentos que acredita serem relevantes, encontrados através da verifica¸caõ das palavras da consulta nos documentos. Antes de retornar os documentos, o sistema ordena os mesmos através de uma fun¸caõ de ranking f(q,d), em que q é a consulta e d é o documento, conforme Figura 14. Normalmente essa fun¸caõ de ranking é criada sem envolver técnicas de aprendizagem de máquina, usando a métrica BM25, explicada na Se¸caõ 5.2, ou ainda a distância vetorial entre o documento e a consulta (distância do cosseno) (HANG, 2011).. Figura 14: Processo utilizado na Recupera¸caõ de Informa¸caõ Tradicional (HANG, 2011) p.1854. Nos u ´ltimos anos, cada vez mais técnicas de aprendizagem de máquina vêm sendo usadas para resolver o problema de ranking, principalmente aplicadas à a´rea de Recupera¸cão 32.