DCI-UFPE 1
Recuperação de Informação
na Web
2
Roteiro
Sistema de Recuperação de Informação
Definições
Exemplos
Modelos
Recuperação de informação na Web
Web e natureza das páginas
Mecanismos de buscas
Indexação
Busca
3
Processo de Recuperação de
Informação (RI)
Dados
Um corpus de documentos e
Uma consulta do usuário
Encontrar
Um conjunto (ordenados) de documentos que
4
Processo de Recuperação de
Informação
Sistema de RI Consulta
Corpus de documentos
Documentos ordenados
1. Doc1 2. Doc2 3. Doc3
. .
7
Sistema de Recuperação de
Informação (SRI)
Um sistema automático para RI pode ser visto como
a parte do sistema de informação responsável pelo
armazenamento ordenado dos documentos em um banco de dados,
e sua posterior recuperação
para responder a consulta do usuário.
Etapas principais na construção:
Aquisição (seleção) dos documentos Preparação dos documentos
Indexação dos documentos Armazenamento
Recuperação
Busca (casamento com a consulta do usuário)
8
Exemplos de Sistemas de
Recuperação de Informação
Catálogo em linha de acesso público
Mecanismos de busca
Serviços de busca em linha
Sistemas de gerenciamento de documentos
Sistemas de Filtragem de Informação
9
Como funciona?
Usuário
Necessidade de Informação
Função de Busca
Documentos
Consulta
Sistema de Recuperação de
Informação
Sistema de
Recuperação da Informação
Modelos de Recuperação de Informação
Os sistemas de recuperação de informação adotam um modelo computacional de recuperação de
informação.
Tais modelos definem:
A representação dos documentos A representação da consulta
A função de busca
Os modelos mais utilizados em sistemas de recuperação de informação são os
Modelos Clássicos
Modelo booleano
Modelo Espaço Vetorial
Modelo Probabilista
Modelo Booleano
Representação
Documentos:
Conjunto de Termos selecionadas na
indexação
Consulta:
Expressão lógica booleana constituída por
Termos conectados por operadores booleanos
(AND, OR, AND NOT)
Exemplos:
informação AND recuperação
informação OR documento
Modelo Booleano
Função de Busca
Relevância “binária”:
O documento é considerado relevante se e somente se seu
“casamento” com a consulta é verdadeiro, isto é se o valor verdade da consulta se torna verdadeiro para aquele
documento.
Não é possível ordenar os documentos recuperados
Exemplo de consulta
Consulta
t1 AND t2 AND t3
Documentos apresentados ao usuário
t1 t2
t3
Base de
Modelo Booleano
Vantagens
Modelo simples baseado em teoria bem
fundamentada: teoria dos conjuntos
Fácil de entender e implementar em computador
Desvantagens
Não permite casamento parcial entre consulta e
documento
Assume independência entre os termos usados na
indexação
Q1: professor ; Q2: professores ; Resultados das consultas q1 e q2 são diferentes
Não permite ordenação dos documentos recuperados A necessidade de informação do usuário deve ser
expressa em termos de uma expressão booleana Alternativa: Uso de expressões como “todos os termos”, “qualquer termo” e
Operadores AND e OR
substituídos por “Todas as palavras” e “algumas das palavras”
Modelo Espaço Vetorial
Representação do documento e da consulta
Cada termo constitui um
eixo de um espaço
vetorial
Consultas (q) e documentos (d) são
representados como vetores nesse espaço
n-dimensional
Olimpíadas Brasil Sidney d 0.2 0.5 0.3 qBrasil Olimpíada Sidney Consulta q :
Documento d :
Brasil em Sidney 2000
O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000 ...
Brasil 0.4 Olimpíada 0.3 Sidney 0.3
Brasil 0.5 Olimpíada 0.3 Sidney 0.2
Representação de q
Modelo Espaço Vetorial
Função de busca
O modelo ordena os documentos recuperados de acordo com sua similaridade em relação à consulta
Similaridade pode ser medida pelo co-seno do ângulo
entre q e d:
função inversamente relacionada ao ângulo entre os documentos
Quanto menor é o ângulo entre os documentos, maior o
co-seno e maior é a similaridade entre d e q
Varia entre 0 e 1
Independe do tamanho do vetor, considera apenas sua direção
K2
K1 d
q
Modelo Espaço Vetorial
Vantagens
Pesos não-binários associados a termos permitem
casamento parcial dos documentos com a consulta
Ordena documentos de acordo com o grau de
similaridade com a consulta Desvantagens:
Assume independência entre os termos usados na
indexação
q1 = professor
q2 = professores
Resultados das consultas q1 e q2 são diferentes
É menos intuitivo que o modelo booleano.
Privilegia documentos pequenos no topo da lista de
20
Exercício
Utilize os seguintes mecanismos de busca
para buscar documentos sobre sobre o tema:
indexação automática por sintagmas
nominais.
A) Scielo B) Google
21
Recuperação de Informação na Web
World Wide Web (WWW ou Web)
Desenvolvida por Tim Berners-Lee em 1989 como
um serviço da Internet (Rede mundial de computadores).
Criada inicialmente como um sistema de
comunicação para compartilhar informação científica entre centros de pesquisa e
universidades.
Constitui-se em um sistema documental de fácil
publicação e acesso a documentos hipertexto.
Os documentos hipertexto são documentos
textuais que podem referenciar a outros por meio de ligações denominadas links.
Se constituem em unidades de informação na Web, sendo
22
Recuperação de Informação na Web
Características da web
Esquema de endereçamento chamado Universal
Resource Locator (URL) para referenciar uma página
Uma URL é o endereço de um arquivo acessível através da Internet
Protocolo Hipertext Transfer Protocol (HTTP) para
transferência de um página através da URL da mesma.
Linguagem de marcação Hypertext Markup Language
(HTML) para especificação da estrutura e apresentação da página como documento hipertexto.
Esta linguagem possui um conjunto predefinido de códigos textuais denominadas tags usadas para definir componentes relacionados com os metadados, a estrutura e aparência do texto, as ligações (links) entre páginas, e a inclusão de
arquivos de imagem, áudio e vídeo.
São visualizadas via softwares denominados navegadores ou
23
Recuperação de Informação na Web
Características das páginas web
Grande volume de documentos, documentos em
diversas línguas, com endereço volátil e conteúdos atualizados assincronamente e muitos conteúdos são redundantes, imprecisos e mal escritos.
O fato de uma página poder apontar para outra página
pressupõe algum tipo de relação entre os conteúdos dessas páginas, que pode ser por tratar do mesmo assunto ou aspecto especial do assunto, por uma questão de origem institucional, de autoria etc.
Útil para o agrupamento conceitual de páginas
Os links tem natureza unidirecional, não havendo
controle da página referenciada sobre quais páginas tem link para ela, e formam redes de citações.
24
Recuperação de Informação na Web
Realizada através de SRIs especializados
denominados “mecanismos de busca” (search engines)
O corpus é composto de páginas na Web, embora a
maioria das páginas na Web não são indexadas (a estimativa é que apenas 10% das páginas são
indexadas)
Permitem ao usuário submeter uma expressão de
busca e recuperar uma lista ordenada de endereços de páginas com trechos (extratos) dos documentos
contendo termos da busca e presumivelmente relevantes à necessidade de informação.
Utilizam variações do Modelo Espaço Vetorial para
recuperação de informação.
Incorporam no cálculo de relevância a popularidade
25
Recuperação de Informação na Web
Historicamente, recuperação por:
Endereço – Archie, 1990
Metadados e diretórios criados por especialistas –
Yahoo, 1994
Texto completo e meta tags do HTML (title,
description, e keywords) – Google, 1998
Dados de uso dos usuários (cliques, expressões de
busca, localização) sendo usados para prover recursos de busca – Google 2005.
Integração com Wikipedia para respostas do tipo
O que é ...? – Google 2012 (knowledge graph).
26
Recuperação de Informação na Web
Principais mecanismos de busca
www.yahoo.com.br
David Filo e Jerry Yang, 1994.
Atualmente utiliza o índice do Bing.
www.google.com.br
.
Larry Page e Sergey Brin, 1998.
www.bing.com.br
27
Mecanismo de Busca: arquitetura
Interface Motor de consulta
Coletor
28
Construção de índice
Os mecanismos de busca geram índices para busca Pelo caráter dinâmico da Web, esses índices devem permanecer em constante processo de atualização
Páginas são criadas ou apagadas, mudam de URL, o conteúdo das páginas e links são
atualizados de forma descontrolada.
É utilizada a indexação automática das páginas web, devido ao grande volume de documentos, a diversidade dos assuntos e linguagem dos
29
Construção de índice
A criação do índice é realizada em duas etapas:
1.
Seleção de endereços de páginas (URLs)•
Programas chamados robôs (spiders,crawlers, robots) partem de uma lista inicial de URLs, fazem download das
páginas, extraem os links das mesmas e adicionam as URLs extraídas à lista para processamento, removendo as duplicatas e os que apontam para páginas que não existem mais.
2.
Indexação automática do conteúdo das30
Indexação Automática
Indexação automática do conteúdo das páginas
Embora não revelem exatamente quais, os mecanismo de busca fazem uso das técnicas de indexação automática com base em operações de texto (análise léxica, eliminação de stopwords, radicalização, ...)
Para atribuir pesos diferentes a termos, fazem uso do tfidf e das tags para pontuar termos localizados em determinados campos como título (title, h1, h2, ...) ou destacados através da formatação (negrito, itálico, tamanho e cor da fonte,
texto de link ...)
Indexam também arquivos linkados que não são páginas, como arquivos pdf, imagens, etc.
31
Análise dos Links
A estrutura dos links entre as páginas é explorada para ranquear as páginas
PageRank Hits
32
Grafo web
Grafo web é um grafo direcionado, sem pesos e
desconectado tal que os nós representam as páginas web e as arestas representam um link conectando duas páginas;
O grafo web representa a estrutura topológica da Web;
Método:
• Se um link de uma página web A aponta para uma
33
34
Page Rank
Mede a popularidade ou autoridade de uma página proporcional ao número de links recebidos de outras páginas populares.
35
Page Rank
Vantagem:
Mede autoridade da página independente da consulta
36
Google Rank
Execução de uma Consulta:
1. O usuário pelo navegador faz uma consulta utilizando um conjunto de palavras-chave;
2. O módulo Recuperador seleciona as páginas web mais similares com a consulta (que contêm algumas das palavras-chaves);
3. O módulo Ordenador utiliza o resultado do PageRank no grafo web, a similaridade textual e outras características para
determinar as ordenação das páginas, iniciando pela página mais relevante;
37
Busca
A estrutura do índice e a função de busca (algoritmo de
ordenamento) são os principais elementos da arquitetura de um mecanismo de busca para seu funcionamento.
Para os usuários, entretanto, é mais importante a interface para especificação da busca e exame dos resultados, pois é por meio dela que é possível interagir com o sistema formulando e
reformulando as expressões de busca, e examinando e filtrando os documentos retornados.
Geralmente é disponibilizado duas interfaces para especificação da expressão de busca: pesquisa básica; e pesquisa avançada.
38
Busca
Na pesquisa básica é apresentada uma caixa de texto na qual o usuário digita palavras ou frases (delimitadas por aspas) que resumam sua necessidade de informação
39
Busca
Na pesquisa avançada é apresentado um formulário na qual o usuário preenche campos digitando palavras ou expressões ou seleciona opções pré-estabelecidas que resumam sua
necessidade de informação
40
41
Resultado da Busca
O resultado da busca geralmente é apresentado como uma lista ordenada de endereços de páginas (URLs).
As primeiras páginas listadas são consideradas pelo sistema como mais relevantes à necessidade de informação do
usuário. Isto é imprescindível para o usuário devido ao grande número de documentos recuperados.
Os métodos (algoritmos) de ordenação não são
divulgados abertamente mas levam em conta critérios como a atribuição de maior peso para palavras: que são menos comuns na web, que aparecem em
42
Resultado da Busca
43
44
Knowledge Graph
(Painel do
Conhecimento)
https://www.google.com/intl/pt-BR_ALL/insidesearch/features/search/knowledge.html
Grafo de entidades (pessoas, organizações, lugares, objetos e eventos) e relações entre entidades.
Google obtém dados da wikipedia, freebase, e outros repositórios de dados vinculados abertos (Linked
data) para gerar o knowledge graph.
Bing anunciou o uso de knowledge graph baseado na enciclopédia britânica.
Facilita a busca de usuários iniciantes. Direcionado ao
45
Personalização da busca
Atualmente, a personalização nas buscas se baseia em fatores como:
a localização
histórico de navegação
afinidade com o tipo de aplicativos instalados no
dispositivo que realiza a pesquisa Novos fatores:
46
Links
List of Search Engines:
http://www.thesearchenginelist.com/
Page Rank: http://en.wikipedia.org/wiki/PageRank
RI no Google
https://www.google.com/intl/pt-BR_ALL/insidesearch/howsearchworks/
https://static.googleusercontent.com/media/www.google.com/pt-BR//insidesearch/howsearchworks/assets/searchInfographic.pdf
https://www.ted.com/talks/larry_page_where_s_google_going_ne
xt?language=pt-br
Scielo – Interface de busca: http://www.scielo.br/
Google – Interface de buca: http://www.google.com.br/
Solr – software livre para criação de SRIs
47
Exercício
Utilize os seguintes mecanismos de busca para
buscar documentos sobre sobre o tema: indexação automática por sintagmas nominais.
A) Bing B) Google C) Yahoo
Explicite a expressão de busca utilizada (deve ser a mesma para todos), e os respectivos: número total de documentos
retornados e os recursos de filtragem dos resultados oferecidos. Faça uma comparação do conjunto dos 5 primeiros resultados das buscas retornados por cada um. Aponte diferenças e
48
Referências
BAYEZA-YATES, RIBEIRO-NETO. Recuperação de
Informação. Bookman: 2013. (Capítulo 9)
FERNEDA, E. Introdução aos modelos
computacionais de recuperação de informação. Rio de Janeiro: Ciência Moderna, 2012. (Capítulo 12)
FEITOSA, A. Organização da informação na