Web e natureza das páginas

(1)

DCI-UFPE 1

Recuperação de Informação

na Web

(2)

2

Roteiro

Sistema de Recuperação de Informação



Definições



Exemplos



Modelos

Recuperação de informação na Web



Web e natureza das páginas



Mecanismos de buscas



Indexação



Busca

(3)

3

Processo de Recuperação de

Informação (RI)

Dados



Um corpus de documentos e



Uma consulta do usuário

Encontrar



Um conjunto (ordenados) de documentos que

(4)

4

Processo de Recuperação de

Informação

Sistema de RI Consulta

Corpus de documentos

Documentos ordenados

1. Doc1 2. Doc2 3. Doc3

. .

(5)

(6)

(7)

7

Sistema de Recuperação de

Informação (SRI)

Um sistema automático para RI pode ser visto como

 a parte do sistema de informação responsável pelo

armazenamento ordenado dos documentos em um banco de dados,

 e sua posterior recuperação

 para responder a consulta do usuário.

Etapas principais na construção:

 Aquisição (seleção) dos documentos  Preparação dos documentos

 Indexação dos documentos  Armazenamento

 Recuperação

 Busca (casamento com a consulta do usuário)

(8)

8

Exemplos de Sistemas de

Recuperação de Informação

Catálogo em linha de acesso público

Mecanismos de busca

Serviços de busca em linha

Sistemas de gerenciamento de documentos

Sistemas de Filtragem de Informação

(9)

9

Como funciona?

Usuário

Necessidade de Informação

Função de Busca

Documentos

Consulta

Sistema de Recuperação de

Informação

Sistema de

Recuperação da Informação

(10)

Modelos de Recuperação de Informação

Os sistemas de recuperação de informação adotam um modelo computacional de recuperação de

informação.

Tais modelos definem:

 A representação dos documentos  A representação da consulta

 A função de busca

Os modelos mais utilizados em sistemas de recuperação de informação são os

 Modelos Clássicos

 Modelo booleano

 Modelo Espaço Vetorial

 Modelo Probabilista

(11)

Modelo Booleano

Representação

Documentos:



Conjunto de Termos selecionadas na

indexação

Consulta:



Expressão lógica booleana constituída por

Termos conectados por operadores booleanos

(AND, OR, AND NOT)



Exemplos:

 informação AND recuperação

 informação OR documento

(12)

Modelo Booleano

Função de Busca

Relevância “binária”:

 O documento é considerado relevante se e somente se seu

“casamento” com a consulta é verdadeiro, isto é se o valor verdade da consulta se torna verdadeiro para aquele

documento.

 Não é possível ordenar os documentos recuperados

Exemplo de consulta

Consulta

t₁AND t₂ AND t₃

Documentos apresentados ao usuário

t₁t₂

t₃

Base de

(13)

Modelo Booleano

Vantagens

 Modelo simples baseado em teoria bem

fundamentada: teoria dos conjuntos

 Fácil de entender e implementar em computador

Desvantagens

 Não permite casamento parcial entre consulta e

documento

 Assume independência entre os termos usados na

indexação

 Q1: professor ; Q2: professores ; Resultados das consultas q1 e q2 são diferentes

 Não permite ordenação dos documentos recuperados  A necessidade de informação do usuário deve ser

expressa em termos de uma expressão booleana  Alternativa: Uso de expressões como “todos os termos”, “qualquer termo” e

(14)

Operadores AND e OR

substituídos por “Todas as palavras” e “algumas das palavras”

(15)

(16)

Modelo Espaço Vetorial

Representação do documento e da consulta

Cada termo constitui um

eixo de um espaço

vetorial

Consultas (q) e documentos (d) são

representados como vetores nesse espaço

n-dimensional

Olimpíadas Brasil Sidney d 0.2 0.5 0.3 q

Brasil Olimpíada Sidney Consulta q :

Documento d :

Brasil em Sidney 2000

O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000 ...

Brasil 0.4 Olimpíada 0.3 Sidney 0.3

Brasil 0.5 Olimpíada 0.3 Sidney 0.2

Representação de q

(17)

Modelo Espaço Vetorial

Função de busca

O modelo ordena os documentos recuperados de acordo com sua similaridade em relação à consulta

 Similaridade pode ser medida pelo co-seno do ângulo

entre q e d:

 função inversamente relacionada ao ângulo entre os documentos

 Quanto menor é o ângulo entre os documentos, maior o

co-seno e maior é a similaridade entre d e q

 Varia entre 0 e 1

 Independe do tamanho do vetor, considera apenas sua direção

K2

K1 _d

q

(18)

Modelo Espaço Vetorial

Vantagens

 Pesos não-binários associados a termos permitem

casamento parcial dos documentos com a consulta

 Ordena documentos de acordo com o grau de

similaridade com a consulta Desvantagens:

 Assume independência entre os termos usados na

indexação

 q1 = professor

 q2 = professores

 Resultados das consultas q1 e q2 são diferentes

 É menos intuitivo que o modelo booleano.

 Privilegia documentos pequenos no topo da lista de

(19)

(20)

20

Exercício

Utilize os seguintes mecanismos de busca

para buscar documentos sobre sobre o tema:

indexação automática por sintagmas

nominais.

 A) Scielo  B) Google

(21)

21

Recuperação de Informação na Web

World Wide Web (WWW ou Web)

 Desenvolvida por Tim Berners-Lee em 1989 como

um serviço da Internet (Rede mundial de computadores).

 Criada inicialmente como um sistema de

comunicação para compartilhar informação científica entre centros de pesquisa e

universidades.

 Constitui-se em um sistema documental de fácil

publicação e acesso a documentos hipertexto.

 Os documentos hipertexto são documentos

textuais que podem referenciar a outros por meio de ligações denominadas links.

 Se constituem em unidades de informação na Web, sendo

(22)

22

Recuperação de Informação na Web

Características da web

 Esquema de endereçamento chamado Universal

Resource Locator (URL) para referenciar uma página

 Uma URL é o endereço de um arquivo acessível através da Internet

 Protocolo Hipertext Transfer Protocol (HTTP) para

transferência de um página através da URL da mesma.

 Linguagem de marcação Hypertext Markup Language

(HTML) para especificação da estrutura e apresentação da página como documento hipertexto.

 Esta linguagem possui um conjunto predefinido de códigos textuais denominadas tags usadas para definir componentes relacionados com os metadados, a estrutura e aparência do texto, as ligações (links) entre páginas, e a inclusão de

arquivos de imagem, áudio e vídeo.

 São visualizadas via softwares denominados navegadores ou

(23)

23

Recuperação de Informação na Web

Características das páginas web

 Grande volume de documentos, documentos em

diversas línguas, com endereço volátil e conteúdos atualizados assincronamente e muitos conteúdos são redundantes, imprecisos e mal escritos.

 O fato de uma página poder apontar para outra página

pressupõe algum tipo de relação entre os conteúdos dessas páginas, que pode ser por tratar do mesmo assunto ou aspecto especial do assunto, por uma questão de origem institucional, de autoria etc.

 Útil para o agrupamento conceitual de páginas

 Os links tem natureza unidirecional, não havendo

controle da página referenciada sobre quais páginas tem link para ela, e formam redes de citações.

(24)

24

Recuperação de Informação na Web

Realizada através de SRIs especializados

denominados “mecanismos de busca” (search engines)

 O corpus é composto de páginas na Web, embora a

maioria das páginas na Web não são indexadas (a estimativa é que apenas 10% das páginas são

indexadas)

 Permitem ao usuário submeter uma expressão de

busca e recuperar uma lista ordenada de endereços de páginas com trechos (extratos) dos documentos

contendo termos da busca e presumivelmente relevantes à necessidade de informação.

 Utilizam variações do Modelo Espaço Vetorial para

recuperação de informação.

 Incorporam no cálculo de relevância a popularidade

(25)

25

Recuperação de Informação na Web

Historicamente, recuperação por:

 Endereço – Archie, 1990

 Metadados e diretórios criados por especialistas –

Yahoo, 1994

 Texto completo e meta tags do HTML (title,

description, e keywords) – Google, 1998

 Dados de uso dos usuários (cliques, expressões de

busca, localização) sendo usados para prover recursos de busca – Google 2005.

 Integração com Wikipedia para respostas do tipo

O que é ...? – Google 2012 (knowledge graph).

(26)

26

Recuperação de Informação na Web

Principais mecanismos de busca



www.yahoo.com.br



David Filo e Jerry Yang, 1994.

Atualmente utiliza o índice do Bing.



www.google.com.br

.



Larry Page e Sergey Brin, 1998.



www.bing.com.br

(27)

27

Mecanismo de Busca: arquitetura

Interface Motor de consulta

Coletor

(28)

28

Construção de índice

Os mecanismos de busca geram índices para busca Pelo caráter dinâmico da Web, esses índices devem permanecer em constante processo de atualização

Páginas são criadas ou apagadas, mudam de URL, o conteúdo das páginas e links são

atualizados de forma descontrolada.

É utilizada a indexação automática das páginas web, devido ao grande volume de documentos, a diversidade dos assuntos e linguagem dos

(29)

29

Construção de índice

A criação do índice é realizada em duas etapas:

1.

Seleção de endereços de páginas (URLs)

•

Programas chamados robôs (spiders,

crawlers, robots) partem de uma lista inicial de URLs, fazem download das

páginas, extraem os links das mesmas e adicionam as URLs extraídas à lista para processamento, removendo as duplicatas e os que apontam para páginas que não existem mais.

2.

Indexação automática do conteúdo das

(30)

30

Indexação Automática

Indexação automática do conteúdo das páginas

Embora não revelem exatamente quais, os mecanismo de busca fazem uso das técnicas de indexação automática com base em operações de texto (análise léxica, eliminação de stopwords, radicalização, ...)

Para atribuir pesos diferentes a termos, fazem uso do tfidf e das tags para pontuar termos localizados em determinados campos como título (title, h1, h2, ...) ou destacados através da formatação (negrito, itálico, tamanho e cor da fonte,

texto de link ...)

Indexam também arquivos linkados que não são páginas, como arquivos pdf, imagens, etc.

(31)

31

Análise dos Links

A estrutura dos links entre as páginas é explorada para ranquear as páginas

PageRank Hits

(32)

32

Grafo web

Grafo web é um grafo direcionado, sem pesos e

desconectado tal que os nós representam as páginas web e as arestas representam um link conectando duas páginas;

O grafo web representa a estrutura topológica da Web;

Método:

• Se um link de uma página web A aponta para uma

(33)

33

(34)

34

Page Rank

Mede a popularidade ou autoridade de uma página proporcional ao número de links recebidos de outras páginas populares.

(35)

35

Page Rank

Vantagem:

Mede autoridade da página independente da consulta

(36)

36

Google Rank

Execução de uma Consulta:

1. O usuário pelo navegador faz uma consulta utilizando um conjunto de palavras-chave;

2. O módulo Recuperador seleciona as páginas web mais similares com a consulta (que contêm algumas das palavras-chaves);

3. O módulo Ordenador utiliza o resultado do PageRank no grafo web, a similaridade textual e outras características para

determinar as ordenação das páginas, iniciando pela página mais relevante;

(37)

37

Busca

A estrutura do índice e a função de busca (algoritmo de

ordenamento) são os principais elementos da arquitetura de um mecanismo de busca para seu funcionamento.

Para os usuários, entretanto, é mais importante a interface para especificação da busca e exame dos resultados, pois é por meio dela que é possível interagir com o sistema formulando e

reformulando as expressões de busca, e examinando e filtrando os documentos retornados.

Geralmente é disponibilizado duas interfaces para especificação da expressão de busca: pesquisa básica; e pesquisa avançada.

(38)

38

Busca

Na pesquisa básica é apresentada uma caixa de texto na qual o usuário digita palavras ou frases (delimitadas por aspas) que resumam sua necessidade de informação

(39)

39

Busca

Na pesquisa avançada é apresentado um formulário na qual o usuário preenche campos digitando palavras ou expressões ou seleciona opções pré-estabelecidas que resumam sua

necessidade de informação

(40)

40

(41)

41

Resultado da Busca

O resultado da busca geralmente é apresentado como uma lista ordenada de endereços de páginas (URLs).

As primeiras páginas listadas são consideradas pelo sistema como mais relevantes à necessidade de informação do

usuário. Isto é imprescindível para o usuário devido ao grande número de documentos recuperados.

Os métodos (algoritmos) de ordenação não são

divulgados abertamente mas levam em conta critérios como a atribuição de maior peso para palavras: que são menos comuns na web, que aparecem em

(42)

42

Resultado da Busca

(43)

43

(44)

44

Knowledge Graph

(Painel do

Conhecimento)

https://www.google.com/intl/pt-BR_ALL/insidesearch/features/search/knowledge.html

Grafo de entidades (pessoas, organizações, lugares, objetos e eventos) e relações entre entidades.

Google obtém dados da wikipedia, freebase, e outros repositórios de dados vinculados abertos (Linked

data) para gerar o knowledge graph.

Bing anunciou o uso de knowledge graph baseado na enciclopédia britânica.

Facilita a busca de usuários iniciantes. Direcionado ao

(45)

45

Personalização da busca

Atualmente, a personalização nas buscas se baseia em fatores como:

 a localização

 histórico de navegação

 afinidade com o tipo de aplicativos instalados no

dispositivo que realiza a pesquisa Novos fatores:

(46)

46

Links

List of Search Engines:

http://www.thesearchenginelist.com/

Page Rank: http://en.wikipedia.org/wiki/PageRank

RI no Google

 https://www.google.com/intl/pt-BR_ALL/insidesearch/howsearchworks/ 

https://static.googleusercontent.com/media/www.google.com/pt-BR//insidesearch/howsearchworks/assets/searchInfographic.pdf

 https://www.ted.com/talks/larry_page_where_s_google_going_ne

xt?language=pt-br

Scielo – Interface de busca: http://www.scielo.br/

Google – Interface de buca: http://www.google.com.br/

Solr – software livre para criação de SRIs

(47)

47

Exercício

Utilize os seguintes mecanismos de busca para

buscar documentos sobre sobre o tema: indexação automática por sintagmas nominais.

 A) Bing  B) Google  C) Yahoo

Explicite a expressão de busca utilizada (deve ser a mesma para todos), e os respectivos: número total de documentos

retornados e os recursos de filtragem dos resultados oferecidos. Faça uma comparação do conjunto dos 5 primeiros resultados das buscas retornados por cada um. Aponte diferenças e

(48)

48

Referências

BAYEZA-YATES, RIBEIRO-NETO. Recuperação de

Informação. Bookman: 2013. (Capítulo 9)

FERNEDA, E. Introdução aos modelos

computacionais de recuperação de informação. Rio de Janeiro: Ciência Moderna, 2012. (Capítulo 12)

FEITOSA, A. Organização da informação na