Recuperação de Informação na Web. Recuperação de informação na Web

(1)

Recuperação de Informação na Web

•Baeza-Yates e Ribeiro-Neto, Modern Information Retrieval, Cap. 13 •Informação online sobre motores de pesquisa e outras ferramentas

Recuperação de informação na Web

• Características da Web

– grande volume de informação – multimédia

– heterogénea

• Restrições actuais da recuperação

– centrada em texto e orientada pela sintaxe – baseada em índices previamente construídos

• Formas de pesquisa

(2)

Problemas com os dados disponíveis

• Distribuição

– Ligações com topologia e fiabilidade desconhecidas

• Volatilidade

• Grande volume

• Dados desestruturados e redundantes

– não há modelo subjacente e muitos dados são réplicas

• Qualidade difícil de avaliar

– ausência de processo editorial

• Dados heterogéneos

– media, formatos, linguagens, alfabetos

Problemas na interacção dos utilizadores

• Especificação de interrogações

– termos adequados para caracterizar o pedido

• Uso de respostas

– volume de informação – ordenação de documentos

– visualização de documentos extensos

(3)

Dimensão da Web

• Servidores

– ~8,5 milhões estimados em 2001

• (dados http://wcp.oclc.org/)

– ~38 milhões activos em Fevereiro de 2002

(dados http://www.netcraft.com/Survey/)

– ~150 milhões registados em Janeiro de 2002

(dados: Internet Software Consortium http://www.isc.org/) • Páginas

• Estimativas baseadas no número de servidores

• 1 ordem de grandeza acima do número de servidores

• Maiores sites (1%) contribuem com 50% das páginas

• Ligações entre páginas

• menos de 10 para as páginas mais comuns • ligações para fora do próprio site são raras

• Língua - mais de 70% inglês

Motores de pesquisa

• Arquitectura robot+indexador

– robot é software que percorre a Web e envia páginas ao servidor central para indexar

– percorrer a Web significa enviar pedidos de páginas e seguir as suas ligações

• Problemas

– manter índices actuais apesar do crescimento dos dados e das limitações nas comunicações

– equilibrar actividades de busca, indexação e resposta

• Tipos de motores

(4)

Popularidade de motores- Jan 2002

http://www.searchenginewatch.com/reports/mediametrix.html

(US; amostragem; visitantes do serviço no mês)

Popularidade de motores- Dez 2001

http://www.searchenginewatch.com/reports/netratings.html

(5)

Motores de pesquisa

• Arquitectura distribuída

– “gatherer” recolhe informação e actualiza-a periodicamente – “broker” constrói e actualiza índices com base nos dados

obtidos de “gatherers” e de outros “brokers” – “broker” pode especializar-se por tópico

– 1 “broker” dedicado a registar “gatherers” e “brokers”

• Economia de recursos

– “gatherer” pode operar localmente num site e enviar dados a diversos “brokers”

Interfaces para o utilizador

• Interrogação

– Lista de termos é base da interrogação

• variantes na forma de combinar termos- OR, AND

• variantes nas possibilidades de radicalizar, ignorar palavras comuns, ignorar maiúsculas

– Perguntas avançadas permitem usar critérios de filtragem

• linguagem, datas, proveniência, termos obrigatórios e excluídos, …

• Resposta

(6)

Ordenação

• Mais comum: variantes dos modelos Booleano e Vectorial • Alternativas

– Boolean-spread, vector-spread - incluem páginas apontadas pelas da resposta ou que apontam para as da resposta

– most-cited - ordem baseada nos termos que constam de páginas que apontam para as páginas da resposta

• Informação valiosa: estrutura de ligações

– número de ligações elevado a uma página- autoridade – número de ligações elevado de uma página- “hub”

– realimentação: as melhores autoridades são apontadas por bons “hubs” e os melhores “hubs” apontam para boas autoridades

– ligações em comum- relação entre páginas

Crawlers: construção de índices

• Lançar recolha

– usando conjunto de páginas populares ou submetidas pelos interessados

• Progredir

– em profundidade explorando ligações recursivamente

– em largura explorando todas as ligações de uma página antes das das suas sucessoras

• Crawler pode saturar servidor

– normas para o comportamento de visitantes podem ser configuradas no servidor

• Dificuldades de indexação

– páginas protegidas por chave

(7)

Indexação

• Índices são variantes de ficheiros invertidos

– construídos sobre a vista lógica do documento – a cada termo corresponde conjunto de páginas

• Descrição de página

– Título, URL, data, tamanho, cabeçalhos

• Tamanho dos índices

– menos de 30% do ficheiro original

• 150Gb para 100 milhões de páginas

– com compressão pode chegar a 10%

• Índices mais completos: obter posição do termo no documento • Procura sobre os índices

– pesquisa binária para cada termo – combinação de resultados

• Refinamentos na procura sobre os índices

– procura por prefixo de palavra e procura acomodando erros

Browsing

• Directórios

– menos quantidade de informação

– organização de informação suportada por pessoas – refrescamento frequente

– Quando se encontra tema procurado, informação é útil

• Problemas

– categorização e organização de hierarquias

(8)

Meta-pesquisadores

• Sobreposição de índices dos vários motores é baixa

– Menos de 1% das páginas indexadas são comuns

• (estudo de 1998, sobre AltaVista, HotBot, Excite, Infoseek) • Interface comum para vários motores

– Tradução da pergunta para linguagens diversas – Ranking dos resultados por novos critérios – Combinação de resultados

• O que podem explorar

– critérios de selecção atendendo à simultaneidade – refinamento sobre as respostas

• buscar documentos e reavaliá-los