Recuperação de Informação na Web
•Baeza-Yates e Ribeiro-Neto, Modern Information Retrieval, Cap. 13 •Informação online sobre motores de pesquisa e outras ferramentas
Recuperação de informação na Web
• Características da Web
– grande volume de informação – multimédia
– heterogénea
• Restrições actuais da recuperação
– centrada em texto e orientada pela sintaxe – baseada em índices previamente construídos
• Formas de pesquisa
Problemas com os dados disponíveis
• Distribuição
– Ligações com topologia e fiabilidade desconhecidas
• Volatilidade
• Grande volume
• Dados desestruturados e redundantes
– não há modelo subjacente e muitos dados são réplicas
• Qualidade difícil de avaliar
– ausência de processo editorial
• Dados heterogéneos
– media, formatos, linguagens, alfabetos
Problemas na interacção dos utilizadores
• Especificação de interrogações
– termos adequados para caracterizar o pedido
• Uso de respostas
– volume de informação – ordenação de documentos
– visualização de documentos extensos
Dimensão da Web
• Servidores– ~8,5 milhões estimados em 2001
• (dados http://wcp.oclc.org/)
– ~38 milhões activos em Fevereiro de 2002
(dados http://www.netcraft.com/Survey/)
– ~150 milhões registados em Janeiro de 2002
(dados: Internet Software Consortium http://www.isc.org/) • Páginas
• Estimativas baseadas no número de servidores
• 1 ordem de grandeza acima do número de servidores
• Maiores sites (1%) contribuem com 50% das páginas
• Ligações entre páginas
• menos de 10 para as páginas mais comuns • ligações para fora do próprio site são raras
• Língua - mais de 70% inglês
Motores de pesquisa
• Arquitectura robot+indexador– robot é software que percorre a Web e envia páginas ao servidor central para indexar
– percorrer a Web significa enviar pedidos de páginas e seguir as suas ligações
• Problemas
– manter índices actuais apesar do crescimento dos dados e das limitações nas comunicações
– equilibrar actividades de busca, indexação e resposta
• Tipos de motores
Popularidade de motores- Jan 2002
http://www.searchenginewatch.com/reports/mediametrix.html
(US; amostragem; visitantes do serviço no mês)
Popularidade de motores- Dez 2001
http://www.searchenginewatch.com/reports/netratings.htmlMotores de pesquisa
• Arquitectura distribuída
– “gatherer” recolhe informação e actualiza-a periodicamente – “broker” constrói e actualiza índices com base nos dados
obtidos de “gatherers” e de outros “brokers” – “broker” pode especializar-se por tópico
– 1 “broker” dedicado a registar “gatherers” e “brokers”
• Economia de recursos
– “gatherer” pode operar localmente num site e enviar dados a diversos “brokers”
Interfaces para o utilizador
• Interrogação
– Lista de termos é base da interrogação
• variantes na forma de combinar termos- OR, AND
• variantes nas possibilidades de radicalizar, ignorar palavras comuns, ignorar maiúsculas
– Perguntas avançadas permitem usar critérios de filtragem
• linguagem, datas, proveniência, termos obrigatórios e excluídos, …
• Resposta
Ordenação
• Mais comum: variantes dos modelos Booleano e Vectorial • Alternativas
– Boolean-spread, vector-spread - incluem páginas apontadas pelas da resposta ou que apontam para as da resposta
– most-cited - ordem baseada nos termos que constam de páginas que apontam para as páginas da resposta
• Informação valiosa: estrutura de ligações
– número de ligações elevado a uma página- autoridade – número de ligações elevado de uma página- “hub”
– realimentação: as melhores autoridades são apontadas por bons “hubs” e os melhores “hubs” apontam para boas autoridades
– ligações em comum- relação entre páginas
Crawlers: construção de índices
• Lançar recolha– usando conjunto de páginas populares ou submetidas pelos interessados
• Progredir
– em profundidade explorando ligações recursivamente
– em largura explorando todas as ligações de uma página antes das das suas sucessoras
• Crawler pode saturar servidor
– normas para o comportamento de visitantes podem ser configuradas no servidor
• Dificuldades de indexação
– páginas protegidas por chave
Indexação
• Índices são variantes de ficheiros invertidos– construídos sobre a vista lógica do documento – a cada termo corresponde conjunto de páginas
• Descrição de página
– Título, URL, data, tamanho, cabeçalhos
• Tamanho dos índices
– menos de 30% do ficheiro original
• 150Gb para 100 milhões de páginas
– com compressão pode chegar a 10%
• Índices mais completos: obter posição do termo no documento • Procura sobre os índices
– pesquisa binária para cada termo – combinação de resultados
• Refinamentos na procura sobre os índices
– procura por prefixo de palavra e procura acomodando erros
Browsing
• Directórios
– menos quantidade de informação
– organização de informação suportada por pessoas – refrescamento frequente
– Quando se encontra tema procurado, informação é útil
• Problemas
– categorização e organização de hierarquias
Meta-pesquisadores
• Sobreposição de índices dos vários motores é baixa– Menos de 1% das páginas indexadas são comuns
• (estudo de 1998, sobre AltaVista, HotBot, Excite, Infoseek) • Interface comum para vários motores
– Tradução da pergunta para linguagens diversas – Ranking dos resultados por novos critérios – Combinação de resultados
• O que podem explorar
– critérios de selecção atendendo à simultaneidade – refinamento sobre as respostas
• buscar documentos e reavaliá-los