• Nenhum resultado encontrado

Análise Estatística e Topológica do Webgraph

N/A
N/A
Protected

Academic year: 2022

Share "Análise Estatística e Topológica do Webgraph"

Copied!
47
0
0

Texto

(1)

Análise Estatística e Topológica  do Webgraph

Luciana Salete Buriol

Grupo de algoritmos: estudos no Webgraph Coordenação: Prof. Dr. Stefano Leonardi

Universidade de Roma “La Sapienza”

(2)

Webgraph

 O Webgraph é o grafo direcionado gerado pela  estrutura de links das páginas web. 

cada página web é um vértice

cada hyperlink entre páginas é um arco direcionado.

 É um grafo esparso e desconexo

(3)

Sumário

 Motivação

 Extração, armazenamento e compactação do grafo

 Características topológicas e propriedades do grafo

 Algoritmos de classificação

 Bases de dados alternativas

 Algoritmos de acesso à memória secundária

 Algoritmos de Data Stream

 Conclusões

(4)

Motivações

 Grande dimensão: atualmente possui mais de  24 bilhões de vértices e 360 bilhões de arcos

1998: 24 milhões de páginas

1999: 200 milhões

2003: 3.5 bilhões de páginas

2005: 11.5 bilhões de páginas

2006: 24 bilhões de páginas

(5)

Motivações

 É o grafo utilizado por ferramentas de busca para  classificação das páginas web

 Não possui controle de expansão

 Não se assemelha a outras redes

 Diversidade de tópicos, estilos e línguas

(6)

Coleta das páginas

 A coleta das páginas é realizada por uma máquina  de busca (web crawler)

 Faz a busca a partir de um conjunto de páginas  iniciais

 Após extrair a página, identifica seus links

Página  Web

(7)

Coleta das páginas

 É preciso possuir links entrantes para ser coletada

 Uma máquina de busca de grande dimensão deve:

Identificar eficientemente páginas já extraídas

Processar em paralelo

Usar banda de rede limitada

Usar a política da “boa educação”

(8)

Coleta das páginas

 Problemas práticos:

Tempo  x  espaço.  Ex:  42  milhões  de  páginas  html  do  domínio italiano, tendo em média 10 KB por página.

Espaço

400 GB: 1.33 discos de 300GB

24 bilhões de páginas: mais de 200  discos.

Tempo

Banda disponível: 2 Mbps

3 pontos de coleta

5.5 milhões de páginas por dia

8 dias executando

(9)

Coleta das páginas

 As  máquinas  de  busca  mais  conhecidas  na  literatura: 

WIRE: Universidade do Chile

UbiCrawler: Universidade Estadual de Milão;

Nutch  (www.nutch.org):  USA,  implementado  em  Java,  fácil instalação e utilização, opções para usuário

 As  máquinas  de  busca  comerciais,  como  Google,  Alta Vista, não são de domínio público

(10)

Recuperação de Informação na  Web

 Trata da representação, armazenamento, 

organização e acesso à informação referente às  páginas web

R. Baeza­Yates e B. Ribeiro­Neto, Modern Information  Retrieval, 1999, www2.dce.ufmg.br/livros/irbook

(11)

Indexação

 Indexação Invertida: para cada palavra cria­se uma  referência a todos os arquivos que a contém

 As palavras e páginas recebem IDs

 São cerca de 100 milhões de palavras indexadas

 MG4J (http://mg4j.dsi.unimi.it) e SMART 

( ftp://ftp.cs.cornell.edu/pub/smart) indexadores de  domínio público

(12)

Armazenamento do webgraph

 Armazenamento do webgrafo e/ou conteúdo das  páginas?

 Uma página html sem figuras, tem tamanho médio  de 10 a 14 Kb

 Representação do grafo: lista de adjacência

 Dividido em vários arquivos e unidades de disco

(13)

Link Analysis

 Identificação da estrutura topológica do  grafo

 Cálculo de diversas propriedades do grafo

 classificação das páginas web

(14)

Distribuição do grau das páginas

(15)

Estrutura Macroscópica do  Webgraph

Graph structure in the Web, Broder et al, 2000

(16)

Identificando OUT

 SCC  OUT

(17)

Identificando IN

 SCC  IN

(18)

Identificando tentáculos e tubos

IN  tentáculos_IN

OUT  tentáculos_OUT 

(19)

Ilhas: nós restantes

(20)

Webgraph do domínio .br

Um novo retrato da web brasileira, M. Modesto, A. 

Pereira, N. Ziviani, C. Castillos, R. Baeza­Yates,  2005 (Brasil + Chile)

 domínio .br

 7.7 milhões de páginas e 126 milhões de links  (média de 16 links por página)

(21)

Webgraph do domínio .br

 Média de 14,4 Kb por página. Anteriormente era de 9  Kb (Um retrato da web brasileira, Veloso et al, 2000)

 6.4% das páginas são duplicadas

 41.7% das páginas são dinâmicas

(22)

Webgraph do domínio .br

 Idioma: 

português 88,6% 

inglês 11,2% e 

espanhol 1,16%

 Domínio: 

91.1% com.br 

2.7% org.br

0,3% edu.br

 Extensão: 

html: 97.92%

pdf: 0.88 %

doc: 0.48%

(23)

Propriedades Avançadas

 Cálculo do número de triângulos do grafo

 Cálculo do número de cliques bipartidos de  pequena dimensão

 Cálculo do coeficiente de clustering

 ??

(24)

Comunidades Web emergentes

 Identifique todos cliques bipartidos de  dimensão 3 ≤ i ≤ 10

 Para cada um, identifique a comunidade web 

a que pertence

(25)

Pagerank

 As páginas web são apresentadas em ordem  decrescente de seu pagerank

 PageRank (PR) é um valor numérico que  representa o quão importante uma página é

1/3 1/3

1/3

 Simula o procedimento de um Internauta.

Seleciona uma página aleatória:

Repita até convergir:

Com probabilidade α  visita uma página vizinha

Com probabilidade 1­α visita outra página aleatória.

 Em geral α = 0.15

(26)

PageRank: propagação do 

ranking

(27)

Cálculo do Pagerank

 PR(p): PageRank da página p

 p1 … pn: n páginas que apontam para página p

 D(p): grau de saída da página p

 N: número total de páginas web do grafo

PR p=PR pα.

{

PRDpp11... PRDppnn

}

1Nα

PR p=0,590,85.

{

D0,32p1 D0,17 pn

}

0,15N

(28)

Algoritmos de Classificação

 Outros alg. de classificação: HITs, Salsa,  ExpertRank

 Avaliação:

Classificação adequada

Cálculo rápido

Estabilidade

Menos susceptível a link spamming

(29)

Pagerank Temporal 

 Pagerank considera somente o webgraph no cálculo  da classificação das páginas

 Outros fatores podem ser considerados: idade da  página, número de atualizações e freqüência das  atualizações

 Como considerar tais fatores?

 Tema de interesse atual

 Em 2004 apareceram as primeiras propostas de  algoritmos na literatura

(30)

Bases de Dados Alternativas

 Wikipedia www.wikipedia.org: 

maior enciclopédia online do mundo

Cada artigo é um nó e cada hyperlink entre artigos é um  arco do grafo

Poucos links externos

Um grafo pode ser gerado para cada língua

Língua Inglesa: 1.250.000 nós (15 arcos por nó)

Possui informação temporal

(31)

Página Principal: 

www.wikipedia.org

(32)

Algoritmos de memória  secundária

 O grafo não pode ser carregado em memória 

principal, mas armazenado em memória secundária 

 Tratando­se de grafos de grande dimensão, quase  na totalidade os algoritmos não são executados em  memória principal

 Algoritmos de memória principal, semi­externos e  de memória secundária

 Buscam minimizar acesso a disco e o uso de seek()

(33)

Algoritmos de Data Stream

 algoritmos de aproximação baseados em  probabilidade

 usam memória limitada;

 Originalmente: dados são lidos uma única vez  em forma de stream

 Usam sketch ou amostragem

(34)

Algoritmos de data stream

 O webgrafo é lido como um stream de arcos

 podem considerar estrutura de armazenamento

 podem ler dados mais de uma vez

 Usados para aproximar cálculo de propriedades  avançadas do webgraph. Já propostos: triângulos,  cliques bipartidos e coeficiente de clustering.

(35)

Contando o Número de  Triângulos de um Grafo

• Dado um grafo G=(V,E), onde V e o conjunto de nós e E o  conjunto de arcos, considere todas as triplas de três nós ∈  V;

(36)

Contando o Número de  Triângulos de um Grafo

Melhores resultados anteriores por Yossef, Kumar e Sivakumar: 

Reductions in Streaming Algorithms, with an Application to Counting  Triangles in Graphs, 2002

O

ε13 .log

δ1

.

1 T1T3T 2

3.logn

O

ε12 .log

δ1

.

1T1TT3 2

• L. Buriol, G. Frahling, S. Leonardi, C. Soher, A. Marchetti, “Counting Triangles in Data  Streams”, PODS 2006

(37)

Compressão

 Níveis de compressão:

Conteúdo da página

URL da página

Webgraph

 Usa técnicas especializadas que permitem grande  compressão e rápido acesso aos dados.

(38)

Observações levadas em 

consideração para compressão

 Consecutividade: muitos links num mesmo web site  são similares lexicograficamente.

Ex:  http://my.sample.com/whitepaper/nodeA.html http://my.sample.com/whitepaper/nodeB.html

 Localidade: cerca de 80% dos links são locais, ou  seja, apontam para páginas no mesmo domínio

 Similaridade: Páginas do mesmo domínio tendem a  ter muitos links que apontam para as mesmas 

páginas

(39)

Compressão das URLs

São ordenadas lexicograficamente e armazenadas com indicação  de similaridade + diferença em relação à precedente.

Proposto em 1997 pelo Alta Vista: obtém redução de 70%.

(40)

Lista de Adjacência em Código  Delta

Lista Adj Vért

ices

(41)

Lista de Adjacência em Código  Delta

­3 = 101­104 (primeiro item)

Lista Adj Vért

ices

Lista Adj Vért

ices

(42)

Lista de Adjacência em Código  Delta

­3 = 101­104 (primeiro item) 42 = 174­132 (demais items)

Lista Adj Vért

ices

Lista Adj Vért

ices

(43)

Compressão do Webgraph

Melhor compressão = (3.08 + 2.89) bits por arco: 

Universidade Estadual de Milão  (http://webgraph.dsi.unimi.it)

 Compressão vs. tempo de acesso

 Acesso seqüencial e aleatório

(44)

Tópicos de Interesse

 evolução temporal do grafo: geração de  grafos, propriedades e classificação.

 determinar como tais propriedades podem  aprimorar as ferramentas de busca

 propor algoritmos de data stream para o  cálculo de propriedades avançadas

 alg de memória secundária

(45)

Projeto de Pesquisa

 Luciana Buriol, Leila Ribeiro, Fernando Dotti,  Viviane Orengo e Marcus Ritt

 Futura cooperação com o grupo de mineração  e banco de dados?

 Tópicos Especiais em Recuperação de 

Informações: Viviane, Leandro, Luciana

(46)

Conclusões

 Necessidade de integração de diversas áreas

 Necessita de conhecimento geral, mas um 

pesquisador em geral se especializa em sub­áreas

 Probabilidade tem grande importância

 Os estudos são recentes, de interesse atual, e ainda  carece de muita pesquisa

 Muitos problemas de dimensões diversas

(47)

Contato

Luciana Salete Buriol buriol@inf.ufrgs.br

www.inf.ufrgs.br/~buriol

Os slides da palestra estão disponíveis na minha 

página

Referências

Documentos relacionados

A finalidade do presente relatório é demonstrar, sinteticamente, as atividades do Lar de Tereza em 2009. De acordo com o Estatuto da Instituição, esta síntese é submetida

*No mesmo dia, saindo da sala do segundo ano, fomos a sala do primeiro ano, quando entramos os alunos já estavam em sala, depois de nos acomodarmos a professora pediu que

Até a década de 1980, a espécie foi intensivamente estudada em habitats com baixo grau de antropização, como o Pantanal matogrossense e os Llanos venezuelanos, regiões

candidaturas: as candidaturas devem ser efetuadas nos 10 dias úteis a contar a partir da data da presente publicação, em suporte de papel através do preenchimento de formulário

• Gatilho: Engatilhe para disparo, empurrando o tubo do gatilho para baixo (ou na direção da superfície da peça) até sentir que o corpo de impacto foi agarrado pela pinça interna

In the absence of detailed verification \sigmaR = 3 N/mm² can be assumed (\sigmaL equals the tensile stress within the concrete induced by external loads, anchors loads

A pesquisa teve como objetivo diagnosticar as características dos estudantes da primeira turma do curso de Eletromecânica da educação profissional de nível médio integrada

Uma vez que um Delegado não deve ficar por muito tempo sem um Suplente, o Delegado que assumiu pode solicitar ao Coordenador de Área, que indique um Suplente provisório, até que