• Nenhum resultado encontrado

Análise Estatística e Topológica do Webgraph

N/A
N/A
Protected

Academic year: 2021

Share "Análise Estatística e Topológica do Webgraph"

Copied!
47
0
0

Texto

(1)

Análise Estatística e Topológica 

do Webgraph

Luciana Salete Buriol

Grupo de algoritmos: estudos no Webgraph Coordenação: Prof. Dr. Stefano Leonardi Universidade de Roma “La Sapienza”

(2)

Webgraph

 O Webgraph é o grafo direcionado gerado pela  estrutura de links das páginas web. 

 cada página web é um vértice

 cada hyperlink entre páginas é um arco direcionado.

(3)

Sumário

 Motivação  Extração, armazenamento e compactação do grafo  Características topológicas e propriedades do grafo  Algoritmos de classificação  Bases de dados alternativas  Algoritmos de acesso à memória secundária  Algoritmos de Data Stream  Conclusões

(4)

Motivações

Grande dimensão

: atualmente possui mais de 

24 bilhões de vértices e 360 bilhões de arcos

 1998: 24 milhões de páginas  1999: 200 milhões  2003: 3.5 bilhões de páginas  2005: 11.5 bilhões de páginas  2006: 24 bilhões de páginas

(5)

Motivações

 É o grafo utilizado por ferramentas de busca para  classificação das páginas web  Não possui controle de expansão  Não se assemelha a outras redes  Diversidade de tópicos, estilos e línguas

(6)

Coleta das páginas

 A coleta das páginas é realizada por uma máquina  de busca (web crawler)  Faz a busca a partir de um conjunto de páginas  iniciais  Após extrair a página, identifica seus links Página  Web

(7)

Coleta das páginas

 É preciso possuir links entrantes para ser coletada  Uma máquina de busca de grande dimensão deve:  Identificar eficientemente páginas já extraídas  Processar em paralelo  Usar banda de rede limitada  Usar a política da “boa educação”

(8)

Coleta das páginas

 Problemas práticos:

 Tempo  x  espaço.  Ex:  42  milhões  de  páginas  html  do 

domínio italiano, tendo em média 10 KB por página. Espaço  400 GB: 1.33 discos de 300GB  24 bilhões de páginas: mais de 200  discos. Tempo  Banda disponível: 2 Mbps  3 pontos de coleta  5.5 milhões de páginas por dia  8 dias executando

(9)

Coleta das páginas

 As  máquinas  de  busca  mais  conhecidas  na  literatura: 

 WIRE: Universidade do Chile

 UbiCrawler: Universidade Estadual de Milão;

Nutch  (www.nutch.org):  USA,  implementado  em  Java, 

fácil instalação e utilização, opções para usuário

 As  máquinas  de  busca  comerciais,  como  Google,  Alta Vista, não são de domínio público

(10)

Recuperação de Informação na 

Web

 Trata da representação, armazenamento,  organização e acesso à informação referente às  páginas web  R. Baeza­Yates e B. Ribeiro­Neto, Modern Information  Retrieval, 1999, www2.dce.ufmg.br/livros/irbook

(11)

Indexação

 Indexação Invertida: para cada palavra cria­se uma  referência a todos os arquivos que a contém  As palavras e páginas recebem IDs  São cerca de 100 milhões de palavras indexadas  MG4J (http://mg4j.dsi.unimi.it) e SMART  ( ftp://ftp.cs.cornell.edu/pub/smart) indexadores de  domínio público

(12)

Armazenamento do webgraph

 Armazenamento do webgrafo e/ou conteúdo das  páginas?  Uma página html sem figuras, tem tamanho médio  de 10 a 14 Kb  Representação do grafo: lista de adjacência  Dividido em vários arquivos e unidades de disco

(13)

Link Analysis

 Identificação da estrutura topológica do 

grafo

 Cálculo de diversas propriedades do grafo

 classificação das páginas web

(14)
(15)

Estrutura Macroscópica do 

Webgraph

(16)

Identificando OUT

(17)

Identificando IN

(18)

Identificando tentáculos e tubos

IN  tentáculos_IN

(19)
(20)

Webgraph do domínio .br

 Um novo retrato da web brasileira, M. Modesto, A.  Pereira, N. Ziviani, C. Castillos, R. Baeza­Yates,  2005 (Brasil + Chile)  domínio .br  7.7 milhões de páginas e 126 milhões de links  (média de 16 links por página)

(21)

Webgraph do domínio .br

 Média de 14,4 Kb por página. Anteriormente era de 9  Kb (Um retrato da web brasileira, Veloso et al, 2000)  6.4% das páginas são duplicadas

(22)

Webgraph do domínio .br

Idioma

 português 88,6%   inglês 11,2% e   espanhol 1,16%  Domínio:   91.1% com.br   2.7% org.br  0,3% edu.br  Extensão:   html: 97.92%  pdf: 0.88 %  doc: 0.48%

(23)

Propriedades Avançadas

 Cálculo do número de triângulos do grafo

 Cálculo do número de cliques bipartidos de 

pequena dimensão

 Cálculo do coeficiente de clustering

 ??

(24)

Comunidades Web emergentes

 Identifique todos cliques bipartidos de 

dimensão 3 ≤ i ≤ 10

 Para cada um, identifique a comunidade web 

a que pertence

(25)

Pagerank

 As páginas web são apresentadas em ordem 

decrescente de seu pagerank

 PageRank (PR) é um valor numérico que 

representa o quão importante uma página é

1/3 1/3 1/3  Simula o procedimento de um Internauta.  Seleciona uma página aleatória:  Repita até convergir:  Com probabilidade α  visita uma página vizinha  Com probabilidade 1­α visita outra página aleatória.  Em geral α = 0.15

(26)

PageRank: propagação do 

(27)

Cálculo do Pagerank

 PR(p): PageRank da página p  p1 … pn: n páginas que apontam para página p  D(p): grau de saída da página p  N: número total de páginas web do grafo PR p=PR p α.

{

PR p1 D p1 ... PR pnD pn

}

 1− α ∣N ∣ PR p=0,590,85.

{

0,32 D p1 0,17 D pn

}

 0,15 ∣N∣

(28)

Algoritmos de Classificação

 Outros alg. de classificação: HITs, Salsa,  ExpertRank  Avaliação:  Classificação adequada  Cálculo rápido  Estabilidade  Menos susceptível a link spamming

(29)

Pagerank Temporal 

 Pagerank considera somente o webgraph no cálculo  da classificação das páginas  Outros fatores podem ser considerados: idade da  página, número de atualizações e freqüência das  atualizações  Como considerar tais fatores?  Tema de interesse atual  Em 2004 apareceram as primeiras propostas de  algoritmos na literatura

(30)

Bases de Dados Alternativas

 Wikipedia www.wikipedia.org:   maior enciclopédia online do mundo  Cada artigo é um nó e cada hyperlink entre artigos é um  arco do grafo  Poucos links externos  Um grafo pode ser gerado para cada língua  Língua Inglesa: 1.250.000 nós (15 arcos por nó)  Possui informação temporal

(31)

Página Principal: 

www.wikipedia.org

(32)

Algoritmos de memória 

secundária

 O grafo não pode ser carregado em memória  principal, mas armazenado em memória secundária   Tratando­se de grafos de grande dimensão, quase  na totalidade os algoritmos não são executados em  memória principal  Algoritmos de memória principal, semi­externos e  de memória secundária  Buscam minimizar acesso a disco e o uso de seek()

(33)

Algoritmos de Data Stream

 algoritmos de aproximação baseados em 

probabilidade

 usam memória limitada;

 Originalmente: dados são lidos uma única vez 

em forma de stream

 Usam sketch ou amostragem

(34)

Algoritmos de data stream

 O webgrafo é lido como um stream de arcos  podem considerar estrutura de armazenamento  podem ler dados mais de uma vez  Usados para aproximar cálculo de propriedades  avançadas do webgraph. Já propostos: triângulos,  cliques bipartidos e coeficiente de clustering.

(35)

Contando o Número de 

Triângulos de um Grafo

• Dado um grafo G=(V,E), onde V e o conjunto de nós e E o  conjunto de arcos, considere todas as triplas de três nós ∈  V;

(36)

Contando o Número de 

Triângulos de um Grafo

 Melhores resultados anteriores por Yossef, Kumar e Sivakumar:  Reductions in Streaming Algorithms, with an Application to Counting  Triangles in Graphs, 2002

O

1

ε

3

.log

1

δ

.

1

T

1

T

2

T

3

3

.logn

O

1 ε2 .log

1 δ

.

1 T1T2 T3

• L. Buriol, G. Frahling, S. Leonardi, C. Soher, A. Marchetti, “Counting Triangles in Data  Streams”, PODS 2006

(37)

Compressão

 Níveis de compressão:  Conteúdo da página  URL da página  Webgraph  Usa técnicas especializadas que permitem grande  compressão e rápido acesso aos dados.

(38)

Observações levadas em 

consideração para compressão

 Consecutividade: muitos links num mesmo web site  são similares lexicograficamente. Ex:  http://my.sample.com/whitepaper/nodeA.html http://my.sample.com/whitepaper/nodeB.html  Localidade: cerca de 80% dos links são locais, ou  seja, apontam para páginas no mesmo domínio  Similaridade: Páginas do mesmo domínio tendem a  ter muitos links que apontam para as mesmas  páginas

(39)

Compressão das URLs

São ordenadas lexicograficamente e armazenadas com indicação  de similaridade + diferença em relação à precedente.

(40)

Lista de Adjacência em Código 

Delta

Lista Adj Vért

(41)

Lista de Adjacência em Código 

Delta

­3 = 101­104 (primeiro item)

Lista Adj Vért ices Lista Adj Vért ices

(42)

Lista de Adjacência em Código 

Delta

­3 = 101­104 (primeiro item)

42 = 174­132 (demais items)

Lista Adj Vért ices Lista Adj Vért ices

(43)

Compressão do Webgraph

Melhor compressão = (3.08 + 2.89) bits por arco:  Universidade Estadual de Milão  (http://webgraph.dsi.unimi.it)  Compressão vs. tempo de acesso  Acesso seqüencial e aleatório

(44)

Tópicos de Interesse

 evolução temporal do grafo: geração de 

grafos, propriedades e classificação.

 determinar como tais propriedades podem 

aprimorar as ferramentas de busca

 propor algoritmos de data stream para o 

cálculo de propriedades avançadas

 alg de memória secundária

(45)

Projeto de Pesquisa

 Luciana Buriol, Leila Ribeiro, Fernando Dotti, 

Viviane Orengo e Marcus Ritt

 Futura cooperação com o grupo de mineração 

e banco de dados?

Tópicos Especiais em Recuperação de 

Informações: Viviane, Leandro, Luciana

(46)

Conclusões

 Necessidade de integração de diversas áreas  Necessita de conhecimento geral, mas um  pesquisador em geral se especializa em sub­áreas  Probabilidade tem grande importância  Os estudos são recentes, de interesse atual, e ainda  carece de muita pesquisa  Muitos problemas de dimensões diversas

(47)

Contato

Luciana Salete Buriol

[email protected]

www.inf.ufrgs.br/~buriol

Os slides da palestra estão disponíveis na minha 

página

Referências

Documentos relacionados

Para tratamento de doença inflamatória pélvica: a dose recomendada de azitromicina IV, pó para solução para infusão, para o tratamento de pacientes adultos com

Todavia, há poucos trabalhos sobre interferência de herbicidas no crescimento da cultura; portanto, visando avaliar os efeitos de amicarbazone e diuron + paraquat, estes foram

mapeamento inclui, nesse sentido, uma mudança no modo como indivíduos percebem e lidam não apenas com estruturas espaciais da experiência imediata, mas também com a con��guração

If you want an access point to bridge wired Ethernet network and provide connection service for other wireless station at the same time, you have to set the access point to

Não poderá ser dispensado pela empresa, o empregado que contar com 05 (cinco) ou mais anos de serviço em seu estabelecimento, se na data da dispensa estiver a 24 (vinte

Morue du Chef / Bacalhau do Chefe (morue gratinée, sauce fruits de mer, purée) 22,50€ Morue à Braga / Bacalhau à Braga (morue frite, sauce tomate, oignons, pommes en rondelles)

Neste trabalho, foram analisados os resultados da qualidade da água bruta (turbidez e pH), a concentração de sólidos iniciais e finais dos processos de adensamento e

[r]