• Nenhum resultado encontrado

O Grafo da Web e o Algoritmo de PageRank

N/A
N/A
Protected

Academic year: 2022

Share "O Grafo da Web e o Algoritmo de PageRank"

Copied!
20
0
0

Texto

(1)

O Grafo da Web e

o Algoritmo de PageRank

Marco A. Casanova

(Based on material available at http://www.mmds.org)

(2)

Referências

• Ravi Kumar , Prabhakar Raghavan , Sridhar Rajagopalan , D.

Sivakumar , Andrew S. Tomkins, Eli Upfal. “The Web as a graph”.

Proc. of the 19th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, Pages 1 – 10 (2000)

• Rajaraman, A.; Leskovec, J.; Ullman, J.D. Mining of Massive Datasets. Cambridge University Press (2019). ISBN:

9781107015357

– Available at http://www.mmds.org – Section 5.1 PageRank

2

(3)

Motivação

• Modelos baseados em grafos

– Abstrações de problemas centrais em computação

• Circuitos integrados, redes de comunicação de dados,…

– Abstrações para dados e seus relacionamentos

• A Web, Redes Sociais, Citações bibliográficas,…

• Problemas novos

– Alguns grafos são muito grandes!

• Indexação da Web: vários bilhões de páginas e links

• Indexação de chamadas telefônicas (quem telefonou para quem)

• Redes de sensores

(4)

O Grafo da Web

• Grafo da Web: W=(P,L)

P = Conjunto de nós

= Conjunto de páginas L = Conjunto de Arcos

= Conjunto de Links

(5)

O Grafo da Web

• Exemplos de problemas sobre o grafo da Web

– Tamanho

• Qual o número de nós e arcos?

• Qual o grau de entrada médio de uma página? Ou seja, Quantos links apontam em média para uma página?

– Conectividade

• Quais páginas estão linkadas entre si?

• Qual o número de clicks necessários para passar de uma página para uma outra página?

– Aplicações

• Como pesquisar e minerar dados na Web?

– Modelos

• O que o grafo da Web revela sobre processos sociais?

(6)

Configuração típica do grafo da Web

(7)

(Power Law)

Definição: Uma variável ou distribuição de probabilidade F(x) segue uma power law se e somente se

F(x) µ x-l para x > x0 onde l é chamado de expoente da power law

Exemplo de uma power law: ranking de popularidade

• Direita: cauda longa – grande número de ocorrências longe da parte central

• Esquerda: ocorrências que dominam o ranking

• (também conhecida como regra dos 80–20).

(8)

(Power Law)

• Exemplos

– Cours d’economie politique – Análise de citações

– Frequência de palavras em textos

– Zipf human behavior and the principle of least effort – …

(9)

(Power Law)

• Exemplos

– Cours d’economie politique [Pareto,1897]

– Análise de citações [Lotka, 1926]

– Frequência de palavras em textos [Yule, 1944]

– Zipf human behavior and the principle of least effort [Zipf, 1947]

– …

(10)

Estatísticas sobre o Grafo da Web

• Distribuição do grau de entrada (ou de saída) das páginas

– Segue uma power law

(11)

Estatísticas sobre o Grafo da Web

• Distribuição do tamanho das componentes conexas

– Segue uma power law

(12)

PageRank

• PageRank [Page et al. 1999]

– Algoritmo criado por Sergey Brin and Larry Page – Aproveita a estrutura de links da Web:

“páginas como mais links apontando para elas são mais importantes”

– Independe de buscas

(13)

PageRank

• PageRank [Page et al. 1999]

– Algoritmo criado por Sergey Brin e Larry Page – Aproveita a estrutura de links da Web:

“páginas como mais links apontando para elas são mais importantes”

– Independe de buscas

– Sucesso empresarial da Google

(14)

PageRank

• PageRank de uma página p

– soma dos page ranks das páginas que apontam para p,

dividido pelo número de links chegando em cada página de origem

(15)

PageRank

Modelo simples

– Vetor de Origem: representa uma nova estimativa do PageRange atual das páginas

– Vetor de Destino: representa uma nova estimativa do PageRange das páginas – Matriz de adjacência: representa o grafo da Web

• a linha da página P representa os hyperlinks saindo de P

(16)

PageRank

• Iterações do algoritmo PageRank

– A precisão do PageRank de cada página aumenta a cada iteração do algoritmo

– O algoritmo para após um “certo número” de iterações ou até que a precisão dos PageRanks seja suficiente

(17)

PageRank

• Iterações do algoritmo PageRank

– Envolvem estimar o vetor v do PageRank e computar a próxima estimativa v′, usando a equação

• β é uma constante ligeiramente menor do que 1

• e é um vetor de 1’s

• n é o número de nós

– Interpretação

• βMv representa o caso em que, com probabilidade β, o random surfer decide seguir um link de saída da página atual

• (1−β)e/n é um vetor com todos os componentes iguais a (1−β)/n e representa a introdução, com probabilidade 1 − β,

de um novo random surfer em uma página escolhida aleatoriamente

(18)

PageRank

• Convergência e escalabilidade do algoritmo PageRank

– o PageRank converge após um “certo número” de iterações – o PageRank escala para um número muito grande de páginas

• o fator de escalabilidade é aproximadamente linear em log(n)

(19)

O que vem a seguir?

• 5.2 Efficient Computation of PageRank

19

(20)

Further Reference

• Ravi Kumar , Prabhakar Raghavan , Sridhar

Rajagopalan , D. Sivakumar , Andrew S. Tomkins,

Eli Upfal. “The Web as a graph”. Proc. of the 19th ACM

SIGMOD-SIGACT-SIGART Symposium on Principles of

Database Systems, Pages 1 – 10 (2000)

Referências

Documentos relacionados

Nas reflexões feitas pela autora a origem do urbano decorre tanto do processo social quanto do político, mas foram as condições naturais (geográficas) em determinado momento

Os instrumentos de pesquisa utilizados serão: Ficha de Rastreamento das Participantes do Estudo, International Consultation on Incontinence Questionnaire – Short Form

- Para preparar os cristãos para isso, a Catequese deve velar por:. √√ - Situar claramente essa libertação na perspectiva integral, com abertura ao Absoluto -

Colares (2004) desenvolveu um estudo no Distrito de Irrigação Morada Nova com o objetivo de avaliar as eficiências de aplicação e de uso da água em algumas

Ante o exposto, defiro pedido liminar para suspender a realização das provas discursivas para o provimento de ingresso marcadas para o dia 23/3/2014 e determino que

A partir de la siguiente afirmación del autor: “el orden de aprendizaje no es isomorfo en relación con el orden de exposición del saber: el aprendizaje del saber no

Os substratos que demonstraram maiores IVG foram vermiculita e papel filtro, sendo que a vermiculita também propiciou maior porcentagem de germinação, indicando que esse substrato