Escalonamento de Atualizações de Páginas Web Usando Programação

(1)

Escalonamento de Atualizac¸ ˜oes de

P áginas Web Usando Programaç ão

Gen ´etica

A ´ecio Solano Rodrigues Santos

Orientador: Nivio Ziviani

Departamento de Ci ência da Computaç ão Universidade Federal de Minas Gerais

(2)

Problema

I Web consiste em +30 trilh ˜oes de p ´aginas

Fonte: https://www.google.com/insidesearch/howsearchworks/thestory/

I M áquinas de busca armazenam c ópias da Web I C ópias locais devem ser atualizadas

I Recursos s ˜ao limitados

I Coletar p áginas que n ão mudaram é desperd´ıcio Atualizar p áginas com maior probabilidade de

(3)

Soluc¸ ˜ao Proposta

I Arcabouço baseado em aprendizado de m áquina I Uso de Programaç ão Gen ética:

I Gerar funç ões que atribuem scores para p áginas I Score de acordo com probabilidade de mudança

I Aprendizado de m ´aquina j ´a foi usado antes

I Classificaç ão em frequ ência de mudança I Agrupamento por comportamento de mudança

I Nenhum trabalho usou aprendizado para definir a

(4)

(5)

(6)

Objetivos e Desafios da Coleta

I Coverage – coletar uma grande parte das

p ´aginas dispon´ıveis na Web

I Freshness – manter c ´opias locais atualizadas I Quality – p ´aginas mais importantes devem ser

coletadas mais cedo

I User Experience – evitar mostrar p ´aginas que

n ˜ao existem mais ou s ˜ao irrelevantes

I Discoverability – descobrir rapidamente p ´aginas

(7)

Conceitos B ´asicos

&

(8)

(9)

(10)

Formas de Coleta

1. Batch Crawling

I Cada p ágina é coletada somente uma vez I N ão s ão necess árias p áginas atualizadas

2. Incremental Crawling

I P áginas s ão coletadas v árias vezes I E um processo cont´ınuo´

I Necessidade de p ´aginas atualizadas

(11)

Batch Crawling

I O objetivo ´e coletar p ´aginas mais importantes I Weighted Coverage (W C):

W C(t) = X

p∈C(t)

w(p)

I t ´e o tempo desde in´ıcio da coleta

I C(t) é o conjunto de p áginas coletado at ét I w(p) é a import ância da p áginap

(12)

Incremental Crawling

A cada ciclo, deve balancear duas ac¸ ˜oes:

1. Coletar p ´agina nova:

1.1 Aumenta cobertura (Coverage)

1.2 Prov ˆe links novos

I Melhora estimativa de import ância I Melhora detecç ão de spam

2. Atualizar p ´agina velha:

2.1 Aumenta freshness

2.2 Detecta remoç ão de p áginas

2.3 Prov ˆe links novos

(13)

Weighted Freshness

I Objetivo ´e maximizar p ´aginas atualizadas I Weighted Freshness (WF ):

WF (t) = X

p∈C(t)

w(p) · f (p, t)

I WF (t) – freshness do reposit ório no momentot I C(t) – conjunto de p áginas coletado at ét

I w(p)– import ˆancia da p ´aginap

(14)

Modelos de Freshness

Modelo Bin ´ario:

f (p, t) = 1 se p é igual à c ópia da Web

0 caso contr ´ario.

Modelos Cont´ınuos:

1. Idade

I Tempo que as c ´opias divergiram

2. Longevidade de Conte ´udo

I Quantidade de fragmentos atualizados

3. Centrado no usu ´ario

(15)

Pol´ıticas de Atualizac¸ ˜ao

I Modelo de Poison para mudanc¸a de p ´aginas

(Coffman et al., 1998)

I Estimadores de frequ ˆencia de mudanc¸a

(Cho e Garcia-Molina, 2003)

I Caso de web crawler: informac¸ ˜ao incompleta

I Clustering-based (Tan e Mitra, 2010)

I Amostras em n´ıvel clusters

I Caracter´ısticas est áticas e din âmicas I Probabilidades de mudança adaptativas

(16)

Pol´ıticas de Atualizac¸ ˜ao

I Sampling-based : amostras em n´ıvel de web site

(Cho e Ntoulas, 2002)

I Embarrassment-level: minimiza embarac¸amento

(Wolf et al., 2002)

I Classification-based : primeiros a usar conte ´udo

(Barbosa et al., 2005)

I User-centric: considera impacto nas buscas

(Pandey e Olston, 2005)

I Content longevity : minimiza conte ´udo incorreto

(17)

Programaç ão Gen ética (GP)

I T écnica para soluç ão de problemas baseada na

teoria da evoluç ão das esp écies (Koza, 1992)

I Heranc¸a biol ´ogica

I Evoluç ão gen ética de indiv´ıduos I Mutaç ão

I Cross-over

I Populaç ão é composta de indiv´ıduos I Indiv´ıduos s ão representados em árvores I Busca por soluç ões aproximadas em grandes

(18)

GP2C – Programaç ão Gen ética

para Coleta Incremental

(19)

(20)

Indiv´ıduos

I Combina informaç ões úteis para estimar de

probabilidade de uma p ´agina ter mudado

I Cada indiv´ıduo representa uma funç ão que d á

score para cada p ´agina

(21)

Terminais e Func¸ ˜oes

I Terminais:

n N úmero de vezes que a p ágina foi visitada X N úmero de mudanças nas n visitas

t N ´umero de ciclos desde a ´ultima visita

I Terminais extraidos dos baselines I Outros terminais podem ser utilizados I Func¸ ˜oes: +,−, /, ∗,log,pow, exp

(22)

Operaç ões Gen éticas: Crossover

(23)

Operaç ões Gen éticas: Mutaç ão

(24)

Operaç ões Gen éticas: Mutaç ão

(25)

(26)

(27)

Func¸ ˜ao de Fitness

I Funç ão de fitness avalia a qualidade da funç ão

de escalonamento

I Adotamos a m ´etrica Change Ratio:

Ci =

Dc_i Di

I D_i– # p ´aginas coletadas no ciclo i I Dc

i – # de p ´aginas coletadas que mudaram

(28)

Simulac¸ ˜ao de Coleta

I Utiliza dados coletados previamente para

determinar quando cada p ´agina mudou

I Coleta p áginas N_w vezes para obter informaç ões

b ´asicas

I Para cada ciclo dispon´ıvel:

1. Computa score de cada p ´agina usando indiv´ıduo

2. Seleciona p ´aginas de maior score

3. Usa dados para verificar se p ´agina mudou no ciclo

4. Computa Change Ratio do ciclo

(29)

(30)

Selec¸ ˜ao de Melhores Indiv´ıduos

I GP2C_Best – melhor indiv´ıduo conjunto treino I GP2C_Avg – considera m ´edia entre treino e

validaç ão, menos desvio padr ão

I GP2C_Sum – considera soma entre treino e

validaç ão, menos desvio padr ão

I Executado com v ´arias sementes aleat ´orias para

(31)

(32)

Baselines

I Consideradas melhores func¸ ˜oes que exploram

mudanc¸a de p ´aginas

I Estimador de frequ ˆencia de mudanc¸a

(Cho e Garcia-Molina, 2003) CG = − log n − X + 0.5 n + 0.5

I n – quantidade de visitas `a p ´agina

(33)

Baselines

I Probabilidade de mudanc¸a (Tan e Mitra, 2010)

ϕ = P r{T ≤ t} = 1 − eλpt λp = n X i=1 wi · Ii(p) I NAD:w₁= w₂= · · · = w_n = 1 n I SAD:w₁= w₂= · · · = w_n−1 = 0, w_n = 1 I AAD:w_i= Pni i=1i GAD:w = 2i−1

(34)

Dataset

I BRDC’12 – Brazilian Daily Crawl 2012 I Coletada usando InWeb Crawler

I Coleta em largura apartir de 15.000sites mais

populares de acordo com Alexa

I Seleç ão de sites usando amostra estratificada I P áginas de cada site escolhido aleatoriamente I Recoleta di ária de Setembro a Novembro/2012 I An álise de dados e remoç ão de anomalias I http://homepages.dcc.ufmg.br/ãeciosantos/datasets/brdc12

(35)

Dataset

BRDC’12 Dataset

Per´ıodo de monitoramento 57 dias

# de p ´aginas web 417.048

# web sites 7.171

# min p áginas web por site 1 # max p áginas web por site 2.336 M édia de p áginas por web site 58,15

(36)

Metodologia

I Validac¸ ˜ao cruzada com 5 folds

I 4 folds: Divididos em 2 para treino e validac¸ ˜ao I 1 fold: Teste

I M étrica de avaliaç ão: Change Ratio I Simulaç ão de coleta

I k igual 5% de p ´aginas do reposit ´orio I Ciclos de “warm-up” N_w = 2

I Teste t pareado com 95% de confianc¸a

(37)

Par ˆametros de GP

I Seleç ão de valores por “força bruta”

Par ˆametro Valor

Indiv´ıduos 300

Gerac¸ ˜oes 50

Selec¸ ˜ao de indiv´ıduos Torneio de tamanho 2

Crossover 90%

Reproduc¸ ˜ao 15%

Mutac¸ ˜oes 5%

Altura m ´axima de ´arvore 10

(38)

GP2C

Best

× GP2C

Avg

× GP2C

Sum

I Empate estat´ıstico na maioria dos dias

I GP 2C_Best melhor queGP 2C_Avg em 1 dias

(39)

GP2C

Best

Change Ratio das melhores func¸ ˜oes GP 2CBest

Fold Train set Validation set Test set

1 0,7093 0,7080 0,7035

2 0,7049 0,6981 0,7068

3 0,7180 0,7158 0,7118

4 0,7066 0,7088 0,7130

(40)

Exemplo de Func¸ ˜ao Gerada

I GP2C pode ser usado para entender melhor as

features

I Melhores funç ões geradas seguem um padr ão:

I Os terminais X etaparecem frequentemente I n n ˜ao impacta muito o resultado

I Exemplo de func¸ ˜ao simples gerada:

X ∗ t

(41)

GP2C

Best

× Baselines

I GP 2C_Best ´e superior na maioria dos ciclos

(42)

GP2C

Best

× Baselines

NAD AAD GAD CG Superior 22 27 49 50 Inferior 0 2 1 0

(43)

Change Ratio M ´edio

Pol´ıtica Fold 1 Fold 2 Fold 3 Fold 4 Fold 5 M ´edia

Rand 0.1853 0.1866 0.1855 0.1855 0.1853 0.1856 Age 0.2121 0.2139 0.2127 0.2135 0.2129 0.2130 NAD 0.6837 0.6936 0.6865 0.6941 0.6880 0.6892 SAD 0.5094 0.5189 0.5151 0.5237 0.5156 0.5165 AAD 0.6272 0.6425 0.6280 0.6424 0.6314 0.6343 GAD 0.5974 0.6074 0.5967 0.6057 0.6007 0.6016 CG 0.6399 0.6502 0.6377 0.6481 0.6435 0.6439 GP 2CBest 0.7035 0.7068 0.7118 0.7130 0.6937 0.7058 GP 2CSum 0.7033 0.7052 0.7114 0.7079 0.6760 0.7007

(44)

Uso em Coletor de Larga Escala

I O Processo GP2C deve ser executado off-line I A funç ão aprendida é usada on-line, em conjunto

com uma ordenaç ão para pegar as top-k p áginas

I N ão é vi ável realizar acessos aleat órios para

atualizar dados das p ´aginas

I Atualizac¸ ˜ao pode ser realizada em batches junto

com verificac¸ ˜ao de unicidade:

I Acumular p áginas coletadas em um buffer I Atualizar em uma única passada no reposit ório I Quando o crawler percebe que uma p ágina j á

(45)

Custo Computacional

I On-line:

I Custo de computar score: O( |R| ) I Ordenac¸ ˜ao: O( |R| × log |R| )

I Off-line:

I Tarefa mais cara é a simulaç ão de coleta:

O( No× |R| × log |R| )

I Quantidade de simulac¸ ˜ao de coletas realizadas:

(46)

Desempenho

I Tempo (s) de 5 folds (5 treinos + 5 validaç ões) I Coeficiente de variaç ão entre seeds é 1.5%

Seeds Fase 111 222 333 444 555 Total % T 43213 44321 44452 43095 44236 219316 99.624% V 161 149 196 142 171 819 0.372% T+V 43374 44470 44647 43237 44407 220136 99.996% Total 43375 44472 44649 43239 44409 220144 100.00%

(47)

Conclus ˜oes e Trabalhos Futuros

I Foi proposto um arcabouc¸o baseado em PG para

escalonamento de atualizaç ão de p áginas

I GP2C foi capaz de gerar funç ões t ão boas ou

melhores que baselines

I Caso novas caracter´ısticas sejam fornecidas,

novas func¸ ˜oes podem ser geradas facilmente

I Pode ser adaptado para considerar:

I Probabilidade de p ´agina ser exibida em buscas I Clique de usu ´arios

(48)

Conclus ˜oes e Trabalhos Futuros

I Estudar o uso do arcabouço para gerar funç ões

para coletar p ´aginas importantes mais cedo

I Balancear objetivos de coleta:

Coverage× Freshness

(49)

Contribuic¸ ˜oes

I Proposta do GP2C

I Primeiro a usar GP

I Oportunidades de trabalhos futuros I Soluç ão fl éxivel e vi ável

I Aplicaç ão do GP2C em atualizaç ão de p áginas I Avaliaç ão experimental do arcabouço

I Integrac¸ ˜ao em um web crawler de larga escala I Artigo submetido:

Learning to Schedule Web Page Updates Using Genetic Programming. SIGIR, 2013.

(50)

(51)

Escalonamento de Atualizac¸ ˜oes de

P áginas Web Usando Programaç ão

Gen ´etica

A ´ecio Solano Rodrigues Santos

Orientador: Nivio Ziviani

Departamento de Ci ência da Computaç ão Universidade Federal de Minas Gerais