Workload Characterization Practical Examples

(1)

Workload Characterization –

Practical Examples

1. “Analyzing Client Interactivity in Streaming Media”, C. Costa

et al., Proc. WWW 2004

2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM

SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.

2004

3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009 4. “Evidence of Quality of Textual Features on the Web 2.0”, F.

(2)

Workload Characterization –

Practical Examples

2004

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

Distribution of File Segment

Access Frequencies

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

(23)

Workload Characterization –

Practical Examples

2004

(24)

(25)

(26)

(27)

(28)

(29)

(30)

(31)

(32)

(33)

(34)

(35)

Workload Characterization –

Practical Examples

2004

3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009

4. “Evidence of Quality of Textual Features on the Web 2.0”, F. Figueiredo et al., Proc ACM CIKM 2009

(36)

Youtube

• Maior rede social de compartilhamento de vídeos do mundo • Vídeo Resposta

 permite uma interação entre os usuários através de vídeos

 um vídeo só pode ser resposta para um único outro vídeo em determinado momento

(37)

Poluição

• Vídeo Poluído

– vídeo resposta cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido

• Usuários Poluidores: agem maliciosamente na

tentativa de divulgar conteúdo

– Spammer

• promover o vídeo resposta: propagandas, pornografia, etc

– Promotor de vídeos

• promover o tópico: em geral vários vídeos respostas postados automaticamente

(38)

Exemplos de Spammers

Pornografia Propaganda

(39)

Exemplos de Promotores

(40)

Objetivo

É possível detectar uma fração

significativa dos

usuários poluidores

(spammers e/ou promotores) de forma

automatizada?

(41)

Abordagem Metodológica

1. Criação de uma coleção de testes com spammers, promotores de vídeos e usuários legítimos

– desafio: subjetividade para definição de vídeo poluído

2. Identificação de atributos capazes de distinguir usuários poluidores de usuários legítimos

– foco na detecção do usuário poluidor e não do vídeo poluído

3. Proposição de um mecanismo de detecção de usuários poluidores baseado nos atributos identificados

– baseado em uma algoritmo de classificação estado-da-arte

(42)

Coleta dos Dados

 Objetivo: coletar usuários

que participam de interações através de vídeos respostas

 Abordagem: coletar um

componente fracamente conectado inteiro

 segue as duas direções: vídeos respostas e vídeos

respondidos

 essencial para o cálculo de diversas métricas de redes sociais

(43)

Arquitetura do Coletor

 Clientes coletam dados do

YouTube

 Servidor coordena clientes

para evitar coletas redundantes

 Sementes: 100 usuários donos

dos vídeos mais respondidos do YouTube

 Foram coletadas em 7 dias (de 11 a 18 de janeiro de 2008):  701.950 vídeos respostas

 381.616 vídeos respondidos

(44)

Coleção de Testes

1. Usuários com diferentes níveis de atividades – 400 usuários selecionados aleatoriamente

das 4 regiões do gráfico ao lado

2. Busca manual por poluidores (promotores) – busca por suspeitos na lista dos vídeos

mais respondidos do YouTube

– 153 usuários suspeitos encontrados

3. 300 usuários selecionados aleatoriamente entre os que responderam aos vídeos mais respondidos

– reduzir algum possível viés introduzido pela estratégia 2 • Total: 855 usuários • 641 legítimos • 157 spammers • 31 promotores de vídeos • 26 suspensos

(45)

Características dos Usuários

 Vídeos exibidos, em média, mais de 100 vezes:

 97% dos usuários legítimos 90% dos spammers  4% dos promotores de vídeos

Vídeo-respostas e Vídeo Respondidos

(46)

Características dos Usuários

• Promotores visam vídeos com poucas avaliações enquanto spammers visam vídeos mais bem avaliados

• Legítimos representam um meio termo

(47)

Características dos Usuários

• Possuem mais que 10 amigos:

– 75% dos usuários legítimos

(48)

Características dos Usuários

 Usuários legítimos têm um UserRank mais alto do que spammers;  Spammers têm UserRank mais alto do que promotores de vídeos

(49)

Detecção de Poluidores

• Mecanismo de detecção de poluidores

–

Abordagem de aprendizagem de máquina

(inteligência artificial) para classificação dos

usuários

–

SVM (Support Vector Machine)

• Algoritmo de classificação bastante

conhecido por seu desempenho competitivo

com o estado da arte

(50)

Detecção de Poluidores

• Atributos (60 no total)

– Usuários

• número de vídeos, amigos, vídeos assistidos, vídeos

adicionados como favoritos, vídeos respostas enviados e recebidos, total de inscrições e inscritos, número máximo de vídeos enviados em um dia

– Vídeos

• média e total para 3 grupos: todos os vídeos do usuário, apenas os vídeos respostas e todos os vídeos alvos

• duração, número de exibições, avaliações, comentários, favoritos, menções honrosas e elos externos

– Redes Sociais

• coeficiente de clusterização, UserRank, betweeness, reciprocidade e assortatividade

(51)

Detecção de Poluidores



Com 95% de confiança, nenhum resultado

(52)

Workload Characterization –

Practical Examples

2004

3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009

4. “Evidence of Quality of Textual Features on the Web 2.0”, F. Figueiredo et al., Proc ACM CIKM 2009

(53)

Motivation



Web 2.0



Huge amounts of multimedia content



Information Retrieval



Mainly focused on text (i.e. Tags)



User generated content



No guarantee of quality

(54)

(55)

(56)

(57)

(58)

Textual Features

Multimedia Object

(59)

Textual Features

(60)

Textual Features

TITLE

(61)

Textual Features

Multimedia Object TITLE DESCRIPTION TAGS

(62)

Textual Features

Multimedia Object TITLE DESCRIPTION TAGS COMMENTS

(63)

Textual Features

Textual

Features

TITLE DESCRIPTION TAGS COMMENTS

(64)

Research Goals



Characterize evidence of quality of textual

features



Usage



Amount of content



Descriptive capacity

(65)

Research Goals



Characterize evidence of quality of textual

features



Usage



Amount of content



Descriptive capacity



Discriminative capacity



Analyze the quality of features for different IR

services (object classification and tag

recommendation)

(66)

Applications/Features



Applications



Textual Features

(67)

Data Collection



June / September / October 2008



CiteULike - 678,614 Scientific Articles



LastFM - 193,457 Artists



Yahoo Video! - 227,252 Objects



YouTube - 211,081 Objects



Object Classes



Yahoo Video! And YouTube - Readily Available

(68)

Research Goals



Characterize evidence of quality of textual

features



Usage



Amount of content



Descriptive capacity

(69)

Textual Feature Usage

Percentage of objects with empty features

(zero terms)

TITLE TAG DESC. COMM.

CiteULike 0.53% 8.26% 51.08%

_99.96%

LastFM 0.00%

_18.88%

53.52% 53.38%

YahooVid. 0.15%

_16.00%

1.17%

_96.88%

Youtube 0.00% 0.06% 0.00% 23.36%



Restrictive features more present



Tags can be absent in 16% of content

(70)

Research Goals



Characterize evidence of quality of textual

features



Usage



Amount of content



Descriptive capacity

(71)

Amount of Content

Vocabulary size (average number of unique

stemmed terms) per feature

CiteULike 7.5 4.0 65.2 51.9

LastFM 1.8 27.4 90.1 110.2

YahooVid. 6.3 12.8 21.6 52.2

Youtube 4.6 10.0 40.4 322.3



TITLE < TAG < DESC < COMMENT

Restrictive Collaborative

(72)

Amount of Content

Vocabulary size (average number of unique

stemmed terms) per feature

CiteULike 7.5 4.0 65.2 51.9

LastFM 1.8 27.4 90.1 110.2

YahooVid. 6.3 12.8 21.6 52.2

Youtube 4.6 10.0 40.4 322.3

Collaboration can increase vocabulary size

Restrictive Collaborative

(73)

Research Goals



Characterize evidence of quality of textual

features



Usage



Amount of content



Descriptive capacity



Discriminative capacity

(74)

Descriptive Capacity



Term Spread (TS)

(75)

Descriptive Capacity



Term Spread (TS)



TS(DOLLS) =2

(76)

Descriptive Capacity



Feature Instance Spread (FIS)



TS(DOLLS) =2



TS(PUSSYCAT) =2



FIS(TITLE) =

(TS(DOLLS) +

TS(PUSSYCAT)) / 2

= 4/2 = 2

(77)

Descriptive Capacity

Average Feature Spread (AFS) – Given by the

average FIS across the collection

TITLE

TAG DESC. COMM.

CiteULike

_1.91

1.62 1.12

-LastFM

_2.65

1.32 1.21 1.20

YahooVid.

_2.26

1.86 1.51

-Youtube

_2.53

2.07 1.72 1.12

(78)

Research Goals



Characterize evidence of quality of textual

features



Usage



Amount of content



Descriptive capacity

(79)

Discriminative Capacity



Inverse Feature Frequency (IFF)

(80)

Bad Discriminator

“video”

Discriminative Capacity



Inverse Feature Frequency (IFF)

(81)

Bad Discriminator

“video”

Good. “music”

Discriminative Capacity



Inverse Feature Frequency (IFF)

(82)

Bad Discriminator

“video”

Good. “music”

Great. “CIKM”

Noise. “v1d30”

Discriminative Capacity



Inverse Feature Frequency (IFF)

(83)

Average Inverse Feature Frequency (AIFF) –

Average of IFF across the collection

CiteULike 7.31

_7.59

7.02

-LastFM

_6.64

6.00 5.83 5.90

YahooVid.

_6.67

6.54 6.37

-Youtube

_7.12

7.00 7.73 6.64



(TITLE or TAG) > DESC > COMMENT

Discriminative Capacity

(84)

Several Other Analyses



Correlation between each metric of quality and object

popularity



Is feature quality higher in more popular objects?



Correlation between different quality metrics of the

same object



Do features that carry more content tend to have

higher descriptive power ?



Do features that have higher descriptive power also

have higher discriminative power ?



Content and information similarity across multiple

(85)

Research Goals



Characterize evidence of quality of textual

features



Usage



Amount of content



Descriptive capacity



Discriminative capacity



Analyze the quality of features for different

IR services (object classification and tag

recommendation)

(86)

(87)