• Nenhum resultado encontrado

Workload Characterization Practical Examples

N/A
N/A
Protected

Academic year: 2021

Share "Workload Characterization Practical Examples"

Copied!
87
0
0

Texto

(1)

Workload Characterization –

Practical Examples

1. “Analyzing Client Interactivity in Streaming Media”, C. Costa

et al., Proc. WWW 2004

2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM

SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.

2004

3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009 4. “Evidence of Quality of Textual Features on the Web 2.0”, F.

(2)

Workload Characterization –

Practical Examples

1. “Analyzing Client Interactivity in Streaming Media”, C. Costa

et al., Proc. WWW 2004

2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM

SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.

2004

3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009 4. “Evidence of Quality of Textual Features on the Web 2.0”, F.

(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)

Distribution of File Segment

Access Frequencies

(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23)

Workload Characterization –

Practical Examples

1. “Analyzing Client Interactivity in Streaming Media”, C. Costa

et al., Proc. WWW 2004

2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM

SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.

2004

3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009 4. “Evidence of Quality of Textual Features on the Web 2.0”, F.

(24)
(25)
(26)
(27)
(28)
(29)
(30)
(31)
(32)
(33)
(34)
(35)

Workload Characterization –

Practical Examples

1. “Analyzing Client Interactivity in Streaming Media”, C. Costa

et al., Proc. WWW 2004

2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM

SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.

2004

3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009

4. “Evidence of Quality of Textual Features on the Web 2.0”, F. Figueiredo et al., Proc ACM CIKM 2009

(36)

Youtube

• Maior rede social de compartilhamento de vídeos do mundo • Vídeo Resposta

 permite uma interação entre os usuários através de vídeos

 um vídeo só pode ser resposta para um único outro vídeo em determinado momento

(37)

Poluição

Vídeo Poluído

– vídeo resposta cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido

Usuários Poluidores: agem maliciosamente na

tentativa de divulgar conteúdo

Spammer

• promover o vídeo resposta: propagandas, pornografia, etc

Promotor de vídeos

• promover o tópico: em geral vários vídeos respostas postados automaticamente

(38)

Exemplos de Spammers

Pornografia Propaganda

(39)

Exemplos de Promotores

(40)

Objetivo

É possível detectar uma fração

significativa dos

usuários poluidores

(spammers e/ou promotores) de forma

automatizada?

(41)

Abordagem Metodológica

1. Criação de uma coleção de testes com spammers, promotores de vídeos e usuários legítimos

– desafio: subjetividade para definição de vídeo poluído

2. Identificação de atributos capazes de distinguir usuários poluidores de usuários legítimos

– foco na detecção do usuário poluidor e não do vídeo poluído

3. Proposição de um mecanismo de detecção de usuários poluidores baseado nos atributos identificados

– baseado em uma algoritmo de classificação estado-da-arte

(42)

Coleta dos Dados

 Objetivo: coletar usuários

que participam de interações através de vídeos respostas

 Abordagem: coletar um

componente fracamente conectado inteiro

 segue as duas direções: vídeos respostas e vídeos

respondidos

 essencial para o cálculo de diversas métricas de redes sociais

(43)

Arquitetura do Coletor

 Clientes coletam dados do

YouTube

 Servidor coordena clientes

para evitar coletas redundantes

 Sementes: 100 usuários donos

dos vídeos mais respondidos do YouTube

 Foram coletadas em 7 dias (de 11 a 18 de janeiro de 2008):  701.950 vídeos respostas

 381.616 vídeos respondidos

(44)

Coleção de Testes

1. Usuários com diferentes níveis de atividades – 400 usuários selecionados aleatoriamente

das 4 regiões do gráfico ao lado

2. Busca manual por poluidores (promotores) – busca por suspeitos na lista dos vídeos

mais respondidos do YouTube

– 153 usuários suspeitos encontrados

3. 300 usuários selecionados aleatoriamente entre os que responderam aos vídeos mais respondidos

– reduzir algum possível viés introduzido pela estratégia 2 • Total: 855 usuários • 641 legítimos • 157 spammers • 31 promotores de vídeos • 26 suspensos

(45)

Características dos Usuários

 Vídeos exibidos, em média, mais de 100 vezes:

 97% dos usuários legítimos 90% dos spammers  4% dos promotores de vídeos

Vídeo-respostas e Vídeo Respondidos

(46)

Características dos Usuários

• Promotores visam vídeos com poucas avaliações enquanto spammers visam vídeos mais bem avaliados

• Legítimos representam um meio termo

(47)

Características dos Usuários

• Possuem mais que 10 amigos:

– 75% dos usuários legítimos

(48)

Características dos Usuários

 Usuários legítimos têm um UserRank mais alto do que spammers;  Spammers têm UserRank mais alto do que promotores de vídeos

(49)

Detecção de Poluidores

Mecanismo de detecção de poluidores

Abordagem de aprendizagem de máquina

(inteligência artificial) para classificação dos

usuários

SVM (Support Vector Machine)

Algoritmo de classificação bastante

conhecido por seu desempenho competitivo

com o estado da arte

(50)

Detecção de Poluidores

Atributos (60 no total)

– Usuários

• número de vídeos, amigos, vídeos assistidos, vídeos

adicionados como favoritos, vídeos respostas enviados e recebidos, total de inscrições e inscritos, número máximo de vídeos enviados em um dia

– Vídeos

• média e total para 3 grupos: todos os vídeos do usuário, apenas os vídeos respostas e todos os vídeos alvos

• duração, número de exibições, avaliações, comentários, favoritos, menções honrosas e elos externos

– Redes Sociais

• coeficiente de clusterização, UserRank, betweeness, reciprocidade e assortatividade

(51)

Detecção de Poluidores

Com 95% de confiança, nenhum resultado

(52)

Workload Characterization –

Practical Examples

1. “Analyzing Client Interactivity in Streaming Media”, C. Costa

et al., Proc. WWW 2004

2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM

SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.

2004

3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009

4. “Evidence of Quality of Textual Features on the Web 2.0”, F. Figueiredo et al., Proc ACM CIKM 2009

(53)

Motivation

Web 2.0

Huge amounts of multimedia content

Information Retrieval

Mainly focused on text (i.e. Tags)

User generated content

No guarantee of quality

(54)
(55)
(56)
(57)
(58)

Textual Features

Multimedia Object

(59)

Textual Features

Multimedia Object

(60)

Textual Features

Multimedia Object

TITLE

(61)

Textual Features

Multimedia Object TITLE DESCRIPTION TAGS

(62)

Textual Features

Multimedia Object TITLE DESCRIPTION TAGS COMMENTS

(63)

Textual Features

Textual

Features

TITLE DESCRIPTION TAGS COMMENTS

(64)

Research Goals

Characterize evidence of quality of textual

features

Usage

Amount of content

Descriptive capacity

(65)

Research Goals

Characterize evidence of quality of textual

features

Usage

Amount of content

Descriptive capacity

Discriminative capacity

Analyze the quality of features for different IR

services (object classification and tag

recommendation)

(66)

Applications/Features

Applications

Textual Features

(67)

Data Collection

June / September / October 2008

CiteULike - 678,614 Scientific Articles

LastFM - 193,457 Artists

Yahoo Video! - 227,252 Objects

YouTube - 211,081 Objects

Object Classes

Yahoo Video! And YouTube - Readily Available

(68)

Research Goals

Characterize evidence of quality of textual

features

Usage

Amount of content

Descriptive capacity

(69)

Textual Feature Usage

Percentage of objects with empty features

(zero terms)

TITLE TAG DESC. COMM.

CiteULike 0.53% 8.26% 51.08%

99.96%

LastFM 0.00%

18.88%

53.52% 53.38%

YahooVid. 0.15%

16.00%

1.17%

96.88%

Youtube 0.00% 0.06% 0.00% 23.36%

Restrictive features more present

Tags can be absent in 16% of content

(70)

Research Goals

Characterize evidence of quality of textual

features

Usage

Amount of content

Descriptive capacity

(71)

Amount of Content

Vocabulary size (average number of unique

stemmed terms) per feature

TITLE TAG DESC. COMM.

CiteULike 7.5 4.0 65.2 51.9

LastFM 1.8 27.4 90.1 110.2

YahooVid. 6.3 12.8 21.6 52.2

Youtube 4.6 10.0 40.4 322.3

TITLE < TAG < DESC < COMMENT

Restrictive Collaborative

(72)

Amount of Content

Vocabulary size (average number of unique

stemmed terms) per feature

TITLE TAG DESC. COMM.

CiteULike 7.5 4.0 65.2 51.9

LastFM 1.8 27.4 90.1 110.2

YahooVid. 6.3 12.8 21.6 52.2

Youtube 4.6 10.0 40.4 322.3

Collaboration can increase vocabulary size

Restrictive Collaborative

(73)

Research Goals

Characterize evidence of quality of textual

features

Usage

Amount of content

Descriptive capacity

Discriminative capacity

(74)

Descriptive Capacity

Term Spread (TS)

(75)

Descriptive Capacity

Term Spread (TS)

TS(DOLLS) =2

(76)

Descriptive Capacity

Feature Instance Spread (FIS)

TS(DOLLS) =2

TS(PUSSYCAT) =2

FIS(TITLE) =

(TS(DOLLS) +

TS(PUSSYCAT)) / 2

= 4/2 = 2

(77)

Descriptive Capacity

Average Feature Spread (AFS) – Given by the

average FIS across the collection

TITLE

TAG DESC. COMM.

CiteULike

1.91

1.62 1.12

-LastFM

2.65

1.32 1.21 1.20

YahooVid.

2.26

1.86 1.51

-Youtube

2.53

2.07 1.72 1.12

(78)

Research Goals

Characterize evidence of quality of textual

features

Usage

Amount of content

Descriptive capacity

(79)

Discriminative Capacity

Inverse Feature Frequency (IFF)

(80)

Bad Discriminator

“video”

Discriminative Capacity

Inverse Feature Frequency (IFF)

(81)

Bad Discriminator

“video”

Good. “music”

Discriminative Capacity

Inverse Feature Frequency (IFF)

(82)

Bad Discriminator

“video”

Good. “music”

Great. “CIKM”

Noise. “v1d30”

Discriminative Capacity

Inverse Feature Frequency (IFF)

(83)

Average Inverse Feature Frequency (AIFF) –

Average of IFF across the collection

TITLE TAG DESC. COMM.

CiteULike 7.31

7.59

7.02

-LastFM

6.64

6.00 5.83 5.90

YahooVid.

6.67

6.54 6.37

-Youtube

7.12

7.00 7.73 6.64

(TITLE or TAG) > DESC > COMMENT

Discriminative Capacity

(84)

Several Other Analyses

Correlation between each metric of quality and object

popularity

Is feature quality higher in more popular objects?

Correlation between different quality metrics of the

same object

Do features that carry more content tend to have

higher descriptive power ?

Do features that have higher descriptive power also

have higher discriminative power ?

Content and information similarity across multiple

(85)

Research Goals

Characterize evidence of quality of textual

features

Usage

Amount of content

Descriptive capacity

Discriminative capacity

Analyze the quality of features for different

IR services (object classification and tag

recommendation)

(86)
(87)

Results

• Classification:

– Tag seems best single feature: good combination of

amount of content and discriminative power

– Title suffers with small amount of content, despite

good discriminative and descriptive powers

• Tag recommendation:

– Title is best feature: best descriptive power

– New tag recommendation strategies that exploit

descriptive power (TS) metrics: outperform various

baselines (state-of-the-art)

Referências

Documentos relacionados