Workload Characterization –
Practical Examples
1. “Analyzing Client Interactivity in Streaming Media”, C. Costa
et al., Proc. WWW 2004
2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM
SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.
2004
3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009 4. “Evidence of Quality of Textual Features on the Web 2.0”, F.
Workload Characterization –
Practical Examples
1. “Analyzing Client Interactivity in Streaming Media”, C. Costa
et al., Proc. WWW 2004
2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM
SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.
2004
3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009 4. “Evidence of Quality of Textual Features on the Web 2.0”, F.
Distribution of File Segment
Access Frequencies
Workload Characterization –
Practical Examples
1. “Analyzing Client Interactivity in Streaming Media”, C. Costa
et al., Proc. WWW 2004
2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM
SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.
2004
3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009 4. “Evidence of Quality of Textual Features on the Web 2.0”, F.
Workload Characterization –
Practical Examples
1. “Analyzing Client Interactivity in Streaming Media”, C. Costa
et al., Proc. WWW 2004
2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM
SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.
2004
3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009
4. “Evidence of Quality of Textual Features on the Web 2.0”, F. Figueiredo et al., Proc ACM CIKM 2009
Youtube
• Maior rede social de compartilhamento de vídeos do mundo • Vídeo Resposta
permite uma interação entre os usuários através de vídeos
um vídeo só pode ser resposta para um único outro vídeo em determinado momento
Poluição
•
Vídeo Poluído
– vídeo resposta cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido
•
Usuários Poluidores: agem maliciosamente na
tentativa de divulgar conteúdo
– Spammer
• promover o vídeo resposta: propagandas, pornografia, etc
– Promotor de vídeos
• promover o tópico: em geral vários vídeos respostas postados automaticamente
Exemplos de Spammers
Pornografia Propaganda
Exemplos de Promotores
Objetivo
É possível detectar uma fração
significativa dos
usuários poluidores
(spammers e/ou promotores) de forma
automatizada?
Abordagem Metodológica
1. Criação de uma coleção de testes com spammers, promotores de vídeos e usuários legítimos
– desafio: subjetividade para definição de vídeo poluído
2. Identificação de atributos capazes de distinguir usuários poluidores de usuários legítimos
– foco na detecção do usuário poluidor e não do vídeo poluído
3. Proposição de um mecanismo de detecção de usuários poluidores baseado nos atributos identificados
– baseado em uma algoritmo de classificação estado-da-arte
Coleta dos Dados
Objetivo: coletar usuários
que participam de interações através de vídeos respostas
Abordagem: coletar um
componente fracamente conectado inteiro
segue as duas direções: vídeos respostas e vídeos
respondidos
essencial para o cálculo de diversas métricas de redes sociais
Arquitetura do Coletor
Clientes coletam dados do
YouTube
Servidor coordena clientes
para evitar coletas redundantes
Sementes: 100 usuários donos
dos vídeos mais respondidos do YouTube
Foram coletadas em 7 dias (de 11 a 18 de janeiro de 2008): 701.950 vídeos respostas
381.616 vídeos respondidos
Coleção de Testes
1. Usuários com diferentes níveis de atividades – 400 usuários selecionados aleatoriamente
das 4 regiões do gráfico ao lado
2. Busca manual por poluidores (promotores) – busca por suspeitos na lista dos vídeos
mais respondidos do YouTube
– 153 usuários suspeitos encontrados
3. 300 usuários selecionados aleatoriamente entre os que responderam aos vídeos mais respondidos
– reduzir algum possível viés introduzido pela estratégia 2 • Total: 855 usuários • 641 legítimos • 157 spammers • 31 promotores de vídeos • 26 suspensos
Características dos Usuários
Vídeos exibidos, em média, mais de 100 vezes:
97% dos usuários legítimos 90% dos spammers 4% dos promotores de vídeos
Vídeo-respostas e Vídeo Respondidos
Características dos Usuários
• Promotores visam vídeos com poucas avaliações enquanto spammers visam vídeos mais bem avaliados
• Legítimos representam um meio termo
Características dos Usuários
• Possuem mais que 10 amigos:
– 75% dos usuários legítimos
Características dos Usuários
Usuários legítimos têm um UserRank mais alto do que spammers; Spammers têm UserRank mais alto do que promotores de vídeos
Detecção de Poluidores
•
Mecanismo de detecção de poluidores
–
Abordagem de aprendizagem de máquina
(inteligência artificial) para classificação dos
usuários
–
SVM (Support Vector Machine)
•
Algoritmo de classificação bastante
conhecido por seu desempenho competitivo
com o estado da arte
Detecção de Poluidores
•
Atributos (60 no total)
– Usuários
• número de vídeos, amigos, vídeos assistidos, vídeos
adicionados como favoritos, vídeos respostas enviados e recebidos, total de inscrições e inscritos, número máximo de vídeos enviados em um dia
– Vídeos
• média e total para 3 grupos: todos os vídeos do usuário, apenas os vídeos respostas e todos os vídeos alvos
• duração, número de exibições, avaliações, comentários, favoritos, menções honrosas e elos externos
– Redes Sociais
• coeficiente de clusterização, UserRank, betweeness, reciprocidade e assortatividade
Detecção de Poluidores
Com 95% de confiança, nenhum resultado
Workload Characterization –
Practical Examples
1. “Analyzing Client Interactivity in Streaming Media”, C. Costa
et al., Proc. WWW 2004
2. “A Characterization of Broadband User Behavior and their E-business Activities”, H. Marques-Neto et al. , ACM
SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec.
2004
3. “Detecting Spammers and Content Promoters in Online Video Social Networks”, F. Benevenuto et al. , Proc. ACM SIGIR 2009
4. “Evidence of Quality of Textual Features on the Web 2.0”, F. Figueiredo et al., Proc ACM CIKM 2009
Motivation
Web 2.0
Huge amounts of multimedia content
Information Retrieval
Mainly focused on text (i.e. Tags)
User generated content
No guarantee of quality
Textual Features
Multimedia Object
Textual Features
Multimedia Object
Textual Features
Multimedia Object
TITLE
Textual Features
Multimedia Object TITLE DESCRIPTION TAGSTextual Features
Multimedia Object TITLE DESCRIPTION TAGS COMMENTSTextual Features
Textual
Features
TITLE DESCRIPTION TAGS COMMENTSResearch Goals
Characterize evidence of quality of textual
features
Usage
Amount of content
Descriptive capacity
Research Goals
Characterize evidence of quality of textual
features
Usage
Amount of content
Descriptive capacity
Discriminative capacity
Analyze the quality of features for different IR
services (object classification and tag
recommendation)
Applications/Features
Applications
Textual Features
Data Collection
June / September / October 2008
CiteULike - 678,614 Scientific Articles
LastFM - 193,457 Artists
Yahoo Video! - 227,252 Objects
YouTube - 211,081 Objects
Object Classes
Yahoo Video! And YouTube - Readily Available
Research Goals
Characterize evidence of quality of textual
features
Usage
Amount of content
Descriptive capacity
Textual Feature Usage
Percentage of objects with empty features
(zero terms)
TITLE TAG DESC. COMM.
CiteULike 0.53% 8.26% 51.08%
99.96%
LastFM 0.00%
18.88%
53.52% 53.38%YahooVid. 0.15%
16.00%
1.17%96.88%
Youtube 0.00% 0.06% 0.00% 23.36%
Restrictive features more present
Tags can be absent in 16% of content
Research Goals
Characterize evidence of quality of textual
features
Usage
Amount of content
Descriptive capacity
Amount of Content
Vocabulary size (average number of unique
stemmed terms) per feature
TITLE TAG DESC. COMM.
CiteULike 7.5 4.0 65.2 51.9
LastFM 1.8 27.4 90.1 110.2
YahooVid. 6.3 12.8 21.6 52.2
Youtube 4.6 10.0 40.4 322.3
TITLE < TAG < DESC < COMMENT
Restrictive Collaborative
Amount of Content
Vocabulary size (average number of unique
stemmed terms) per feature
TITLE TAG DESC. COMM.
CiteULike 7.5 4.0 65.2 51.9
LastFM 1.8 27.4 90.1 110.2
YahooVid. 6.3 12.8 21.6 52.2
Youtube 4.6 10.0 40.4 322.3
Collaboration can increase vocabulary size
Restrictive Collaborative
Research Goals
Characterize evidence of quality of textual
features
Usage
Amount of content
Descriptive capacity
Discriminative capacity
Descriptive Capacity
Term Spread (TS)
Descriptive Capacity
Term Spread (TS)
TS(DOLLS) =2
Descriptive Capacity
Feature Instance Spread (FIS)
TS(DOLLS) =2
TS(PUSSYCAT) =2
FIS(TITLE) =
(TS(DOLLS) +
TS(PUSSYCAT)) / 2
= 4/2 = 2
Descriptive Capacity
Average Feature Spread (AFS) – Given by the
average FIS across the collection
TITLE
TAG DESC. COMM.CiteULike
1.91
1.62 1.12-LastFM
2.65
1.32 1.21 1.20YahooVid.
2.26
1.86 1.51-Youtube
2.53
2.07 1.72 1.12Research Goals
Characterize evidence of quality of textual
features
Usage
Amount of content
Descriptive capacity
Discriminative Capacity
Inverse Feature Frequency (IFF)
Bad Discriminator
“video”
Discriminative Capacity
Inverse Feature Frequency (IFF)
Bad Discriminator
“video”
Good. “music”
Discriminative Capacity
Inverse Feature Frequency (IFF)
Bad Discriminator
“video”
Good. “music”
Great. “CIKM”
Noise. “v1d30”
Discriminative Capacity
Inverse Feature Frequency (IFF)
Average Inverse Feature Frequency (AIFF) –
Average of IFF across the collection
TITLE TAG DESC. COMM.
CiteULike 7.31
7.59
7.02-LastFM
6.64
6.00 5.83 5.90YahooVid.
6.67
6.54 6.37-Youtube
7.12
7.00 7.73 6.64
(TITLE or TAG) > DESC > COMMENT
Discriminative Capacity
Several Other Analyses
Correlation between each metric of quality and object
popularity
Is feature quality higher in more popular objects?
Correlation between different quality metrics of the
same object
Do features that carry more content tend to have
higher descriptive power ?
Do features that have higher descriptive power also
have higher discriminative power ?
Content and information similarity across multiple
Research Goals
Characterize evidence of quality of textual
features
Usage
Amount of content
Descriptive capacity
Discriminative capacity