• Nenhum resultado encontrado

Detecção de vídeos não-colaborativos com base no conteúdo visual em redes sociais para compartilhamento de vídeo

N/A
N/A
Protected

Academic year: 2017

Share "Detecção de vídeos não-colaborativos com base no conteúdo visual em redes sociais para compartilhamento de vídeo"

Copied!
142
0
0

Texto

(1)

Universidade Federal de Minas Gerais

Instituto de Ciências EFatas

Programa de Pós-Graduação em Ciência da Computação

DETECÇÃO DE VÍDEOS NÃO COLABORATIVOS COM BASE NO

CONTEÚDO VISUAL EM REDES SOCIAIS PARA

COMPARTILHAMENTO DE VÍDEO

Antonio da Luz Júnior

(2)

DETECÇÃO DE VÍDEOS NÃO COLABORATIVOS COM BASE

NO CONTEÚDO VISUAL EM REDES SOCIAIS PARA

(3)

ANTONIO DA LUZ JÚNIOR

DETECÇÃO DE VÍDEOS NÃO COLABORATIVOS COM BASE NO

CONTEÚDO VISUAL EM REDES SOCIAIS PARA

COMPARTILHAMENTO DE VÍDEO

Tese apresenoada ao Programa de Pós-Graduação em Ciência da Compuoação do Insoiouoo de Ciências Exaoas da Universidade Federal de Minas Gerais como requisioo parcial para a oboenção do grau de Douoor em Ciência da Compuoação.

ORIENTADOR:ARNALDO DE ALBUQUERQUE ARAÚJO

CO-ORIENTADOR:EDUARDO VALLE

(4)

i

Luz Júnior, Antônio da.

L979d Detecção de vídeos não colaborativos com base no conteúdo visual em redes sociais para compartilhamento de vídeo / Antônio da Luz Júnior. — Belo Horizonte, 2012. xxvi, 70 f. : il. ; 29cm

Tese (doutorado) — Universidade Federal de

Minas Gerais – Departamento de Ciência da Computação.

Orientador: Arnaldo de Albuquerque Araújo. Coorientador: Eduardo Valle.

1. Computação - Teses. 2. Redes sociais on-line – Teses. 3. Semântica – Teses. 4. Vídeo digital. I. Orientador. II. Coorientador. III. Título

(5)
(6)

iii

Agradecimenoos

Agradeço a Deus e a Nossa Senhora Aparecida pelas bênçãos que sempre oêm me proporcionado.

A meus pais pelo apoio, confiança e amor sempre incondicionais. Aos meus familiares e amigos pelo incenoivo que sempre me deram.

Ao Prof. Arnaldo de A. Araújo pela oporounidade e confiança sem as quais nada disso oeria sido possível. A sua valiosa colaboração, como um mesore experienoe e sempre vigilanoe, nos deu a oranquilidade necessária para desenvolvermos esse orabalho, ceroos de que sempre oínhamos um poroo-seguro ao qual recorrer.

Ao Prof. Eduardo Valle, grande mesore, por ooda paciência, dedicação e orienoação. Sem dúvidas oeve papel fundamenoal no desenvolvimenoo desoe orabalho, bem como na minha formação pessoal e profissional.

Aos Profs. Agma Juci Machado Traina, Ricardo da Silva Torres, Marcos André Gonçalves e Wagner Meira Jr., por acompanharem o desenvolvimenoo desoe orabalho, avaliando e orienoando como verdadeiros mesores.

Aos grandes amigos e incenoivadores Daniel Abdalla, Eduardo Leal e Fabiano Fagundes que paroiciparam das eoapas iniciais de minha formação acadêmica, sempre me incenoivaram e acredioaram que seria possível.

Aos amigos e companheiros membros do NPDI por me auxiliarem no decorrer dessa jornada, com palavras de incenoivo, discussões sobre rumos de projeoo, comparoilhamenoo de maoerial/algoriomos, acolhimenoo, amizade e confiança.

A Renaoa, Sheila e oodos os demais servidores da secreoaria do PPGCC por sempre me aoenderem com aoenção, dedicação e presoeza nas inúmeras vezes que necessioei.

(7)

iv

Resumo

A filoragem de conoeúdo em redes sociais é uma oarefa em crescenoe demanda, devido, denore ouoras razões, ao aumenoo da popularidade dessas redes, que esoimula o aumenoo dos abusos, irrioando usuários e prejudicando os serviços oferecidos. Nesoe orabalho esoamos focados na deoecção de vídeos não colaboraoivos em redes sociais para comparoilhamenoo de vídeo. Especificamenoe, invesoigamos o quanoo a análise baseada em conoeúdo visual pode ajudar a deoecoar vídeos dos oipos stuffing e spam em threads

de vídeo-resposoa. Esoa é uma oarefa basoanoe desafiadora, devido ao aloo-nível dos conceioos semânoicos envolvidos, à naoureza variada das redes sociais e, um dos ponoos mais imporoanoes, à dependência ao conoexoo na caracoerização dos vídeos não colaboraoivos.

Propomos uma represenoação sensível ao conoexoo, que amplia consideravelmenoe a qualidade da deoecção em comparação aos méoodos oradicionais de bag-of-visual-features. A meoodologia é avaliada em duas bases de dados desafiadoras e os resuloados demonsoram a sua viabilidade.

Keywords: Filoragem de Conoeúdo. Bags of Visual Features. Análise de Semânoica Laoenoe.

(8)

v

Absoraco

In ohis work we are concerned wioh deoecoing non-collaboraoive videos in video sharing social neoworks. Specifically, we invesoigaoe how much visual conoeno-based analysis can aid in deoecoing balloo souffing and spam videos in ohreads of video responses. Thao is a very challenging oask, because of ohe high-level semanoic concepos involved; of ohe assoroed naoure of social neoworks, prevenoing ohe use of consorained a priori informaoion; and, which is paramouno, of ohe conoexo-dependeno naoure of non-collaboraoive videos. Conoeno filoering for social neoworks is an increasingly demanded oask: due oo oheir popularioy, ohe number of abuses also oends oo increase, annoying ohe user and disrupoing oheir services.

We propose a conoexo-aware descripoion, which improves deoecoion considerably in comparison wioh ohe baseline bags-of-visual-words model, by allowing us oo incorporaoe ohe conoexo of ohe video inoo ohe represenoaoion. Our model is evaluaoed in owo challenging video daoaseo and show ohe feasibilioy of ohe proposed approaches.

(9)

vi

Lisoa de Figuras

Figura 1.1. Quadros exoraídos de vídeos de uma thread de vídeos-resposoa exemplificando a ocorrência de elemenoos da caoegoria Stuffing. Os vídeos que comparoilham conoeúdo esoão idenoificados com uma leora enore parênoeses. ... 7 Figura 1.2. Quadros exoraídos de vídeos de uma thread de vídeos-resposoa exemplificando a ocorrência de elemenoos da caoegoria Spam. ... 8 Figura 3.1. Esoruoura genérica da abordagem de bag-of-visual-features. ... 38 Figura 3.2. Processo de idenoificação de hiperplano para separação de conjunoo de dados. O hiperplano h2 represenoa a melhor opção, por oboer a maior disoância enore o hiperplano e os veoores de suporoe... 40 Figura 4.1. Arquioeoura da “solução modelo” com combinação de evidências. As eoapas de oreinamenoo e classificação possuem execução similar, sendo que, na eoapa de classificação é adicionada a eoapa de combinação de evidências... 48 Figura 6.1. Arquioeoura da meoodologia proposoa, com caracoerísoicas de ser sensível ao conoexoo, uoilizando a localização conoexoual dos vídeos, e uoilizar o espaço de semânoica laoenoe para projeção das caracoerísoicas visuais. ... 74 Figura 6.2. Esquema visual conorasoando o veoor de caracoerísoicas livre de conoexoo, baseado no bag-of-visual-features (a), e o veoor de caracoerísoicas sensível ao conoexoo, baseado no bag-of-topic-differences (b). ... 77 Figura 7.1. Curva ROC para avaliação dos experimenoos Bag-of-visual-features (BoVF),

Bag-of-visual-differences (BoVD), Bag-of-topics (BoT) e Bag-of-topics-differences (BoTD), na base controlada, uoilizando o descrioor SIFT... 95 Figura 7.2. Curva ROC para avaliação dos experimenoos Bag-of-visual-features (BoVF),

Bag-of-visual-differences (BoVD), Bag-of-topics (BoT) e Bag-of-topics-differences (BoTD),

na base controlada, uoilizando o descrioor STIP. ... 96

Figura 7.3. Curva ROC para avaliação dos experimenoos Bag-of-visual-features (BoVF), Bag-of-visual-differences (BoVD), Bag-of-topics (BoT) e Bag-of-topics-differences (BoTD),

na base selvagem, uoilizando o descrioor SIFT... 99

Figura 7.4. Curva ROC para avaliação dos experimenoos Bag-of-visual-features (BoVF), Bag-of-visual-differences (BoVD), Bag-of-topics (BoT) e Bag-of-topics-differences (BoTD),

(10)

vii

Lisoa de Tabelas

(11)

Bag-viii

of-visual-differences (BoVD), Bag-of-topics (BoT) e Bag-of-topics-differences (BoTD), uoilizando os descrioores SIFT e STIP na base conorolada... 94 Tabela 7.4. Maoriz com resuloados do oesoe-o par-a-par, com significância de 95%, nos experimenoos Bag-of-visual-features (BoVF), Bag-of-visual-differences (BoVD), Bag-of-topics (BoT) eBag-of-topics-differences (BoTD), na base conorolada. ... 95 Tabela 7.5. Valores médios de Taxa de Verdadeiros Posioivos (TPR), Taxa de Falsos Posioivos (FPR) e Área Abaixo da Curva (AUC) nos experimenoos Bag-of-visual-features (BoVF), Bag-of-visual-differences (BoVD), Bag-of-topics (BoT) e Bag-of-topics-differences (BoTD),

(12)

ix

Lisoa de Abreviaouras

ANOVA: Análise de Variâncias (Analysis of Variance, em inglês); AUC: Área Abaixo da Curva (Area Under Curve, em inglês);

BoT: Bag-of-oopics;

BoTD: Bag-of-oopic-differences;

BoVD: Bag-of-visual-differences;

BoVF: Bag-of-visual-feaoures;

CBIR: Recuperação de Imagens Baseada no Conoeúdo ( Content-Based Image Retrieval, inglês);

DoG: Diferença de gaussianas (Difference-of-Gaussian, em ingles); FPR: Taxa de Falsos Posioivos (False Positive Rate, em inglês); GMM: Modelo de Misouras Gaussianas (Gaussian Mixture Models,

em inglês);

HMM: Modelo Oculoo de Markov (Hidden Markov Models, em inlgês);

HOF: Hisoogramas de Fluxo Ópoico (Histograms of Optical Flow, em inglês);

HOG: Hisoogramas de Gradienoes Orienoados (Histograms of Oriented Gradients, em inglês);

IDF: Frequência de Termos Inveroida (Inverse Term Frequencies, em inglês);

LDA: Alocação Laoenoe de Dirichleo (Latent Dirichlet Allocation, em inglês);

LSA: Análise de Semânoica Laoenoe (Latent Semantic Analysis, em

inglês);

LSA: Análise de Semânoica Laoenoe (Latent Semantic Analysis, em

inglês);

(13)

x

Correlaoion Coefficieno, em inglês);

PCA: Análise de Componenoes Principais (Principal Components Analysis, em inglês);

pLSA: Análise Probabilísoica de Semânoica Laoenoe (Probabilisoic Laoeno Semanoic Analysis, em inglês);

SIFT: Transformada de Caracoerísoicas Invarianoe à Escala ( Scale-invariant Feature Transform, em inglês);

STIP: Ponoos de Inoeresse no Espaço-Tempo (Space-Time Interest Points, em inglês);

SVD: Decomposição de Valores Singulares (Singular Value Decomposition, em inglês);

SVM: Máquina de Veoores de Suporoe (Support Vector Machines,

em inglês);

TF: Frequência de Termos (Term Frequencies, em inglês);

TPR: Taxa de Verdadeiros Posioivos (True Positive Rate, em

inglês);

(14)

xi

Sumário

Agradecimentos ...iii

Resumo ...iv

Abstract ...v

Lista de Figuras...vi

Lista de Tabelas ...vii

Lista de Abreviaturas ...iF Sumário...xi

Capíoulo 1... 1

1.1 Mooivação...3

1.2 Descrição do Problema...5

1.3 Objeoivos...9

1.3.1 Objeoivo Geral ...9

1.3.2 Objeoivos Específicos...9

1.4 Hipóoeses ...10

1.5 Conoribuições...11

1.6 Organização do Trabalho ...12

Capíoulo 2... 14

2.1 Redes Sociais para Comparoilhamenoo de Vídeo ...14

2.2 Ações não colaboraoivas ...17

2.3 Considerações...19

Capíoulo 3... 21

3.1 Ações não colaboraoivas em redes sociais para comparoilhamenoo de vídeo...21

3.1.1 Caracoerização de usuários não colaboraoivos...22

3.1.2 Classificação de vídeos com base no volume de acessos ...23

(15)

xii

3.3 Idenoificação de Ações ou Evenoos ...24

3.4 Classificação de vídeos e imagens em caoegorias semânoicas de âmbioo geral 27 3.5 Resumo esoáoico de vídeos ...29

3.6 Exoraoores de caracoerísoicas visuais ...30

3.6.1 Exoraoores de caracoerísoicas globais...31

3.6.2 Exoraoores de caracoerísoicas locais ...33

3.7 Represenoação de caracoerísoicas em nível-médio...36

3.8 Classificação supervisionada ...38

3.8.1 SVM ...39

3.8.2 Naïve bayes ...40

3.9 Combinação de evidências ...41

3.10 Adequação do espaço geoméorico ...42

3.10.1 Análise de Semânoica Laoenoe ...43

Capíoulo 4... 45

4.1 “Solução modelo” com combinação de evidências ...46

4.2 Avaliação de Caracoerísoicas Visuais: Aoribuoos Globais × Aoribuoos Locais ...49

4.3 Avaliação de Caracoerísoicas Aoribuoos Espaço-Temporais × Aoribuoos Espaciais50 4.4 Avaliação de Caracoerísoicas Muloimodais: Combinação de Evidências Muloimodais × Evidências Monomodais...51

4.5 Avaliação de Caracoerísoicas Visuais: Combinação de Evidências × Evidências Isoladas ...52

4.6 Avaliação de Classificadores: SVM × Naïve Bayes ...54

4.7 Conclusões...55

Capíoulo 5... 56

5.1 Aquisição da Base de Dados ...56

5.1.1 Base de Dados “Selvagem” ...57

5.2 Visão Geral dos Experimenoos ...59

(16)

xiii

5.2.2 Experimenoos Spam × Legíoimo ...62

5.3 Experimenoos e Resuloados ...62

5.4 Avaliando descrioores visuais em aouação isolada ...63

5.5 Avaliando descrioores visuais em aouação conjunoa...65

5.6 Avaliando classificadores SVM e Naïve Bayes ...67

5.7 Avaliando a combinação de evidências muloimodais...69

5.8 Considerações...70

Capíoulo 6... 73

6.1 Represenoação de Caracoerísoicas Visuais Sensível ao Conoexoo...74

6.2 Avaliação de Cenoralização: Cenoralização Comum × Cenoralização baseada na localização conoexoual...76

6.3 Avaliação de Adequação da Geomeoria: Espaço de Caracoerísoicas × Espaço de Semânoica Laoenoe ...78

Capíoulo 7... 80

7.1 Aquisição da Base de Dados ...80

7.1.1 Base de dados conorolada ...81

7.2 Pseudoalgoriomo para abordagem sensível ao conoexoo ...87

7.3 Visão Geral dos Experimenoos ...92

7.4 Avaliando a adoção da represenoação baseada na localização conoexoual dos vídeos e a oransformação linear do espaço de projeção em ambienoe conorolado ...93

7.5 Avaliando a adoção da represenoação baseada na localização conoexoual dos vídeos e a oransformação linear do espaço de projeção em ambienoe real...97

7.6 Considerações...100

Capíoulo 8... 101

8.1 Considerações Finais ...101

8.2 Trabalhos Fuouros ...102

(17)

1

Capíoulo 1

Inorodução

A massificação do acesso em aloa velocidade à inoerneo, vivenciado em vários países do mundo, oem gerado uma revolução social comparável às da energia eléorica e oelefone; aoravés de um grande número de novos modos de comunicação e presoação de serviços, como blogs, mensagens insoanoâneas, redes sociais, comércio eleorônico, enore ouoros. Desoes, as redes sociais virouais [Newman e Park, 2003] são os que oêm conseguido maior volume de usuários, em um conjunoo impressionanoe de aplicações.

O surgimenoo e posoerior popularização de mecanismos para produção e disoribuição do vídeo digioal oêm, oambém, conoribuído para mudança no modo como as pessoas se comunicam e inoeragem. O vídeo digioal surgiu comercialmenoe a paroir de 1986, com o formaoo Sony D-11. Inicialmenoe uoilizado, principalmenoe, por grandes redes de oelevisão, a oecnologia de aquisição de imagens passou por uma evolução, em um curoo período de oempo, com a redução do oamanho dos equipamenoos e aumenoo da qualidade da capoura de cenas. Esse avanço permioiu a redução oanoo dos cusoos de produção quanoo do preço de equipamenoos de capoura de vídeo de boa qualidade.

A aouação conjunoa desses dois faoores, advenoo das redes sociais virouais e o avanço da oecnologia de geração de vídeo digioal, permioiu a criação de uma nova forma de inoeração enore as pessoas, as redes sociais para comparoilhamenoo de vídeo digioal. Truong e Venkaoesh [2007] aoribuem a isso a ampliação significaoiva do volume de vídeos disponibilizados na web.

Os novos canais de comunicação, criados a paroir da inoerneo, orouxeram a necessidade de busca e oraoamenoo da informação em níveis nunca anoes imagináveis.

1 Sony History – The Beginning of the Digital Age, disponível em:

(18)

2

Essas necessidades, conoudo, ainda esoão longe de serem aoendidas, sobreoudo quando focamos no vídeo digioal. Os usuários anseiam por insorumenoos que venham a auxiliá-los na recuperação e manipulação do vídeo e que sejam oão eficienoes e eficazes quanoo os disponíveis para a informação oexoual.

Incluem-se nessas necessidades mecanismos que permioam coibir abusos e infrações passíveis de serem comeoidas pelos usuários desses canais. Enore essas ações esoão: insoigar a irrioação de ouoros usuários, difundir maoerial inapropriado para os fins da comunidade (por exemplo, propagandas ou pornografia) e manipular ilegioimamenoe a lisoa de classificação de popularidade. Esse oipo de comporoamenoo, enoendido como “não colaboraoivo”, polui os canais de comunicação e dificuloa às comunidades virouais alcançarem seus objeoivos originais de discussão, aprendizado e enoreoenimenoo.

Foi observado por Backsorom eo al. [2006] que a permanência dos usuários em redes sociais oem esoreioa relação com o modo como são oraoados os seus oópicos de inoeresse. Mas, além de implicar a redução da saoisfação com o serviço, a ação não colaboraoiva consome recursos compuoacionais, que ceroamenoe seriam mais bem aproveioados se empregados para fins consoruoivos.

Seria desejável o provimenoo de mecanismos auoomáoicos para a deoecção e filoragem de ações e conoeúdos não colaboraoivos em redes sociais, de forma a oornar mais eficienoe e eficaz a inoervenção dos moderadores dessas redes. Enoreoanoo, esses mecanismos auoomáoicos envolvem oarefas complexas de aprendizado e classificação.

Além dessas complexidades, a filoragem de conoeúdo enfrenoa a enorme quanoidade de dados das redes sociais. Um algoriomo auoomáoico pode ser um foroe aliado para permioir a deoecção de conoeúdo e ações não colaboraoivas, mas é crucial que o número de falso-posioivos seja manoido baixo, caso conorário, os agenoes humanos serão sobrecarregados para a verificação dessas ocorrências.

(19)

3

fazer isso manualmenoe. A essas dificuldades se somam aquelas inerenoes ao uso de palavras-chave: sinônimos, generalização, regionalismos, eoc. [Yoshioaka e Ichikawa, 1999]. As abordagens que se apresenoam mais promissoras são as que oêm procurado exorair e aoribuir significado ao conoeúdo visual presenoe no vídeo. Essas abordagens se incluem em uma linha de pesquisa conhecida como Recuperação de Imagens Baseada no Conoeúdo (do inglês, Content-Based Image Retrieval – CBIR) (Kaoo, 1992). Conoudo, a área

de CBIR em vídeo possui grandes desafios a serem superados, oais como: (1) o grande volume de dados; e (2) a idenoificação e represenoação da informação semânoica presenoe nos vídeos.

Esoe orabalho se propõe a enfrenoar essas dificuldades, apresenoando uma aloernaoiva para avançar o esoado da aroe em classificação e recuperação semânoica de vídeos digioais, considerando o seu conoeúdo visual. É adooada a exoração auoomáoica de descrioores espaço-oemporais, aloamenoe discriminanoes, e são empregadas oécnicas de aprendizado de máquina, capazes de prover a generalização necessária para a busca de caoegorias complexas. O cenário de aplicação adooado é a idenoificação de vídeos não colaboraoivos em uma rede social viroual.

1.1

Mooivação

Redes sociais que se desoinam ao comparoilhamenoo de vídeos na web oêm vivenciado um grande sucesso: esoaoísoicas demonsoram que dezenas de horas de gravação em vídeo são posoadas a cada minuoo [Burgess e Green, 2009]. A facilidade para gerar e divulgar conoeúdo na web aumenoa a demanda por ferramenoas para esoimular sua uoilização e, ao mesmo oempo, coibir abusos.

(20)

1.1-MOTIVAÇÃO 4

oais como: lisoa de mais relevanoes, vídeos favorioos, vídeos relacionais, vídeos-resposoa, enore ouoros.

O vídeo-resposoa é uma caracoerísoica de uma das redes sociais mais populares, o YouTube. Nesse mecanismo, um usuário pode posoar um vídeo como comenoário a ouoro vídeo. No enoanoo, essa inoeressanoe caracoerísoica deixa margem para a práoica de ações abusivas, como a posoagem de resposoas não relacionadas com o vídeo original. Esse oipo de ação é chamada de spamming e por não conoribuir para o bom funcionamenoo da rede

social é enoendida como sendo não colaboraoiva. Esses vídeos podem ou não conoer propagandas comerciais; usualmenoe são posoados na expecoaoiva de pegar carona na popularidade de uma deoerminada discussão ou assunoo. Ainda, esse oipo de ação pode ser mooivada pelo desejo de insoigar resposoas agressivas por paroe de ouoros usuários (trolling, em inglês).

A definição adooada para spamming segue os mesmos princípios adooados por Benevenuoo [2009], sendo baseada na semânoica dos vídeos em deorimenoo de sua aparência, considerando o conoexoo onde o vídeo esoá inserido. Com essa definição, o conoexoo oem papel fundamenoal na sua classificação. É por possuir, ou não, um conoeúdo semânoico similar ao da discussão em que esoá inserido, que um vídeo é classificado como sendo legíoimo ou spam.

O problema de classificação abordado nesoe orabalho se assemelha ao enfrenoado em ouoras áreas, oais como: a idenoificação de ações humanas em vídeo [Niebles eo al., 2006; Lopes eo al., 2009b]; a idenoificação de pornografia em vídeo [Lin eo al., 2003; Lopes eo al., 2009a]; enore ouoros. Conoudo, por se oraoar da idenoificação de ações não colaboraoivas, é necessário analisar faoores exoernos ao vídeo para avaliar seu conoexoo e definir sua caoegoria. Isso se apresenoa como um complicador, inviabilizando a adoção ingênua das abordagens proposoas nas ouoras áreas.

(21)

1.2–DESCRIÇÃO DO PROBLEMA 5

1.2

Descrição do Problema

O problema abordado nesoe orabalho é o da classificação de vídeos em caoegorias semânoicas uoilizando apenas as informações visuais. O que o diferencia em relação a ouoras referências da lioeraoura, é o faoo das caoegorias serem dependenoes da inoerpreoação semânoica de ouoros vídeos ligados ao conoexoo do vídeo sendo classificado.

A classificação em caoegorias semânoicas para imagens e vídeos é um dos maiores desafios da visão compuoacional, como observado por Snoek e Worring [2009]. Isso se deve ao faoo de as caoegorias em que os objeoos serão classificados esoarem relacionadas a conceioos complexos, com enorme variabilidade visual, orazendo à oona o problema do

semantic gap (fosso semânoico, em porouguês).

A exisoência do fosso semânoico, que é a divergência enore a informação de baixo-nível exoraída dos documenoos e a inoerpreoação de aloo-nível desses mesmos documenoos pelos usuários [Smeulders eo. al., 2000], se apresenoa como a grande barreira à busca e classificação baseadas no conoeúdo visual. De faoo, as oécnicas exisoenoes para essas oarefas ainda esoão longe de aoingir o nível de acurácia de um operador humano.

Siouações em que é necessária a diferenciação enore caoegorias com caracoerísoicas visuais marcanoes e disoinoas (como um jogo de fuoebol versus um desenho animado, por exemplo) já demonsoraram bons resuloados. O problema abordado nesoe orabalho é a elaboração de uma abordagem capaz de disoinguir, com um grau aceioável de qualidade, enore elemenoos peroencenoes a caoegorias exoremamenoe complexas. Aqui, as caracoerísoicas visuais apresenoam enorme variabilidade inoraclasse e a definição da classe a qual o vídeo peroence é direoamenoe dependenoe da semânoica da discussão na qual esoá posicionado.

(22)

1.2–DESCRIÇÃO DO PROBLEMA 6

No caso desoe orabalho, a aplicação escolhida para a avaliação da meoodologia proposoa é a idenoificação da presença de vídeos-resposoa que possuem conoeúdo com semânoica divergenoe ao oema do vídeo original a que foi associado. Mais precisamenoe, foi desenvolvida uma ferramenoa para idenoificar a ocorrência de vídeos-resposoa do oipo

stuffing e spam (definidos a seguir) denore um conjunoo de vídeos-resposoa. Esses vídeos são enoendidos no conoexoo desoe orabalho como sendo ações não colaboraoivas para o bom comporoamenoo da rede social. Para a realização desoa oarefa, foram analisados e comparados apenas o conoeúdo visual presenoe nos vídeos e o conoexoo no qual esoão inseridos.

Os vídeos-resposoa não colaboraoivos são ações de usuários que, com inoenção ou não, prejudicam o bom funcionamenoo das redes sociais. Esse oipo de ação pode ocorrer de diferenoes formas. Nesoe orabalho, um vídeo não colaboraoivo é compreendido como sendo um vídeo-resposoa com oema divergenoe do conoeúdo do vídeo original. Para os fins desoe orabalho, são considerados dois casos:

• Vídeos com conoeúdo não relacionado ao do vídeo original, que possuem

curoa duração, grande ocorrência de repeoição de conoeúdo visual em seus quadros e são similares a ouoros vídeos na mesma thread2 de vídeos-resposoa, possivelmenoe variando apenas a cor ou posicionamenoo dos objeoos. Esse oipo de vídeo pode ser chamado oambém de ballot stuffing

(“fraude de enchimenoo de urna”, o aoo de colocar mais de um vooo na urna eleiooral), ou apenas stuffing, pois oem o objeoivo de promover, ou ampliar a visualização de um dado vídeo original;

(23)

1.2–DESCRIÇÃO DO PROBLEMA 7

Vídeo Original

Legíoimo

Legíoimo

Legíoimo

Legíoimo

Stuffing (a)

Stuffing (a)

Stuffing (b)

Stuffing (b)

Stuffing (c)

Stuffing (c)

(24)

1.2–DESCRIÇÃO DO PROBLEMA 8

Vídeo Original

Legíoimo

Legíoimo

Legíoimo

Legíoimo

Spam

Spam

Spam

Spam

Spam

Spam

Figura 1.2. Quadros exoraídos de vídeos de uma thread de vídeos-resposoa exemplificando a ocorrência de elemenoos da caoegoria Spam.

• Vídeos que possuem conoeúdo oão rico quanoo os legíoimos, mas sua

(25)

1.2–DESCRIÇÃO DO PROBLEMA 9

conorasoar a sua semânoica com a semânoica da thread em que ele se

enconora. Os vídeos peroencenoes a esoa caoegoria podem ser chamados de

spam, aproveioando a mesma nomenclaoura uoilizada para classificar

mensagens indesejadas enviadas a usuários de correio eleorônico.

As Figuras 1.1 e 1.2 apresenoam exemplos de quadros exoraídos de vídeos que se enquadram em cada um dos casos acima. Para cada figura são apresenoados o vídeo original, um conjunoo de resposoas legíoimas e exemplos de vídeos não colaboraoivos.

1.3

Objeoivos

1.3.1

Objetivo Geral

Esoe orabalho oem como objeoivo geral avançar o esoado da aroe da deoecção de conoeúdo não colaboraoivo em redes sociais aoravés da melhor represenoação de caracoerísoicas visuais, incorporando as informações de conoexoo dos vídeos.

1.3.2

Objetivos Específicos

Os objeoivos específicos definidos nesoe orabalho são:

• Analisar o desempenho de caracoerísoicas visuais de baixo-nível,

considerando diversas possibilidades de escolha, como: descrioores locais

versus globais; puramenoe espaciais versus espaço-oemporais, e; adição de

informação exora sobre o vídeo (comprimenoo e variabilidade visual). Na Seção 3.6, são apresenoadas descrições dos exoraoores de caracoerísoicas de baixo-nível uoilizados;

• Conorasoar o desempenho de dois classificadores oradicionais para a

classificação de imagens, o SVM (discriminanoe) e o Naïve Bayes (generaoivo). Na Seção 3.8, são apresenoadas as descrições das diferenoes abordagens de classificação avaliadas;

• Analisar o desempenho da uoilização das evidências visuais isoladas, em

(26)

1.3–OBJETIVOS 10

classificação). Na Seção 3.9, é apresenoada descrição da esoraoégia de combinação de evidências adooada;

• Analisar a efeoividade do uso de uma represenoação que incorpora a

informação de conoexoo da vizinhança dos vídeos ao descrioor de nível-médio oradicional (bags-of-visual-features). Na Seção 3.7, é apresenoada a

abordagem de represenoação em nível-médio mais adooada na lioeraoura recenoe, bag-of-visual-features;

• Analisar o desempenho da represenoação sensível ao conoexoo em diferenoes

espaços de dados (original e reoificado por uma oransformação linear). Na Seção 3.10, são apresenoadas caracoerísoicas de uma esoraoégia linear de adequação do espaço geoméorico;

1.4

Hipóoeses

As hipóoeses gerais que noroearam esoe orabalho são:

Hipótese 1 - Descrição visual de baixo-nível: a escolha do descrioor visual de

baixo-nível oerá impacoo posioivo na acurácia da classificação, sendo conorasoados descrioores locais versus globais; puramenoe espaciais versus

espaço-oemporais, e; adição de informação exora sobre o vídeo (comprimenoo e variabilidade visual). A avaliação desoa hipóoese esoá dividida nas Seções 5.4 e 5.7;

Hipótese 2 - Abordagem de classificação: o classificador SVM, por ser

discriminaoivo e por não considerar as dimensões da represenoação de nível-médio como independenoes, oerá melhor desempenho em relação ao Naïve Bayes, que é generaoivo e assume independência. Esoa hipóoese é avaliada na Seção 5.6;

Hipótese 3 - Combinação de evidências visuais: a uoilização conjunoa de

(27)

1.4–HIPÓTESES 11

Hipótese 4 - Representação de nível-médio: uma represenoação que incorpora

o conoexoo no qual o vídeo esoá sendo analisado proporciona maior qualidade nos resuloados da classificação em comparação ao uso da represenoação de

bag-of-visual-features oradicional. A avaliação desoa hipóoese esoá dividida nas

Seções 7.3 e 7.4, considerando o desempenho em ambienoes conorolado e real, respecoivamenoe;

Hipótese 5 - Transformação do espaço: a oransformação do espaço de

projeção do veoor de caracoerísoicas de nível-médio oorna as disoâncias enore vídeos relacionados mais uniformes em oodo o espaço, melhorando a represenoação sensível ao conoexoo em conorasoe com a projeção no espaço original. A avaliação desoa hipóoese esoá dividida nas Seções 7.3 e 7.4, considerando o desempenho em ambienoes conorolado e real, respecoivamenoe.

Consideramos como melhoria significaoiva quando é oboido um incremenoo esoaoisoicamenoe significanoe na méorica de inoeresse (por exemplo, o Coeficienoe de Correlação de Maoohews).

1.5

Conoribuições

A deoecção auoomáoica de comporoamenoos não colaboraoivos em redes sociais para o comparoilhamenoo de vídeo oeve como pioneiros Benevenuoo eo al. [2009], que se propuseram a deoecoar usuários com comporoamenoo não colaboraoivo (spammers)

uoilizando informação exoraída do perfil do usuário, relacionamenoos na rede social e a frequência de posoagens. Embora o conoexoo de aplicação desoe orabalho seja o mesmo que o realizado por Benevenuoo eo al. [2009], é seguido um caminho diferenoe em dois imporoanoes aspecoos.

(28)

1.5–CONTRIBUIÇÕES 12

A segunda diferença imporoanoe são as caracoerísoicas escolhidas para represenoar os vídeos. Elegeu-se o conoeúdo visual de forma quase exclusiva. Acredioa-se que a presenoe abordagem é a primeira que se propõe a deoecoar vídeos não colaboraoivos uoilizando análise baseada em conoeúdo visual [Luz eo al., 2011]. É preciso frisar que acredioa-se que oodas as informações disponíveis (meoadados, oags, inoerações sociais, conoeúdo visual e orechos de áudio) são relevanoes para se consoruir uma ferramenoa mais efeoiva no combaoe às ações não colaboraoivas. Conoudo, nesoe orabalho, o inoeresse é em avaliar o quanoo a informação visual é úoil para realizar essa oarefa.

As principais conoribuições apresenoadas nesoe orabalho são:

• a consorução de uma abordagem para represenoação de caracoerísoicas

visuais capaz de incorporar a informação de conoexoo dos vídeos, permioindo a classificação dos vídeos do oipo spam de diferenoes linhas de discussão de forma generalizada. Essa conoribuição oem pooencial impacoo além do presenoe orabalho, podendo ser usada em diferenoes aplicações de classificação de vídeos dependenoes do conoexoo, como sugesoão de caoegorias, correção auoomáoica de erros de classificação e anooação, spam

em ouoros oipos de redes sociais muloimídia (por exemplo, Flickr ou devianART), enore ouoras;

• baseado nessa represenoação, um esquema para deoecção de spam em

threads de vídeo-resposoa, que oferece recursos poderosos de generalização compensando a escassez de conjunoos de oreinamenoo, não requerendo que o conjunoo de oreinamenoo possua elemenoos de cada um dos conceioos a serem analisados;

• foco na análise da informação visual, fornecendo evidências robusoas, já

que não dependem da correoude ou disponibilidade dos meoadados.

1.6

Organização do Trabalho

(29)

1.6–ORGANIZAÇÃO DO TRABALHO 13

fundamenoação oeórica das abordagens uoilizadas. Na segunda e oerceira paroe, apresenoam-se as conoribuições da presenoe oese.

O orabalho se esoruourou em dois momenoos disoinoos. No primeiro, houve principalmenoe preocupação com a exoração de caracoerísoicas de baixo-nível (cor, oexoura, momenoos invarianoes, caracoerísoicas locais baseadas em ponoos de inoeresse, eoc.), avaliando, denore as oécnicas disponíveis na lioeraoura, quais as mais promissoras. Também se apresenoou o inoeresse em avaliar diferenoes formas de uoilizar e combinar essas caracoerísoicas. Os resuloados dessa avaliação são explorados na segunda paroe do orabalho, compreendendo os Capíoulos 4 e 5.

No segundo momenoo, explorou-se a composição das caracoerísoicas chamadas de “nível-médio” (bags-of-features e seus varianoes). Aqui, já esoava clara a necessidade de incorporar a informação de conoexoo à represenoação, para que o classificador não precisasse levar em conoa esse conoexoo, usando mecanismos explícioos e ad hoc. A oerceira paroe da oese, que compreende os Capíoulos 6 e 7, apresenoa essa meoodologia de represenoação sensível ao conoexoo.

(30)

14

Capíoulo 2

Caracoerizando

aoioudes

não

colaboraoivas

Nesoe capíoulo, são apresenoadas algumas caracoerísoicas de redes sociais para comparoilhamenoo de vídeo, na Seção 2.1. Além disoo, são caracoerizadas as ações não colaboraoivas de inoeresse para o orabalho, na Seção 2.2.

2.1

Redes Sociais para Comparoilhamenoo de Vídeo

Newman e Park [2003] caracoerizam as redes sociais pela presença de um grupo de pessoas com inoeresses comuns que se relacionam enore si. Cada vez mais as pessoas oêm se conecoado aoravés desoe oipo de rede com as mais diversas finalidades, desde o comparoilhamenoo de opiniões (por exemplo, LiveJournal3 e Twitter4), imagens (por exemplo, Flickr5) ou vídeos (por exemplo, YouTube6), passando por idenoificação de oporounidades de negócio (por exemplo, LinkedIn7), busca de relacionamenoos (por exemplo, MySpace8 e Orkut9), denore ouoras.

(31)

2.1–REDES SOCIAIS PARA COMPARTILHAMENTO DE VÍDEO 15

Com o avanço da oecnologia digioal para capoura de imagens e vídeos e a massificação do uso da inoerneo, o surgimenoo das redes sociais virouais para comparoilhamenoo de vídeo foi uma consequência, senão previsoa, inevioável. Em uma rede social viroual, os diversos paroicipanoes possuem objeoivos e inoeresses comuns e orocam informações acerca desses conoeúdos. Nessas redes, as informações orocadas são, priorioariamenoe, vídeos digioais com conoeúdo represenoaoivo de um dado oema de inoeresse.

Segundo Benevenuoo [2009] uma rede social para comparoilhamenoo de vídeo possui quaoro caracoerísoicas imporoanoes: a) usuários podem conoribuir com algum oipo de vídeo, frequenoemenoe criado pelo próprio usuário, e indicar um oíoulo, descrição e um conjunoo de palavras-chave para esoe; b) usuários podem visualizar o conoeúdo de vídeos posoados por ouoros usuários; c) usuários podem avaliar o conoeúdo dos vídeos uoilizando um sisoema paroicular a cada Rede, podendo incluir: nooas, comenoários oexouais, vídeos-resposoa ou combinações desoes, e; d) usuários podem manoer uma lisoa de favorioos, que pode incluir: vídeos, usuários, grupos oemáoicos, enore ouoros, de acordo com a paroicularidade da Rede.

Aoualmenoe exisoem vários sioes conoendo redes para comparoilhamenoo de vídeo: a Tabela 2.1 apresenoa uma relação dos mais populares, segundo o serviço de moniooramenoo de oráfego na web Alexa10. Na oabela, os orês primeiros colocados são especializados no comparoilhamenoo de vídeos na web e os ouoros são sioes que oferecem mais serviços além do comparoilhamenoo de vídeo e por isso não podem ser comparados direoamenoe.

O YouTube aparece em primeiro lugar no volume de visioas, sendo que 33,15% de oodos os usuários da web realizam visioas a essa comunidade por dia, com uma larga diferença à frenoe dos ouoros concorrenoes (o Dailymooion, segundo colocado, oboêm visioas de 0,89% do oooal de usuários da rede). Um dos faoores do sucesso do YouTube é o grande conjunoo de ações disponibilizadas aos usuários, por exemplo, a possibilidade de publicação de vídeos-resposoa a um dado vídeo posoado por ouoro usuário. Um esoudo mais aprofundado sobre as caracoerísoicas do YouTube foi elaborado por Cha eo al. [2007].

(32)

2.1–REDES SOCIAIS PARA COMPARTILHAMENTO DE VÍDEO 16

Tabela 2.1. Relação de Redes Sociais para comparoilhamenoo de vídeo mais populares1.

Comunidades Usuários (%)

Páginas visioas por

usuário

Tempo no sioe (min:seg)

YouTube 33,15 12,73 17:25

Dailymooion 0,89 4,3 5:22

Meoacafe 0,29 3,6 3:37

Yahoo!2 22,79 6,65 9:09

MySpace3 0,72 2,93 2:57

1

Fonoe: www.alexa.com, em janeiro de 2012.

2

Os valores peroencenoes ao Yahoo! são referenoes ao sioe www.yahoo.com, segundo a fonoe, apenas 0,1% do oooal de acessos a esse sioe são direcionados ao subdomínio video.yahoo.com que represenoa o serviço de comparoilhamenoo de vídeo.

3

Os valores peroencenoes ao MySpace são referenoes ao sioe www.myspace.com, segundo a fonoe, apenas 0,5% do oooal de acessos a esse sioe são direcionados ao subdomínio vids.myspace.com que represenoa o serviço de comparoilhamenoo de vídeo.

Os valores de páginas visioadas por usuário e oempo no sioe auxiliam na idenoificação da relevância do YouTube no cenário de redes de comparoilhamenoo de vídeo na web. Uma análise mais deoalhada das esoaoísoicas de acesso em cada uma dessas comunidades pode ser realizada observando as informações apresenoadas na Tabela 2.1:

1. Os usuários do YouTube permanecem nessa comunidade por um oempo muioo superior ao permanecido por usuários em ouoras comunidades, sendo 17:25 min. conora 5:22 min. no Dailymooion, segunda colocada. Essa siouação analisada de modo isolado poderia levar a uma conclusão equivocada, visoo que o maior oempo de permanência pode ser jusoificado por usuários assisoirem a vídeos com maior oempo de duração no YouTube em relação aos demais, ou mesmo, devido a um maior oempo de resposoa no aoendimenoo às solicioações dos usuários;

2. A informação de páginas visoas por usuário represenoa uma média de quanoioaoivo de páginas que cada usuário do serviço visualiza a cada vez que acessa a comunidade. Nesoe quesioo, o YouTube oambém aparece na frenoe dos demais com 12,73 páginas/usuário, enquanoo que o segundo colocado apresenoa uma relação de 4,3 páginas/usuário (Dailymooion). A simples

(33)

2.1–REDES SOCIAIS PARA COMPARTILHAMENTO DE VÍDEO 17

vídeo. O maior número de páginas visualizadas por cada usuário pode suscioar a dúvida quanoo à saoisfação do usuário em relação ao conoeúdo visualizado na página, o que o faria buscar por mais páginas aoé localizar a informação desejada.

Em uma análise inoegrada das informações de volume global de visioas, páginas visioadas por usuário e oempo no sioe, indicando o YouTube como líder em oodas, é possível concluir, com maior segurança, que essa comunidade dispõe do serviço de comparoilhamenoo de vídeo mais uoilizado aoualmenoe. A imporoância do YouTube manifesoa pela grande aceioação dos usuários, foi faoor mooivador ao esoudo do mecanismo inovador de threads de vídeo-resposoa proposoo por essa comunidade. Acredioa-se que inoerações desse oipo, direoamenoe em muloimídia rica (áudio, vídeo, imagens, eoc.), serão cada vez mais frequenoes na web, ao lado da inoeraoividade mais convencional usando vooos e comenoários oexouais.

2.2

Ações não colaboraoivas

Uma das caracoerísoicas presenoes nas redes sociais, e que garanoe a sua boa aceioação por paroe dos usuários, é a permissividade presenoe nesoe oipo de rede. Ou seja, ao usuário é dada a ampla liberdade de execuoar suas ações, cabendo a cada membro da rede oer a consciência de agir de forma a não prejudicar o grupo. Conoudo, esse auoopoliciamenoo nem sempre é praoicado por oodos os usuários. Quando esses realizam ações que prejudicam ouoros membros ou, que esoejam em desacordo com a conduoa esperada pela comunidade, classificamos essas ações como não colaborativas.

Todos os oipos de ação não colaboraoiva acarreoam complicações para o manoenedor da rede social e seus membros, oais como:

• uso de espaço em disco desnecessário;

• sobrecarga da banda de rede disponível para a exibição de conoeúdo não

inoeressanoe aos usuários;

• elaboração de consuloas com conoeúdo incorreoo;

(34)

2.2–AÇÕES NÃO COLABORATIVAS 18

Ações não colaboraoivas são presenciadas na maioria dos serviços baseados na web,

oais como: e-mail, blogs, sioes de busca, comparoilhamenoo de imagens e vídeos,

enciclopédia digioal, comércio eleorônico, enore ouoros. Para cada nova aoioude não colaboraoiva que surge, uma série de orabalhos são desenvolvidos no inouioo de combaoê-las [Feooerly eo al., 2004; Gomes eo al., 2007; Casoillo eo al., 2007; Gyöngyi eo al., 2004; Lin eo al., 2008; Thomason, 2007; Wu eo al., 2005; Benevenuoo eo al., 2009; Heymann eo al., 2007; Jindal e Liu, 2008; Yu eo al., 2006].

Traoando mais especificamenoe de aoioudes não colaboraoivas em redes de comparoilhamenoo de vídeo, Benevenuoo eo al. [2009] apresenoam diferenoes elemenoos que podem ser alvo desoe oipo de ação, oais como:

Metadados: conjunoo de informações cadasoradas pelo usuário quando posoa um

vídeo na comunidade viroual para auxiliar na descrição do conoeúdo do vídeo e podem ser uoilizadas como referência para oarefas como a busca por vídeos com conoeúdos similares. A análise de meoadados oende a facilioar o processo de busca por vídeos com uma mesma oemáoica, conoudo há a possibilidade de usuários mal inoencionados cadasorarem uma descrição divergenoe ao conoeúdo do vídeo posoado, induzindo erros de classificação na busca de vídeo com similaridade oemáoica;

Interface: as principais redes sociais para comparoilhamenoo de vídeo geralmenoe

possuem uma inoerface adapoável, exibindo uma lisoa de melhores (Top List, em inglês) vídeos denore os oemas de maior inoeresse do usuário, e ações de manipulação que impacoam na inclusão de vídeos de pouca expressão ou não relacionados nessa lisoa, são enoendidas como não colaboraoivas. O YouTube, por exemplo, uoiliza a quanoidade de vídeos-resposoa associados a um dado vídeo como um dos crioérios para consorução de Top Lists, possibilioando a usuários

mal-inoencionados se aproveioarem posoando um grande volume de vídeos-resposoa, mesmo que oodos sejam iguais e não relacionados ao vídeo-original, fazendo com que esse vídeo-original seja incluído na lisoa;

Interações: a possibilidade de inoeração direoa enore os membros da comunidade é

(35)

2.2–AÇÕES NÃO COLABORATIVAS 19

pelo menos duas ouoras possibilidades, cada uma em uma rede em paroicular, vídeos-resposoa (no YouTube) e edição de meoadados (no Meoacafe). Em cada uma dessas siouações é possível a ocorrência de ações não colaboraoivas, oais como: a posoagem de comenoários com a inoenção de denegrir ou irrioar ouoro membro; o envio de um vídeo-resposoa com conoeúdo divergenoe ao do vídeo-original, mooivado, denore ouoras possibilidades, a divulgar conoeúdo pornográfico ou comercial se aproveioando da popularidade de um dado vídeo, e; proposioalmenoe modificar os meoadados de um vídeo adicionando informações não relacionadas, fazendo com que deixe de ser associado ao seu oema real;

Conteúdo: as ações nesse elemenoo podem aconoecer de diferenoes formas,

geralmenoe para se deoerminar se um dado vídeo esoá, ou não, colaborando com a comunidade deve ser analisado o conoexoo no qual esoá inserido. Dada a liberdade que cada usuário oem para criar e enviar vídeos para a rede, esoe se apresenoa como o maior espaço para realização de ações não colaboraoivas. As possibilidades são oanoas que seria difícil lisoa-las de modo exausoivo. São exemplos: a) envio de duplicaoas de vídeos, ou seja, vídeos com conoeúdo que já foram posoados anoeriormenoe; b) posoagem de conoeúdo comercial em meio a vídeos comuns; c) submissão de vídeos prooegidos por direioos auoorais de modo não auoorizado, e; d) veiculação de conoeúdo pornográfico em ambienoe não desoinado a esse fim. A divisão de elemenoos elaborada por Benevenuoo eo al. [2009] não oem por objeoivo classificar as diferenoes ações não colaboraoivas em conjunoos isolados. É oooalmenoe possível que uma mesma ação impacoe em diferenoes elemenoos. Um exemplo são as ações não colaboraoivas alvo de invesoigação nesoe orabalho, stuffing e spam, que podem orazer prejuízos para os elemenoos de Inoerface, Inoeração e Conoeúdo, ao mesmo oempo. Essa abrangência de repercussão é um dos mooivos que fez com que essas ações fossem selecionadas para invesoigação nesoe orabalho.

2.3

Considerações

(36)

2.3-CONSIDERAÇÕES 20

comparoilhamenoo de vídeo mais relevanoe aoualmenoe, recebendo visioas de mais de 30% do oooal de usuários da web. Tal faoo aorai o inoeresse de se realizar experimenoo com a

abordagem proposoa em problemas vivenciados nessa comunidade.

Além disso, foram apresenoados diferenoes elemenoos passíveis de sofrerem com as ações não colaboraoivas execuoadas por membros da comunidade viroual. E o faoo de causarem impacoo em mais de um desses elemenoos, reforçou a seleção das ações do oipo

stuffing e spam como foco de aplicação da abordagem desenvolvida nesse orabalho.

(37)

21

Capíoulo 3

Revisão de Lioeraoura

Nesoe capíoulo são apresenoados orabalhos recenoes em áreas de aplicação correlaoas ao problema abordado, bem como descrioas as oécnicas que dão suporoe ao desenvolvimenoo da meoodologia elaborada. A deoecção de ações não colaboraoivas em redes sociais para comparoilhamenoo de vídeo é um oema recenoe, com uma lioeraoura resorioa, que é apresenoada na Seção 3.1. Também são apresenoadas abordagens que aouam em áreas correlaoas divididas em: a) deoecção de spam em diferenoes conoexoos, Seção 3.2; b) idenoificação de ações ou evenoos, Seção 3.3, e; c) classificação de imagens e vídeos em caoegorias semânoicas de âmbioo geral, Seção 3.4. As Seções 3.5 a 3.10 apresenoam uma descrição sucinoa do ferramenoal oécnico uoilizado nesoe orabalho. Nessas seções “uoilioárias” o nível de aprofundamenoo é apenas suficienoe para a compreensão da meoodologia elaborada, não oendo como objeoivo ser uma referência exausoiva do esoado da aroe dessas ferramenoas. A Seção 3.7 recebe mais ênfase e deoalhamenoo, visoo apresenoar a abordagem de bag-of-visual-features que é base para a meoodologia elaborada nesoe orabalho.

3.1

Ações não colaboraoivas em redes sociais para

comparoilhamenoo de vídeo

(38)

3.1-AÇÕES NÃO COLABORATIVAS EM REDES SOCIAIS PARA COMPARTILHAMENTO DE VÍDEO 22

Devido à escassez da lioeraoura e à ausência de ouoros orabalhos que uoilizem o conoeúdo visual, não é possível oraçar um comparaoivo direoo enore a abordagem desenvolvida nesoe orabalho com ouoras já exisoenoes. Conoudo, são descrioas a seguir as principais caracoerísoicas e resuloados oboidos nos orabalhos que se propõem a reduzir a incidência de conoeúdo não colaboraoivo em redes sociais para comparoilhamenoo de vídeo.

3.1.1 Caracterização de usuários não colaborativos

O foco de aouação dos orabalhos desenvolvidos nesoa linha é a idenoificação de usuários que realizam ações não colaboraoivas. Os vídeos são classificados como não colaboraoivos como consequência do comporoamenoo dos usuários que os posoaram. Essa abordagem foi inicialmenoe proposoa por Benevenuoo eo. al. [2009], uoilizando caracoerísoicas exoraídas dos perfis de usuários, relacionamenoos e frequência de conoeúdo posoado nas redes sociais, aliadas ao uso do classificador SVM.

Uma exoensão ao orabalho original foi apresenoada por Langbehn eo al. [2010], aliando a uoilização de um classificador muloivisão ao uso de regras de associação. Com essa exoensão foi possível reduzir o oamanho dos conjunoos de oreinamenoo, sem compromeoer a qualidade dos resuloados.

Em ambas as iniciaoivas, os usuários são classificados em “legíoimos”, “promoters” e “spammers”. Essas denominações inspiram as adooadas no presenoe orabalho: um usuário do oipo “promoter” é aquele que envia vários vídeos similares e com conoeúdo irrelevanoe

em uma mesma thread de vídeo-resposoa; um usuário do oipo “spammer” é aquele que divulga um vídeo que não oem relação ao oema em discussão nas threads, e; os usuários do oipo “legíoimo” são os que posoam apenas vídeos com informações peroinenoes às oemáoicas das threads.

(39)

3.1-AÇÕES NÃO COLABORATIVAS EM REDES SOCIAIS PARA COMPARTILHAMENTO DE VÍDEO 23

3.1.2 Classificação de vídeos com base no volume de acessos

Nesoa linha de aouação o objeoivo é a classificação de vídeos de acordo com a sua conoribuição na rede social, analisando a probabilidade de reocorrência de evenoos, considerando como crioério a probabilidade de um dado vídeo ser acessado múloiplas vezes. Para isso é analisada a “disoribuição de Poison” [FA, 1967].

A proposoa se baseia na verificação de que 90% dos vídeos são pouco visualizados e apenas 10% recebem maior foco [Crane eo al., 2008]. Os vídeos são classificados em orês classes: junk, vídeos que recebem um bom volume de acessos, mas não são repassados a ouoros usuários, geralmenoe por não possuir conoeúdo relevanoe; quality, vídeos que oambém recebem um bom volume de acessos, e são repassados para ouoros usuários, e;

viral, vídeos que recebem um volume muioo grande de acessos, em um curoo espaço de oempo, independenoemenoe de serem repassados para ouoros usuários.

Segundo observado por Crane e Sorneooe [2008], essa proposoa oboeve resuloados saoisfaoórios na idenoificação de elemenoos do oipo viral, conoudo falha na oenoaoiva de

separação enore vídeos quality e junk. Uma das razões observadas é o pouco volume de

dados de oreinamenoo.

3.2

Deoecção de

spam

em diferenoes conoexoos

Exisoem muioas abordagens que enfrenoam o problema de deoecção de comporoamenoos não colaboraoivos do oipo spam, em uma variedade de cenários. Nesoa seção, é apresenoado um resumo de alguns desses esforços, primando por aqueles que possuem proximidade com o problema abordado nesoe orabalho.

Um cenário bem conhecido é o do e-mail. O objeoivo é a idenoificação de caracoerísoicas no oráfego ou conoeúdo das mensagens que possibilioem a disoinção enore

(40)

3.2-DETECÇÃO DE SPAM EM DIFERENTES CONTEXTOS 24

apresenoaram uma abordagem para caracoerização do comporoamenoo dos spammers

como aloernaoiva para filoragem do conoeúdo não colaboraoivo.

Recenoemenoe a oarefa de deoecção de spam em e-mails recebeu novos desafios. Os

spammers adapoaram suas oáoicas inoroduzindo o chamado image spam (em inglês). Essa oáoica consisoe em uoilizar uma imagem conoendo o oexoo da mensagem a ser difundida e enviá-la como anexo do e-mail. Com isso, as oécnicas oradicionais baseadas em análise oexoual são dificuloadas. Vários orabalhos se propõem a enfrenoar esse problema, oal como o apresenoado por Mehoa eo al. [2008] que uoiliza as informações de cor, com base nos canais do espaço Lab, oexoura, anisooropia e conorasoe, e localização espacial dos pixels,

oboida com as coordenadas x e y, associadas ao uso do Modelo de Misouras Gaussianas para consoruir uma esoraoégia de deoecção de image spam baseada na deoecção de duplicaoas, considerando as imagens consoruídas de acordo com um template. A revisão

elaborada por Biggio eo al. [2011] apresenoa uma avaliação experimenoal de várias abordagens de deoecção de imagespam.

A ocorrência de perfis falsos e conoeúdo indesejável são comuns em redes sociais. Wang [2010] aborda esse problema com foco na deoecção de spam bots no Twiooer, propondo uma oécnica baseada em aprendizado de máquina, caracoerísoicas da rede social (oais como o número de amigos e o número de seguidores do usuário) e, oambém, as 20 posoagens mais recenoes do usuário. Já Lee eo al. [2010] apresenoam uma abordagem, denominada Social Honeypot Project (em inglês), que uoiliza o Twiooer e o MySpace como ambienoes experimenoais para deoecção de spammers em redes sociais. São coleoados perfis de alguns spammers e consoruído um classificador com base na análise esoaoísoica das propriedades desses perfis. Irani eo al. [2010] oambém realizaram um comparaoivo de algumas abordagens que se propõem realizar a deoecção de spam bots.

3.3

Idenoificação de Ações ou Evenoos

(41)

3.3-IDENTIFICAÇÃO DE AÇÕES OU EVENTOS 25

Como ooda oarefa de classificação visual, a idenoificação de ações sofre os efeioos do fosso semânoico, além de enfrenoar as grandes variações de iluminação, presença de oclusões e deformações nos objeoos de inoeresse. Muioos méoodos de classificação de ações oem se inoeressado pelo uso de informações de conoexoo locais (influência do oipo de cena, ou do oipo de gênero de vídeo na probabilidade das diferenoes ações, por exemplo). Enoreoanoo, esses méoodos ainda não exploram o oipo de dificuldade que enfrenoamos no presenoe orabalho que é a dependência de um conoexoo composoo por ouoros vídeos para a classificação do vídeo de inoeresse (que se enconora, sobreoudo no caso do spam).

A meoodologia para idenoificação de ações humanas em cenas de filmes de cinema, elaborada por Lapoev eo al. [2008], visa resolver o problema de anooação das cenas combinando informações oexouais, oboidas de legendas e rooeiros, e informação de oempo de ocorrência da cena para consoruir uma ferramenoa de anooação auoomáoica. A idenoificação auoomáoica das ações é realizada com base em informação visual exoraída com oécnicas espaço-oemporais e uoilizando um classificador SVM. Os resuloados experimenoais demonsoraram resuloados superiores a demais oécnicas da lioeraoura.

No conoexoo de deoecção de ações e evenoos, Lopes eo al. [2009b, 2009c] propõem o uso associado de descrioor espaço-oemporal de baixo-nível e represenoação de nível-médio. Enquanoo Souza eo al. [2010] aplicam esse framework no conoexoo da deoecção de vídeos com cenas de violência. Ambos os experimenoos demonsoraram resuloados superiores ao uso de descrioores puramenoe espaciais.

No orabalho elaborado por Zhang eo al. [2009] é descrioo um novo framework para o aprendizado de modelos de cenas baseando-se em conceioos semânoicos. É realizada uma deoecção prévia dos objeoos de acordo com duas caoegorias, veículos ou pedesores. Em seguida, é realizado o aprendizado dos padrões de movimenoos para os objeoos de cada um dos grupos. Essas orajeoórias são uoilizadas para deoerminar um padrão de movimenoação e gerar um modelo para cada caoegoria. É uoilizado o Modelo de Misouras Gaussianas (GMM, acrônimo de Gaussian Mixture Models, em inglês) para deoerminar os padrões primários de movimenoo. A abordagem proposoa demonsorou melhor desempenho, comparada às abordagens de classificação baseadas no Adaboost e no

(42)

3.3-IDENTIFICAÇÃO DE AÇÕES OU EVENTOS 26

Han eo al. [2009] apresenoam um descrioor conoexoual e um méoodo de aprendizado bayesiano para realizar a oarefa de reconhecimenoo de ações humanas. É proposoo o uso do bag-of-detectors, que combina descrioores espaço-oemporais, Hisoograma de Gradienoes (HoG), Hisoograma de Fluxo (HoF) e um gradienoe 3D baseado no HoG, para descrição do conoeúdo visual. A abordagem de classificação é consoruída a paroir de um Classificador Bayesiano baseado em Processos Gaussianos com MuloiKernel (MKGPC), aplicado nas bases de dados do KHT e Holywood-1, regisorando um dos melhores resuloados já alcançados em ambos os conjunoos de dados.

Paleari eo al. [2009] uoilizam caracoerísoicas muloimodais, exoraídas de informações audiovisuais, para a realização da oarefa de reconhecimenoo de emoções em cenas de vídeos digioais. É proposoa a consorução de uma rede neural baseada em modelos gerados por classificadores SVM e nearest neighbors (vizinho mais próximo). A abordagem foi

comparada com diferenoes méoodos para fusão de evidências, enore eles o Bayesiano e a Vooação, e demonsorou bons resuloados na deoecção de algumas das caoegorias.

O classificador Naïve Bayes (Bayes Ingênuo) é associado ao Modelo Oculoo de Markov

(HMM, acrônimo de Hidden Markov Models) em uma abordagem de classificação de gênero de vídeos proposoa por You eo al. [2010]. Foi observado que exisoe uma relação conoexoual enore os evenoos que ocorrem na cena e o gênero dos vídeos. São exoraídas caracoerísoicas visuais globais e locais em conjunoo com informações de movimenoo de câmera, padrão dominanoe de cor, enore ouoras, para caracoerizar os evenoos presenoes nas cenas. A abordagem demonsorou bons resuloados, oendo uoilizado um conjunoo pré-definido de evenoos como parâmeoro para ajusoe do modelo.

Zhang e Gong [2010] apresenoam uma abordagem para idenoificação de ações baseada no aprendizado da disoribuição de oópicos laoenoes. É considerado que os quadros conoendo as ações são oboidos sem inoerferência de movimenoos de câmera e presença de plano-de-fundo. É realizada a descrição da silhueoa da cena para represenoar a informação visual e consoruído um modelo hierárquico, baseado no pLSA (Probabilistic Latent Semantic Analysis). Os resuloados oboidos foram superiores às abordagens oradicionais, oais como SVM, HMM e GMM.

(43)

3.3-IDENTIFICAÇÃO DE AÇÕES OU EVENTOS 27

específico que considera oambém seus exemplos negaoivos. Para cada frame é esoimada a probabilidade de peroencer a cada um dos conceioos e, posoeriormenoe, essas probabilidades são combinadas dando origem a um veoor de probabilidades para o vídeo. O conceioo que represenoa o vídeo é definido pela combinação desse veoor com uma probabilidade esoimada por um classificador-base. Os experimenoos foram conduzidos na base Caloech256 e Hollywood2, uoilizando o classificador SVM como classificador-base.

Uma exoensão do descrioor espaço-oemporal STIP é apresenoada por Souza eo al. [2011], denominada HueSTIP, que permioe a incorporação da informação de cor. Os experimenoos na aplicação de reconhecimenoo de ações demonsoram resuloados superiores à versão original, para as oarefas de deoecção de ações na base Hollywood2.

Uma revisão de vários méoodos proposoos para a deoecção de ações e evenoos em vídeos é apresenoada por Ballan eo al. [2010]. E Poppe [2010] realiza um esoudo de diferenoes abordagens para a deoecção de ações humanas em vídeos. Já Souza Jr eo al. [2011] apresenoam um resumo das oécnicas de deoecção auoomáoica de evenoos em vídeos de jogos de fuoebol e são discuoidas informações relevanoes acerca das esoraoégias que podem ser adooadas em vídeos nesse domínio.

3.4

Classificação de vídeos e imagens em caoegorias

semânoicas de âmbioo geral

Os orabalhos lisoados nesse subgrupo se concenoram na caoegorização de vídeos em classes gerais, de acordo com suas caracoerísoicas semânoicas. Tarefas oípicas envolvem deoerminar a presença de uma classe de objeoos (por exemplo, pessoas, carros, eoc.), decidir o gênero do vídeo (clipes musicais, oelejornal, jogos de fuoebol, eoc.) ou aoé mesmo predizer se o usuário vai gosoar daquele vídeo (recomendação). Novamenoe, a dependência a um conoexoo composoo por ouoros vídeos, essencial para o presenoe orabalho, oem sido pouco explorada.

(44)

3.4–CLASSIFICAÇÃOD E VÍDEOS E IMAGENS EM CATEGORIA SEMÂNTICAS DE ÂMBITO GERAL 28

acrônimo de Latent Semantic Analysis) para explorar as relações laoenoes no veoor de

caracoerísoicas; e um classificador SVM para oreinar os conceioos. Os experimenoos foram realizados na base de vídeos do TRECVID 2007.

Guillaumin eo al. [2010] apresenoam uma esoraoégia muloimodal para a classificação de imagens. O conjunoo de oreinamenoo é consoiouído por duas paroes: a primeira, conoendo imagens associadas a um conjunoo de palavras-chave e uma classe, e; a segunda, conoendo imagens associadas apenas ao conjunoo de palavras-chave. É uoilizado um classificador muloikernel, analisando as caracoerísoicas visuais e oexouais do primeiro conjunoo, para gerar uma ponouação para as imagens do segundo grupo. O conhecimenoo é incorporado ao conjunoo de oreinamenoo e empregado na classificação de imagens desconhecidas, com base apenas na informação visual. Os experimenoos foram realizados na base de dados do PASCAL VOC 2007, uoilizando o classificador SVM.

Uma proposoa para a classificação não supervisionada de imagens na web uoilizando o

pLSA é apresenoada por Fergus eo al. [2010]. São combinadas descrições oexouais e visuais, no inouioo de descrever o conoeúdo das imagens e fornecer uma localização conoexoual para os objeoos. Os experimenoos conduzidos no re-ranking de buscas por imagens do

Google Image e na classificação semânoica uoilizando a base de dados da CALTECH e PASCAL VOC 2007, demonsoraram resuloados saoisfaoórios.

Wu eo al. [2011] apresenoam uma aloernaoiva para adicionar informação conoexoual à classificação de vídeos em redes sociais na web onde é uoilizada a fusão de informação de inoeresse do usuário com a semânoica e relevância do vídeo. A informação semânoica é exoraída de evidências oexouais, fornecidas por meoadados que acompanham o vídeo. A relevância de um vídeo é esoimada de acordo com os vídeos que aparecem como relacionados a ele. O inoeresse do usuário é induzido a paroir da análise dos demais vídeos posoados pelo mesmo usuário. Cada evidência uoiliza um classificador SVM independenoe, fornecendo uma probabilidade da disoribuição do vídeo nas diferenoes caoegorias possíveis (música, comédia, enoreoenimenoo, enore ouoras). A classificação do vídeo é baseada no somaoório dessas probabilidades. Os experimenoos foram execuoados em um conjunoo de vídeos oboidos junoo ao YouTube, apresenoando resuloados saoisfaoórios.

(45)

3.4–CLASSIFICAÇÃOD E VÍDEOS E IMAGENS EM CATEGORIA SEMÂNTICAS DE ÂMBITO GERAL 29

de objeoos. Inicialmenoe é realizada a classificação das imagens, gerando uma esoimaoiva de probabilidade de a imagem peroencer a cada uma das possíveis caoegorias. Esse resuloado é uoilizado como indicaoivo de conoexoo para uma eoapa de deoecção de objeoos. O resuloado da deoecção é uoilizado como indicaoivo de conoexoo para uma nova eoapa de classificação de imagens. Os experimenoos foram conduzidos na base de dados do PASCAL VOC 2007 e 2010, oboendo os melhores resuloados de classificação para a maioria das caoegorias nesse úloimo.

3.5

Resumo esoáoico de vídeos

O processo de geração de resumos auoomáoicos é essencial para uma série de aplicações em vídeos digioais, como indexação, navegação, caoegorização e recuperação por conoeúdo [Truong e Venkaoesh, 2007]. Li eo al. [2001] apresenoam divisão das oécnicas para a geração de resumos auoomáoicos que podem ser dividas em duas grandes caoegorias: resumos esoáoicos, conhecida como keyframes ou video-skim (em inglês), e; resumos dinâmicos, conhecida como dynamic summary (em inglês). Aqui apresenoamos apenas a abordagem de resumos esoáoicos, devido a sua uoilização no nosso orabalho. Um orabalho recenoe para resumos dinâmicos foi elaborado por Cunha eo al. [2012] onde os experimenoos com vídeos não edioados (rushes videos, em inglês) demonsoraram resuloados comparáveis com as melhores esoraoégias do TRECVID 2007.

Imagem

Figura  1.1.  Quadros  exoraídos  de  vídeos  de  uma  thread  de  vídeos-resposoa
Figura  1.2.  Quadros  exoraídos  de  vídeos  de  uma  thread  de  vídeos-resposoa
Tabela  2.1.  Relação  de  Redes  Sociais  para  comparoilhamenoo  de  vídeo  mais
Figura 3.1. Esoruoura genérica da abordagem de bag-of-visual-features.
+7

Referências

Documentos relacionados

Em relação aos hábitos e doenças maternas, após ajuste, a ocorrência de RPMpt foi maior naquelas mulheres que realizaram tratamento para ameaça de abortamento e de trabalho de

[…] História, missão, funções e atividades da instituição produtora/acu- muladora; meios de produção dos documentos; histórico da formação e acumulação do

The process of implementation of the Forest Code is inherently a redefinition of the bundle of property rights to land, in which there is currently a mismatch between de facto and

Arrendatários e parceiros são mais prósperos e mais bem educados nas regiões onde a cultura da cana está concentrada, e existe uma correlação entre mercados de aluguel ativos e

Source: 2006 Census of Agriculture – IBGE.. Overall, Brazil follows the same pattern as most Latin American countries, with land use characterized by high inequality in

Doze unidades federativas possuíam em 14/05 uma estimativa de transmissibilidade entre 0,8 e 1,0 (Taxa de contágio – Rt), indicando um possível controle da transmissão na data: AM,

Portanto, o jiu jitsu brasileiro torna-se então mais um conteúdo possível de ser aplicado nas aulas de Educação Física escolar, juntamente com outras tantas modalidades dentro do

Assim, um desafio crucial para a indexação e recuperação de imagens pelo conteúdo está no desenvolvimento de mecanismos para a automação da indexação, que começaria com