SISTEMAS PAR-A-PAR DE VÍDEO AO VIVO A
PREDIÇO DO NÍVEL DE COOPERAÇO EM
SISTEMAS PAR-A-PAR DE VÍDEO AO VIVO A
PARTIR DE MÉTRICAS DE CENTRALIDADE
Dissertação apresentada ao Programa de
Pós-GraduaçãoemCiêniadaComputação
do Instituto de Ciênias Exatas da
UniversidadeFederaldeMinasGeraisomo
requisitoparialparaaobtençãodograude
Mestre emCiênia daComputação.
Orientadora: Jussara Marques de Almeida
Coorientador: Alex Borges Vieira
2012, GlauberDias Gonçalves.
Todos os direitosreservados.
Gonçalves, GlauberDias.
G635p PrediçãodoNível de Cooperação emSistemas
Par-a-Par de Vídeo ao Vivoa partir de Métrias de
Centralidade. / Glauber DiasGonçalves. Belo
Horizonte, 2012.
xiv, 71f. : il.; 29m
Dissertação(mestrado) Universidade Federal de
Minas Gerais. Departamento de Ciêniada
Computação.
Orientadora: Jussara Marques de Almeida.
Coorientador: Alex Borges Vieira.
1. Computação- Teses. 2. Videodigital Teses.
3. Sistemasde transmissão de dados Teses.
I. Orientador. II. Coorientador. III. Título.
Gabriela, pelo amor, arinho e inentivo, sabendo administrar om rmeza os muitos
Aos meus pais Hilton e Juéia, pela presença diária em minha vida, mesmo estando
distantes.
Aosmeus irmãos Glauioe Glauia,peloapoioe inentivo.
Aosmeus familiares em Belo Horizonte, peloarinho eaolhimento.
AAnna Guimarães(minhaalunade iniiaçãoientía),pelaajudaepaiênia
em boaparte desse mestrado.
Aos meus olegas de laboratório (VoD) João, Flávio, Henrique, Kênia, Éder e
Fabiano,peloauxílioe bons momentos ompartilhados.
À professora Dra. Jussara Almeida, pela orientação, pela ompreensão durante
estes dois anos e meio de onvivênia epelos valiosos ensinamentos passados.
Ao professor Dr. Alex Borges, pela oorientação e inentivo nos momentos
difíeis.
Aoprofessor Dr. ÍtaloCunha, pelovalioso auxílioténioe onselhos.
AoConselho NaionaldeDesenvolvimentoCientíoeTenológio(CNPq), pela
mas pensar o queninguém ainda pensou sobre aquilo quetodo mundo vê.
AarquiteturaP2Pvemsendoutilizadaomsuessoparadiminuirosustoseaumentar
a esalabilidade dos sistemas de distribuição de vídeo ao vivo pela Internet. Nesses
sistemas, os partiipantes em uma transmissão ao vivo (pares) troam segmentos do
vídeo entre si e ooperam para a distribuição do onteúdo. Alguns desses sistemas
adotam meanismos de inentivo à ooperação dos pares, provendo uma qualidade de
serviço difereniada aos pares mais ooperativos. Para medir o nível de ooperação
dos pares, esses sistemas utilizam apenas as taxas de upload e download oletadas
periodiamente. Contudo, taismedidaspodem ser suseptíveis afalsiaçãoporparte
de pares maliiosos. Esta dissertação investiga meios alternativos para prever o nível
de ooperação dos pares sem onar espeiamente nas taxas de upload e download.
Em partiular, é investigado o potenial de utilizar propriedades topológias da rede
sobreposta para predizer o nível de ooperação dos pares om preisão razoável. As
métrias de entralidade grau, betweenness e proximidade foram utilizadas para a
predição, pois elas indiam a importânia relativa de um par na rede, onsiderando a
sua posiçãonatopologiaounúmero de parerias. Foramrealizados experimentospara
oletar dados de uma das mais populares apliações P2P de vídeo ao vivo, SopCast,
usando um grande número de máquinas do PlanetLab. A partir desses dados, foi
mostradoqueasmétriasde entralidadedeumpartêmumaorrelaçãoaltaomoseu
nívelde ooperação,medidopela razãoda taxade upload pordownload, duranteuma
janela de tempo preestabeleida. A métria grau de saída, espeiamente, foi a que
mostrou maior orrelação. Alémdisso, essa métria se mantém razoavelmente estável
ao longo de janelas de tempoonseutivas. Tendo essas informaçõesomo motivação,
foramdesenvolvidosmodelosbaseadosemregressãoparapredizeroníveldeooperação
de um par na janela de tempo seguinte, dado o seu grau de saída oletado na última
janela de tempo. Os dados oletados foram utilizados para avaliar os modelos e um
modelo polinomial de grau quatro foi o mais preiso. As propriedades topológias da
rede sobreposta aindaforamexploradaspara adeteção de paresmaliiososqueagem
The P2P arhiteture has been used suessfully to redue osts and inrease the
salabilityofInternet livestreaming systems. In aP2Plivetransmission,users(peers)
exhangevideohunks amongthemselvesand ooperate withthe system todistribute
the media ontent. Some P2P streaming systems adopt inentive mehanisms,
providingadierentiatedqualityofservieformoreooperativepeers. Tomeasurethe
levelof ooperationofpeers, thesesystemstypiallyuseonlytheuploadanddownload
rates, olletedperiodiallyfrompeers. However, suhmeasures maybesuseptibleto
maliiouspeersthatlieabouttheirooperation. Inthiswork,weinvestigatealternative
methodstopreditthelevelofooperationofpeerswithoutrelyingspeiallyontheir
upload and downloadrates. Inpartiular, we assessthe potentialbenetof exploiting
topologialpropertiesofthe P2Poverlaynetworktopredit,withreasonableauray,
the level of ooperation of peers. To that end, we use the entrality metris degree,
betweenness and loseness, as they apture the relative importane of a peer in the
network,onsideringitspositioninthe topologyornumberof partnerships. Ourstudy
relies ondata olleted from one of the urrently most popular P2Plive appliations,
i.e., SopCast, using a large number of Planetlab mahines. We rst show that there
is a high orrelation between the entrality of a peer and its level of ooperation,
whih is dened as the ratio of the total upload to the total download tras the
peer exhanged with its partners. Speially, the out-degree metri has the highest
orrelation. Furthermore, this metri remainsreasonably stable over onseutive time
windows. Motivated by these ndings, we then develop regression-based models to
preditthelevelofooperationofapeerinatimewindowgivenitsout-degreeolleted
inthe previouswindow. Usingourolleteddata, weevaluatethemodels, ndingthat
afourthdegreepolynomialmodelisthemostaurateone. Wealsoexploittopologial
properties of overlay network to detet maliious peers that ollude to inrease their
2.1 ArquiteturaP2P baseada em árvore. . . 8
2.2 ArquiteturaP2P baseada em múltiplasárvore om dois subuxos . . . 9
2.3 ArquiteturaP2P baseada em malha. . . 9
3.1 Histogramas do tamanho de paotes reebidos e enviados por três
omputadores em uma transmissão de vídeo no sistema SopCast durante
uma hora. . . 25
3.2 NC medido em um determinado par om janelas de tempo
W
igual a 2 e30segundos . . . 29
3.3 Distribuiçãodooeientede variaçãodonívelde ooperaçãodos paresem
janelas de tempodiferentes . . . 30
3.4 Distribuição do nível de ooperação dos pares em janelas de tempo om
durações(
W
) diferentes . . . 314.1 Distribuição dos oeientes de orrelação de Spearman entre medidas de
entralidade evalores de NC obtidosemtodas asjanelas de tempo . . . . 34
4.2 Distribuiçãodasmedidasde entralidadeporparesagrupadosemdiferentes
níveis de ooperação (
W
= 60
segundos) . . . 354.3 Distribuição do módulo da diferença entre o grau de saída dos pares em
janelas de tempo
t
et
+
k
(W
= 60
segundos) . . . 364.4 Relaçãoentre ograu de saída ea ooperação emjanelas de tempo típias. 37
4.5 Metodologiadeavaliaçãodomodeloondeasletras
T, C, A
signiamtreino,oleta eavaliação,respespetivamente. . . 39
4.6 Distribuiçãodoserros deprediçãoparaosmodelosexponenialequádruplo
(
W
= 60
segundos).. . . 404.7 Distribuição dos erros de predição para a ategoria de pares muito
ooperativosom
NC
≥
10
(W
= 60
segundos). . . 41parâmetro
a
0
(Equação 4.3) esem esse parâmetro (Equação 4.6). . . 434.10 Distribuição dos erros de predição para janelas de tempo om tamanhos
diferentes
W
. . . 444.11 Valores de
NC
preditos versus medidos . . . 454.12 Distribuiçãodos erros de predição emfunção doperíodoem que o modelo
éalibrado dadopor
kW
(W
=60
). . . 464.13 Distribuiçãodos erros de predição emfunção doperíodoem que o modelo
é alibrado dado por
kW
(W
=60
segundos). Categoria de pares muitoooperativosom
NC
≥
10
. . . 474.14 Cenários de onluio om pares maliiosos beneiados (nodos esuros)
e pares maliiosos auxiliares (nodos laros). Em (a) a maioria dos
partiipantes do onluio são beneiados, em (b) apenas dois pares são
beneiados om o onluioe osdemais pares apenas auxiliam. . . 51
4.15 Exemplo ilustrativo de uma rede P2P sobreposta para omputar
ondutânia
c
(
S
(
i
)
, t
)
, onde o nodo esuroi
e os nodos inzas formamo grupo
S
(
i
)
, as arestas traejadas são as parerias internas e as arestaspontilhadassão asparerias externas. . . 53
4.16 Relação entre as métrias grau de saída e ondutânia para os grupos de
k
% pares om o maiorgrau de saída narede . . . 544.17 Distribuições de referênia para as métrias grau de saída e ondutânia
para osgrupos de
k
%pares om o maiorgrau de saída . . . 554.18 Conguração de onluio onde um par maliioso (nodo esuro) realiza
algumas parerias verdadeiras (arestas ontínuas) om pares honestos
(nodos branos) e algumas parerias falsas (arestas traejadas) om pares
auxiliares(nodos laros) . . . 56
4.19 Porentagem dedeteção (linhasontínuas) emédiadonívelde ooperação
(NC) dos pares maliiososom uma onança de 95% (linhas pontilhadas). 57
4.20 Conguração estratégia de onluio entre um par maliioso beneiado
(nodo esuro) e pares maliiosos auxiliares (nodos laros) para aumentar
Agradeimentos vi
Resumo viii
Abstrat ix
Lista de Figuras x
Lista de Tabelas xii
1 Introdução 1
1.1 Sistemas de Distribuiçãode Vídeo . . . 1
1.2 Motivação . . . 2
1.3 Objetivos . . . 4
1.4 Contribuições . . . 5
1.5 Organização daDissertação . . . 6
2 Contextualização 7 2.1 Arquitetura P2Pde DistribuiçãoVídeo ao Vivo . . . 7
2.2 Cooperação emSistemasP2P . . . 11
2.2.1 Sistemas P2Pde Compartilhamentode Arquivos . . . 11
2.2.2 Sistemas P2Pde Vídeo aoVivo . . . 13
2.3 Métrias de Redes Complexas . . . 18
3 Análise da Cooperação no SOPCast 23 3.1 O SistemaSopCast . . . 23
3.2 Metodologia de Coleta de Dados noSopCast . . . 26
3.3 Cooperação de Pares noSopCast . . . 29
4.2.2 Metodologia de Avaliação . . . 38
4.2.3 Resultados . . . 39
4.3 Considerações Prátias . . . 47
4.4 Resistênia a Conluio . . . 50
4.4.1 Uma Abordagempara Detetar Suspeitas de Conluio . . . 52
4.4.2 Análise da Abordagempara Deteção de Conluio . . . 56
5 Considerações Finais 60 5.1 Conlusões. . . 60
5.2 Trabalhos Futuros. . . 62
Introdução
Neste apítulo serão abordados brevemente sistemas de distribuição de vídeo na
Internet. Aseguir,sãoapresentadosasprinipaismotivaçõeseobjetivosdessetrabalho,
assim omoas ontribuiçõesobtidas.
1.1 Sistemas de Distribuição de Vídeo
Distribuição de vídeo é atualmente um dos serviços mais populares na Internet.
Relatóriosreentes mostramque44%de todotráfegotransmitidoem2010foide vídeo
e as projeções para 2015 é queessa proporção aumente para 58% [Ciso, 2010℄. Logo,
vídeo pode ser o onteúdo mais onsumido na rede mundial de omputadores nos
próximos anos. Essa grande demanda impõe desaos para que a distribuição desse
onteúdo possa ser feita eientemente onsiderando os ustos, a esalabilidade e a
qualidade de serviço.
Adistribuição devídeonaInternetpode ser ategorizadaemvídeosobdemanda
ouvídeoaovivo. Nadistribuiçãosobdemanda,oonteúdoéarmazenadonoservidore
osusuáriospodemassiti-loaqualquermomento,omooorreporexemplonossistemas
Youtubee Vimeo 1
. Na distribuição ao vivo, o vídeoé distribuído emtempo real, e os
usuários que estão assistindo devem estar sinronizados om servidor do vídeo, omo
oorre porexemplo nos sistemasJustin.tv e SopCast 2
. Ambas as ategorias requerem
largura de banda alta para distribuir vídeo a muitos usuários simultaneamenteo que
aumentaos ustos, podendodiminuira esalabilidade desses sistemas. Essa demanda
é partiularmentealtanadistribuição aovivodevido às ondiçõesrestritasde entrega
de onteúdoem tempo real.
1
http://www.youtube.om,http://www.vimeo.om
2
A arquitetura lássia de serviços de distribuição de vídeo, liente-servidor, tem
se mostrado não esalável o suiente para atender a demanda desse serviço na
Internet [Silverston etal., 2009; Ullahetal., 2011℄. Isso porque, nessa arquitetura,
ada liente estabelee uma onexão exlusiva om o servidor de vídeo o que leva
a um onsumo exessivo de banda e aumento de ustos lineares om o número de
usuários simultâneos. Umaarquitetura alternativaé baseada emredes de distribuição
de onteúdo (CDN)[Liu etal., 2008℄. Nessas redes, a arga entral é distribuída em
múltiplos servidores instalados em loalizações geográas estratégias na Internet.
Assim, requisições dos usuários são redireionadas para os servidores mais próximos,
diminuindo o atraso na visualização do vídeo e a sobrearga no servidor entral.
Todavia,ainfraestruturadeumaCDNtêmustosaltosparainstalaçãoemanutenção.
A arquitetura Par-a-Par (P2P) vem sendo utilizada omo uma alternativa para
distribuir vídeo pela Internet om baixo usto e esalabilidade. Essa arquitetura é
empregada tipiamente na distribuição ao vivo, porque o fato dos usuários estarem
sinronizados na mesma parte do vídeo favoree o ompartilhamento dos fragmentos,
ou hunks do vídeoentre eles [Shen etal., 2011℄. Assim, ossistemas P2P de vídeo ao
vivo utilizama apaidadede upload dos usuários (pares)para ajudarna distribuição
do onteúdo. Quando esses pares aessam o sistema, eles estabeleem parerias,
organizando-se em uma rede virtual, sobreposta à rede físia. Um par pode soliitar
aos seus pareiros hunks da mídia, liberando o servidor entral da responsabilidade
e dos ustos assoiados de atender todos os lientes. Alguns sistemas de distribuição
de vídeo ao vivo que utilizam essa arquitetura, tais omo SopCast e PPLive 3
, são
muitopopularesatualmentenaInternet,ontandoommilharesdeusuáriosregistrados
[Borges etal.,2012℄.
1.2 Motivação
ObomfunionamentodesistemasbaseadosnaarquiteturaP2Peaqualidadedeserviço
providodependemdoomportamentodosparesenvolvidosnadistribuiçãodoonteúdo,
o que pode tornar esses sistemas suseptíveis a problemas de segurança e ooperação.
A segurança diz respeito à integridade do onteúdo. Por exemplo, Liang et al. [2005℄
destaam oproblema depoluiçãode onteúdoondepares maliiososalteramouforjam
o onteúdo sendo ompartilhado, tornando-o inútil para os demais pares da rede. A
ooperaçãodizrespeitoaoomportamentoonheidoomofree riding,termonomeado
porAdar & Huberman[2000℄para denominarparesqueusufruemdoserviço, masnão
3
ontribuem em um nívelaeitável, ouseja, reebemonteúdo dos seus pareiros, mas
não oreenviampara outros pares.
Os problemas aima menionados já foram bem estudados em sistemas P2P
de ompartilhamento de arquivos [Walsh &Sirer, 2005; Costa & Almeida, 2007;
Levin etal.,2008;Xia &Muppala,2010℄. Umadasformasdeproteçãoontrapoluição
é a veriação da autentiidade dos hunks do arquivo em onjunto om sistemas de
reputação para identiar e eliminar os pares que espalham hunks poluídos. Em
sistemasP2Pde distribuiçãode vídeoaovivoapoluiçãode onteúdo pode ser tratada
om ténias similaresàquelas utilizadasemsistemasP2P de arquivo, om asdevidas
adaptações para o ambiente de transmissão ao vivo [Borges etal., 2008; Wang et al.,
2010℄.
Oproblema de ooperaçãoentre osparesemsistemasP2Pde ompartilhamento
de arquivos vem sendo tratado om a apliação de ontribuição bilateral, e.g.
Tit-for-tat[Cohen, 2003℄, onde o par aumenta a sua probabilidade de reeber dados
dos pareiros à medida em que ele fornee dados. Contudo, Tit-for-Tat pode não
ser eiente em sistemas P2P de vídeoao vivo, pois os hunks têm utilidadedurante
um intervalo urto de tempo. Isso implia em menos hanes de troa de hunks
diferentes entre os pares [Silverston etal., 2008℄. Além disso as oportunidades de
ompartilhamento são diferentes para os pares: por exemplo, os pares próximos
ao servidor de vídeo tem hunks mais novos e interessantes do que os pares
mais distantes, ujos hunks são mais antigos e perdem a utilidade rapidamente
[Piatek &Krishnamurthy,2010℄.
Logo, a ooperação entre os pares em sistemas P2Pde vídeo aovivo vemsendo
tratado por abordagens mais espeías. Algumas delas foam em detetar pares
pouo-ooperativos [Guerraoui et al., 2010; Azzedin, 2010℄ e removê-los do sistema.
Outras foam em explorar os pares mais ooperativos e ofereer algum benefíio em
troadasuaontribuição[Piatek etal.,2010;Chatzidrossos et al.,2010℄. Emambosos
asos, essesmétodospreisamestimarperiodiamenteonívelde ooperaçãodospares,
porque ela variaao longo dotempo por motivos diferentes, tais omo pares entrando
e saindoda rede(hurn) [Stutzbah & Rejaie, 2006℄e falhasnoprotooloque ausam
desoordenação entre os pares [Pioni& Massoulié,2008; Liang et al., 2008℄.
Para estimar o nível de ooperação do par, os métodos itados aima utilizam
métrias baseadas em medições das taxas de upload e download dos pares. Alguns
deles ainda empregam meanismos de segurança para se tornarem robustos a pares
maliiosos que reportam medições falsas [Jin etal., 2006; Jin& Chan, 2010℄. Por
enquanto que no meanismo LiFTing[Guerraoui et al., 2010℄, os pares monitoram os
seus pareiros, veriando se eles repassam ada hunk reebido. Esses meanismos
de segurança aumentam a sobrearga do sistema om proessamento (odiação e
deodiação de reibos) eomuniação (envio de mensagens aos pareiros indiretos).
Dadoqueestimaraooperaçãodoparapenasommedidasdeupload edownload
aarreta emaumentode ustospara sua veriação, éinteressanteproporalternativas
para estimar a ooperação que não dependam exlusivamente dessas medidas. Uma
motivaçãoespeialparaissoéquealémdessasmedidas,sistemasP2Pdevídeooletam
periodiamente outros dados sobre os pares omo a qualidade de vídeo reebida e
parerias reentes [Wuet al., 2007; Liet al., 2008a℄. Em partiular,a oletaperiódia
das parerias permite a reonstrução da rede sobreposta em um ponto entralizado
da rede, por exemplo o traker ou o servidor de logs. Isso torna possível explorar
propriedades topológiasdarede P2Ppara obter mais informaçõessobre ospares.
Há uma série de trabalhos que araterizaram propriedades topológias da rede
sobrepostaemsistemasP2P[Stutzbah et al.,2008;Wu etal.,2008;Tang etal.,2009℄,
utilizando métrias de redes omplexas omo entralidade, agrupamento e mundo
pequeno (small worlds) [Newman, 2003℄. Dentre esses, há alguns trabalhos que
indiaram métrias promissoras para predizer o nível ooperação de um par. Por
exemplo, Oliveira et al.[2010℄eGkorou etal.[2011℄utilizammétriasde entralidade
para identiar pares importantes em uma rede P2P, respetivamente, super pares e
pares fazendo o papelde onetores darede (hubs).
Estadissertaçãotemopropósitodeavançarnousodepropriedadestopológiasda
rede P2Ppara predizer oníveldeooperaçãodos pares. Essa informaçãoéimportante
para os meanismos de inentivo em sistemas P2P de vídeo ao vivo, pois ela serve
para identiar tanto os pares muito ooperativos omo os pares pouo ooperativos
(free riders). Nesse ontexto, as métrias de entralidades serão exploradas, pois elas
informam aimportâniarelativade um par emuma rede [Freeman,1979℄. Dadoessas
métrias, esse trabalhobusa responder aseguinte pergunta:
•
As métrias de entralidadede um par podem ser exploradas para predizer ompreisão razoável o seu nível de ooperação em sistemas P2P de distribuição de
vídeo aovivo?
1.3 Objetivos
Este trabalhotem porobjetivoprinipalinvestigarouso de propriedadesdarede P2P
ooperaçãodos pares durantea distribuição de vídeo aovivo. Esse objetivo prinipal
pode ser delineado nos seguintes objetivos espeíos:
•
Propor modelos para predizer o nível de ooperação de um par utilizandopropriedades da rede P2P sobreposta. O nível de ooperação resulta da
utilização da largura de banda disponível no par pelo sistema P2P de vídeo,
e aspropriedades topológiasfoam emmétrias de entralidadedopar.
•
Utilizar propriedades da rede P2P sobreposta busando mitigar a ação paresmaliiososque venhama ataaro sistema forneendo dados falsosou agindoem
onluio.
1.4 Contribuições
As prinipais ontribuições dessa dissertação são disutidas a seguir. Algumas delas
foram publiadas nos seguintes trabalhos [Gonçalves etal., 2011,2012a,b℄.
•
Correlação de métrias de entralidade om o nível de ooperação dopar.
Foi investigada aorrelaçãoentre aentralidadede um par naredesobreposta e
o seu nível de ooperação em janelas de tempo suessivas durante transmissões
de vídeo ao vivo em um sistema P2P. O nível de ooperação de um par é
estimado pela razão entre o volume de bytes edidos (upload) pelo volume de
bytes reebidos (download) na troade dados om os pareiros. As métrias de
entralidade onsideradas foram o grau, betweenness e proximidade [Freeman,
1979℄. Essas métrias, juntamente om o nível de ooperação dos pares, foram
obtidas pormeiode experimentosom osistemaP2P de vídeoaovivo SOPCast
e omputadores do PlanetLab[Chun et al., 2003℄, omo édisutida naseção 3.2.
O grau de saída foi a métria mais orrelaionada, apresentando oeiente de
orrelação de Spearman [Kendall& Gibbons, 1975℄ maior que 0.8 em 90% das
janelas de tempo analisadas. A proximidade de saída e betweenness foram,
respetivamente, a segunda e a tereira métria mais orrelaionadas. A seção
4.1 traz as distribuições das orrelações e uma disussão mais detalhada sobre
•
Modelo de prediçãodo nívelde ooperação de umpar usando métriasde entralidade.
Foram propostos vários modelos de regressão não lineares para estimar o nível
de ooperação de um par na janela de tempo seguinte, dada sua entralidade
na última janela. Para onstruir e avaliar esse modelo foi utilizada a métria
de entralidademais orrelaionada om a ooperação,ou seja, o grau de saída.
Primeiramente foi mostrado que essa métria se mantem razoavelmente estável
ao longo de janelas de tempo onseutivas de 60 segundos. A seguir o modelo
foi onstruído e avaliado utilizando os dados oletados nos experimentos om
o sistema SOPCast. Um modelo polinomial de grau quatro foi o que obteve
melhores resultados, pois apresentou erros absolutos menores ou similares aos
demaismodelos avaliados. Omodelo desenvolvidoproduz prediçõesrazoáveisdo
nívelde ooperaçãodos pares,omo é mostrado naSeção 4.2.2.
•
Abordagem para identiar onluio de pares maliiosos usando umamétria de agrupamento.
A topologia da rede sobreposta foi ainda explorada om o objetivo de detetar
suspeitas de pares agindo emonluio narede. Nesse aso espeío, um onluio
oorrequando um grupo de pares agem oordenadamentepara formar parerias
falsas e pareerem mais ooperativos do que eles realmente são. A métria de
agrupamentoondutânia[Leskove etal.,2008℄foiutilizadaomessepropósitoe
paraavaliarasuautilizaçãoforamanalisadosenáriosdeonluio. Essamétriase
mostrouútilparadistinguirosparesmaliiososdosparesooperativoslegítimos,
emalgunsenários, omo,pares maliiososutilizandoidentidadessintétiaspara
aumentar o seu grau de saída, ou ainda, utilizando algumas parerias legítimas
para dissimular a maioriade parerias falsas.
1.5 Organização da Dissertação
Orestantedestadissertaçãoestáorganizadodaseguinteforma. OCapítulo2apresenta
umaontextualizaçãosobreaarquiteturaP2Pparadistribuiçãodevídeo,aooperação
entre ospares emsistemasP2Pe métriasde redes omplexas. OCapítulo3 desreve
ametodologiadeoletade dadosnoSopCast eanalisaonívelde ooperaçãodospares
nesse sistema. O apítulo 4 apresenta o modelo de predição do nível de ooperação
dos pares, e uma abordagem para identiar pares maliiosos em onluio. Por m, o
Contextualização
2.1 Arquitetura P2P de Distribuição Vídeo ao Vivo
OsustosparadistribuirvídeoaovivonaInternetusandoaarquiteturaliente/servidor
lássia ouredes de distribuiçãode onteúdo(CDN) são altos [Shen et al., 2011℄. Isso
motivoua busa por uma arquitetura que distribui a arga dosistema, espeialmente
a banda de rede, entre os usuários assistindo o vídeo. Assim, a arquitetura P2P
(Peer-to-Peer ou Par-a-Par) aparee omo uma alternativa viável para a distribuição
de vídeo ao vivo, já que o seu propósito fundamental é fazer om que os reursos
omputaionais sejam ompartilhados diretamente entre os usuários (pares), om o
mínimo de suporte ou intermédiode um servidorentral [Ullah etal.,2011℄.
Na arquitetura P2P, os pares são organizados em uma rede lógia sobre as
onexões físias, omumente hamada de rede sobreposta. Nessa rede, há um
partiipante espeial que produz o video ao vivo, o servidor de vídeo. Ele partiiona
o vídeo em pedaços, hamados hunks, e os distribui entre os pares para exibição. À
medida em que os pares obtêm os hunks e visualizam o vídeo, eles são habilitados a
ompartilharem seus hunks om os demais pares dosistema. Isso ontribui de modo
signiativoparaaliviaraargadoservidor,assimomodaredeemgeral. Essemodelo
de distribuiçãopode utilizar tiposdiferentes de rede sobreposta: árvore oumalha.
Os sistemas baseados em árvore formam uma rede sobreposta bem estruturada,
om oservidor de vídeonaraiz dessaárvore, omoéilustradonagura 2.1. Cadapar
reebe hunks de um par paie os retransmite aos seus pares lhos automatiamente.
Essa arquitetura é onheida omo tree-push [Liuet al., 2008℄. Dessa forma,osdados
são transmitidos em uma únia direção, o que ontribui para diminuir atrasos na
reprodução do vídeo. Porém, uma das preoupações que devem ser levadas em
aloar mais pares em largura do que em altura para que os pares nos últimos níveis
não tenham muito atraso na reepção dos dados, omparado aos pares que estão
nos primeiros níveis. Exemplos de sistema que adotam a arquitetura tree-push são
ESM [Chu etal., 2000℄, Zigzag [Tran et al., 2004℄ e mais reentemente TURINstream
[Magnetto etal., 2010℄.
Figura2.1: ArquiteturaP2P baseada em árvore
Um problema da arquitetura baseada em árvore é que ela não utiliza a largura
de bandados pares emsuabase (nodos folhas), umavez queeles não ontribuempara
o sistema efetivamente fazendo upload. Uma proposta para lidar om esse problema
é utilizar múltiplas árvores. Com essa arquitetura o servidor divide a transmissão do
vídeo em subuxos e os transmite em árvores diferentes. Assim, um par se oneta
em mais de uma árvore para assistir o vídeo, omo é mostrado na gura 2.2. Assim,
os nodos folhas em uma árvore podem se tornar nodos internos em outra, fazendo
melhor uso da largura de banda disponível de todos os pares. Exemplos lássios de
sistemasqueutilizammúltiplasárvoresparadistribuiçãodevídeoaovivosãoCoopNet
[Padmanabhanet al., 2003℄ eSplitstream [Castro etal.,2003℄.
Uma vez que os pares podem entrar ou sair da rede a qualquer momento,
omportamento dinâmiotambém onheido omo hurn [Stutzbah& Rejaie, 2006℄,
manter a estrutura da árvore torna-se uma tarefa não trivial. Quando um par sai
da rede, ele ausa uma interrupção na transmissão dos seus pares lhos até que a
árvore sejareonstruída. Asténias de reonstrução disponíveisainda não tornamos
sistemas itados aima robustos o suiente a hurn [Maghareiet al., 2007℄, porque o
vídeo pode ter perdas onsideráveis de qualidade om as frequentes reonstruções da
árvore [Liuet al., 2008℄.
Figura2.2: ArquiteturaP2P baseada emmúltiplas árvore om dois subuxos
Figura2.3: Arquitetura P2P baseada emmalha
lara entre os pares da rede. Um par é servido por múltiplos pares, omo é ilustrado
na gura 2.3. Assim, se um de seus pareiros sai do sistema abruptamente, esse par
tem outrasfontes.
A formação da rede P2P baseada em malha tipiamente oorre de modo a
suportar o dinamismodos pares. Quando um novo par ingressano sistema,elereebe
uma lista om um onjunto de pares ativos do traker da rede P2P. Em seguida,
o par tenta interagir om os pares dessa lista, estabeleendo parerias para troa de
hunks. Dessaforma,quandoumpar deixaarede,seuspareirosontinuamreebendo
hunks de outros vizinhos, evitando interrupções na transmissão do vídeo. Contudo,
na estrutura de malha, os hunks podem hegar fora de ordem no par dado que eles
são reebidos via diferentes aminhos. Logo, é neessário reordená-los e armazená-los
em uma porção de memória (buer) antes de exibi-los. Os pares mantém mapas de
etroamesses mapasentreside modoqueosparessabemaquemrequisitaroshunks
faltantes.
Na rede P2P om estrutura de malha, oshunks são requisitados entre os pares
tipiamenteusandorequisiçãoexplíitade dados,arquiteturatambémonheidaomo
mesh-pull. Com essa arquitetura o par soliita hunks a determinados pareiros
orientado pelos mapas de hunks reebidos. O hunk a ser requisitado pode ser
esolhido por diferentes ritérios, por exemplo, pode ser adotadaa esolha de hunks
raros, ou seja, disponíveis em pouos pareiros, ou a esolha de hunks na ordem
sequenial de utilização. A esolha de hunks mais raros é omumente adotada no
sistema BitTorrent para ajudar a repliar esses hunks na rede. Porém dadas as
restriçõesdetemporealnatransmissãoaovivo,oshunkstendemaserrequisitadosna
ordem de utilização namaioria dos sistemasP2P de vídeo aovivo prátios existentes
[Hei et al., 2007℄.
Arquiteturas híbridas, também onheidas omo push-pull, que ombinam as
vantagens das estruturas de árvore e de malha vêm sendo propostas. Os sistemas
híbridos omumente usam uma rede baseada em malha para se tornarem resistentes
ao hurn e enaminhamento automátio de um grande volume de hunks para
diminuir o atraso do vídeo. Nesse aso, requisições explíitas e mapas de hunks
ontinuam sendo utilizadospara um par requisitaraum determinadopareiroo iníio
do enaminhamento automátio, assim omo o m desse quando o buer de vídeo
for preenhido. Exemplos de sistemas que adotam essa arquitetura são GridMedia
[Zhang etal., 2005, 2007℄e o novo Coolstreaming [Liet al., 2008a℄.
Embora existam abordagens híbridas omo mostrado aima, a arquitetura
mesh-pull é adotada na maioria dos sistemas omeriais existentes [Hei etal., 2008℄.
Alguns desses sistemas omo PPLive, UUSee e SopCast 1
são populares na Internet
e também vem despertando a atenção dos pesquisadores [Sentinelli et al., 2007;
Hei et al., 2007; Wuet al., 2007; Tang et al.,2009℄. As pesquisas sobre esses sistemas
visam prinipalmente entender seu funionamento e avaliar seu desempenho para
propor arquiteturas P2P de distribuição de vídeo ao vivo mais eientes. Nesta
dissertação há o interesse em estudar espeialmente o sistema SopCast, porque além
de ser muito popular, ele disponibiliza um liente para sistemas operaional Linux,
failitando assim experimentação em larga esala na plataforma de testes Planetlab
[Chun etal.,2003℄. ASeção3.1apresentaosdetalhessobreofunionamentodosistema
SopCast, osexperimentosrealizados e asinformaçõesobtidasa partir desses.
1
2.2 Cooperação em Sistemas P2P
Esta seção apresenta alguns estudos sobre a ooperação de pares em sistemas P2P e
sobre meanismos de inentivo à ooperação. A seção 2.2.1 foa nos sistemas P2P
de ompartilhamento de arquivo, onde o referido tema já foi amplamente estudado
em apliações popularesomo BitTorrent 2
. Emseguida, naseção 2.2.2 são disutidos
trabalhos maisreentes quetratamdeooperaçãonossistemasP2Pde distribuiçãode
vídeo aovivo.
2.2.1 Sistemas P2P de Compartilhamento de Arquivos
A ooperação entre os pares foi originalmente analisada no sistema de
ompartilhamento de arquivos Gnutella. Adar & Huberman [2000℄ rastrearam esse
sistema por um período de 24 horas e observaram que 70% dos usuários não
ompartilhavam arquivos e que apenas 25% dos usuários atendiam 99% de todas
as onsultas no sistema. A partir desse trabalho o problema de baixa ooperação
em sistemas P2P ganhou notoriedade, tendo sido denido o termo free riding, para
indiaropadrãodeomportamentoemqueosparesusufruemdoserviçoP2P,masnão
ontribuemparaaredeouparaosoutrosparesemum nívelaeitável[Karakaya etal.,
2009℄.
Desde então, surgiram soluções variadas para mitigar o free riding em sistemas
P2P.Dentreelas,omeanismodeinentivo"tit-for-tat" (TFT)doprotooloBitTorrent
[Cohen, 2003℄ é uma das soluções mais onheidas e avaliadas [Sirivianoset al., 2007;
Konrathet al., 2007; Liuet al., 2010℄. O meanismo TFT inentiva a ooperação
bilateral (reiproidade) entre os pares. Seu funionamento onsiste basiamente em
ada partiipante avaliar, em um determinado intervalo de tempo, os pareiros que
lhe forneeram mais dados e retribuí-los, no intervalo de tempo seguinte, atendendo
às suas requisições. Espeiamente, TFT implementa um algoritmo para medir a
ontribuição dos pareiros em intervalos de tempo a m de determinar para quais
pareiros um dado par deve fazer upload (unhoked) e para quais ele deve suprimir
o upload (hoked). No intervalo seguinte o algoritmo também determina mais um
pareiropara upload desonsiderandoa suaontribuição(optimisti unhoked),om
o intuito de enontrar novos pareiros om taxas de upload e download melhores que
os atuais. Embora TFT seja um meanismo simples e prátio para desenorajar free
riding em sistemasP2P,elepossui algumasvulnerabilidadesqueforamanalisadas nos
trabalhos aseguir.
2
Em [Sirivianoset al., 2007℄ foi proposto um experimento para araterizar o
omportamentodefree-riders emensuraradegradaçãodedesempenhoqueelesausam
emsistemasP2Pdeompartilhamentodearquivos. Osautoresmodiaramumliente
do protoolo BitTorrent de modo que ele tivesse uma visão privilegiada do sistema,
podendoassimexplorarooptimistiunhoke domeanismoTFTeseonetaratodos
os pares ao seu alane. A seguir, eles inseriram um número determinado de lientes
modiados para atuarem omo free-riders. Foram realizados experimentos em uma
rede ontrolada no PlanetLab e em ambiente aberto da Internet. Assim, em ambos
os asos foi observado quepares free-riders (os lientes modiados) tiveram taxasde
download superior aos pares honestos e a taxa média de download no sistema sofreu
um delíniosigniativo om oaumentodesses pares privilegiadosnarede.
Em[Konrathet al.,2007℄tambémfoi demonstradopormeiode simulaçõesqueo
meanismoTFTnãoésuienteparamanteraeiêniadoBitTorrentomapresença
de pares mentirosos. Nesse aso, foi explorado um ataque onde um bando de pares
mentirosos anuniamhunks que eles não possuempara torná-losesassos nosistema.
Um outro ataque explorado nesse trabalho foi ouso de identidades sintétias (sybils).
Essas identidadessão pares quenão realizamdownload nem upload,mas têm afunção
apenasdeaumentaronúmerode ataantesnarede. Cadaum dessesataquesprovoou
atrasos em todos os downloads da rede e falhas quando metade dos pares na rede
efetuava o ataque.
Os trabalhos de Konrath etal. [2007℄ e Sirivianos etal. [2007℄ mostraram
vulnerabilidades no meanismo TFT que podem ser exploradas por pares maliiosos,
ou seja, partiipantes que estudam o funionamentodo sistema para realizarataques.
Independente dessas vulnerabilidades disutidas, existem aspetos para inentivar a
ooperação entre os pares que não são onsiderados em TFT, omo mostram os
trabalhos aseguir.
Liuet al.[2010℄argumentamqueomeanismoTFTfoanorelaionamentoentre
pares que têm interesses emomum. Logo, pares queompartilhamonteúdo quenão
são de grande interesse para os demais, não têm oportunidade de ontribuir para o
sistema. Para essa situação os autores propuseram um meanismo de inentivo onde
osparesformamumaredesoial: quandoopartiipanteAforneealgumonteúdopara
opartiipanteB,ambospertenentes àmesmarede soial,A obtémréditodeB edos
amigosdeB,ouseja,paresquerelaionamomB.Meulpolder etal.[2009℄observaram
que TFT inentiva a ooperação entre os pares apenas enquanto eles estão fazendo o
download de um arquivo. Então os autores propuseram o meanismo de reputação
inluídas emTFT: o par om maior reputação reebe upload prioritariamenteatravés
do optimisti unhoke e os pares om reputação baixa (menor que um determinado
limiar) não reebem nenhum tipode upload.
O meanismo BarterCast baseia-se em propriedades topológias da rede P2P
sobreposta,assim,oseufunionamentoserádisutidonaseção2.3,juntamenteaoutros
trabalhos queutilizamtais propriedades.
2.2.2 Sistemas P2P de Vídeo ao Vivo
Os sistemas P2P de distribuição de vídeo ao vivo mais populares omo
PPLive e SopCast não provêem inentivos aos pares que mais ooperam
[Piatek &Krishnamurthy, 2010; Tang et al., 2009; Hei etal., 2007℄, bem omo não
imputampunições aospares pouo ooperativos,omoé analisadonaseção 3.3. Esses
sistemasonamnoaltruísmodeparesquedisponibilizampartedesuabandadeupload
para arede P2P, sem obtergarantiasde retorno emqualidade de vídeo. Talfatopode
se tornar um problema pois havendo uma redução em larga esala na ooperação dos
paresosistemapodeentraremolapso. Existempropostasnaliteraturademeanismos
que busam mitigar esse problema. Disute-se a seguir os aspetos mais importantes
desses meanismos.
FlightPath [Li etal., 2008b℄ é uma proposta de sistema P2P de vídeo ao vivo
que impõemrestrições aos pares taisomo troabalaneada de dados entre pareiros,
númeropequeno de pareiros (2a ada ilode 2segundos), forneimentolimitadode
hunks a ada pareiro por ilo e limitações naseleção de parerias. Em FlightPath
as parerias de um par estão restritas a um grupo pequeno de pares em ada ilo.
Essa restrição é para evitar prinipalmenteparerias estratégias de pares maliiosos
para ataar o sistema. Os
n
pares ativos no sistema são partiionados emlog
(
n
)
grupos e a ada ilo um par deve esolher um pareiro de um grupo. Esse grupo
é determinado pelo número identiador do par e do ilo orrente e os outros pares
da rede veriam o grupo de onde um par esolheu um pareiro. FlightPath ainda
introduz uma porentagem de relaxamento(10%) nas troas de dados para ajudar os
pares inapazes de ontribuirde formatotalmentebalaneada.
As restrições aima utilizadas pelo meanismo FlightPath ofereem ondições
para uma análise mais formal desse protoolo quanto às possibilidades de
omportamentobizantino dospares (freeriding eataques). Todavia,oprotoolopode
ter poua eiênia em redes onde a apaidade de upload ou download dos pares é
heterogênia (enários reais), omo seargumenta aseguir.
balaneamento na troa de dados não é apropriado para o enário de distribuição
ao vivo porque: (1) devido às restrições de tempo real, hunks tem utilidade em um
intervalo de tempo urto, o que implia em menos oportunidades de troa de hunks
diferentes entre ospares; (2)troas de hunks estritamentebalaneadasentre ospares
podemdeixarparesomtaxadeupload abaixodamédiadaredesemhunks suientes
para assistirovídeo; (3)relaxarobalaneamento(FlightPath)aindatemefeitosimilar
ao balaneamento estrito, ambas as formas dependem da existênia de hunks de
mútuo interesse entre dois pares, o que oloa pares distantes da fonte de vídeo em
desvantagem dado que seus hunks tendem a perder utilidade mais rapidamente; (4)
a taxade download é limitadapelaproduçãode hunks noservidor de vídeo (taxade
vídeo), oqueimpliaqueparesom taxade upload aimadesselimiarnãopoderãoser
reompensados om taxa de download similar,omo oorre emBitTorrent.
Considerando que o balaneamentona troade dados não é efetivo em sistemas
P2P de vídeo ao vivo, Silverston etal. [2008℄ propuseram um meanismo para
inentivar a ooperação dos pares que não depende apenas da distribuição de dados.
Nesse meanismo, um par impossibilitadode servir hunks aos pareiros india pares
apazes de lhes ofereerem novos hunks. As indiações podem ser feitas a partir dos
mapasdehunksqueumparreebedosseuspareiros,indiandooshunks disponíveis
e faltantes em ada pareiro. Logo, as informações ontidas nesses mapas podem
ser utilizadas para indiar poteniais parerias. Assim, um par menos favoreido na
rede, porexemplo, um par distantedo servidor de vídeo, inentiva osseus pareiros a
ontinuar lhe provendo dados emtroa de informaçãosobre novasparerias.
A proposta de Silverston etal. [2008℄ é interessante porque preserva a
reiproidade entre os pares na rede P2P, omo proposto pelo meanismo TFT, mas
não hágarantiasde melhorianaqualidadede serviço paraos paresmais ooperativos.
Logo, a maioriadaspropostas parainentivaraooperaçãoemsistemasP2Pde vídeo
ao vivo se baseiam em medições diretas da ooperação do par. Isso tipiamente é
feito oletando astaxas de upload e download dos pares. Assim, podem ser apliadas
penalizações para os pares que redistribuem pouos hunks (taxa de upload baixa)
tais omo remoção da rede ou menor prioridade de serviço, ou podem ser providos
benefíios para os pares om volume de upload alto, tais omo onexão direta om o
servidor de vídeo.
ServerGuarantedCap(SGC)éumexemplodemeanismoqueprovêinentivoaos
pares mais ooperativos, proposto por Chatzidrossos etal. [2010℄. Nesse meanismo,
uma fração da apaidade do servidor de vídeo é reservada para manter a qualidade
que tal meanismo é importante para pares om apaidade de upload limitada, por
exemplo usuários om dispositivos móveis. Uma das premissas desse meanismo
é que um par ooperativo requisita dados ao servidor de vídeo apenas quando
os seus pareiros não podem atendê-lo. Logo, esse meanismo não onsidera a
existênia de pares mentirosos, ouseja, pares que reportamdados falsos para estarem
permanentemente onetados ao servidor de vídeo. Tais pares teriam omo benefíio
uma qualidade de serviço difereniada dos demais pares, por exemplo menor atraso.
A seguir é apresentado um meanismo que provê benefíio semelhante aos pares
ooperativos,porém propõe meiospara veriar aooperação.
O meanismo de inentivo Contrats [Piateket al., 2010℄ utiliza estimativas do
nível de ooperação dos pares para reestruturar a rede sobreposta. Assim, pares
ooperativos são trazidos para perto da fonte do vídeo, reebendo uma qualidade de
serviço melhor, enquanto pares pouo ooperativos am mais distantes da fonte. A
ooperaçãode um par é estimadapelovolumede hunks queelefornee aos pareiros
em um determinadoinstantede tempoe essa estimativaéinrementada por um fator
de ooperação efetiva 3
aso esses pareiros sejam ooperativos. As estimativas de
ooperação do par podem ser aluladas no traker a partir de dados oletados dos
pares periodiamente, ou pelos seus vizinhos a partir de dados espalhadas na rede
pelos próprios pares (ooding). No primeiro modo, o traker reestrutura a rede
determinando novos pareiros aos pares; no segundo, os pares reestruturam a rede
lentamente estimando a ooperação dos vizinhos para seleionar suas parerias. Em
ambos os asos, reibos riptografados são utilizados para veriar as informações
oletadas, i.e. ovolume dehunks forneidopelospares,issolevaaoaumentodousto
omputaionalnosparesounotraker devido aoonstanteproessamentodereibos 4
.
Há outros meanismos que foam em detetar os pares pouo ooperativos
ou free-riders na distribuição de vídeo. Diferentemente de SGC e Contrats, esses
meanismosatuamdemodooerivo;baseando-senapremissadequeimputarpunições
é uma forma eiente para desenorajar baixa ooperação para o sistema. Neste
aso, esses meanismos assumem que muitos pares pouo ooperativos têm reursos
para ontribuir para o sistema, mas deliberadamentenão ontribuem. Azzedin [2010℄
props a deteção de pares pouo ooperativos em sistemas multimídia em geral
através de um meanismo de reputação. Os pares espalham pela rede mensagens de
reomendação dos pareiros ooperativos. Então alguns pares monitores do sistema
3
AooperaçãoefetivaéumamétriaadiionalutilizadapelomeanismoContratsparabeneiar
umparqueforneehunksaparesmuitoooperativos. Essamétriaorrespondeasomadosvolumes
individuaisforneidosaadapareiro,ondeadavolumeéponderadopelaapaidadedeupload desse
pareiro.
oletam essas mensagens e determinam se um par é free-rider omparando o número
de reomendações reebidas em uma janela de tempo do passado om o presente.
Contudo, as reomendações não são veriadas. Logo free-riders poderiam forneer
reomendações falsasdeles própriosoude seus pareiros para não serem detetados.
Guerraoui etal.[2010℄apresentaramLiFTinG,umprotooloparaidentiarfree
riders e removê-los do sistema P2P de vídeo om veriação das ontribuições. Em
LiFTing, ada par avaliaseus pareiros pormeio de veriaçõesdiretas e ruzadas: o
primeirotipode veriação foanaproporçãode requisiçõesde hunks atendidas pelo
pareiroeosegundotipoveria seopareirofornee aoutrosparesoshunks quelhe
foram forneidos. Opar reporta afalta de ooperaçãodos pareiros aos monitores da
rede quetêmapermissãoparabanirdosistemaosparesqueultrapassamdeterminado
esore de queixas. Embora o propósito de LiFTing seja não sobrearregar o sistema
om esquemas de autentiação, a veriação ruzada eleva o número de mensagens
entre os pares. Por exemplo, uma rede onde ada par fornee hunks a pelo menos
n
pareiros, o usto de mensagens para realizar a veriação ruzada éO
(
n
2
)
, para
ada par. A onguração ideal desse meanismoseria fazer averiação ruzada para
ada hunk oqueaumentariamuitoataxadedeteção defreeriders. Entretanto,essa
onguração levaa um usto ainda maior.
Dos meanismos de inentivo para sistemas P2P de vídeo ao vivo estudados
aima, apenas três deles tratam o problema de pares maliiosos agindo em onluio
para benear uns aos outros om parerias falsas entre si. São eles os sistema P2P
de vídeo ao vivo FlightPath [Liet al., 2008b℄, os meanismos de inentivo LiFTinG
[Guerraoui et al., 2010℄ e Contrats [Piateket al., 2010℄.
O sistema FlightPath restringe a esolha de pareiros de um par onforme a
estratégia mostrada anteriormente, o que diminui efetivamente as possibilidades de
onluio entre pares maliiosos. O meanismo de inentivo LiFTing [Guerraouiet al.,
2010℄ assume que os sistemas P2P de vídeo tipiamente adotam a polítia de seleção
de parerias aleatórias. Nessa polítiaospares reebemperiodiamentedosistemaum
subonjunto de poteniais pareiros esolhidos de modo aleatório e uniforme. Logo,
esse meanismo analisa o histório de parerias dos pares para detetar parerias
tendeniosas. Assim, os pares que têm os mesmos pareiros om uma determinada
frequênia são suspeitos de onluio.
A desvantagem dos dois meanismos aima é que eles limitam a apliação de
outrasabordagensparaseleçãodepareriasnossistemasP2P.Porexemplo,abordagens
que exploram o potenial para priorizar parerias entres pares no mesmo provedor de
omo épropostonomeanismo Contrats [Piateket al.,2010℄. As pareriasdentrodo
mesmo ISP ontribuem para diminuiros ustos dos provedores de Internet e também
a distânia na onexão físia entre os pares, o que implia em menor atraso na
omuniação. As parerias entre pares om nível de ooperação similares ontribui
para melhorar a qualidade de serviço prestado aos pares mais ooperativos, servindo
de inentivoà ooperação nos sistemas P2P.
OmeanismoContrats[Piateket al.,2010℄analisaseovolumededownload dos
pares está de aordo à taxa de vídeo do anal. Isso porque os pares maliiosos que
reportam volumes de hunks falsos entre si e assistem o vídeo om hunks providos
por pares honestos, terão taxa de download superior à taxa de vídeo. Dessa forma,
essa abordagem limita a formação de um onluio entre pares maliiososque assistem
ao vídeo e ainda reportam o reebimento de dados falsos entre si para inaionar as
suas taxas de upload. Por outro lado, ela não é totalmente eaz aso seja utilizado
identidades sintétias (sybils) no onluio, ou seja, pares que não assistem ao vídeo
verdadeiramente, mas apenas reportam reebimento de dados falsos para favoreer
alguns pares maliiosos,omo édisutido naSeção 4.4.
Enm, os trabalhos disutidos nesta seção mostram que identiar o nível de
ooperação dos pares é uma tarefa essenial para inentivar a ooperação nas redes
P2Pde vídeo. Contudo,osmétodosexistentesonamapenasemmediçõesdovolume
de hunks troados entre os pares uja veriação pode inorrer em sobrearga para
o sistema, por exemplo, um número exessivo de mensagens entre os pares omo
em LiFTinG [
Guerraoui et al., 2010℄ ou proessamento intensivo de dados omo em
Contrats [Piateketal., 2010℄. Esta dissertação investiganovosaspetos para estimar
e predizer a ooperação dos pares explorando propriedades topológias da rede P2P
sobreposta. Ela investiga também omo essas propriedades podem ser utilizadaspara
veriar a ooperação dos pares om menor usto e também identiar pares agindo
em onluio.
As propriedades topológias de redes vem sendo amplamente exploradas em
diferentestiposdesistemasquefunionamsobreaInternet[Easley& Kleinberg,2010℄,
omoasredessoiaisvirtuais,emails,hyperlinksetambémossistemasP2P,emboraos
trabalhos estudados nesta seção não exploram tais propriedades. As redes modeladas
nessessistemassãoomumentehamadasderedesomplexas pelofatodeseremgrandes
(milhares de vérties e onexões entre eles) e apresentarem propriedades diferentes de
modelosderedesteórios. Apróximaseçãodisuteaspropriedadesderedesomplexas
2.3 Métrias de Redes Complexas
Segundo Newman[2003℄,apesquisa emredesestá testemunhandoumanovatendênia
nos últimos anos, om seu foo se movendo do estudo de pequenos grafos ou de
propriedades de vérties e arestas espeíos para o estudo baseado na análise
estatístia e em larga esala do grafo omo um todo. Essa mudança está sendo
possível devido, prinipalmente, ao aumento dopoder omputaional, aprimoramento
dosmétodosestatístioseaoresimentodasredesdeinformações,quepermitemobter
e analisar dados em uma esala ada vez maior. No entanto, mesmo om o auxílio
dessasferramentas,aindaéumdesaoresponderquestõesaeradaestruturadeuma
rede quando elapossui milhõesou bilhões de vérties. Nesse ontexto, asmétrias de
redes omplexas assumem um papel importante, pois elas possibilitamaraterizar a
estrutura de diferentes redes, sejamelas de omputadores, soiais ou biológias,a m
de entendero omportamentodos sistemas quesobre elas funionam.
Uma análise importante em redes omplexas é a identiação dos vérties mais
entraisoumaisinuentes narede. Paraisso,métriasde entralidade[Freeman,1979℄
podem ser utilizadas. Essas métrias expressam a importânia relativa de um vértie
na rede e grau, betweenness e proximidade são asprinipais métriasque apturam a
entralidadedessevértie. Essasmétriassãodenidasaseguir,ondearedeémodelada
omo um grafo
G
não direionadoomN
vérties.(1) Grau de um vértie
i
é medido pelo número de vértiesj
adjaentes ouvizinhos no grafo,dado por:
G
(
i
) =
X
j
∈
G,i
6
=
j
a
(
i, j
)
onde
a
(
i, j
) = 1
se os vértiesi
ej
estão onetados poruma arestaea
(
i, j
) = 0
asoontrário.
(2) Proximidade de um vértie
i
é medida pela distânia relativa desse vértiepara os demais nografo,dado por:
P
(
i
) =
P
N
j
∈
G,i
6
=
j
d
(
i, j
)
onde
d
(
i, j
)
é adistâniageodésiaentre os vértiesi
ej
,ouseja, onúmerode arestasentre esses vérties onsiderandoo aminhomais urto.
(3) Betweennness de um vértie
i
é medido da seguinte forma. Para ada parde vérties
jk
, o número de aminhos mais urtos entrej
ek
que passam pori
,representado por
g
jk
. Isso somadosobre todas asombinaçõesde pares de vértiesjk
em
V
.B
(
i
) =
X
j,k
∈
G,i
6
=
j
6
=
k
g
jk
(
i
)
g
jk
As métriasaima podem ter algumasmodiaçõesdependendo doontexto em
que arede émodelada. Por exemplo,umarede tambémpode ser vistaomoum grafo
omarestasdireionadas,logohaverágraudesaídaeentrada,assimomoproximidade
de saída eentrada e betweenness direionado. Adiionalmente, ograu e obetweenness
podem ser expressos relativos ao número de vérties no grafo. Assim, quando houver
alguma modiação dessas métrias ao longo dessa dissertação, uma nova denição
formal da métria será apresentada. A seguir são desritos alguns trabalhos que
modelaramgrafosa partir de sistemasreais eapliaramalgumasdessas métriaspara
obter informaçõesrelevantes sobre esses sistemas.
Chen etal. [2004℄ analisaram as propriedades topológias do sistema P2P
Gnutella 5
de ompartilhamentode arquivosutilizandoastrês métriasde entralidade
mostradas aima. Os autores reonstruíram a topologia oletando dados de lientes
desse sistemana Internet om busa emlargura por meio de um rastreador (rawler)
próprio. Osautoresobservaram quebetweenness reseproporionalmenteomograu
dovértie. Contudo existemparesombetweenness altoegraubaixo, oquepodelevar
à perda de desempenho ou onetividade na rede aso esses pares deixem o sistema.
Por outro lado, não há uma orrelação forte entre grau e proximidade, indiando que
pares omgraus bastantes diferentes podem teruma proximidadesimilar,ouseja,eles
podem alançar outros pares na rede om a mesma failidade. Os autores também
observaramqueadistribuiçãodograusegueumaleide potêniasimilarmenteaoutras
redes omplexas omo redes soiais, biológiasea Internet[Boalettiet al., 2006℄.
Contudo, Stutzbah etal. [2008℄ realizaram um novo estudo das propriedades
topológiasdoGnutellaeobservaramqueograudosparesnãoseguemumadistribuição
de lei de potênia. Isto porque há um pio em torno do grau 30, indiando que o
liente Gnutella tenta manter 30 vizinhos por par. Os autores ainda armaram que
o uso de oletores lentos levam a dados inonsistentes sobre a topologia de sistemas
P2P, omo foi reportado em trabalhos anteriores. Então, utilizando um rastreador
mais veloz querastreadores de trabalhos anteriores,e.g. [Chen etal., 2004℄,foi obtido
novas informações sobre a estrutura topológia do sistema Gnutella. Por exemplo,
foi observado que pares mais antigos no sistema formam um omponente onetado
entralom um grau de agrupamentoalto, enquanto pares maisnovos formamgrupos
de menor onetividade, mas ligados ao omponente entral. Com essa organização,
a rede éextremamente resiliente à saída de pares, pois, mesmose 50% dos pares om
maior grau forem removidos da rede, era de 75% dos pares restantes ontinuam
onetados.
Gkorou etal. [2011℄ utilizaram a métria de betweenness para melhorar o
desempenho do meanismo de reputação Barterast, desrito na Seção 2.2.1. Nesse
meanismo ada par mantém loalmenteum grafoonde vérties representam ospares
easarestassãoponderadaspelovolumededadostroadosentreeles. Umparidentia
areputação dos outrosparesalulandoouxo máximo dedados apartirdelepara os
demais pares na rede e vie-versa (algoritmo de uxo máximo). Contudo, os autores
pereberam que as reputações são mais exatas se o par alular o uxo máximo a
partir do vértie om maior betweenness ao invés dele próprio, isso porque valores de
betweenness alto indiam pares om arga de omuniação alta. A diuldade em
implantaressapropostanomeanismoBarterastéqueosgrafosloaisde umpartêm
uma visão parialda rede aopasso que betweenness é uma propriedadeglobal dopar.
Logo, a preisão do método é maior quanto mais ompleta for a visão da rede, então
ele seria mais preiso em um ambiente om uma visão global da rede, ou seja, uma
abordagementralizada, omoproposta nesta dissertação.
Em Onnelaet al. [2007℄ os autores analisaram a rede de omuniação formada
a partir das ligações de telefones elulares de aproximadamente 20% da população
dos Estados Unidos. No grafo onstruído, os vérties orrespondiam aos usuários dos
elulares e uma aresta era inserida entre dois vérties se os usuários orrespondentes
realizaram hamadas reiproamente no período de 18 semanas. Foi observada a
existênia de um únio omponente onetado que inluía era de 84% dos vérties
da rede. Além disso, foram identiadas arestas om um betweenness alto ligando
pequenos omponentes onetados no grafo (omunidades). Os autores observaram
que a remoção dessas arestas ausavam o desapareimento do omponente onetado
gigante, o que india a importâniadessas arestas 6
. Além disso, foi observado que o
grau dos vértiesseguem uma distribuição próximade uma leide potênia,indiando
quemuitosusuáriosseomuniavamom pouosindivíduosaopasso queumaminoria
se omuniavaom dezenas.
Tang et al. [2009℄ estudaram algumas propriedades topológias do sistema
SopCast. Eles realizaram experimentos om omputadores do PlanetLab onetados
a um anal privado do SopCast e reonstruíram a topologia ompleta da rede P2P a
partir de traços da omuniação entre os omputadores. O estudo foou apenas no
grau dos pares, mas foi onsiderado grau de entrada e de saída, ou seja, a quantidade
6
Betweenness dearestaséaluladodamesmaformaquedevérties.
B
(
e
) =
P
j,k
∈
N,j
6
=
k
g
jk
(
e
)
g
jk
,
de pareiros dos quaisopar reebe epara osquaisopar enviavídeo, respetivamente.
Foi observado que o grau de entrada segue uma distribuição normal om média em
torno de duas parerias e a distribuição do grau de saída segue uma lei de potênia,
o que implia em pouos pares om grau de saída muito alto e uma maioria de
pares om grau de saída baixo. Uma questão deixada em aberto nesse trabalho foi
o tamanhoadequado de uma janela de tempopara estudar a dinamiidadedos pares.
Nos experimentos realizados não foi onsiderado hurn e foram utilizados janelas de
tempo muito urtas (2 segundos). Nessa dissertação realizamos experimentos om o
sistemaSopCastonsiderandohurn eanalisamososefeitosdadinamiidadedospares
em janelas de tempoom tamanhos diferentes, onforme disutido na seção 3.3.
Wu et al. [2008℄ araterizaram as propriedades topológias do sistema P2P
de vídeo ao vivo UUSee om traços da rede oletados nos servidores de log desse
sistema, onseguindo assim reonstruir a topologia inteira da rede. A propriedade
topológia mais explorada foi o grau dos pares. Assim omo [Stutzbah et al., 2008℄,
os autores observaram que a distribuição do grau não segue uma leide potênia, pois
há piosem grausespeíos de aordoom a horado dia. Tambémforamanalisadas
as distribuições do grau de entrada e de saída separadamente. Observou-se que a
distribuição do grau de saída segue aproximadamente uma lei de potênia de dois
segmentos no sistema UUSee, ao passo que a aproximação para uma lei de potênia
om segmento únio foi mais preisa no sistema SopCast [Tang et al., 2009℄. Outra
análise interessante foi aorrelação entre ograu de entrada/saídae as taxasde dados
reebida/enviada. Nãofoiobservada umaorrelaçãoentreograudeentradadovértie
e taxade dadosreebida pelopar porque oprimeirovariasigniativamenteenquanto
o segundo permanee estável emtorno da taxa de vídeo. Por outro lado, observou-se
uma orrelaçãopositiva entre grau de saída e a taxade envio.
Dadaessa orrelação,osautorestambémexploraramabase dedados dosistema
UUSee para predizer a taxa de envio de um par, espeiamente o throughput, em
função do seu grau de saída [Wuet al., 2007℄. Contudo, o uxo de hunks entre os
pares foi analisadoonsiderando a hora do dia e o provedor de Internet (ISP) de um
par. Foram propostos modelos diferentes para ada hora do dia e para ada tupla de
ISP formada pelopar forneedor epar reeptor de hunks. Esses modelos são lineares
om dois parâmetros,interepção einlinaçãodareta, estimadosom regressão linear.
A intenção dos autores é que os modelos sejam utilizadosporum par para seleionar
pareiros baseado napredição dothroughput. Porém, mesmo onsiderandopadrões de
tráfego entre ISPs ehoráriosdodia, asprediçõesde throughput pelos modelos lineares
ranking depares,masbusapreverumaestimativadoníveldeooperaçãomaispreisa,
que pode ser utilizada para produzir um ranking também.
Oliveira et al. [2010℄ exploraram propriedades topológias do sistema SopCast
para araterizar super pares na rede P2P. Eles orrelaionaram as métrias de
entralidade grau, proximidade e betweenness om ataxa de upload dos pares. Assim
omo emTang et al. [2009℄, osautores analisarama topologia ompleta da rede P2P,
obtidaapartirdeexperimentosomomputadoresdoPlanetlabeumanalprivadodo
SopCast. Foi observada uma orrelaçãopositivaaltaentre asmétriasde entralidade
e a taxade upload, om oeiente de orrelação de Pearson emera de 0,85 para as
3 métrias de entralidade. As orrelações foram aluladas entre o índie ordenado
(ranking)das duas medidassendo orrelaionadas.
Otrabalhodesenvolvidonestadissertaçãoiniiouanalisandoaorrelaçãoentre as
métriasdeentralidadeeoníveldeooperaçãodospares,estimadopelataxadeupload
pordownload de dados. Masdiferentedotrabalhode Oliveira et al.[2010℄,ofoonão
foidireionadoapenasparaoranking,mastambémparaorelaionamentodasmedidas
diretas dessas métrias. Isso permitiu inferir relações interessantes que levaram para
o projeto de um modelo de predição do nível de ooperação. Similarmente, o modelo
propostoporWu etal.[2007℄tambémfoaemranking dospares,poiseleéummodelo
linear simples e a sua onstrução é baseada em dados sobre os pares sumarizados ao
longo de dias diferentes. O modelo proposto nesta dissertação, ao ontrário, é não
linear e busa predizer o nível de ooperação de um par em valores absolutos om a
maior preisão possível. Para isso, ele é onstruído dinamiamente em intervalos de
tempos suientes para apturar as onstantes mudanças da rede P2P. O apítulo 4,
Análise da Cooperação no SOPCast
Neste apítuloserádadaumavisãogeraldaarquiteturaedofunionamentodosistema
SopCast, que é a apliaçãoP2P de vídeo ao vivo utilizada omo base de dados dessa
dissertação. Em seguida será mostrada a metodologia apliada para oletar dados
dessa apliação em uma transmissão de vídeo ao vivo om pares se omportando de
modosemelhantea partiipantes reais de um anal transmitindo um evento. Por m,
é apresentada uma análise donívelde ooperaçãodos pares nesses dadosoletados.
3.1 O Sistema SopCast
SopCast é um sistema P2P de distribuição de vídeo ao vivo que é muito popular
na Internet. Segundo as medições do serviço Google Trends 1
, o volume de busas
por esse sistema nos últimos doze meses (07/2011 a 06/2012)é superior ao de outros
sistemas P2P populares omo PPLive e UUSee. O sistema SopCast mantém vários
anais públios, ujoaesso é irrestrito,mas tambémpermite que serie um anal ao
vivoprivadoquetransmitaonteúdoparaum onjuntorestritodelientes. Cadaanal
transmite onteúdo aovivoatravésde sua própria rede P2Psobreposta, independente
de quaisquer outros anaismantidos pela apliação.
O sistema SopCast usa arquitetura mesh-pull [Hei etal., 2008℄, logo a rede
sobreposta de ada anal é baseada em malha om pedido explíito de dados. Nessa
arquitetura, um servidor, que gera o onteúdo ao vivo, divide a mídia em pedaços,
hamados hunks, e os distribui na rede P2P para posterior exibição. Para reeber
o onteúdo ao vivo, um par faz um pedido explíito de todos os hunks de mídia
neessários aos seus pareiros, isto é, aos seus vizinhos na rede sobreposta. Os
pares usam o protoolo UDP (User Datagram Protool) para realizar todo tipo de
1
omuniação no sistema SopCast. Essa omuniação ompreende paotes de ontrole
e paotesde dados. Ospaotes de ontrole orrespondemàsmensagens de sinalização
entre ospares de aordoa arquitetura mesh-pull e ospaotesde dadossão mensagens
transmitindo hunks.
Visto que o foo desta dissertação é na ooperação estimada pelos paotes
de dados, é neessário identiar esse tipo de mensagem na omuniação entre os
pares. Contudo, o sistema SopCast é um protoolo proprietário e a identiação de
paotes de dados não é trivial. A forma omumente utilizada para identiar esses
paotes épeloseu tamanhoe ospadrõesorrespondentes de entrega [Hei et al., 2007℄.
Nesse propósito,a omuniação entre os pares nosistema SopCast foi analisadanesta
dissertação. A base para essa análise foram os trabalhos de Sentinelli etal. [2007℄ e
Tang etal.[2009℄queinvestigaramofunionamentodesseprotoolo. Foramutilizados
também traços de tráfego de redes em uma transmissão de vídeo ao vivo, obtidos
de alguns omputadores onetados a um anal popular do SopCast. Assim, para
identiarospaotesdedadosfoiestudadodetalhadamenteomoosparesestabeleem
parerias eretransmitem osdados, omo édesrito aseguir.
Quando um par ingressanosistema, elereebeuma listade pares ativosnarede
(subonjuntode todosos pares)do traker einiia imediatamentea troar paotesde
ontrole om esses pares para estabeleer parerias. Dado um onjunto de pareiros,
um par faz pedidos explíitos de hunks a alguns deles. Após reeber o pedido, o
pareiro entregauma série de paotes de dados para opar requisitante. Noaso desse
parneessitardemaishunksumnovopedidodeveserfeito,poronseguinte,umanova
sériedepaotesdedadosentregue. DeaordoasestimativasdeTang etal.[2009℄,ada
hunk noSopCasttemumtamanhode10KBytes. Então,opareiroatendeumpedido
segmentando os hunks requisitados em paotes om tamanhos menores, seguindo os
prinípiosdefragmentaçãodoprotooloIP.Otamanhomáximode umpaotededado
estabeleido noSopCast é 1362 bytes. Logo, a entrega de hunks é realizadaporuma
sequênia de paotes de dados om tamanho máximo e é nalizada tipiamente por
um paotemenor portando fragmentosde hunks.
A Figura 3.1 mostra histogramas do tamanho de paotes troados por três
omputadores que partiiparam de uma transmissão de vídeo ao vivo no sistema
SopCast por uma hora. Eles são representativos dado que foram omputados
histogramas para outros 284 omputadores e os resultados foram similares. O eixo
x
representa otamanhodos paotesagrupadosemlasses omintervalosde50byteseoeixo