• Nenhum resultado encontrado

Internet Banda Larga

N/A
N/A
Protected

Academic year: 2021

Share "Internet Banda Larga"

Copied!
12
0
0

Texto

(1)

Uma Caracterizac¸ ˜ao de Comportamento de Usu ´arios de Internet Banda Larga

Pedro H. Calais Guerra

, Leonardo C. Dutra Rocha Jussara Almeida , Wagner Meira Jr. , Virg´ılio Almeida

1

Departamento de Ciˆencia da Computac¸˜ao Universidade Federal de Minas Gerais

Av. Antˆonio Carlos, 6627 - Pampulha - CEP 31270-010 Belo Horizonte - Minas Gerais - Brasil

{pcalais,lcrocha,jussara,meira,virgilio}@dcc.ufmg.br

Abstract. This paper presents a characterization of broadband user behavior from an Internet Service Provider standpoint. Users are broken into two major categories: residential and Small-Office/Home-Office (SOHO). For each user category, the characterization is performed along four criteria: (i) session ar- rival process, (ii) session duration, (iii) number of bytes transferred within a session and (iv) user request patterns. We identified probability distributions that represent very well the workload generated by the users of each category and managed to point significant differences between them. Moreover, we iden- tified groups of user sessions with very distinct characteristics between them.

Understanding user behavior according to these aspects is an important step to the development of more efficient applications for broadband users.

Resumo. Neste artigo apresentamos uma caracterizac¸ ˜ao do comportamento de usu´arios de Internet Banda Larga de um provedor de acesso (ISP). Os clientes do ISP foram divididos em duas categorias (residencial e comercial), e para cada categoria investigamos: (i) processo de chegada de sess ˜oes, (ii) durac¸˜ao das sess˜oes, (iii) n´umero de bytes transferidos em cada sess ˜ao e (iv) padr˜oes de requisic¸˜ao dos usu´arios a servic¸os Web. Conseguimos identificar distribuic¸˜oes de probabilidade que representam com fidelidade a carga gerada pelos usu ´arios de cada categoria, al´em de determinar diferenc¸as significativas entre elas. Al´em disso, identificamos grupos representativos de sess ˜oes de usu´arios que pos- suem comportamento bastante distinto entre si. Entender o comportamento dos usu´arios segundo esses aspectos ´e um passo importante para o desenvolvimento de aplicac¸˜oes mais eficientes e efetivas direcionadas para os clientes de Internet Banda Larga.

1. Introduc¸˜ao

A crescente difus˜ao de conex˜oes de banda larga, particularmente de conex˜oes utilizando tecnologias de TV a cabo e ADSL, tem criado novas possibilidades de uso dos recursos da Internet por parte dos usu´arios de pequenas instituic¸˜oes e usu´arios dom´esticos. A disponibilidade cont´ınua de conex˜ao aliada ao aumento da qualidade de servic¸o de acesso

Aluno de Iniciac¸˜ao Cient´ıfica

(2)

conduz o usu´ario ao uso mais intenso dos diferentes servic¸os dispon´ıveis na Internet atual, em particular, aplicac¸˜oes de com´ercio eletrˆonico, Internet banking e sistemas Peer-to-Peer para compartilhamento de recursos, principalmente arquivos de v´ıdeo e ´audio.

Em outras palavras, a maior disponibilidade provida pela conex˜ao de banda larga leva a um comportamento t´ıpico de usu´ario bastante complexo e potencialmente diferente daquele de um usu´ario de acesso discado. Um estudo recente da Pew Internet & American Life [Pew, 2004] mostrou que, se comparado com usu´arios de acesso discado, usu´arios de banda larga se envolvem com mais atividades diferentes, tˆem uma tendˆencia maior de criar e gerenciar conte´udo on-line e buscam informac¸˜oes com muito mais frequˆencia.

Apesar desse relat´orio da Pew, n˜ao existem na literatura muitos estudos sobre o comportamento de usu´arios de Internet Banda Larga. Este artigo pretende contribuir para o conhecimento nesse campo apresentando uma caracterizac¸˜ao do comportamento desses usu´arios, baseada em logs reais de um grande provedor de acesso brasileiro. A partir da divis˜ao dos usu´arios em duas categorias (residencial e comercial), a caracterizac¸˜ao avalia a forma como os usu´arios se conectam ao ISP, quanto tempo eles permanecem on-line, o n´umero de bytes que eles transferem em suas sess˜oes e o que eles fazem enquanto est˜ao conectados, em termos das requisic¸˜oes a servic¸os Web, como HTTP, email, Peer- to-Peer etc. Essas informac¸˜oes podem ser muito ´uteis no planejamento da capacidade da infra-estrutura dos provedores e provˆeem subs´ıdios para avaliac¸˜ao de pr´aticas como personalizac¸˜ao de servic¸os e adoc¸˜ao de tarifac¸ ˜oes diferenciadas, com boa relac¸˜ao custo- benef´ıcio tanto para o usu´ario quanto para o provedor.

O trabalho de iniciac¸˜ao cient´ıfica aqui contido foi no sentido de, munido das m´etricas de caracterizac¸˜ao, projetar, implementar e validar todo o ferramental de caracterizac¸˜ao, assim como aplicar esse ferramental a dados reais e participar da an´alise de resultados. Este trabalho j´a resultou na ferramenta BUBA - Broadband User Be- havior Analysis [Calais et al., 2005] (que pode ser acessada via Web atrav´es do site http://buba.speed.dcc.ufmg.br, login e senha reic) e em um artigo tamb´em relacionado a ele [Marques et al., 2004], ambos de autoria do bolsista.

O artigo est´a organizado da seguinte forma: a sec¸˜ao 2 discute alguns trabalhos relacionados. A sec¸˜ao 3 descreve o processo de coleta de dados e a metodologia de caracterizac¸˜ao que foi aplicada. A sec¸˜ao 4 apresenta os resultados mais relevantes obtidos atrav´es da caracterizac¸˜ao. Por fim, as conclus˜oes s˜ao apresentadas na sec¸˜ao 5.

2. Trabalhos Relacionados

Diversas caracterizac¸ ˜oes de carga e do comportamento de usu´arios est˜ao dispon´ıveis na literatura. Cargas Web tradicionais, referentes a requisic¸˜oes HTTP a documentos e ar- quivos de imagem s˜ao analisadas em v´arios estudos anteriores, concentrados tanto na carga do lado do servidor [Arlitt and Jin, 2000] quanto do cliente [Barford et al., 1999].

Estudos mais recentes caracterizam a carga de trabalho de outros tipos de

aplicac¸˜oes, como v´ıdeo sob-demanda [Costa et al., 2004] e servic¸os Peer-to-Peer (P2P)

[Gummadi et al., 2003, Saroiu et al., 2002, Leibowitz et al., 2003], que tˆem se tornado

cada vez mais populares devido `a crescente disponibilidade de conex˜oes de banda larga

[Lakshminarayanan and Padmanabhan, 2003]. Algumas caracterizac¸ ˜oes de cargas de tra-

balho P2P analisam v´arios aspectos do tr´afego gerado por aplicac¸˜oes desse tipo, como a

(3)

popularidade e o tamanho dos objetos, a utilizac¸˜ao de largura de banda e a durac¸˜ao das sess˜oes [Gummadi et al., 2003, Saroiu et al., 2002, Hamada et al., 2004].

Enquanto essas an´alises focam em um tipo espec´ıfico de aplicac¸˜ao, nosso tra- balho se concentra nas requisic¸˜oes a um grande n´umero de servic¸os diferentes, como HTTP, FTP, P2P etc. Nesse sentido, a caracterizac¸˜ao de um proxy de um ISP de banda larga [Arlitt et al., 1999] ´e possivelmente o trabalho mais pr´oximo ao nosso. No entanto, al´em de caracterizar o tr´afego gerado por usu´arios de Internet Banda Larga, procuramos tamb´em determinar padr˜oes nas requisic¸˜oes dos usu´arios e confrontar os resultados obti- dos para os usu´arios residenciais e comerciais.

3. Metodologia de Caracterizac¸˜ao

Nesta sec¸˜ao apresentamos nossa metodologia de caracterizac¸˜ao e como ela ´e aplicada ao ambiente do ISP.

O objetivo da caracterizac¸˜ao ´e prover um entendimento do comportamento dos usu´arios de banda larga em termos do consumo de recursos e servic¸os requisitados, sendo dessa forma baseada em quatro crit´erios: o processo de chegada de sess˜oes, a durac¸˜ao das sess˜oes, o volume de bytes transferidos e o padr˜ao de requisic¸˜oes dos usu´arios. Os dois primeiros fornecem informac¸˜ao temporal sobre a carga gerada pelos usu´arios. O volume de bytes transferidos provˆe informac¸˜oes sobre o consumo de banda, que ´e um recurso cr´ıtico a ser administrado por qualquer ISP. Por fim, os padr˜oes de requisic¸˜oes entre os usu´arios do ISP qualificam as sess˜oes em termos de requisic¸˜oes aos servic¸os Web.

Para realizar a caracterizac¸˜ao, utilizamos trˆes fontes de dados: um log de autenticac¸˜ao de usu´arios, uma base de dados dos usu´arios e um log de tr´afego. O log de autenticac¸˜ao ´e compat´ıvel com o protocolo RADIUS [Rubens and Simpson, 2000] e registra o momento em que cada sess˜ao iniciou e terminou, a durac¸˜ao, o n´umero de bytes enviados e recebidos e o IP dinamicamente atribu´ıdo ao usu´ario em cada sess˜ao. A base de dados de usu´arios ´e uma tabela que informa a categoria de cada cliente do ISP (resi- dencial ou comercial) e que por quest˜oes de privacidade, foi anonimizada. O terceiro log

´e coletado atrav´es do Netflow [Netflow, 2005]. O Netflow divide o tr´afego em fluxos e cada fluxo ´e caracterizado por um timestamp que indica quando o mesmo foi registrado no log, o IP de origem e de destino dos dados, a porta de destino utilizada, o protocolo (TCP ou UDP) e o volume de bytes transferidos.

A partir dos logs acima discutidos, foi realizado um pr´e-processamento dos mes- mos para que seja poss´ıvel extrair as informac¸˜oes de forma mais simplificada e eficiente.

Combinando as trˆes fontes de dados (RADIUS, Netflow e a classificac¸˜ao dos clientes) extraimos todas as informac¸˜oes necess´arias para caracterizar cada sess˜ao dos usu´arios.

Para fins de caracterizac¸˜ao, apenas sess˜oes que iniciaram e terminaram durante o per´ıodo de coleta de log foram consideradas.

O padr˜ao de requisic¸˜oes dos usu´arios ´e obtido dos logs de tr´afego que registram

as requisic¸˜oes aos servic¸os em cada uma das sess˜oes dos usu´arios. A utilizac¸˜ao de um

servic¸o consiste em requisic¸˜oes a uma aplicac¸˜ao ou conjunto de aplicac¸ ˜oes e ´e identificada

atrav´es de portas onde os servidores respondem `a essas requisic¸˜oes. Usamos uma vers˜ao

estendida da taxonomia utilizada pelo IANA (Internet Assigned Numbers Authority) para

relacionar essas portas com seus respectivos servic¸os. A extens˜ao foi necess´aria porque a

(4)

utilizac¸˜ao de algumas portas s˜ao bem conhecidas mas n˜ao registradas, como por exemplo a porta 4662, utilizada pela aplicac¸˜ao de Peer-to-Peer eDonkey [Tutschku, 2004].

Para identificar tais padr˜oes, utilizamos o k-means [Hartigan, 1975], um algoritmo de agrupamento. Esse tipo de algoritmo ´e uma t´ecnica bem conhecida para segmen- tar um grupo heterogˆeneo de entidades (no caso, sess˜oes de usu´arios de Internet) em grupos (ou clusters) que possuem comportamento semelhante. No caso, queremos de- terminar grupos de usu´arios que acessem os mesmos servic¸os Web com uma frequˆencia parecida. O n´umero de grupos ideal ´e determinado atrav´es do β-CV, como descrito em [Mensac´e and Almeida, 2000]. Cada grupo ´e representado por um CBMG (Customer Be- havior Model Graph) [Mensac´e and Almeida, 2000]. O CBMG consiste em um grafo di- recionado onde os v´ertices s˜ao os diversos servic¸os oferecidos na rede (HTTP, POP3, FTP etc) e as arestas representam as probabilidades de um usu´ario deixar de utilizar um servic¸o para utilizar outro. O CBMG ´e uma representac¸˜ao semanticamente rica e ao mesmo tempo sucinta, e perfis representativos de sess˜oes s˜ao encontrados atrav´es do agrupamento das sess˜oes em CBMGs.

4. An´alise de Resultados

Esta sec¸˜ao apresenta os resultados mais relevantes obtidos em nossa caracterizac¸˜ao. A sec¸˜ao 4.1. mostra uma vis˜ao geral dos dados. O processo de chegada de sess˜oes, a durac¸˜ao das sess˜oes e o volume de bytes transferidos s˜ao caracterizados na sess˜ao 4.2.. A sec¸˜ao 4.3. analisa os padr˜oes de requisic¸˜oes dos usu´arios.

4.1. Vis˜ ao Geral da Carga

Tabela 1. Sum ´ario dos Dados (CV = co-vari ˆancia)

classe de usu´arios residencial comercial

# de sess˜oes completadas 162741 37880

total de bytes recebidos (GB) 5387 (75%) 1791 (25%) total de bytes enviados (GB) 2063 (82%) 452 (18%) m´edia de sess˜oes completadas por usu´ario 29,60 22,70 durac¸˜ao m´edia das sess˜oes (horas) e CV 6,43 (2,32) 8,59 (2,26) bytes recebidos por sess˜ao (MB) e CV 33,90 (7,83) 48,42 (8,08) bytes enviados por sess˜ao (MB) e CV 12,98 (4,57) 12,23 (3,46)

A Tabela 1 mostra uma vis˜ao geral da carga de trabalho do usu´arios residenciais e comerciais. Os logs que utilizamos na caracterizac¸˜ao abrangem um per´ıodo de 28 dias, durante o qual cerca de 200.000 sess˜oes se completaram. Aproximadamente 80% das sess˜oes s˜ao de usu´arios residenciais, e essa proporc¸˜ao se mant´em no que se refere aos bytes enviados e recebidos. Pela tabela, notamos tamb´em que a freq¨uˆencia com que os usu´arios comerciais estabelecem sess˜oes ´e um pouco maior que a dos usu´arios comerciais, apesar de que esses ´ultimos tendem a possuir sess˜oes um pouco mais longas.

A Figura 1 apresenta gr´aficos que mostram o n´umero de sess˜oes simultˆaneas ati-

vas, em uma semana t´ıpica. ´ E interessante notar a grande queda no n´umero de usu´arios

comerciais utilizando a rede durante os fins-de-semana. Esta queda tamb´em ´e notada en-

tre os usu´arios residenciais, apesar de ser bem mais branda. A partir desses resultados, os

provedores podem se planejar para realizar reparos e upgrades no sistema em hor´arios em

que o menor n´umero de usu´arios estejam conectados. Al´em disso, o n´umero de conex˜oes

(5)

simultˆaneas criadas por usu´arios de um ISP de banda larga deve ser bem administrado, devido `a limitac¸˜ao do n´umero de IPs v´alidos distribu´ıdos para cada ISP.

0 500 1000 1500 2000 2500 3000 3500 4000 4500

domingo segunda terça quarta quinta sexta sábado

Nœmero de Sessıes Ativas

Dia da Semana

(a) usu´arios residenciais

0 500 1000 1500 2000 2500 3000 3500 4000 4500

domingo segunda terça quarta quinta sexta sábado

Nœmero de Sessıes Ativas

Dia da Semana

(b) usu´arios comerciais Figura 1. N ´umero de Sess ˜oes Ativas em uma Semana T´ıpica

4.2. Caracter´ısticas das Sess˜ oes

Nesta sec¸˜ao analisamos os trˆes primeiros crit´erios utilizados em nossa caracterizac¸˜ao: (i) processo de chegada de sess˜oes, (ii) durac¸˜ao das sess˜oes e (iii) volume de tr´afego.

4.2.1. Processo de Chegada de Sess ˜ oes

Para caracterizar o processo de chegada de sess˜oes, escolhemos per´ıodos de estabilidade quanto `a taxa de chegada de sess˜oes a fim de evitar efeitos indesej´aveis de agregac¸˜ao de dados. A escolha dos per´ıodos analisados foi feita com a preocupac¸˜ao de abranger diferentes momentos do dia e diferentes dias da semana, incluindo fins-de-semana. O m´etodo dos m´ınimos quadrados foi utilizado para determinar qual distribuic¸˜ao melhor representava o conjunto de dados, e uma inspec¸˜ao visual tamb´em foi feita.

Encontramos que o tempo entre chegada de sess˜oes possui distribuic¸˜ao exponen- cial tanto para sess˜oes de usu´arios residenciais quanto comerciais, como ilustrado nas Figuras 2(a) e 2(b) respectivamente. A Tabela 2 mostra um resumo dos resultados obtidos na modelagem, fornecendo o intervalo de variac¸˜ao da m´edia e da co-variˆancia (CV) dos tempos entre chegada de sess˜oes, assim como o valor do parˆametro λ obtido, que repre- senta a taxa de chegada de sess˜oes. Os resultados s˜ao consistentes com os apresentados em [Floyd and Paxson, 2001].

O parˆametro λ relativo aos usu´arios residenciais mostra que a taxa de chegada de sess˜oes desses usu´arios se mant´em relativamente alta durante todo o dia, variando entre 4 a 10 segundos. J´a os usu´arios comerciais s˜ao respons´aveis por uma grande taxa de chegada de sess˜oes no in´ıcio do dia, por´em em outros momentos (como madrugadas e fins-de-semana) essa taxa cai bastante.

4.2.2. Durac¸˜ ao das Sess˜ oes

Para caracterizar a durac¸˜ao das sess˜oes, analisamos separadamente a durac¸˜ao de todas

as sess˜oes que se iniciaram em um dado dia, para evitarmos a agregac¸˜ao dos resultados.

(6)

0 10 20 30 40 50 60 70 80 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Tempo entre Chegada de Sessões (segundos)

Prob (X>x)

Exponencial Dados

(a) usu´arios residenciais

0 50 100 150 200 250 300

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Tempo entre Chegada de Sessões (segundos)

Prob (X>x)

Exponencial Dados

(b) usu´arios comerciais

Figura 2. Distribuic¸ ˜ao do Tempo entre Chegadas de Sess ˜oes (segundos).

Tabela 2. Sum ´ario da Distribuic¸ ˜ao do Tempo Entre Chegadas de Sess ˜oes Tempos entre Chegadas de Sess ˜oes dist.

carga de trabalho m´edia (seg) CV exponencial residencial 4,81 - 10,20 1,02 - 1,05 0,10 - 0,21 comercial 4,63 - 42,19 0,98 - 0,99 0,02 - 0,22

distribuic¸ ˜ao exponencial:Xp(x) =λeλx

Novamente o processo foi repetido para um grande n´umero de dias.

0 20 40 60 80 100 120 140 160 180 200

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Duração das Sessões (horas)

Prob (X>x)

Lognormal Dados

(a) usu´arios residenciais

0 50 100 150 200 250 300 350

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Duração das Sessões (horas)

Prob (X>x)

Lognormal Pareto Dados

(b) usu´arios comerciais Figura 3. Distribuic¸ ˜ao da Durac¸ ˜ao de Sess ˜oes (horas).

Tabela 3. Sum ´ario das Distribuic¸ ˜oes da Durac¸ ˜ao de Sess ˜oes

carga de trabalho m´edia (horas) CV dist. Log-Normal dist. Pareto

σ µ k α

residencial 4,71 - 13,09 1,75 - 2,47 1,18 - 1,52 0,48 - 1,86 - - comercial 6,95 - 19,21 1,53 - 1,62 0,92 - 1,45 1,04 - 2,30 1,82 - 7,18 1,28 - 1,95 distribuic¸ ˜ao Log-Normal:Xp(x) = 1

2πe

−(ln(x)−µ)2

2 Distribuic¸ ˜ao Pareto:Xp(x) = xαkα+1α ,onde x≥k.

As sess˜oes de usu´arios residenciais podem ser aproximadas por uma distribuic¸˜ao

Lognormal, conforme pode ser observado na Figura 3(a), o que ´e consistente com os

resultados apresentados em [Floyd and Paxson, 2001]. No entanto, as sess˜oes de usu´arios

comerciais s˜ao melhor modeladas por um combinac¸˜ao entre as distribuic¸˜oes Lognormal

(7)

e Pareto, para o corpo e cauda respectivamente, como ilustra a Figura 3(b). A Tabela 3 mostra um sum´ario dos resultados.

Os gr´aficos da Figura 4 indicam uma diferenc¸a clara entre os usu´arios residenciais e comerciais. Estes ´ultimos tendem a estabelecer sess˜oes que duram em torno de 10 a 12 horas, correspondentes ao tempo de jornada de trabalho comumente adotado nas organizac¸˜oes. Essa diferenc¸a justifica a necessidade de uma modelagem mais complexa composta por duas distribuic¸˜oes diferentes na durac¸˜ao de sess˜oes comerciais.

0 5000 10000 15000 20000 25000 30000 35000 40000 45000

0 5 10 15 20 25

Número de Sessões

Duração (horas) Duração x Número de Sessões

(a) usu´arios residenciais

0 1000 2000 3000 4000 5000 6000 7000 8000

0 5 10 15 20 25

Número de Sessões

Duração (horas) Duração x Número de Sessões

(b) usu´arios comerciais Figura 4. Histograma da Durac¸ ˜ao de Sess ˜oes

4.2.3. Tr´afego

Nesta sec¸˜ao caracterizamos o n´umero total dos bytes enviados e recebidos em cada sess˜ao.

Assim como nas sec¸ ˜oes anteriores, a an´alise ´e realizada para diferentes dias.

Encontramos que tanto para as sess˜oes residenciais quanto para as comerciais, os bytes recebidos (Figura 5) e os bytes enviados (Figura 6) podem ser modelados de forma satisfat´oria por uma distribuic¸˜ao Lognormal, confirmando os resultados apresentados em [Arlitt and Jin, 2000, Barford et al., 1999, Floyd and Paxson, 2001].

0 20 40 60 80 100 120 140 160 180 200

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Bytes Recebidos (MB)

Prob (X>x)

Lognormal Dados

(a) usu´arios residenciais

0 20 40 60 80 100 120 140 160 180 200

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Bytes Recebidos (MB)

Prob (X>x)

Lognormal Dados

(b) usu´arios comerciais

Figura 5. Distribuic¸ ˜ao do N ´umero de Bytes Recebidos por Sess ˜ao (MB).

Um sum´ario dos resultados pode ser observado pela Tabela 4. Comparando as

duas categorias de usu´arios, notamos que os usu´arios comerciais em m´edia enviam e

recebem mais bytes. Possivelmente, isso se deve em parte ao fato de que empresas e

(8)

0 20 40 60 80 100 120 140 160 180 200 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Bytes Enviados (MB)

Prob (X>x)

Lognormal Dados

(a) usu´arios residenciais

0 20 40 60 80 100 120 140 160 180 200

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Bytes Enviados (MB)

Prob (X>x)

Lognormal Measured

(b) usu´arios comerciais

Figura 6. Distribuic¸ ˜ao do N ´umero de Bytes Enviados por Sess ˜ao (MB).

organizac¸˜oes em geral possuirem v´arias m´aquinas em rede compartilhando a conex˜ao `a Internet, o que leva a um maior consumo de banda.

Tabela 4. Sum ´ario das Distribuic¸ ˜oes do Tr ´afego de Bytes em cada Sess ˜ao bytes transferidos dist. Log-Normal

carga de trabalho m´etrica m´edia (MB) CV σ µ

residencial recebidos 28 - 44 3,95 - 4,63 1,62 - 1,83 1,76 - 2,46 comercial recebidos 47 - 80 3,31 - 3,40 1,47 - 1,70 2,39 - 3,27 residencial enviados 10 - 16 6,82 - 8,27 1,84 - 2,09 0,31 - 1,09 comercial enviados 9 - 23 2,98 - 6,82 1,51 - 2,09 0,41 - 1,31

4.3. Padr˜ oes de Requisic¸˜ oes dos Usu´arios

Nesta sec¸˜ao investigamos os padr˜oes de requisic¸˜oes dos usu´arios do ISP de banda larga, focando nas classes de servic¸os mais comumente requisitadas pelos mesmos.

Primeiramente analisamos a popularidade dos servic¸os utilizados por cada uma das duas classes de usu´arios, em trˆes aspectos: a presenc¸a desses servic¸os nas sess˜oes, ou seja, a porcentagem das sess˜oes que possuem pelo menos uma requisic¸˜ao a cada um dos servic¸os (Figuras 7(a) e 8(a)); o n´umero de requisic¸˜oes a cada servic¸o (Figuras 7(b) e 8(b)) e os bytes transferidos atrav´es de cada um (Figuras 7(c) e 8(c)).

Apesar do HTTP estar presente em mais de 95% das sess˜oes em ambas as car- gas de trabalho (residencial e comercial), servic¸os de email (SMTP e POP3) e aplica- tivos de troca de mensagens instantˆaneas (MSN e ICQ) tamb´em s˜ao populares entre os usu´arios. J´a os servic¸os de P2P (Kazaa, e-Donkey, BitTorrent, SoulSeek e WinMX) s˜ao os que mais transferem bytes, apesar de n˜ao estarem presentes em grande parte das sess˜oes dos usu´arios. Um fato surpreendente nesses resultados ´e a grande presenc¸a de servic¸os P2P tamb´em entre os usu´arios comerciais.

Dada a natureza dos diferentes servic¸os requisitados pelos usu´arios da carga de tra-

balho analisada, o segundo passo na avaliac¸˜ao de padr˜oes de requisic¸˜oes ´e a caracterizac¸˜ao

das sess˜oes dos mesmos buscando identificar a frequˆencia dos pedidos para cada servic¸o e

a frequˆencia com a qual os usu´arios comutam entre os mesmos. Para isso, representamos

a sequˆencia de pedidos a servic¸os em cada sess˜ao como um CBMG, conforme descrito na

sec¸˜ao 3., e utilizamos t´ecnicas de agrupamento para encontrar os padr˜oes de requisic¸˜oes

que melhor representam o comportamento dos usu´arios.

(9)

0 10 20 30 40 50 60 70 80 90 100

HTTP−PROXY

DNSIRC

SMTP

PEER−ENABLER

POP3

MSN−MESSENGER

KAZAA

AIM/ICQ

HTTPS

HTTP

Porcentagem

Serviço Presença de serviços

(a) presenc¸a de servic¸os

0 5 10 15 20 25 30 35 40

IRC

AIM/ICQ

HTTPS

SMTP

PEER−ENABLER

EPMAP

CSTRIKE

E−DONKEY

DNSPOP3

HALFLIFE

MSN−MESSENGER

MICROSOFT−DS

KAZAA

HTTP

Porcentagem

Serviço Número de Requisições aos Serviços

(b) requisic¸ ˜oes aos servic¸os

0 50 100 150 200 250 300 350 400 450 500

MICROSOFT−DS

WINMX

COUNTERSTRIKE

SOULSEEK

SMTP

BITTORRENT

E−DONKEY

HTTPKAZAA

Tráfego (GB)

Serviço Bytes Transferidos por Serviço

(c) bytes transferidos por servic¸o Figura 7. popularidade de servic¸os (usu ´arios residenciais)

0 10 20 30 40 50 60 70 80 90 100

FTP−DATA

IRCFTP

HTTP−PROXY

MS−STREAMING

PEER−ENABLER

AIM/ICQ

DNS

KAZAA

SMTP

MSN−MESSENGER

POP3HTTPS

HTTP

Porcentagem

Serviço Presença de Serviços

(a) presenc¸a de servic¸os

0 5 10 15 20 25 30 35 40

HTTPS

SMTPEPMAP

PEER−ENABLER

COUNTERSTRIKE

E−DONKEY

DNSPOP3

HALFLIFE

MSN−MESSENGER

MICROSOFT−DS

KAZAA

HTTP

Porcentagem

Serviço Número de Requisições aos Serviços

(b) requisic¸ ˜oes aos servic¸os

0 10 20 30 40 50 60 70 80

MS−STREAMING

FTP−DATA

BITTORRENT

MSN−MESSENGER

MICROSOFT−DS

SOULSEEK

POP3WINMX

HTTPS

COUNTERSTRIKE

SMTP

E−DONKEY

KAZAA

HTTP

Tráfego (GB)

Serviço Bytes Transferidos por Serviço

(c) bytes transferidos por servic¸o Figura 8. popularidade de servic¸os (usu ´arios comerciais)

Em nossa an´alise, encontramos 3 grupos de sess˜oes de usu´arios residenciais e o mesmo n´umero para os usu´arios comerciais. Os dados de cada grupo est˜ao resumidos nas Tabelas 5 e 6. A Figura 9 representa graficamente os CBMGs das sess˜oes dos usu´arios res- idenciais e a Figura 10, das sess˜oes comerciais. O grafo 9(b), que representa os usu´arios que se limitam a navegar em sites Web a maior parte do tempo, corresponde ao grupo 2 da Tabela 6. O grafo 9(c) modela os usu´arios que utilizam aplicac¸˜oes P2P (como o Kazaa), que correspondem `aqueles que est˜ao no grupo 3 da Tabela 5. Analisando esse ´ultimo CBMG em conjunto com sua respectiva tabela ´e poss´ıvel verificar que a carga que este exerce no provedor ´e significativamente superior `a carga dos outros grupos de usu´arios.

E interessante observar que a co-variˆancia da distribuic¸˜ao dos dados analisada por ´ cada grupo separadamente ´e significativamente menor que aquela que considera todas as sess˜oes (Tabela 1) o que mostra que, de alguma forma, conseguimos encontrar gru- pos representativos de sess˜oes, mais homogˆeneas que aquelas que se dividem apenas em residenciais e comerciais.

P2P HTTP

EPMAP MS−DS

84%

5%

4%

66%

34%

14%

2%

3%

93% 95%

(a) grupo 1

HTTP 98%

2%

HTTPS 14%

86%

(b) grupo 2

P2P HTTP 22%

10%

90% 78%

(c) grupo 3 Figura 9. grupos de usu ´arios residenciais

(10)

Tabela 5. Grupos de usu ´arios residenciais (CV = co-vari ˆancia)

grupos de usu´arios grupo 1 grupo 2 grupo 3

requisic¸ ˜oes aos servic¸os HTTP (36%) MS-DS (30%) EPMAP (22%) MSN (12%)

HTTP (97%) MSN (3%)

KAZAA (64%) HTTP (36%)

# de sess˜oes completadas 2775 (4%) 55048 (80%) 10858 (16%) total de bytes recebidos (GB) 143,39 (6%) 894,12

(35%)

1502,49 (59%) total de bytes enviados (GB) 70,47 (8%) 141,62

(15%)

722,71 (77%) durac¸˜ao m´edia das sess˜oes (horas) e CV 9,94 (2,30) 5,23 (1,86) 15,68 (1,86) bytes recebidos por sess˜ao (MB) e CV 52,91 (3,71) 16,63 (4,03) 141,70 (2,64) bytes enviados por sess˜ao (MB) e CV 26,01 (4,87) 2,63 (3,69) 68,16 (3,69)

Tabela 6. Grupos de usu ´arios comerciais (CV = co-vari ˆancia)

grupos de usu´arios grupo 1 grupo 2 grupo 3

requisic¸ ˜oes aos servic¸os HTTP (73%) POP3 (24%) HTTPS (3%)

HTTP (96%) HTTPS (4%)

HTTP (54%)

KAZAA (46%)

# de sess˜oes completadas 483 (8%) 4770 (77%) 911 (15%)

total de bytes recebidos (GB) 17,93 (9%) 65,16 (31%) 125,40 (60%) total de bytes enviados (GB) 5,92 (7%) 11,10 (14%) 63,86 (79%) durac¸˜ao m´edia das sess˜oes (horas) e CV 8,22 (1,06) 5,32 (4,07) 14,09 (1,59) bytes recebidos por sess˜ao (MB) e CV 38,02 (3,51) 13,99 (4,03) 71,78 (2,79) bytes enviados por sess˜ao (MB) e CV 12,55 (4,00) 2,38 (3,18) 14,09 (3,41)

HTTP 95%

3%

22%

POP3 HTTPS

3%

15%

2%

78%

82%

(a) grupo 1

HTTP 98%

2%

HTTPS 14%

86%

(b) grupo 2

P2P HTTP

11%

89% 77%

23%

(c) grupo 3 Figura 10. grupos de usu ´arios comerciais

5. Conclus˜oes e Trabalhos Futuros

Diversos estudos vˆem sendo publicados considerando a caracterizac¸˜ao de diferentes

servic¸os Web, tais como o HTTP, streaming media e P2P. Entretanto, existem poucos es-

tudos dispon´ıveis que avaliam os servic¸os de Internet de banda larga em conjunto. Neste

trabalho analisamos a atividade dos usu´arios de banda larga, estudando de forma quan-

titativa e qualitativa a carga gerada por ela. A caracterizac¸˜ao utilizou logs coletados em

pontos espec´ıficos de um provedor de acesso (registros da autenticac¸˜ao dos usu´arios e do

tr´afego gerado por eles) e foi feita a n´ıvel de sess˜ao e a n´ıvel de requisic¸˜ao. Alguns dos

resultados encontrados s˜ao: (i) o tempo entre chegada de sess˜oes de clientes residenciais e

comerciais segue uma distribuc¸˜ao exponencial, (ii) para sess˜oes de clientes residenciais e

tamb´em comerciais, o n´umero de bytes enviados e recebidos pode ser modelado atrav´es de

uma distribuic¸˜ao de Lognormal, (iii) atrav´es do uso do CBMG descobrimos seis grupos de

usu´arios com padr˜oes de requisic¸˜oes significativamente diferentes entre si. Os resultados

(11)

apresentados neste trabalho s˜ao uma primeira tentativa de caracterizar o comportamento de usu´arios banda larga. Estamos trabalhando no refinamento da caracterizac¸˜ao dos CB- MGs, para avaliar o comportamento de outros sistemas como por exemplo, Web Services.

Em paralelo, a ferramenta BUBA, produto da iniciac¸˜ao cient´ıfica do bolsista, continuar´a sendo aperfeic¸oada.

Referˆencias

(2004). The Broadband Difference. Pew & American Life. www.pewinternet.org.

Arlitt, M., Friedrich, R., and Jin, T. (1999). Workload Characterization of a Web Proxy in a Cable Modem Environment. Technical Report HPL-1999-48, Internet Systems and Applications Laboratory - HP Laboratories Palo Alto.

Arlitt, M. and Jin, T. (2000). Workload Characterization of the 1998 World Cup Web Site. IEEE Network, 14(3):30–37.

Barford, P., Bestavros, A., Bradley, A., and Crovella, M. E. (1999). Changes in Web Client Access Patterns: Characteristics and Caching Implications. World Wide Web, Special Issue on Characterization and Performance Evaluation, 2(1-2):15–28.

Calais, P. H., Albergaria, E. T., Rocha, L., Marques, H. T., Almeida, J. M., Meira, W., and Almeida, V. (2005). BUBA: Uma Ferramenta para An´alise de Comportamento de Usu´arios de Internet de Banda Larga. 23o Simp ´osio Brasileiro de Redes de Computa- dores - Sal˜ao de Ferramentas.

Costa, C., Cunha, I., Borges, A., Ramos, C., Rocha, M., Almeida, J., and Ribeiro-Neto, B. (2004). Analyzing Client Interactivity in Streaming Media. In Proceedings 13th World Wide Web Conference, New York, NY.

Floyd, S. and Paxson, V. (2001). Difficulties in Simulating the Internet. IEEE/ACM Transactions on Networking, 9(4).

Gummadi, K., Dunn, R., Saroiu, S., Gribble, S., Levy, H., and Zahorjan, J. (2003). Mea- surement, Modeling, and Analysis of a Peer-to-Peer File-Sharing Workload. In Pro- ceedings of the 19th ACM Symposium on Operating Systems Principles (SOSP-19), Bolton Landing, NY.

Hamada, T., Chujo, K., Chujo, T., and Yang, X. (2004). Peer-to-Peer Traffic in Metro Networks: Analysis, Nodeling and Policies. IEEE/IFIP Network Operations & Man- agement Symposium (NOMS 2004).

Hartigan, J. (1975). Clustering Algorithms. John Wiley and Sons, Inc.

Lakshminarayanan, K. and Padmanabhan, V. (2003). Some Findings on the Network Performance of Broadband Hosts. Internet Measurement Workshop (IMC’03), pages 45–50.

Leibowitz, N., Ripeanu, M., and Wierzbicki, A. (2003). Deconstructing the Kazaa Net- work. 3rd IEEE Workshop on Internet Applications (WIAPP’03).

Marques, H. T., Almeida, J. M., Rocha, L. C. D., Meira, W., Calais, P., and Almeida, V.

A. F. (2004). A Characterization of Broadband User Behavior and their e-Business

Activities. SIGMETRICS Perform. Eval. Rev., 32(3):3–13.

(12)

Mensac´e, D. and Almeida, V. (2000). Scaling for e-Business: Technologies, models, Performance and Capacity Planning. Prentice Hall, Upper Saddle River - NJ.

Netflow (2005). www.cisco.com/warp/public/732/Tech/netflow.

Rubens, C. R. S. W. A. and Simpson, W. (2000). Remote Authentication Dial In User Service (radius) rfc 2865.

Saroiu, S., Gummadi, K., Dunn, R., Gribble, S., and Levy, H. (2002). An Analysis of In- ternet Content Delivery Systems. In Proceedings of the Fifth Symposium on Operating Systems Design and Implementation (OSDI 2002).

Tutschku, K. (2004). A Measurement-based Traffic Profile of the eDonkey Filesharing

Service. Proc. of the 5th Passive and Active Measurement Workshop (PAM), Antibes

Juan-les-Pins, France.

Referências

Documentos relacionados

Conforme narrado acima, o delatado foi até a casa da vítima Maria dos Anzóis no dia 30 de junho exatamente por saber que esta iria denunciá-lo pelo furto

Diante do potencial de utilização dessa planta e a necessidade de controle alternativos para Eimeria em caprinos, o presente trabalho objetivou-se avaliar in vitro

O que eu adoro em ti não é teu colo, mais belo que o da esposa israelita, torre de graças, encantado asilo, onde o gênio das paixões habita. O que eu adoro em ti não são teus

Muitas vezes algumas crianças mostram regularidade temporal em certas atividades e total descontrole rítmico em outras; algumas se mostram afinadas em certas músicas e desafinadas

Baseado nos dados do veículo, nos valores encontrados para os coeficientes de atrito da pastilha original x proposta e nos valores de absorção encontrados entre freios a

Ainda com relação à política cultural, uma preocupação marcante do texto diz respeito ao reconhecimento das religiões afro-descendentes como “patrimônio

Com o levantamento dos movimentos utilizados pelo fisioterapeuta, ser´a poss´ıvel desenvolver um jogo que se torne parte das sess˜oes de fisioterapia, o que pode levar a

Dentre a equipe de profissionais que estão aptos à composição do PGRSS, posso inferir o quão importante é a participação do enfermeiro nas etapas de tal programa, tal como