Uma Caracterizac¸ ˜ao de Comportamento de Usu ´arios de Internet Banda Larga
Pedro H. Calais Guerra
∗, Leonardo C. Dutra Rocha Jussara Almeida , Wagner Meira Jr. , Virg´ılio Almeida
1
Departamento de Ciˆencia da Computac¸˜ao Universidade Federal de Minas Gerais
Av. Antˆonio Carlos, 6627 - Pampulha - CEP 31270-010 Belo Horizonte - Minas Gerais - Brasil
{pcalais,lcrocha,jussara,meira,virgilio}@dcc.ufmg.br
Abstract. This paper presents a characterization of broadband user behavior from an Internet Service Provider standpoint. Users are broken into two major categories: residential and Small-Office/Home-Office (SOHO). For each user category, the characterization is performed along four criteria: (i) session ar- rival process, (ii) session duration, (iii) number of bytes transferred within a session and (iv) user request patterns. We identified probability distributions that represent very well the workload generated by the users of each category and managed to point significant differences between them. Moreover, we iden- tified groups of user sessions with very distinct characteristics between them.
Understanding user behavior according to these aspects is an important step to the development of more efficient applications for broadband users.
Resumo. Neste artigo apresentamos uma caracterizac¸ ˜ao do comportamento de usu´arios de Internet Banda Larga de um provedor de acesso (ISP). Os clientes do ISP foram divididos em duas categorias (residencial e comercial), e para cada categoria investigamos: (i) processo de chegada de sess ˜oes, (ii) durac¸˜ao das sess˜oes, (iii) n´umero de bytes transferidos em cada sess ˜ao e (iv) padr˜oes de requisic¸˜ao dos usu´arios a servic¸os Web. Conseguimos identificar distribuic¸˜oes de probabilidade que representam com fidelidade a carga gerada pelos usu ´arios de cada categoria, al´em de determinar diferenc¸as significativas entre elas. Al´em disso, identificamos grupos representativos de sess ˜oes de usu´arios que pos- suem comportamento bastante distinto entre si. Entender o comportamento dos usu´arios segundo esses aspectos ´e um passo importante para o desenvolvimento de aplicac¸˜oes mais eficientes e efetivas direcionadas para os clientes de Internet Banda Larga.
1. Introduc¸˜ao
A crescente difus˜ao de conex˜oes de banda larga, particularmente de conex˜oes utilizando tecnologias de TV a cabo e ADSL, tem criado novas possibilidades de uso dos recursos da Internet por parte dos usu´arios de pequenas instituic¸˜oes e usu´arios dom´esticos. A disponibilidade cont´ınua de conex˜ao aliada ao aumento da qualidade de servic¸o de acesso
∗Aluno de Iniciac¸˜ao Cient´ıfica
conduz o usu´ario ao uso mais intenso dos diferentes servic¸os dispon´ıveis na Internet atual, em particular, aplicac¸˜oes de com´ercio eletrˆonico, Internet banking e sistemas Peer-to-Peer para compartilhamento de recursos, principalmente arquivos de v´ıdeo e ´audio.
Em outras palavras, a maior disponibilidade provida pela conex˜ao de banda larga leva a um comportamento t´ıpico de usu´ario bastante complexo e potencialmente diferente daquele de um usu´ario de acesso discado. Um estudo recente da Pew Internet & American Life [Pew, 2004] mostrou que, se comparado com usu´arios de acesso discado, usu´arios de banda larga se envolvem com mais atividades diferentes, tˆem uma tendˆencia maior de criar e gerenciar conte´udo on-line e buscam informac¸˜oes com muito mais frequˆencia.
Apesar desse relat´orio da Pew, n˜ao existem na literatura muitos estudos sobre o comportamento de usu´arios de Internet Banda Larga. Este artigo pretende contribuir para o conhecimento nesse campo apresentando uma caracterizac¸˜ao do comportamento desses usu´arios, baseada em logs reais de um grande provedor de acesso brasileiro. A partir da divis˜ao dos usu´arios em duas categorias (residencial e comercial), a caracterizac¸˜ao avalia a forma como os usu´arios se conectam ao ISP, quanto tempo eles permanecem on-line, o n´umero de bytes que eles transferem em suas sess˜oes e o que eles fazem enquanto est˜ao conectados, em termos das requisic¸˜oes a servic¸os Web, como HTTP, email, Peer- to-Peer etc. Essas informac¸˜oes podem ser muito ´uteis no planejamento da capacidade da infra-estrutura dos provedores e provˆeem subs´ıdios para avaliac¸˜ao de pr´aticas como personalizac¸˜ao de servic¸os e adoc¸˜ao de tarifac¸ ˜oes diferenciadas, com boa relac¸˜ao custo- benef´ıcio tanto para o usu´ario quanto para o provedor.
O trabalho de iniciac¸˜ao cient´ıfica aqui contido foi no sentido de, munido das m´etricas de caracterizac¸˜ao, projetar, implementar e validar todo o ferramental de caracterizac¸˜ao, assim como aplicar esse ferramental a dados reais e participar da an´alise de resultados. Este trabalho j´a resultou na ferramenta BUBA - Broadband User Be- havior Analysis [Calais et al., 2005] (que pode ser acessada via Web atrav´es do site http://buba.speed.dcc.ufmg.br, login e senha reic) e em um artigo tamb´em relacionado a ele [Marques et al., 2004], ambos de autoria do bolsista.
O artigo est´a organizado da seguinte forma: a sec¸˜ao 2 discute alguns trabalhos relacionados. A sec¸˜ao 3 descreve o processo de coleta de dados e a metodologia de caracterizac¸˜ao que foi aplicada. A sec¸˜ao 4 apresenta os resultados mais relevantes obtidos atrav´es da caracterizac¸˜ao. Por fim, as conclus˜oes s˜ao apresentadas na sec¸˜ao 5.
2. Trabalhos Relacionados
Diversas caracterizac¸ ˜oes de carga e do comportamento de usu´arios est˜ao dispon´ıveis na literatura. Cargas Web tradicionais, referentes a requisic¸˜oes HTTP a documentos e ar- quivos de imagem s˜ao analisadas em v´arios estudos anteriores, concentrados tanto na carga do lado do servidor [Arlitt and Jin, 2000] quanto do cliente [Barford et al., 1999].
Estudos mais recentes caracterizam a carga de trabalho de outros tipos de
aplicac¸˜oes, como v´ıdeo sob-demanda [Costa et al., 2004] e servic¸os Peer-to-Peer (P2P)
[Gummadi et al., 2003, Saroiu et al., 2002, Leibowitz et al., 2003], que tˆem se tornado
cada vez mais populares devido `a crescente disponibilidade de conex˜oes de banda larga
[Lakshminarayanan and Padmanabhan, 2003]. Algumas caracterizac¸ ˜oes de cargas de tra-
balho P2P analisam v´arios aspectos do tr´afego gerado por aplicac¸˜oes desse tipo, como a
popularidade e o tamanho dos objetos, a utilizac¸˜ao de largura de banda e a durac¸˜ao das sess˜oes [Gummadi et al., 2003, Saroiu et al., 2002, Hamada et al., 2004].
Enquanto essas an´alises focam em um tipo espec´ıfico de aplicac¸˜ao, nosso tra- balho se concentra nas requisic¸˜oes a um grande n´umero de servic¸os diferentes, como HTTP, FTP, P2P etc. Nesse sentido, a caracterizac¸˜ao de um proxy de um ISP de banda larga [Arlitt et al., 1999] ´e possivelmente o trabalho mais pr´oximo ao nosso. No entanto, al´em de caracterizar o tr´afego gerado por usu´arios de Internet Banda Larga, procuramos tamb´em determinar padr˜oes nas requisic¸˜oes dos usu´arios e confrontar os resultados obti- dos para os usu´arios residenciais e comerciais.
3. Metodologia de Caracterizac¸˜ao
Nesta sec¸˜ao apresentamos nossa metodologia de caracterizac¸˜ao e como ela ´e aplicada ao ambiente do ISP.
O objetivo da caracterizac¸˜ao ´e prover um entendimento do comportamento dos usu´arios de banda larga em termos do consumo de recursos e servic¸os requisitados, sendo dessa forma baseada em quatro crit´erios: o processo de chegada de sess˜oes, a durac¸˜ao das sess˜oes, o volume de bytes transferidos e o padr˜ao de requisic¸˜oes dos usu´arios. Os dois primeiros fornecem informac¸˜ao temporal sobre a carga gerada pelos usu´arios. O volume de bytes transferidos provˆe informac¸˜oes sobre o consumo de banda, que ´e um recurso cr´ıtico a ser administrado por qualquer ISP. Por fim, os padr˜oes de requisic¸˜oes entre os usu´arios do ISP qualificam as sess˜oes em termos de requisic¸˜oes aos servic¸os Web.
Para realizar a caracterizac¸˜ao, utilizamos trˆes fontes de dados: um log de autenticac¸˜ao de usu´arios, uma base de dados dos usu´arios e um log de tr´afego. O log de autenticac¸˜ao ´e compat´ıvel com o protocolo RADIUS [Rubens and Simpson, 2000] e registra o momento em que cada sess˜ao iniciou e terminou, a durac¸˜ao, o n´umero de bytes enviados e recebidos e o IP dinamicamente atribu´ıdo ao usu´ario em cada sess˜ao. A base de dados de usu´arios ´e uma tabela que informa a categoria de cada cliente do ISP (resi- dencial ou comercial) e que por quest˜oes de privacidade, foi anonimizada. O terceiro log
´e coletado atrav´es do Netflow [Netflow, 2005]. O Netflow divide o tr´afego em fluxos e cada fluxo ´e caracterizado por um timestamp que indica quando o mesmo foi registrado no log, o IP de origem e de destino dos dados, a porta de destino utilizada, o protocolo (TCP ou UDP) e o volume de bytes transferidos.
A partir dos logs acima discutidos, foi realizado um pr´e-processamento dos mes- mos para que seja poss´ıvel extrair as informac¸˜oes de forma mais simplificada e eficiente.
Combinando as trˆes fontes de dados (RADIUS, Netflow e a classificac¸˜ao dos clientes) extraimos todas as informac¸˜oes necess´arias para caracterizar cada sess˜ao dos usu´arios.
Para fins de caracterizac¸˜ao, apenas sess˜oes que iniciaram e terminaram durante o per´ıodo de coleta de log foram consideradas.
O padr˜ao de requisic¸˜oes dos usu´arios ´e obtido dos logs de tr´afego que registram
as requisic¸˜oes aos servic¸os em cada uma das sess˜oes dos usu´arios. A utilizac¸˜ao de um
servic¸o consiste em requisic¸˜oes a uma aplicac¸˜ao ou conjunto de aplicac¸ ˜oes e ´e identificada
atrav´es de portas onde os servidores respondem `a essas requisic¸˜oes. Usamos uma vers˜ao
estendida da taxonomia utilizada pelo IANA (Internet Assigned Numbers Authority) para
relacionar essas portas com seus respectivos servic¸os. A extens˜ao foi necess´aria porque a
utilizac¸˜ao de algumas portas s˜ao bem conhecidas mas n˜ao registradas, como por exemplo a porta 4662, utilizada pela aplicac¸˜ao de Peer-to-Peer eDonkey [Tutschku, 2004].
Para identificar tais padr˜oes, utilizamos o k-means [Hartigan, 1975], um algoritmo de agrupamento. Esse tipo de algoritmo ´e uma t´ecnica bem conhecida para segmen- tar um grupo heterogˆeneo de entidades (no caso, sess˜oes de usu´arios de Internet) em grupos (ou clusters) que possuem comportamento semelhante. No caso, queremos de- terminar grupos de usu´arios que acessem os mesmos servic¸os Web com uma frequˆencia parecida. O n´umero de grupos ideal ´e determinado atrav´es do β-CV, como descrito em [Mensac´e and Almeida, 2000]. Cada grupo ´e representado por um CBMG (Customer Be- havior Model Graph) [Mensac´e and Almeida, 2000]. O CBMG consiste em um grafo di- recionado onde os v´ertices s˜ao os diversos servic¸os oferecidos na rede (HTTP, POP3, FTP etc) e as arestas representam as probabilidades de um usu´ario deixar de utilizar um servic¸o para utilizar outro. O CBMG ´e uma representac¸˜ao semanticamente rica e ao mesmo tempo sucinta, e perfis representativos de sess˜oes s˜ao encontrados atrav´es do agrupamento das sess˜oes em CBMGs.
4. An´alise de Resultados
Esta sec¸˜ao apresenta os resultados mais relevantes obtidos em nossa caracterizac¸˜ao. A sec¸˜ao 4.1. mostra uma vis˜ao geral dos dados. O processo de chegada de sess˜oes, a durac¸˜ao das sess˜oes e o volume de bytes transferidos s˜ao caracterizados na sess˜ao 4.2.. A sec¸˜ao 4.3. analisa os padr˜oes de requisic¸˜oes dos usu´arios.
4.1. Vis˜ ao Geral da Carga
Tabela 1. Sum ´ario dos Dados (CV = co-vari ˆancia)
classe de usu´arios residencial comercial
# de sess˜oes completadas 162741 37880
total de bytes recebidos (GB) 5387 (75%) 1791 (25%) total de bytes enviados (GB) 2063 (82%) 452 (18%) m´edia de sess˜oes completadas por usu´ario 29,60 22,70 durac¸˜ao m´edia das sess˜oes (horas) e CV 6,43 (2,32) 8,59 (2,26) bytes recebidos por sess˜ao (MB) e CV 33,90 (7,83) 48,42 (8,08) bytes enviados por sess˜ao (MB) e CV 12,98 (4,57) 12,23 (3,46)
A Tabela 1 mostra uma vis˜ao geral da carga de trabalho do usu´arios residenciais e comerciais. Os logs que utilizamos na caracterizac¸˜ao abrangem um per´ıodo de 28 dias, durante o qual cerca de 200.000 sess˜oes se completaram. Aproximadamente 80% das sess˜oes s˜ao de usu´arios residenciais, e essa proporc¸˜ao se mant´em no que se refere aos bytes enviados e recebidos. Pela tabela, notamos tamb´em que a freq¨uˆencia com que os usu´arios comerciais estabelecem sess˜oes ´e um pouco maior que a dos usu´arios comerciais, apesar de que esses ´ultimos tendem a possuir sess˜oes um pouco mais longas.
A Figura 1 apresenta gr´aficos que mostram o n´umero de sess˜oes simultˆaneas ati-
vas, em uma semana t´ıpica. ´ E interessante notar a grande queda no n´umero de usu´arios
comerciais utilizando a rede durante os fins-de-semana. Esta queda tamb´em ´e notada en-
tre os usu´arios residenciais, apesar de ser bem mais branda. A partir desses resultados, os
provedores podem se planejar para realizar reparos e upgrades no sistema em hor´arios em
que o menor n´umero de usu´arios estejam conectados. Al´em disso, o n´umero de conex˜oes
simultˆaneas criadas por usu´arios de um ISP de banda larga deve ser bem administrado, devido `a limitac¸˜ao do n´umero de IPs v´alidos distribu´ıdos para cada ISP.
0 500 1000 1500 2000 2500 3000 3500 4000 4500
domingo segunda terça quarta quinta sexta sábado
Nœmero de Sessıes Ativas
Dia da Semana
(a) usu´arios residenciais
0 500 1000 1500 2000 2500 3000 3500 4000 4500
domingo segunda terça quarta quinta sexta sábado
Nœmero de Sessıes Ativas
Dia da Semana
(b) usu´arios comerciais Figura 1. N ´umero de Sess ˜oes Ativas em uma Semana T´ıpica
4.2. Caracter´ısticas das Sess˜ oes
Nesta sec¸˜ao analisamos os trˆes primeiros crit´erios utilizados em nossa caracterizac¸˜ao: (i) processo de chegada de sess˜oes, (ii) durac¸˜ao das sess˜oes e (iii) volume de tr´afego.
4.2.1. Processo de Chegada de Sess ˜ oes
Para caracterizar o processo de chegada de sess˜oes, escolhemos per´ıodos de estabilidade quanto `a taxa de chegada de sess˜oes a fim de evitar efeitos indesej´aveis de agregac¸˜ao de dados. A escolha dos per´ıodos analisados foi feita com a preocupac¸˜ao de abranger diferentes momentos do dia e diferentes dias da semana, incluindo fins-de-semana. O m´etodo dos m´ınimos quadrados foi utilizado para determinar qual distribuic¸˜ao melhor representava o conjunto de dados, e uma inspec¸˜ao visual tamb´em foi feita.
Encontramos que o tempo entre chegada de sess˜oes possui distribuic¸˜ao exponen- cial tanto para sess˜oes de usu´arios residenciais quanto comerciais, como ilustrado nas Figuras 2(a) e 2(b) respectivamente. A Tabela 2 mostra um resumo dos resultados obtidos na modelagem, fornecendo o intervalo de variac¸˜ao da m´edia e da co-variˆancia (CV) dos tempos entre chegada de sess˜oes, assim como o valor do parˆametro λ obtido, que repre- senta a taxa de chegada de sess˜oes. Os resultados s˜ao consistentes com os apresentados em [Floyd and Paxson, 2001].
O parˆametro λ relativo aos usu´arios residenciais mostra que a taxa de chegada de sess˜oes desses usu´arios se mant´em relativamente alta durante todo o dia, variando entre 4 a 10 segundos. J´a os usu´arios comerciais s˜ao respons´aveis por uma grande taxa de chegada de sess˜oes no in´ıcio do dia, por´em em outros momentos (como madrugadas e fins-de-semana) essa taxa cai bastante.
4.2.2. Durac¸˜ ao das Sess˜ oes
Para caracterizar a durac¸˜ao das sess˜oes, analisamos separadamente a durac¸˜ao de todas
as sess˜oes que se iniciaram em um dado dia, para evitarmos a agregac¸˜ao dos resultados.
0 10 20 30 40 50 60 70 80 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Tempo entre Chegada de Sessões (segundos)
Prob (X>x)
Exponencial Dados
(a) usu´arios residenciais
0 50 100 150 200 250 300
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Tempo entre Chegada de Sessões (segundos)
Prob (X>x)
Exponencial Dados
(b) usu´arios comerciais
Figura 2. Distribuic¸ ˜ao do Tempo entre Chegadas de Sess ˜oes (segundos).
Tabela 2. Sum ´ario da Distribuic¸ ˜ao do Tempo Entre Chegadas de Sess ˜oes Tempos entre Chegadas de Sess ˜oes dist.
carga de trabalho m´edia (seg) CV exponencial residencial 4,81 - 10,20 1,02 - 1,05 0,10 - 0,21 comercial 4,63 - 42,19 0,98 - 0,99 0,02 - 0,22
distribuic¸ ˜ao exponencial:Xp(x) =λe−λx
Novamente o processo foi repetido para um grande n´umero de dias.
0 20 40 60 80 100 120 140 160 180 200
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Duração das Sessões (horas)
Prob (X>x)
Lognormal Dados
(a) usu´arios residenciais
0 50 100 150 200 250 300 350
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Duração das Sessões (horas)
Prob (X>x)
Lognormal Pareto Dados
(b) usu´arios comerciais Figura 3. Distribuic¸ ˜ao da Durac¸ ˜ao de Sess ˜oes (horas).
Tabela 3. Sum ´ario das Distribuic¸ ˜oes da Durac¸ ˜ao de Sess ˜oes
carga de trabalho m´edia (horas) CV dist. Log-Normal dist. Pareto
σ µ k α
residencial 4,71 - 13,09 1,75 - 2,47 1,18 - 1,52 0,48 - 1,86 - - comercial 6,95 - 19,21 1,53 - 1,62 0,92 - 1,45 1,04 - 2,30 1,82 - 7,18 1,28 - 1,95 distribuic¸ ˜ao Log-Normal:Xp(x) = xσ√1
2πe
−(ln(x)−µ)2
2σ2 Distribuic¸ ˜ao Pareto:Xp(x) = xαkα+1α ,onde x≥k.
As sess˜oes de usu´arios residenciais podem ser aproximadas por uma distribuic¸˜ao
Lognormal, conforme pode ser observado na Figura 3(a), o que ´e consistente com os
resultados apresentados em [Floyd and Paxson, 2001]. No entanto, as sess˜oes de usu´arios
comerciais s˜ao melhor modeladas por um combinac¸˜ao entre as distribuic¸˜oes Lognormal
e Pareto, para o corpo e cauda respectivamente, como ilustra a Figura 3(b). A Tabela 3 mostra um sum´ario dos resultados.
Os gr´aficos da Figura 4 indicam uma diferenc¸a clara entre os usu´arios residenciais e comerciais. Estes ´ultimos tendem a estabelecer sess˜oes que duram em torno de 10 a 12 horas, correspondentes ao tempo de jornada de trabalho comumente adotado nas organizac¸˜oes. Essa diferenc¸a justifica a necessidade de uma modelagem mais complexa composta por duas distribuic¸˜oes diferentes na durac¸˜ao de sess˜oes comerciais.
0 5000 10000 15000 20000 25000 30000 35000 40000 45000
0 5 10 15 20 25
Número de Sessões
Duração (horas) Duração x Número de Sessões
(a) usu´arios residenciais
0 1000 2000 3000 4000 5000 6000 7000 8000
0 5 10 15 20 25
Número de Sessões
Duração (horas) Duração x Número de Sessões
(b) usu´arios comerciais Figura 4. Histograma da Durac¸ ˜ao de Sess ˜oes
4.2.3. Tr´afego
Nesta sec¸˜ao caracterizamos o n´umero total dos bytes enviados e recebidos em cada sess˜ao.
Assim como nas sec¸ ˜oes anteriores, a an´alise ´e realizada para diferentes dias.
Encontramos que tanto para as sess˜oes residenciais quanto para as comerciais, os bytes recebidos (Figura 5) e os bytes enviados (Figura 6) podem ser modelados de forma satisfat´oria por uma distribuic¸˜ao Lognormal, confirmando os resultados apresentados em [Arlitt and Jin, 2000, Barford et al., 1999, Floyd and Paxson, 2001].
0 20 40 60 80 100 120 140 160 180 200
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Bytes Recebidos (MB)
Prob (X>x)
Lognormal Dados
(a) usu´arios residenciais
0 20 40 60 80 100 120 140 160 180 200
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Bytes Recebidos (MB)
Prob (X>x)
Lognormal Dados
(b) usu´arios comerciais
Figura 5. Distribuic¸ ˜ao do N ´umero de Bytes Recebidos por Sess ˜ao (MB).
Um sum´ario dos resultados pode ser observado pela Tabela 4. Comparando as
duas categorias de usu´arios, notamos que os usu´arios comerciais em m´edia enviam e
recebem mais bytes. Possivelmente, isso se deve em parte ao fato de que empresas e
0 20 40 60 80 100 120 140 160 180 200 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Bytes Enviados (MB)
Prob (X>x)
Lognormal Dados
(a) usu´arios residenciais
0 20 40 60 80 100 120 140 160 180 200
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Bytes Enviados (MB)
Prob (X>x)
Lognormal Measured
(b) usu´arios comerciais
Figura 6. Distribuic¸ ˜ao do N ´umero de Bytes Enviados por Sess ˜ao (MB).
organizac¸˜oes em geral possuirem v´arias m´aquinas em rede compartilhando a conex˜ao `a Internet, o que leva a um maior consumo de banda.
Tabela 4. Sum ´ario das Distribuic¸ ˜oes do Tr ´afego de Bytes em cada Sess ˜ao bytes transferidos dist. Log-Normal
carga de trabalho m´etrica m´edia (MB) CV σ µ
residencial recebidos 28 - 44 3,95 - 4,63 1,62 - 1,83 1,76 - 2,46 comercial recebidos 47 - 80 3,31 - 3,40 1,47 - 1,70 2,39 - 3,27 residencial enviados 10 - 16 6,82 - 8,27 1,84 - 2,09 0,31 - 1,09 comercial enviados 9 - 23 2,98 - 6,82 1,51 - 2,09 0,41 - 1,31
4.3. Padr˜ oes de Requisic¸˜ oes dos Usu´arios
Nesta sec¸˜ao investigamos os padr˜oes de requisic¸˜oes dos usu´arios do ISP de banda larga, focando nas classes de servic¸os mais comumente requisitadas pelos mesmos.
Primeiramente analisamos a popularidade dos servic¸os utilizados por cada uma das duas classes de usu´arios, em trˆes aspectos: a presenc¸a desses servic¸os nas sess˜oes, ou seja, a porcentagem das sess˜oes que possuem pelo menos uma requisic¸˜ao a cada um dos servic¸os (Figuras 7(a) e 8(a)); o n´umero de requisic¸˜oes a cada servic¸o (Figuras 7(b) e 8(b)) e os bytes transferidos atrav´es de cada um (Figuras 7(c) e 8(c)).
Apesar do HTTP estar presente em mais de 95% das sess˜oes em ambas as car- gas de trabalho (residencial e comercial), servic¸os de email (SMTP e POP3) e aplica- tivos de troca de mensagens instantˆaneas (MSN e ICQ) tamb´em s˜ao populares entre os usu´arios. J´a os servic¸os de P2P (Kazaa, e-Donkey, BitTorrent, SoulSeek e WinMX) s˜ao os que mais transferem bytes, apesar de n˜ao estarem presentes em grande parte das sess˜oes dos usu´arios. Um fato surpreendente nesses resultados ´e a grande presenc¸a de servic¸os P2P tamb´em entre os usu´arios comerciais.
Dada a natureza dos diferentes servic¸os requisitados pelos usu´arios da carga de tra-
balho analisada, o segundo passo na avaliac¸˜ao de padr˜oes de requisic¸˜oes ´e a caracterizac¸˜ao
das sess˜oes dos mesmos buscando identificar a frequˆencia dos pedidos para cada servic¸o e
a frequˆencia com a qual os usu´arios comutam entre os mesmos. Para isso, representamos
a sequˆencia de pedidos a servic¸os em cada sess˜ao como um CBMG, conforme descrito na
sec¸˜ao 3., e utilizamos t´ecnicas de agrupamento para encontrar os padr˜oes de requisic¸˜oes
que melhor representam o comportamento dos usu´arios.
0 10 20 30 40 50 60 70 80 90 100
HTTP−PROXY
DNSIRC
SMTP
PEER−ENABLER
POP3
MSN−MESSENGER
KAZAA
AIM/ICQ
HTTPS
HTTP
Porcentagem
Serviço Presença de serviços
(a) presenc¸a de servic¸os
0 5 10 15 20 25 30 35 40
IRC
AIM/ICQ
HTTPS
SMTP
PEER−ENABLER
EPMAP
CSTRIKE
E−DONKEY
DNSPOP3
HALFLIFE
MSN−MESSENGER
MICROSOFT−DS
KAZAA
HTTP
Porcentagem
Serviço Número de Requisições aos Serviços
(b) requisic¸ ˜oes aos servic¸os
0 50 100 150 200 250 300 350 400 450 500
MICROSOFT−DS
WINMX
COUNTERSTRIKE
SOULSEEK
SMTP
BITTORRENT
E−DONKEY
HTTPKAZAA
Tráfego (GB)
Serviço Bytes Transferidos por Serviço
(c) bytes transferidos por servic¸o Figura 7. popularidade de servic¸os (usu ´arios residenciais)
0 10 20 30 40 50 60 70 80 90 100
FTP−DATA
IRCFTP
HTTP−PROXY
MS−STREAMING
PEER−ENABLER
AIM/ICQ
DNS
KAZAA
SMTP
MSN−MESSENGER
POP3HTTPS
HTTP
Porcentagem
Serviço Presença de Serviços
(a) presenc¸a de servic¸os
0 5 10 15 20 25 30 35 40
HTTPS
SMTPEPMAP
PEER−ENABLER
COUNTERSTRIKE
E−DONKEY
DNSPOP3
HALFLIFE
MSN−MESSENGER
MICROSOFT−DS
KAZAA
HTTP
Porcentagem
Serviço Número de Requisições aos Serviços
(b) requisic¸ ˜oes aos servic¸os
0 10 20 30 40 50 60 70 80
MS−STREAMING
FTP−DATA
BITTORRENT
MSN−MESSENGER
MICROSOFT−DS
SOULSEEK
POP3WINMX
HTTPS
COUNTERSTRIKE
SMTP
E−DONKEY
KAZAA
HTTP
Tráfego (GB)
Serviço Bytes Transferidos por Serviço
(c) bytes transferidos por servic¸o Figura 8. popularidade de servic¸os (usu ´arios comerciais)
Em nossa an´alise, encontramos 3 grupos de sess˜oes de usu´arios residenciais e o mesmo n´umero para os usu´arios comerciais. Os dados de cada grupo est˜ao resumidos nas Tabelas 5 e 6. A Figura 9 representa graficamente os CBMGs das sess˜oes dos usu´arios res- idenciais e a Figura 10, das sess˜oes comerciais. O grafo 9(b), que representa os usu´arios que se limitam a navegar em sites Web a maior parte do tempo, corresponde ao grupo 2 da Tabela 6. O grafo 9(c) modela os usu´arios que utilizam aplicac¸˜oes P2P (como o Kazaa), que correspondem `aqueles que est˜ao no grupo 3 da Tabela 5. Analisando esse ´ultimo CBMG em conjunto com sua respectiva tabela ´e poss´ıvel verificar que a carga que este exerce no provedor ´e significativamente superior `a carga dos outros grupos de usu´arios.
E interessante observar que a co-variˆancia da distribuic¸˜ao dos dados analisada por ´ cada grupo separadamente ´e significativamente menor que aquela que considera todas as sess˜oes (Tabela 1) o que mostra que, de alguma forma, conseguimos encontrar gru- pos representativos de sess˜oes, mais homogˆeneas que aquelas que se dividem apenas em residenciais e comerciais.
P2P HTTP
EPMAP MS−DS
84%
5%
4%
66%
34%
14%
2%
3%
93% 95%
(a) grupo 1
HTTP 98%
2%
HTTPS 14%
86%
(b) grupo 2
P2P HTTP 22%
10%
90% 78%
(c) grupo 3 Figura 9. grupos de usu ´arios residenciais
Tabela 5. Grupos de usu ´arios residenciais (CV = co-vari ˆancia)
grupos de usu´arios grupo 1 grupo 2 grupo 3
requisic¸ ˜oes aos servic¸os HTTP (36%) MS-DS (30%) EPMAP (22%) MSN (12%)
HTTP (97%) MSN (3%)
KAZAA (64%) HTTP (36%)
# de sess˜oes completadas 2775 (4%) 55048 (80%) 10858 (16%) total de bytes recebidos (GB) 143,39 (6%) 894,12
(35%)
1502,49 (59%) total de bytes enviados (GB) 70,47 (8%) 141,62
(15%)
722,71 (77%) durac¸˜ao m´edia das sess˜oes (horas) e CV 9,94 (2,30) 5,23 (1,86) 15,68 (1,86) bytes recebidos por sess˜ao (MB) e CV 52,91 (3,71) 16,63 (4,03) 141,70 (2,64) bytes enviados por sess˜ao (MB) e CV 26,01 (4,87) 2,63 (3,69) 68,16 (3,69)
Tabela 6. Grupos de usu ´arios comerciais (CV = co-vari ˆancia)
grupos de usu´arios grupo 1 grupo 2 grupo 3
requisic¸ ˜oes aos servic¸os HTTP (73%) POP3 (24%) HTTPS (3%)
HTTP (96%) HTTPS (4%)
HTTP (54%)
KAZAA (46%)
# de sess˜oes completadas 483 (8%) 4770 (77%) 911 (15%)
total de bytes recebidos (GB) 17,93 (9%) 65,16 (31%) 125,40 (60%) total de bytes enviados (GB) 5,92 (7%) 11,10 (14%) 63,86 (79%) durac¸˜ao m´edia das sess˜oes (horas) e CV 8,22 (1,06) 5,32 (4,07) 14,09 (1,59) bytes recebidos por sess˜ao (MB) e CV 38,02 (3,51) 13,99 (4,03) 71,78 (2,79) bytes enviados por sess˜ao (MB) e CV 12,55 (4,00) 2,38 (3,18) 14,09 (3,41)
HTTP 95%
3%
22%
POP3 HTTPS
3%
15%
2%
78%
82%
(a) grupo 1
HTTP 98%
2%
HTTPS 14%
86%
(b) grupo 2
P2P HTTP
11%
89% 77%
23%
(c) grupo 3 Figura 10. grupos de usu ´arios comerciais