ËÁÅÍÄ Ç ÆýÄÁË Ç Å Ê Ç Ê Ç ÈÇÊ ËÈ ÅÅ ÊË ÈÇÌ Æ Á ÁË ÇÆËÍÅÁ ÇÊ Ë

(1)

GERADO

POR SPAMMERS E POTENCIAIS

(2)

(3)

SIMULAÇO E ANÁLISE DO MERCADO

GERADO

POR SPAMMERS E POTENCIAIS

CONSUMIDORES

Dissertação apresentada ao Programa de

Pós-GraduaçãoemCiên iadaComputação

doInstituto de Ciên ias Exatas da

Univer-sidade Federal de Minas Gerais omo

re-quisito par ial para a obtenção do grau de

Mestre emCiên ia daComputação.

Orientador: Virgílio Augusto Fernandes de Almeida

(4)

2010, César Fernandes Teixeira. Todos os direitosreservados.

Teixeira, CésarFernandes

T266s Simulaçãoe Análise domer ado gerado por

spammers epoten iais onsumidores/ César Fernandes

Teixeira. Belo Horizonte, 2010

xxii, 83f. : il.; 29 m

Dissertação(mestrado) Universidade Federalde

Minas Gerais

Orientador: VirgílioAugusto Fernandes de Almeida

1.ModelagemE onmi a - Teses. 2. Simulação

( omputação) -Teses. 3.Spam - Teses. I. Orientador

II. Título.

(5)

(6)

(7)

Agradeçoprimeiramenteàminhafamília,prin ipalmenteàminhamãeeminhasirmãs.

O apoio e des ontração de vo ês foi fundamental para mim. Muito obrigado por não

me internarem pelas inúmeras vezes em que andei pela asa falando sozinho oisas

in ompreensíveis(até para mim) sobre a dissertação.

Agradeçoaomeuorientador,professorVirgílioAlmeida,nãosomentepelaótima

orientação mas peladiversão que foi trabalhar om vo ê. Com erteza pude aprender

liçõesvaliosasduranteomestrado quesem dúvidanenhuma nãopoderiateraprendido

em outrolo alou om outra pessoa.

Agradeçoaos meus amigos de laboratório,essas pessoas divertidas e inteligentes

om quem tive o prazer de trabalhar e onviver. Agradeço aos amigos de mais longa

dataFabrí io,Matheus,AdrianoVelosoeDjim. Agradeçotambémaosquenãoestavam

mais no laboratório na épo a da defesa: Fabiano, Fernando e Gustavo Siqueira. Por

m, agradeço aos novosamigos: Rauber, Emanuel, Tatiana,Marisa, Tiago e Gabriel.

Agradeço aos meus amigos dos tempos de graduação, om quem pude onviver

também durante o mestrado. Agradeço prin ipalmente a Lu iana Fujii, Douglas e

David.

Agradeço aos meus amigos fora da omputação, que sempre om bom humor e

simpatia me lembravamque hávida fora da omputação :-)Agradeço prin ipalmente

a Carlos Eduardo, Horá io, Daniloe Frederi o.

Agradeçoaogrupode dançade salãodoICB. Com erteza a1:15 porsemanade

aula zeram uma diferença enorme, tantoemrelaxamentoquanto diversão. Agradeço

prin ipalmenteàKarin,Alessandra,Vera,Cláudia,AnaPaula,Dul e,Daniel,Ronaldo

(8)

(9)

Spam é um problema re orrente que gera perdas nan eiras grandes para toda a

so- iedade. Porém, o spam é baseado em uma relação de onsumo. A existên ia, ou

possibilidadede existên ia,de uma demanda gera uma oferta via spam.

Portanto, entender esse mer ado gerado entre spammers e onsumidores é

fun-damental. Anal, através dessa ompreensão é possível entender o efeito de diversos

fatores fundamentais, o resultado e de iên ias de té ni as anti-spam já estabele idas

e proporalternativas.

Este trabalhorealiza uma modelagem,baseada emagentes eem on eitos e

mo-delos e onmi os , do mer ado por trás do spam. Além disso, as análises realizadas

forne em ontribuiçõesna ompreensãodospam e de seu mer ado ena inferên iadas

onseqüên ias, nesse mer ado, de estratégias anti-spam omuns. Como objetivo nal,

sugestõessobre melhoriase novas estratégias são propostas.

(10)

(11)

Spam is an important problem that in urs in huge nan ial losses. However, spam

is based on onsumption. The existen e, or the possibility of existen e, of a demand

generates asupply oered through spam.

Therefore, understanding thismarketgeneratedby spammers and potential

on-sumers isimperative. This isdue tothefa tthat understandingthis market anbring

valuable information about the ee ts of fundamental fa tors, the onsequen es and

de ien ies of the available anti-spamte hniques, and to propose alternatives.

This work reates a model, based onagents and in e onomi s on epts and

mo-dels, of the market behind spam. Moreover, the analysis done ontributes to

unders-tanding spam and its market, to inferring the onsequen es, in this market, of the

usual anti-spam te hniques. As a nalgoal, suggestions about improvementsand new

strategies are proposed.

(12)

(13)

4.1 Grá osdemonstrando ainuên ia do modode envio de spams e do usto

da mer adoria vendida no ganho dos spammers. Para efeitos de

ompara-ção, os valores no eixo x orrespondemà mesma fração dovalornal. Por

exemplo,oprimeiropontosemprerepresenta10%dovalordoúltimoponto.

(a)O grá o no antosuperior esquerdo ilustra o impa todo usto para a

produçãoou aquisiçãoda mer adoriaporparte dospammer. (b) Ográ o

no anto superior direito mostra o impa to da variação do usto para o

envio de um spam. ( ) O grá o no anto inferior esquerdo demonstra a

onseqüên ia, no lu ro, do preço obrado porproduto vendido. Osvalores

doeixo x representam a fração do preço obrado emrelação aopreço real.

(d) O grá o no anto inferior direito mostra o que o orre ao se variar o

número de mensagens enviadas por usuário. Osvalores noeixox

represen-tamofatorpeloqualonúmerode mensagens geradasde a ordo om dados

(14)

mer adoriavendidanoganhodosspammers. Porém,agoraaprobabilidade

de interesse éalta (0,01). Para efeitos de omparação,os valores no eixo x

orrespondemàmesmafraçãodovalornal. Porexemplo,oprimeiroponto

sempre representa 10% do valor do último ponto. (a) O grá o no anto

superior esquerdo ilustra oimpa to do usto para a produçãoou aquisição

da mer adoria por parte do spammer. (b) O grá o no anto superior

direito mostra o impa to da variação do usto para o envio de um spam.

( ) Ográ ono antoinferior esquerdodemonstraa onseqüên iadopreço

obrado porproduto vendido nolu ro. Os valores doeixo x representam a

fração do preço obrado em relação ao preço real. (d) O grá o no anto

inferior direito mostra o que o orre ao se variar o número de mensagens

enviadas por usuário. Osvalores no eixox representam ofator peloqual o

número de mensagens geradas de a ordo om dados reais foi multipli ado

em ada experimento. . . 49

4.3 Variação no peso da onança na utilidade. O primeiro grá o (a)

repre-sentaa inuên ia nolu ro e osegundo (b) a inuên ia nosaldo. . . 51

4.4 Análise do impa to do peso da experiên ia pessoal na determinação da

onançaemumspammer não onhe ido. Avaliaesse impa topara olu ro

(a)e osaldo do grupo(b). . . 52

4.5 Análise do impa to do peso da experiên ia externa na determinação da

onançaemumspammer não onhe ido. Avaliaesse impa topara olu ro

(a)e osaldo do grupo(b). . . 53

4.6 Variação da taxa de falsos-negativo do ltro e seu impa to no sistema. A

medida que essa taxa aumenta, pior é a qualidade do ltro. O primeiro

grá orepresentaainuên ianolu ro(a) eosegundo ainuên ianosaldo

(b).. . . 54

4.7 Impa to do preço externo ( obrado pelo forne edor não-spammer) no

sis-tema. Oprimeirográ o representa o impa tonolu ro (a) eo segundo no

saldo (b). . . 55

4.8 Impa to da apa idade de dete tar uma fraude por parte dos ompradores

nosistema. Oprimeirográ orepresentaoimpa tonolu ro(a)eosegundo

nosaldo (b).. . . 56

4.9 Impa to da probabilidade de fraude no sistema. O primeiro grá o

repre-sentao impa tono lu ro (a) eo segundo nosaldo (b). . . 56

4.10 Impa to da probabilidade de interesse no sistema. O primeiro grá o

(15)

1 no eixo x orresponde a não utilização da aixa de spam. O valor 2

orresponde ao seu uso. O primeiro grá o representa o impa to no lu ro

(a)e osegundo nosaldo (b). . . 58

4.12 Osgrá osapresentamoefeitodoaumentodainuên iaexternanoimpa to

daprobabilidadede fraude. Oimpa toéavaliadotantopara olu roobtido

porspammers quantoparaosaldo. Oprimeirográ orepresentaoimpa to

nolu ro (a)e o segundo nosaldo (b). . . 60

4.13 Os grá os apresentam o efeito do aumento da inuên ia externa no

im-pa to da probabilidade de dete ção fraude. O impa to é avaliado tanto

para olu ro obtidopor spammers quantopara o saldo. O primeirográ o

representa o impa tono lu ro(a) eo segundo no saldo (b). . . 62

4.14 Osgrá osapresentamoefeitodoaumentodainuên iapessoalnoimpa to

daprobabilidadede fraude. Oimpa toéavaliadotantopara olu roobtido

nolu ro (a) e o segundo nosaldo (b). . . 63

4.15 Os grá os apresentam o efeito do aumento da inuên ia pessoal no

im-pa to da probabilidade de dete ção fraude. O impa to é avaliado tanto

para olu ro obtidopor spammers quantopara o saldo. O primeirográ o

representa o impa tono lu ro(a) eo segundo no saldo (b). . . 64

4.16 Osgrá osapresentam oimpa todainuên iapessoal quandoa inuên ia

externaéigualazero. Assim, asituaçãoemquenãoháinformaçãoexterna,

ou essa é ignorada, é estudada. O grá o (a), no anto superior esquerdo,

apresentaosresultados doimpa todainuên iaprópriaedaprobabilidade

de dete ção de fraude no lu ro. O grá o (b), no anto superior direito,

apresentaosmesmosresultados,porem,paraosaldo.Ográ o( ),no anto

inferioresquerdo,apresentaosresultadosdoimpa todainuên iaprópriae

daprobabilidadede fraudenolu ro. Ográ o(d),no antoinferiordireito,

apresentaos mesmos resultados, porem,para osaldo. . . 66

4.17 Osgrá osapresentam oefeitodaqualidadedoltronoimpa toda

proba-bilidadede dete çãofraude. Oimpa toéavaliadotantoparaolu roobtido

nolu ro (a)e o segundo nosaldo (b). . . 67

4.18 Os grá os apresentam o efeito do aumento da qualidade do ltro no

im-pa to daprobabilidadede fraude. O impa toé avaliado tantopara o lu ro

obtidoporspammers quanto para osaldo. O primeirográ orepresenta o

(16)

do ltro em lidar om fraudes. O grá o no topo esquerdo (a), apresenta

a análise para a dete ção de fraude e seu impa to no lu ro para ltros de

qualidadesdiferentese omousoda aixadespam. Ográ onotopodireito

(b) apresentaosmesmosresultadosque (a),porém,paraosaldo. Ográ o

( ) no anto inferioresquerdo apresenta osresultados para a probabilidade

defraude sobdiversas qualidadesde ltroeseuimpa tonolu ro. Ográ o

no anto inferior direito (d) apresenta a mesma análise, entretanto, em

relaçãoao saldo. . . 69

4.20 Osgrá os apresentam osaldo obtido ex lusivamente om a venda de

pro-dutos de spammers. Nestes grá os, a perda que a so iedade tem om o

tratamento de spam não é onsiderada. Somente ontabiliza-se a par ela

resultante de e onomia om a ompra de produtos entregues orretamente

e a perda om fraudes. Isso ajuda a ompreender os resultados do grá o

4.19emrelaçãoaosaldo. Ográ o(a)naesquerda, apresentaosresultados

sem a utilização da aixa de spam. O grá o (b) na direita apresenta os

(17)

(18)

(19)

Agrade imentos vii

Resumo ix

Abstra t xi

Lista de Figuras xiii

Lista de Tabelas xvii

1 Introdução 1 1.1 Motivação . . . 1 1.2 Objetivos . . . 3 1.3 Contribuições . . . 4 1.4 Organização daDissertação . . . 5 2 Referen ial Teóri o 7 2.1 Teorias e onmi as . . . 7 2.2 Té ni as Anti-spam . . . 9

2.2.1 Restriçõesaoenvio do spam . . . 9

2.2.2 Bla klistse Whitelists . . . 11

2.2.3 Filtros anti-spam . . . 11

2.2.4 Abordageme onmi a . . . 12

2.3 Ferramentasde Marketing Eletrni o . . . 14

2.4 Cara terização dospam e modelagematravés de redes so iais. . . 15

2.5 Investigaçõese Meios Legais . . . 16

2.6 Modelagemde spam . . . 17

2.7 ModelagemBaseada emAgentes. . . 18

(20)

3.1.1 VisãoGeral . . . 21

3.1.2 Pro esso de omprado usuário . . . 22

3.1.3 ComportamentoFraudulento. . . 26

3.1.4 Filtragemde spam . . . 27

3.2 Premissas eSimpli ações . . . 27

3.3 Simulador . . . 28

3.3.1 Ambientede implementação utilizado . . . 28

3.3.2 Des riçãoda simulação . . . 29

3.3.3 Métri asreportadas. . . 31

4 Resultados Experimentais 33 4.1 Parâmetros domodelo . . . 33

4.2 Pro edimento experimental eAnálises. . . 45

4.3 Projetovariandoum fator . . . 46

4.3.1 Alternativasdos spammers para aumentar dolu ro . . . 46

4.3.2 Variação nopeso da onança nautilidade e variação dos pesos na formaçãode opiniãosobre um spammer não- onhe ido . . . 51

4.3.3 Qualidadedo ltro . . . 54

4.3.4 Inuên iadopreço obrado pornão-spammers . . . 55

4.3.5 Efeitodafraude e apa idade de dete ção de fraudes . . . 56

4.3.6 Interesse dousuário eutilizaçãoda aixade spam . . . 57

4.3.7 Sumáriodos resultados . . . 58

4.4 Veri ação de hipóteses. . . 60

4.4.1 Hipótese1: Àmedidaque aprobabilidadede fraude aumenta,o aumentonainuên ia externa melhora osistema. . . 60

4.4.2 Hipótese2: À medidaqueahabilidadeemdete tarfraude dimi-nui, o aumento na inuên ia externa se torna menos e az em melhoraro sistema. . . 62

4.4.3 Hipótese3: Àmedidaque aprobabilidadede fraude aumenta,o aumentonainuên ia de experiên ias pessoais melhorao sistema. 63 4.4.4 Hipótese 4: À medida que a habilidade em dete tar fraude di-minui,o aumentonainuên ia de experiên iaspessoais setorna menose az emmelhoraro sistema. . . 64

4.4.5 Hipótese5: Naausên ia de informaçõesexternasouquandoelas são des onsideradas, osistema é vulnerávela fraudes . . . 65

(21)

probabilidade de dete ção de fraude diminui, mais o sistema se

bene ia om ltro. . . 67

4.4.7 Hipótese 7: À medida que o ltro se torna mais pre iso, e a

probabilidade de fraude aumenta, mais o sistema se bene ia

om ltro. . . 68

4.4.8 Hipótese8: Oefeitodoltro diminuise osusuáriosutilizarema

aixa de spam napesquisa porforne edores. . . 69

4.5 Apli ação dos resultados: Análise dospam de farmá ias anadenses . . 72

5 Con lusão 75

(22)

(23)

Introdução

1.1 Motivação

Spaméumproblemare orrentenomundodaInternet. Apesardeatualmenteexistirem

ltros poderosos apazes de impedirque agrande maioriadessas mensagensal an e a

aixa de entrada do usuário, ainda assim esse é um problema relevante. Atualmente,

estima-se que 80% [51℄ dos emails gerados sejam spam. Há estatísti as mais atuais

que armamque esse volume atingiua asados 90% [35℄. Esse volume extra gera

des-perdí ios, anal, banda e re ursos omputa ionais pre isam ser alo ados para tratar

essas mensagens. Além disso, o mesmo estudo ([51℄ ) analisa o spam sob a

perspe -tiva de energia onsumida e on lui que a energia gasta anualmente devido ao spam

poderia abaste er 2,4 milhões de asas ameri anas. Ademais, ada mensagem spam

orresponde à emissão de 0,3 g de

CO

2

, o que, somando-se todo o volume de spam mundial, equivaleria a dar 1,6 milhão de voltas, usando um automóvel, ao redor da

Terra. Re onhe endo esse problema, há diversas estratégias de ombate ao spam.

De longe amais popular é a utilização de ltros. Atualmente, é impensável que

um provedor de email não ofereça um ltro anti-spam. O objetivo do ltro éimpedir

quespam al an ea aixadeentrada dos usuários. Assim,o prin ípiobási oéobter as

ara terísti asdos spams queosdiferem de mensagens regularese utilizaressas

ara -terísti asna distinçãodoque éounão spam. Obviamenteelepode, inadvertidamente,

ex luirmensagenslegítimasquesepareçam omspam,bem omoentregarspamsquese

pareçam om mensagens legítimas. Entretanto, onsidera-se que atualmente os ltros

são apazes de realizarum bomtrabalho.

Infelizmente,osltrosnão têmsemostrado apazes dereduzirovolumede spam

gerado. Algumas análises onsideram que, in lusive, a existên ia de ltros agravou

(24)

hegavam à aixa de entrada, aumentaram o volume enviado. Com a utilização de

botnets 1

,esse volume pde ser in rementado enormementea baixos ustos.

Emuma tentativade resolvertambémoproblema dovolumeex essivo de spam,

estratégias e onmi as foram propostas [45; 44; 62; 29; 66; 49℄. A idéia entral que

permeiaasabordagens e onmi aséaumentaro ustode envio despam. Porém, omo

a priori é impossível sobretaxar apenas spammers, esse aumento no usto é apli ado

a todas as mensagens geradas. Claramente o impa to em se aumentar o usto de

envio é proibitivamente maior para spammers que para usuários legítimos, já que os

últimos geram um volume innitamente menor de emails. Ainda, há variações dessa

abordagem que in luem uma em que o pagamento é a realização de ál ulos pelo

omputador do remetente [45℄ e outra em que o pagamento é obrado somente se o

destinatário onsiderar a mensagem omo sendospam [29℄.

Finalmente, outra abordagemé o rastreamento e pro esso de spammers. Nessa

linha, entidades se esforçam em entender a atividade de spammers, bem omo em

obter dados que possam, no futuro, identi á-los e a usá-los riminalmente. Porém,

a atividade de envio de spam é uma atividade interna ional por natureza, anal um

spammer deumpaíspodeenviarmensagensapartirdeumsegundopaís omoobjetivo

de atingir pessoas de um ter eiro. Portanto, des obrir a fonte do spam, bem omo

pro essar os ulpados, é um desao. Valemen ionarque investiga-seque,atualmente,

a maior parte dos spams de farmá ias anadenses sejam originários de spammers da

Rússia eU rânia [21; 54℄.

Grandepartedadi uldadeemse ombaterspam vemdaprópriadi uldadeem

sedenir oque é spam. Geralmente, spam é denido omo mensagem não-soli itada.

Porém, esse on eito não pode ser apli ado na práti a, anal, provavelmente todo

primeiro ontato via email seria onsideradospam. Outra denição éa de mensagens

indesejadas. Masesse on eito,apesardeseromaispopulardespam,éabstratodemais

e extremamente dependente do destinatário para forne er uma denição pre isa. Em

uma tentativa de resolver esse impasse, existe o ato ameri ano CAN-SPAM [4℄. Nele,

spam édenido omotodamensagem não-soli itada,enviadaemmassa, sem quehaja

umamaneira explí itade ex luir odestinatário dalistade remetentes (opt-out). Essa

denição,apesar de ser pre isa ede permitirapuniçãode riminosos, não éapre iada

por diversos usuários. A prin ipal justi ativa é a de que a lei permite que todas

as empresas enviem uma mensagem, para todos os usuários de email do mundo, sem

que a mesma seja onsiderada spam. Neste trabalho adotaremos a denição de spam

1

Botnetssão onjuntosdemáquinasdeusuárioslegítimosinfe tadas. Essasmáquinassão

(25)

apresentada peloCAN-SPAM.

Um fatoimportantesobre spam, omo denido peloato CAN-SPAM e usado ao

longodesta dissertação,équeeledependedeum mer ado. Pormaisqueamaiorparte

dosdestinatários onsiderespam inútilesepergunteseháalguémque ompre,somente

há spam porque alguém ompra ou porque alguém a redita que há quem ompraria

o que é anun iado. Portanto, se hádemanda ou expe tativa de demanda, há pessoas

dispostas asuprir essa demanda. Dessaforma,spam nada mais éque uma ferramenta

baratapelaqualpessoas apazesde proverumaofertade um produtotentamal ançar

a demanda. Obviamente, omo a har essa demanda é ompli ado, spam é enviado a

uma quantidade muito grande de pessoas desinteressadas.

Assim sendo, uma abordagempara o problema é estudar esse mer ado. Anal,

sem elenão haveria spam. Compreendê-lo pode ser fundamentalpara o entendimento

dos fatores que inuen iam esse mer ado. Por exemplo, aumentar o usto do spam

enviado é uma solução que trás altoganho, omo sugerem as estratégias e onmi as?

Ou a melhor abordagem é investir onstantemente em aperfeiçoar o ltro? Como a

fraude, ou seja,aprobabilidade de um spammer não entregar orretamenteo produto

omprado, interfere nesse sistema? A partir desse entendimento, pode-se avaliar o

real impa to de estratégias anti-spam, onde elas falham, onde a ertam e omo a sua

existên ia inuen ia o mer ado. Ainda, pode-se, através desse entendimento, sugerir

novas abordagens ou estratégias omplementares, de maneiraa riar um enáriomais

favorável que desestimulea geraçãode spam.

1.2 Objetivos

O objetivodestadissertação éforne ersubsídiosparaa riaçãode novasté ni as

anti-spam e aperfeiçoamento das já existentes. Outro objetivo é o estudo de fenmenos e

enários quepodemfa ilitaro ombate aospam, bem omo de situações quepre isam

ser evitadas, já que viabilizam e tornam o spam uma atividade altamente lu rativa.

Para tal, o mer ado formado por spammers e poten iais onsumidores é estudado.

Fo ar no mer ado permite uma visão mais abrangente do problema, gerando análises

mais ompletas e robustas. Para realizar tal abordagem, esta dissertação modela e

(26)

1.3 Contribuições

Esta dissertação apresentou diversos resultados interessantes:

1. Modelo e simulador baseado em agentes para a representação do mer ado

om-posto por spammers e usuários.

2. Análises qualitativasdoefeitodefatorese ombinaçõesde fatoresem enáriosde

interesse. Essas análisespermitema ompreensãodomer ado, entendimentodas

onseqüên ias eimpa tos de várias ações, bem omo o planejamentoe melhoria

de estratégias anti-spam.

3. O efeito da onança foi entendido. Conança se refere a quanto o

destinatá-rio ona quere eberá o item orretamenteao omprá-lode um dado spammer.

Foram estudadas duas fontes prin ipais para a formação de onança em um

spammer des onhe ido: experiên iapessoal om a omprade produtosde

spam-mers edados externossobre ospammer emquestão. Autilizaçãode experiên ia

externa se mostroubastante e azno ombateao spam emsituaçõesemque há

altas taxas de fraudes fa ilmenteidenti áveis.

4. Oefeitodaprobabilidadede fraudeporpartedos spammers, bem omoda

apa- idade dos usuários em re onhe er essas fraudes, foi estudado. A probabilidade

de fraude se refere as han es de um dado spammer, do qual foi realizada uma

ompra,nãoentregaroproduto orretamente. Devidoàpossibilidadedeos

usuá-riosinferirema onançaemumdadospammer antesdeuma ompra,oaumento

na taxa de fraudes pode ajudar no ombate ao spam. Porém, em situações em

que essas fraudes são di ilmentere onhe idas, esse ganho é menor.

5. Compreensão do efeito,no mer ado,damelhorianaqualidade doltro(redução

nos falsos-negativo 2

). Nem sempre é positivo para o sistema melhorar o ltro,

da mesmaforma quenem sempre é negativo piorá-lo.

6. Análise, em diferentes ontextos, dos ustos dos spammers e da relevân ia

des-ses ustos na redução do lu ro. Por exemplo, aumentar o usto por mensagem

enviada perde o seu efeito à medida que a popularidade do produto vendido

aumenta.

7. O uso da aixa de spam foi estudado. Assim, pode-se inferir omo a utilização

da aixa de spam na bus a de forne edores impa ta o sistema e a e â ia dos

(27)

ltros. Como foiper ebido, ouso da aixade spam anulaoganho obtido om a

melhora noltro, quando esse ganho o orre.

8. Estudodoimpa todointeressedousuárionoprodutoofertadoviaspam. Ograu

de interesse exer e um papelfundamental no lu ro que spammers podem obter,

portanto,menor interesse signi amelhor ombate aospam.

9. Investigação da inuên ia, no mer ado, do preço obrado por empresas que não

realizam spam. Como uma investigação omplementar, estudou-se o impa to

ausado pelograu de onhe imento dousuário a er ados preços prati ados fora

do mundo dos spams. À medida que o grau de informação aumenta, o lu ro

de spammers tende a diminuir. Além disso, om o aumento no preço externo,

devido, por exemplo, à di uldade em se obter o produto de forne edores

não-spammers, maior o lu ro dos spammers e maior o ganho dos usuários durante

uma ompra bem-su edida.

10. Apli ação dos resultados no estudo do spam de farmá ias anadenses, um dos

spams mais popularesatualmente[54℄.

1.4 Organização da Dissertação

Esta dissertaçãoéorganizadadaseguinteforma. Ini ialmente,um apítulo ontendoa

introduçãoéapresentado. Neleosobjetivos, ontribuiçõesemotivaçãoparaotrabalho

são des ritos.

A seguir há o apítulo de referen ial teóri o. Nele, as prin ipais estratégias e

té ni as paraseabordar,estudareremediaroproblemadospam sãoestudadas. Além

disso, apresenta des rição de estudos e onmi os, teóri os ou apli adosem iên ia da

omputação, bem omo de modelos esimulaçõesbaseadas em agentes.

O apítulo 3 apresenta o modelo e a simulação realizadas no trabalho. Detalha

as equações utilizadas, seu embasamento, o ambiente de programação do simulador e

seu fun ionamento.

O apítulo4 apresenta os parâmetros utilizadospara a simulação e seu em

basa-mento. Além disso, apresenta os resultados obtidos através da simulação de enários

de interesse.

Por m, o aítulo 5 traz os omentários nais e possíveis direções futuras de

(28)

(29)

Referen ial Teóri o

2.1 Teorias e onmi as

Atualmente, diversas teorias e onmi as têm sido utilizadas no estudo de spam e de

omportamentos mali iosos, omo o phishing 1

. Essas teorias serão expli adas aqui,

bem omo sua relação om otrabalhoexe utado.

Akerlof[28℄apresentao on eito deMer adode Limões. Elemodelaummer ado

om onsumidorese vendedores emque háassimetriade informação. Mais

espe i a-mente, osvendedores sabemexatamenteaqualidadedoprodutovendido,enquantoos

onsumidores somente podem estimar a qualidade média. Assim, omo o omprador

não pode re onhe er a qualidade do produto, estará disposto a pagar, no máximo,

o preço justo para um produto de qualidade média. Portanto, o omprador estará

disposto a pagar o valor justo para um produto de qualidade média, tanto para

pro-dutos de alta qualidade (que valem mais que o valor pago) quanto para produtos de

qualidade inferior (que valem menos que o preço pago). Se o usuário pagar somente

o valor orrespondente a um produto de qualidade média, isso afastará do mer ado

vendedores om produtos de qualidade superior à média, anal, estariam re ebendo

um valor inferior ao justo para o seu produto. Dessa maneira, a qualidade média dos

produtos ofertados iria diminuir, de res endo também o preço que os onsumidores

estariam disposto a pagar, já que no modelo de Akerlof, o onsumidor sempre sabe a

qualidade média. Diversas interaçõesnesse mer ado levariam opreço a tender azero,

eliminando ompletamente omesmo.

O trabalho de Herley [41℄ se baseia no on eito de Mer ado de limões e em

1

Phishing são mensagens não-soli itadas om o objetivo de realizar uma fraude. Geralmente,

o remetente nge ser outra pessoa ou entidade, om o objetivo de enganar o destinatário e riar

(30)

dadossobreospreçosde identidadesedadosde artõesde rédito omer ializadospor

phishers 2

. Ospreçosprati adosnessemer adosãomuitoinferioresaovalordeumitem

dealtaqualidade(espe ialmentedadosde artõesde rédito,quepodemrenderfraudes

de milharesde dólares por artão). A partir disso, os autores inferem que o mer ado

ontém uma fração muito grande de vendedores om itens om qualidade baixa, ou,

até mesmo, vendedores que não possuem qualquer informação a ser vendida. Assim,

apli ando diretamente a teoria de Akerlof, o mer ado de phishing possui a tendên ia

de desapare er.

Emrelaçãoaspam,temostambémumaassimetriade informação,jáqueo

spam-mer sabe quala qualidadede seu produto, enquanto o omprador não tem esse dado.

Porém, a teoria de Akerlof se baseia no fato de que o omprador pode estimar a

qua-lidade média do mer ado. E isso não é verdade nesse mer ado. Um omprador não

sabeaprobabilidadedeserenganadoporumspammer. Então,in orporamosemnosso

modelo esse on eito de Mer ado de Limões e omportamento fraudulento, porém, o

ompradornão sabe a qualidademédia. Eletem uma expe tativa ini iale, através de

informações sobre experiên ias de outros onsumidores e de experiên ia própria, ele

estimaessa qualidademédia. No aso espe í odo simulador,essa qualidademédia é

hamadade onança.

OtrabalhodeCoase[33℄propõeumanovamaneiradese ompreendereavaliaro

impa tode situaçõesde onitoe onmi o. Porexemplo, imaginemosduas empresas,

uma fábri a e uma fazenda de trigo. Suponhamos que a fábri a gere poluição, que

afetanegativamente a fazenda. Geralmente, ade isão mais orrente é taxara fábri a

para que o fazendeiro seja re ompensado. Porém, o trabalho de Coase propõe uma

outraabordagem. Éne essário analisaroganhoparaaso iedadeno asode nãohaver

ataxae ompará-loao aso em queháa taxa. Oganho paraa so iedadeé asoma do

ganhoobtidodevido aosprodutos manufaturadospelafábri amais oganho om oque

foi produzido pelafazenda em ada enário. Assim, nem sempre é proveitoso realizar

ataxação.

Essetrabalhotemapli açãodiretano asoemquestão. Oenviodespamgeraum

gastoextra para todaaso iedade. Porém,uma mensagemspam pode ser valiosapara

algumapessoa. Apartirdessaidéia,osimuladoraser propostoin orporaumamétri a

que avalia o ganho, para a so iedade, om o spam. Na avaliação dessa métri a foram

utilizadosvaloresmédiosparaaperdaque adausuáriotem aore eberspam. Oganho

foiatribuído omo ae onomia nan eiraque ousuáriointeressado fazao omprarum

produto via spam aoinvés de adquirí-lo de outra maneira. Obviamente, o ótimoa ser

(31)

al ançado é que esse valorseja o máximo possível.

Outro on eitofundamentaléodeTragédiadosComuns [39℄. Seexistirumaárea

omum da qualtodos possam tirarproveito e ujosdanos serão divididos entre todos,

essa área será exploradaao máximo. Por exemplo, onsideremosum rio om peixes e

pes adores. Cada pes ador, se aumentaro número de redes, onseguirá pes ar mais e

aumentarseu lu ro. Porém,isso ausaráum impa toambiental,queserá dividido por

todos, já que todos os pes adores, não importando a sua taxa de pes a, terão menor

quantidade de pes a no futuro. Nesse aso, é esperado que ada pes ador aumente o

número de redes, já que o ganho om esse aumento supera a perda queele terá (uma

fração doimpa tototal) aoadi ionar essa rede.

Esse on eito éutilizadoparaexpli ar porque ataxade spams tem res ido [58℄.

A idéia é que os re ursos de Internet e infraestrutura para envio de emails é um bem

omum. Então, faz sentido que seja explorado ao máximo, pelos spammers. Também

em [40℄, o problema do phishing é modelado usando esse on eito. A idéia é que os

re ursos nan eiros disponíveis a serem roubados onstituem o bem omum. Então,

aso osphishers explorememex essoessebem omum,eletenderáaa abar,atingindo

uma situaçãoemque adaphisher obteráomínimopossíveldesua atividade. E, omo

des rito anteriormente, essa exploraçãoem ex esso é esperada.

No simulador proposto, esse on eito foi usado para justi ar a suposição de

que existem spammers fraudulentos. Assim, omo há assimetria de informação, é

esperado que surjam pessoas que ajam de maneira desonesta. Anal, existe um bem

omum(re ursosdepoten iais ompradores)quepodeserfa ilmenteexploradoatravés

de atividade fraudulenta. Ademais, o peso de uma fraude é dividido por todos os

spammers, quer sejam fraudulentosou não. Porém, não podemos inferirquala fração

de omportamento fraudulento.

2.2 Té ni as Anti-spam

Devido ao fato de o spam ter se tornado um dos grandes problemas que assolam a

utilização daInternet, diversas té ni as foram riadas e desenvolvidas om a intenção

de ontê-lo. Esta seção tem por objetivo expor,brevemente, asté ni as mais usuais e

difundidas de ombate aospam.

2.2.1 Restrições ao envio do spam

(32)

Uma das maneiras mais usuais de envio de spam é através de máquinaszumbis.

Essas máquinas,de usuários omuns, são infe tadase passam aser ontroladas

exter-namente, enviandospams sem queodono damáquinatome onhe imentodisso. Para

ombater essaatividade,oupelomenosabrandá-la, Xie[53℄ sugereumamaneirade se

identi artaismáquinas. Aoidenti á-lasseriapossívelbloquearotráfego geradopor

elas, impedindoo enviode spam.

OestudodeGoodman[46℄tratadasituaçãoemqueospammer utiliza ontas

gra-tuitasemprovedoresde email legítimospara oenviode spam. Osautoresdemonstram

queaestratégia adotadade restringirolimitemáximodiáriode mensagens(oHotmail

restringeessevalora100emailspordia)não gerabons resultados. A justi ativapara

issoé queseria fá il riar novas ontas e utilizá-lasaté olimite denido.

Aquele trabalho avalia também a utilização de Human Intera tive Proofs

-HIPs(prova de que a interação é feita por um humano). Um exemplo omum de

HIP é o CAPTCHA, que requisita que usuários identiquem palavras ou onjuntos

de ara teres para provar que não se trata de um pro esso automatizado. O trabalho

mostraque osHIPs usados durante o adastro da ontade email não geramqualquer

resultado ontrao spam, já que o usto e onmi o de se realizarum adastro manual

e, em seguida, utilizar a onta para o envio de spam, é irrisório. Os autores também

avaliam a estratégia de se utilizar um HIP a ada email enviado. Essa abordagem é

narrada omo bastante des onfortável para o usuário omum, então avaliam a idéia

de se obrigar a realização de um HIP a ada n mensagens. Caso o usuário responda

x HIPs orretamente, não seria mais ne essária qualquer ação espe ial do usuário ao

enviar emails. Noartigo,essa estratégiasurte tantoefeitoquantoarealizaçãode HIPs

a ada email enviado.

Por m,o artigoasso iaasua estratégia de HIPs aoesquemade re lamações. A

adaemail re ebido,seria ofere idoaodestinatário umainterfa e simplespara indi ar

aso o email seja spam. Assim, o servidor teria ondições de identi ar mais

rapida-mente ospammer e an elar a onta,obrigando-o novamente a riá-lamanualmente.

Essas estratégias bus am di ultar o envio de emails por parte dos spammers.

Entretanto, omoavaliadoem[56℄,spammers também ontratamservidores,em

diver-saspartesdomundo,quesededi amaoenviodespam. Alémdisso,o ombatedoenvio

de emails por parte de servidores gratuitos pre isa da adesão de todos os servidores,

poisospammer pode simplesmentemigrarde um que tenhaadotadoa proteção,para

outroque não aadote. Con luindo,o ombate a máquinaszumbisrequer a análisedo

(33)

2.2.2 Bla klists e Whitelists

He kerman e S hwartz [45; 62℄ apresentam uma visão geral sobre a riação de listas,

espe ialmenteparaauxiliarotrabalhodos ltros. Umadas possibilidadesdifundidasé

autilizaçãode whitelists, quelistamosusuáriosouhosts nos quaisse ona omo

não-spammer. Assim, qualquer mensagem de alguém nessa lista é re ebida diretamente,

sem qualquer veri ação peloltro, evitando-se os falsospositivos.

Outra solução pode ser listar os usuários onsiderados spammers, em uma

bla -klist. Essa té ni a é fa ilmente ontornada por emails forjados. Diversos trabalhos

[45; 44; 62℄ sugerem estratégias para identi ar o emissor. Algumas das té ni as

en-volvemassinaturas riptográ aseoutrasalteraçõesnoproto oloSMTP paraqueseja

ne essária aidenti açãodo remetente.

Alémdisso, existemtambémbla kholes,quesão listasde servidores onsiderados

fontes de spam e dos quais não se a eitam quaisquer mensagens. Serjantov [64℄ há

um estudo e onmi o detalhado que apresenta diretrizes para a de isão de in luir um

servidor suspeito na lista. O servidor é tratado omo suspeito quando há mensagens

legítimas e spams sendo re ebidos a partir desse servidor. O dilema, nesse aso, é

de idir in luirum servidor suspeito eperder as mensagenslegítimasou não in luí-loe

ontinuar a re eber spam.

Existem tentativas visandoa riaçãode listas de identi açãode servidorespara

se evitar que emails sejam enviados forjando-se o servidor remetente. Essa estratégia

tentaassegurar queumamensagem,dita origináriadoservidorX, realmentepartiudo

servidor X. Para tal,foram riadosvários padrões[31; 44℄ tais omo DomainKeys [9℄,

proposto pela Yahoo eo SenderID [23℄,pelaMi rosoft.

2.2.3 Filtros anti-spam

A té ni a mais usual de ombate ao spam é a utilizaçãode ltros, que impedem que

os spams al an em a aixa de entrada do usuário. O grande questionamento dessas

té ni as, além, laro, de sua e á ia em barrar mensagens que sejam spam, é o de se

evitar falsos positivos. Os falsos positivos são as mensagens, que embora não sejam

spam, são lassi adas omo tal erroneamente, levando o usuário a perder um email

legítimo poten ialmente importante. Infelizmente, os índi es atualmente al ulados

para falsos positivos pressupõem que toda mensagem omer ial seja spam, ignorando

a possibilidade de o usuário desejar re ebê-la.

He kerman e S hwartz [45; 62℄ apresentam diversas té ni as para ltragem de

(34)

Evidentemente, essa té ni a não fun iona ontra novos spams, nem ontra variações

aleatórias no orpo dos spams já onhe idos, dependendo da função de omputação

utilizadapara gerar essas variações.

Outra té ni a é a utilização de algoritmos de aprendizagem de máquina, mais

espe i amenteatravésda utilizaçãodo naiveBayes. A idéia é onstruir uma rede de

palavras e, para ada palavra, interpolar através de uma base de treinamento qual a

probabilidadede uma mensagem ser spam dada a presença daquela palavra no orpo

dotexto. A abordagem atualmenteé uma das mais populares, porém os spams mais

atuaise omplexostentamutilizarmenospalavrasperigosas(free, money, et .) emais

palavras onsideradas boas (hi, oi, et .) para tentar enganar os ltros. Alguns ltros

maisre entes têm bus ado montar redesutilizando, também, ombinaçõesde palavras

para melhorara pre isão. Por exemplo, emmuitos spams a palavra agora pode estar

presente, mas elaapresenta perigo apenas seestivera ompanhada dapalavra ompre,

nasentença ompre agora.

Ainda,algunsltrospossuemmodelosde ompressão,umparaspam eoutropara

não-spam. Uma mensagem é omprimida om os dois modelos; se essa mensagem for

melhor omprimida om o modelo de spam, então ela é lassi ada omo spam; aso

omprimamelhor om onão-spam, então é ditanão-spam. Osmodelos de ompressão

podem ser extremamente omplexos, levando a ltros e ientes, algumas vezes mais

e ientes que osbaseados emnaive Bayes [45℄.

Em [42℄ é apresentada uma estratégia ombinada de diversos algoritmosde

ma- hinelearning paraadete çãode spam. Ae á iafoide 99% omumataxade0.025%

de falsospositivos.

Os spammers, para ombater essas estratégias, têm bus ado ada vez mais que

suas mensagens se pareçam om mensagens legítimas. Assim, osltros pre isarão ser

ada vez melhores e mais treinados para barrar e distingüir entre spam e não-spam.

Anal, à medida que os spams se pare erem mais om mensagens legítimas, maior a

probabilidade de que uma ferramenta automáti a tanto deixe um spam passar omo

legítimaquanto barre um email legítimo. Além disso, a utilização de ltros onsome

muitos re ursos dos servidores de email, já que o pro esso de dete ção de spam é

omplexoe ustoso.

2.2.4 Abordagem e onmi a

Vários trabalhos fo am nas relações e onmi as para inibir o spam. Anal, aso o

(35)

Os trabalhos [45; 44; 62℄, des revem e analisam as abordagens que bus am

adi- ionar um usto xo, muito baixo, por email enviado. Esse usto seria al ulado de

maneira a trazer pou o nus ao usuário legítimo, que envia pou as mensagens, e um

usto altopara um spammer, queenvia milhõesde emails.

Alémdautilizaçãodedinheiroedepósitodireto,étambémsugeridauma

alterna-tiva[44; 45℄. O usto seria omputa ional, ou seja, ao invés de pagar nan eiramente

pormensagem enviada,o omputadordousuárioresolveria umatarefa, queiria

reque-rer um erto tempo de pro essamento. Assim, um usuário legítimo, enviando pou as

mensagens, não teria qualquer problema em forne er esse tempo de pro essamento

para o envio do email. Por outro lado, o spammer, ao enviar milhões de emails, no

menor tempopossível,teriaprati amentetodootempode pro essamentodamáquina

o upadopela resolução dessas tarefas.

Ostrabalhos[29;66℄apresentamumar abouçoparainviabilizare onomi amente

o enviode spams. Cada usuáriode email determinariaseu usto de atenção: um valor

monetário quedeterminariaum montanteque ompensariaasperdas desse usuárioao

abrir um email que seja spam. Um usuário A deseja enviar um email para B. Se A

onhe er B (se A estivernawhitelist de B) então amensagem ére ebida diretamente.

Caso ontrário, Benviapara Aum desao, ontendooseu ustode atenção. A,então,

pode ignorar esse desao e não ter sua mensagem entregue, ou A pode depositar um

título monetário om o valor de atenção de B, em nome de B e enviar novamente o

email. Assim,B re eberia oemail de A.Aoabrí-lo,poderiade idirseoemail éounão

spam. Se de idir que é spam, re eberá odinheiro orrespondente ao título depositado

porA. Caso ontrário,A re eberá seu dinheirode volta.

S he hter [61℄ aborda a questão de ris o de ataques remotos. Entretanto, sua

modelagem de lu ro om um ataque, que leva em onta o ris o de ser des oberto,

aperfeiçoa as fórmulas e onmi as mais usuais para modelagem do spam, que não

in luem esse usto devido ao ris o.

Krishnamurthy [49℄ apresenta uma abordagem que utiliza selos, que são

om-prados, no envio de emails. O usuário A deseja enviar um email para B. A tem um

onjunto de selos já previamente omprados de uma entidade uni ada onável. A,

então, anexa umselo em suamensagem eenviaaB. Bavaliaamensagem. Se

onside-rarque éum spam,noti aisso. Caso ontrário,A re ebeseu selo de volta. Assim, se

Ativermuitasmensagenstaxadas omospam, rapidamente arásemselosepre isará

omprar novos selos. Se não for um spammer, nenhuma mensagem será taxada omo

spam enun a pre isará omprarnovos selos. Oartigotambémsugere omo implantar

(36)

Yang [56℄apresenta estimativas do usto de envio de spam. Esse trabalho in lui

a ompra de listas de emails, bem omo do aluguel de servidores para o envio nessa

estimativa. Além disso, apresenta também uma estimativa de qual a fração, dentre

todas os emails enviados, pre isam ser respondidos para que o spammer tenha lu ro.

Porm, arma,de maneirapou o embasada,que o spam está fadado a um m breve

eque osspammers têm migrado para atividadesmais lu rativas, omophishing .

A maior ríti a ontra essas abordagens é a di uldade de implantação. Como

argumentado em [56; 45; 62℄, para que o sistema setorne robusto, eledeve ser

abran-gente o su iente para que um usuário possa optar por não re eber email da maneira

usual, sem arris ar perder emails importantes. Esses sistemas impõem modi ações

drásti as na maneira omo os emails são enviados. Novas organizações seguras

pre- isariam ser riadas, bem omo o próprio proto olo SMTP pre isaria ser modi ado.

Issoé largamenteapresentado omo inviável napráti a.

Umsistema hamadoCentMail[7℄en ontra-seemfasedeimplantação. Osistema

realizará o ontrole da emissão e pagamento de selos para o envio de mensagens. O

sistema fun iona da mesma maneira que o proposto por Krishnamurthy [49℄, porém,

ao invés de o pagamento por selo ser realizado à empresa erti adora, ele será feito

naformade doaçãoaumainstuiçãode aridade. Assim, espera-se in entivaraadoção

ini ial, já que o pagamento representa uma doação e a divulgação da entidade que

re ebeu a doação noemail enviado.

2.3 Ferramentas de Marketing Eletrni o

Alémdosdiversosltrosanti-spamexistentes nosdiversosservidoresdeemail,existem

tambémferramentas omer iais que pro uram ata aro problema dospam.

OGoodMail[14℄éum sistemaparafa ilitaromarketingdire ionado. Aempresa

a eita apenas adastros de empresas que enviem emails para usuários que se

adas-traram ativamente para re eberem o email. Além disso, a empresa anexa ao email

enviado por seu esquema uma opção de re lamação ontra o email quando o usuário

o onsiderarspam. Se uma empresa atingiruma taxaaltade re lamações, seus emails

não poderão mais ser enviados pelo GoodMail. Em tro a, o sistema ofere e a ordos

om diversas empresas de email, que olo am os emails enviados peloGoodMail om

í ones diferentes na aixa de email do usuário e as mensagens não passam peloltro

anti-spam, garantindo entrega in lusive de emails ompostos apenas por imagens. A

(37)

OBoxbe[3℄éumprovedordeemail queexigeopagamentoparaqueuma

mensa-gemsejare ebida, asooremetentenãoesteja nawhitelist dodestinatário. Partedesse

pagamentoiriadiretamenteaousuário. Alémdisso,existe um adastroemqueo

usuá-rio informa suas preferên ias. O Boxbe também a eita a ordos om spammers. Caso

desejem, podem ter a esso ainformaçõesannimasdas preferên ias de ada usuário e

determinar para quais deseja enviar sua propaganda,pagando tambémpeloenvio.

Tem surgido o on eito de Admediary [38℄. Admediary é uma empresa que se

responsabiliza em aproximar onsumidores interessados e os vendedores apazes de

ofere er os produtos nos quais os onsumidores se interessam. Assim, usuários se

adastramvoluntariamentejuntoaomediadoreinformamseusinteresses. Omediador,

então, é pago por anun iantes para entregar suas ofertas aos usuários que possuem

interesse. Esse modelo de negó ios foi implementado em [8; 10; 12; 15; 16℄. Alguns

desses serviços ofere empagamentoaousuárioporre eberemails. Obviamente, essa é

uma té ni a questionável, já que,apesar de aumentar a base de usuários adastrados,

pode diminuira habilidadede en ontrar usuáriosinteressados, ouseja, pode di ultar

o targeting.

2.4 Cara terização do spam e modelagem através

de redes so iais

Existeuma diferençagrandeentre o omportamentogeradoporum endereçode email

utilizado por um spammer e o usado por um usuário legítimo. O endereço de email

utilizadoporumusuáriolegítimotemumapessoarealportrás, om ír ulosdeamizade

epadrõesde omportamentohumanos,enquantooemail deumspammer temportrás

um s ript de envio de mensagens.

Bus ando separar essas diferenças, Gomes [37℄, realizou uma análise de diversas

métri as que diferen iam entre spam e email legítimo. Por exemplo, existe uma

di-ferença no tamanho médio das mensagens enviadas, no número médio de emails no

ampo to e . Os autores também analisam o período da semana e a hora do dia,

e des obre que os emails legítimos são mais prováveis de serem enviados de segunda

a sexta e no horário omer ial, enquanto o spam permane e prati amente onstante

durante os diversos períodos. Além disso, existem laras relações so iais de amizade

nos emails legítimos. Exempli ando, se um usuário legítimoA envia uma mensagem

para B, e B já enviou mensagem para C, existe uma probabilidade grande de que A

(38)

ébaixa.

Calais [32℄ utiliza té ni as de mineração de dados para separar mensagens spam

em ampanhas. Após essa separação, avaliadiversas informaçõese omparaas várias

ampanhasobtidas.

Pli e [55℄analisaoproblemadospam segundoaópti ade re ursos omunitários.

Assim, por exemplo, a rede é um re urso omunitário, que sofre abuso do spammer.

Alémdisso, a atenção do usuário tambémé onsiderada re urso omunitário, sendo a

atençãootempoqueédedi adoàleituradeemails. Dessaforma,osautoresapresentam

que se um usuário re ebe mais emails do que pode ler, esse re urso (atenção) foi

sobre arregado. O texto analisa emails omer iais e on lui que não há res imento

na taxa de envio de emails desse tipo, ou seja, arma que o problema do spam não

tem apresentado uma tendên ia de piorar. Porm, on lui que os spams apresentam

sim ara terísti as temporais, assim, os spams também são mais frequentes durante

os dias de semana que durante os ns de semana, o que o ontrapõe diretamente à

on lusãodeGomes[37℄. Importantemen ionarqueambosutilizambasesdedadosde

universidades, sendo que [37℄ utilizou a base, om duração de oito dias, de emails da

UFMGe[55℄ utilizouabase de emails daAlpha StateUniversity om duração de 366

dias. Talvez essa diferença possa ser expli adapelos tamanhos das bases investigadas.

Em[63℄,éapresentadaumaferramentabaseadaemredesso iaisquebus areduzir

o número de falso positivos em ltros anti-spam. Para tal, utiliza um esquema de

erti ação. Um usuárioA erti a um usuárioB omo não spammer, primariamente

por onhe ê-lo. Então, se B quiser enviar email paraalgum dos amigos de A (pessoas

que erti am queA não seja spammer),ele poderá fazê-lo, sem queseu email sequer

passepeloltro.

A grande questão quese olo a através dessas abordagens é a ne essidade de se

ter um onhe imento grande da rede para se realizar boas inferên ias. Por exemplo,

um servidor apenas om onhe imento lo al, pode ter onhe imento de A e B em seu

servidor. Mas se A envia pelaprimeira vez um email para B e eles ompartilhamum

amigoem omum, C, emoutro servidor,então nãoseria possívelinferirqueambossão

legítimoseque a omuni ação pode o orrer.

2.5 Investigações e Meios Legais

Outralinha de ombateaospam dizrespeitoàbus a,investigaçãoepro esso riminal.

(39)

se identi ar o ulpado já que, obviamente, os spammers se esforçam em manter sua

identidadeemsegredo. Porexemplo,AlexPolyakov[2℄,responsávelpordiversos rimes

virtuais, bem omopeladisseminaçãodospam MyCanadianPharma y,é onhe ido

apenas por seu pseudnimo. Apesar de sua ação onstante, ainda não existem dados

sobre sua real identidade. O segundo é o aráter interna ional das operações. Um

spam re ebido emum paíspodeter sidoprovenientede umsegundo paíseenviadopor

um idadãode um ter eiropaís. Isso tornanão sóa des oberta dos responsáveis mais

ompli ada, omo também impõe barreirasà puniçãodos riminosos.

Apesar disso, avanços foram realizados. Muitas informações sobre spammers e

spams onhe idos estão disponíveis [26; 21; 1; 6℄. In lusive, há organizações omo

a spamhaus [25℄ que bus a ativamente informações sobre spammers, na tentativa de,

posteriormente,identi á-losepro essá-los. Asinvestigaçõesapresentamomodo omo

asorganizaçõesdespammers operam,aligaçãoentrespammers eorganizaçõeseosatos

riminososrealizados. Essesavanços ulminaramem asosfamosos, omoapuniçãode

spammers notórios omo Leo Kuvayev e a organização por trás do SanCash [19; 22℄.

Também ulminounadesativaçãodaM Colo[50℄,servidor asso iado ageraçãode um

alto volume de spam.

Outro avanço importante nessa linha foi o ato ameri ano CAN-SPAM [4℄. Esse

atoestipulaadeniçãodoqueéounãospam,fa ilitandoojulgamentoe riminalização

do spam. O ato onsidera spam omo sendo toda mensagem não-soli itada que não

ontenha uma forma de o destinatário se des adastrar da listade envio e nun a mais

re ebermensagensdoremetente. Esseato re ebe ríti asporlegalizaroenviode

men-sagens não-soli itada permitindo que qualquer empresa possa enviar uma mensagem

para qualquer endereço eletrni o. Basi amente, ao invés de ousuário demonstrar

in-teresseemre eberumamensagem,elepoderáprimeirore eberumamensagem,perder

seu tempo omela, paradepoisdemonstrardesinteresseenãomais re ebermensagens

do remetente.

2.6 Modelagem de spam

Amaiorpartedosestudosrela ionadosaspam tem omoobjetivodete tá-loe

eliminá-lo. Pou os estudos e trabalhos foram realizados nosentido de se modelar oproblema,

om oobjetivomaiorde se ompreender asituaçãoeavaliarestratégias. Esses estudos

são relevantes já que as estratégias de dete ção e ombate ao spam se baseiam em

(40)

ltroapós sua implantação. Anal, spammers modi arãoseus spams om o objetivo

de enganar esse novo ltro. Portanto, ompreender asituaçãoe oimpa to de diversas

estratégias pode ser valioso na de isão de qual a melhor estratégia a se utilizar, quer

sejaum ltroou não.

Ostrabalhos[57; 58;55℄ aminharamnesse sentido. Nelessão propostosmodelos

de simulaçãopara ospam. São modeladosdestinatáriose spammers. Os destinatários

podem re eber tanto spam quanto email legítimo e irá ler uma erta taxa de emails

por dia. Caso a taxa de hegada de emails seja muito alta, ele sofrerá de sobre arga

de informaçãoe deletará, sem qualquer onsideração,uma erta quantidade de emails

re ebidos. Os modelos também apresentam o on eito de falso-negativo, não omo a

taxadespam queoltropermitepassar,mas omoataxadeemailsinúteisqueoltro

entrega. Outra ara terísti a é que à medida que os spammers aumentam seu lu ro,

o número de spams gerados também aumenta na modelagem. Além disso, os

desti-natáriostêm uma probabilidade de ompra, aso leiam um spam. Essa probabilidade

é independente e xa para ada spam re ebido. Por m, o modelo trata o problema

através de valores médios efórmulas fe hadas.

Esta dissertação se baseia nesses trabalhos mas, ao invés de seguir um modelo

de valores médios, ada spammer e ada destinatário é modelado. Assim, é possível

modelarmelhoro pro esso de ompradousuário ein luir efeitos omoaprendizagem,

onançaefraude. Também,ataxade falsos-negativosé modelada omo sendoa

pro-babilidadede uma mensagem spam ser entregue,não importandoseelaserá relevante

ounão. Anal,osltros,nagrandemaioriadas vezes, nãofazemessadistinção,

distin-guindotão somenteentre spam enão-spam. Outradiferença importanteéem relação

àprobabilidadede ompra. Nosmodelosmen ionados, para ada mensagemre ebida,

uma erta fração delas resultará em vendas. Em nosso modelo, esse valor não é xo.

Dessamaneira,podemosmodelar on orrên ia, onançaeore ebimentode múltiplos

spams para omesmo produtoe forne edor, queafetam essa fração. Portanto,aoinvés

de modelarasvendas omo umafração das mensagens, preferimosmodelaro interesse

dousuário omo uma probabilidade. Daí, ada usuário tem uma probabilidade de se

interessar por um produto; se ele irá omprar ou não é uma de isão em que outros

fatores,que podem variar aolongo do tempo, interferem.

2.7 Modelagem Baseada em Agentes

(41)

A grande vantagem dessa abordagem é que, ao invés de se modelar o sistema omo

um todo, épossívelatribuir omportamentosrelativamentesimplesparaosagentes ea

interaçãoentreagentesdáorigemafenmenosmais omplexosedifí eisdesemodelar.

Aose realizar uma modelagem por agentes, a primeiraentidade a ser riada é o

agente. Diversostiposdeagentespodem oexistir. Cada lassedeagenteapresentaseus

próprios omportamentos, que,in lusive,podemserrespostasafenmenosexternosou

ações de outros agentes. A forma omo osagentes se rela ionamtambémé modelada.

Assim, é possivel a modelagemde aprendizadodos agentes e outros omportamentos,

uja modelagemanalíti aseria extremamente ompli ada.

Hádoisestudosmuitoimportantes emrelaçãoamodelagembaseada emagentes.

O primeiro[65℄ apresenta uma revisão a er a dos modelos e problemas abordados em

e onomia, utilizando essa té ni a. O segundo [52℄ apresenta um modelo para spam.

Porém, esse trabalhofo anas relações so iais ede amizade entre os diversos usuários

de email. Assim, oestudopartedabasede dadosdos emailsdosfun ionáriosdaEnron

e, a partir daí, modela, usando agentes, a maneira omo as relações entre os diversos

(42)

(43)

Modelo e Simulador

3.1 Modelo

3.1.1 Visão Geral

Em linhas gerais, o modelo pode ser des ritoda seguinte maneira. Ospassos aseguir

mostram aordem das ações modeladas.

1. Os spammers enviammensagens spam para todos os usuáriosdo sistema.

2. Essas mensagens hegamaoservidordodestinatário. Elaspodemserbloqueadas

automati amentepeloMailTransferAgent(MTA) 1

.Nomundoreal,essebloqueio

o orre devido a erros na mensagem, bla klists e outros indi adores fortes que

indi am que uma mensagem é spam. No modelo, a situação é modelada omo

uma probabilidadede amensagem spam ser sumariamentere usada peloMTA.

Spams rejeitados pelo MTA sequer serão onsiderados pelo ltro e nun a serão

entregues sequer à aixade spam.

3. Mensagens não rejeitadas pelo MTA são en aminhadas ao ltro. Seguindo uma

probabilidadede falsos-negativos,oltro podeentregar mensagensspam à aixa

de entrada dousuário. As outrasmensagens são en aminhadas à aixade spam.

4. O usuário, então, irá a essar sua aixa de email. Ele pode possuir interesse no

produto omer ializado via spam. Esse interesse é determinado por uma

dis-tribuição de probabilidade, sendo que, ada usuário possui han es de, a ada

leitura, ter interesse ounão noproduto.

1

MailTransferAgenté umpro essoouapli ação que transfere uma mensagemre ebida de um

(44)

5. Caso o usuário não tenha interesse, todas asmensagens são apagadas.

6. Casoousuáriopossuainteresse,eleiráa essarsua aixadeentradaparaes olher

os forne edores. Dessa aixa, ele sele iona, aleatoriamente, quais spams irá ler,

até um limite determinado.

7. Se não houver spams su ientes para ompletar o limite,o usuário poderá

a es-sar sua aixa de spam para ompletar o limite. Ele somente irá a essá-la em

experimentosespe í os, omo será detalhado naseção de resultados.

8. De posse dos spams queserão lidos,e de informaçõessobreo preçode um

forne- edor externo (não-spammer)elede idiráde quem omprara mer adoria. Caso

ompre doforne edor externo, nenhum spammer será pago.

9. Se a ompraforrealizadadeum spammer ousuáriorealizaopagamentoeespera

pelamer adoria, que poderá ser entregue orretamenteou não. Sempreque um

produto é entregue in orretamente há uma probabilidade de o usuário per eber

que foi enganado e de aprender e inuen iar outros om seu aprendizado. O

pro esso de ompraserá expli adoem3.1.2. Amaneira omoousuárioes olheo

forne edorseráexpli adaem3.1.2.2. Aforma omoousuárioaprendeeinuen ia

outros será des rita em 3.1.2.3.

3.1.2 Pro esso de ompra do usuário

3.1.2.1 Etapas do pro esso de ompra

O artigo [60℄ des reve as etapas de um onsumidor no seu pro esso de ompra. A

primeira etapa é a de dete ção de ne essidade, na qual o onsumidor per ebe suas

ne essidades. Em seguida, na próxima etapa, o poten ial onsumidor des obre qual

o produto que atenderia a essa ne essidade. Após isso, pre isa pesquisar e de idir de

qualforne edor irá omprar o produto es olhido. Por m, faz um balançoem relação

asua ompra e aavalia omo bem-su edida ounão.

Omodelodesta dissertação onsidera asduasprimeirasetapas omouma

proba-bilidade. Cadausuáriopossuiumaprobabilidadedediagnosti arumadadane essidade

ede apontaro produtovendidovia spam omo sendo adequadoaatender seus

objeti-vos. Importanteressaltar queháapenas um tipode produto eque todos osspammers

domodelo vendemexatamente omesmo produto.

(45)

informa-ele pode julgar que é melhor omprar nesta empresa, não gerando qualquer re eita a

qualquer spammer.

No pro esso de de isão, o usuário al ula a utilidade ( omo des rita na seção

3.1.2.2), al uladapara adaspam lidoeparaoforne edornão-spammer. Paraes olher

osspams lidos,ousuárioa essaasua aixadeentrada esele iona,aleatoriamente,um

número denido de spams. Então, al ula a utilidadepara ada um dos forne edores

presentes nessa amostra de spams. Caso não haja na aixa de entrada mensagens

su ientes paraatingironúmerode spams lidos,ousuáriopodere orrer àsua aixade

spam,ousimplesmenteignoraresselimiteelertodasasmensagensda aixade entrada.

A de isão de re orrer ou não à aixa de spam depende de uma variável nomodelo (o

impa to daleitura ounão da aixade spam será avaliada naparte experimental).

Por m, o usuário adquire o produto do forne edor de maior utilidade e, após

isso, realizao balançoa er a da transação realizada. Caso ompredo forne edor

não-spammer, nenhum pro esso é realizado, já que esse forne edor é onsiderado sempre

honestoeatransaçãosemprebem-su edida. Caso ompredeumspammer,atransação

pode ser mal-su edida, interferindo na onança dousuário (vide seção 3.1.2.3). Vale

ante ipar a informaçãode que ousuário sevale de seus onhe imentos anteriorese da

onança no ál uloda utilidade,e, onsequentemente, na es olhado forne edor.

3.1.2.2 Cál ulo da Utilidade

A função de utilidade foi baseada em [34℄. A diferença é o a rés imo do fator

d

×

#spams

que representa o quanto o usuário pondera negativamente um forne edor à

medida que re ebe mais spams em sua aixa de entrada. spams na aixa de spam

não são omputados. Basi amente, esse fator onsideraa sobre argade informaçãodo

usuário, jáque, quantomaior onúmerode spams, menorserá a atençãoqueo usuário

irá destinar aos mesmos, aumentando a probabilidade de des artá-los sem qualquer

investigação. Além disso, usuários geralmentenão gostam de re eber spam, portanto,

quanto maioro número de spams mais ousuário irádesejar punirtodos osspammers,

e, analogamente, re ompensar um não-spammer(no aso deste modeloexiste um

não-spammer).

A função é dada a seguir, para ada forne edor

i

(spammers uja mensagem foi lida epara o não-spammer):

(46)

a

× Conf iancai

representaainuên iada onançanodadoforne edor, ujautilidade está sendo al ulada. A onança varia de 0 a 1, sendo que 1 signi a ompleta

onança e0 representades onança total.

b

×

ln(P recoi)

representa a importân ia do preço para o omprador. Em suma, representa o quanto diminuir o preço é atrativo ao usuário. O logaritmo é utilizado

porquestões de es ala emrelação aopreço doproduto.

c

× Conf ianca

i

×

ln(P recoi)

representa a sensibilidade do usuário em relação a variações no preço. A idéia é o quanto o usuário estaria disposto a pagar, a mais,

por uma mar a ou forne edor onhe ido e onsiderado onável em detrimento de

outro forne edor, de menor preço e menos onhe ido. Como pode ser per ebido, essa

par ela difere da ponderação simples da onança, anal, também onsidera o preço

doproduto, sinalizandoa por entagem amais,nopreço, queousuárioestá disposto a

pagarem um produto de forne edor onável e onhe ido.

Porm, omofoiante ipado,

d

×

#spams

representaoquantoautilidadede um spammer de res e a medida que o usuário é sobre arregado om spams em sua aixa

de entrada.

Osparâmetrosa,b, ,dsãoospesospara adapar elaqueformaautilidade. Dado

queo objetivo não é onseguir valores absolutos de utilidade,e simrelativos,já que o

pontoées olheroforne edordemaiorutilidade,osparâmetrosa,b, ,dforames olhidos

arbitrariamente. Durante a fase experimental, a alteração destes parâmetros, ou seja,

amaneira omo ada par ela dafórmulaé ponderada, será avaliada.

3.1.2.3 Cál ulo da onança

O ál ulode onançapre isa serfeitoemdoismomentosdistintos. Oprimeiroo orre

quando o usuário já realizou pelo menos uma ompra om o dado spammer. O outro

momentoo orre quando o usuáriopre isa inferiro quanto ona nospammer no

mo-mentodaprimeirainteração. No asodovendedornão-spammer,a onançaésempre

1(o quesigni a onança máxima).

Quando o usuário já realizou alguma transação om um dado spammer, a

onança dousuárionesse spammer édada pelaequação:

Conf ianca

i

=

Conf ianca

i,anterior

+

(1 − Conf iancai,anterior)

×

h

1 −

1 #transacoesi+1

i

(47)

transação asoaprimeiratenhasidobemsu edida. Então,afórmulapropostasomente

ini ia o ál ulo da onança a partir da segunda interação. No nosso aso, logo após

a primeira transação, a onança já pre isa ser al ulada, anal, esse valor irá ser

de isivo para o usuárioes olher se haverá outra transação om o mesmoanun iante.

Expli ando a fórmula.

#transacoesi

representa o número de transações, onse- utivas, onsideradas pelo usuário omo bem-su edidas om o vendedor

i

. Portanto, se o usuário onsiderar uma transação omo mal-su edida, o

#transacoesi

retorna a zero.

Conf ianca

i,anterior

representa a onança do usuário no spammer antes de ini- iar a sequên ia de transações bem-su edidas. Assim, aso somente tenham o orrido

transações bem-su edidas, esse valor é igual à onança do usuário antes de qualquer

ontato. Casoa onançatenhasidoquebrada,esse valor orrespondeà onançaapós

a traição.

Porém, a fórmula a ima apenas atua enquanto o usuário realiza ompras que

onsidera bem-su edidas om o spammer. Quando o usuário é traído, um fator é

multipli ado à onança atual e o valor de

#transacoesi

retorna a zero. Assim, a nova onança é uma fração da onança original antes da traição. Vale men ionar

que essa nova onança, após a apli ação do fator, será a nova

Conf iancai,anterior

, usada nas equações aso o usuário de ida se rela ionar novamente om o spammer.

Assim, em aso de quebra a onança:

Conf ianca

i

= Conf iancai,anterior

= Conf iancai

∗ f ator

Caso não tenha havido qualquer ontato, ousuário pre isade idir o seu grau de

onança no spammer. Para tal, o usuário utiliza o onhe imento adquirido por ele

nas omprasanteriores de outros spammers. Alémdisso, o usuáriotambémsevalede

dados sobre o número de ompras bem-su edidas e mal-su edidas de todos os outros

usuários em relação a esse spammer. A utilização de informações obtidas por outros

usuários equivale a pesquisar sobre o dado spammer, já que o usuário não o onhe e.

A fórmulageradapara tal éa seguinte:

Conf ianca

i

=

1 + g × (ComprasSucesso

− ComprasF racasso) + h ×

(ComprasExti,Sucesso

− ComprasExti,F racasso)

Na fórmula anterior, o valor da onança ini ial é igual a 1, ou seja, o usuário

ona egamente no forne edor.

g

e

h

orrespondem a pesos dados a importân ia de ada uma das fontes de informação.

g

éo peso para o omportamentoobservado pelo usuário e

h

é o peso para informações obtidasde opiniõesdos outrosusuários. O

(48)

pri-meiro parêntesis representa o ganho do usuário em relação às ompras de spammers.

Caso o ganho seja positivo, ou seja, ele a redita ter obtido maior número de

transa-ções bem-su edidas que mal-su edidas, a onança aumentará. O segundo parêntesis

orresponde à opinião que a omunidade tem do dado spammer. Basi amente, todas

as ompras feitas desse spammer são ontabilizadas e o ganho é al ulado.

Impor-tante frisar que é o usuário que omprou que avaliaa ompra omo bem-su edida ou

não, portanto, a probabilidade de dete tar uma fraude é ru ial na onabilidade da

fórmula. A probabilidadede dete tar uma fraude será expli ada em3.1.3.

Aequaçãoa imautilizavaloresabsolutosemrelaçãoaonúmerode ompras

bem-su edidas ou não. Assim, o valor da equação pode ser maior que 1 ou menor que 0.

Nos asos em que é maior que 1 o valor é transformado em 1; nos asos menor que 0

osvalores são onsideradosiguais a 0.

3.1.3 Comportamento Fraudulento

Omodeloprevê apossibilidadede avaliarafraude porpartede spammers. O produto

ofertado pode não ser entregue após o pagamento, ou, quem sabe, pode ser entregue

um produto que não atenda às espe i ações originais. Por exemplo, em asos de

medi amentos, ao invés dadosagem orreta,pode ser entregue um pla ebo.

Para modelar esse omportamento, foi adi ionada a probabilidade de um

spam-mer não entregar o produto adequado. Quando o produto orreto não é entregue, o

spammer,nomodelo,nãopossuiqualquer gasto omomesmo. Assim, nesse aso,toda

a re eita orresponde a lu ro. Como a fraude é modelada omo uma probabilidade,

omesmo spammer pode, aleatoriamente, emalguns asos entregar o produto orreto,

e,em outros, não fazê-lo. Essa de isãode modelar omo uma probabilidade se baseia

noartigo [43℄. Nele, o autor fez quatro en omendas de Viagra ao onhe ido spam da

Canadian Pharma y [6℄. Para todas as en omendas, o autor re ebeu itens

orrespon-dentes. E, em apenas uma das entregas, o produto não ontinha o prin ípio ativo

orretodo medi amento. Portanto, um mesmo spammer, ou uma mesma organização

de spammers, pode, em alguns momentos entregar o produto orreto, e, em outros

asos,não.

Outraquestãofundamentalnomodeloéo ompradorper eberquefoienganado.

Em alguns asos, essa per epção é óbvia. Por exemplo, em uma ompra de elular,

o omprador pode saber, fa ilmente, se o elular entregue possui algum defeito e se o

produto ombinadofoirealmenteentregue. Porém,afraudeemalgunsprodutosémais

ËÁÅÍÄ Ç ÆýÄÁË Ç Å Ê Ç Ê Ç ÈÇÊ ËÈ ÅÅ ÊË ÈÇÌ Æ Á ÁË ÇÆËÍÅÁ ÇÊ Ë

CO

2

d

×

#spams

i

a

× Conf iancai

b

×

ln(P recoi)

c

× Conf ianca

i

×

ln(P recoi)

d

×

#spams

Conf ianca

i

=

Conf ianca

i,anterior

+

(1 − Conf iancai,anterior)

×

h

1 −



1

#transacoesi+1

i

#transacoesi

i

#transacoesi

Conf ianca

i,anterior

#transacoesi

Conf iancai,anterior

Conf ianca

i

= Conf iancai,anterior

= Conf iancai

∗ f ator

Conf ianca

i

=

1 + g × (ComprasSucesso

− ComprasF racasso) + h ×

(ComprasExti,Sucesso

− ComprasExti,F racasso)

g

h

g

h

i