GERADO
POR SPAMMERS E POTENCIAIS
SIMULAÇO E ANÁLISE DO MERCADO
GERADO
POR SPAMMERS E POTENCIAIS
CONSUMIDORES
Dissertação apresentada ao Programa de
Pós-GraduaçãoemCiên iadaComputação
doInstituto de Ciên ias Exatas da
Univer-sidade Federal de Minas Gerais omo
re-quisito par ial para a obtenção do grau de
Mestre emCiên ia daComputação.
Orientador: Virgílio Augusto Fernandes de Almeida
2010, César Fernandes Teixeira. Todos os direitosreservados.
Teixeira, CésarFernandes
T266s Simulaçãoe Análise domer ado gerado por
spammers epoten iais onsumidores/ César Fernandes
Teixeira. Belo Horizonte, 2010
xxii, 83f. : il.; 29 m
Dissertação(mestrado) Universidade Federalde
Minas Gerais
Orientador: VirgílioAugusto Fernandes de Almeida
1.ModelagemE onmi a - Teses. 2. Simulação
( omputação) -Teses. 3.Spam - Teses. I. Orientador
II. Título.
Agradeçoprimeiramenteàminhafamília,prin ipalmenteàminhamãeeminhasirmãs.
O apoio e des ontração de vo ês foi fundamental para mim. Muito obrigado por não
me internarem pelas inúmeras vezes em que andei pela asa falando sozinho oisas
in ompreensíveis(até para mim) sobre a dissertação.
Agradeçoaomeuorientador,professorVirgílioAlmeida,nãosomentepelaótima
orientação mas peladiversão que foi trabalhar om vo ê. Com erteza pude aprender
liçõesvaliosasduranteomestrado quesem dúvidanenhuma nãopoderiateraprendido
em outrolo alou om outra pessoa.
Agradeçoaos meus amigos de laboratório,essas pessoas divertidas e inteligentes
om quem tive o prazer de trabalhar e onviver. Agradeço aos amigos de mais longa
dataFabrí io,Matheus,AdrianoVelosoeDjim. Agradeçotambémaosquenãoestavam
mais no laboratório na épo a da defesa: Fabiano, Fernando e Gustavo Siqueira. Por
m, agradeço aos novosamigos: Rauber, Emanuel, Tatiana,Marisa, Tiago e Gabriel.
Agradeço aos meus amigos dos tempos de graduação, om quem pude onviver
também durante o mestrado. Agradeço prin ipalmente a Lu iana Fujii, Douglas e
David.
Agradeço aos meus amigos fora da omputação, que sempre om bom humor e
simpatia me lembravamque hávida fora da omputação :-)Agradeço prin ipalmente
a Carlos Eduardo, Horá io, Daniloe Frederi o.
Agradeçoaogrupode dançade salãodoICB. Com erteza a1:15 porsemanade
aula zeram uma diferença enorme, tantoemrelaxamentoquanto diversão. Agradeço
prin ipalmenteàKarin,Alessandra,Vera,Cláudia,AnaPaula,Dul e,Daniel,Ronaldo
Spam é um problema re orrente que gera perdas nan eiras grandes para toda a
so- iedade. Porém, o spam é baseado em uma relação de onsumo. A existên ia, ou
possibilidadede existên ia,de uma demanda gera uma oferta via spam.
Portanto, entender esse mer ado gerado entre spammers e onsumidores é
fun-damental. Anal, através dessa ompreensão é possível entender o efeito de diversos
fatores fundamentais, o resultado e de iên ias de té ni as anti-spam já estabele idas
e proporalternativas.
Este trabalhorealiza uma modelagem,baseada emagentes eem on eitos e
mo-delos e onmi os , do mer ado por trás do spam. Além disso, as análises realizadas
forne em ontribuiçõesna ompreensãodospam e de seu mer ado ena inferên iadas
onseqüên ias, nesse mer ado, de estratégias anti-spam omuns. Como objetivo nal,
sugestõessobre melhoriase novas estratégias são propostas.
Spam is an important problem that in urs in huge nan ial losses. However, spam
is based on onsumption. The existen e, or the possibility of existen e, of a demand
generates asupply oered through spam.
Therefore, understanding thismarketgeneratedby spammers and potential
on-sumers isimperative. This isdue tothefa tthat understandingthis market anbring
valuable information about the ee ts of fundamental fa tors, the onsequen es and
de ien ies of the available anti-spamte hniques, and to propose alternatives.
This work reates a model, based onagents and in e onomi s on epts and
mo-dels, of the market behind spam. Moreover, the analysis done ontributes to
unders-tanding spam and its market, to inferring the onsequen es, in this market, of the
usual anti-spam te hniques. As a nalgoal, suggestions about improvementsand new
strategies are proposed.
4.1 Grá osdemonstrando ainuên ia do modode envio de spams e do usto
da mer adoria vendida no ganho dos spammers. Para efeitos de
ompara-ção, os valores no eixo x orrespondemà mesma fração dovalornal. Por
exemplo,oprimeiropontosemprerepresenta10%dovalordoúltimoponto.
(a)O grá o no antosuperior esquerdo ilustra o impa todo usto para a
produçãoou aquisiçãoda mer adoriaporparte dospammer. (b) Ográ o
no anto superior direito mostra o impa to da variação do usto para o
envio de um spam. ( ) O grá o no anto inferior esquerdo demonstra a
onseqüên ia, no lu ro, do preço obrado porproduto vendido. Osvalores
doeixo x representam a fração do preço obrado emrelação aopreço real.
(d) O grá o no anto inferior direito mostra o que o orre ao se variar o
número de mensagens enviadas por usuário. Osvalores noeixox
represen-tamofatorpeloqualonúmerode mensagens geradasde a ordo om dados
mer adoriavendidanoganhodosspammers. Porém,agoraaprobabilidade
de interesse éalta (0,01). Para efeitos de omparação,os valores no eixo x
orrespondemàmesmafraçãodovalornal. Porexemplo,oprimeiroponto
sempre representa 10% do valor do último ponto. (a) O grá o no anto
superior esquerdo ilustra oimpa to do usto para a produçãoou aquisição
da mer adoria por parte do spammer. (b) O grá o no anto superior
direito mostra o impa to da variação do usto para o envio de um spam.
( ) Ográ ono antoinferior esquerdodemonstraa onseqüên iadopreço
obrado porproduto vendido nolu ro. Os valores doeixo x representam a
fração do preço obrado em relação ao preço real. (d) O grá o no anto
inferior direito mostra o que o orre ao se variar o número de mensagens
enviadas por usuário. Osvalores no eixox representam ofator peloqual o
número de mensagens geradas de a ordo om dados reais foi multipli ado
em ada experimento. . . 49
4.3 Variação no peso da onança na utilidade. O primeiro grá o (a)
repre-sentaa inuên ia nolu ro e osegundo (b) a inuên ia nosaldo. . . 51
4.4 Análise do impa to do peso da experiên ia pessoal na determinação da
onançaemumspammer não onhe ido. Avaliaesse impa topara olu ro
(a)e osaldo do grupo(b). . . 52
4.5 Análise do impa to do peso da experiên ia externa na determinação da
onançaemumspammer não onhe ido. Avaliaesse impa topara olu ro
(a)e osaldo do grupo(b). . . 53
4.6 Variação da taxa de falsos-negativo do ltro e seu impa to no sistema. A
medida que essa taxa aumenta, pior é a qualidade do ltro. O primeiro
grá orepresentaainuên ianolu ro(a) eosegundo ainuên ianosaldo
(b).. . . 54
4.7 Impa to do preço externo ( obrado pelo forne edor não-spammer) no
sis-tema. Oprimeirográ o representa o impa tonolu ro (a) eo segundo no
saldo (b). . . 55
4.8 Impa to da apa idade de dete tar uma fraude por parte dos ompradores
nosistema. Oprimeirográ orepresentaoimpa tonolu ro(a)eosegundo
nosaldo (b).. . . 56
4.9 Impa to da probabilidade de fraude no sistema. O primeiro grá o
repre-sentao impa tono lu ro (a) eo segundo nosaldo (b). . . 56
4.10 Impa to da probabilidade de interesse no sistema. O primeiro grá o
1 no eixo x orresponde a não utilização da aixa de spam. O valor 2
orresponde ao seu uso. O primeiro grá o representa o impa to no lu ro
(a)e osegundo nosaldo (b). . . 58
4.12 Osgrá osapresentamoefeitodoaumentodainuên iaexternanoimpa to
daprobabilidadede fraude. Oimpa toéavaliadotantopara olu roobtido
porspammers quantoparaosaldo. Oprimeirográ orepresentaoimpa to
nolu ro (a)e o segundo nosaldo (b). . . 60
4.13 Os grá os apresentam o efeito do aumento da inuên ia externa no
im-pa to da probabilidade de dete ção fraude. O impa to é avaliado tanto
para olu ro obtidopor spammers quantopara o saldo. O primeirográ o
representa o impa tono lu ro(a) eo segundo no saldo (b). . . 62
4.14 Osgrá osapresentamoefeitodoaumentodainuên iapessoalnoimpa to
daprobabilidadede fraude. Oimpa toéavaliadotantopara olu roobtido
porspammers quantoparaosaldo. Oprimeirográ orepresentaoimpa to
nolu ro (a) e o segundo nosaldo (b). . . 63
4.15 Os grá os apresentam o efeito do aumento da inuên ia pessoal no
im-pa to da probabilidade de dete ção fraude. O impa to é avaliado tanto
para olu ro obtidopor spammers quantopara o saldo. O primeirográ o
representa o impa tono lu ro(a) eo segundo no saldo (b). . . 64
4.16 Osgrá osapresentam oimpa todainuên iapessoal quandoa inuên ia
externaéigualazero. Assim, asituaçãoemquenãoháinformaçãoexterna,
ou essa é ignorada, é estudada. O grá o (a), no anto superior esquerdo,
apresentaosresultados doimpa todainuên iaprópriaedaprobabilidade
de dete ção de fraude no lu ro. O grá o (b), no anto superior direito,
apresentaosmesmosresultados,porem,paraosaldo.Ográ o( ),no anto
inferioresquerdo,apresentaosresultadosdoimpa todainuên iaprópriae
daprobabilidadede fraudenolu ro. Ográ o(d),no antoinferiordireito,
apresentaos mesmos resultados, porem,para osaldo. . . 66
4.17 Osgrá osapresentam oefeitodaqualidadedoltronoimpa toda
proba-bilidadede dete çãofraude. Oimpa toéavaliadotantoparaolu roobtido
porspammers quantoparaosaldo. Oprimeirográ orepresentaoimpa to
nolu ro (a)e o segundo nosaldo (b). . . 67
4.18 Os grá os apresentam o efeito do aumento da qualidade do ltro no
im-pa to daprobabilidadede fraude. O impa toé avaliado tantopara o lu ro
obtidoporspammers quanto para osaldo. O primeirográ orepresenta o
do ltro em lidar om fraudes. O grá o no topo esquerdo (a), apresenta
a análise para a dete ção de fraude e seu impa to no lu ro para ltros de
qualidadesdiferentese omousoda aixadespam. Ográ onotopodireito
(b) apresentaosmesmosresultadosque (a),porém,paraosaldo. Ográ o
( ) no anto inferioresquerdo apresenta osresultados para a probabilidade
defraude sobdiversas qualidadesde ltroeseuimpa tonolu ro. Ográ o
no anto inferior direito (d) apresenta a mesma análise, entretanto, em
relaçãoao saldo. . . 69
4.20 Osgrá os apresentam osaldo obtido ex lusivamente om a venda de
pro-dutos de spammers. Nestes grá os, a perda que a so iedade tem om o
tratamento de spam não é onsiderada. Somente ontabiliza-se a par ela
resultante de e onomia om a ompra de produtos entregues orretamente
e a perda om fraudes. Isso ajuda a ompreender os resultados do grá o
4.19emrelaçãoaosaldo. Ográ o(a)naesquerda, apresentaosresultados
sem a utilização da aixa de spam. O grá o (b) na direita apresenta os
Agrade imentos vii
Resumo ix
Abstra t xi
Lista de Figuras xiii
Lista de Tabelas xvii
1 Introdução 1 1.1 Motivação . . . 1 1.2 Objetivos . . . 3 1.3 Contribuições . . . 4 1.4 Organização daDissertação . . . 5 2 Referen ial Teóri o 7 2.1 Teorias e onmi as . . . 7 2.2 Té ni as Anti-spam . . . 9
2.2.1 Restriçõesaoenvio do spam . . . 9
2.2.2 Bla klistse Whitelists . . . 11
2.2.3 Filtros anti-spam . . . 11
2.2.4 Abordageme onmi a . . . 12
2.3 Ferramentasde Marketing Eletrni o . . . 14
2.4 Cara terização dospam e modelagematravés de redes so iais. . . 15
2.5 Investigaçõese Meios Legais . . . 16
2.6 Modelagemde spam . . . 17
2.7 ModelagemBaseada emAgentes. . . 18
3.1.1 VisãoGeral . . . 21
3.1.2 Pro esso de omprado usuário . . . 22
3.1.3 ComportamentoFraudulento. . . 26
3.1.4 Filtragemde spam . . . 27
3.2 Premissas eSimpli ações . . . 27
3.3 Simulador . . . 28
3.3.1 Ambientede implementação utilizado . . . 28
3.3.2 Des riçãoda simulação . . . 29
3.3.3 Métri asreportadas. . . 31
4 Resultados Experimentais 33 4.1 Parâmetros domodelo . . . 33
4.2 Pro edimento experimental eAnálises. . . 45
4.3 Projetovariandoum fator . . . 46
4.3.1 Alternativasdos spammers para aumentar dolu ro . . . 46
4.3.2 Variação nopeso da onança nautilidade e variação dos pesos na formaçãode opiniãosobre um spammer não- onhe ido . . . 51
4.3.3 Qualidadedo ltro . . . 54
4.3.4 Inuên iadopreço obrado pornão-spammers . . . 55
4.3.5 Efeitodafraude e apa idade de dete ção de fraudes . . . 56
4.3.6 Interesse dousuário eutilizaçãoda aixade spam . . . 57
4.3.7 Sumáriodos resultados . . . 58
4.4 Veri ação de hipóteses. . . 60
4.4.1 Hipótese1: Àmedidaque aprobabilidadede fraude aumenta,o aumentonainuên ia externa melhora osistema. . . 60
4.4.2 Hipótese2: À medidaqueahabilidadeemdete tarfraude dimi-nui, o aumento na inuên ia externa se torna menos e az em melhoraro sistema. . . 62
4.4.3 Hipótese3: Àmedidaque aprobabilidadede fraude aumenta,o aumentonainuên ia de experiên ias pessoais melhorao sistema. 63 4.4.4 Hipótese 4: À medida que a habilidade em dete tar fraude di-minui,o aumentonainuên ia de experiên iaspessoais setorna menose az emmelhoraro sistema. . . 64
4.4.5 Hipótese5: Naausên ia de informaçõesexternasouquandoelas são des onsideradas, osistema é vulnerávela fraudes . . . 65
probabilidade de dete ção de fraude diminui, mais o sistema se
bene ia om ltro. . . 67
4.4.7 Hipótese 7: À medida que o ltro se torna mais pre iso, e a
probabilidade de fraude aumenta, mais o sistema se bene ia
om ltro. . . 68
4.4.8 Hipótese8: Oefeitodoltro diminuise osusuáriosutilizarema
aixa de spam napesquisa porforne edores. . . 69
4.5 Apli ação dos resultados: Análise dospam de farmá ias anadenses . . 72
5 Con lusão 75
Introdução
1.1 Motivação
Spaméumproblemare orrentenomundodaInternet. Apesardeatualmenteexistirem
ltros poderosos apazes de impedirque agrande maioriadessas mensagensal an e a
aixa de entrada do usuário, ainda assim esse é um problema relevante. Atualmente,
estima-se que 80% [51℄ dos emails gerados sejam spam. Há estatísti as mais atuais
que armamque esse volume atingiua asados 90% [35℄. Esse volume extra gera
des-perdí ios, anal, banda e re ursos omputa ionais pre isam ser alo ados para tratar
essas mensagens. Além disso, o mesmo estudo ([51℄ ) analisa o spam sob a
perspe -tiva de energia onsumida e on lui que a energia gasta anualmente devido ao spam
poderia abaste er 2,4 milhões de asas ameri anas. Ademais, ada mensagem spam
orresponde à emissão de 0,3 g de
CO
2
, o que, somando-se todo o volume de spam mundial, equivaleria a dar 1,6 milhão de voltas, usando um automóvel, ao redor daTerra. Re onhe endo esse problema, há diversas estratégias de ombate ao spam.
De longe amais popular é a utilização de ltros. Atualmente, é impensável que
um provedor de email não ofereça um ltro anti-spam. O objetivo do ltro éimpedir
quespam al an ea aixadeentrada dos usuários. Assim,o prin ípiobási oéobter as
ara terísti asdos spams queosdiferem de mensagens regularese utilizaressas
ara -terísti asna distinçãodoque éounão spam. Obviamenteelepode, inadvertidamente,
ex luirmensagenslegítimasquesepareçam omspam,bem omoentregarspamsquese
pareçam om mensagens legítimas. Entretanto, onsidera-se que atualmente os ltros
são apazes de realizarum bomtrabalho.
Infelizmente,osltrosnão têmsemostrado apazes dereduzirovolumede spam
gerado. Algumas análises onsideram que, in lusive, a existên ia de ltros agravou
hegavam à aixa de entrada, aumentaram o volume enviado. Com a utilização de
botnets 1
,esse volume pde ser in rementado enormementea baixos ustos.
Emuma tentativade resolvertambémoproblema dovolumeex essivo de spam,
estratégias e onmi as foram propostas [45; 44; 62; 29; 66; 49℄. A idéia entral que
permeiaasabordagens e onmi aséaumentaro ustode envio despam. Porém, omo
a priori é impossível sobretaxar apenas spammers, esse aumento no usto é apli ado
a todas as mensagens geradas. Claramente o impa to em se aumentar o usto de
envio é proibitivamente maior para spammers que para usuários legítimos, já que os
últimos geram um volume innitamente menor de emails. Ainda, há variações dessa
abordagem que in luem uma em que o pagamento é a realização de ál ulos pelo
omputador do remetente [45℄ e outra em que o pagamento é obrado somente se o
destinatário onsiderar a mensagem omo sendospam [29℄.
Finalmente, outra abordagemé o rastreamento e pro esso de spammers. Nessa
linha, entidades se esforçam em entender a atividade de spammers, bem omo em
obter dados que possam, no futuro, identi á-los e a usá-los riminalmente. Porém,
a atividade de envio de spam é uma atividade interna ional por natureza, anal um
spammer deumpaíspodeenviarmensagensapartirdeumsegundopaís omoobjetivo
de atingir pessoas de um ter eiro. Portanto, des obrir a fonte do spam, bem omo
pro essar os ulpados, é um desao. Valemen ionarque investiga-seque,atualmente,
a maior parte dos spams de farmá ias anadenses sejam originários de spammers da
Rússia eU rânia [21; 54℄.
Grandepartedadi uldadeemse ombaterspam vemdaprópriadi uldadeem
sedenir oque é spam. Geralmente, spam é denido omo mensagem não-soli itada.
Porém, esse on eito não pode ser apli ado na práti a, anal, provavelmente todo
primeiro ontato via email seria onsideradospam. Outra denição éa de mensagens
indesejadas. Masesse on eito,apesardeseromaispopulardespam,éabstratodemais
e extremamente dependente do destinatário para forne er uma denição pre isa. Em
uma tentativa de resolver esse impasse, existe o ato ameri ano CAN-SPAM [4℄. Nele,
spam édenido omotodamensagem não-soli itada,enviadaemmassa, sem quehaja
umamaneira explí itade ex luir odestinatário dalistade remetentes (opt-out). Essa
denição,apesar de ser pre isa ede permitirapuniçãode riminosos, não éapre iada
por diversos usuários. A prin ipal justi ativa é a de que a lei permite que todas
as empresas enviem uma mensagem, para todos os usuários de email do mundo, sem
que a mesma seja onsiderada spam. Neste trabalho adotaremos a denição de spam
1
Botnetssão onjuntosdemáquinasdeusuárioslegítimosinfe tadas. Essasmáquinassão
apresentada peloCAN-SPAM.
Um fatoimportantesobre spam, omo denido peloato CAN-SPAM e usado ao
longodesta dissertação,équeeledependedeum mer ado. Pormaisqueamaiorparte
dosdestinatários onsiderespam inútilesepergunteseháalguémque ompre,somente
há spam porque alguém ompra ou porque alguém a redita que há quem ompraria
o que é anun iado. Portanto, se hádemanda ou expe tativa de demanda, há pessoas
dispostas asuprir essa demanda. Dessaforma,spam nada mais éque uma ferramenta
baratapelaqualpessoas apazesde proverumaofertade um produtotentamal ançar
a demanda. Obviamente, omo a har essa demanda é ompli ado, spam é enviado a
uma quantidade muito grande de pessoas desinteressadas.
Assim sendo, uma abordagempara o problema é estudar esse mer ado. Anal,
sem elenão haveria spam. Compreendê-lo pode ser fundamentalpara o entendimento
dos fatores que inuen iam esse mer ado. Por exemplo, aumentar o usto do spam
enviado é uma solução que trás altoganho, omo sugerem as estratégias e onmi as?
Ou a melhor abordagem é investir onstantemente em aperfeiçoar o ltro? Como a
fraude, ou seja,aprobabilidade de um spammer não entregar orretamenteo produto
omprado, interfere nesse sistema? A partir desse entendimento, pode-se avaliar o
real impa to de estratégias anti-spam, onde elas falham, onde a ertam e omo a sua
existên ia inuen ia o mer ado. Ainda, pode-se, através desse entendimento, sugerir
novas abordagens ou estratégias omplementares, de maneiraa riar um enáriomais
favorável que desestimulea geraçãode spam.
1.2 Objetivos
O objetivodestadissertação éforne ersubsídiosparaa riaçãode novasté ni as
anti-spam e aperfeiçoamento das já existentes. Outro objetivo é o estudo de fenmenos e
enários quepodemfa ilitaro ombate aospam, bem omo de situações quepre isam
ser evitadas, já que viabilizam e tornam o spam uma atividade altamente lu rativa.
Para tal, o mer ado formado por spammers e poten iais onsumidores é estudado.
Fo ar no mer ado permite uma visão mais abrangente do problema, gerando análises
mais ompletas e robustas. Para realizar tal abordagem, esta dissertação modela e
1.3 Contribuições
Esta dissertação apresentou diversos resultados interessantes:
1. Modelo e simulador baseado em agentes para a representação do mer ado
om-posto por spammers e usuários.
2. Análises qualitativasdoefeitodefatorese ombinaçõesde fatoresem enáriosde
interesse. Essas análisespermitema ompreensãodomer ado, entendimentodas
onseqüên ias eimpa tos de várias ações, bem omo o planejamentoe melhoria
de estratégias anti-spam.
3. O efeito da onança foi entendido. Conança se refere a quanto o
destinatá-rio ona quere eberá o item orretamenteao omprá-lode um dado spammer.
Foram estudadas duas fontes prin ipais para a formação de onança em um
spammer des onhe ido: experiên iapessoal om a omprade produtosde
spam-mers edados externossobre ospammer emquestão. Autilizaçãode experiên ia
externa se mostroubastante e azno ombateao spam emsituaçõesemque há
altas taxas de fraudes fa ilmenteidenti áveis.
4. Oefeitodaprobabilidadede fraudeporpartedos spammers, bem omoda
apa- idade dos usuários em re onhe er essas fraudes, foi estudado. A probabilidade
de fraude se refere as han es de um dado spammer, do qual foi realizada uma
ompra,nãoentregaroproduto orretamente. Devidoàpossibilidadedeos
usuá-riosinferirema onançaemumdadospammer antesdeuma ompra,oaumento
na taxa de fraudes pode ajudar no ombate ao spam. Porém, em situações em
que essas fraudes são di ilmentere onhe idas, esse ganho é menor.
5. Compreensão do efeito,no mer ado,damelhorianaqualidade doltro(redução
nos falsos-negativo 2
). Nem sempre é positivo para o sistema melhorar o ltro,
da mesmaforma quenem sempre é negativo piorá-lo.
6. Análise, em diferentes ontextos, dos ustos dos spammers e da relevân ia
des-ses ustos na redução do lu ro. Por exemplo, aumentar o usto por mensagem
enviada perde o seu efeito à medida que a popularidade do produto vendido
aumenta.
7. O uso da aixa de spam foi estudado. Assim, pode-se inferir omo a utilização
da aixa de spam na bus a de forne edores impa ta o sistema e a e â ia dos
ltros. Como foiper ebido, ouso da aixade spam anulaoganho obtido om a
melhora noltro, quando esse ganho o orre.
8. Estudodoimpa todointeressedousuárionoprodutoofertadoviaspam. Ograu
de interesse exer e um papelfundamental no lu ro que spammers podem obter,
portanto,menor interesse signi amelhor ombate aospam.
9. Investigação da inuên ia, no mer ado, do preço obrado por empresas que não
realizam spam. Como uma investigação omplementar, estudou-se o impa to
ausado pelograu de onhe imento dousuário a er ados preços prati ados fora
do mundo dos spams. À medida que o grau de informação aumenta, o lu ro
de spammers tende a diminuir. Além disso, om o aumento no preço externo,
devido, por exemplo, à di uldade em se obter o produto de forne edores
não-spammers, maior o lu ro dos spammers e maior o ganho dos usuários durante
uma ompra bem-su edida.
10. Apli ação dos resultados no estudo do spam de farmá ias anadenses, um dos
spams mais popularesatualmente[54℄.
1.4 Organização da Dissertação
Esta dissertaçãoéorganizadadaseguinteforma. Ini ialmente,um apítulo ontendoa
introduçãoéapresentado. Neleosobjetivos, ontribuiçõesemotivaçãoparaotrabalho
são des ritos.
A seguir há o apítulo de referen ial teóri o. Nele, as prin ipais estratégias e
té ni as paraseabordar,estudareremediaroproblemadospam sãoestudadas. Além
disso, apresenta des rição de estudos e onmi os, teóri os ou apli adosem iên ia da
omputação, bem omo de modelos esimulaçõesbaseadas em agentes.
O apítulo 3 apresenta o modelo e a simulação realizadas no trabalho. Detalha
as equações utilizadas, seu embasamento, o ambiente de programação do simulador e
seu fun ionamento.
O apítulo4 apresenta os parâmetros utilizadospara a simulação e seu em
basa-mento. Além disso, apresenta os resultados obtidos através da simulação de enários
de interesse.
Por m, o aítulo 5 traz os omentários nais e possíveis direções futuras de
Referen ial Teóri o
2.1 Teorias e onmi as
Atualmente, diversas teorias e onmi as têm sido utilizadas no estudo de spam e de
omportamentos mali iosos, omo o phishing 1
. Essas teorias serão expli adas aqui,
bem omo sua relação om otrabalhoexe utado.
Akerlof[28℄apresentao on eito deMer adode Limões. Elemodelaummer ado
om onsumidorese vendedores emque háassimetriade informação. Mais
espe i a-mente, osvendedores sabemexatamenteaqualidadedoprodutovendido,enquantoos
onsumidores somente podem estimar a qualidade média. Assim, omo o omprador
não pode re onhe er a qualidade do produto, estará disposto a pagar, no máximo,
o preço justo para um produto de qualidade média. Portanto, o omprador estará
disposto a pagar o valor justo para um produto de qualidade média, tanto para
pro-dutos de alta qualidade (que valem mais que o valor pago) quanto para produtos de
qualidade inferior (que valem menos que o preço pago). Se o usuário pagar somente
o valor orrespondente a um produto de qualidade média, isso afastará do mer ado
vendedores om produtos de qualidade superior à média, anal, estariam re ebendo
um valor inferior ao justo para o seu produto. Dessa maneira, a qualidade média dos
produtos ofertados iria diminuir, de res endo também o preço que os onsumidores
estariam disposto a pagar, já que no modelo de Akerlof, o onsumidor sempre sabe a
qualidade média. Diversas interaçõesnesse mer ado levariam opreço a tender azero,
eliminando ompletamente omesmo.
O trabalho de Herley [41℄ se baseia no on eito de Mer ado de limões e em
1
Phishing são mensagens não-soli itadas om o objetivo de realizar uma fraude. Geralmente,
o remetente nge ser outra pessoa ou entidade, om o objetivo de enganar o destinatário e riar
dadossobreospreçosde identidadesedadosde artõesde rédito omer ializadospor
phishers 2
. Ospreçosprati adosnessemer adosãomuitoinferioresaovalordeumitem
dealtaqualidade(espe ialmentedadosde artõesde rédito,quepodemrenderfraudes
de milharesde dólares por artão). A partir disso, os autores inferem que o mer ado
ontém uma fração muito grande de vendedores om itens om qualidade baixa, ou,
até mesmo, vendedores que não possuem qualquer informação a ser vendida. Assim,
apli ando diretamente a teoria de Akerlof, o mer ado de phishing possui a tendên ia
de desapare er.
Emrelaçãoaspam,temostambémumaassimetriade informação,jáqueo
spam-mer sabe quala qualidadede seu produto, enquanto o omprador não tem esse dado.
Porém, a teoria de Akerlof se baseia no fato de que o omprador pode estimar a
qua-lidade média do mer ado. E isso não é verdade nesse mer ado. Um omprador não
sabeaprobabilidadedeserenganadoporumspammer. Então,in orporamosemnosso
modelo esse on eito de Mer ado de Limões e omportamento fraudulento, porém, o
ompradornão sabe a qualidademédia. Eletem uma expe tativa ini iale, através de
informações sobre experiên ias de outros onsumidores e de experiên ia própria, ele
estimaessa qualidademédia. No aso espe í odo simulador,essa qualidademédia é
hamadade onança.
OtrabalhodeCoase[33℄propõeumanovamaneiradese ompreendereavaliaro
impa tode situaçõesde onitoe onmi o. Porexemplo, imaginemosduas empresas,
uma fábri a e uma fazenda de trigo. Suponhamos que a fábri a gere poluição, que
afetanegativamente a fazenda. Geralmente, ade isão mais orrente é taxara fábri a
para que o fazendeiro seja re ompensado. Porém, o trabalho de Coase propõe uma
outraabordagem. Éne essário analisaroganhoparaaso iedadeno asode nãohaver
ataxae ompará-loao aso em queháa taxa. Oganho paraa so iedadeé asoma do
ganhoobtidodevido aosprodutos manufaturadospelafábri amais oganho om oque
foi produzido pelafazenda em ada enário. Assim, nem sempre é proveitoso realizar
ataxação.
Essetrabalhotemapli açãodiretano asoemquestão. Oenviodespamgeraum
gastoextra para todaaso iedade. Porém,uma mensagemspam pode ser valiosapara
algumapessoa. Apartirdessaidéia,osimuladoraser propostoin orporaumamétri a
que avalia o ganho, para a so iedade, om o spam. Na avaliação dessa métri a foram
utilizadosvaloresmédiosparaaperdaque adausuáriotem aore eberspam. Oganho
foiatribuído omo ae onomia nan eiraque ousuáriointeressado fazao omprarum
produto via spam aoinvés de adquirí-lo de outra maneira. Obviamente, o ótimoa ser
al ançado é que esse valorseja o máximo possível.
Outro on eitofundamentaléodeTragédiadosComuns [39℄. Seexistirumaárea
omum da qualtodos possam tirarproveito e ujosdanos serão divididos entre todos,
essa área será exploradaao máximo. Por exemplo, onsideremosum rio om peixes e
pes adores. Cada pes ador, se aumentaro número de redes, onseguirá pes ar mais e
aumentarseu lu ro. Porém,isso ausaráum impa toambiental,queserá dividido por
todos, já que todos os pes adores, não importando a sua taxa de pes a, terão menor
quantidade de pes a no futuro. Nesse aso, é esperado que ada pes ador aumente o
número de redes, já que o ganho om esse aumento supera a perda queele terá (uma
fração doimpa tototal) aoadi ionar essa rede.
Esse on eito éutilizadoparaexpli ar porque ataxade spams tem res ido [58℄.
A idéia é que os re ursos de Internet e infraestrutura para envio de emails é um bem
omum. Então, faz sentido que seja explorado ao máximo, pelos spammers. Também
em [40℄, o problema do phishing é modelado usando esse on eito. A idéia é que os
re ursos nan eiros disponíveis a serem roubados onstituem o bem omum. Então,
aso osphishers explorememex essoessebem omum,eletenderáaa abar,atingindo
uma situaçãoemque adaphisher obteráomínimopossíveldesua atividade. E, omo
des rito anteriormente, essa exploraçãoem ex esso é esperada.
No simulador proposto, esse on eito foi usado para justi ar a suposição de
que existem spammers fraudulentos. Assim, omo há assimetria de informação, é
esperado que surjam pessoas que ajam de maneira desonesta. Anal, existe um bem
omum(re ursosdepoten iais ompradores)quepodeserfa ilmenteexploradoatravés
de atividade fraudulenta. Ademais, o peso de uma fraude é dividido por todos os
spammers, quer sejam fraudulentosou não. Porém, não podemos inferirquala fração
de omportamento fraudulento.
2.2 Té ni as Anti-spam
Devido ao fato de o spam ter se tornado um dos grandes problemas que assolam a
utilização daInternet, diversas té ni as foram riadas e desenvolvidas om a intenção
de ontê-lo. Esta seção tem por objetivo expor,brevemente, asté ni as mais usuais e
difundidas de ombate aospam.
2.2.1 Restrições ao envio do spam
Uma das maneiras mais usuais de envio de spam é através de máquinaszumbis.
Essas máquinas,de usuários omuns, são infe tadase passam aser ontroladas
exter-namente, enviandospams sem queodono damáquinatome onhe imentodisso. Para
ombater essaatividade,oupelomenosabrandá-la, Xie[53℄ sugereumamaneirade se
identi artaismáquinas. Aoidenti á-lasseriapossívelbloquearotráfego geradopor
elas, impedindoo enviode spam.
OestudodeGoodman[46℄tratadasituaçãoemqueospammer utiliza ontas
gra-tuitasemprovedoresde email legítimospara oenviode spam. Osautoresdemonstram
queaestratégia adotadade restringirolimitemáximodiáriode mensagens(oHotmail
restringeessevalora100emailspordia)não gerabons resultados. A justi ativapara
issoé queseria fá il riar novas ontas e utilizá-lasaté olimite denido.
Aquele trabalho avalia também a utilização de Human Intera tive Proofs
-HIPs(prova de que a interação é feita por um humano). Um exemplo omum de
HIP é o CAPTCHA, que requisita que usuários identiquem palavras ou onjuntos
de ara teres para provar que não se trata de um pro esso automatizado. O trabalho
mostraque osHIPs usados durante o adastro da ontade email não geramqualquer
resultado ontrao spam, já que o usto e onmi o de se realizarum adastro manual
e, em seguida, utilizar a onta para o envio de spam, é irrisório. Os autores também
avaliam a estratégia de se utilizar um HIP a ada email enviado. Essa abordagem é
narrada omo bastante des onfortável para o usuário omum, então avaliam a idéia
de se obrigar a realização de um HIP a ada n mensagens. Caso o usuário responda
x HIPs orretamente, não seria mais ne essária qualquer ação espe ial do usuário ao
enviar emails. Noartigo,essa estratégiasurte tantoefeitoquantoarealizaçãode HIPs
a ada email enviado.
Por m,o artigoasso iaasua estratégia de HIPs aoesquemade re lamações. A
adaemail re ebido,seria ofere idoaodestinatário umainterfa e simplespara indi ar
aso o email seja spam. Assim, o servidor teria ondições de identi ar mais
rapida-mente ospammer e an elar a onta,obrigando-o novamente a riá-lamanualmente.
Essas estratégias bus am di ultar o envio de emails por parte dos spammers.
Entretanto, omoavaliadoem[56℄,spammers também ontratamservidores,em
diver-saspartesdomundo,quesededi amaoenviodespam. Alémdisso,o ombatedoenvio
de emails por parte de servidores gratuitos pre isa da adesão de todos os servidores,
poisospammer pode simplesmentemigrarde um que tenhaadotadoa proteção,para
outroque não aadote. Con luindo,o ombate a máquinaszumbisrequer a análisedo
2.2.2 Bla klists e Whitelists
He kerman e S hwartz [45; 62℄ apresentam uma visão geral sobre a riação de listas,
espe ialmenteparaauxiliarotrabalhodos ltros. Umadas possibilidadesdifundidasé
autilizaçãode whitelists, quelistamosusuáriosouhosts nos quaisse ona omo
não-spammer. Assim, qualquer mensagem de alguém nessa lista é re ebida diretamente,
sem qualquer veri ação peloltro, evitando-se os falsospositivos.
Outra solução pode ser listar os usuários onsiderados spammers, em uma
bla -klist. Essa té ni a é fa ilmente ontornada por emails forjados. Diversos trabalhos
[45; 44; 62℄ sugerem estratégias para identi ar o emissor. Algumas das té ni as
en-volvemassinaturas riptográ aseoutrasalteraçõesnoproto oloSMTP paraqueseja
ne essária aidenti açãodo remetente.
Alémdisso, existemtambémbla kholes,quesão listasde servidores onsiderados
fontes de spam e dos quais não se a eitam quaisquer mensagens. Serjantov [64℄ há
um estudo e onmi o detalhado que apresenta diretrizes para a de isão de in luir um
servidor suspeito na lista. O servidor é tratado omo suspeito quando há mensagens
legítimas e spams sendo re ebidos a partir desse servidor. O dilema, nesse aso, é
de idir in luirum servidor suspeito eperder as mensagenslegítimasou não in luí-loe
ontinuar a re eber spam.
Existem tentativas visandoa riaçãode listas de identi açãode servidorespara
se evitar que emails sejam enviados forjando-se o servidor remetente. Essa estratégia
tentaassegurar queumamensagem,dita origináriadoservidorX, realmentepartiudo
servidor X. Para tal,foram riadosvários padrões[31; 44℄ tais omo DomainKeys [9℄,
proposto pela Yahoo eo SenderID [23℄,pelaMi rosoft.
2.2.3 Filtros anti-spam
A té ni a mais usual de ombate ao spam é a utilizaçãode ltros, que impedem que
os spams al an em a aixa de entrada do usuário. O grande questionamento dessas
té ni as, além, laro, de sua e á ia em barrar mensagens que sejam spam, é o de se
evitar falsos positivos. Os falsos positivos são as mensagens, que embora não sejam
spam, são lassi adas omo tal erroneamente, levando o usuário a perder um email
legítimo poten ialmente importante. Infelizmente, os índi es atualmente al ulados
para falsos positivos pressupõem que toda mensagem omer ial seja spam, ignorando
a possibilidade de o usuário desejar re ebê-la.
He kerman e S hwartz [45; 62℄ apresentam diversas té ni as para ltragem de
Evidentemente, essa té ni a não fun iona ontra novos spams, nem ontra variações
aleatórias no orpo dos spams já onhe idos, dependendo da função de omputação
utilizadapara gerar essas variações.
Outra té ni a é a utilização de algoritmos de aprendizagem de máquina, mais
espe i amenteatravésda utilizaçãodo naiveBayes. A idéia é onstruir uma rede de
palavras e, para ada palavra, interpolar através de uma base de treinamento qual a
probabilidadede uma mensagem ser spam dada a presença daquela palavra no orpo
dotexto. A abordagem atualmenteé uma das mais populares, porém os spams mais
atuaise omplexostentamutilizarmenospalavrasperigosas(free, money, et .) emais
palavras onsideradas boas (hi, oi, et .) para tentar enganar os ltros. Alguns ltros
maisre entes têm bus ado montar redesutilizando, também, ombinaçõesde palavras
para melhorara pre isão. Por exemplo, emmuitos spams a palavra agora pode estar
presente, mas elaapresenta perigo apenas seestivera ompanhada dapalavra ompre,
nasentença ompre agora.
Ainda,algunsltrospossuemmodelosde ompressão,umparaspam eoutropara
não-spam. Uma mensagem é omprimida om os dois modelos; se essa mensagem for
melhor omprimida om o modelo de spam, então ela é lassi ada omo spam; aso
omprimamelhor om onão-spam, então é ditanão-spam. Osmodelos de ompressão
podem ser extremamente omplexos, levando a ltros e ientes, algumas vezes mais
e ientes que osbaseados emnaive Bayes [45℄.
Em [42℄ é apresentada uma estratégia ombinada de diversos algoritmosde
ma- hinelearning paraadete çãode spam. Ae á iafoide 99% omumataxade0.025%
de falsospositivos.
Os spammers, para ombater essas estratégias, têm bus ado ada vez mais que
suas mensagens se pareçam om mensagens legítimas. Assim, osltros pre isarão ser
ada vez melhores e mais treinados para barrar e distingüir entre spam e não-spam.
Anal, à medida que os spams se pare erem mais om mensagens legítimas, maior a
probabilidade de que uma ferramenta automáti a tanto deixe um spam passar omo
legítimaquanto barre um email legítimo. Além disso, a utilização de ltros onsome
muitos re ursos dos servidores de email, já que o pro esso de dete ção de spam é
omplexoe ustoso.
2.2.4 Abordagem e onmi a
Vários trabalhos fo am nas relações e onmi as para inibir o spam. Anal, aso o
Os trabalhos [45; 44; 62℄, des revem e analisam as abordagens que bus am
adi- ionar um usto xo, muito baixo, por email enviado. Esse usto seria al ulado de
maneira a trazer pou o nus ao usuário legítimo, que envia pou as mensagens, e um
usto altopara um spammer, queenvia milhõesde emails.
Alémdautilizaçãodedinheiroedepósitodireto,étambémsugeridauma
alterna-tiva[44; 45℄. O usto seria omputa ional, ou seja, ao invés de pagar nan eiramente
pormensagem enviada,o omputadordousuárioresolveria umatarefa, queiria
reque-rer um erto tempo de pro essamento. Assim, um usuário legítimo, enviando pou as
mensagens, não teria qualquer problema em forne er esse tempo de pro essamento
para o envio do email. Por outro lado, o spammer, ao enviar milhões de emails, no
menor tempopossível,teriaprati amentetodootempode pro essamentodamáquina
o upadopela resolução dessas tarefas.
Ostrabalhos[29;66℄apresentamumar abouçoparainviabilizare onomi amente
o enviode spams. Cada usuáriode email determinariaseu usto de atenção: um valor
monetário quedeterminariaum montanteque ompensariaasperdas desse usuárioao
abrir um email que seja spam. Um usuário A deseja enviar um email para B. Se A
onhe er B (se A estivernawhitelist de B) então amensagem ére ebida diretamente.
Caso ontrário, Benviapara Aum desao, ontendooseu ustode atenção. A,então,
pode ignorar esse desao e não ter sua mensagem entregue, ou A pode depositar um
título monetário om o valor de atenção de B, em nome de B e enviar novamente o
email. Assim,B re eberia oemail de A.Aoabrí-lo,poderiade idirseoemail éounão
spam. Se de idir que é spam, re eberá odinheiro orrespondente ao título depositado
porA. Caso ontrário,A re eberá seu dinheirode volta.
S he hter [61℄ aborda a questão de ris o de ataques remotos. Entretanto, sua
modelagem de lu ro om um ataque, que leva em onta o ris o de ser des oberto,
aperfeiçoa as fórmulas e onmi as mais usuais para modelagem do spam, que não
in luem esse usto devido ao ris o.
Krishnamurthy [49℄ apresenta uma abordagem que utiliza selos, que são
om-prados, no envio de emails. O usuário A deseja enviar um email para B. A tem um
onjunto de selos já previamente omprados de uma entidade uni ada onável. A,
então, anexa umselo em suamensagem eenviaaB. Bavaliaamensagem. Se
onside-rarque éum spam,noti aisso. Caso ontrário,A re ebeseu selo de volta. Assim, se
Ativermuitasmensagenstaxadas omospam, rapidamente arásemselosepre isará
omprar novos selos. Se não for um spammer, nenhuma mensagem será taxada omo
spam enun a pre isará omprarnovos selos. Oartigotambémsugere omo implantar
Yang [56℄apresenta estimativas do usto de envio de spam. Esse trabalho in lui
a ompra de listas de emails, bem omo do aluguel de servidores para o envio nessa
estimativa. Além disso, apresenta também uma estimativa de qual a fração, dentre
todas os emails enviados, pre isam ser respondidos para que o spammer tenha lu ro.
Porm, arma,de maneirapou o embasada,que o spam está fadado a um m breve
eque osspammers têm migrado para atividadesmais lu rativas, omophishing .
A maior ríti a ontra essas abordagens é a di uldade de implantação. Como
argumentado em [56; 45; 62℄, para que o sistema setorne robusto, eledeve ser
abran-gente o su iente para que um usuário possa optar por não re eber email da maneira
usual, sem arris ar perder emails importantes. Esses sistemas impõem modi ações
drásti as na maneira omo os emails são enviados. Novas organizações seguras
pre- isariam ser riadas, bem omo o próprio proto olo SMTP pre isaria ser modi ado.
Issoé largamenteapresentado omo inviável napráti a.
Umsistema hamadoCentMail[7℄en ontra-seemfasedeimplantação. Osistema
realizará o ontrole da emissão e pagamento de selos para o envio de mensagens. O
sistema fun iona da mesma maneira que o proposto por Krishnamurthy [49℄, porém,
ao invés de o pagamento por selo ser realizado à empresa erti adora, ele será feito
naformade doaçãoaumainstuiçãode aridade. Assim, espera-se in entivaraadoção
ini ial, já que o pagamento representa uma doação e a divulgação da entidade que
re ebeu a doação noemail enviado.
2.3 Ferramentas de Marketing Eletrni o
Alémdosdiversosltrosanti-spamexistentes nosdiversosservidoresdeemail,existem
tambémferramentas omer iais que pro uram ata aro problema dospam.
OGoodMail[14℄éum sistemaparafa ilitaromarketingdire ionado. Aempresa
a eita apenas adastros de empresas que enviem emails para usuários que se
adas-traram ativamente para re eberem o email. Além disso, a empresa anexa ao email
enviado por seu esquema uma opção de re lamação ontra o email quando o usuário
o onsiderarspam. Se uma empresa atingiruma taxaaltade re lamações, seus emails
não poderão mais ser enviados pelo GoodMail. Em tro a, o sistema ofere e a ordos
om diversas empresas de email, que olo am os emails enviados peloGoodMail om
í ones diferentes na aixa de email do usuário e as mensagens não passam peloltro
anti-spam, garantindo entrega in lusive de emails ompostos apenas por imagens. A
OBoxbe[3℄éumprovedordeemail queexigeopagamentoparaqueuma
mensa-gemsejare ebida, asooremetentenãoesteja nawhitelist dodestinatário. Partedesse
pagamentoiriadiretamenteaousuário. Alémdisso,existe um adastroemqueo
usuá-rio informa suas preferên ias. O Boxbe também a eita a ordos om spammers. Caso
desejem, podem ter a esso ainformaçõesannimasdas preferên ias de ada usuário e
determinar para quais deseja enviar sua propaganda,pagando tambémpeloenvio.
Tem surgido o on eito de Admediary [38℄. Admediary é uma empresa que se
responsabiliza em aproximar onsumidores interessados e os vendedores apazes de
ofere er os produtos nos quais os onsumidores se interessam. Assim, usuários se
adastramvoluntariamentejuntoaomediadoreinformamseusinteresses. Omediador,
então, é pago por anun iantes para entregar suas ofertas aos usuários que possuem
interesse. Esse modelo de negó ios foi implementado em [8; 10; 12; 15; 16℄. Alguns
desses serviços ofere empagamentoaousuárioporre eberemails. Obviamente, essa é
uma té ni a questionável, já que,apesar de aumentar a base de usuários adastrados,
pode diminuira habilidadede en ontrar usuáriosinteressados, ouseja, pode di ultar
o targeting.
2.4 Cara terização do spam e modelagem através
de redes so iais
Existeuma diferençagrandeentre o omportamentogeradoporum endereçode email
utilizado por um spammer e o usado por um usuário legítimo. O endereço de email
utilizadoporumusuáriolegítimotemumapessoarealportrás, om ír ulosdeamizade
epadrõesde omportamentohumanos,enquantooemail deumspammer temportrás
um s ript de envio de mensagens.
Bus ando separar essas diferenças, Gomes [37℄, realizou uma análise de diversas
métri as que diferen iam entre spam e email legítimo. Por exemplo, existe uma
di-ferença no tamanho médio das mensagens enviadas, no número médio de emails no
ampo to e . Os autores também analisam o período da semana e a hora do dia,
e des obre que os emails legítimos são mais prováveis de serem enviados de segunda
a sexta e no horário omer ial, enquanto o spam permane e prati amente onstante
durante os diversos períodos. Além disso, existem laras relações so iais de amizade
nos emails legítimos. Exempli ando, se um usuário legítimoA envia uma mensagem
para B, e B já enviou mensagem para C, existe uma probabilidade grande de que A
ébaixa.
Calais [32℄ utiliza té ni as de mineração de dados para separar mensagens spam
em ampanhas. Após essa separação, avaliadiversas informaçõese omparaas várias
ampanhasobtidas.
Pli e [55℄analisaoproblemadospam segundoaópti ade re ursos omunitários.
Assim, por exemplo, a rede é um re urso omunitário, que sofre abuso do spammer.
Alémdisso, a atenção do usuário tambémé onsiderada re urso omunitário, sendo a
atençãootempoqueédedi adoàleituradeemails. Dessaforma,osautoresapresentam
que se um usuário re ebe mais emails do que pode ler, esse re urso (atenção) foi
sobre arregado. O texto analisa emails omer iais e on lui que não há res imento
na taxa de envio de emails desse tipo, ou seja, arma que o problema do spam não
tem apresentado uma tendên ia de piorar. Porm, on lui que os spams apresentam
sim ara terísti as temporais, assim, os spams também são mais frequentes durante
os dias de semana que durante os ns de semana, o que o ontrapõe diretamente à
on lusãodeGomes[37℄. Importantemen ionarqueambosutilizambasesdedadosde
universidades, sendo que [37℄ utilizou a base, om duração de oito dias, de emails da
UFMGe[55℄ utilizouabase de emails daAlpha StateUniversity om duração de 366
dias. Talvez essa diferença possa ser expli adapelos tamanhos das bases investigadas.
Em[63℄,éapresentadaumaferramentabaseadaemredesso iaisquebus areduzir
o número de falso positivos em ltros anti-spam. Para tal, utiliza um esquema de
erti ação. Um usuárioA erti a um usuárioB omo não spammer, primariamente
por onhe ê-lo. Então, se B quiser enviar email paraalgum dos amigos de A (pessoas
que erti am queA não seja spammer),ele poderá fazê-lo, sem queseu email sequer
passepeloltro.
A grande questão quese olo a através dessas abordagens é a ne essidade de se
ter um onhe imento grande da rede para se realizar boas inferên ias. Por exemplo,
um servidor apenas om onhe imento lo al, pode ter onhe imento de A e B em seu
servidor. Mas se A envia pelaprimeira vez um email para B e eles ompartilhamum
amigoem omum, C, emoutro servidor,então nãoseria possívelinferirqueambossão
legítimoseque a omuni ação pode o orrer.
2.5 Investigações e Meios Legais
Outralinha de ombateaospam dizrespeitoàbus a,investigaçãoepro esso riminal.
se identi ar o ulpado já que, obviamente, os spammers se esforçam em manter sua
identidadeemsegredo. Porexemplo,AlexPolyakov[2℄,responsávelpordiversos rimes
virtuais, bem omopeladisseminaçãodospam MyCanadianPharma y,é onhe ido
apenas por seu pseudnimo. Apesar de sua ação onstante, ainda não existem dados
sobre sua real identidade. O segundo é o aráter interna ional das operações. Um
spam re ebido emum paíspodeter sidoprovenientede umsegundo paíseenviadopor
um idadãode um ter eiropaís. Isso tornanão sóa des oberta dos responsáveis mais
ompli ada, omo também impõe barreirasà puniçãodos riminosos.
Apesar disso, avanços foram realizados. Muitas informações sobre spammers e
spams onhe idos estão disponíveis [26; 21; 1; 6℄. In lusive, há organizações omo
a spamhaus [25℄ que bus a ativamente informações sobre spammers, na tentativa de,
posteriormente,identi á-losepro essá-los. Asinvestigaçõesapresentamomodo omo
asorganizaçõesdespammers operam,aligaçãoentrespammers eorganizaçõeseosatos
riminososrealizados. Essesavanços ulminaramem asosfamosos, omoapuniçãode
spammers notórios omo Leo Kuvayev e a organização por trás do SanCash [19; 22℄.
Também ulminounadesativaçãodaM Colo[50℄,servidor asso iado ageraçãode um
alto volume de spam.
Outro avanço importante nessa linha foi o ato ameri ano CAN-SPAM [4℄. Esse
atoestipulaadeniçãodoqueéounãospam,fa ilitandoojulgamentoe riminalização
do spam. O ato onsidera spam omo sendo toda mensagem não-soli itada que não
ontenha uma forma de o destinatário se des adastrar da listade envio e nun a mais
re ebermensagensdoremetente. Esseato re ebe ríti asporlegalizaroenviode
men-sagens não-soli itada permitindo que qualquer empresa possa enviar uma mensagem
para qualquer endereço eletrni o. Basi amente, ao invés de ousuário demonstrar
in-teresseemre eberumamensagem,elepoderáprimeirore eberumamensagem,perder
seu tempo omela, paradepoisdemonstrardesinteresseenãomais re ebermensagens
do remetente.
2.6 Modelagem de spam
Amaiorpartedosestudosrela ionadosaspam tem omoobjetivodete tá-loe
eliminá-lo. Pou os estudos e trabalhos foram realizados nosentido de se modelar oproblema,
om oobjetivomaiorde se ompreender asituaçãoeavaliarestratégias. Esses estudos
são relevantes já que as estratégias de dete ção e ombate ao spam se baseiam em
ltroapós sua implantação. Anal, spammers modi arãoseus spams om o objetivo
de enganar esse novo ltro. Portanto, ompreender asituaçãoe oimpa to de diversas
estratégias pode ser valioso na de isão de qual a melhor estratégia a se utilizar, quer
sejaum ltroou não.
Ostrabalhos[57; 58;55℄ aminharamnesse sentido. Nelessão propostosmodelos
de simulaçãopara ospam. São modeladosdestinatáriose spammers. Os destinatários
podem re eber tanto spam quanto email legítimo e irá ler uma erta taxa de emails
por dia. Caso a taxa de hegada de emails seja muito alta, ele sofrerá de sobre arga
de informaçãoe deletará, sem qualquer onsideração,uma erta quantidade de emails
re ebidos. Os modelos também apresentam o on eito de falso-negativo, não omo a
taxadespam queoltropermitepassar,mas omoataxadeemailsinúteisqueoltro
entrega. Outra ara terísti a é que à medida que os spammers aumentam seu lu ro,
o número de spams gerados também aumenta na modelagem. Além disso, os
desti-natáriostêm uma probabilidade de ompra, aso leiam um spam. Essa probabilidade
é independente e xa para ada spam re ebido. Por m, o modelo trata o problema
através de valores médios efórmulas fe hadas.
Esta dissertação se baseia nesses trabalhos mas, ao invés de seguir um modelo
de valores médios, ada spammer e ada destinatário é modelado. Assim, é possível
modelarmelhoro pro esso de ompradousuário ein luir efeitos omoaprendizagem,
onançaefraude. Também,ataxade falsos-negativosé modelada omo sendoa
pro-babilidadede uma mensagem spam ser entregue,não importandoseelaserá relevante
ounão. Anal,osltros,nagrandemaioriadas vezes, nãofazemessadistinção,
distin-guindotão somenteentre spam enão-spam. Outradiferença importanteéem relação
àprobabilidadede ompra. Nosmodelosmen ionados, para ada mensagemre ebida,
uma erta fração delas resultará em vendas. Em nosso modelo, esse valor não é xo.
Dessamaneira,podemosmodelar on orrên ia, onançaeore ebimentode múltiplos
spams para omesmo produtoe forne edor, queafetam essa fração. Portanto,aoinvés
de modelarasvendas omo umafração das mensagens, preferimosmodelaro interesse
dousuário omo uma probabilidade. Daí, ada usuário tem uma probabilidade de se
interessar por um produto; se ele irá omprar ou não é uma de isão em que outros
fatores,que podem variar aolongo do tempo, interferem.
2.7 Modelagem Baseada em Agentes
A grande vantagem dessa abordagem é que, ao invés de se modelar o sistema omo
um todo, épossívelatribuir omportamentosrelativamentesimplesparaosagentes ea
interaçãoentreagentesdáorigemafenmenosmais omplexosedifí eisdesemodelar.
Aose realizar uma modelagem por agentes, a primeiraentidade a ser riada é o
agente. Diversostiposdeagentespodem oexistir. Cada lassedeagenteapresentaseus
próprios omportamentos, que,in lusive,podemserrespostasafenmenosexternosou
ações de outros agentes. A forma omo osagentes se rela ionamtambémé modelada.
Assim, é possivel a modelagemde aprendizadodos agentes e outros omportamentos,
uja modelagemanalíti aseria extremamente ompli ada.
Hádoisestudosmuitoimportantes emrelaçãoamodelagembaseada emagentes.
O primeiro[65℄ apresenta uma revisão a er a dos modelos e problemas abordados em
e onomia, utilizando essa té ni a. O segundo [52℄ apresenta um modelo para spam.
Porém, esse trabalhofo anas relações so iais ede amizade entre os diversos usuários
de email. Assim, oestudopartedabasede dadosdos emailsdosfun ionáriosdaEnron
e, a partir daí, modela, usando agentes, a maneira omo as relações entre os diversos
Modelo e Simulador
3.1 Modelo
3.1.1 Visão Geral
Em linhas gerais, o modelo pode ser des ritoda seguinte maneira. Ospassos aseguir
mostram aordem das ações modeladas.
1. Os spammers enviammensagens spam para todos os usuáriosdo sistema.
2. Essas mensagens hegamaoservidordodestinatário. Elaspodemserbloqueadas
automati amentepeloMailTransferAgent(MTA) 1
.Nomundoreal,essebloqueio
o orre devido a erros na mensagem, bla klists e outros indi adores fortes que
indi am que uma mensagem é spam. No modelo, a situação é modelada omo
uma probabilidadede amensagem spam ser sumariamentere usada peloMTA.
Spams rejeitados pelo MTA sequer serão onsiderados pelo ltro e nun a serão
entregues sequer à aixade spam.
3. Mensagens não rejeitadas pelo MTA são en aminhadas ao ltro. Seguindo uma
probabilidadede falsos-negativos,oltro podeentregar mensagensspam à aixa
de entrada dousuário. As outrasmensagens são en aminhadas à aixade spam.
4. O usuário, então, irá a essar sua aixa de email. Ele pode possuir interesse no
produto omer ializado via spam. Esse interesse é determinado por uma
dis-tribuição de probabilidade, sendo que, ada usuário possui han es de, a ada
leitura, ter interesse ounão noproduto.
1
MailTransferAgenté umpro essoouapli ação que transfere uma mensagemre ebida de um
5. Caso o usuário não tenha interesse, todas asmensagens são apagadas.
6. Casoousuáriopossuainteresse,eleiráa essarsua aixadeentradaparaes olher
os forne edores. Dessa aixa, ele sele iona, aleatoriamente, quais spams irá ler,
até um limite determinado.
7. Se não houver spams su ientes para ompletar o limite,o usuário poderá
a es-sar sua aixa de spam para ompletar o limite. Ele somente irá a essá-la em
experimentosespe í os, omo será detalhado naseção de resultados.
8. De posse dos spams queserão lidos,e de informaçõessobreo preçode um
forne- edor externo (não-spammer)elede idiráde quem omprara mer adoria. Caso
ompre doforne edor externo, nenhum spammer será pago.
9. Se a ompraforrealizadadeum spammer ousuáriorealizaopagamentoeespera
pelamer adoria, que poderá ser entregue orretamenteou não. Sempreque um
produto é entregue in orretamente há uma probabilidade de o usuário per eber
que foi enganado e de aprender e inuen iar outros om seu aprendizado. O
pro esso de ompraserá expli adoem3.1.2. Amaneira omoousuárioes olheo
forne edorseráexpli adaem3.1.2.2. Aforma omoousuárioaprendeeinuen ia
outros será des rita em 3.1.2.3.
3.1.2 Pro esso de ompra do usuário
3.1.2.1 Etapas do pro esso de ompra
O artigo [60℄ des reve as etapas de um onsumidor no seu pro esso de ompra. A
primeira etapa é a de dete ção de ne essidade, na qual o onsumidor per ebe suas
ne essidades. Em seguida, na próxima etapa, o poten ial onsumidor des obre qual
o produto que atenderia a essa ne essidade. Após isso, pre isa pesquisar e de idir de
qualforne edor irá omprar o produto es olhido. Por m, faz um balançoem relação
asua ompra e aavalia omo bem-su edida ounão.
Omodelodesta dissertação onsidera asduasprimeirasetapas omouma
proba-bilidade. Cadausuáriopossuiumaprobabilidadedediagnosti arumadadane essidade
ede apontaro produtovendidovia spam omo sendo adequadoaatender seus
objeti-vos. Importanteressaltar queháapenas um tipode produto eque todos osspammers
domodelo vendemexatamente omesmo produto.
informa-ele pode julgar que é melhor omprar nesta empresa, não gerando qualquer re eita a
qualquer spammer.
No pro esso de de isão, o usuário al ula a utilidade ( omo des rita na seção
3.1.2.2), al uladapara adaspam lidoeparaoforne edornão-spammer. Paraes olher
osspams lidos,ousuárioa essaasua aixadeentrada esele iona,aleatoriamente,um
número denido de spams. Então, al ula a utilidadepara ada um dos forne edores
presentes nessa amostra de spams. Caso não haja na aixa de entrada mensagens
su ientes paraatingironúmerode spams lidos,ousuáriopodere orrer àsua aixade
spam,ousimplesmenteignoraresselimiteelertodasasmensagensda aixade entrada.
A de isão de re orrer ou não à aixa de spam depende de uma variável nomodelo (o
impa to daleitura ounão da aixade spam será avaliada naparte experimental).
Por m, o usuário adquire o produto do forne edor de maior utilidade e, após
isso, realizao balançoa er a da transação realizada. Caso ompredo forne edor
não-spammer, nenhum pro esso é realizado, já que esse forne edor é onsiderado sempre
honestoeatransaçãosemprebem-su edida. Caso ompredeumspammer,atransação
pode ser mal-su edida, interferindo na onança dousuário (vide seção 3.1.2.3). Vale
ante ipar a informaçãode que ousuário sevale de seus onhe imentos anteriorese da
onança no ál uloda utilidade,e, onsequentemente, na es olhado forne edor.
3.1.2.2 Cál ulo da Utilidade
A função de utilidade foi baseada em [34℄. A diferença é o a rés imo do fator
d
×
#spams
que representa o quanto o usuário pondera negativamente um forne edor àmedida que re ebe mais spams em sua aixa de entrada. spams na aixa de spam
não são omputados. Basi amente, esse fator onsideraa sobre argade informaçãodo
usuário, jáque, quantomaior onúmerode spams, menorserá a atençãoqueo usuário
irá destinar aos mesmos, aumentando a probabilidade de des artá-los sem qualquer
investigação. Além disso, usuários geralmentenão gostam de re eber spam, portanto,
quanto maioro número de spams mais ousuário irádesejar punirtodos osspammers,
e, analogamente, re ompensar um não-spammer(no aso deste modeloexiste um
não-spammer).
A função é dada a seguir, para ada forne edor
i
(spammers uja mensagem foi lida epara o não-spammer):a
× Conf iancai
representaainuên iada onançanodadoforne edor, ujautilidade está sendo al ulada. A onança varia de 0 a 1, sendo que 1 signi a ompletaonança e0 representades onança total.
b
×
ln(P recoi)
representa a importân ia do preço para o omprador. Em suma, representa o quanto diminuir o preço é atrativo ao usuário. O logaritmo é utilizadoporquestões de es ala emrelação aopreço doproduto.
c
× Conf ianca
i
×
ln(P recoi)
representa a sensibilidade do usuário em relação a variações no preço. A idéia é o quanto o usuário estaria disposto a pagar, a mais,por uma mar a ou forne edor onhe ido e onsiderado onável em detrimento de
outro forne edor, de menor preço e menos onhe ido. Como pode ser per ebido, essa
par ela difere da ponderação simples da onança, anal, também onsidera o preço
doproduto, sinalizandoa por entagem amais,nopreço, queousuárioestá disposto a
pagarem um produto de forne edor onável e onhe ido.
Porm, omofoiante ipado,
d
×
#spams
representaoquantoautilidadede um spammer de res e a medida que o usuário é sobre arregado om spams em sua aixade entrada.
Osparâmetrosa,b, ,dsãoospesospara adapar elaqueformaautilidade. Dado
queo objetivo não é onseguir valores absolutos de utilidade,e simrelativos,já que o
pontoées olheroforne edordemaiorutilidade,osparâmetrosa,b, ,dforames olhidos
arbitrariamente. Durante a fase experimental, a alteração destes parâmetros, ou seja,
amaneira omo ada par ela dafórmulaé ponderada, será avaliada.
3.1.2.3 Cál ulo da onança
O ál ulode onançapre isa serfeitoemdoismomentosdistintos. Oprimeiroo orre
quando o usuário já realizou pelo menos uma ompra om o dado spammer. O outro
momentoo orre quando o usuáriopre isa inferiro quanto ona nospammer no
mo-mentodaprimeirainteração. No asodovendedornão-spammer,a onançaésempre
1(o quesigni a onança máxima).
Quando o usuário já realizou alguma transação om um dado spammer, a
onança dousuárionesse spammer édada pelaequação:
Conf ianca
i
=
Conf ianca
i,anterior
+
(1 − Conf iancai,anterior)
×
h
1 −
1
#transacoesi+1
i
transação asoaprimeiratenhasidobemsu edida. Então,afórmulapropostasomente
ini ia o ál ulo da onança a partir da segunda interação. No nosso aso, logo após
a primeira transação, a onança já pre isa ser al ulada, anal, esse valor irá ser
de isivo para o usuárioes olher se haverá outra transação om o mesmoanun iante.
Expli ando a fórmula.
#transacoesi
representa o número de transações, onse- utivas, onsideradas pelo usuário omo bem-su edidas om o vendedori
. Portanto, se o usuário onsiderar uma transação omo mal-su edida, o#transacoesi
retorna a zero.Conf ianca
i,anterior
representa a onança do usuário no spammer antes de ini- iar a sequên ia de transações bem-su edidas. Assim, aso somente tenham o orridotransações bem-su edidas, esse valor é igual à onança do usuário antes de qualquer
ontato. Casoa onançatenhasidoquebrada,esse valor orrespondeà onançaapós
a traição.
Porém, a fórmula a ima apenas atua enquanto o usuário realiza ompras que
onsidera bem-su edidas om o spammer. Quando o usuário é traído, um fator é
multipli ado à onança atual e o valor de
#transacoesi
retorna a zero. Assim, a nova onança é uma fração da onança original antes da traição. Vale men ionarque essa nova onança, após a apli ação do fator, será a nova
Conf iancai,anterior
, usada nas equações aso o usuário de ida se rela ionar novamente om o spammer.Assim, em aso de quebra a onança:
Conf ianca
i
= Conf iancai,anterior
= Conf iancai
∗ f ator
Caso não tenha havido qualquer ontato, ousuário pre isade idir o seu grau de
onança no spammer. Para tal, o usuário utiliza o onhe imento adquirido por ele
nas omprasanteriores de outros spammers. Alémdisso, o usuáriotambémsevalede
dados sobre o número de ompras bem-su edidas e mal-su edidas de todos os outros
usuários em relação a esse spammer. A utilização de informações obtidas por outros
usuários equivale a pesquisar sobre o dado spammer, já que o usuário não o onhe e.
A fórmulageradapara tal éa seguinte:
Conf ianca
i
=
1 + g × (ComprasSucesso
− ComprasF racasso) + h ×
(ComprasExti,Sucesso
− ComprasExti,F racasso)
Na fórmula anterior, o valor da onança ini ial é igual a 1, ou seja, o usuário
ona egamente no forne edor.
g
eh
orrespondem a pesos dados a importân ia de ada uma das fontes de informação.g
éo peso para o omportamentoobservado pelo usuário eh
é o peso para informações obtidasde opiniõesdos outrosusuários. Opri-meiro parêntesis representa o ganho do usuário em relação às ompras de spammers.
Caso o ganho seja positivo, ou seja, ele a redita ter obtido maior número de
transa-ções bem-su edidas que mal-su edidas, a onança aumentará. O segundo parêntesis
orresponde à opinião que a omunidade tem do dado spammer. Basi amente, todas
as ompras feitas desse spammer são ontabilizadas e o ganho é al ulado.
Impor-tante frisar que é o usuário que omprou que avaliaa ompra omo bem-su edida ou
não, portanto, a probabilidade de dete tar uma fraude é ru ial na onabilidade da
fórmula. A probabilidadede dete tar uma fraude será expli ada em3.1.3.
Aequaçãoa imautilizavaloresabsolutosemrelaçãoaonúmerode ompras
bem-su edidas ou não. Assim, o valor da equação pode ser maior que 1 ou menor que 0.
Nos asos em que é maior que 1 o valor é transformado em 1; nos asos menor que 0
osvalores são onsideradosiguais a 0.
3.1.3 Comportamento Fraudulento
Omodeloprevê apossibilidadede avaliarafraude porpartede spammers. O produto
ofertado pode não ser entregue após o pagamento, ou, quem sabe, pode ser entregue
um produto que não atenda às espe i ações originais. Por exemplo, em asos de
medi amentos, ao invés dadosagem orreta,pode ser entregue um pla ebo.
Para modelar esse omportamento, foi adi ionada a probabilidade de um
spam-mer não entregar o produto adequado. Quando o produto orreto não é entregue, o
spammer,nomodelo,nãopossuiqualquer gasto omomesmo. Assim, nesse aso,toda
a re eita orresponde a lu ro. Como a fraude é modelada omo uma probabilidade,
omesmo spammer pode, aleatoriamente, emalguns asos entregar o produto orreto,
e,em outros, não fazê-lo. Essa de isãode modelar omo uma probabilidade se baseia
noartigo [43℄. Nele, o autor fez quatro en omendas de Viagra ao onhe ido spam da
Canadian Pharma y [6℄. Para todas as en omendas, o autor re ebeu itens
orrespon-dentes. E, em apenas uma das entregas, o produto não ontinha o prin ípio ativo
orretodo medi amento. Portanto, um mesmo spammer, ou uma mesma organização
de spammers, pode, em alguns momentos entregar o produto orreto, e, em outros
asos,não.
Outraquestãofundamentalnomodeloéo ompradorper eberquefoienganado.
Em alguns asos, essa per epção é óbvia. Por exemplo, em uma ompra de elular,
o omprador pode saber, fa ilmente, se o elular entregue possui algum defeito e se o
produto ombinadofoirealmenteentregue. Porém,afraudeemalgunsprodutosémais