FICHA CATALOGRÁFICA ELABORADA PELA
BIBLIOTECA DO IMECC DA UNICAMP
Bibliotecária: Maria Fabiana Bezerra Müller – CRB8 / 6162
Bezerra, Fábio de Lima
B469a
Algoritmos de detecção de anomalias em logs de sistemas baseados
em processos de negócios/Fábio de Lima Bezerra-- Campinas, [S.P. :
s.n.], 2011.
Orientador : Jacques Wainer.
Tese (doutorado) - Universidade Estadual de Campinas, Instituto de
Computação.
1.Anomalias. 2.Sistemas de informação gerencial - Medidas de
segurança . I. Jacques, Wainer, 1958-. II. Universidade Estadual de
Campinas. Instituto de Computação. III. Título.
Título em inglês: Anomaly detection algorithms in logs of business process aware systems
Palavras-chave em inglês (Keywords): 1.Anomaly. 2.Management information systems -
Safety measures.
Área de concentração: Ciência da Computação
Titulação: Doutor em Ciência da Computação
Banca examinadora: Prof. Dr. Jacques Wainer (IC – UNICAMP)
Prof. Dr. Duncan Dubugras Alcoba Ruiz (PUC-RS)
Profa. Dra. Flávia Maria Santoro (UNIRIO)
Profa. Dra. Maria Beatriz Felgar de Toledo (IC – UNICAMP)
Prof. Dr. Edmundo Roberto Mauro Madeia (IC – UNICAMP)
Data da defesa: 13/05/2011
Programa de Pós-Graduação: Doutorado em Ciência da Computação
Universidade Estadualde Campinas
Algoritmos de Dete ção de Anomalias em Logs de
Sistemas Baseados em Pro essos de Negó ios
Fábio de Lima Bezerra
1
13 de Maiode 2011
Ban a Examinadora:
•
Prof. Dr. Ja ques Wainer (Orientador)•
Prof. Dr. Dun an Dubugras RuizFa uldade de Informáti a PUC-RS
•
Profa. Dra. Flávia MariaSantoroCentrode Ciên iasExatas eda Terra UNIRIO
•
Profa. Dra. MariaBeatriz Felgar de Toledo Instituto de Computação UNICAMP•
Prof. Dr. Edmundo Roberto Mauro Madeira Instituto de Computação UNICAMP1
Atualmente háuma variedade de sistemasque apoiam pro essos de negó io (ex. WfMS,
CRM, ERP, SCM, et .). Muitos desses sistemas possuem uma forte ara terísti a de
oordenação das atividades dos pro essos de negó ios, garantindo que essas atividades
sejam exe utadas omo espe i adas no modelo de pro esso. Entretanto, há domínios
om maior ne essidade de exibilidade na exe ução desses pro essos, por exemplo, em
atendimentohospitalar, uja onduta pode variar para ada pa iente. Essa ara terísti a
desses domínios demanda o desenvolvimento de sistemas orientados a pro essos
fra a-mente denidos, ou om exe ução mais exível. Nesses domínios,aexe ução de algumas
atividades omuns podeser violada, ouaexe uçãode uma atividadein omum podeser
ne essária, ouseja,taispro essossão sus etíveisaexe uçõesex ep ionaisoumesmo
frau-dulentas. Assim, oprovimentodeexibilidadenão pode ser onsideradosem melhoraras
questõesrela ionadasàsegurança,poisexibilidadeesegurançasãorequisitos laramente
onitantes. Portanto, é ne essário desenvolver me anismos oumétodos que permitama
onjugação desses dois requisitos em um mesmo sistema, promovendo um balanço entre
exibilidade esegurança.
Esta tese tem por objetivo projetar, implementar e avaliar métodos de dete ção de
anomaliasemlogsdesistemasdeapoioapro essosdenegó ios,ouseja,odesenvolvimento
demétodosutilizadosparades obrirquaisinstân iasdepro essopodemserumaexe ução
anmala. Desta forma, através da integração de um método de dete ção de anomalias
om um sistema de apoio a pro essos de negó io, tais sistemas poderão ofere er um
ambiente de exe ução exível, mas apaz de identi ar exe uções anmalas que podem
indi ar desde uma exe ução ex ep ional, até uma tentativa de fraude. Assim, o estudo
de métodos de dete ção de eventos anmalosvem preen her um espaço pou o explorado
pela omunidade de pro ess mining, que tem demonstrado maior interesse em entender
o omportamento omum em pro essos de negó ios. Entretanto, apesar desta tese não
dis utir osigni ado das instân ias anmalas,osmétodos de dete ção apresentados aqui
Nowadays, many business pro esses are supported by information systems (e.g. WfMS,
CRM, ERP, SCM, et .). Many ofthese systems have astrong hara teristi of
oordina-tionofa tivitiesdenedinthebusinesspro esses,mainlyforensuringthatthesea tivities
are performedasspe iedinthepro essmodel. However, therearedomainsthatdemand
more exiblesystems, forexample,hospitalandhealthdomains,whosebehavior an vary
forea hpatient. Su hdomainsofappli ationsrequireaninformationsysteminwhi hthe
business pro esses are weakly dened, supporting more exible and dynami exe utions.
Forexample, the exe utionof some ommona tivities may be violated,or some unusual
a tivity may be enfor ed for exe ution. Therefore, in domains of appli ations in whi h
the systems support a high level of exibility the business pro esses are sus eptible to
ex eptional or even fraudulent exe utions. Thus, the provision of exibility an not be
onsideredwithoutimprovingthese urityissues,sin ethereis learlyatrade-obetween
exibilityandse urityrequirements. Therefore,itisne essarytodevelopame hanismto
allowthe ombinationof these two requirements in a system, that is, a me hanism that
promotes abalan e between exibility and se urity.
This thesis aims todesign, implementand evaluate methods for dete ting anomalies
in logsof pro ess-aware informationsystems, thatis,the development ofmethodsto nd
out whi h pro ess instan es may be an anomalous exe ution. Thus, when in orporating
a method for dete ting anomaliesinsu h systems, itwould bepossible to oera exible
and safer exe ution environment, sin e the system is also able to identify anomalous
exe utions, whi h ould be a simple ex eption or a harmful fraud attempt. Thus, the
study of methods for dete ting anomalous events will ll an area largely unexplored by
the ommunity of pro ess mining, whi h has been mainly interested in understanding
the ommon behavior in business pro esses. Furthermore, although this thesis does not
dis uss the meaning of an anomalous instan e, the methods and algorithms presented
Agradeço a DEUS, que na sua omnipotên ia,medeu vida,fortaleza, sabedoria e
inteli-gên iapara trabalharnessa tese. Tambémmeforne eutodas asrazõesparanão esque er
de registraros próximosagrade imentos.
Agradeçoaomeugrandeorientador,Prof. Ja quesWainer, ujainteligên ia,humor
e sabedoria meimpressionam. Obrigado pormedeixar trabalhar de asa!
Agradeço às agên ias de pesquisa que forne eram-me o suporte material ne essário
para manter-me rme nopro esso de on lusão desta tese.
Agradeço ao supervisor de meu estágio doutoralna Holanda, o Prof. Wil van der
Aalst,pelaoportunidadedetrabalhar omumgrupodepesquisadoresmuito ompetentes
na área de Pro ess Mining.
Agradeçoaos meuspais,Aldenora( arinhosamente hamadapelaminhalhade Vó
Lola) eClaudionor (Dod).
Agradeçoaos meus irmãos,Eduardo e Diego.
Agradeço a minha esposa Erika pela par ela de investimento nesse projeto
pro-ssional, pois a redito que nenhum su esso prossional pagaria o preço de um fra asso
pessoal.
Agradeçoaminhalha Ana Beatriz,queindiretamentememantém rme nodesejo
de ser um exemplo.
Agradeçoaos meus muitos familiares. Com eles entendi que orgulhar-se é motivar.
Agradeço aos meus amigos de Campinas, Eindhoven e Belém, que apesar de juntos
formarem um onjunto nito, preferi me a ovardar em itá-los que orrer o ris o de
esque er algum nome aqui. Amigos, vo ês foram muito importante para o m dessa
Resumo v Abstra t vi Agrade imentos vii 1 Introdução 1 1.1 Contextualização eProblema . . . 1 1.2 Abordagens de Dete ção . . . 3
1.3 Dados para avaliação dos algoritmos . . . 4
1.3.1 Utilização de Dados Sintéti os . . . 5
1.3.2 Abordagens de Criação dos Tra es Anmalos . . . 5
1.3.3 Criação dos Logs . . . 7
1.4 Roteiro . . . 9
2 Trabalhos Correlatos 11 2.1 Dete ção de Eventos Anmalos . . . 12
2.2 Mineração de Pro essos. . . 13
2.3 Análise de Modelos de Pro essos. . . 15
3 Denição de Anomalia 17 3.1 Apresentação . . . 17
3.2 DeniçõesPreliminares . . . 20
3.3 Tra e Anmalo: Denição I . . . 23
3.4 Tra e Anmalo: Denição II . . . 24
4 Dete ção de Anomalias: Grau de Modi ação do Modelo 27 4.1 Mining In remental: EmDireção a Dete ção de Anomalia . . . 28
4.1.1 Regras de Deniçãodo Modelo . . . 28
4.1.4 Projeto Ini ialdoAlgoritmo Threshold . . . 35
4.1.5 Projeto Ini ialdoAlgoritmo Iterativo . . . 38
4.2 Integração om o Framework ProM . . . 39
4.2.1 Algoritmos de Mineração . . . 41
4.2.2 Métri as de Conformidade . . . 42
4.2.3 Algoritmo Sampling . . . 43
4.2.4 Algoritmo Threshold . . . 43
4.2.5 Algoritmo Iterativo . . . 45
4.3 Estudo Comparativodos Algoritmos . . . 46
4.3.1 Criação dos logs para avaliação . . . 46
4.3.2 Parametrizaçãodos algoritmosavaliados . . . 47
4.3.3 Exe ução e Resultados . . . 49
5 Dete ção de Anomalias: Seleção do Modelo mais Apropriado 56 5.1 Visão Geral . . . 56
5.2 Apli ação doProM . . . 57
5.2.1 Etapa 1: Preparação doLog . . . 58
5.2.2 Etapas 2 e 3: Mineraçãoe Separação dos Modelos de Pro esso . . . 58
5.2.3 Etapa 4: Seleçãodo modelo mais apropriado . . . 59
5.2.4 Etapa 5: Classi açãodos Tra es . . . 60
5.3 Estudo de Caso . . . 61
5.3.1 Etapa 1: Preparação doLog . . . 61
5.3.2 Etapas 2, 3e 4: Mineração, Separação eSeleção doModelo . . . 62
5.3.3 Etapa 5: Classi açãodos Tra es . . . 64
5.4 Considerações Finais . . . 64
6 Con lusões 66 6.1 Contribuições . . . 66
6.2 Trabalhos Futuros. . . 68
6.2.1 Pro ess Mining: Fluxo,Caso e Organiza ional . . . 68
6.2.2 Pro ess Dis overy . . . 69
6.2.3 Métri as de avaliação . . . 70
6.2.4 Áreas de interesse . . . 70
1.1 Exemplo de riaçãode um modelo de pro esso . . . 8
4.1 Parâmeros para riaçãodos modelos. . . 46
4.2 Desempenho médio daexe ução dos algoritmos om o grupo de teste. . . . 50
4.3 Resultado doTukey HSD Test. Todos osalgoritmos.. . . 50
4.4 Resultado doTukey HSD Test. Número de lasses. Todos os algoritmos. . 51
4.5 Resultado doTukey HSD Test. Número de atividades. Todos os algoritmos. 52
4.6 Resultado doTukey HSD Test. Número de o orrên ias. Todos osalgoritmos. 53
4.7 Diferença entre asmédias. Número de lasses. AlgoritmoSampling. . . 53
4.8 Diferença entre asmédias. Número de o orrên ias. Algoritmo Sampling.. . 54
4.9 Diferença entre asmédias. Número de atividades. Algoritmo Sampling. . . 54
5.1 Frequên ia das atividadesque ini iam eterminamos tra es dolog . . . 62
1.1 Exemplo de riaçãode tra es anmalos.. . . 6
1.2 Representação grá a domodelo [a, or([or([℄, [b℄)℄, [ ℄), d℄. . . 8
1.3 Modelo [a,or([or([℄, [b℄)℄, [ ℄), d℄ enrique ido om probabilidades. . . 9
3.1 Exemplo de pro esso de tratamentode pa ientes om insu iên ia renal. . 18
3.2 Mineração de um modelo om um onjunto in ompletode tra es. . . 19
3.3 Problemas rela ionados om um log não ltrado.. . . 21
3.4 Exemplo de modelosimples e muito genéri o. . . 25
3.5 Exemplo de modelo omplexo e espe í o. . . 25
4.1 Bus a gulosa pelomenor modelo. . . 30
4.2 Exemplo damineração de um log om três tra es. . . 31
4.3 Exemplo do ál ulo do usto de in lusão. . . 33
4.4 Valores em
L
100
eL
70
. . . 375.1 Visão geral daabordagem. . . 57
1 Primeiro projeto doalgoritmoSampling. . . 34
2 Primeiro projeto doalgoritmoThreshold. . . 35
3 Primeiro projeto doalgoritmoIterativo. . . 38
4 Algoritmo Sampling . . . 43
5 Algoritmo Threshold . . . 44
Introdução
Um pro esso de negó io é um onjunto de atividades e re ursos (humanos ou materiais)
organizados para resolverum problema parti ular,ouseja, produzirum valora partirde
um pro essamentode entrada. Háempresas que ostumamadotar um onjuntode
ferra-mentas omputa ionais queautomatizama exe uçãoougeren iamentode seus pro essos
a m de melhoraroumesmo onhe er seus pro essos de negó ios.
Durante a dé ada de 90, em razão das novas tendên ias na área de geren iamento,
os sistemas de informaçãoorientados a pro essos (do inglês, Pro ess Aware Information
Systems, PAIS) foram amplamente adotados nas organizações [22℄. A adoção desses
sistemas representava uma mudança dos sistemas orientados a dados, para sistemas
ori-entados apro essos,que laramenteseparamlógi adonegó ioeapli ações, oquefa ilita
mudanças nos modelos de pro esso adotados.
Essas ferramentas omputa ionais, possuem pelo menos dois objetivos: (i) orientar
e onduzir o pro esso de negó io; e (ii) orientar os usuários a realizarem orretamente
os seus trabalhos [25℄. Esses sistemas são ofere idos em diferentes formatos e para
apli- ações variadas, por exemplo: ERP (Enterprise Resour e Planning), CRM (Customer
Relationship Management),SCM (SupplyChainManagement),WfMS(Workow
Mana-gement System),entre outros.
1.1 Contextualização e Problema
A ne essidade de aderên iaa requisitoslegais foitambémresponsável pelaadoção desses
sistemas (PAIS), poiseles apoiamas melhorespráti asde governança (ex. COBIT,
Con-trol Obje tives for Information and related Te hnology), ouseja, melhoramo ontrole da
exe ução dos pro essos. Nesse ontexto há oexemplo da Sarbanes-Oxley A t, que é uma
lei federal nos Estados Unidos, riada emresposta aos es ândalos ontábeis e nan eiros
Por outro lado, o ontrole de pro esso de negó ios de empresas om modelos de
pro- essos muito dinâmi os, espe ialmente sensíveis a ompetitividade,não deve ser apoiado
por sistemas normativos, por exemplo, por um WMS (do inglês, Workow Management
System). Essas empresas exigem modelosexíveis de geren iamentode seus pro essosde
negó io, pois pre isam responder rapidamente a novas estratégias de mer ado ou novos
modelosde negó io.
Além disso, em ertos domínios de apli ação, omo desenvolvimento de software e
atendimento hospitalar, onde o ontrole dos pro essos também não pode ser realizado
através de uma ferramenta normativa, pois o modelo opera ional do pro esso não é
to-talmente onhe ido antes de sua exe ução, portanto, não pode ser representado antes de
sua exe ução. Nesses domíniosos parti ipantes do pro esso ne essitam de maior
exibi-lidade para exe utar seu trabalho. Por exemplo, no ontexto de atendimento hospitalar,
o sistema não pode obrigar a exe ução de uma tarefa espe í a (ex. administração de
um medi amento) em um dado atendimento, pois, mesmo que tal atendimento seja
se-melhante a outros, essa exe ução é úni a e deve ser exível em relação ao parti ipante
(ex. médi o ou enfermeiro), permitindo que o mesmo exe ute a tarefa que julgar mais
apropriada ou até onveniente (ex. administrar um medi amento X na ausên ia de um
medi amentoY). Neste exemplo, aexibilidadeéofere ida quando oparti ipantede ide
qual atividade exe utar.
Poroutro lado,um sistemade informação ommaior exibilidadede exe uçãoé mais
vulnerávelaexe uçõesin orretasouatéfraudulentas, poisosusuáriostêmliberdadepara
exe utar a(s) atividade(s) que julgarem ne essária(s) durante uma instân ia de pro esso
em parti ular. Portanto, há laramente um enário onitante entre os interesses de
exibilidadeedesegurança,porexemplo,quedi ultemouevitemao orrên iadefraudes.
Em outras palavras,osistema deve provera exibilidadeporrazões de ompetitividade,
mas também deve evitar ou identi ar o mau uso do sistema. Assim, há laramente
uma demanda por sistemas de auditoria, e palavras omo BAM (do inglês, Business
A tivity Monitoring), BOM (do inglês, Business Operations Management) e BPI (do
inglês, Business Pro ess Intelligen e) ilustram o interesse de empresas forne edoras de
sistemasemdesenvolversoluçõesde monitoramentoeanálisede pro essode negó ios[36℄.
Esta tese tem o objetivo de desenvolver soluções que satisfaçam os interesses
on-itantes de exibilidade e segurança em ambientes ou apli ações apoiadas por sistemas
geren iadoresdepro essosdenegó ios. Espe i amente,estetrabalhodesenvolverá
méto-dos dedete ção deinstân iasde pro essos,também hamadasde tra es, que ara terizem
uma anomalia,ouseja,uma exe uçãoirregular,que pode estar vin uladaa diferentes
se-mânti as, in lusiveade umafraude. Então, a integração de uma ferramentade dete ção
zes de identi ar as instân ias anmalas aomesmo tempo emque apoiariam a exe ução
exível dos pro essos de negó ios.
1.2 Abordagens de Dete ção
Um pro esso de negó ioa omodatrês perspe tivasde informações: (i)a perspe tiva
or-ganiza ional,quedes reveosresponsáveispelasatividades;(ii)aperspe tivadosdados
manipulados pela exe uçãodo pro esso;e (iii)a perspe tivado uxo de ontrole, que
des reve as atividadesdo pro esso, além das restrições de ordem de exe uçãodessas
ati-vidades [44, 48℄. A altaoferta de logs gerados pelos sistemas de informação e a elevada
perspe tiva de adoção de sistemas de geren iamento de pro esso motivaram o
desenvol-vimento da área de pro ess mining, interessada prin ipalmenteem des obrir modelos de
pro essos a partir de um log[44, 48,46,45℄.
Entretanto,movimentosda omunidadea adêmi atêmdemonstradoane essidadede
des obrir tambémo omportamentonão normalouanmalo,queeventualmenteexistam
nesses logs[43, 3, 5, 4, 8, 7, 9, 10, 11℄. Esta tese explora duas abordagens de dete ção,
todas baseadas naavaliaçãodouxo de ontroledas instân ias de pro esso analisadas
(tra es). Assim, quando um modelo de pro esso possui um aminho que a omode a
exe ução (uxo) de um tra e do log, dizemosqueesse tra e asa om omodelo,portanto
é um tra e normal, do ontrário,é um tra e anmalo.
A primeira abordagem, apresentada no Capítulo 4, onsidera um tra e anmalo
quandoesse tra e,paraserexe utado, exigegrandesmodi açõesnomodelode pro esso
de negó iodes oberto porum algoritmo/métodode mineraçãode pro essos. Asegunda
abordagem, apresentada no Capítulo5, lassi a um tra e omo anmalo se esse tra e
não é instân ia de um modelo apropriado, onde apropriado signi a: (i) um modelo
dinami amente des oberto por um algoritmo/método de mineração de pro essos, que
(ii) é apaz de exe utar ompletamente um número mínimo de tra es do log utilizado
para en ontrar o modelo, e (iii) maximiza uma função que representa o balanço entre
omplexidade (tamanho do modelo) e espe i idade ( apa idade de exe utar apenas os
tra es dolog).
Aimplementaçãode adaumadas abordagensexploradasnestatese possui diferentes
variações de omposição. Por exemplo, um número variado de algoritmos de mineração
de pro esso pode ser utilizado para gerar os modelos de pro essos usados na dete ção
da anomalia. Além das opções de algoritmos de mineração de pro esso, há também
uma variada disponibilidade de ferramentaspara avaliação de modelos (ex.: métri asde
onformidade). Essasopçõesdeferramentasdeavaliação onsideram ara terísti as omo
As ferramentas utilizadas para ompor a implementação das abordagens, ou estão
disponíveisgratuitamentenoFramework ProM 1
,ou foramimplementadas. Entre as
fer-ramentasimplementadaspodemos itaroalgoritmodemineraçãoin rementaleamétri a
de ál ulo de usto de in lusão[51, 3, 5, 8℄. Assim, em razão das diferentes variações de
omposição dos algoritmosde mineração de pro essos e algoritmosde análise de
pro es-sos, temos diferentes soluções de dete ção de tra es anmalos. Cada solução foi
exausti-vamente testada om uma variada oleção de logs sinteti amente riados, ujo pro esso
de avaliação e geraçãodos logs éexpli ado naSeção 1.3.
1.3 Dados para avaliação dos algoritmos
O pro esso de desenvolvimento dos algoritmos propostos neste trabalho onsiderou a
exe ução de quatro atividades:
1. A deniçãointuitiva ou formal detra e anmaloqueapoieopro essode on epção
de um algoritmode dete ção.
2. A on epção de um algoritmo, ou seja, uma proposição abstrata do que
a redita-mos, a partir de estudos teóri os, ser uma boa abordagem de dete ção dos tra es
anmalos, omo anteriormente denidos.
3. O projeto e implementação do algoritmo em alguma linguagem de programação,
assim temos um omponente de software real que pode ser avaliado.
4. Finalmente, a avaliação doalgoritmo implementado, que para ser avaliado,
ne es-sitavade um onjunto de logs om tra es anmalosidenti ados. Assim, a e á ia
dos algoritmosde dete çãopode ser medidae ébaseada emminimizaronúmerode
falsos positivo (tra es normais lassi ados omoanmalos) e maximizaro número
de verdadeiros positivo (tra es anmalos lassi ados omo anmalos).
Por estarmos realizando uma pesquisa experimental, a reditamos que a atividade de
avaliaçãosempreéde isivaparaimprimirum aráter ientí o,bem omovalidaros
resul-tados,espe ialmenteporqueosalgoritmospropostosserãoavaliados omdadossintéti os.
Na Seção1.3.1 apresentamosuma justi ativaparautilizaçãode dadossintéti os no
pro- esso de avaliaçãodos algoritmos. NaSeção 1.3.2apresentamos omo ostra es anmalos
são riados, ou seja, que ara terísti as diferem os tra es anmalos quando omparados
om as instân ias etra es normais. Finalmente, naSeção 1.3.3apresentamos a dinâmi a
de riaçãodos logs utilizadosnaavaliaçãodos algoritmos.
1.3.1 Utilização de Dados Sintéti os
Dois motivos inuen iaram o uso de dados sintéti os na avaliação dos algoritmos: (i) a
indisponibilidade de uma fonte om dados reais; mas prin ipalmente (ii) a impre isão
da denição de tra e anmalo em um log real, pois para avaliarmos a e á ia da
dete -ção seria ne essário onhe ermos o(s) tra e(s) anmalo(s) no log antes da apli ação do
algoritmo, o que seria extremamente ompli ado ou mesmo impossível om dados reais.
Quantoaoproblema daimpre isão dadenição de um tra e anmaloemum log (item ii
a ima),Panditetal.,em[32℄,des revemsu intamenteoproblemadeidenti aras
instân- ias anmalas em um onjunto de dados reais. A identi ação manual dessas instân ias
anmalas é muito dispendiosae subjetiva, pois é provável que duas pessoas lassiquem
de formadiferente normal ou anmala amesma instân ia. Alémdisso a denição de
anomalia variade domínio para domínio.
Diferentemente, autilizaçãode dadossintéti os simpli aa avaliação dos algoritmos,
poisao onhe ermosomodelodepro esso utilizadopara riarolog,ostra es normaissão
os tra es que são instân iadesse modelo, enquanto que os tra es anmalossão os tra es
que nãosão instân iadessemodelo(um ritériobemobjetivodoqueseriaumainstân ia
de pro esso anmala). Dessa forma, um log é normal aso seja omposto apenas pelas
instân ias domodelo que gerouesse log.
Entendemos que a utilização de dados reais poderia imprimir ao trabalho um valor
ientí omaior,jáqueosresultadossus itariammenosdúvidasdaapli açãodosmétodos
de dete ção em enários reais. Entretanto, a reditamos que os logs sintéti os utilizados
neste trabalhosão uma boa aproximação de enários reais, omo des reve a Seção 1.3.2.
Dessa forma, entendemos que os resultados e as on lusões apresentadas nesta tese são
signi ativos.
1.3.2 Abordagens de Criação dos Tra es Anmalos
Os logs utilizadosnaavaliação são preen hidos om tra es normaisetra es anmalos,do
ontrárioseriamuito ompli adoouatémesmoimpossívelmediraa urá iadosalgoritmos
de dete çãoemen ontrarasinstân iasanmalas. Umavez quea riaçãodolog ébaseada
em um modelo de pro esso dinami amente onstruído e de forma aleatória, o problema
seria omo onstruir ostra es anmalose adi ioná-los aolog.
No aso da riação dos tra es anmalos, utilizamosdiferentes estratégias de geração,
itadas a seguir:
Dupli ação de uma Atividade Aleatória do Tra e. Essa abordagem onsidera a
dupli ação de uma atividadede um tra e que é instân iadomodeloutilizado para
P o s s í v e i s t r a c e s
a - b - c
a - b - d
b - a - c
b - a - d
P o s s í v e i s t r a c e s
a - d - c
a - c - d
b - d - c
b - c - d
a n d
a n d
a
b
c
d
o r
o r
o r
o r
a
b
c
d
a n d
a n d
A )
B )
Figura1.1: Exemplo de riaçãode tra es anmalos.
Figura 1.1, e foi riado a partir do tra e normal
[a − b − c]
, através da dupli ação da atividadea
.Remoção de uma Atividade Aleatória do Tra e. Essa abordagem onsidera a
re-moçãode umaatividadede um tra e queéinstân iadomodeloutilizadopara riar
o log normal. Por exemplo,o tra e
[a − b]
éanmaloaomodeloa) daFigura1.1, e foi riado a partirdo tra e normal[a − b − c]
,através daremoção daatividadec
.In lusão de uma Atividade Aleatória do Log. Essa abordagem onsidera a
in lu-são de uma atividade no tra e dentre asatividades que foram exe utadas emtodo
o log. Por exemplo, o tra e
[a − b − x − c]
é anmalo ao modelo a) da Figura 1.1 e foi riado a partir do tra e normal[a − b − c]
, através da in lusão da atividadex
, assumindo que a atividadex
é uma atividade existente no log. No exemplo da Figura 1.1, a atividadex ∈ {a, b, c}
, já que são as úni as atividadesque previsíveis pelomodelodepro essoe ontidasno onjuntode possíveistra es. Essaabordagemde geração de tra e anmalo pode gerar um tra e semelhante a um tra e gerado
pelaabordagemde dupli ação. Esseresultado éobtidoquandoaatividadesorteada
para ser in luída no tra e oin ide om uma das atividades do tra e original, no
exemplo om o tra e
[a − b − c]
, seriam asatividadesa
,b
ouc
.Tro a de Blo os Estruturais AND e OR. Essa abordagem de geração de tra es
anmalos éilustrada naFigura 1.1. Ospossíveis tra esdo modelo A são anmalos
(não são instân ia) aomodelo B, evi e-versa. Diferentedas abordagens anteriores,
essaabordagem onsideraprimeiramenteamodi açãodeummodeloqueexiste(no
Éimportanteobservarque todas asabordagens de geraçãodos tra es anmalos
apre-sentadas a ima onsideram o mesmo onjunto de atividadesdos tra es normais.
A redi-tamos que essa estratégia de riação dos tra es anmalos aumenta o rigor da avaliação,
pois aso utilizássemos atividades diferentes das utilizadas nos tra es normais, os tra es
anmalos seriammuito diferentes dos normais,oque possivelmentesimpli aria a
dete -ção desses tra es. Além disso, é razoável a reditar que em enários reais um fraudador
não tentará exe utar novas atividades, pois maximizariaa possibilidade de identi ação
da fraude.
Além disso, as abordagens de geração dos tra es anmalos orroboram para enários
de anomalia uja semânti a esteja rela ionada a tra es que representam um ruído,
nor-malmente gerado pelos apli ativos responsáveis pelo log, ou mesmo uma ex eção. Por
exemplo, a dupli ação ea remoção de atividadespodem representaras situações emque
o sistema de log, por alguma falha, registra mais de uma vez um evento (atividade), ou
mesmo não o registra.
1.3.3 Criação dos Logs
A riação dos logs éautomatizadaporduas funções. Umafunção é responsávelpor riar
um modelo de pro esso, enquanto outra é responsável por riar os tra es ou instân ias
a partir de um modelo de pro esso informado. A riação do modelo de pro esso deve
pre eder à riação dos logs porque o modelo representa a matriz dos tra es normais.
Assim, uma vez queostra es normaissão onhe idos,ostra es anmalossão aquelesque
são diferentes das instân ias normais, riados omo expli ado na Seção 1.3.2, e também
não são instân ias domodelo utilizadopara riar ostra es normais.
A função responsável pela riação dos modelos é baseada em in o parâmetros, omo
segue:
•
o tamanho máximo do tra e (número máximo de atividadesdo maior tra e) que o modelode pro esso pode riar (instan iar);•
o tamanhomínimo do tra e (número mínimo de atividades do menor tra e) que o modelode pro esso pode riar (instan iar);•
o número mínimode tra es queo modelo pode riar;•
o número máximo de tra es que omodelopode riar 2;
2
Paraosmodelosquepossuamalgumaestruturadeloop,asinstân ias riadasapartirdessesmodelos
•
a quantidade de modelos que devem ser riados que satisfaçam os parâmetros for-ne idos a ima.É importante observar queapesar dageração dos modelosser orientada por
parâme-tros que nós forne emos, e os tra es anmalos adi ionados aos logs serem identi ados,
nenhuma dessas informações é onhe ida pelos algoritmos de dete ção. Portanto, nem
os modelos dinami amente riados para gerar os tra es normais, nem os tra es
anma-los, riados a partir dos tra es normais e do modelo de pro esso, são onhe idos pelos
algoritmos de dete ção.
Osmodelosdepro essosão riadosatravésda ombinaçãoaleatóriadeblo os de
ons-trução (AND, OR, LOOP e atividade), pois são es olhidos por sorteio em ada tre ho
da onstrução do modelo. Por exemplo, a Tabela 1.1 ilustra omo o algoritmo de
gera-ção/ onstrução de modelos onstrói o modelo
[a, or([or([], [b])], [c]), d]
, ou seja, os passos da geraçãodo modelo, ujográ o equivalente éexibido na Figura1.2.A
B
C
D
OR
OR
OR
OR
Figura1.2: Representação grá a domodelo [a, or([or([℄, [b℄)℄, [ ℄), d℄
Passo (des rição) Efeito
Sorteado adi ionaruma atividade [a℄
Sorteado adi ionarum blo oOR [a, or([?℄, [?℄)℄
O blo oORtem dois ramos,que são outros dois modelos
Sorteado adi ionarum blo oOR [a, or([or([?℄, [?℄)℄,[?℄)℄
O blo oORtem dois ramos,que são outros dois modelos
Sorteado adi ionaruma transição vazia [a, or([or([℄, [?℄)℄, [?℄)℄
Sorteado adi ionaruma atividade [a, or([or([℄, [b℄)℄, [?℄)℄
Sorteado adi ionaruma atividade [a, or([or([℄, [b℄)℄, [ ℄)℄
Sorteado adi ionaruma atividade [a, or([or([℄, [b℄)℄, [ ℄), d℄
Tabela1.1: Exemplo de riação de um modelode pro esso
Épossívelobservarnatabelaqueomodeloé onstruídoatravésdaadiçãodeelementos
om um sinal de interogação emnegrito. Para omodelo de pro esso
[a, or([or([], [b])], d)]
, os tra es om tamanhomáximo quepodemser gerados são[a, b, d]
e[a, c, d]
. Alémdisso, esse modelotambémpode gerar nomáximoos seguintes tra es: (i)[a, b, d]
,(ii)[a, c, d]
e (iii)[a, d]
.Umavez quetem-se omodelo de pro esso,gerado pelafunção de riaçãode modelos,
um onjuntodetra es normaiseanmalossãogerados. Comoadistribuiçãodafrequên ia
dos tra es ontidos no log é variável para ada lasse de tra e (normal ou anmalo), a
função de riação do log ini ialmente popula aleatoriamente os blo os OR e LOOP do
modelo riado om frequên ias que indi am a han e de um determinado aminho ser
exe utado, enquantoquepara osblo os ANDtodas asvariaçõespossíveisde ombinação
das atividadesdo blo otem a mesma han e de o orrer, mas uma será sorteada durante
a geração dotra e. A Figura 1.3é uma variaçãoda Figura1.2, mas om a denição das
probabilidadesnosblo osOR.Nessaguraépossívelobservara han equeostra es,que
podem ser riados a partir do modelo sem probabilidades, têm de serem riados emum
log pelomodelo om probabilidades. Porexemplo, otra e
[a, d]
tem10, 5%
de han ede ser adi ionado emum log normal.A
B
C
D
OR
OR
OR
OR
35%
65%
70%
30%
[A, B, D] - 24,5%
[A, D] - 10,5%
[A, C, D] - 65%
Figura1.3: Modelo [a, or([or([℄, [b℄)℄, [ ℄), d℄ enrique ido om probabilidades.
Assim, oslogsutilizadosnesta tesepara avaliaçãodos algoritmos ombinam ostra es
normais, om distribuição não uniforme das lasses de tra e que podem ser instan iadas
pelomodelo,e tra es anmalos,que são riadosa partirdas abordagens apresentadas na
Seção 1.3.2.
1.4 Roteiro
Esta tese está organizada em seis apítulos, in luindo esta introdução. No Capítulo 2
apresentamos uma revisão bibliográ ade trabalhos rela ionados om o problema
anmalos, mas em outros ontextos de apli ação; na Seção 2.2 apresentamos trabalhos
rela ionadosamineraçãodepro essosdenegó ios(pro essmining),ferramentamuito
uti-lizada pelas abordagens de dete ção propostas nesta tese, mas que desde sua on epção
tinha omo prin ipalobjetivo estudar o omportamento normaldos pro essos, enquanto
nestetrabalhoéutilizadaparaidenti aro omportamentoanormal;nalmente,naSeção
2.3 apresentamos trabalhos rela ionados aferramentas ealgoritmosde análisede
pro es-sos de negó ios, que também foram assessórias as abordagens de dete ção exploradas
neste trabalho.
No Capítulo3 apresentaremosduas deniçõespara tra e anmalo: (i) uma denição
utilizada pela abordagem de dete ção baseada no grau de modi ação de um modelo
de pro esso de negó io, apresentada na Seção 3.3, e (ii) uma denição utilizada pela
abordagemde dete ção baseada naseleçãodomodelode pro essomais apropriado,
apre-sentada naSeção3.4. Oobjetivodesse apítuloéapresentarum referen ialteóri oparaa
on epçãodos algoritmoseabordagensde dete çãode anomaliadesenvolvidas nestatese.
NosCapítulos4e5,quesãoos apítulos entraisdestetrabalho,apresentamosasduas
abordagensde dete ção detra es anmalosemlogs de sistemasorientadosapro essosde
negó io desenvolvidas nesta tese. A primeira abordagem de dete ção, detalhada no
Ca-pítulo 4, lassi aum tra e omo anmalose este tra e,para ser instân iade um modelo
de pro esso, ne essita que o modelo a omode/implemente muitas alterações de sua
de-nição. A soluçãode dete ção om melhordesempenho quantoa apa idadede lassi ar
orretamenteum tra e omonormalouanmalofoiaabordagemdesampling baseadono
algoritmo de mineração in remental. Entretanto, essa soluçãoé inadequada em enários
reais, poisautilidadedoalgoritmodemineraçãoin rementalélimitadaalogs om pou a
variaçãode lasse etra es de nomáximo10 atividades. Então, um algoritmosemelhante
foi on ebido, mas baseado em ferramentas de mineração mais robustas. Apresentamos
na Seção 4.3uma análise exaustiva de algoritmosque seguemesse modelo de dete ção.
Asegundaabordagemdedete ção,detalhadanoCapítulo5, onsideraabus aporum
modelo de pro esso hamado modelo de pro esso apropriado. Então, os tra es anmalos
são ostra es que não são instân iadesse modelo, denominadode modelo apropriado. No
aso dasegunda abordagem de dete ção, foi onduzido um estudo om um log real, e os
resultados são apresentados naSeção 5.4.
Finalmente, no Capítulo 6 apresentamos as on lusões sobre os estudos empíri os
Trabalhos Correlatos
ApresentamosnaSeção2.1algumaspropostasdealgoritmosutilizadosparadete tar
even-tos anmalosemdiferentes áreas de apli ação. Este apítulonão tem oobjetivo de listar
todos os trabalhos rela ionados à dete ção de anomalia, mas sim o de apresentar uma
visão geral doquantoinvestigar edete tar o orrên iasde eventos anormaisé importante
para a área de segurança edata mining. No entanto,esta seção tambémserá importante
para indi ar que no ontexto de pro essos de negó ios há pou a ontribuição da
omu-nidade ientí a, o que representa uma grande oportunidade para o desenvolvimento de
ontribuições inovadoras na área. Por exemplo, a omunidade de pro ess mining
histo-ri amente dedi ou maior interesse em estudar o omportamento omum ou normal dos
pro essos de negó ios,ao ontrário destatese, queestá interessada emidenti ar aquelas
o orrên iasde instân iade pro esso quesão in omunsouanmalas, omodenominamos.
No ontextodestetrabalho, pro essmining éutilizado omo umaferramentadeapoio
à lassi ação de um tra e omoanmaloou normal,poiso modelo geradopor um
algo-ritmo de mineração pode apoiaropro esso de lassi açãode um tra e dolog. Portanto,
entendemos quea e á ia damineração, medidaatravés da apa idade de onstruir
mo-delos de pro esso que des revem bemum log, tem inuên ia na e á ia da lassi ação
dos tra es omo anmalos ou normais. Assim, apresentamos trabalhos rela ionados à
mineração de pro essos (pro ess dis overy) naSeção 2.2.
Na Seção 2.3 apresentamos algumas abordagens utilizadas para avaliar pro essos de
negó ios e logs, por exemplo, o grau de generalidade ( apa idade de prever instân ias
não observadas no log) eo grau de espe i idade ( apa idade representar apenas o
om-portamento observado no log). As ferramentas de avaliação são importantes porque são
utilizadas pelos métodos de dete ção, por exemplo, para medir o grau de onformidade
2.1 Dete ção de Eventos Anmalos
O desenvolvimento de métodos de dete ção de eventos anmalos tem despertado o
inte-resse da omunidade a adêmi a há vários anos, espe ialmente das omunidades de data
mining esegurança. Porexemplo, Donoho, em[21℄, apresenta omoas té ni as de
mine-ração de dadospodem ser utilizadaspara dete tar ante ipadamentefraudes rela ionadas
ao uso de informações sigilosas sobre empresas nego iadas no mer ado de ações. Um
trabalho menosre ente, apresentado em [23℄, mostra omo asfraudes rela ionadas à
lo-nagemde elularespodemserdete tadas. Naáreade omér ioeletrni oeleilõesexistem
soluçõesrela ionadasadete çãodebandidosoufraudadores(ex.: verem[32℄). Naáreade
segurança hásoluçõesrela ionadasadete çãode intrusãoemredesde omputadores(ex.:
verem[28℄ e[31℄). Em[1℄, oautordes reveum métododedete ção deepidemiasapartir
dolog de emergên iahospitalar. De formasemelhante, em[37℄ osautoresapresentamum
método de dete ção de epidemias a partir de dados sobre a venda de medi amentos em
farmá ias.
No ontexto mais espe í o das redes de omputadores e internet, há o trabalho de
Pat haePark[33℄,ondeosautoresapresentam diferentes té ni asde dete çãode intrusão
em redes de omputadores. Diferente das abordagens mais omuns de dete ção de
intru-são, normalmenterepresentada omoregras onhe idasdeataque,adete çãode anomalia
modela o omportamentonormale é apazprever novas abordagens de ataque.
Chandola et al. em [12℄, apresentam uma lassi ação para os diferentes métodos de
dete ção de anomaliadesenvolvidos paradiversasáreas de apli ação. Nesta lassi ação,
ada lasseougrupodemétodosdedete çãopossuiumasuposiçãooudenição omumdo
quesigni aumeventoanmaloeumeventonormal. Alémdisso,osautoresapresentaram
um modelo de té ni ade dete ção omum a ada lasse,onde osmétodosde dete ção da
mesma lasse representam uma extensão desse modelo omum de dete ção.
Apesar de existirem várias soluções rela ionadas à dete ção de eventos anmalosem
dados, menosatençãotem sidodadapela omunidadea adêmi ano ontextode sistemas
de apoio aopro esso de negó ios. A grande maioriados trabalhos está mais preo upada
em investigar o omportamento omum ou normal dos pro essos, do que entender ou
identi ar as o orrên ias anormais.
Noentanto,podemos itarotrabalhode AalsteMedeiros,em[43℄, entreas
ontribui-çõesfortementerela ionadas a esta tese e aárea de pro ess mining que identi amosna
literatura. Nesse trabalhoosautoresapresentam dois métodos de dete ção apoiadospelo
α
-algoritmo[46℄. Os métodos propostos nesse trabalho onsideram que um log formado por tra es normais é onhe ido e então minerado para denir um lassi ador. Esseé a existên ia de um log normal para denir o lassi ador de tra es anmalos, pois é
muitodifí il,oumesmoimpossível,emalgunsdomíniosdeapli ação. Outralimitaçãoéa
utilização do
α
-algoritmo,que tem pou a utilidade práti a,apesar de ser uma referên ia teóri a para a omunidade de pro ess mining. Porexemplo, esse algoritmode mineraçãoexige que olog minerado possua ertas propriedadesque são ompli adas ouimpossíveis
de seremgarantidasem enários reais. Entre aslimitaçõesdo
α
-algoritmoquevale itar: loops urtos, non-free- hoi e e dependên ia implí itaentre atividades[46, 16℄.2.2 Mineração de Pro essos
A mineração de pro essos é uma té ni a que visa re onstruir um modelo de pro esso,
om atividades e relações entre atividades, a partir de um log gerado por um sistema
[44, 20, 46℄. Nos últimos 14 anos, a área de pro ess mining tem despertado a atenção
de váriospesquisadoresnomundo. Tambémdenominadapro essdis overy,foi on ebida
ini ialmente no ontexto de pro essos de software. Cook e Wolf, em [14℄, unharam
o termo pro ess dis overy omo uma ferramenta de apoio ao projeto de pro essos de
software, pois adenição de modelosde pro essoé uma atividade difí il, ara e sujeita a
erros, espe ialmenteparapro essosmuito grandesou omplexos. Tambémnessetrabalho
são apresentados três algoritmos de mineração de pro essos, inspirados no problema da
inferên ia de uma gramáti aa partir de um onjuntode exemplos de uma linguagem.
O artigo de Agrawal et al., em [2℄, que é outro trabalho pre ursor dos trabalhos
re entesempro essmining,apresentaumalgoritmodemineraçãoquegeraummodelode
pro esso quepreserva três ara terísti as: ompletude,não redundân ia e minimalidade.
Tais ara terísti as oin idem omadeniçãode um bommodelo,propostaporS himm,
em [38℄. Agrawal et al., em [2℄, também apresentam uma extensão do seu algoritmo
que onsidera a mineração de logs que possuem ruídos gerados pelo registro in orreto
de atividades. Essa extensão des onsidera relações de dependên ia entre atividades uja
frequên ia da relação no log é inferior a um valor indi ado, portanto um modelo de
pro esso égerado sem onsiderar essas relações, hamadasde relações espúrias.
Mais re entemente, muitos outros algoritmos e problemas da área de pro ess mining
foram apresentados [44, 46, 45,38, 25,16℄. Hammoriet al., em[25℄, apresentam a
abor-dagemde mineraçãode modelosde pro essos onhe ida omointerativa,pois onsideram
uma parti ipação onstante do analista responsável pela exe ução da mineração do log,
que deve denirum onjunto de parâmetros. Esses parâmetros onsideram: (i) a
deni-ção dotamanhodoespaçode bus a pelomodelode pro esso;(ii) adenição dotamanho
do modelo de pro esso que melhor des reve o log, ou seja, mais espe í o (maior) ou
Dentreosalgoritmosdemineraçãodepro essodenegó io,omaisdifundidoou
referen- iado pela omunidade de pro ess mining é o
α−
algoritmo[44, 46, 45℄. A e á ia desse algoritmo foi provada para uma lasse de modelos de pro essos de negó ios, SWF-Net(Stru tured Workow Net), mas possui algumas limitações omo a mineração de loops
urtos (loops om uma úni a atividade), tarefas dupli adas e a relação implí ita entre
duas atividades.
Algumas extensões para o
α−
algoritmo foram desenvolvidas[52 , 15, 22, 18, 53, 54℄. Por exemplo,o problema da dete ção de tarefas implí itasé resolvido em[54℄, enquantoque o problema dadete ção de tarefas dupli adas é exploradoem[18℄.
Uma dis ussão sobre a área de pro ess mining, suas limitações e uma denição mais
ríti a doreal problemadaárea éapresentada porWainer etal.,em[51℄. Nesse trabalho
osautoresargumentamqueoproblemadamineraçãode pro essosestámaldenido, pois
a bus a por um modelo que gera todos os tra es existentes no log pode resultar em um
número enorme de soluções diferentes. Assim, o problema deveria ser reformulado a m
de a res entar ao problema da des oberta, a seleção do modelo que melhor des reva o
log. Além disso, nesse artigo os autores propõemum método de mineração de pro essos
in remental que ilustra bema ne essidade de reformulação do problema pro ess mining.
Diferente da maioria das abordagens anteriores, um modelo de pro esso é gerado
in re-mentalmenteatravésdajunção, tra e atra e,dos tra es existentes nolog. Umades rição
mais detalhada desse método será apresentada naSeção 4.1.
S himm, em [38℄, apresenta um método de mineração in remental de modelos de
pro essos semelhante ao método apresentado em [51℄, pois também é baseado em um
onjuntos de regras e também gera um modelo de pro esso blo o estruturado. Esses
modelos são hamados de blo o estruturado porque um blo o split (AND ou OR) está
sempre ombinado om um blo o join; e um blo o join, referente a um blo o split mais
externo, é apli ado apenas quando todos os blo os join mais internos são apli ados, ou
seja, os blo os de onstrução do modelo estão sempre aninhados. Nesse artigo o autor
dene três propriedadesque um modelo de pro esso deve ter: ompletude,espe i idade
eminimalidade. A ompletude signi aqueomodelomantém todasastarefasdolog eas
respe tivasrelaçõesdedependên ias. Aespe i idade signi aqueomodelonão adi iona
novastarefas, nemnovasdependên ias(dependên iasespúrias). Aminimalidadesigni a
que o modelo édes rito om o menornúmero de elementos.
Há também o algoritmo de mineração Multiphase Miner, que utiliza EPC
(Event-drivenPro essChain) omolinguagemderepresentaçãodomodelodepro essogerado[50,
49℄. Esse algoritmoéexe utado emduas etapas,poressa razãoé hamadodemultiphase.
Na primeira etapa são identi adas as relações binárias de ordem par ial entre as
paralelismo e seleção.
Outra té ni a de mineração de pro essos bastante difundida é o geneti mining [16,
19℄. Essa té ni a garante, em teoria, que sempre será gerado um modelo de pro esso
om tness igual a 1, ou seja, em que todos os tra es do log podem ser exe utados
pelo modelo. No entanto, não há garantia de quanto tempo o algoritmopre isará para
en ontrar esse modelo. O Geneti mining é baseado na abordagem de programação de
algoritmos genéti os, que são algoritmos que bus am por uma solução (ou indivíduo)
utilizando heurísti as similares ao pro esso de evolução (elitismo, herança e mutação).
Uma outravantagemdesse algoritmode pro ess mining éa apa idadede lidar om logs
in ompletos ou om ruídos,que é uma ara terísti atípi a dos algoritmosgenéti os.
Há outros métodos de pro ess mining robustos a ruído, ou seja, que onsideram a
mineração de pro essos em logs om ruídos. No entanto, esses algoritmos são
aborda-gens limitadas ao uso da frequên ia das relações de dependên ia entre as atividades no
log. Assim, tre hos infrequentes de um tra e podem ser des onsiderados do pro esso de
mineração,ouseja,nãorepresentadosnomodelodepro essodes oberto[2,44,13,34,26℄.
Nesta tese, os algoritmos de dete ção propostos utilizaram omo parâmetro de
en-trada uma instân ia de um algoritmo de mineração (pro ess dis overy). No aso, in o
algoritmos foram utilizados: (i) o algoritmo de mineração in remental, uja saída é um
modelo blo o estruturado[51, 3℄; (ii) o algoritmo alpha[46℄; duas extensões do algoritmo
alpha, o (iii)alpha++[54℄ e o (iv) heuristi miner[53℄; além do algoritmo(v) multiphase
miner[50℄.
2.3 Análise de Modelos de Pro essos
Diferentes métri as e métodos de avaliação de pro essos foram propostos na literatura,
tais omoosapresentadosem[42, 35,47,17,40,41℄. Aalst,em[42℄, apresentadois
méto-dos deanálisedepro esso: umqualitativo,baseado naanáliseDelta,eoutroquantitativo,
baseado notestede onformidade. RozinateAalst,em[35℄,apresentam diferentes
métri- as paraotestede onformidade(testedeaderên iaentre ummodeloeumlog). Medeiros
et al., em [17℄, apresentam as métri as pre ision e re all omo instrumento de medição
da equivalên ia omportamental entre dois modelos de pro esso. Por exemplo, tais
mé-tri as são utilizadasnoalgoritmode mineraçãogeneti mining [19℄, omo instrumentode
seleção de modelos omportamentalmentemais aproximados.
Umtrabalhomaisre ente, des ritoem[40℄, relatauma novaformade realizara
audi-toria desistemas,Auditing 2.0. Essa novaformade auditoriaéapoiadaporferramentase
té ni as depro essmining,disponíveisnoProM 1
.Dessaforma,osauditoresnãopre isam
mais se limitar a analisar apenas um sub onjunto limitado dos eventos do log
(normal-mente a auditoria sorteia alguns eventos para analisar), mas o log inteiro, pois todo o
trabalho de auditoriapode ser automatizado. A análise dos logs tambémpode ajudar a
predizer omportamentos do pro esso (tempo de exe ução restante) e realizar
re omen-dações(que atividadespodemser evitadas ouexe utadaspara otimizarumapropriedade
do pro esso).
O modelo de pro esso gerado após a mineração de um log depende dos tra es
exis-tentes nesselog. Entendemos queessa premissaéimportantenadenição dos algoritmos
de dete ção de tra es anmalos apresentados nesta tese, pois a reditamos que um log
ontaminado om tra es anmalosgera um modelo bastantediferentede um outro
mo-delo quando des oberto sem a presença dos tra es anmalos. Para medir essa diferença
é ne essário métri as de avaliação ou análise de modelos de pro essos. Assim,
onside-ramos o uso das métri asde análise omo instrumento de avaliação da onformidade de
um modelo om dois logs: um log que ontém um tra e sob análise, e outro log que não
ontém otra e sob análise. Então, umahipótese adotadanesta tese onsideraqueo grau
de onformidade entre um modeloeum log émuitomenorquando olog ontém umtra e
anmalo. O Capítulo 4 des reve melhor as métri as de onformidade utilizadas e omo
essas métri asde onformidadepodemajudarnopro essodedete çãode tra es anmalos
Denição de Anomalia
O on eito de anomaliaem um log pode ser asso iadoa várias semânti as. Porexemplo,
uma anomalia pode ser um ruído, quando um evento (tarefa) não é registrado ou é
registrado em dupli idade, onsequên ia de algum erro no omponente de gravação do
log, ou mesmo um erro transa ional da apli ação que usa o omponente de gravação no
log.
Uma anomalia também poderia ser uma ex eção, uma imperí ia, ou uma tentativa
de fraude. A anomalia que tem a semânti a de uma ex eção representa uma exe ução
in omum, mas tolerável pelo negó io, já que em ambientes de negó ios exíveis, não é
possível prever todas os aminhos de exe ução permitidos, portanto re orrentemente há
a ne essidade de mudança, por exemplo, para a omodar novas estratégias de negó ios
ou para atender uma ne essidade de um liente muito importante. Nesse aso,
identi- ar a anomaliaé importante para onhe er melhor o negó io, onhe er as situações que
provo am aex eção, oumesmo evitar surpresas.
No entanto, as anomalias que tem a semânti a de uma tentativa de fraude ou uma
imperí iasão in omuns e produzem prejuízosouresultados indesejáveis para onegó io,
sendo imperativo identi á-las.
3.1 Apresentação
A fronteira entre asdiferentes semânti as asso iadasa umaanomaliapode nãoser muito
lara. Porexemplo, onsidere omodelodepro esso hospitalarapresentadonaFigura3.1.
Esse exemplo onsidera o pro esso de tratamento de pa ientes om insu iên ia renal,
ou seja, quando os rins param de fun ionar. Para substituir a função dos rins, dois
tra-tamentos podem ser apli ados: a hemodiálise ou a diálise [30℄. Apesar dos tratamentos
serem onsiderados alternativos (blo oORentre asatividades ed), é omum preparar
a n d
a n d
a
b
c
d
o r
o r
a - R e a l i z a r c i r u r g i a d e f o r m a ç ã o d e u m a f í s t u l a a r t e r e o v e n o s a
b - R e a l i z a r c i r u r g i a d e i n t r o d u ç ã o d e c a t e t e r p e r i t o n e a l
c - E x e c u t a r h e m o d i á l i s e
d - E x e c u t a r d i á l i s e
Figura3.1: Exemplo de pro esso de tratamentode pa ientes om insu iên ia renal.
ambosostratamentospodem ofere erris os ou ompli açõesaopa iente. Assim, um
pa- ientepreparadopara ambosostratamentospodemodi arotratamentoquandohouver
ne essidade.
Emum tratamentode pa ientes om insu iên iarenal, adiálise eahemodiálise não
podemserexe utadasaomesmotempo,pois ara terizariaumaex eçãograve(oumesmo
imperí ia) om onsequên iasmuitodanosasaopa iente, omohipotensãoarterial,perda
de proteínas eoutrosnutrientes. No entanto,háraríssimos asosemqueopa ientepassa
pelos dois tratamentos (diálise e hemodiálise); por exemplo, o pa iente não responde
bem a um dos tratamentos e deve ser submetido imediatamente ao outro tratamento.
Portanto, omo lassi ar essaexe uçãoin omum omoumaimperí ia(erromédi o)ou
uma ex eçãoque exigiuum tratamentoalternativo?
Independentedasemânti aasso iadaàanomalia,ébastante omum onsiderá-la omo
um evento raro ou infrequente. Contudo, lassi ar um tra e (ou instân iade pro esso)
omo anmalo baseando-se apenas em sua frequên ia no log não é simples ou é muito
ingênuo, poiséprovável quealgunstra es normais tambémsejaminfrequentes, ouseja,
alguns aminhos de um modelo de pro esso de negó io podem ser mais exer itados que
outros. Por exemplo, não pare e apropriado lassi ar omo anmalo todos os tra es
om frequên ia no log inferior a 3% ou 4%, pois é provável que tra es normais também
o orram om essas frequên ias no log. Por outro lado, uma abordagem baseada apenas
na frequên ia seria muito ingênua, o que poderia distor er o número de falsos positivos
(instân ias normais lassi adas omo anmalas) e falsosnegativos (instân ias anmalas
lassi adas omo normais).
AFigura3.2ilustraoproblema de lassi ar um tra e omoanmalobaseado apenas
emsuafrequên ia. Talgura ontémummodelodepro essoequatrologs (um omtodos
E x e m p l o s d e l o g s i n c o m p l e t o s .
A b a i x o d e c a d a l o g e s t ã o o s b l o c o s
e s t r u t u r a i s q u e p o d e m s e r i n f e r i d o s .
L o g 1
P o s s í v e i s t r a c e s
a - b - c
a - b - d
b - a - c
b - a - d
a - b - c
a - b - d
b - a - d
1 ) O R ( c , d )
2 ) A N D ( a , b )
L o g 2
a - b - c
b - a - c
b - a - d
1 ) A N D ( a , b )
2 ) O R ( c , d )
L o g 3
a - b - c
a - b - d
b - a - c
1 ) O R ( c , d )
2 ) A N D ( a , b )
L o g 4
a n d
a n d
a
b
c
d
o r
o r
Figura 3.2: Mineraçãode um modelo om um onjuntoin ompleto de tra es.
Na Figura3.2, um sub onjunto dos possíveis tra es de um modelo pode ser utilizado
para re onstruir o mesmo modelo. Por exemplo, no log in ompleto Log 2, os tra es
[a − b − c]
e[a − b − d]
quandomineradospodemgerar omodelo[a − b − or(c, d)]
apartirda in lusão do blo o OR( , d), que indi a uma es olha entre as atividades
c
ed
. Em seguida, aso o tra e[b − a − d]
seja adi ionado a esse modelo, geraria um novo modelo igual ao original[and(a, b) − or(c, d)]
, dessa vez através da adição do blo o AND(a, b), que indi a que as atividadesa
eb
podem ser exe utadas emparalelo (a ou b podem ser on luídas antes).Nesse exemplo, otra e
[b − a − c]
, não existentenolog in ompleto (Log 2)étambém uma instân ia do modelo gerado, pois existe um aminho no modelo de pro esso queoin ide om otra e apresentado, mesmo sem ter sido utilizadopara onstruir o modelo.
Portanto, aso o tra e
[b − a − c]
perten esse aolog e fosse infrequente, não poderíamos lassi á-lo omoanmalo. Dessaforma,há laramenteane essidadede onsideraroutraspropriedades, além dafrequên ia, para lassi ar um tra e omo anmalo.
Estetrabalhotemoobjetivode apresentarmétodos queajudem aidenti arostra es
infrequentes que são anomalias. Assim, outras questões, além da frequên ia, são
obser-vadas nos métodode dete ção de anomalias propostos neste trabalho. Por exemplo, um
métodode dete ção deve onsiderar a denição de um modelode pro esso normal,que
fun ionará omo um lassi ador. No entanto, denir esse modelo é muito ompli ado,
pois:
•
ada domínio de apli açãoexigiriaum modelo diferente;resul-tado de uma evolução naturaldo modelo normal;
•
ouentão, aprópriainstân iaanmalapode ser, propositalmente, umaaproximação de uma instân ianormal geradapelo fraudador.Portanto,éevidentequeosdesaosdoproblemadedete çãodeanomaliasãoenormes,
já que devem onsiderar asvariadasquestões itadas a ima. Como apresentado em [12℄,
há várias denições de anomalia,que onsideramdiferentes pressupostos e dependemda
áreadeapli açãodométododedete ção. Então, onsideramosqueumadeniçãoobjetiva
de anomalia, mesmo que espe í a a um domínio ou que satisfaça ertas ondições e
pressupostos, ajudarianadeniçãodeummétodooualgoritmodedete ção deanomalias.
As Seções 3.3 e 3.4 apresentam duas denições diferentes para tra e anmalo, ada
uma assumindo pressupostos diferentes. No entanto, há denições preliminares omuns
às duas denições de anomalia. Essas denições preliminares serão apresentadas na
Se-ção 3.2. Assim, o objetivo deste apítulo é ofere er um referen ial formal para apoiar o
desenvolvimentode umasoluçãoobjetivaparaoproblemadadete çãodetra es anmalos
em logs geradosporSistemasde Informação orientados a Pro essos de Negó ios.
3.2 Denições Preliminares
O termo tra e, omo ini ialmente apresentado na Seção 1.1, será utilizado nesta tese
omo uma instân ia de pro esso, ou seja, omo um aminho de exe ução de um modelo
de pro esso de negó io. Este tra e representaa ordememqueum onjuntode atividades
ompletou sua exe ução. Assim, o tra e
[a b c d e]
indi a que a atividadea
foi on luída antes daatividadeb
, que foi on luída antes da atividadec
,e assim por diante.A Denição 1 des reve formalmente o que é um tra e, enquanto que a Denição 2
des reveformalmenteo on eito delog,queéorepositóriodos eventos(atividades),epor
onseguinte dos tra es,registrados porum sistema de informação.
Denição 1 Tra e.
Seja
A
um onjunto de atividades. Um tra et
representa a sequen ia de atividades, talque
t ∈ A
∗
. Ouseja, onsiderando que
A
é um alfabetoeA
∗
denota todas as palavrasque
podemser derivadas a partir de
A
, então o tra et
é uma palavra baseada neste alfabeto.Denição 2 Log.
Seja
T ⊆ A
∗
o onjunto dos tra es denido sobre as atividades
A
. O multi onjuntoL = {(t
′
, n) | t
′
∈ T ∧ n ∈ IN
∗
}
é denido omo um log.
NaDenição2éimportanteobservarque
t
′
representauma lassedetra e,enquantoo
no log, ou seja, a frequên ia om que a lasse
t
′
apare e no log. Essa denição baseada
em multi onjunto é mais relevante quando onsiderarmos a utilização de algoritmos de
mineração de pro essos quedependem dafrequên ia dos tra es no log.
No entanto, na práti a, o log que será submetido a um método de dete ção de
tra- es anmalos pre isa ser ltrado, antes da apli ação do método, para remover aquelas
instân ias de pro esso que são laramente anmalas. Por exemplo, no momento em que
um log foi importado/extraídopara análise,váriasinstân ias estavamemexe uçãoe não
foram on luídas, portanto, essas instân ias não devem ser onsideradas nadete ção das
anomalias.
Tempo
Hoje
Data inicial
a)
b)
c)
d)
Início
Fim
Figura3.3: Problemas rela ionados om um log não ltrado.
A Figura3.3 ilustraos problemas que oanalista de domínio pre isaresolver antes de
apli ar algum método de dete ção de tra es anmalos. Nesse aso, é ne essário apli ar
algunsltrosnolog oletadoparaanálise/identi açãodostra es anmalos. Porexemplo,
há quatro tra es nessa gura, que denominamos a, b, , e d. Representamos om linhas
tra ejadas o períodode oletado log utilizado para análise,então:
•
o tra e adeve ser removido,poisnão tem aatividade ini ial;•
o tra e b deve ser removido,pois não tem as atividadesini ial e nal;•
o tra e d deve ser removido,pois não tem a atividadenal;•
o tra e é o úni o que deve permane er no log ltrado, pois representa um tra e ompleto.A denição formalpara log ltrado é apresentada a seguir.
Denição 3 Log Filtrado.
Sejam:
•
Um onjuntoA
S
de atividades ltradas (s oped),tal que
A
S
⊆ A
.
•
Uma função lter(t,A
S
) que remove todas as atividades em um tra e
t
que não estão emA
S
.•
Uma função booleana omplete(t) que retorna false set
é um tra e in ompleto e true quando o tra e é ompleto, ou seja, possui as atividades ini ial e nal (tra eda Figura 3.3).
Então um log ltrado
L
S
⊆ L
é um multi onjunto dos tra es
t
baseados nas atividades emA
S
, omo segue:
L
S
= {f ilter(t, A
S
) | t ∈ L ∧ complete(t)}
Dizemos que um tra e do log tem apa idade de ser exe utado ompletamente pelo
modelo quando há no modelo um aminho de exe ução, do iní io ao m, igual ao tra e
sob análise. Essa apa idade do tra e é medida através da função que hamamos de
tness do tra e, ujadeniçãoformaléapresentadanaDenição4. Para medirograude
tness do log inteiro, que indi a quantostra es observados no log podem ser exe utados
ompletamente pelo modelo, utilizamos a função tness do log, uja denição formal é
apresentadanaDenição5. Dessaforma,umtnessdolog de100%signi aqueomodelo
exe uta o log inteiro.
Denição 4 Fitness doTra e.
Seja
T = {t | (t, n) ∈ L}
o onjunto dos tra es ou lasses dos tra es do logL
. A funçãof
M
: T → IB
é o tness do tra e que indi a se um tra e do logL
é uma instân ia domodelo
M
. Entãoum tra et
éinstân iado modeloM
set
pode sertotalmenteexe utado pelomodeloM
, omo segue:f
M
(t) =
true,
se t pode ser exe utado por Mf alse,
do ontrárioDenição 5 Fitness doLog.
É umafunção
f : {(M, L)|M
is a model∧ L
is a log} → [0, 1]
queindi aograude tness entreummodeloM
eumlogL
, ouseja,esta funçãoindi aquantos tra esdo logL
podem ser ompletamente exe utados pelomodeloM
. Esta função é denida omo segue:f (M, L) =
P
{(t
′
,n
′
)∈L|f
M
(t
′
)}
n
′
P
(t
′′
,n
′′
)∈L
n
′′
3.3 Tra e Anmalo: Denição I
Esta seção onsidera a apresentaçãode uma deniçãode tra e anmalobaseada no
pres-suposto de queumtra e é anmaloquandodemanda elevadograu demodi ação emum
modelo. De outra forma, para um modelo a omodar um tra e anmalo a sua estrutura
sintáti aoudenição -representada pelas atividades,blo os de repetição,paralelismoou
seleção, et . - pre isa ser ex essivamenteaumentada para a omodar o tra e anmalo.
Umalgoritmooumétododedete çãodetra es anmalosdeve onsiderarquequalquer
instân ia existente no log pode ser lassi ada omo um tra e anmalo, ou seja, todas
os tra es do log podem ser uma anomalia. Por outro lado, é muito razoável supor que
apenasaquelasinstân iasinfrequentes nolog sãoostra es andidatos à lassi ação omo
anmalos, omo exposto na apresentação ini ial na Seção 3.1. Assim, apresentamos na
Denição 6 o quedenominamos de Tra e Candidato a Anmalo.
Denição 6 Tra e Candidatoa Anmalo.
Sejam:
•
Um log ltradoL
(Denição 3);•
Um onjuntoC
L
= {c|(c, n) ∈ L}
das lasses de tra es existentes no logL
;•
Um valor realx ∈ (0, 1)
;•
Uma lassec ∈ C
L
dos tra es do logL
.• s
L
=
P
(c,n)∈L
n
a quantidade de tra es no logL
;• f
c
=
S
n
L
a frequên ia da lasse de tra ec
no logL
. Entãot
c
éum tra e andidatoa anmalose perten e ao onjunto
T
C
de tra es andidatos a anmalo omo segue:T
C
= {c ∈ C
L
| f
c
≤ x}
Denição 7 Tra e Anmalo'.
Sejam:
•
Um log ltradoL
(Denição 3).•
Um onjuntoT
C
de tra es andidatos a anmalo(Denição 6).•
Um logL
′
= L − {(t
c
, n)}
, que não ontém um tra e andidatoa anmalo
t
c
∈ T
C
.•
Um modeloM
minerado a partir do logL
′
.•
A função de tness do logf (M, L)
(Denição 5). Entãot
a
é um tra e anmalo se perten e ao onjunto
T
A
de tra es anmalos denido omo segue:T
A
= {t
c
∈ T
C
|f (M, L) ≪ f (M, L
′
)}
A denição a ima foi inspirada pela denição de outlier, utilizadano ampo da
esta-tísti a, e que signi a um valornumeri amente muito distante do resto dos dados. Essa
denição indi a que quando o tness do log om o tra e anmalo é muito menor que o
tness do log sem o tra e anmalo, então a estrutura do modelo
M
pre isaria ser mais omplexa (blo osestruturais AND, OR,et .) para a omodar otra e anmalo. Portanto,tentara omodarumtra e anmaloemummodelodepro essonormal,ouseja,minerado
sem o tra e anmalo,requererá muitas modi ações nomodelo. Este trabalho
desenvol-veu váriasabordagensde dete çãoorientadaspelaDenição7,queserãoapresentadasem
detalhes noCapítulo4.
3.4 Tra e Anmalo: Denição II
Esta seção onsidera a apresentaçãode uma deniçãode tra e anmalobaseada no
pres-suposto de que um tra e éanmaloquando não éinstân iade um modelo apropriado.
Portanto, a denição formal de tra e anmalo depende da denição do que seria um
modelo apropriado.
Consideramosqueummodeloéapropriadoquandosatisfazumvalormínimodafunção
de tness dolog(Denição 5),mas maximizauma função quedenominamos
appropriate-ness (Denição 8). Nesse aso, o valormínimo de tness é um parâmetro que sele iona
alguns modelos, dentre os vários (possivelmente innito) que podem ser des obertos a
partir domesmo log. Por exemplo,no mínimoépossíveltermos tantosmodelos paraum
log quantos algoritmos de mineração de pro esso existirem, se onsiderarmos que esses
algoritmos não en ontram/geramo mesmo modelo para olog.
Para ilustrar melhor o problema de en ontrarmos o modelo apropriado, onsidere a
função detness dolog (Denição5),queindi aoquantodolog pode ser ompletamente
exe utado pelo modelo. Então um tness de 100% indi a que o modelo pode exe utar
por ompleto todos ostra es do log.
Entretanto, um modelo om 100% de tness ainda não é ne essariamente um
mo-delo apropriado, por exemplo, o modelo genéri o da Figura3.4 pode exe utar por
om-pleto qualquer tra e denido om asatividades {A, B, C, D}. Assim, o modelo genéri o
nun a será apaz de dete tar as instân ias anmalos do log baseadas nessas
ativida-des. Um outro exemplo seria o modelo apresentado na Figura 3.5, que para um log