• Nenhum resultado encontrado

Algoritmos de detecção de anomalias em logs de sistemas baseados em processos de negócios

N/A
N/A
Protected

Academic year: 2021

Share "Algoritmos de detecção de anomalias em logs de sistemas baseados em processos de negócios"

Copied!
88
0
0

Texto

(1)
(2)

FICHA CATALOGRÁFICA ELABORADA PELA

BIBLIOTECA DO IMECC DA UNICAMP

Bibliotecária: Maria Fabiana Bezerra Müller – CRB8 / 6162

Bezerra, Fábio de Lima

B469a

Algoritmos de detecção de anomalias em logs de sistemas baseados

em processos de negócios/Fábio de Lima Bezerra-- Campinas, [S.P. :

s.n.], 2011.

Orientador : Jacques Wainer.

Tese (doutorado) - Universidade Estadual de Campinas, Instituto de

Computação.

1.Anomalias. 2.Sistemas de informação gerencial - Medidas de

segurança . I. Jacques, Wainer, 1958-. II. Universidade Estadual de

Campinas. Instituto de Computação. III. Título.

Título em inglês: Anomaly detection algorithms in logs of business process aware systems

Palavras-chave em inglês (Keywords): 1.Anomaly. 2.Management information systems -

Safety measures.

Área de concentração: Ciência da Computação

Titulação: Doutor em Ciência da Computação

Banca examinadora: Prof. Dr. Jacques Wainer (IC – UNICAMP)

Prof. Dr. Duncan Dubugras Alcoba Ruiz (PUC-RS)

Profa. Dra. Flávia Maria Santoro (UNIRIO)

Profa. Dra. Maria Beatriz Felgar de Toledo (IC – UNICAMP)

Prof. Dr. Edmundo Roberto Mauro Madeia (IC – UNICAMP)

Data da defesa: 13/05/2011

Programa de Pós-Graduação: Doutorado em Ciência da Computação

(3)
(4)

Universidade Estadualde Campinas

Algoritmos de Dete ção de Anomalias em Logs de

Sistemas Baseados em Pro essos de Negó ios

Fábio de Lima Bezerra

1

13 de Maiode 2011

Ban a Examinadora:

Prof. Dr. Ja ques Wainer (Orientador)

Prof. Dr. Dun an Dubugras Ruiz

Fa uldade de Informáti a PUC-RS

Profa. Dra. Flávia MariaSantoro

Centrode Ciên iasExatas eda Terra UNIRIO

Profa. Dra. MariaBeatriz Felgar de Toledo Instituto de Computação UNICAMP

Prof. Dr. Edmundo Roberto Mauro Madeira Instituto de Computação UNICAMP

1

(5)

Atualmente háuma variedade de sistemasque apoiam pro essos de negó io (ex. WfMS,

CRM, ERP, SCM, et .). Muitos desses sistemas possuem uma forte ara terísti a de

oordenação das atividades dos pro essos de negó ios, garantindo que essas atividades

sejam exe utadas omo espe i adas no modelo de pro esso. Entretanto, há domínios

om maior ne essidade de exibilidade na exe ução desses pro essos, por exemplo, em

atendimentohospitalar, uja onduta pode variar para ada pa iente. Essa ara terísti a

desses domínios demanda o desenvolvimento de sistemas orientados a pro essos

fra a-mente denidos, ou om exe ução mais exível. Nesses domínios,aexe ução de algumas

atividades omuns podeser violada, ouaexe uçãode uma atividadein omum podeser

ne essária, ouseja,taispro essossão sus etíveisaexe uçõesex ep ionaisoumesmo

frau-dulentas. Assim, oprovimentodeexibilidadenão pode ser onsideradosem melhoraras

questõesrela ionadasàsegurança,poisexibilidadeesegurançasãorequisitos laramente

onitantes. Portanto, é ne essário desenvolver me anismos oumétodos que permitama

onjugação desses dois requisitos em um mesmo sistema, promovendo um balanço entre

exibilidade esegurança.

Esta tese tem por objetivo projetar, implementar e avaliar métodos de dete ção de

anomaliasemlogsdesistemasdeapoioapro essosdenegó ios,ouseja,odesenvolvimento

demétodosutilizadosparades obrirquaisinstân iasdepro essopodemserumaexe ução

anmala. Desta forma, através da integração de um método de dete ção de anomalias

om um sistema de apoio a pro essos de negó io, tais sistemas poderão ofere er um

ambiente de exe ução exível, mas apaz de identi ar exe uções anmalas que podem

indi ar desde uma exe ução ex ep ional, até uma tentativa de fraude. Assim, o estudo

de métodos de dete ção de eventos anmalosvem preen her um espaço pou o explorado

pela omunidade de pro ess mining, que tem demonstrado maior interesse em entender

o omportamento omum em pro essos de negó ios. Entretanto, apesar desta tese não

dis utir osigni ado das instân ias anmalas,osmétodos de dete ção apresentados aqui

(6)

Nowadays, many business pro esses are supported by information systems (e.g. WfMS,

CRM, ERP, SCM, et .). Many ofthese systems have astrong hara teristi of

oordina-tionofa tivitiesdenedinthebusinesspro esses,mainlyforensuringthatthesea tivities

are performedasspe iedinthepro essmodel. However, therearedomainsthatdemand

more exiblesystems, forexample,hospitalandhealthdomains,whosebehavior an vary

forea hpatient. Su hdomainsofappli ationsrequireaninformationsysteminwhi hthe

business pro esses are weakly dened, supporting more exible and dynami exe utions.

Forexample, the exe utionof some ommona tivities may be violated,or some unusual

a tivity may be enfor ed for exe ution. Therefore, in domains of appli ations in whi h

the systems support a high level of exibility the business pro esses are sus eptible to

ex eptional or even fraudulent exe utions. Thus, the provision of exibility an not be

onsideredwithoutimprovingthese urityissues,sin ethereis learlyatrade-obetween

exibilityandse urityrequirements. Therefore,itisne essarytodevelopame hanismto

allowthe ombinationof these two requirements in a system, that is, a me hanism that

promotes abalan e between exibility and se urity.

This thesis aims todesign, implementand evaluate methods for dete ting anomalies

in logsof pro ess-aware informationsystems, thatis,the development ofmethodsto nd

out whi h pro ess instan es may be an anomalous exe ution. Thus, when in orporating

a method for dete ting anomaliesinsu h systems, itwould bepossible to oera exible

and safer exe ution environment, sin e the system is also able to identify anomalous

exe utions, whi h ould be a simple ex eption or a harmful fraud attempt. Thus, the

study of methods for dete ting anomalous events will ll an area largely unexplored by

the ommunity of pro ess mining, whi h has been mainly interested in understanding

the ommon behavior in business pro esses. Furthermore, although this thesis does not

dis uss the meaning of an anomalous instan e, the methods and algorithms presented

(7)

Agradeço a DEUS, que na sua omnipotên ia,medeu vida,fortaleza, sabedoria e

inteli-gên iapara trabalharnessa tese. Tambémmeforne eutodas asrazõesparanão esque er

de registraros próximosagrade imentos.

Agradeçoaomeugrandeorientador,Prof. Ja quesWainer, ujainteligên ia,humor

e sabedoria meimpressionam. Obrigado pormedeixar trabalhar de asa!

Agradeço às agên ias de pesquisa que forne eram-me o suporte material ne essário

para manter-me rme nopro esso de on lusão desta tese.

Agradeço ao supervisor de meu estágio doutoralna Holanda, o Prof. Wil van der

Aalst,pelaoportunidadedetrabalhar omumgrupodepesquisadoresmuito ompetentes

na área de Pro ess Mining.

Agradeçoaos meuspais,Aldenora( arinhosamente hamadapelaminhalhade Vó

Lola) eClaudionor (Dod).

Agradeçoaos meus irmãos,Eduardo e Diego.

Agradeço a minha esposa Erika pela par ela de investimento nesse projeto

pro-ssional, pois a redito que nenhum su esso prossional pagaria o preço de um fra asso

pessoal.

Agradeçoaminhalha Ana Beatriz,queindiretamentememantém rme nodesejo

de ser um exemplo.

Agradeçoaos meus muitos familiares. Com eles entendi que orgulhar-se é motivar.

Agradeço aos meus amigos de Campinas, Eindhoven e Belém, que apesar de juntos

formarem um onjunto nito, preferi me a ovardar em itá-los que orrer o ris o de

esque er algum nome aqui. Amigos, vo ês foram muito importante para o m dessa

(8)

Resumo v Abstra t vi Agrade imentos vii 1 Introdução 1 1.1 Contextualização eProblema . . . 1 1.2 Abordagens de Dete ção . . . 3

1.3 Dados para avaliação dos algoritmos . . . 4

1.3.1 Utilização de Dados Sintéti os . . . 5

1.3.2 Abordagens de Criação dos Tra es Anmalos . . . 5

1.3.3 Criação dos Logs . . . 7

1.4 Roteiro . . . 9

2 Trabalhos Correlatos 11 2.1 Dete ção de Eventos Anmalos . . . 12

2.2 Mineração de Pro essos. . . 13

2.3 Análise de Modelos de Pro essos. . . 15

3 Denição de Anomalia 17 3.1 Apresentação . . . 17

3.2 DeniçõesPreliminares . . . 20

3.3 Tra e Anmalo: Denição I . . . 23

3.4 Tra e Anmalo: Denição II . . . 24

4 Dete ção de Anomalias: Grau de Modi ação do Modelo 27 4.1 Mining In remental: EmDireção a Dete ção de Anomalia . . . 28

4.1.1 Regras de Deniçãodo Modelo . . . 28

(9)

4.1.4 Projeto Ini ialdoAlgoritmo Threshold . . . 35

4.1.5 Projeto Ini ialdoAlgoritmo Iterativo . . . 38

4.2 Integração om o Framework ProM . . . 39

4.2.1 Algoritmos de Mineração . . . 41

4.2.2 Métri as de Conformidade . . . 42

4.2.3 Algoritmo Sampling . . . 43

4.2.4 Algoritmo Threshold . . . 43

4.2.5 Algoritmo Iterativo . . . 45

4.3 Estudo Comparativodos Algoritmos . . . 46

4.3.1 Criação dos logs para avaliação . . . 46

4.3.2 Parametrizaçãodos algoritmosavaliados . . . 47

4.3.3 Exe ução e Resultados . . . 49

5 Dete ção de Anomalias: Seleção do Modelo mais Apropriado 56 5.1 Visão Geral . . . 56

5.2 Apli ação doProM . . . 57

5.2.1 Etapa 1: Preparação doLog . . . 58

5.2.2 Etapas 2 e 3: Mineraçãoe Separação dos Modelos de Pro esso . . . 58

5.2.3 Etapa 4: Seleçãodo modelo mais apropriado . . . 59

5.2.4 Etapa 5: Classi açãodos Tra es . . . 60

5.3 Estudo de Caso . . . 61

5.3.1 Etapa 1: Preparação doLog . . . 61

5.3.2 Etapas 2, 3e 4: Mineração, Separação eSeleção doModelo . . . 62

5.3.3 Etapa 5: Classi açãodos Tra es . . . 64

5.4 Considerações Finais . . . 64

6 Con lusões 66 6.1 Contribuições . . . 66

6.2 Trabalhos Futuros. . . 68

6.2.1 Pro ess Mining: Fluxo,Caso e Organiza ional . . . 68

6.2.2 Pro ess Dis overy . . . 69

6.2.3 Métri as de avaliação . . . 70

6.2.4 Áreas de interesse . . . 70

(10)

1.1 Exemplo de riaçãode um modelo de pro esso . . . 8

4.1 Parâmeros para riaçãodos modelos. . . 46

4.2 Desempenho médio daexe ução dos algoritmos om o grupo de teste. . . . 50

4.3 Resultado doTukey HSD Test. Todos osalgoritmos.. . . 50

4.4 Resultado doTukey HSD Test. Número de lasses. Todos os algoritmos. . 51

4.5 Resultado doTukey HSD Test. Número de atividades. Todos os algoritmos. 52

4.6 Resultado doTukey HSD Test. Número de o orrên ias. Todos osalgoritmos. 53

4.7 Diferença entre asmédias. Número de lasses. AlgoritmoSampling. . . 53

4.8 Diferença entre asmédias. Número de o orrên ias. Algoritmo Sampling.. . 54

4.9 Diferença entre asmédias. Número de atividades. Algoritmo Sampling. . . 54

5.1 Frequên ia das atividadesque ini iam eterminamos tra es dolog . . . 62

(11)

1.1 Exemplo de riaçãode tra es anmalos.. . . 6

1.2 Representação grá a domodelo [a, or([or([℄, [b℄)℄, [ ℄), d℄. . . 8

1.3 Modelo [a,or([or([℄, [b℄)℄, [ ℄), d℄ enrique ido om probabilidades. . . 9

3.1 Exemplo de pro esso de tratamentode pa ientes om insu iên ia renal. . 18

3.2 Mineração de um modelo om um onjunto in ompletode tra es. . . 19

3.3 Problemas rela ionados om um log não ltrado.. . . 21

3.4 Exemplo de modelosimples e muito genéri o. . . 25

3.5 Exemplo de modelo omplexo e espe í o. . . 25

4.1 Bus a gulosa pelomenor modelo. . . 30

4.2 Exemplo damineração de um log om três tra es. . . 31

4.3 Exemplo do ál ulo do usto de in lusão. . . 33

4.4 Valores em

L

100

e

L

70

. . . 37

5.1 Visão geral daabordagem. . . 57

(12)

1 Primeiro projeto doalgoritmoSampling. . . 34

2 Primeiro projeto doalgoritmoThreshold. . . 35

3 Primeiro projeto doalgoritmoIterativo. . . 38

4 Algoritmo Sampling . . . 43

5 Algoritmo Threshold . . . 44

(13)

Introdução

Um pro esso de negó io é um onjunto de atividades e re ursos (humanos ou materiais)

organizados para resolverum problema parti ular,ouseja, produzirum valora partirde

um pro essamentode entrada. Háempresas que ostumamadotar um onjuntode

ferra-mentas omputa ionais queautomatizama exe uçãoougeren iamentode seus pro essos

a m de melhoraroumesmo onhe er seus pro essos de negó ios.

Durante a dé ada de 90, em razão das novas tendên ias na área de geren iamento,

os sistemas de informaçãoorientados a pro essos (do inglês, Pro ess Aware Information

Systems, PAIS) foram amplamente adotados nas organizações [22℄. A adoção desses

sistemas representava uma mudança dos sistemas orientados a dados, para sistemas

ori-entados apro essos,que laramenteseparamlógi adonegó ioeapli ações, oquefa ilita

mudanças nos modelos de pro esso adotados.

Essas ferramentas omputa ionais, possuem pelo menos dois objetivos: (i) orientar

e onduzir o pro esso de negó io; e (ii) orientar os usuários a realizarem orretamente

os seus trabalhos [25℄. Esses sistemas são ofere idos em diferentes formatos e para

apli- ações variadas, por exemplo: ERP (Enterprise Resour e Planning), CRM (Customer

Relationship Management),SCM (SupplyChainManagement),WfMS(Workow

Mana-gement System),entre outros.

1.1 Contextualização e Problema

A ne essidade de aderên iaa requisitoslegais foitambémresponsável pelaadoção desses

sistemas (PAIS), poiseles apoiamas melhorespráti asde governança (ex. COBIT,

Con-trol Obje tives for Information and related Te hnology), ouseja, melhoramo ontrole da

exe ução dos pro essos. Nesse ontexto há oexemplo da Sarbanes-Oxley A t, que é uma

lei federal nos Estados Unidos, riada emresposta aos es ândalos ontábeis e nan eiros

(14)

Por outro lado, o ontrole de pro esso de negó ios de empresas om modelos de

pro- essos muito dinâmi os, espe ialmente sensíveis a ompetitividade,não deve ser apoiado

por sistemas normativos, por exemplo, por um WMS (do inglês, Workow Management

System). Essas empresas exigem modelosexíveis de geren iamentode seus pro essosde

negó io, pois pre isam responder rapidamente a novas estratégias de mer ado ou novos

modelosde negó io.

Além disso, em ertos domínios de apli ação, omo desenvolvimento de software e

atendimento hospitalar, onde o ontrole dos pro essos também não pode ser realizado

através de uma ferramenta normativa, pois o modelo opera ional do pro esso não é

to-talmente onhe ido antes de sua exe ução, portanto, não pode ser representado antes de

sua exe ução. Nesses domíniosos parti ipantes do pro esso ne essitam de maior

exibi-lidade para exe utar seu trabalho. Por exemplo, no ontexto de atendimento hospitalar,

o sistema não pode obrigar a exe ução de uma tarefa espe í a (ex. administração de

um medi amento) em um dado atendimento, pois, mesmo que tal atendimento seja

se-melhante a outros, essa exe ução é úni a e deve ser exível em relação ao parti ipante

(ex. médi o ou enfermeiro), permitindo que o mesmo exe ute a tarefa que julgar mais

apropriada ou até onveniente (ex. administrar um medi amento X na ausên ia de um

medi amentoY). Neste exemplo, aexibilidadeéofere ida quando oparti ipantede ide

qual atividade exe utar.

Poroutro lado,um sistemade informação ommaior exibilidadede exe uçãoé mais

vulnerávelaexe uçõesin orretasouatéfraudulentas, poisosusuáriostêmliberdadepara

exe utar a(s) atividade(s) que julgarem ne essária(s) durante uma instân ia de pro esso

em parti ular. Portanto, há laramente um enário onitante entre os interesses de

exibilidadeedesegurança,porexemplo,quedi ultemouevitemao orrên iadefraudes.

Em outras palavras,osistema deve provera exibilidadeporrazões de ompetitividade,

mas também deve evitar ou identi ar o mau uso do sistema. Assim, há laramente

uma demanda por sistemas de auditoria, e palavras omo BAM (do inglês, Business

A tivity Monitoring), BOM (do inglês, Business Operations Management) e BPI (do

inglês, Business Pro ess Intelligen e) ilustram o interesse de empresas forne edoras de

sistemasemdesenvolversoluçõesde monitoramentoeanálisede pro essode negó ios[36℄.

Esta tese tem o objetivo de desenvolver soluções que satisfaçam os interesses

on-itantes de exibilidade e segurança em ambientes ou apli ações apoiadas por sistemas

geren iadoresdepro essosdenegó ios. Espe i amente,estetrabalhodesenvolverá

méto-dos dedete ção deinstân iasde pro essos,também hamadasde tra es, que ara terizem

uma anomalia,ouseja,uma exe uçãoirregular,que pode estar vin uladaa diferentes

se-mânti as, in lusiveade umafraude. Então, a integração de uma ferramentade dete ção

(15)

zes de identi ar as instân ias anmalas aomesmo tempo emque apoiariam a exe ução

exível dos pro essos de negó ios.

1.2 Abordagens de Dete ção

Um pro esso de negó ioa omodatrês perspe tivasde informações: (i)a perspe tiva

or-ganiza ional,quedes reveosresponsáveispelasatividades;(ii)aperspe tivadosdados

manipulados pela exe uçãodo pro esso;e (iii)a perspe tivado uxo de ontrole, que

des reve as atividadesdo pro esso, além das restrições de ordem de exe uçãodessas

ati-vidades [44, 48℄. A altaoferta de logs gerados pelos sistemas de informação e a elevada

perspe tiva de adoção de sistemas de geren iamento de pro esso motivaram o

desenvol-vimento da área de pro ess mining, interessada prin ipalmenteem des obrir modelos de

pro essos a partir de um log[44, 48,46,45℄.

Entretanto,movimentosda omunidadea adêmi atêmdemonstradoane essidadede

des obrir tambémo omportamentonão normalouanmalo,queeventualmenteexistam

nesses logs[43, 3, 5, 4, 8, 7, 9, 10, 11℄. Esta tese explora duas abordagens de dete ção,

todas baseadas naavaliaçãodouxo de ontroledas instân ias de pro esso analisadas

(tra es). Assim, quando um modelo de pro esso possui um aminho que a omode a

exe ução (uxo) de um tra e do log, dizemosqueesse tra e asa om omodelo,portanto

é um tra e normal, do ontrário,é um tra e anmalo.

A primeira abordagem, apresentada no Capítulo 4, onsidera um tra e anmalo

quandoesse tra e,paraserexe utado, exigegrandesmodi açõesnomodelode pro esso

de negó iodes oberto porum algoritmo/métodode mineraçãode pro essos. Asegunda

abordagem, apresentada no Capítulo5, lassi a um tra e omo anmalo se esse tra e

não é instân ia de um modelo apropriado, onde apropriado signi a: (i) um modelo

dinami amente des oberto por um algoritmo/método de mineração de pro essos, que

(ii) é apaz de exe utar ompletamente um número mínimo de tra es do log utilizado

para en ontrar o modelo, e (iii) maximiza uma função que representa o balanço entre

omplexidade (tamanho do modelo) e espe i idade ( apa idade de exe utar apenas os

tra es dolog).

Aimplementaçãode adaumadas abordagensexploradasnestatese possui diferentes

variações de omposição. Por exemplo, um número variado de algoritmos de mineração

de pro esso pode ser utilizado para gerar os modelos de pro essos usados na dete ção

da anomalia. Além das opções de algoritmos de mineração de pro esso, há também

uma variada disponibilidade de ferramentaspara avaliação de modelos (ex.: métri asde

onformidade). Essasopçõesdeferramentasdeavaliação onsideram ara terísti as omo

(16)

As ferramentas utilizadas para ompor a implementação das abordagens, ou estão

disponíveisgratuitamentenoFramework ProM 1

,ou foramimplementadas. Entre as

fer-ramentasimplementadaspodemos itaroalgoritmodemineraçãoin rementaleamétri a

de ál ulo de usto de in lusão[51, 3, 5, 8℄. Assim, em razão das diferentes variações de

omposição dos algoritmosde mineração de pro essos e algoritmosde análise de

pro es-sos, temos diferentes soluções de dete ção de tra es anmalos. Cada solução foi

exausti-vamente testada om uma variada oleção de logs sinteti amente riados, ujo pro esso

de avaliação e geraçãodos logs éexpli ado naSeção 1.3.

1.3 Dados para avaliação dos algoritmos

O pro esso de desenvolvimento dos algoritmos propostos neste trabalho onsiderou a

exe ução de quatro atividades:

1. A deniçãointuitiva ou formal detra e anmaloqueapoieopro essode on epção

de um algoritmode dete ção.

2. A on epção de um algoritmo, ou seja, uma proposição abstrata do que

a redita-mos, a partir de estudos teóri os, ser uma boa abordagem de dete ção dos tra es

anmalos, omo anteriormente denidos.

3. O projeto e implementação do algoritmo em alguma linguagem de programação,

assim temos um omponente de software real que pode ser avaliado.

4. Finalmente, a avaliação doalgoritmo implementado, que para ser avaliado,

ne es-sitavade um onjunto de logs om tra es anmalosidenti ados. Assim, a e á ia

dos algoritmosde dete çãopode ser medidae ébaseada emminimizaronúmerode

falsos positivo (tra es normais lassi ados omoanmalos) e maximizaro número

de verdadeiros positivo (tra es anmalos lassi ados omo anmalos).

Por estarmos realizando uma pesquisa experimental, a reditamos que a atividade de

avaliaçãosempreéde isivaparaimprimirum aráter ientí o,bem omovalidaros

resul-tados,espe ialmenteporqueosalgoritmospropostosserãoavaliados omdadossintéti os.

Na Seção1.3.1 apresentamosuma justi ativaparautilizaçãode dadossintéti os no

pro- esso de avaliaçãodos algoritmos. NaSeção 1.3.2apresentamos omo ostra es anmalos

são riados, ou seja, que ara terísti as diferem os tra es anmalos quando omparados

om as instân ias etra es normais. Finalmente, naSeção 1.3.3apresentamos a dinâmi a

de riaçãodos logs utilizadosnaavaliaçãodos algoritmos.

(17)

1.3.1 Utilização de Dados Sintéti os

Dois motivos inuen iaram o uso de dados sintéti os na avaliação dos algoritmos: (i) a

indisponibilidade de uma fonte om dados reais; mas prin ipalmente (ii) a impre isão

da denição de tra e anmalo em um log real, pois para avaliarmos a e á ia da

dete -ção seria ne essário onhe ermos o(s) tra e(s) anmalo(s) no log antes da apli ação do

algoritmo, o que seria extremamente ompli ado ou mesmo impossível om dados reais.

Quantoaoproblema daimpre isão dadenição de um tra e anmaloemum log (item ii

a ima),Panditetal.,em[32℄,des revemsu intamenteoproblemadeidenti aras

instân- ias anmalas em um onjunto de dados reais. A identi ação manual dessas instân ias

anmalas é muito dispendiosae subjetiva, pois é provável que duas pessoas lassiquem

de formadiferente normal ou anmala amesma instân ia. Alémdisso a denição de

anomalia variade domínio para domínio.

Diferentemente, autilizaçãode dadossintéti os simpli aa avaliação dos algoritmos,

poisao onhe ermosomodelodepro esso utilizadopara riarolog,ostra es normaissão

os tra es que são instân iadesse modelo, enquanto que os tra es anmalossão os tra es

que nãosão instân iadessemodelo(um ritériobemobjetivodoqueseriaumainstân ia

de pro esso anmala). Dessa forma, um log é normal aso seja omposto apenas pelas

instân ias domodelo que gerouesse log.

Entendemos que a utilização de dados reais poderia imprimir ao trabalho um valor

ientí omaior,jáqueosresultadossus itariammenosdúvidasdaapli açãodosmétodos

de dete ção em enários reais. Entretanto, a reditamos que os logs sintéti os utilizados

neste trabalhosão uma boa aproximação de enários reais, omo des reve a Seção 1.3.2.

Dessa forma, entendemos que os resultados e as on lusões apresentadas nesta tese são

signi ativos.

1.3.2 Abordagens de Criação dos Tra es Anmalos

Os logs utilizadosnaavaliação são preen hidos om tra es normaisetra es anmalos,do

ontrárioseriamuito ompli adoouatémesmoimpossívelmediraa urá iadosalgoritmos

de dete çãoemen ontrarasinstân iasanmalas. Umavez quea riaçãodolog ébaseada

em um modelo de pro esso dinami amente onstruído e de forma aleatória, o problema

seria omo onstruir ostra es anmalose adi ioná-los aolog.

No aso da riação dos tra es anmalos, utilizamosdiferentes estratégias de geração,

itadas a seguir:

Dupli ação de uma Atividade Aleatória do Tra e. Essa abordagem onsidera a

dupli ação de uma atividadede um tra e que é instân iadomodeloutilizado para

(18)

P o s s í v e i s t r a c e s

a - b - c

a - b - d

b - a - c

b - a - d

P o s s í v e i s t r a c e s

a - d - c

a - c - d

b - d - c

b - c - d

a n d

a n d

a

b

c

d

o r

o r

o r

o r

a

b

c

d

a n d

a n d

A )

B )

Figura1.1: Exemplo de riaçãode tra es anmalos.

Figura 1.1, e foi riado a partir do tra e normal

[a − b − c]

, através da dupli ação da atividade

a

.

Remoção de uma Atividade Aleatória do Tra e. Essa abordagem onsidera a

re-moçãode umaatividadede um tra e queéinstân iadomodeloutilizadopara riar

o log normal. Por exemplo,o tra e

[a − b]

éanmaloaomodeloa) daFigura1.1, e foi riado a partirdo tra e normal

[a − b − c]

,através daremoção daatividade

c

.

In lusão de uma Atividade Aleatória do Log. Essa abordagem onsidera a

in lu-são de uma atividade no tra e dentre asatividades que foram exe utadas emtodo

o log. Por exemplo, o tra e

[a − b − x − c]

é anmalo ao modelo a) da Figura 1.1 e foi riado a partir do tra e normal

[a − b − c]

, através da in lusão da atividade

x

, assumindo que a atividade

x

é uma atividade existente no log. No exemplo da Figura 1.1, a atividade

x ∈ {a, b, c}

, já que são as úni as atividadesque previsíveis pelomodelodepro essoe ontidasno onjuntode possíveistra es. Essaabordagem

de geração de tra e anmalo pode gerar um tra e semelhante a um tra e gerado

pelaabordagemde dupli ação. Esseresultado éobtidoquandoaatividadesorteada

para ser in luída no tra e oin ide om uma das atividades do tra e original, no

exemplo om o tra e

[a − b − c]

, seriam asatividades

a

,

b

ou

c

.

Tro a de Blo os Estruturais AND e OR. Essa abordagem de geração de tra es

anmalos éilustrada naFigura 1.1. Ospossíveis tra esdo modelo A são anmalos

(não são instân ia) aomodelo B, evi e-versa. Diferentedas abordagens anteriores,

essaabordagem onsideraprimeiramenteamodi açãodeummodeloqueexiste(no

(19)

Éimportanteobservarque todas asabordagens de geraçãodos tra es anmalos

apre-sentadas a ima onsideram o mesmo onjunto de atividadesdos tra es normais.

A redi-tamos que essa estratégia de riação dos tra es anmalos aumenta o rigor da avaliação,

pois aso utilizássemos atividades diferentes das utilizadas nos tra es normais, os tra es

anmalos seriammuito diferentes dos normais,oque possivelmentesimpli aria a

dete -ção desses tra es. Além disso, é razoável a reditar que em enários reais um fraudador

não tentará exe utar novas atividades, pois maximizariaa possibilidade de identi ação

da fraude.

Além disso, as abordagens de geração dos tra es anmalos orroboram para enários

de anomalia uja semânti a esteja rela ionada a tra es que representam um ruído,

nor-malmente gerado pelos apli ativos responsáveis pelo log, ou mesmo uma ex eção. Por

exemplo, a dupli ação ea remoção de atividadespodem representaras situações emque

o sistema de log, por alguma falha, registra mais de uma vez um evento (atividade), ou

mesmo não o registra.

1.3.3 Criação dos Logs

A riação dos logs éautomatizadaporduas funções. Umafunção é responsávelpor riar

um modelo de pro esso, enquanto outra é responsável por riar os tra es ou instân ias

a partir de um modelo de pro esso informado. A riação do modelo de pro esso deve

pre eder à riação dos logs porque o modelo representa a matriz dos tra es normais.

Assim, uma vez queostra es normaissão onhe idos,ostra es anmalossão aquelesque

são diferentes das instân ias normais, riados omo expli ado na Seção 1.3.2, e também

não são instân ias domodelo utilizadopara riar ostra es normais.

A função responsável pela riação dos modelos é baseada em in o parâmetros, omo

segue:

o tamanho máximo do tra e (número máximo de atividadesdo maior tra e) que o modelode pro esso pode riar (instan iar);

o tamanhomínimo do tra e (número mínimo de atividades do menor tra e) que o modelode pro esso pode riar (instan iar);

o número mínimode tra es queo modelo pode riar;

o número máximo de tra es que omodelopode riar 2

;

2

Paraosmodelosquepossuamalgumaestruturadeloop,asinstân ias riadasapartirdessesmodelos

(20)

a quantidade de modelos que devem ser riados que satisfaçam os parâmetros for-ne idos a ima.

É importante observar queapesar dageração dos modelosser orientada por

parâme-tros que nós forne emos, e os tra es anmalos adi ionados aos logs serem identi ados,

nenhuma dessas informações é onhe ida pelos algoritmos de dete ção. Portanto, nem

os modelos dinami amente riados para gerar os tra es normais, nem os tra es

anma-los, riados a partir dos tra es normais e do modelo de pro esso, são onhe idos pelos

algoritmos de dete ção.

Osmodelosdepro essosão riadosatravésda ombinaçãoaleatóriadeblo os de

ons-trução (AND, OR, LOOP e atividade), pois são es olhidos por sorteio em ada tre ho

da onstrução do modelo. Por exemplo, a Tabela 1.1 ilustra omo o algoritmo de

gera-ção/ onstrução de modelos onstrói o modelo

[a, or([or([], [b])], [c]), d]

, ou seja, os passos da geraçãodo modelo, ujográ o equivalente éexibido na Figura1.2.

A

B

C

D

OR

OR

OR

OR

Figura1.2: Representação grá a domodelo [a, or([or([℄, [b℄)℄, [ ℄), d℄

Passo (des rição) Efeito

Sorteado adi ionaruma atividade [a℄

Sorteado adi ionarum blo oOR [a, or([?℄, [?℄)℄

O blo oORtem dois ramos,que são outros dois modelos

Sorteado adi ionarum blo oOR [a, or([or([?℄, [?℄)℄,[?℄)℄

O blo oORtem dois ramos,que são outros dois modelos

Sorteado adi ionaruma transição vazia [a, or([or([℄, [?℄)℄, [?℄)℄

Sorteado adi ionaruma atividade [a, or([or([℄, [b℄)℄, [?℄)℄

Sorteado adi ionaruma atividade [a, or([or([℄, [b℄)℄, [ ℄)℄

Sorteado adi ionaruma atividade [a, or([or([℄, [b℄)℄, [ ℄), d℄

Tabela1.1: Exemplo de riação de um modelode pro esso

Épossívelobservarnatabelaqueomodeloé onstruídoatravésdaadiçãodeelementos

(21)

om um sinal de interogação emnegrito. Para omodelo de pro esso

[a, or([or([], [b])], d)]

, os tra es om tamanhomáximo quepodemser gerados são

[a, b, d]

e

[a, c, d]

. Alémdisso, esse modelotambémpode gerar nomáximoos seguintes tra es: (i)

[a, b, d]

,(ii)

[a, c, d]

e (iii)

[a, d]

.

Umavez quetem-se omodelo de pro esso,gerado pelafunção de riaçãode modelos,

um onjuntodetra es normaiseanmalossãogerados. Comoadistribuiçãodafrequên ia

dos tra es ontidos no log é variável para ada lasse de tra e (normal ou anmalo), a

função de riação do log ini ialmente popula aleatoriamente os blo os OR e LOOP do

modelo riado om frequên ias que indi am a han e de um determinado aminho ser

exe utado, enquantoquepara osblo os ANDtodas asvariaçõespossíveisde ombinação

das atividadesdo blo otem a mesma han e de o orrer, mas uma será sorteada durante

a geração dotra e. A Figura 1.3é uma variaçãoda Figura1.2, mas om a denição das

probabilidadesnosblo osOR.Nessaguraépossívelobservara han equeostra es,que

podem ser riados a partir do modelo sem probabilidades, têm de serem riados emum

log pelomodelo om probabilidades. Porexemplo, otra e

[a, d]

tem

10, 5%

de han ede ser adi ionado emum log normal.

A

B

C

D

OR

OR

OR

OR

35%

65%

70%

30%

[A, B, D] - 24,5%

[A, D] - 10,5%

[A, C, D] - 65%

Figura1.3: Modelo [a, or([or([℄, [b℄)℄, [ ℄), d℄ enrique ido om probabilidades.

Assim, oslogsutilizadosnesta tesepara avaliaçãodos algoritmos ombinam ostra es

normais, om distribuição não uniforme das lasses de tra e que podem ser instan iadas

pelomodelo,e tra es anmalos,que são riadosa partirdas abordagens apresentadas na

Seção 1.3.2.

1.4 Roteiro

Esta tese está organizada em seis apítulos, in luindo esta introdução. No Capítulo 2

apresentamos uma revisão bibliográ ade trabalhos rela ionados om o problema

(22)

anmalos, mas em outros ontextos de apli ação; na Seção 2.2 apresentamos trabalhos

rela ionadosamineraçãodepro essosdenegó ios(pro essmining),ferramentamuito

uti-lizada pelas abordagens de dete ção propostas nesta tese, mas que desde sua on epção

tinha omo prin ipalobjetivo estudar o omportamento normaldos pro essos, enquanto

nestetrabalhoéutilizadaparaidenti aro omportamentoanormal;nalmente,naSeção

2.3 apresentamos trabalhos rela ionados aferramentas ealgoritmosde análisede

pro es-sos de negó ios, que também foram assessórias as abordagens de dete ção exploradas

neste trabalho.

No Capítulo3 apresentaremosduas deniçõespara tra e anmalo: (i) uma denição

utilizada pela abordagem de dete ção baseada no grau de modi ação de um modelo

de pro esso de negó io, apresentada na Seção 3.3, e (ii) uma denição utilizada pela

abordagemde dete ção baseada naseleçãodomodelode pro essomais apropriado,

apre-sentada naSeção3.4. Oobjetivodesse apítuloéapresentarum referen ialteóri oparaa

on epçãodos algoritmoseabordagensde dete çãode anomaliadesenvolvidas nestatese.

NosCapítulos4e5,quesãoos apítulos entraisdestetrabalho,apresentamosasduas

abordagensde dete ção detra es anmalosemlogs de sistemasorientadosapro essosde

negó io desenvolvidas nesta tese. A primeira abordagem de dete ção, detalhada no

Ca-pítulo 4, lassi aum tra e omo anmalose este tra e,para ser instân iade um modelo

de pro esso, ne essita que o modelo a omode/implemente muitas alterações de sua

de-nição. A soluçãode dete ção om melhordesempenho quantoa apa idadede lassi ar

orretamenteum tra e omonormalouanmalofoiaabordagemdesampling baseadono

algoritmo de mineração in remental. Entretanto, essa soluçãoé inadequada em enários

reais, poisautilidadedoalgoritmodemineraçãoin rementalélimitadaalogs om pou a

variaçãode lasse etra es de nomáximo10 atividades. Então, um algoritmosemelhante

foi on ebido, mas baseado em ferramentas de mineração mais robustas. Apresentamos

na Seção 4.3uma análise exaustiva de algoritmosque seguemesse modelo de dete ção.

Asegundaabordagemdedete ção,detalhadanoCapítulo5, onsideraabus aporum

modelo de pro esso hamado modelo de pro esso apropriado. Então, os tra es anmalos

são ostra es que não são instân iadesse modelo, denominadode modelo apropriado. No

aso dasegunda abordagem de dete ção, foi onduzido um estudo om um log real, e os

resultados são apresentados naSeção 5.4.

Finalmente, no Capítulo 6 apresentamos as on lusões sobre os estudos empíri os

(23)

Trabalhos Correlatos

ApresentamosnaSeção2.1algumaspropostasdealgoritmosutilizadosparadete tar

even-tos anmalosemdiferentes áreas de apli ação. Este apítulonão tem oobjetivo de listar

todos os trabalhos rela ionados à dete ção de anomalia, mas sim o de apresentar uma

visão geral doquantoinvestigar edete tar o orrên iasde eventos anormaisé importante

para a área de segurança edata mining. No entanto,esta seção tambémserá importante

para indi ar que no ontexto de pro essos de negó ios há pou a ontribuição da

omu-nidade ientí a, o que representa uma grande oportunidade para o desenvolvimento de

ontribuições inovadoras na área. Por exemplo, a omunidade de pro ess mining

histo-ri amente dedi ou maior interesse em estudar o omportamento omum ou normal dos

pro essos de negó ios,ao ontrário destatese, queestá interessada emidenti ar aquelas

o orrên iasde instân iade pro esso quesão in omunsouanmalas, omodenominamos.

No ontextodestetrabalho, pro essmining éutilizado omo umaferramentadeapoio

à lassi ação de um tra e omoanmaloou normal,poiso modelo geradopor um

algo-ritmo de mineração pode apoiaropro esso de lassi açãode um tra e dolog. Portanto,

entendemos quea e á ia damineração, medidaatravés da apa idade de onstruir

mo-delos de pro esso que des revem bemum log, tem inuên ia na e á ia da lassi ação

dos tra es omo anmalos ou normais. Assim, apresentamos trabalhos rela ionados à

mineração de pro essos (pro ess dis overy) naSeção 2.2.

Na Seção 2.3 apresentamos algumas abordagens utilizadas para avaliar pro essos de

negó ios e logs, por exemplo, o grau de generalidade ( apa idade de prever instân ias

não observadas no log) eo grau de espe i idade ( apa idade representar apenas o

om-portamento observado no log). As ferramentas de avaliação são importantes porque são

utilizadas pelos métodos de dete ção, por exemplo, para medir o grau de onformidade

(24)

2.1 Dete ção de Eventos Anmalos

O desenvolvimento de métodos de dete ção de eventos anmalos tem despertado o

inte-resse da omunidade a adêmi a há vários anos, espe ialmente das omunidades de data

mining esegurança. Porexemplo, Donoho, em[21℄, apresenta omoas té ni as de

mine-ração de dadospodem ser utilizadaspara dete tar ante ipadamentefraudes rela ionadas

ao uso de informações sigilosas sobre empresas nego iadas no mer ado de ações. Um

trabalho menosre ente, apresentado em [23℄, mostra omo asfraudes rela ionadas à

lo-nagemde elularespodemserdete tadas. Naáreade omér ioeletrni oeleilõesexistem

soluçõesrela ionadasadete çãodebandidosoufraudadores(ex.: verem[32℄). Naáreade

segurança hásoluçõesrela ionadasadete çãode intrusãoemredesde omputadores(ex.:

verem[28℄ e[31℄). Em[1℄, oautordes reveum métododedete ção deepidemiasapartir

dolog de emergên iahospitalar. De formasemelhante, em[37℄ osautoresapresentamum

método de dete ção de epidemias a partir de dados sobre a venda de medi amentos em

farmá ias.

No ontexto mais espe í o das redes de omputadores e internet, há o trabalho de

Pat haePark[33℄,ondeosautoresapresentam diferentes té ni asde dete çãode intrusão

em redes de omputadores. Diferente das abordagens mais omuns de dete ção de

intru-são, normalmenterepresentada omoregras onhe idasdeataque,adete çãode anomalia

modela o omportamentonormale é apazprever novas abordagens de ataque.

Chandola et al. em [12℄, apresentam uma lassi ação para os diferentes métodos de

dete ção de anomaliadesenvolvidos paradiversasáreas de apli ação. Nesta lassi ação,

ada lasseougrupodemétodosdedete çãopossuiumasuposiçãooudenição omumdo

quesigni aumeventoanmaloeumeventonormal. Alémdisso,osautoresapresentaram

um modelo de té ni ade dete ção omum a ada lasse,onde osmétodosde dete ção da

mesma lasse representam uma extensão desse modelo omum de dete ção.

Apesar de existirem várias soluções rela ionadas à dete ção de eventos anmalosem

dados, menosatençãotem sidodadapela omunidadea adêmi ano ontextode sistemas

de apoio aopro esso de negó ios. A grande maioriados trabalhos está mais preo upada

em investigar o omportamento omum ou normal dos pro essos, do que entender ou

identi ar as o orrên ias anormais.

Noentanto,podemos itarotrabalhode AalsteMedeiros,em[43℄, entreas

ontribui-çõesfortementerela ionadas a esta tese e aárea de pro ess mining que identi amosna

literatura. Nesse trabalhoosautoresapresentam dois métodos de dete ção apoiadospelo

α

-algoritmo[46℄. Os métodos propostos nesse trabalho onsideram que um log formado por tra es normais é onhe ido e então minerado para denir um lassi ador. Esse

(25)

é a existên ia de um log normal para denir o lassi ador de tra es anmalos, pois é

muitodifí il,oumesmoimpossível,emalgunsdomíniosdeapli ação. Outralimitaçãoéa

utilização do

α

-algoritmo,que tem pou a utilidade práti a,apesar de ser uma referên ia teóri a para a omunidade de pro ess mining. Porexemplo, esse algoritmode mineração

exige que olog minerado possua ertas propriedadesque são ompli adas ouimpossíveis

de seremgarantidasem enários reais. Entre aslimitaçõesdo

α

-algoritmoquevale itar: loops urtos, non-free- hoi e e dependên ia implí itaentre atividades[46, 16℄.

2.2 Mineração de Pro essos

A mineração de pro essos é uma té ni a que visa re onstruir um modelo de pro esso,

om atividades e relações entre atividades, a partir de um log gerado por um sistema

[44, 20, 46℄. Nos últimos 14 anos, a área de pro ess mining tem despertado a atenção

de váriospesquisadoresnomundo. Tambémdenominadapro essdis overy,foi on ebida

ini ialmente no ontexto de pro essos de software. Cook e Wolf, em [14℄, unharam

o termo pro ess dis overy omo uma ferramenta de apoio ao projeto de pro essos de

software, pois adenição de modelosde pro essoé uma atividade difí il, ara e sujeita a

erros, espe ialmenteparapro essosmuito grandesou omplexos. Tambémnessetrabalho

são apresentados três algoritmos de mineração de pro essos, inspirados no problema da

inferên ia de uma gramáti aa partir de um onjuntode exemplos de uma linguagem.

O artigo de Agrawal et al., em [2℄, que é outro trabalho pre ursor dos trabalhos

re entesempro essmining,apresentaumalgoritmodemineraçãoquegeraummodelode

pro esso quepreserva três ara terísti as: ompletude,não redundân ia e minimalidade.

Tais ara terísti as oin idem omadeniçãode um bommodelo,propostaporS himm,

em [38℄. Agrawal et al., em [2℄, também apresentam uma extensão do seu algoritmo

que onsidera a mineração de logs que possuem ruídos gerados pelo registro in orreto

de atividades. Essa extensão des onsidera relações de dependên ia entre atividades uja

frequên ia da relação no log é inferior a um valor indi ado, portanto um modelo de

pro esso égerado sem onsiderar essas relações, hamadasde relações espúrias.

Mais re entemente, muitos outros algoritmos e problemas da área de pro ess mining

foram apresentados [44, 46, 45,38, 25,16℄. Hammoriet al., em[25℄, apresentam a

abor-dagemde mineraçãode modelosde pro essos onhe ida omointerativa,pois onsideram

uma parti ipação onstante do analista responsável pela exe ução da mineração do log,

que deve denirum onjunto de parâmetros. Esses parâmetros onsideram: (i) a

deni-ção dotamanhodoespaçode bus a pelomodelode pro esso;(ii) adenição dotamanho

do modelo de pro esso que melhor des reve o log, ou seja, mais espe í o (maior) ou

(26)

Dentreosalgoritmosdemineraçãodepro essodenegó io,omaisdifundidoou

referen- iado pela omunidade de pro ess mining é o

α−

algoritmo[44, 46, 45℄. A e á ia desse algoritmo foi provada para uma lasse de modelos de pro essos de negó ios, SWF-Net

(Stru tured Workow Net), mas possui algumas limitações omo a mineração de loops

urtos (loops om uma úni a atividade), tarefas dupli adas e a relação implí ita entre

duas atividades.

Algumas extensões para o

α−

algoritmo foram desenvolvidas[52 , 15, 22, 18, 53, 54℄. Por exemplo,o problema da dete ção de tarefas implí itasé resolvido em[54℄, enquanto

que o problema dadete ção de tarefas dupli adas é exploradoem[18℄.

Uma dis ussão sobre a área de pro ess mining, suas limitações e uma denição mais

ríti a doreal problemadaárea éapresentada porWainer etal.,em[51℄. Nesse trabalho

osautoresargumentamqueoproblemadamineraçãode pro essosestámaldenido, pois

a bus a por um modelo que gera todos os tra es existentes no log pode resultar em um

número enorme de soluções diferentes. Assim, o problema deveria ser reformulado a m

de a res entar ao problema da des oberta, a seleção do modelo que melhor des reva o

log. Além disso, nesse artigo os autores propõemum método de mineração de pro essos

in remental que ilustra bema ne essidade de reformulação do problema pro ess mining.

Diferente da maioria das abordagens anteriores, um modelo de pro esso é gerado

in re-mentalmenteatravésdajunção, tra e atra e,dos tra es existentes nolog. Umades rição

mais detalhada desse método será apresentada naSeção 4.1.

S himm, em [38℄, apresenta um método de mineração in remental de modelos de

pro essos semelhante ao método apresentado em [51℄, pois também é baseado em um

onjuntos de regras e também gera um modelo de pro esso blo o estruturado. Esses

modelos são hamados de blo o estruturado porque um blo o split (AND ou OR) está

sempre ombinado om um blo o join; e um blo o join, referente a um blo o split mais

externo, é apli ado apenas quando todos os blo os join mais internos são apli ados, ou

seja, os blo os de onstrução do modelo estão sempre aninhados. Nesse artigo o autor

dene três propriedadesque um modelo de pro esso deve ter: ompletude,espe i idade

eminimalidade. A ompletude signi aqueomodelomantém todasastarefasdolog eas

respe tivasrelaçõesdedependên ias. Aespe i idade signi aqueomodelonão adi iona

novastarefas, nemnovasdependên ias(dependên iasespúrias). Aminimalidadesigni a

que o modelo édes rito om o menornúmero de elementos.

Há também o algoritmo de mineração Multiphase Miner, que utiliza EPC

(Event-drivenPro essChain) omolinguagemderepresentaçãodomodelodepro essogerado[50,

49℄. Esse algoritmoéexe utado emduas etapas,poressa razãoé hamadodemultiphase.

Na primeira etapa são identi adas as relações binárias de ordem par ial entre as

(27)

paralelismo e seleção.

Outra té ni a de mineração de pro essos bastante difundida é o geneti mining [16,

19℄. Essa té ni a garante, em teoria, que sempre será gerado um modelo de pro esso

om tness igual a 1, ou seja, em que todos os tra es do log podem ser exe utados

pelo modelo. No entanto, não há garantia de quanto tempo o algoritmopre isará para

en ontrar esse modelo. O Geneti mining é baseado na abordagem de programação de

algoritmos genéti os, que são algoritmos que bus am por uma solução (ou indivíduo)

utilizando heurísti as similares ao pro esso de evolução (elitismo, herança e mutação).

Uma outravantagemdesse algoritmode pro ess mining éa apa idadede lidar om logs

in ompletos ou om ruídos,que é uma ara terísti atípi a dos algoritmosgenéti os.

Há outros métodos de pro ess mining robustos a ruído, ou seja, que onsideram a

mineração de pro essos em logs om ruídos. No entanto, esses algoritmos são

aborda-gens limitadas ao uso da frequên ia das relações de dependên ia entre as atividades no

log. Assim, tre hos infrequentes de um tra e podem ser des onsiderados do pro esso de

mineração,ouseja,nãorepresentadosnomodelodepro essodes oberto[2,44,13,34,26℄.

Nesta tese, os algoritmos de dete ção propostos utilizaram omo parâmetro de

en-trada uma instân ia de um algoritmo de mineração (pro ess dis overy). No aso, in o

algoritmos foram utilizados: (i) o algoritmo de mineração in remental, uja saída é um

modelo blo o estruturado[51, 3℄; (ii) o algoritmo alpha[46℄; duas extensões do algoritmo

alpha, o (iii)alpha++[54℄ e o (iv) heuristi miner[53℄; além do algoritmo(v) multiphase

miner[50℄.

2.3 Análise de Modelos de Pro essos

Diferentes métri as e métodos de avaliação de pro essos foram propostos na literatura,

tais omoosapresentadosem[42, 35,47,17,40,41℄. Aalst,em[42℄, apresentadois

méto-dos deanálisedepro esso: umqualitativo,baseado naanáliseDelta,eoutroquantitativo,

baseado notestede onformidade. RozinateAalst,em[35℄,apresentam diferentes

métri- as paraotestede onformidade(testedeaderên iaentre ummodeloeumlog). Medeiros

et al., em [17℄, apresentam as métri as pre ision e re all omo instrumento de medição

da equivalên ia omportamental entre dois modelos de pro esso. Por exemplo, tais

mé-tri as são utilizadasnoalgoritmode mineraçãogeneti mining [19℄, omo instrumentode

seleção de modelos omportamentalmentemais aproximados.

Umtrabalhomaisre ente, des ritoem[40℄, relatauma novaformade realizara

audi-toria desistemas,Auditing 2.0. Essa novaformade auditoriaéapoiadaporferramentase

té ni as depro essmining,disponíveisnoProM 1

.Dessaforma,osauditoresnãopre isam

(28)

mais se limitar a analisar apenas um sub onjunto limitado dos eventos do log

(normal-mente a auditoria sorteia alguns eventos para analisar), mas o log inteiro, pois todo o

trabalho de auditoriapode ser automatizado. A análise dos logs tambémpode ajudar a

predizer omportamentos do pro esso (tempo de exe ução restante) e realizar

re omen-dações(que atividadespodemser evitadas ouexe utadaspara otimizarumapropriedade

do pro esso).

O modelo de pro esso gerado após a mineração de um log depende dos tra es

exis-tentes nesselog. Entendemos queessa premissaéimportantenadenição dos algoritmos

de dete ção de tra es anmalos apresentados nesta tese, pois a reditamos que um log

 ontaminado om tra es anmalosgera um modelo bastantediferentede um outro

mo-delo quando des oberto sem a presença dos tra es anmalos. Para medir essa diferença

é ne essário métri as de avaliação ou análise de modelos de pro essos. Assim,

onside-ramos o uso das métri asde análise omo instrumento de avaliação da onformidade de

um modelo om dois logs: um log que ontém um tra e sob análise, e outro log que não

ontém otra e sob análise. Então, umahipótese adotadanesta tese onsideraqueo grau

de onformidade entre um modeloeum log émuitomenorquando olog ontém umtra e

anmalo. O Capítulo 4 des reve melhor as métri as de onformidade utilizadas e omo

essas métri asde onformidadepodemajudarnopro essodedete çãode tra es anmalos

(29)

Denição de Anomalia

O on eito de anomaliaem um log pode ser asso iadoa várias semânti as. Porexemplo,

uma anomalia pode ser um ruído, quando um evento (tarefa) não é registrado ou é

registrado em dupli idade, onsequên ia de algum erro no omponente de gravação do

log, ou mesmo um erro transa ional da apli ação que usa o omponente de gravação no

log.

Uma anomalia também poderia ser uma ex eção, uma imperí ia, ou uma tentativa

de fraude. A anomalia que tem a semânti a de uma ex eção representa uma exe ução

in omum, mas tolerável pelo negó io, já que em ambientes de negó ios exíveis, não é

possível prever todas os aminhos de exe ução permitidos, portanto re orrentemente há

a ne essidade de mudança, por exemplo, para a omodar novas estratégias de negó ios

ou para atender uma ne essidade de um liente muito importante. Nesse aso,

identi- ar a anomaliaé importante para onhe er melhor o negó io, onhe er as situações que

provo am aex eção, oumesmo evitar surpresas.

No entanto, as anomalias que tem a semânti a de uma tentativa de fraude ou uma

imperí iasão in omuns e produzem prejuízosouresultados indesejáveis para onegó io,

sendo imperativo identi á-las.

3.1 Apresentação

A fronteira entre asdiferentes semânti as asso iadasa umaanomaliapode nãoser muito

lara. Porexemplo, onsidere omodelodepro esso hospitalarapresentadonaFigura3.1.

Esse exemplo onsidera o pro esso de tratamento de pa ientes om insu iên ia renal,

ou seja, quando os rins param de fun ionar. Para substituir a função dos rins, dois

tra-tamentos podem ser apli ados: a hemodiálise ou a diálise [30℄. Apesar dos tratamentos

serem onsiderados alternativos (blo oORentre asatividades ed), é omum preparar

(30)

a n d

a n d

a

b

c

d

o r

o r

a - R e a l i z a r c i r u r g i a d e f o r m a ç ã o d e u m a f í s t u l a a r t e r e o v e n o s a

b - R e a l i z a r c i r u r g i a d e i n t r o d u ç ã o d e c a t e t e r p e r i t o n e a l

c - E x e c u t a r h e m o d i á l i s e

d - E x e c u t a r d i á l i s e

Figura3.1: Exemplo de pro esso de tratamentode pa ientes om insu iên ia renal.

ambosostratamentospodem ofere erris os ou ompli açõesaopa iente. Assim, um

pa- ientepreparadopara ambosostratamentospodemodi arotratamentoquandohouver

ne essidade.

Emum tratamentode pa ientes om insu iên iarenal, adiálise eahemodiálise não

podemserexe utadasaomesmotempo,pois ara terizariaumaex eçãograve(oumesmo

imperí ia) om onsequên iasmuitodanosasaopa iente, omohipotensãoarterial,perda

de proteínas eoutrosnutrientes. No entanto,háraríssimos asosemqueopa ientepassa

pelos dois tratamentos (diálise e hemodiálise); por exemplo, o pa iente não responde

bem a um dos tratamentos e deve ser submetido imediatamente ao outro tratamento.

Portanto, omo lassi ar essaexe uçãoin omum omoumaimperí ia(erromédi o)ou

uma ex eçãoque exigiuum tratamentoalternativo?

Independentedasemânti aasso iadaàanomalia,ébastante omum onsiderá-la omo

um evento raro ou infrequente. Contudo, lassi ar um tra e (ou instân iade pro esso)

omo anmalo baseando-se apenas em sua frequên ia no log não é simples ou é muito

ingênuo, poiséprovável quealgunstra es normais tambémsejaminfrequentes, ouseja,

alguns aminhos de um modelo de pro esso de negó io podem ser mais exer itados que

outros. Por exemplo, não pare e apropriado lassi ar omo anmalo todos os tra es

om frequên ia no log inferior a 3% ou 4%, pois é provável que tra es normais também

o orram om essas frequên ias no log. Por outro lado, uma abordagem baseada apenas

na frequên ia seria muito ingênua, o que poderia distor er o número de falsos positivos

(instân ias normais lassi adas omo anmalas) e falsosnegativos (instân ias anmalas

lassi adas omo normais).

AFigura3.2ilustraoproblema de lassi ar um tra e omoanmalobaseado apenas

emsuafrequên ia. Talgura ontémummodelodepro essoequatrologs (um omtodos

(31)

E x e m p l o s d e l o g s i n c o m p l e t o s .

A b a i x o d e c a d a l o g e s t ã o o s b l o c o s

e s t r u t u r a i s q u e p o d e m s e r i n f e r i d o s .

L o g 1

P o s s í v e i s t r a c e s

a - b - c

a - b - d

b - a - c

b - a - d

a - b - c

a - b - d

b - a - d

1 ) O R ( c , d )

2 ) A N D ( a , b )

L o g 2

a - b - c

b - a - c

b - a - d

1 ) A N D ( a , b )

2 ) O R ( c , d )

L o g 3

a - b - c

a - b - d

b - a - c

1 ) O R ( c , d )

2 ) A N D ( a , b )

L o g 4

a n d

a n d

a

b

c

d

o r

o r

Figura 3.2: Mineraçãode um modelo om um onjuntoin ompleto de tra es.

Na Figura3.2, um sub onjunto dos possíveis tra es de um modelo pode ser utilizado

para re onstruir o mesmo modelo. Por exemplo, no log in ompleto Log 2, os tra es

[a − b − c]

e

[a − b − d]

quandomineradospodemgerar omodelo

[a − b − or(c, d)]

apartir

da in lusão do blo o OR( , d), que indi a uma es olha entre as atividades

c

e

d

. Em seguida, aso o tra e

[b − a − d]

seja adi ionado a esse modelo, geraria um novo modelo igual ao original

[and(a, b) − or(c, d)]

, dessa vez através da adição do blo o AND(a, b), que indi a que as atividades

a

e

b

podem ser exe utadas emparalelo (a ou b podem ser on luídas antes).

Nesse exemplo, otra e

[b − a − c]

, não existentenolog in ompleto (Log 2)étambém uma instân ia do modelo gerado, pois existe um aminho no modelo de pro esso que

oin ide om otra e apresentado, mesmo sem ter sido utilizadopara onstruir o modelo.

Portanto, aso o tra e

[b − a − c]

perten esse aolog e fosse infrequente, não poderíamos lassi á-lo omoanmalo. Dessaforma,há laramenteane essidadede onsideraroutras

propriedades, além dafrequên ia, para lassi ar um tra e omo anmalo.

Estetrabalhotemoobjetivode apresentarmétodos queajudem aidenti arostra es

infrequentes que são anomalias. Assim, outras questões, além da frequên ia, são

obser-vadas nos métodode dete ção de anomalias propostos neste trabalho. Por exemplo, um

métodode dete ção deve onsiderar a denição de um modelode pro esso normal,que

fun ionará omo um lassi ador. No entanto, denir esse modelo é muito ompli ado,

pois:

ada domínio de apli açãoexigiriaum modelo diferente;

(32)

resul-tado de uma evolução naturaldo modelo normal;

ouentão, aprópriainstân iaanmalapode ser, propositalmente, umaaproximação de uma instân ianormal geradapelo fraudador.

Portanto,éevidentequeosdesaosdoproblemadedete çãodeanomaliasãoenormes,

já que devem onsiderar asvariadasquestões itadas a ima. Como apresentado em [12℄,

há várias denições de anomalia,que onsideramdiferentes pressupostos e dependemda

áreadeapli açãodométododedete ção. Então, onsideramosqueumadeniçãoobjetiva

de anomalia, mesmo que espe í a a um domínio ou que satisfaça ertas ondições e

pressupostos, ajudarianadeniçãodeummétodooualgoritmodedete ção deanomalias.

As Seções 3.3 e 3.4 apresentam duas denições diferentes para tra e anmalo, ada

uma assumindo pressupostos diferentes. No entanto, há denições preliminares omuns

às duas denições de anomalia. Essas denições preliminares serão apresentadas na

Se-ção 3.2. Assim, o objetivo deste apítulo é ofere er um referen ial formal para apoiar o

desenvolvimentode umasoluçãoobjetivaparaoproblemadadete çãodetra es anmalos

em logs geradosporSistemasde Informação orientados a Pro essos de Negó ios.

3.2 Denições Preliminares

O termo tra e, omo ini ialmente apresentado na Seção 1.1, será utilizado nesta tese

omo uma instân ia de pro esso, ou seja, omo um aminho de exe ução de um modelo

de pro esso de negó io. Este tra e representaa ordememqueum onjuntode atividades

ompletou sua exe ução. Assim, o tra e

[a b c d e]

indi a que a atividade

a

foi on luída antes daatividade

b

, que foi on luída antes da atividade

c

,e assim por diante.

A Denição 1 des reve formalmente o que é um tra e, enquanto que a Denição 2

des reveformalmenteo on eito delog,queéorepositóriodos eventos(atividades),epor

onseguinte dos tra es,registrados porum sistema de informação.

Denição 1 Tra e.

Seja

A

um onjunto de atividades. Um tra e

t

representa a sequen ia de atividades, tal

que

t ∈ A

. Ouseja, onsiderando que

A

é um alfabetoe

A

denota todas as palavrasque

podemser derivadas a partir de

A

, então o tra e

t

é uma palavra baseada neste alfabeto.

Denição 2 Log.

Seja

T ⊆ A

o onjunto dos tra es denido sobre as atividades

A

. O multi onjunto

L = {(t

, n) | t

∈ T ∧ n ∈ IN

}

é denido omo um log.

NaDenição2éimportanteobservarque

t

representauma lassedetra e,enquantoo

(33)

no log, ou seja, a frequên ia om que a lasse

t

apare e no log. Essa denição baseada

em multi onjunto é mais relevante quando onsiderarmos a utilização de algoritmos de

mineração de pro essos quedependem dafrequên ia dos tra es no log.

No entanto, na práti a, o log que será submetido a um método de dete ção de

tra- es anmalos pre isa ser ltrado, antes da apli ação do método, para remover aquelas

instân ias de pro esso que são laramente anmalas. Por exemplo, no momento em que

um log foi importado/extraídopara análise,váriasinstân ias estavamemexe uçãoe não

foram on luídas, portanto, essas instân ias não devem ser onsideradas nadete ção das

anomalias.

Tempo

Hoje

Data inicial

a)

b)

c)

d)

Início

Fim

Figura3.3: Problemas rela ionados om um log não ltrado.

A Figura3.3 ilustraos problemas que oanalista de domínio pre isaresolver antes de

apli ar algum método de dete ção de tra es anmalos. Nesse aso, é ne essário apli ar

algunsltrosnolog oletadoparaanálise/identi açãodostra es anmalos. Porexemplo,

há quatro tra es nessa gura, que denominamos a, b, , e d. Representamos om linhas

tra ejadas o períodode oletado log utilizado para análise,então:

o tra e adeve ser removido,poisnão tem aatividade ini ial;

o tra e b deve ser removido,pois não tem as atividadesini ial e nal;

o tra e d deve ser removido,pois não tem a atividadenal;

o tra e é o úni o que deve permane er no log ltrado, pois representa um tra e ompleto.

A denição formalpara log ltrado é apresentada a seguir.

Denição 3 Log Filtrado.

Sejam:

(34)

Um onjunto

A

S

de atividades ltradas (s oped),tal que

A

S

⊆ A

.

Uma função lter(t,

A

S

) que remove todas as atividades em um tra e

t

que não estão em

A

S

.

Uma função booleana omplete(t) que retorna false se

t

é um tra e in ompleto e true quando o tra e é ompleto, ou seja, possui as atividades ini ial e nal (tra e

da Figura 3.3).

Então um log ltrado

L

S

⊆ L

é um multi onjunto dos tra es

t

baseados nas atividades em

A

S

, omo segue:

L

S

= {f ilter(t, A

S

) | t ∈ L ∧ complete(t)}

Dizemos que um tra e do log tem apa idade de ser exe utado ompletamente pelo

modelo quando há no modelo um aminho de exe ução, do iní io ao m, igual ao tra e

sob análise. Essa apa idade do tra e é medida através da função que hamamos de

tness do tra e, ujadeniçãoformaléapresentadanaDenição4. Para medirograude

tness do log inteiro, que indi a quantostra es observados no log podem ser exe utados

ompletamente pelo modelo, utilizamos a função tness do log, uja denição formal é

apresentadanaDenição5. Dessaforma,umtnessdolog de100%signi aqueomodelo

exe uta o log inteiro.

Denição 4 Fitness doTra e.

Seja

T = {t | (t, n) ∈ L}

o onjunto dos tra es ou lasses dos tra es do log

L

. A função

f

M

: T → IB

é o tness do tra e que indi a se um tra e do log

L

é uma instân ia do

modelo

M

. Entãoum tra e

t

éinstân iado modelo

M

se

t

pode sertotalmenteexe utado pelomodelo

M

, omo segue:

f

M

(t) =

 true,

se t pode ser exe utado por M

f alse,

do ontrário

Denição 5 Fitness doLog.

É umafunção

f : {(M, L)|M

is a model

∧ L

is a log

} → [0, 1]

queindi aograude tness entreummodelo

M

eumlog

L

, ouseja,esta funçãoindi aquantos tra esdo log

L

podem ser ompletamente exe utados pelomodelo

M

. Esta função é denida omo segue:

f (M, L) =

P

{(t

,n

)∈L|f

M

(t

)}

n

P

(t

′′

,n

′′

)∈L

n

′′

(35)

3.3 Tra e Anmalo: Denição I

Esta seção onsidera a apresentaçãode uma deniçãode tra e anmalobaseada no

pres-suposto de queumtra e é anmaloquandodemanda elevadograu demodi ação emum

modelo. De outra forma, para um modelo a omodar um tra e anmalo a sua estrutura

sintáti aoudenição -representada pelas atividades,blo os de repetição,paralelismoou

seleção, et . - pre isa ser ex essivamenteaumentada para a omodar o tra e anmalo.

Umalgoritmooumétododedete çãodetra es anmalosdeve onsiderarquequalquer

instân ia existente no log pode ser lassi ada omo um tra e anmalo, ou seja, todas

os tra es do log podem ser uma anomalia. Por outro lado, é muito razoável supor que

apenasaquelasinstân iasinfrequentes nolog sãoostra es andidatos à lassi ação omo

anmalos, omo exposto na apresentação ini ial na Seção 3.1. Assim, apresentamos na

Denição 6 o quedenominamos de Tra e Candidato a Anmalo.

Denição 6 Tra e Candidatoa Anmalo.

Sejam:

Um log ltrado

L

(Denição 3);

Um onjunto

C

L

= {c|(c, n) ∈ L}

das lasses de tra es existentes no log

L

;

Um valor real

x ∈ (0, 1)

;

Uma lasse

c ∈ C

L

dos tra es do log

L

.

• s

L

=

P

(c,n)∈L

n

a quantidade de tra es no log

L

;

• f

c

=

S

n

L

a frequên ia da lasse de tra e

c

no log

L

. Então

t

c

éum tra e andidatoa anmalose perten e ao onjunto

T

C

de tra es andidatos a anmalo omo segue:

T

C

= {c ∈ C

L

| f

c

≤ x}

Denição 7 Tra e Anmalo'.

Sejam:

Um log ltrado

L

(Denição 3).

Um onjunto

T

C

de tra es andidatos a anmalo(Denição 6).

Um log

L

= L − {(t

c

, n)}

, que não ontém um tra e andidatoa anmalo

t

c

∈ T

C

.

Um modelo

M

minerado a partir do log

L

.

(36)

A função de tness do log

f (M, L)

(Denição 5). Então

t

a

é um tra e anmalo se perten e ao onjunto

T

A

de tra es anmalos denido omo segue:

T

A

= {t

c

∈ T

C

|f (M, L) ≪ f (M, L

)}

A denição a ima foi inspirada pela denição de outlier, utilizadano ampo da

esta-tísti a, e que signi a um valornumeri amente muito distante do resto dos dados. Essa

denição indi a que quando o tness do log om o tra e anmalo é muito menor que o

tness do log sem o tra e anmalo, então a estrutura do modelo

M

pre isaria ser mais omplexa (blo osestruturais AND, OR,et .) para a omodar otra e anmalo. Portanto,

tentara omodarumtra e anmaloemummodelodepro essonormal,ouseja,minerado

sem o tra e anmalo,requererá muitas modi ações nomodelo. Este trabalho

desenvol-veu váriasabordagensde dete çãoorientadaspelaDenição7,queserãoapresentadasem

detalhes noCapítulo4.

3.4 Tra e Anmalo: Denição II

Esta seção onsidera a apresentaçãode uma deniçãode tra e anmalobaseada no

pres-suposto de que um tra e éanmaloquando não éinstân iade um modelo apropriado.

Portanto, a denição formal de tra e anmalo depende da denição do que seria um

modelo apropriado.

Consideramosqueummodeloéapropriadoquandosatisfazumvalormínimodafunção

de tness dolog(Denição 5),mas maximizauma função quedenominamos

appropriate-ness (Denição 8). Nesse aso, o valormínimo de tness é um parâmetro que sele iona

alguns modelos, dentre os vários (possivelmente innito) que podem ser des obertos a

partir domesmo log. Por exemplo,no mínimoépossíveltermos tantosmodelos paraum

log quantos algoritmos de mineração de pro esso existirem, se onsiderarmos que esses

algoritmos não en ontram/geramo mesmo modelo para olog.

Para ilustrar melhor o problema de en ontrarmos o modelo apropriado, onsidere a

função detness dolog (Denição5),queindi aoquantodolog pode ser ompletamente

exe utado pelo modelo. Então um tness de 100% indi a que o modelo pode exe utar

por ompleto todos ostra es do log.

Entretanto, um modelo om 100% de tness ainda não é ne essariamente um

mo-delo apropriado, por exemplo, o modelo genéri o da Figura3.4 pode exe utar por

om-pleto qualquer tra e denido om asatividades {A, B, C, D}. Assim, o modelo genéri o

nun a será apaz de dete tar as instân ias anmalos do log baseadas nessas

ativida-des. Um outro exemplo seria o modelo apresentado na Figura 3.5, que para um log

Referências

Documentos relacionados

After the eval- uation of the influence of each modification of the surfaces on the internal air temperatures and energy consumption of the compressor a final test was done with

O mecanismo de competição atribuído aos antagonistas como responsável pelo controle da doença faz com que meios que promovam restrições de elementos essenciais ao desenvolvimento

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco 

Para atingir este fim, foram adotados diversos métodos: busca bibliográfica sobre os conceitos envolvidos na relação do desenvolvimento de software com

Objetivo: Garantir estimativas mais realistas e precisas para o projeto, ao considerar nesta estimativa o esforço necessário (em horas ou percentual do projeto) para

O estudo múltiplo de casos foi aplicado para identificar as semelhanças e dissemelhanças na forma como as empresas relacionam seus modelos de negócios e suas

Nas leituras de falhas efetuadas, foram obtidos códigos de anomalia por meio de dois diferentes protocolos de comunicação: o ISO 14230 KWP (2000) e o ISO 15765-4 CAN. A seguir, no

Correspondem aos volumes medidos (uso administrativo da companhia, fornecimento a caminhões pipa) e volumes não medidos (combate a incêndios, lavagem de vias