Detecção de anomalias por Floresta Caminhos Ótimos

(1)

UNIVESIDADE ESTADUAL PAULISTA

J´

ulio de Mesquita Filho

P´

os-Gradua¸c˜

ao em Ciˆ

encia da Computa¸c˜

ao

Leandro Aparecido Passos J´

unior

Detec¸c˜

ao de Anomalias por Floresta Caminhos ´

Otimos

UNESP

(2)

Leandro Aparecido Passos J´

unior

Detec¸c˜

ao de Anomalias por Floresta Caminhos

´

Otimos

Prof. Dr. Jo˜ao Paulo Papa (Orientador) Prof. Dr. Kelton Augusto Pontara da Costa

(Co-orientador)

Disserta¸cão de Mestrado elaborada junto ao Programa de Pós-Gradua¸cão em Ciência da Computa¸cão - Área de Concentra¸cão em Siste-mas de Computa¸cão como parte dos requisitos para a obten¸cão do t´ıtulo de Mestre em Ciência da Computa¸cão.

UNESP

(3)

Passos Júnior, Leandro Aparecido.

Detecção de anomalias por floresta de caminhos ótimos / Leandro Aparecido Passos Júnior. -- São José do Rio Preto, 2015

33 f. : il., tabs.

Orientador: João Paulo Papa

Coorientador: Kelton Augusto Pontara da Costa

Dissertação (mestrado) – Universidade Estadual Paulista “Júlio de Mesquita Filho”, Instituto de Biociências, Letras e Ciências Exatas

1. Computação. 2. Redes de computadores – Medidas de segurança. 3. Floresta de caminhos ótimos. 4. Distribuição Gaussiana. 5. Sistemas de detecção de intrusão. I. Papa, João Paulo. II. Costa, Kelton Augusto Pontara da. III. Universidade Estadual Paulista "Júlio de Mesquita Filho". Instituto de Biociências, Letras e Ciências Exatas. IV. Título.

CDU – 681.3.025

(4)

(5)

Departamento de Computa¸c˜ao Universidade Estadual Paulista

Detec¸c˜

ao de Anomalias por Floresta Caminhos

´

Otimos

Leandro Aparecido Passos J´

unior

Maio de 2015

Banca Examinadora:

• Prof. Dr. Jo˜ao Paulo Papa (Orientador)

• Prof. Dr. Alexandre Lu´ıs Magalh˜aes Levada (UFSCAR - S˜ao Carlos)

(6)

Dedicat´

oria

Dedico este trabalho a uma pessoas mais que especial, uma pessoa boa, alegre, compa-nheira, divertida, aquela que me apoiou e me deu suporte em todos os momentos, mesmo sem condi¸c˜oes ou recursos para tal. Obrigado Silvia, minha amada e querida M ˜AE.

(7)

Agradecimentos

Agrade¸co aos meus avós, especialmente em memória do Vô Neu e do Vô Vardão, por todo o carinho e ensinamentos durante minha infância.

Agrade¸co aos meus pais, que me puseram nesse mundo e guiaram pelo bom caminho, sempre apoiando em cada decis˜ao.

Agrade¸co às minhas irmãs Débora e Raquel pelo companheirismo e amizade, e ao ca¸culinha Luis Felipe.

Agrade¸co aos meus tios e familiares, que sempre estiveram dispostos quando precisei. Agrade¸co a todos os meus amigos que sempre estiveram ao meu lado em todos os momentos. Seria injusto citar alguns e acabar talvez esquecendo de outros, então evitarei nomes. Mas obrigado a todos os que me acompanham desde a infância, escola, faculdade, viagens, bandas, e também aos que apareceram ao acaso. Vocês tornaram minha vida mais feliz e agradável.

Agrade¸co a minha namorada Maria L´ıgia, que entrou na minha vida há tão pouco tempo e já faz muita diferen¸ca nela.

(8)

Sum´

ario

1 Introdu¸c˜ao 1

2 Referencial Te´orico 5

2.1 Distribui¸c˜oes Gaussianas Multivariadas . . . 5

2.2 Agrupamento de Dados por Floresta de Caminhos ´Otimos . . . 7

2.2.1 Fundamenta¸c˜ao te´orica . . . 8

2.3 Agrupamento de Dados por k-m´edias . . . 12

2.4 Agrupamento de Dados por Mean Shift . . . 13

2.5 Agrupamento de Dados por Maximiza¸c˜ao de Expectativas . . . 13

3 Metodologia 15 3.1 Bases de Dados . . . 15

3.2 Detec¸c˜ao de Anomalias por Gaussianas Multivariadas . . . 15

3.3 Deteçcão de Anomalias por Floresta de Caminhos Ótimos . . . 18

3.4 Composi¸c˜ao dos conjuntos . . . 19

3.5 Atribui¸c˜ao de r´otulos . . . 20

3.6 Acur´acia . . . 20

4 Resultados experimentais 22

5 Conclus˜oes 28

A Trabalhos Aceitos para Publica¸c˜ao - Conferˆencias 30

(9)

Lista de Tabelas

3.1 Descri¸cão das bases de dados aplicadas neste trabalho. Pen-Based Recog-nition of Handwritten Digits, Landsat Satellite e Thyroid Disease estão dispon´ıveis para download em http://madm.dfki.de/downloads. Nodules é uma base de dados privada para deteçcão de nódulos cancer´ıgenos em imagens mamográficas. Industrial e Comercial também são bases de dados privadas, e se referem a deteçcão de fraudes na rede elétrica para clientes industriais e comerciais, respectivamente. . . 16 3.2 Base de dados Db1 formada por três agrupamentos, sendo dois deles

refe-rentes `as classes 1 e 2, respectivamente, e um terceiro representando amos-tras anˆomalas. . . 16 3.3 Base de dados Db2 formada por quatro agrupamentos, sendo os dois

pri-meiros referentes à classe 1, o terceiro referente à classe 2 e um quarto representando amostras anômalas. . . 17 3.4 Base de dados Db3 formada por sete agrupamentos, sendo os cinco

primei-ros referentes `as classes 1, 2, 3, 4 e 5, respectivamente, e dois agrupamentos representando amostras anˆomalas. . . 18

4.1 Intervalo de número de agrupamentos e passo utilizados como parâmetro de entrada na valida¸cão pelos classificadores k-médias e E-M. . . 23 4.2 Média de número de agrupamentos e parâmetros de entrada utilizados por

cada técnica. Note que o número de agrupamentos é utilizado como parâ-metro de entrada para as técnicas k-médias e E-M, assim como o kmax é

utilizado pelo OPF e o Quantil pelo Mean Shift. . . 23 4.3 Média de número de agrupamentos e kmax utilizados na deteçcão de

ano-malias por OPF. . . 24 4.4 Acurácia média e desvio padrão considerando as bases de dados empregadas

(10)

Lista de Figuras

2.1 Dete¸cão de anomalias por distribui¸cão Gaussiana multivariada: nesse exem-plo, apenas uma distribui¸cão é empregada para modelar o comportamento das amostras “normais”. . . 6 2.2 Deteçcão de anomalias por distribui¸cão Gaussiana multivariada: nesse

exemplo, tem-se agora três distribui¸cões Gaussianas para modelar o com-portamento das amostras “normais”. . . 7 2.3 (a) Grafo cujos pesos dos nós são seus valores de fdp ρ(t). Existem dois

máximos com valores 3 e 5, respectivamente. Os pontos grandes indicam o conjunto de ra´ızes S. (b) Valores de caminho triviais f1(hti) para cada amostra t. (c) Floresta de caminhos ótimos P para f1 e os valores de caminho finais V(t). O caminho ótimo P∗₍_t_{) (linha tracejada) pode ser}

obtido percorrendo os predecessoresP(t) at´e a raizR(t) para cada amostrat. 10 2.4 (a) Espa¸co de atributos com diferentes concentra¸c˜oes de amostras para cada

cluster. É poss´ıvel identificar diferentes quantidades de clusters dependendo do valor de k escolhido. Solu¸cões interessantes são (b) quatro e (c) cinco clusters. . . 11

3.1 Bases de dados sint´eticas: (a)Db1, (b)Db2 e (c)Db3. . . 19

4.1 Valores das grades de busca e suas acurácias correspondentes em rela¸cão ao conjunto de valida¸cão da base de dados Db1 utilizando os estimado-res (a) OPF, (b) k-médias, (c) E-M e (d) Mean Shift para encontrar os parâmetros das Gaussianas multivariadas. . . 25 4.2 Valores das grades de busca e suas acurácias correspondentes em rela¸cão

ao conjunto de valida¸cão da base de dados Satélite utilizando os estima-dores (a) OPF, (b) k-médias, (c) E-M e (d) Mean Shift para encontrar os parâmetros das Gaussianas multivariadas. . . 26 4.3 Valores das grades de busca e suas acurácias correspondentes em rela¸cão

(11)

Lista de Abrevia¸c˜

oes

Acc Accuracy - Acur´acia. 20, 21

ANN Artificial Neural Networks - Redes Neurais Artificiais. 1

E-M Expectation Maximization - Maximiza¸c˜ao de Expectativas. ix, x, 3, 5, 13–15, 17,

22, 23, 25–27

fdp fun¸c˜ao de densidade de probabilidade. x, 7–12

GMM Gaussian Mixture Model - Modelo de Misturas Gaussianas. 13, 14

IFT Image Foresting Transform - Transformada Imagem-Floresta. 10

MGD Multivariate Gaussian Distributions - Distribui¸c˜oes Gaussianas Multivariadas. 5,

7, 22, 24, 27

MS Mean Shift. 27

OPF Optimum-Path Forest - Floresta de Caminhos ´Otimos. ix, x, xii, xiii, 3, 4, 7, 15,

17–19, 22–27, 29

(12)

Abstract

(13)

Resumo

(14)

Cap´ıtulo 1

Introdu¸c˜

ao

A tarefa de deteçcão de anomalias está relacionada ao problema de encontrar padrões em dados que não se comportam de maneira esperada, como fraudes em cartões de crédito ou reconhecimento de intrusões em redes de computadores, por exemplo. Por esse motivo, detectar tais anomalias é de grande interesse para aplica¸cões em diversos dom´ınios [1]. Entretanto, uma vez que anomalias apresentam-se por meio de diferentes maneiras, de-senvolver um modelo geral de comportamento normal ou anômalo não é uma tarefa muito trivial. Sendo assim, técnicas de aprendizado de máquina são geralmente empregadas nesse contexto, uma vez que podem aprender a natureza da anormalidade e, consequen-temente, adaptarem-se automaticamente a ela [2].

A literatura que trata da deteçcão de anomalias é bem ampla. Mukkamala et al. [3], por exemplo, compararam o desempenho de Redes Neurais Artificiais, do inglêsArtificial

Neural Networks (ANN), e M´aquina de Vetores de Suporte (Support Vector Machines

- SVM) para a deteçcão de anomalias em redes de computadores. Hu et al. [4], na mesma linha, propuseram asRobust Support Vector Machines, as quais foram projetadas especificamente para lidar com amostras ruidosas em bases de dados sobre invasões em redes de computadores. Muito embora a grande maioria dos trabalhos objetive estudar a deteçcão de anomalias na problemática de invasão em redes de computadores, uma outra gama de trabalhos visa modelar a deteçcão de anomalias como sendo um problema de “deteçcão de alvos” em imagens de radar e satélite [5, 6]. Dado que alvos são caracterizados como sendo objetos que, por ventura, não estavam na cena1_{, o seu aparecimento s´}_ubito acaba sendo caracterizado como uma anomalia, dado que o modelo estat´ıstico da imagem passa a ser modificado.

Lazarevic et al. [7] apresentaram um estudo comparativo sobre várias técnicas de deteçcão de intrusões em redes de computadores no contexto de deteçcão de anomalias,

1_{Em sensoriamento remoto, uma cena diz respeito `a ´}_{area de cobertura de um sat´elite no momento de}

(15)

e Kim et al. [8] propuseram a sele¸cão de caracter´ısticas e otimiza¸cão de parâmetros do classificador SVM para o mesmo contexto. Já Ma e Perkins [9] aplicaram SVM para a deteçcão de anomalias em séries temporais. Mounce et al. [10] também aplicaram SVM para deteçcão de novidades2 _{em séries temporais, mas no contexto de sistemas} de distribui¸cão de água. Já em uma temática um pouco diferente, Sotiris et al. [11] modelaram o monitoramento de sistemas mecânicos como sendo um problema de deteçcão de anomalias, também chamado de “deteçcão de falhas”, já que as mesmas caracterizam um comportamento anômalo do sistema.

Mais recentemente, Zhang et al. [12] abordaram o problema de deteçcão de anomalias em redes de sensores sem fio, e Fritsch et al. [13] modelaram essa temática em imagens médicas, dado que muitas delas possuem artefatos e ru´ıdos que foram ocasionados durante a sua aquisi¸cão, por exemplo. Kim et al. [14] propuseram um sistema h´ıbrido baseado em deteçcão de anomalias e deteçcão de “uso indevido” no contexto de sistemas de suporte a intrusões em redes de computadores. Cabe destacar que o termo “uso indevido” também é associado à temática de deteçcão de novidades. Do inglês,misuse detection, essas técnicas trabalham de maneira semelhante às técnicas de deteçcão de anomalias. Entretanto, elas possuem o conhecimento apenas de amostras anômalas, ao passo que técnicas baseadas em deteçcão de anomalias possuem o conhecimento apenas das amostras consideradas “normais” pelo sistema de aprendizagem.

Entre uma grande variedade de técnicas para deteçcão de anomalias, abordagens base-adas em Gaussianas multivaribase-adas têm sido uma das mais empregbase-adas, as quais modelam agrupamentos de amostras normais (não anômalas) como uma distribui¸cão Gaussiana; e a cada vez que uma nova amostra é adicionada ao conjunto de dados, é verificado se essa amostra pertence ou não à essa distribui¸cão. Tal procedimento é normalmente executado em dois passos: (i) primeiro, um algoritmo não supervisionado é utilizado para estimar os parâmetros das distribui¸cões Gaussianas (média e matriz de covariância), (ii) em seguida é verificada se a distância entre a nova amostra e cada uma das distribui¸cões Gaussianas é maior ou menor do que um dado limiar; se a distância é maior do que um limiar, então esta amostra é rotulada como sendo uma anomalia.

Muito embora a deteçcão de anomalias por meio de Gaussianas multivariadas seja sim-ples e eficaz, um grande problema dessas abordagens diz respeito à etapa de estima¸cão de seus parâmetros. Para que tais abordagens funcionem de maneira adequada, o espa¸co de caracter´ısticas deve ser devidamente abrangido por fun¸cões Gaussianas, o que faz com que a deteçcão de anomalias dependa da eficácia da etapa não-supervisionada em encontrar os parâmetros dessas distribui¸cões Gaussianas. Ainda que o já conhecido algoritmo do

k-médias seja geralmente utilizado para esta tarefa, na prática, não é tão fácil estabelecer

2_{Vários trabalhos na temática de deteçcão de anomalias usam o termo “deteçcão de novidades”, do}

(16)

o número de agrupamentos, como é requerido pelo k-médias. Além disso, o número de classes pode ser diferente do número de agrupamentos, dado que uma classe pode ser re-presentada por mais de um grupo de amostras. Embora o número de agrupamentos possa ser estimado por meio de um conjunto de valida¸cão, essa tarefa pode ser impraticável em grandes bases de dados.

Outra técnica amplamente empregada para encontrar os parâmetros das distribui¸cões Gaussianas é a Maximiza¸cão de Expectativas (Expectation-Maximization - E-M) [15], a qual é uma abordagem iterativa que visa maximizar a verosimilhan¸ca logar´ıtmica dos parâmetros a serem otimizados. No entanto, certos trabalhos indicam alguns problemas em E-M, como ser “atra´ıdo” para ótimos locais [16, 17, 18, 19]. Tais trabalhos utilizam técnicas baseadas em meta-heur´ısticas para endere¸car o problema de estimativa dos parâ-metros em distribui¸cões Gaussianas ao invés da técnica E-M tradicional. Enquanto estas técnicas proporcionam um modo simples e elegante de resolver problemas de otimiza¸cão, também podem ficar “presas” em ótimos locais, bem como algumas delas também necessi-tam de um conjunto de parâmetros para serem otimizadas. Além do mais, como qualquer outra técnica iterativa, geralmente necessitam de grande demanda computacional.

Recentemente, Rocha et al. [20] propuseram um algoritmo não-supervisionado deno-minado Floresta de Caminhos Ótimos (Optimum-Path Forest - OPF), o qual modela a tarefa de reconhecimento de padrões como sendo um problema de particionamento em um grafo, onde cada agrupamento é representado por uma árvore de caminhos ótimos com raiz em algum nó chave (protótipo). A idéia consiste, basicamente, em realizar uma competi¸cão entre os nós protótipos com o intuito de conquistar as amostras restantes ofe-recendo a elas caminhos de custo ótimo: quando uma amostra é conquistada por outro nó, a mesma é classificada com o rótulo de seu conquistador. O que torna o OPF interessante para problemas baseados em agrupamentos é que ele não necessita do conhecimento pré-vio do número de agrupamentos, dado que pode encontrá-lo em tempo de execu¸cão. Esta habilidade pode ser vantajosa para diversas aplica¸cões onde não é conhecido o número exato de agrupamentos.

(17)

(18)

Cap´ıtulo 2

Referencial Te´

orico

Esse cap´ıtulo apresenta um breve referencial teórico acerca de distribui¸cões Gaussianas multivariadas e classifica¸cão não supervisionada de padrões utilizando Floresta de Cami-nhos Ótimos, k-médias, Mean Shift e E-M.

2.1 Distribui¸c˜

oes Gaussianas Multivariadas

Uma das abordagens mais comuns para deteçcão de anomalias pode ser realizada através da conhecida distribui¸cão Gaussiana multivariada, do inglês Multivariate Gaussian

Dis-tribution - MGD. Dada uma amostra x_{∈ ℜ}n_{, a sua MGD pode ser calculada da seguinte}

maneira:

p(x;µ,Σ) = 1

(2π)n/2_|_Σ_|1/2exp

−1

2(x−µ)

T_Σ−1₍_x

−µ)

, (2.1)

ondeµ_{∈ ℜ}n _{e Σ}_{∈ ℜ}n×n_{representam a m´edia e a matriz de covariˆancia, respectivamente.}

Agora, suponha um conjunto de treinamento _X =_{x(1)_{, x}(2)_{, . . . , x}(m)_}_{, tal que} _x(i) _∈

ℜn_{. Sendo assim, os valores de} _µ_{e Σ podem ser facilmente calculados como segue:}

µ= 1

m

X

i=1

x(i), (2.2)

e

Σ = 1

m

X

i=1

(x(i)₋µ)(x(i)₋µ)T. (2.3)

O processo de deteçcão de anomalias por MGD em sua mais maneira mais simplista é realizado da seguinte forma: dada uma nova amostra x′ _{∈ ℜ}n_{, calcule} _p₍_x′_;_µ,_{Σ) e}

(19)

alguma técnica1_{. Caso essa condi¸cão seja verdadeira, então}_x′ _{é rotulada como uma}

amos-tra normal. Caso contrário, essa amosamos-tra é considerada anômala. A Figura 2.1 ilusamos-tra a situa¸cão descrita, onde tem-se apenas um conjunto de amostras normais (amostras em “vermelho”) e duas outras amostras a serem classificadas: muito provavelmente, a amostra “amarela” será classificada como sendo um evento normal, dado que está próxima à dis-tribui¸cão Gaussiana que representa os dados não anômalos. Já a amostra “preta” muito provavelmente seria classificada como anomalia, dado que a mesma não está modelada pela distribui¸cão Gaussiana que engloba as amostras “vermelhas”.

Figura 2.1: Dete¸cão de anomalias por distribui¸cão Gaussiana multivariada: nesse exem-plo, apenas uma distribui¸cão é empregada para modelar o comportamento das amostras “normais”.

No entanto, a formula¸cão acima assume que uma única distribui¸cão Gaussiana (agru-pamento) engloba o conjunto de dados, o que pode não ser verdadeiro em situa¸cões reais. Por isso, o problema consiste, primeiramente, em encontrar os agrupamentos para então estimar os parâmetros utilizando as equa¸cões 2.2 e 2.3. Além do mais, o problema de agrupamento de dados já foi bastante estudado nas últimas décadas por não ser de fácil solu¸cão: algumas abordagens baseadas em agrupamento afirmam ser não-supervisionadas, como ok-médias, por exemplo, mas ainda é necessário um conhecimento prévio do número de classes k. A Figura 2.2 ilustra um exemplo um pouco mais complexo de deteçcão de anomalias por Gaussianas multivariadas. Agora o conjunto de dados“normais”é modelado por três distribui¸cões Gaussianas e, nesse caso, a amostra “preta” poderia ser classificada como um evento normal, pois está próxima de uma distribui¸cão Gaussiana. Desta forma, o agrupamento de dados para posterior estima¸cão dos parâmetros das distribui¸cões Gaus-sianas é de extrema importância para o sucesso de técnicas de deteçcão de anomalias por

1_{Uma outra possibilidade é calcular a distância entre}_x′ _{e a distribui¸cão Gaussiana dada por}_N_(µ,_Σ).

Caso essa distância seja maior do que um limiar, entãox′ _{é considerada uma anomalia. Geralmente,}

(20)

MGD.

Figura 2.2: Deteçcão de anomalias por distribui¸cão Gaussiana multivariada: nesse exem-plo, tem-se agora três distribui¸cões Gaussianas para modelar o comportamento das amos-tras “normais”.

Conforme mencionado anteriormente, este trabalho pretende contribuir com mais es-tudos no contexto de estima¸cão de parâmetros de distribui¸cões Gaussianas multivariadas e sua aplica¸cão no problema de deteçcão de anomalias, bem como avaliar a eficácia do classificador OPF para esta tarefa. Boa parte dos métodos de aprendizado supervisio-nado são paramétricos, o que exige um conhecimento m´ınimo do problema que está sendo abordado. Muito embora o classificador OPF não supervisionado tenha um parâmetro ´

unico, a próxima se¸cão mostra que ele é menos sens´ıvel à escolha do número de classes como é o caso dok-médias, por exemplo.

2.2 Agrupamento de Dados por Floresta de

Cami-nhos ´

Otimos

(21)

de amostras adjacentes. O valor do melhor k é encontrado minimizando uma medida de corte em grafo e a maximiza¸cão de uma fun¸cão de valor de caminho origina uma floresta de caminhos ótimos, onde cada árvore (cluster) é enraizada em um máximo da fdp. A se¸cão a seguir apresenta o método não-supervisionado baseado em floresta de caminhos ótimos (Se¸cão 2.2.1).

2.2.1 Fundamenta¸c˜

ao te´

orica

SejaZ uma base de dados tal que, para toda amostras∈Z, existe um vetor de atributos

~v(s). Seja d(s, t) a distância entre s et no espa¸co de atributos. O problema fundamental na área de agrupamento de dados é identificar grupos de amostras em Z, sendo que amostras de um mesmo grupo deveriam representar algum n´ıvel de semelhan¸ca de acordo com algum significado semântico.

Temos que uma amostra té adjacente a uma amostras(isto é,t ∈A(s) ou (s, t)∈A) quando alguma rela¸cão de adjacência é satisfeita. Por exemplo,

t_∈A1(s) se d(s, t)≤df ou (2.4)

t_∈A2(s) se t´ek-vizinho mais pr´oximo de s no espaco de atributos, (2.5)

onde df e k > 1 s˜ao parˆametros do tipo real e inteiro, respectivamente. Assim sendo, o

par (Z, Ak) define então um grafo k-nn, onde Ak é uma rela¸cão de adjacência do tipo A2 e, posteriormente, do tipoA3 (Equa¸cão 2.7). Os arcos são ponderados por d(s, t) e os nós

s_∈Z s˜ao ponderados por um valor de densidade ρ(s), dado por

ρ(s) = √ 1 2πσ2_|A₍_s₎_|

X

∀t∈A(s) exp

−d2₍_{s, t}₎ 2σ2

, (2.6)

ondeσ = df₃ edf ´e o comprimento do maior arco em (Z, Ak). A escolha deste parˆametro

considera todos os nós para o cálculo da densidade, assumindo que uma fun¸cão gaussiana cobre a grande maioria das amostras comd(s, t)_∈[0,3σ].

(22)

rela¸cão de adjacência A2, para que a mesma seja simétrica nos platôs de ρ com o intuito de calcular os clusters:

se t ∈ A2(s),

s _{∈ A}/ 2(t) e

ρ(s) = ρ(t), ent˜ao

A3(t) ← A2(t)∪ {s}. (2.7)

Caso seja obtida uma amostra por máximo, formando um conjuntoS (pontos grandes na Figura 2.3a), então a maximiza¸cão da fun¸cão f1 resolveria o problema, ou seja:

f1(hti) =

ρ(t) se t_∈S

−∞ caso contr´ario

f1(πs· hs, ti) = min{f1(πs), ρ(t)}. (2.8)

A fun¸cãof1 possui um termo de inicializa¸cão e um termo de propaga¸cão, o qual associa a cada caminho πt o menor valor de densidade ao longo do mesmo. Toda amostra t ∈S

define um caminho trivial _ht_i devido ao fato de não ser poss´ıvel alcan¸car t através de outro máximo da fdp sem passar através das amostras com valores de densidade menores queρ(t) (Figura 2.3a). As amostras restantes iniciam com caminhos triviais de valor−∞ (Figura 2.3b), assim qualquer caminho oriundo deS possuirá valor maior. Considerando todos os caminhos poss´ıveis de S a toda amostra s /_∈ S, o caminho ótimo P∗₍_s_{) será}

aquele cujo menor valor de densidade seja m´aximo.

Visto que não temos os máximos da fdp, a fun¸cão de conectividade precisa ser escolhida de tal forma que seus valores iniciais h definam os máximos relevantes da fdp. Para

f1(hti) = h(t) < ρ(t), ∀t ∈ Z, alguns máximos da fdp serão preservados e outros serão alcan¸cados por caminhos oriundos de outros máximos, cujos valores serão maiores do que seus valores iniciais. Por exemplo, se

h(t) = ρ(t)₋δ, (2.9)

δ = min

(s,t)∈A|ρ(t)6=ρ(s)|ρ(t)−ρ(s)|,

então todos os máximos deρ serão preservados. Para altos valores de δ os domos da fdp com altura menor queδ não definirão zonas de influência.

´

(23)

Figura 2.3: (a) Grafo cujos pesos dos nós são seus valores de fdp ρ(t). Existem dois máximos com valores 3 e 5, respectivamente. Os pontos grandes indicam o conjunto de ra´ızes S. (b) Valores de caminho triviais f1(hti) para cada amostra t. (c) Floresta de caminhos ótimos P para f1 e os valores de caminho finais V(t). O caminho ótimo P∗(t) (linha tracejada) pode ser obtido percorrendo os predecessores P(t) até a raiz R(t) para cada amostra t.

1 2 2 1 3 3 3 5 5 5 (a) P T * 5 3 5 1 2 2 3 3 3 5 5 T P T R T 1

B C

o algoritmo da IFT primeiro identifica os máximos da fdp, antes de propagar suas zonas de influência, podemos modificá-lo de tal forma a detectar uma primeira amostra t para cada máximo, definindo o conjunto S em tempo real (on-the-fly). Então foi trocado h(t) por ρ(t) e esta amostra irá conquistar as amostras restantes do mesmo máximo. Assim, a fun¸cão de conectividadef2 final será dada por

f2(hti) =

ρ(t) set_∈S h(t) caso contr´ario

f2(πs· hs, ti) = min{f(πs), ρ(t)}. (2.10)

O problema agora direciona-se em encontrar o melhor valor de k para definir Ak. A

solu¸c˜ao proposta por Rocha et al. [20] para encontrar o melhork∗ _{considera o corte m´ınimo}

no grafo provida pelos resultados do processo de clustering parak∗ _∈_[1_{, k}

max], de acordo

(24)

C(k) =

c

X

i=1

W′

i

Wi+Wi′

, (2.11)

Wi =

X

∀(s,t)∈A|L(s)=L(t)=i

1

d(s, t), (2.12)

W_i′ = X

∀(s,t)∈A|L(s)=i,L(t)6=i

1

d(s, t), (2.13)

ondeL(t) ´e o rotulo da amostrat,W′

i utiliza todos os pesos dos arcos entre o cluster ie os

demais, eWi utiliza todos os pesos dos arcos que pertencem ao cluster i = 1,2, . . . , c. A

Figura 2.4a mostra um exemplo com_|Z_|= 340 amostras, as quais formam poucos clusters com diferentes concentra¸cões de amostras no espa¸co de atributos 2D. Dependendo do valor de k escolhido, é poss´ıvel encontrar até cinco agrupamentos de dados. Se kmax ≥ 150,

ent˜ao o corte m´ınimo ir´a ocorrer quando todas as amostras estiverem agrupadas em um ´

unico cluster. O corte m´ınimo para kmax = 100 identifica quatro clusters com o melhor

k∗ _{= 37 (Figura 2.4b), e limitando a busca para} _k

max = 30, o corte m´ınimo identifica

cinco clusters com melhork∗ _{= 29 (Figura 2.4c).}

Figura 2.4: (a) Espa¸co de atributos com diferentes concentra¸c˜oes de amostras para cada cluster. ´E poss´ıvel identificar diferentes quantidades de clusters dependendo do valor de

k escolhido. Solu¸c˜oes interessantes s˜ao (b) quatro e (c) cinco clusters.

(a)

(b) (c)

(25)

(P(s) = nil na Linha 4 implica que s _∈ S), associa um rótulo distinto a cada raiz na Linha 5, e calcula a zona de influência (cluster) de cada raiz como sendo uma árvore de caminhos ótimos emP, tal que os nós de cada árvore recebem o mesmo rótulo que a sua raiz no mapa L (Linha 9). O algoritmo também retorna o mapa de valores de caminhos ótimos V e o mapa de predecessores P, sendo também mais robusto que o tradicional algoritmo de meanshift [22], pois não depende de gradientes da fdp, utiliza um grafok-nn e associa um rótulo para cada máximo, mesmo quando o máximo é composto por um componente conexo em (Z, Ak∗).

Algoritmo 1 – Agrupamento de Dados por Floresta de Caminhos ´Otimos

Entrada: _{Grafo (}_{Z, A}_k∗) e fun¸c˜ao ρ.

Sa´ıda: _{Mapa de r´}_otulos_L_{, mapa de valores de caminho}_V_{, mapa de predecessores}_P_.

Auxiliares: _{Fila de prioridade} _Q_{, vari´}_aveis_tmp_e _l_←_1.

1. Para todo s_∈Z,Fa¸caP(s)_←nil,V(s)_←ρ(s)₋δ, insira s emQ.

2. Enquanto Q´e n˜ao vazia, Fa¸ca

3. Remova de Quma amostra s tal queV(s) ´e m´aximo.

4. Se P(s) =nil, Ent˜ao

5. L(s)←l, l_←l+ 1, e V(s)←ρ(s).

6. Para cada t_∈A_k∗₍_s₎ e V(t)< V(s), Fa¸ca 7. tmp_←min_{V(s), ρ(t)_}.

8. Se tmp > V(t), Ent˜ao

9. L(t)_←L(s), P(t)_←s, V(t)_←tmp.

10. Atualize posi¸c˜ao de t emQ.

2.3 Agrupamento de Dados por

k

-m´

edias

Agrupamento de dados por k-médias [23] é um método usado para particionar automa-ticamente uma base de dados em k grupos. Inicialmente, o método seleciona os centros dos k agrupamentos iniciais, e então os refina iterativamente da seguinte maneira:

• cada amostra xi ´e classificada como pertencente ao agrupamento com centro mais

pr´oximo, i= 1,2, ..._|Z_|; e

• o centroCj de cada agrupamento ´e atualizado para o ponto m´edio entre as amostras

que o constituem, j = 1,2, ..., c, sendo co n´umero de agrupamentos.

(26)

2.4 Agrupamento de Dados por Mean Shift

Proposto em 1975 por Fukunaga e Hostetler [24], e praticamente esquecido até que Cheng [22] o retomasse em 1995, o Mean Shift é um classificador cujo objetivo é pra-ticamente encontrar “bolhas” em conjuntos de amostras de densidades bem definidas. O algoritmo do Mean Shift é baseado em centróides, cujo procedimento adotado diz respeito à candidatos a centróides como pontos médios dentro de uma determinada região. Es-tes candidatos são então filtrados em um estágio de pós-processamento para eliminar as centróides semi duplicadas do conjunto final de centróides [25].

Seja um conjunto de dados S em um espa¸co Euclidiano de n-dimensões, X. Temos queK é um núcleo (kernel) “flat” caracterizado pela fun¸cão de deλ (número de “bolhas”) em X:

K(x) =

1 se _||x_{|| ≤}λ

0 se _||x_||> λ.

(2.14)

A amostra m´edia de x em X ´e:

m(x) = P

s∈SK(s−x)s

P

s∈SK(s−x)

. (2.15)

A diferen¸cam(x)−x é chamada demeanshif t. O movimento repetido das amostras para a amostra média, em que cada itera¸cão do algoritmo, s ← m(s) é realizada para todos∈S, é chamado de algoritmo M eanShif t [24].

2.5 Agrupamento de Dados por Maximiza¸c˜

ao de

Ex-pectativas

(27)

o número de agrupamentos na base de dados. Esse ajuste do GMM é capaz de aprender o Modelo de Mistura Gaussiana a partir de um conjunto de treinamento. A partir de um conjunto de testes, pode-se atribuir à cada amostra a classe da Gaussiana a qual ela pertence, usando o método de prognóstico do GMM [25]. Aprender Modelos de Misturas Gaussianas de bases de dados não rotuladas é uma tarefa complicada, uma vez que não se conhece a procedência das amostras classificadas. O E-M é capaz de lidar com esse problema através de um processo iterativo, dividido da seguinte maneira:

• Primeiramente, seleciona-se um n´umero aleat´orio de amostras e atribui a cada uma delas a probabilidade de terem sido geradas por cada um dos componentes do mo-delo;

• Em seguida, são selecionados os parâmetros que maximizam a probabilidade de per-tencer ao componente atribu´ıdo. O processo é repetido até convergir a um máximo local.

(28)

Cap´ıtulo 3

Metodologia

Nesta se¸cão, é descrita a metodologia empregada para avaliar o desempenho do classifica-dor OPF na tarefa de estima¸cão dos parâmetros das distribui¸cões Gaussianas no contexto de deteçcão de anomalias, assim como na técnica de deteçcão de anomalias baseada ex-clusivamente no classificador OPF.

3.1 Bases de Dados

Para o trabalho, foram criadas três bases de dados sintéticas (Db1, Db2, e Db3), bem como foram empregadas mais seis bases de dados reais. A Tabela 3.1 contém a descri¸cão de cada uma delas.

As bases de dados sintéticas foram geradas por meio de um algoritmo baseado em distribui¸cões Gaussianas capaz de criar amostras bidimensionais e posicioná-las dentro do espa¸co abrangido por essas distribui¸cões. Esse algoritmo recebe como entrada, para cada agrupamento, o respectivo número de amostras, ponto central de cada uma das duas dimensões e uma matriz de covariância. Os parâmetros utilizados para gera¸cão de cada uma dessas base de dados sintéticas são apresentados nas Tabelas 3.2, 3.3 e 3.4, para Db1, Db2 e Db3, respectivamente. A Figura 3.1 apresenta essas bases de dados sintéticas, nas quais os nós “negros” representam as anomalias, e cada uma das demais cores representa uma classe.

3.2 Detec¸c˜

ao de Anomalias por Gaussianas

Multiva-riadas

(29)

Tabela 3.1: Descri¸cão das bases de dados aplicadas neste trabalho. Pen-Based Recog-nition of Handwritten Digits, Landsat Satellite e Thyroid Disease estão dispon´ıveis para download em http://madm.dfki.de/downloads. Nodules é uma base de dados privada para deteçcão de nódulos cancer´ıgenos em imagens mamográficas. Industrial e Comercial também são bases de dados privadas, e se referem a deteçcão de fraudes na rede elétrica para clientes industriais e comerciais, respectivamente.

Base de dados # amostras # caracter´ısticas # classes

Db1 100 2 3

Db2 300 2 3

Db3 757 2 6

Indutrial 3182 8 2

Comercial 4952 8 2

Nodules 1210 6 2

Pen-Based R. H. D. 809 16 2

Landsat Satellite 5100 36 2

Thyroid Disease 6916 21 2

Tabela 3.2: Base de dados Db1 formada por três agrupamentos, sendo dois deles referentes às classes 1 e 2, respectivamente, e um terceiro representando amostras anômalas.

classe # amostras Média X Média Y Matriz covariância

1 140 7 7

1 0 0 1

2 140 15 7

1 0 0 1

anomalias 40 11 12

1 0 0 1

(30)

Tabela 3.3: Base de dados Db2 formada por quatro agrupamentos, sendo os dois primeiros referentes à classe 1, o terceiro referente à classe 2 e um quarto representando amostras anômalas.

1 150 6 22

1 0 0 2

1 120 17 0

1 0 0 3

2 130 5 5

1 0 0 7

anomalias 40 18 15

2 0 0 2

amostra para cada distribui¸cão Gaussiana. Finalmente, se esta distância for maior que um limiarT, tal amostra é então rotulada como uma anomalia.

Na técnica acima mencionada, surgem dois problemas: (i) como ajustar os estimadores, i.e., OPF, k-médias, E-M e Mean Shift, e (ii) como encontrar o limiar apropriado para classificar uma amostra como sendo uma anomalia ou não. Com o objetivo de resolver ambos os problemas, foi proposta a utiliza¸cão de uma grade de busca, a qual será descrita com mais detalhes na próxima se¸cão, e que envolve basicamente encontrar um par de parâmetros para cada estimador:

• (kmax, T): de acordo com a se¸cão 2.2, o parâmetrokmax controla o número máximo

de vizinhos considerados pelo OPF ao computar a densidade de cada n´o do conjunto de treinamento;

• (k, T): k está relacionado com o número de agrupamentos usados pelo k-médias e E-M; e

(31)

Tabela 3.4: Base de dados Db3 formada por sete agrupamentos, sendo os cinco primeiros referentes `as classes 1, 2, 3, 4 e 5, respectivamente, e dois agrupamentos representando amostras anˆomalas.

1 187 30 30

3 0

0 15

2 185 5 5

12 0

0 10

3 254 10 22

8 0

0 20

4 259 22 0

5 0

0 23

5 113 40 15

5 0 0 7

anomalias 35 37 0

5 0 0 8

anomalias 21 0 35

7 0 0 5

3.3 Detec¸c˜

ao de Anomalias por Floresta de

Cami-nhos ´

Otimos

A técnica de deteçcão de anomalias baseada em OPF é comparada com a deteçcão de anomalias por Gaussianas Multivariadas em diversos cenários. O princ´ıpio é similar ao apresentado na Se¸cão 3.2 para deteçcão por Gaussianas Multivariadas. Dado um con-junto de treinamento composto apenas por amostras não-anômalas, é poss´ıvel estimar os agrupamentos que representam os conjuntos de amostras não-anômalas. Em seguida, considerando o conjunto de testes, cada amostra tem sua densidade analisada. Caso a densidade seja menor que um limiarT1, tal amostra é então rotulada como uma anomalia. Assim como na deteçcão de anomalias por Gaussianas, na deteçcão de anomalias por Floresta de Caminhos Ótimos persistem os problemas de se ajustar o parâmetro kmax e

(32)

Figura 3.1: Bases de dados sint´eticas: (a)Db1, (b)Db2 e (c)Db3.

(a) (b)

(c)

solu¸cão neste caso também foi adotar a grade de busca, envolvendo encontrar o par de parâmetros (kmax, T1).

3.4 Composi¸c˜

ao dos conjuntos

(33)

3.5 Atribui¸c˜

ao de r´

otulos

Devido ao fato do processo de forma¸cão das distribui¸cões Gaussianas dependerem de pa-râmetros obtidos em uma classifica¸cão não-supervisionada, a atribui¸cão dos rótulos é feita de modo sequencial, atribuindo um rótulo diferente à cada distribui¸cão. No entanto, este processo pode causar falhas na classifica¸cão, visto que (i) uma classe pode ser represen-tada por mais de um agrupamento, e (ii) a atribui¸cão pode ser feita em uma sequência em que os rótulos distribu´ıdos são diferentes dos rótulos originais do conjunto de treinamento. Para resolver este problema, a seguinte abordagem foi adotada: cada amostra do conjunto de testes é classificada como pertencente a uma distribui¸cão Gaussiana. Em seguida, essa amostra recebe o rótulo original da amostra do conjunto de treinamento mais próxima ao ponto central da distribui¸cão Gaussiana cuja amostra classificada pertence.

3.6 Acur´

acia

Foi adotada uma medida de acurácia que leva em considera¸cão bases de dados desbalan-ceadas, como é o caso de problemas em deteçcão de anomalias. Assim, a acurácia Acc

é calculada levando em considera¸cão que as classes podem ter diferentes tamanhos nos conjuntos de treinamento, valida¸cão e teste. Caso tivéssemos duas classes, por exemplo, com diferentes tamanhos e um classificador sempre associasse o rótulo da classe com mais representantes, sua acurácia diminuiria devido a alta taxa de erro na classe com menor número de elementos.

Seja, então, uma base de dados Z = Z1 ∪ Z2, onde Z1 e Z2 denotam os conjuntos de treinamento e teste (similar defini¸cão é aplicada ao conjunto de valida¸cão), respectiva-mente. Seja N Z2(i), i= 1,2, . . . , c, o número de elementos emZ2 de cada classe i, ec o número de classes. Definimos, então:

ei,1 =

F P(i) |Z2| − |N Z2(i)|

e ei,2 =

F N(i) |N Z2(i)|

, i= 1, . . . , c, (3.1)

ondeF P(i) eF N(i) correspondem aos falsos positivos e falsos negativos, respectivamente. Isto significa queF P(i) corresponde ao número de amostras de outras classes que foram classificadas como sendo da classe i em Z2, e F N(i) é o número de amostras da classe i que foram incorretamente classificadas como sendo de outras classes em Z2. Os erros ei,1 eei,2 são usados para definir

E(i) =ei,1+ei,2, (3.2)

(34)

classifica¸c˜ao ´e dada por:

Acc= 2c− Pc

i=1E(i)

2c = 1−

Pc

i=1E(i)

(35)

Cap´ıtulo 4

Resultados experimentais

Esta se¸cão apresenta os resultados experimentais de acordo com a metodologia descrita no cap´ıtulo anterior. Com o objetivo de encontrar os melhores parâmetros para cada uma das técnicas, foi executada uma busca pseudo exaustiva para os parâmetros Quantil1

∈ [0.01,1.0] com passo de 0.05 para o Mean Shift, kmax ∈ [1,100] com o passo de 5

para o OPF, bem como para o número de agrupamentos para as técnicas E-M e k-médias (Tabela 4.1). Os limiares foram selecionados empiricamente entre [0.5, 3.5] com passo 0.25 para a deteçcão de anomalias por distribui¸cões Gaussianas multivariadas (MGD) e entre [0, 2000] com passo de 100 para a deteçcão exclusivamente por OPF. As Tabelas 4.2 e 4.3 apresentam os valores médios dos parâmetros de entrada e do número de agrupamentos de cada técnica para deteçcão de anomalias por MGD e OPF, respectivamente. Vale lembrar que o número de agrupamentos é calculado automaticamente pelo OPF e pelo Mean Shift.

As Figuras 4.1 e 4.2 apresentam os valores de acurácia sob diferentes configura¸cões de limiares e parâmetros para cada estimador utilizado na deteçcão de anomalias por MGD. A Figura 4.3 apresenta os valores de acurácia para a técnica de deteçcão de anomalias por OPF sob diferentes configura¸cões de limiares e kmax considerando as bases de dados

Db1 e Satellite, respectivamente2_.

Levando-se em considera¸cão a Figura 4.1, pode-se dizer que o OPF obteve um platô de valores próximos do máximo parakmax ∈[10,100] eT > 2.7, sendo essa área maior do

que a área das demais técnicas empregadas para estimar os parâmetros das Gaussianas multivariadas. Tal comportamento indica que o OPF é mais estável do que as demais técnicas, e seus parâmetros requerem menos conhecimento sobre a base de dados. Além disso, se fossem usados valores de uma pesquisa aleatória ao invés de uma grade de busca,

1_{O parâmetro Quantil está relacionado com a largura de banda do Mean shift, e é inversamente}

proporcional ao n´umero de agrupamentos.

(36)

Tabela 4.1: Intervalo de número de agrupamentos e passo utilizados como parâmetro de entrada na valida¸cão pelos classificadoresk-médias e E-M.

Base de Dados Intervalo Passo

Db1 1 a 100 5

Db2 1 a 180 10

Db3 1 a 450 25

Nodules 1 a 285 15

Industrial 1 a 1400 100

Comercial 1 a 2000 100

Pen-based 1 a 300 15

Satellite 1 a 2000 100

Thyroid 1 a 2000 100

Tabela 4.2: Média de número de agrupamentos e parâmetros de entrada utilizados por cada técnica. Note que o número de agrupamentos é utilizado como parâmetro de entrada para as técnicas k-médias e E-M, assim como o kmax é utilizado pelo OPF e o Quantil

pelo Mean Shift.

Base de Dados Agrup. k-M´edias Agrup. E-M Agrup. Mean Shift Agrup. OPF kmax Quantil

Db1 6 6 3 3 20 0.21

Db2 10 14 4 4 19 0.19

Db3 30 119 5 7 24 0.14 Nodules 60 131 58 60 20 0.01 Industrial 1268 394 25 438 26 0.25 Comercial 1500 1457 33 1235 13 0.1 Pen-based 128 94 17 32 20 0.31 Satellite 279 332 1 366 40 0.47 Thyroid 110 152 19 435 50 0.76

a probabilidade de obter o par de valores capaz de alcan¸car a acurácia máxima seria maior para o OPF do que para as demais técnicas.

(37)

centro-Tabela 4.3: Média de número de agrupamentos ekmaxutilizados na deteçcão de anomalias

por OPF.

Base de Dados N´umero de Agrupamentos kmax

Db1 88 1

Db2 139 1

Db3 197 7

Nodules 60 1

Industrial 721 8

Comercial 254 19

Pen-based 218 5

Satellite 502 17

Thyroid 874 4

esquerda e a outra na regi˜ao inferior, ao centro da Figura 4.2c.

Finalmente, observa-se na Figura 4.3 os resultados obtidos na valida¸cão das bases de dados Db1 e Satellite na deteçcão de anomalias por OPF. Novamente o ótimo global se apresenta como um platô na base Db1, enquanto na base Satellite é representado por uma vasta área na região inferior esquerda, deixando claramente vis´ıvel ser bem menos sens´ıvel à escolha dos parâmetros do que na dete¸cão por MGD. É interessante compararmos os valores das grades de busca da base Satellite para MGD - OPF ( Figura 4.2a) e OPF (Figura 4.3b). Note que a grade de busca para a deteçcão de anomalias por OPF é muito mais “comportada”, ou seja, a área de valores com acurácia alta (>=90%) é maior do que a deteçcão de anomalias por MGD - OPF.

(38)

Figura 4.1: Valores das grades de busca e suas acurácias correspondentes em rela¸cão ao conjunto de valida¸cão da base de dados Db1 utilizando os estimadores (a) OPF, (b) k -médias, (c) E-M e (d) Mean Shift para encontrar os parâmetros das Gaussianas multiva-riadas.

20 40 60 80 100

kmax 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - OPF

50 56 62 68 74 80 86 92 98

20 40 60 80 100

Número de agrupamentos 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - k-Médias

50 56 62 68 74 80 86 92 98 (a) (b)

20 40 60 80 100

MGD - E-M

50 56 62 68 74 80 86 92 98

20 40 60 80 100

Quantil 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - Mean Shift

(39)

Figura 4.2: Valores das grades de busca e suas acurácias correspondentes em rela¸cão ao conjunto de valida¸cão da base de dados Satélite utilizando os estimadores (a) OPF, (b) k-médias, (c) E-M e (d) Mean Shift para encontrar os parâmetros das Gaussianas multivariadas.

20 40 60 80 100

kmax 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - OPF

52 55 58 61 64 67 70 73 76

0 500 1000 1500 2000

MGD - k-Médias

52.5 55.0 57.5 60.0 62.5 65.0 67.5 70.0 72.5 75.0 (a) (b)

0 500 1000 1500 2000

MGD - E-M

52.0 54.5 57.0 59.5 62.0 64.5 67.0 69.5 72.0 74.5

20 40 60 80 100

Quantil 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - Mean Shift

(40)

Figura 4.3: Valores das grades de busca e suas acurácias correspondentes em rela¸cão ao conjunto de valida¸cão das bases de dados Db1 e Satélite, utilizando a técnica de detçcão de anomalias por OPF.

20 40 60 80 100

kmax 0 200 400 600 800 1000 1200 Limiar

OPF - DB1

50 56 62 68 74 80 86 92 98

20 40 60 80 100

kmax 0 200 400 600 800 1000 1200 Limiar

OPF - Satellite

50 55 60 65 70 75 80 85 90 (a) (b)

Tabela 4.4: Acurácia média e desvio padrão considerando as bases de dados empregadas neste trabalho.

Base de Dados MGD - OPF MGD -k-M´edias MGD - MS MGD - E-M OPF

Db1 100%±0.0 98.43%±0.96 98.98%±1.68 98.45%±1.18 99.81%±0.33

Db2 99.65%±0.49 98.46%±1.06 99.30%±0.75 99.27%±0.64 99.83%±0.24

Db3 99.45%±0.34 98.24%±0.70 99.37%±0.45 98.85%±0.44 99.20%±0.39 Nodules 99.84%±0.46 99.66%±0.65 97.90%±6.26 90.62%±2.48 99.24%±1.46

Industrial 52.23%±3.68 53.47%±4.52 48.11%±3.30 48.44%±1.77 55.01%±2.92

Comercial 58.17%±3.15 59.76%±2.53 50.23%±4.71 55.78%±2.33 64.41%±3.00

Pen-based 56.25%±4.65 56.28%±3.81 56.97%±3.08 55.75%±4.28 96.91%±3.48

Satellite 75.22%±5.44 74.84%±5.49 79.79%±5.88 74.50%±4.98 89.47%±3.70

(41)

Cap´ıtulo 5

Conclus˜

oes

O problema de deteçcão de anomalias vem sendo estudado a vários anos, dado que é de grande interesse da comunidade cient´ıfica e também de indústrias. Geralmente, a tarefa de deteçcão de intrusão em redes de computadores e reconhecimento de certas doen¸cas, por exemplo, são modelados como sendo problemas de deteçcão de anomalias. Na verdade, problemas para os quais têm-se poucas ou nenhuma amostra da classe que representa eventos anômalos, são indicados para serem modelados como uma tarefa de deteçcão de anomalias.

A deteçcão de anomalias difere dos problemas de reconhecimento de padrões tradicio-nais pelo fato de tais técnicas não serem treinadas com o conjunto de dados que descrevem as amostras anômalas, justamente pelo fato da pouca informa¸cão dispon´ıvel das mesmas. Assim sendo, a ideia consiste em aprender o comportamento dos dados que descrevem os eventos “normais” e, no caso de uma nova amostra não corresponder à esse modelo, ela é então classificada como uma amostra anômala.

Dentre as várias técnicas que abordam o contexto de deteçcão de anomalias, pode-mos citar a que faz uso de distribui¸cões Gaussianas multivariadas. A ideia consiste, basicamente, em modelar o conjunto de dados “normais” como sendo uma distribui¸cão Gaussiana, ou seja, “basta” estimarmos seus parâmetros (média e matriz de covariância) para termos um modelo dos dados que são considerados eventos não anômalos. Embora essa abordagem seja aparentemente simples, o grande problema diz respeito à etapa de estima¸cão dos parâmetros das distribui¸cões Gaussianas, que é realizado por meio de um aprendizado não supervisionado. Dado que, geralmente, problemas reais possuem uma distribui¸cão das amostras irregular e, consequentemente, o número de agrupamentos é maior do que o número de classes que representam amostras não anômalas, a tarefa de estima¸cão dos parâmetros das distribui¸cão torna-se ainda mais crucial e importante.

(42)

(43)

Apˆ

endice A

Trabalhos Aceitos para Publica¸c˜

ao

-Conferˆ

encias

• Rosa, G.H.; Costa, K.A.P.; PASSOS J ´UNIOR, L.A.; Papa, J.P.; Falc˜ao, A.X.; Tavares, J.R.S. “On the Training of Artificial Neural Networks with Radial Basis Function Using Optimum-Path Forest Clustering”. 22nd International Conference

on Pattern Recognition, 2014, Estocolmo. (Qualis A1)

• PASSOS J ÚNIOR, L.A.; Rosa, G.H.; Costa, K.A.P.; Papa, J.P.; “Obten¸cão de Neurônios de Redes Neurais de Base Radial via Agrupamento de Dados por Floresta de Caminhos Ótimos“. IV Workshop do Programa de Pós-Gradua¸cão em Ciência

da Computa¸c˜ao. (Sem ´ındice Qualis)

• PASSOS J ÚNIOR, L.A.; Costa, K.A.P.; Rosa, G.H.; Papa, J.P.; “Obten¸cão de Neurônios de Redes Neurais de Base Radial via Agrupamento de Dados por Floresta de Caminhos Ótimos“. Interciência & Sociedade - Revista Eletrônica. , v.4, p.64 -74, 2015.. (Qualis C)

• RIBEIRO, P. B. ; PASSOS JUNIOR, L. A. ; Costa, K. A. P. ; SILVA, L. A. ; RO-MERO, R. A. F. ; Papa, Jo˜ao P. ; “Unsupervised Breast Masses Classification Th-rough Optimum-Path Forest“. 28th IEEE International Symposium on

Computer-Based Medical Systems, 2015, S˜ao Carlos. (aceito para publica¸c˜ao). (Qualis B1)

Cabe destacar que s˜ao aguardadas as respostas da revista IEEE Transactions on Power Systems (Qualis B1), em rela¸c˜ao a um artigo submetido denominado “Unsupervised Non-Technical Losses Identification Through Optimum-Path Forest”, e de um artigo en-titulado “Fitting Multivariate Gaussian Distributions with Optimum-Path Forest and its Application for Anomaly Detection”,submetido para o congresso Applied Computing 2015

(44)

Referˆ

encias Bibliogr´

aficas

[1] V. Chandola, A. Banerjee, and V. Kumar. Anomaly detection: A survey. ACM

Computing Surveys, 41(3):1–58, 2009.

[2] T. Ahmed, B. Oreshkin, and M. Coates. Machine learning approaches to network anomaly detection. InProceedings of the 2Nd USENIX Workshop on Tackling

Com-puter Systems Problems with Machine Learning Techniques, pages 1–7, Berkeley, CA,

USA, 2007. USENIX Association.

[3] S. Mukkamala, G. Janoski, and A Sung. Intrusion detection using neural networks and support vector machines. InProceedings of the 2002 International Joint

Confe-rence on Neural Networks,, volume 2, pages 1702–1707, 2002.

[4] W. Hu, Y. Liao, and V. R. Vemuri. Robust support vector machines for anomaly detection. InInternational Conference on Machine Learning and Applications, pages 23–24, 2003.

[5] A Banerjee, P. Burlina, and C. Diehl. A support vector method for anomaly detection in hyperspectral imagery. IEEE Transactions on Geoscience and Remote Sensing, 44(8):2282–2291, 2006.

[6] S. Khazai, S. Homayouni, A Safari, and B. Mojaradi. Anomaly detection in hypers-pectral images based on an adaptive support vector method. IEEE Geoscience and

Remote Sensing Letters, 8(4):646–650, 2011.

[7] A. Lazarevic, L. Ertoz, A. Ozgur, V. Kumar, and J. Srivastava. A comparative study of anomaly detection schemes in network intrusion detection. In Proceedings of the

2003 SIAM International Conference on Data Mining, pages 25–36, 2003.

[8] D. S. Kim, H.-N. Nguyen, S.-Y. Ohn, and J. S. Park. Fusions of GA and SVM for anomaly detection in intrusion detection system. In J. Wang, X.-F. Liao, and Z. Yi, editors, Advances in Neural Networks, volume 3498 of Lecture Notes in Computer

(45)

[9] J. Ma and S. Perkins. Time-series novelty detection using one-class support vector machines. InProceedings of the International Joint Conference on Neural Networks, volume 3, pages 1741–1745, 2003.

[10] S. R. Mounce, R. B. Mounce, and J. B. Boxall. Novelty detection for time series data analysis in water distribution systems using support vector machines. Journal

of Hydroinformatics, 13(4):672–686, 2011.

[11] V. A. Sotiris, P. W. Tse, and M. G. Pecht. Anomaly detection through a bayesian support vector machine. IEEE Transactions on Reliability, 59(2):277–286, 2010.

[12] Y. Zhang, N. Meratnia, and P. J.M. Havinga. Distributed online outlier detection in wireless sensor networks using ellipsoidal support vector machine. Ad Hoc Networks, 11(3):1062–1074, 2013.

[13] V. Fritsch, G. Varoquaux, B. Thyreau, J.-B. Poline, and B. Thirion. Detecting outliers in high-dimensional neuroimaging datasets with robust covariance estimators.

Medical Image Analysis, 16(7):1359–1370, 2012. Special Issue on the 2011 Conference

on Medical Image Computing and Computer Assisted Intervention.

[14] G. Kim, S. Lee, and S. Kim. A novel hybrid intrusion detection method integra-ting anomaly detection with misuse detection. Expert Systems with Applications, 41(4):1690–1700, 2014.

[15] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incom-plete data via the EM algorithm. Journal of the Royal Statistical Society: Series B, 39(1):1–38, 1977.

[16] A. Esmaeili and N. Mozayani. Adjusting the parameters of radial basis function networks using particle swarm optimization. In Proceedings of the IEEE Internatio-nal Conference on ComputatioInternatio-nal Intelligence for Measurement Systems and

Appli-cations, pages 179–181, 2009.

[17] G. E. Tsekouras and J. Tsimikas. On training RBF neural networks using input– output fuzzy clustering and particle swarm optimization. Fuzzy Sets and Systems, 221:65–89, 2013.

[18] S. N. Qasem and S. M. Shamsuddin. Memetic elitist pareto differential evolution algorithm based radial basis function networks for classification problems. Applied

(46)

[19] C. Ari and S. Aksoy. Maximum likelihood estimation of gaussian mixture models using particle swarm optimization. In Proceedings of the 20th International

Confe-rence on Pattern Recognition, pages 746–749, 2010.

[20] L. M. Rocha, F. A. M. Cappabianco, and A. X. Falc˜ao. Data clustering as an optimum-path forest problem with applications in image analysis.International

Jour-nal of Imaging Systems and Technology, 19(2):50–68, 2009.

[21] J. Shi and J. Malik. Normalized cuts and image segmentation. IEEE Transactions

on Pattern Analysis and Machine Intelligence, 22(8):888–905, Aug 2000.

[22] Y. Cheng. Mean shift, mode seeking, and clustering. IEEE Transactions on Pattern

Analysis and Machine Intelligence, 17(8):790–799, Aug 1995.

[23] J. MacQueen. Some methods for classification and analysis of multivariate observa-tions. InProceedings of the fifth Berkeley symposium on mathematical statistics and

probability, volume 1, pages 281–297. Oakland, CA, USA., 1967.

[24] K. Fukunaga and L. Hostetler. The estimation of the gradient of a density function, with applications in pattern recognition. Information Theory, IEEE Transactions on, 21(1):32–40, 1975.

[25] Scikitlearn developers. User Guide. Available at http://scikit-learn.org/dev/

user_guide.html.

[26] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incom-plete data via the em algorithm. Journal of the royal statistical society. Series B

(47)

(48)