• Nenhum resultado encontrado

Detecção de anomalias por Floresta Caminhos Ótimos

N/A
N/A
Protected

Academic year: 2017

Share "Detecção de anomalias por Floresta Caminhos Ótimos"

Copied!
48
0
0

Texto

(1)

UNIVESIDADE ESTADUAL PAULISTA

ulio de Mesquita Filho

os-Gradua¸c˜

ao em Ciˆ

encia da Computa¸c˜

ao

Leandro Aparecido Passos J´

unior

Detec¸c˜

ao de Anomalias por Floresta Caminhos ´

Otimos

UNESP

(2)

Leandro Aparecido Passos J´

unior

Detec¸c˜

ao de Anomalias por Floresta Caminhos

´

Otimos

Prof. Dr. Jo˜ao Paulo Papa (Orientador) Prof. Dr. Kelton Augusto Pontara da Costa

(Co-orientador)

Disserta¸c˜ao de Mestrado elaborada junto ao Programa de P´os-Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao - ´Area de Concentra¸c˜ao em Siste-mas de Computa¸c˜ao como parte dos requisitos para a obten¸c˜ao do t´ıtulo de Mestre em Ciˆencia da Computa¸c˜ao.

UNESP

(3)

Passos Júnior, Leandro Aparecido.

Detecção de anomalias por floresta de caminhos ótimos / Leandro Aparecido Passos Júnior. -- São José do Rio Preto, 2015

33 f. : il., tabs.

Orientador: João Paulo Papa

Coorientador: Kelton Augusto Pontara da Costa

Dissertação (mestrado) – Universidade Estadual Paulista “Júlio de Mesquita Filho”, Instituto de Biociências, Letras e Ciências Exatas

1. Computação. 2. Redes de computadores – Medidas de segurança. 3. Floresta de caminhos ótimos. 4. Distribuição Gaussiana. 5. Sistemas de detecção de intrusão. I. Papa, João Paulo. II. Costa, Kelton Augusto Pontara da. III. Universidade Estadual Paulista "Júlio de Mesquita Filho". Instituto de Biociências, Letras e Ciências Exatas. IV. Título.

CDU – 681.3.025

(4)
(5)

Departamento de Computa¸c˜ao Universidade Estadual Paulista

Detec¸c˜

ao de Anomalias por Floresta Caminhos

´

Otimos

Leandro Aparecido Passos J´

unior

Maio de 2015

Banca Examinadora:

• Prof. Dr. Jo˜ao Paulo Papa (Orientador)

• Prof. Dr. Alexandre Lu´ıs Magalh˜aes Levada (UFSCAR - S˜ao Carlos)

(6)

Dedicat´

oria

Dedico este trabalho a uma pessoas mais que especial, uma pessoa boa, alegre, compa-nheira, divertida, aquela que me apoiou e me deu suporte em todos os momentos, mesmo sem condi¸c˜oes ou recursos para tal. Obrigado Silvia, minha amada e querida M ˜AE.

(7)

Agradecimentos

Agrade¸co aos meus av´os, especialmente em mem´oria do Vˆo Neu e do Vˆo Vard˜ao, por todo o carinho e ensinamentos durante minha infˆancia.

Agrade¸co aos meus pais, que me puseram nesse mundo e guiaram pelo bom caminho, sempre apoiando em cada decis˜ao.

Agrade¸co `as minhas irm˜as D´ebora e Raquel pelo companheirismo e amizade, e ao ca¸culinha Luis Felipe.

Agrade¸co aos meus tios e familiares, que sempre estiveram dispostos quando precisei. Agrade¸co a todos os meus amigos que sempre estiveram ao meu lado em todos os momentos. Seria injusto citar alguns e acabar talvez esquecendo de outros, ent˜ao evitarei nomes. Mas obrigado a todos os que me acompanham desde a infˆancia, escola, faculdade, viagens, bandas, e tamb´em aos que apareceram ao acaso. Vocˆes tornaram minha vida mais feliz e agrad´avel.

Agrade¸co a minha namorada Maria L´ıgia, que entrou na minha vida h´a t˜ao pouco tempo e j´a faz muita diferen¸ca nela.

(8)

Sum´

ario

1 Introdu¸c˜ao 1

2 Referencial Te´orico 5

2.1 Distribui¸c˜oes Gaussianas Multivariadas . . . 5

2.2 Agrupamento de Dados por Floresta de Caminhos ´Otimos . . . 7

2.2.1 Fundamenta¸c˜ao te´orica . . . 8

2.3 Agrupamento de Dados por k-m´edias . . . 12

2.4 Agrupamento de Dados por Mean Shift . . . 13

2.5 Agrupamento de Dados por Maximiza¸c˜ao de Expectativas . . . 13

3 Metodologia 15 3.1 Bases de Dados . . . 15

3.2 Detec¸c˜ao de Anomalias por Gaussianas Multivariadas . . . 15

3.3 Detec¸c˜ao de Anomalias por Floresta de Caminhos ´Otimos . . . 18

3.4 Composi¸c˜ao dos conjuntos . . . 19

3.5 Atribui¸c˜ao de r´otulos . . . 20

3.6 Acur´acia . . . 20

4 Resultados experimentais 22

5 Conclus˜oes 28

A Trabalhos Aceitos para Publica¸c˜ao - Conferˆencias 30

(9)

Lista de Tabelas

3.1 Descri¸c˜ao das bases de dados aplicadas neste trabalho. Pen-Based Recog-nition of Handwritten Digits, Landsat Satellite e Thyroid Disease est˜ao dispon´ıveis para download em http://madm.dfki.de/downloads. Nodules ´e uma base de dados privada para detec¸c˜ao de n´odulos cancer´ıgenos em imagens mamogr´aficas. Industrial e Comercial tamb´em s˜ao bases de dados privadas, e se referem a detec¸c˜ao de fraudes na rede el´etrica para clientes industriais e comerciais, respectivamente. . . 16 3.2 Base de dados Db1 formada por trˆes agrupamentos, sendo dois deles

refe-rentes `as classes 1 e 2, respectivamente, e um terceiro representando amos-tras anˆomalas. . . 16 3.3 Base de dados Db2 formada por quatro agrupamentos, sendo os dois

pri-meiros referentes `a classe 1, o terceiro referente `a classe 2 e um quarto representando amostras anˆomalas. . . 17 3.4 Base de dados Db3 formada por sete agrupamentos, sendo os cinco

primei-ros referentes `as classes 1, 2, 3, 4 e 5, respectivamente, e dois agrupamentos representando amostras anˆomalas. . . 18

4.1 Intervalo de n´umero de agrupamentos e passo utilizados como parˆametro de entrada na valida¸c˜ao pelos classificadores k-m´edias e E-M. . . 23 4.2 M´edia de n´umero de agrupamentos e parˆametros de entrada utilizados por

cada t´ecnica. Note que o n´umero de agrupamentos ´e utilizado como parˆa-metro de entrada para as t´ecnicas k-m´edias e E-M, assim como o kmax ´e

utilizado pelo OPF e o Quantil pelo Mean Shift. . . 23 4.3 M´edia de n´umero de agrupamentos e kmax utilizados na detec¸c˜ao de

ano-malias por OPF. . . 24 4.4 Acur´acia m´edia e desvio padr˜ao considerando as bases de dados empregadas

(10)

Lista de Figuras

2.1 Dete¸c˜ao de anomalias por distribui¸c˜ao Gaussiana multivariada: nesse exem-plo, apenas uma distribui¸c˜ao ´e empregada para modelar o comportamento das amostras “normais”. . . 6 2.2 Detec¸c˜ao de anomalias por distribui¸c˜ao Gaussiana multivariada: nesse

exemplo, tem-se agora trˆes distribui¸c˜oes Gaussianas para modelar o com-portamento das amostras “normais”. . . 7 2.3 (a) Grafo cujos pesos dos n´os s˜ao seus valores de fdp ρ(t). Existem dois

m´aximos com valores 3 e 5, respectivamente. Os pontos grandes indicam o conjunto de ra´ızes S. (b) Valores de caminho triviais f1(hti) para cada amostra t. (c) Floresta de caminhos ´otimos P para f1 e os valores de caminho finais V(t). O caminho ´otimo P∗(t) (linha tracejada) pode ser

obtido percorrendo os predecessoresP(t) at´e a raizR(t) para cada amostrat. 10 2.4 (a) Espa¸co de atributos com diferentes concentra¸c˜oes de amostras para cada

cluster. ´E poss´ıvel identificar diferentes quantidades de clusters dependendo do valor de k escolhido. Solu¸c˜oes interessantes s˜ao (b) quatro e (c) cinco clusters. . . 11

3.1 Bases de dados sint´eticas: (a)Db1, (b)Db2 e (c)Db3. . . 19

4.1 Valores das grades de busca e suas acur´acias correspondentes em rela¸c˜ao ao conjunto de valida¸c˜ao da base de dados Db1 utilizando os estimado-res (a) OPF, (b) k-m´edias, (c) E-M e (d) Mean Shift para encontrar os parˆametros das Gaussianas multivariadas. . . 25 4.2 Valores das grades de busca e suas acur´acias correspondentes em rela¸c˜ao

ao conjunto de valida¸c˜ao da base de dados Sat´elite utilizando os estima-dores (a) OPF, (b) k-m´edias, (c) E-M e (d) Mean Shift para encontrar os parˆametros das Gaussianas multivariadas. . . 26 4.3 Valores das grades de busca e suas acur´acias correspondentes em rela¸c˜ao

(11)

Lista de Abrevia¸c˜

oes

Acc Accuracy - Acur´acia. 20, 21

ANN Artificial Neural Networks - Redes Neurais Artificiais. 1

E-M Expectation Maximization - Maximiza¸c˜ao de Expectativas. ix, x, 3, 5, 13–15, 17,

22, 23, 25–27

fdp fun¸c˜ao de densidade de probabilidade. x, 7–12

GMM Gaussian Mixture Model - Modelo de Misturas Gaussianas. 13, 14

IFT Image Foresting Transform - Transformada Imagem-Floresta. 10

MGD Multivariate Gaussian Distributions - Distribui¸c˜oes Gaussianas Multivariadas. 5,

7, 22, 24, 27

MS Mean Shift. 27

OPF Optimum-Path Forest - Floresta de Caminhos ´Otimos. ix, x, xii, xiii, 3, 4, 7, 15,

17–19, 22–27, 29

(12)

Abstract

(13)

Resumo

(14)

Cap´ıtulo 1

Introdu¸c˜

ao

A tarefa de detec¸c˜ao de anomalias est´a relacionada ao problema de encontrar padr˜oes em dados que n˜ao se comportam de maneira esperada, como fraudes em cart˜oes de cr´edito ou reconhecimento de intrus˜oes em redes de computadores, por exemplo. Por esse motivo, detectar tais anomalias ´e de grande interesse para aplica¸c˜oes em diversos dom´ınios [1]. Entretanto, uma vez que anomalias apresentam-se por meio de diferentes maneiras, de-senvolver um modelo geral de comportamento normal ou anˆomalo n˜ao ´e uma tarefa muito trivial. Sendo assim, t´ecnicas de aprendizado de m´aquina s˜ao geralmente empregadas nesse contexto, uma vez que podem aprender a natureza da anormalidade e, consequen-temente, adaptarem-se automaticamente a ela [2].

A literatura que trata da detec¸c˜ao de anomalias ´e bem ampla. Mukkamala et al. [3], por exemplo, compararam o desempenho de Redes Neurais Artificiais, do inglˆesArtificial

Neural Networks (ANN), e M´aquina de Vetores de Suporte (Support Vector Machines

- SVM) para a detec¸c˜ao de anomalias em redes de computadores. Hu et al. [4], na mesma linha, propuseram asRobust Support Vector Machines, as quais foram projetadas especificamente para lidar com amostras ruidosas em bases de dados sobre invas˜oes em redes de computadores. Muito embora a grande maioria dos trabalhos objetive estudar a detec¸c˜ao de anomalias na problem´atica de invas˜ao em redes de computadores, uma outra gama de trabalhos visa modelar a detec¸c˜ao de anomalias como sendo um problema de “detec¸c˜ao de alvos” em imagens de radar e sat´elite [5, 6]. Dado que alvos s˜ao caracterizados como sendo objetos que, por ventura, n˜ao estavam na cena1, o seu aparecimento s´ubito acaba sendo caracterizado como uma anomalia, dado que o modelo estat´ıstico da imagem passa a ser modificado.

Lazarevic et al. [7] apresentaram um estudo comparativo sobre v´arias t´ecnicas de detec¸c˜ao de intrus˜oes em redes de computadores no contexto de detec¸c˜ao de anomalias,

1Em sensoriamento remoto, uma cena diz respeito `a ´area de cobertura de um sat´elite no momento de

(15)

e Kim et al. [8] propuseram a sele¸c˜ao de caracter´ısticas e otimiza¸c˜ao de parˆametros do classificador SVM para o mesmo contexto. J´a Ma e Perkins [9] aplicaram SVM para a detec¸c˜ao de anomalias em s´eries temporais. Mounce et al. [10] tamb´em aplicaram SVM para detec¸c˜ao de novidades2 em s´eries temporais, mas no contexto de sistemas de distribui¸c˜ao de ´agua. J´a em uma tem´atica um pouco diferente, Sotiris et al. [11] modelaram o monitoramento de sistemas mecˆanicos como sendo um problema de detec¸c˜ao de anomalias, tamb´em chamado de “detec¸c˜ao de falhas”, j´a que as mesmas caracterizam um comportamento anˆomalo do sistema.

Mais recentemente, Zhang et al. [12] abordaram o problema de detec¸c˜ao de anomalias em redes de sensores sem fio, e Fritsch et al. [13] modelaram essa tem´atica em imagens m´edicas, dado que muitas delas possuem artefatos e ru´ıdos que foram ocasionados durante a sua aquisi¸c˜ao, por exemplo. Kim et al. [14] propuseram um sistema h´ıbrido baseado em detec¸c˜ao de anomalias e detec¸c˜ao de “uso indevido” no contexto de sistemas de suporte a intrus˜oes em redes de computadores. Cabe destacar que o termo “uso indevido” tamb´em ´e associado `a tem´atica de detec¸c˜ao de novidades. Do inglˆes,misuse detection, essas t´ecnicas trabalham de maneira semelhante `as t´ecnicas de detec¸c˜ao de anomalias. Entretanto, elas possuem o conhecimento apenas de amostras anˆomalas, ao passo que t´ecnicas baseadas em detec¸c˜ao de anomalias possuem o conhecimento apenas das amostras consideradas “normais” pelo sistema de aprendizagem.

Entre uma grande variedade de t´ecnicas para detec¸c˜ao de anomalias, abordagens base-adas em Gaussianas multivaribase-adas tˆem sido uma das mais empregbase-adas, as quais modelam agrupamentos de amostras normais (n˜ao anˆomalas) como uma distribui¸c˜ao Gaussiana; e a cada vez que uma nova amostra ´e adicionada ao conjunto de dados, ´e verificado se essa amostra pertence ou n˜ao `a essa distribui¸c˜ao. Tal procedimento ´e normalmente executado em dois passos: (i) primeiro, um algoritmo n˜ao supervisionado ´e utilizado para estimar os parˆametros das distribui¸c˜oes Gaussianas (m´edia e matriz de covariˆancia), (ii) em seguida ´e verificada se a distˆancia entre a nova amostra e cada uma das distribui¸c˜oes Gaussianas ´e maior ou menor do que um dado limiar; se a distˆancia ´e maior do que um limiar, ent˜ao esta amostra ´e rotulada como sendo uma anomalia.

Muito embora a detec¸c˜ao de anomalias por meio de Gaussianas multivariadas seja sim-ples e eficaz, um grande problema dessas abordagens diz respeito `a etapa de estima¸c˜ao de seus parˆametros. Para que tais abordagens funcionem de maneira adequada, o espa¸co de caracter´ısticas deve ser devidamente abrangido por fun¸c˜oes Gaussianas, o que faz com que a detec¸c˜ao de anomalias dependa da efic´acia da etapa n˜ao-supervisionada em encontrar os parˆametros dessas distribui¸c˜oes Gaussianas. Ainda que o j´a conhecido algoritmo do

k-m´edias seja geralmente utilizado para esta tarefa, na pr´atica, n˜ao ´e t˜ao f´acil estabelecer

2V´arios trabalhos na tem´atica de detec¸c˜ao de anomalias usam o termo “detec¸c˜ao de novidades”, do

(16)

o n´umero de agrupamentos, como ´e requerido pelo k-m´edias. Al´em disso, o n´umero de classes pode ser diferente do n´umero de agrupamentos, dado que uma classe pode ser re-presentada por mais de um grupo de amostras. Embora o n´umero de agrupamentos possa ser estimado por meio de um conjunto de valida¸c˜ao, essa tarefa pode ser impratic´avel em grandes bases de dados.

Outra t´ecnica amplamente empregada para encontrar os parˆametros das distribui¸c˜oes Gaussianas ´e a Maximiza¸c˜ao de Expectativas (Expectation-Maximization - E-M) [15], a qual ´e uma abordagem iterativa que visa maximizar a verosimilhan¸ca logar´ıtmica dos parˆametros a serem otimizados. No entanto, certos trabalhos indicam alguns problemas em E-M, como ser “atra´ıdo” para ´otimos locais [16, 17, 18, 19]. Tais trabalhos utilizam t´ecnicas baseadas em meta-heur´ısticas para endere¸car o problema de estimativa dos parˆa-metros em distribui¸c˜oes Gaussianas ao inv´es da t´ecnica E-M tradicional. Enquanto estas t´ecnicas proporcionam um modo simples e elegante de resolver problemas de otimiza¸c˜ao, tamb´em podem ficar “presas” em ´otimos locais, bem como algumas delas tamb´em necessi-tam de um conjunto de parˆametros para serem otimizadas. Al´em do mais, como qualquer outra t´ecnica iterativa, geralmente necessitam de grande demanda computacional.

Recentemente, Rocha et al. [20] propuseram um algoritmo n˜ao-supervisionado deno-minado Floresta de Caminhos ´Otimos (Optimum-Path Forest - OPF), o qual modela a tarefa de reconhecimento de padr˜oes como sendo um problema de particionamento em um grafo, onde cada agrupamento ´e representado por uma ´arvore de caminhos ´otimos com raiz em algum n´o chave (prot´otipo). A id´eia consiste, basicamente, em realizar uma competi¸c˜ao entre os n´os prot´otipos com o intuito de conquistar as amostras restantes ofe-recendo a elas caminhos de custo ´otimo: quando uma amostra ´e conquistada por outro n´o, a mesma ´e classificada com o r´otulo de seu conquistador. O que torna o OPF interessante para problemas baseados em agrupamentos ´e que ele n˜ao necessita do conhecimento pr´e-vio do n´umero de agrupamentos, dado que pode encontr´a-lo em tempo de execu¸c˜ao. Esta habilidade pode ser vantajosa para diversas aplica¸c˜oes onde n˜ao ´e conhecido o n´umero exato de agrupamentos.

(17)
(18)

Cap´ıtulo 2

Referencial Te´

orico

Esse cap´ıtulo apresenta um breve referencial te´orico acerca de distribui¸c˜oes Gaussianas multivariadas e classifica¸c˜ao n˜ao supervisionada de padr˜oes utilizando Floresta de Cami-nhos ´Otimos, k-m´edias, Mean Shift e E-M.

2.1

Distribui¸c˜

oes Gaussianas Multivariadas

Uma das abordagens mais comuns para detec¸c˜ao de anomalias pode ser realizada atrav´es da conhecida distribui¸c˜ao Gaussiana multivariada, do inglˆes Multivariate Gaussian

Dis-tribution - MGD. Dada uma amostra x∈ ℜn, a sua MGD pode ser calculada da seguinte

maneira:

p(x;µ,Σ) = 1

(2π)n/2|Σ|1/2exp

−1

2(x−µ)

TΣ−1(x

−µ)

, (2.1)

ondeµ∈ ℜn e Σ∈ ℜn×nrepresentam a m´edia e a matriz de covariˆancia, respectivamente.

Agora, suponha um conjunto de treinamento X ={x(1), x(2), . . . , x(m)}, tal que x(i)

ℜn. Sendo assim, os valores de µe Σ podem ser facilmente calculados como segue:

µ= 1

m

m

X

i=1

x(i), (2.2)

e

Σ = 1

m

m

X

i=1

(x(i)µ)(x(i)µ)T. (2.3)

O processo de detec¸c˜ao de anomalias por MGD em sua mais maneira mais simplista ´e realizado da seguinte forma: dada uma nova amostra x′ ∈ ℜn, calcule p(x;µ,Σ) e

(19)

alguma t´ecnica1. Caso essa condi¸c˜ao seja verdadeira, ent˜aox´e rotulada como uma

amos-tra normal. Caso contr´ario, essa amosamos-tra ´e considerada anˆomala. A Figura 2.1 ilusamos-tra a situa¸c˜ao descrita, onde tem-se apenas um conjunto de amostras normais (amostras em “vermelho”) e duas outras amostras a serem classificadas: muito provavelmente, a amostra “amarela” ser´a classificada como sendo um evento normal, dado que est´a pr´oxima `a dis-tribui¸c˜ao Gaussiana que representa os dados n˜ao anˆomalos. J´a a amostra “preta” muito provavelmente seria classificada como anomalia, dado que a mesma n˜ao est´a modelada pela distribui¸c˜ao Gaussiana que engloba as amostras “vermelhas”.

Figura 2.1: Dete¸c˜ao de anomalias por distribui¸c˜ao Gaussiana multivariada: nesse exem-plo, apenas uma distribui¸c˜ao ´e empregada para modelar o comportamento das amostras “normais”.

No entanto, a formula¸c˜ao acima assume que uma ´unica distribui¸c˜ao Gaussiana (agru-pamento) engloba o conjunto de dados, o que pode n˜ao ser verdadeiro em situa¸c˜oes reais. Por isso, o problema consiste, primeiramente, em encontrar os agrupamentos para ent˜ao estimar os parˆametros utilizando as equa¸c˜oes 2.2 e 2.3. Al´em do mais, o problema de agrupamento de dados j´a foi bastante estudado nas ´ultimas d´ecadas por n˜ao ser de f´acil solu¸c˜ao: algumas abordagens baseadas em agrupamento afirmam ser n˜ao-supervisionadas, como ok-m´edias, por exemplo, mas ainda ´e necess´ario um conhecimento pr´evio do n´umero de classes k. A Figura 2.2 ilustra um exemplo um pouco mais complexo de detec¸c˜ao de anomalias por Gaussianas multivariadas. Agora o conjunto de dados“normais”´e modelado por trˆes distribui¸c˜oes Gaussianas e, nesse caso, a amostra “preta” poderia ser classificada como um evento normal, pois est´a pr´oxima de uma distribui¸c˜ao Gaussiana. Desta forma, o agrupamento de dados para posterior estima¸c˜ao dos parˆametros das distribui¸c˜oes Gaus-sianas ´e de extrema importˆancia para o sucesso de t´ecnicas de detec¸c˜ao de anomalias por

1Uma outra possibilidade ´e calcular a distˆancia entrexe a distribui¸c˜ao Gaussiana dada porN(µ,Σ).

Caso essa distˆancia seja maior do que um limiar, ent˜aox′ ´e considerada uma anomalia. Geralmente,

(20)

MGD.

Figura 2.2: Detec¸c˜ao de anomalias por distribui¸c˜ao Gaussiana multivariada: nesse exem-plo, tem-se agora trˆes distribui¸c˜oes Gaussianas para modelar o comportamento das amos-tras “normais”.

Conforme mencionado anteriormente, este trabalho pretende contribuir com mais es-tudos no contexto de estima¸c˜ao de parˆametros de distribui¸c˜oes Gaussianas multivariadas e sua aplica¸c˜ao no problema de detec¸c˜ao de anomalias, bem como avaliar a efic´acia do classificador OPF para esta tarefa. Boa parte dos m´etodos de aprendizado supervisio-nado s˜ao param´etricos, o que exige um conhecimento m´ınimo do problema que est´a sendo abordado. Muito embora o classificador OPF n˜ao supervisionado tenha um parˆametro ´

unico, a pr´oxima se¸c˜ao mostra que ele ´e menos sens´ıvel `a escolha do n´umero de classes como ´e o caso dok-m´edias, por exemplo.

2.2

Agrupamento de Dados por Floresta de

Cami-nhos ´

Otimos

(21)

de amostras adjacentes. O valor do melhor k ´e encontrado minimizando uma medida de corte em grafo e a maximiza¸c˜ao de uma fun¸c˜ao de valor de caminho origina uma floresta de caminhos ´otimos, onde cada ´arvore (cluster) ´e enraizada em um m´aximo da fdp. A se¸c˜ao a seguir apresenta o m´etodo n˜ao-supervisionado baseado em floresta de caminhos ´otimos (Se¸c˜ao 2.2.1).

2.2.1

Fundamenta¸c˜

ao te´

orica

SejaZ uma base de dados tal que, para toda amostras∈Z, existe um vetor de atributos

~v(s). Seja d(s, t) a distˆancia entre s et no espa¸co de atributos. O problema fundamental na ´area de agrupamento de dados ´e identificar grupos de amostras em Z, sendo que amostras de um mesmo grupo deveriam representar algum n´ıvel de semelhan¸ca de acordo com algum significado semˆantico.

Temos que uma amostra t´e adjacente a uma amostras(isto ´e,t ∈A(s) ou (s, t)∈A) quando alguma rela¸c˜ao de adjacˆencia ´e satisfeita. Por exemplo,

tA1(s) se d(s, t)≤df ou (2.4)

tA2(s) se t´ek-vizinho mais pr´oximo de s no espaco de atributos, (2.5)

onde df e k > 1 s˜ao parˆametros do tipo real e inteiro, respectivamente. Assim sendo, o

par (Z, Ak) define ent˜ao um grafo k-nn, onde Ak ´e uma rela¸c˜ao de adjacˆencia do tipo A2 e, posteriormente, do tipoA3 (Equa¸c˜ao 2.7). Os arcos s˜ao ponderados por d(s, t) e os n´os

sZ s˜ao ponderados por um valor de densidade ρ(s), dado por

ρ(s) = √ 1 2πσ2|A(s)|

X

∀t∈A(s) exp

−d2(s, t) 2σ2

, (2.6)

ondeσ = df3 edf ´e o comprimento do maior arco em (Z, Ak). A escolha deste parˆametro

considera todos os n´os para o c´alculo da densidade, assumindo que uma fun¸c˜ao gaussiana cobre a grande maioria das amostras comd(s, t)[0,3σ].

(22)

rela¸c˜ao de adjacˆencia A2, para que a mesma seja sim´etrica nos platˆos de ρ com o intuito de calcular os clusters:

se t ∈ A2(s),

s ∈ A/ 2(t) e

ρ(s) = ρ(t), ent˜ao

A3(t) ← A2(t)∪ {s}. (2.7)

Caso seja obtida uma amostra por m´aximo, formando um conjuntoS (pontos grandes na Figura 2.3a), ent˜ao a maximiza¸c˜ao da fun¸c˜ao f1 resolveria o problema, ou seja:

f1(hti) =

ρ(t) se tS

−∞ caso contr´ario

f1(πs· hs, ti) = min{f1(πs), ρ(t)}. (2.8)

A fun¸c˜aof1 possui um termo de inicializa¸c˜ao e um termo de propaga¸c˜ao, o qual associa a cada caminho πt o menor valor de densidade ao longo do mesmo. Toda amostra t ∈S

define um caminho trivial hti devido ao fato de n˜ao ser poss´ıvel alcan¸car t atrav´es de outro m´aximo da fdp sem passar atrav´es das amostras com valores de densidade menores queρ(t) (Figura 2.3a). As amostras restantes iniciam com caminhos triviais de valor−∞ (Figura 2.3b), assim qualquer caminho oriundo deS possuir´a valor maior. Considerando todos os caminhos poss´ıveis de S a toda amostra s / S, o caminho ´otimo P∗(s) ser´a

aquele cujo menor valor de densidade seja m´aximo.

Visto que n˜ao temos os m´aximos da fdp, a fun¸c˜ao de conectividade precisa ser escolhida de tal forma que seus valores iniciais h definam os m´aximos relevantes da fdp. Para

f1(hti) = h(t) < ρ(t), ∀t ∈ Z, alguns m´aximos da fdp ser˜ao preservados e outros ser˜ao alcan¸cados por caminhos oriundos de outros m´aximos, cujos valores ser˜ao maiores do que seus valores iniciais. Por exemplo, se

h(t) = ρ(t)δ, (2.9)

δ = min

(s,t)∈A|ρ(t)6=ρ(s)|ρ(t)−ρ(s)|,

ent˜ao todos os m´aximos deρ ser˜ao preservados. Para altos valores de δ os domos da fdp com altura menor queδ n˜ao definir˜ao zonas de influˆencia.

´

(23)

Figura 2.3: (a) Grafo cujos pesos dos n´os s˜ao seus valores de fdp ρ(t). Existem dois m´aximos com valores 3 e 5, respectivamente. Os pontos grandes indicam o conjunto de ra´ızes S. (b) Valores de caminho triviais f1(hti) para cada amostra t. (c) Floresta de caminhos ´otimos P para f1 e os valores de caminho finais V(t). O caminho ´otimo P∗(t) (linha tracejada) pode ser obtido percorrendo os predecessores P(t) at´e a raiz R(t) para cada amostra t.

1 2 2 1 3 3 3 5 5 5 (a) P T * 5 3 5 1 2 2 3 3 3 5 5 T P T R T 1

B C

o algoritmo da IFT primeiro identifica os m´aximos da fdp, antes de propagar suas zonas de influˆencia, podemos modific´a-lo de tal forma a detectar uma primeira amostra t para cada m´aximo, definindo o conjunto S em tempo real (on-the-fly). Ent˜ao foi trocado h(t) por ρ(t) e esta amostra ir´a conquistar as amostras restantes do mesmo m´aximo. Assim, a fun¸c˜ao de conectividadef2 final ser´a dada por

f2(hti) =

ρ(t) setS h(t) caso contr´ario

f2(πs· hs, ti) = min{f(πs), ρ(t)}. (2.10)

O problema agora direciona-se em encontrar o melhor valor de k para definir Ak. A

solu¸c˜ao proposta por Rocha et al. [20] para encontrar o melhork∗ considera o corte m´ınimo

no grafo provida pelos resultados do processo de clustering parak∗ [1, k

max], de acordo

(24)

C(k) =

c

X

i=1

W′

i

Wi+Wi′

, (2.11)

Wi =

X

∀(s,t)∈A|L(s)=L(t)=i

1

d(s, t), (2.12)

Wi′ = X

∀(s,t)∈A|L(s)=i,L(t)6=i

1

d(s, t), (2.13)

ondeL(t) ´e o rotulo da amostrat,W′

i utiliza todos os pesos dos arcos entre o cluster ie os

demais, eWi utiliza todos os pesos dos arcos que pertencem ao cluster i = 1,2, . . . , c. A

Figura 2.4a mostra um exemplo com|Z|= 340 amostras, as quais formam poucos clusters com diferentes concentra¸c˜oes de amostras no espa¸co de atributos 2D. Dependendo do valor de k escolhido, ´e poss´ıvel encontrar at´e cinco agrupamentos de dados. Se kmax ≥ 150,

ent˜ao o corte m´ınimo ir´a ocorrer quando todas as amostras estiverem agrupadas em um ´

unico cluster. O corte m´ınimo para kmax = 100 identifica quatro clusters com o melhor

k∗ = 37 (Figura 2.4b), e limitando a busca para k

max = 30, o corte m´ınimo identifica

cinco clusters com melhork∗ = 29 (Figura 2.4c).

Figura 2.4: (a) Espa¸co de atributos com diferentes concentra¸c˜oes de amostras para cada cluster. ´E poss´ıvel identificar diferentes quantidades de clusters dependendo do valor de

k escolhido. Solu¸c˜oes interessantes s˜ao (b) quatro e (c) cinco clusters.

(a)

(b) (c)

(25)

(P(s) = nil na Linha 4 implica que s S), associa um r´otulo distinto a cada raiz na Linha 5, e calcula a zona de influˆencia (cluster) de cada raiz como sendo uma ´arvore de caminhos ´otimos emP, tal que os n´os de cada ´arvore recebem o mesmo r´otulo que a sua raiz no mapa L (Linha 9). O algoritmo tamb´em retorna o mapa de valores de caminhos ´otimos V e o mapa de predecessores P, sendo tamb´em mais robusto que o tradicional algoritmo de meanshift [22], pois n˜ao depende de gradientes da fdp, utiliza um grafok-nn e associa um r´otulo para cada m´aximo, mesmo quando o m´aximo ´e composto por um componente conexo em (Z, Ak∗).

Algoritmo 1 Agrupamento de Dados por Floresta de Caminhos ´Otimos

Entrada: Grafo (Z, Ak∗) e fun¸c˜ao ρ.

Sa´ıda: Mapa de r´otulosL, mapa de valores de caminhoV, mapa de predecessoresP.

Auxiliares: Fila de prioridade Q, vari´aveistmpe l1.

1. Para todo sZ,Fa¸caP(s)nil,V(s)ρ(s)δ, insira s emQ.

2. Enquanto Q´e n˜ao vazia, Fa¸ca

3. Remova de Quma amostra s tal queV(s) ´e m´aximo.

4. Se P(s) =nil, Ent˜ao

5. L(s)←l, ll+ 1, e V(s)←ρ(s).

6. Para cada tAk(s) e V(t)< V(s), Fa¸ca 7. tmpmin{V(s), ρ(t)}.

8. Se tmp > V(t), Ent˜ao

9. L(t)L(s), P(t)s, V(t)tmp.

10. Atualize posi¸c˜ao de t emQ.

2.3

Agrupamento de Dados por

k

-m´

edias

Agrupamento de dados por k-m´edias [23] ´e um m´etodo usado para particionar automa-ticamente uma base de dados em k grupos. Inicialmente, o m´etodo seleciona os centros dos k agrupamentos iniciais, e ent˜ao os refina iterativamente da seguinte maneira:

• cada amostra xi ´e classificada como pertencente ao agrupamento com centro mais

pr´oximo, i= 1,2, ...|Z|; e

• o centroCj de cada agrupamento ´e atualizado para o ponto m´edio entre as amostras

que o constituem, j = 1,2, ..., c, sendo co n´umero de agrupamentos.

(26)

2.4

Agrupamento de Dados por Mean Shift

Proposto em 1975 por Fukunaga e Hostetler [24], e praticamente esquecido at´e que Cheng [22] o retomasse em 1995, o Mean Shift ´e um classificador cujo objetivo ´e pra-ticamente encontrar “bolhas” em conjuntos de amostras de densidades bem definidas. O algoritmo do Mean Shift ´e baseado em centr´oides, cujo procedimento adotado diz respeito `a candidatos a centr´oides como pontos m´edios dentro de uma determinada regi˜ao. Es-tes candidatos s˜ao ent˜ao filtrados em um est´agio de p´os-processamento para eliminar as centr´oides semi duplicadas do conjunto final de centr´oides [25].

Seja um conjunto de dados S em um espa¸co Euclidiano de n-dimens˜oes, X. Temos queK ´e um n´ucleo (kernel) “flat” caracterizado pela fun¸c˜ao de deλ (n´umero de “bolhas”) em X:

K(x) =

1 se ||x|| ≤λ

0 se ||x||> λ.

(2.14)

A amostra m´edia de x em X ´e:

m(x) = P

s∈SK(s−x)s

P

s∈SK(s−x)

. (2.15)

A diferen¸cam(x)−x ´e chamada demeanshif t. O movimento repetido das amostras para a amostra m´edia, em que cada itera¸c˜ao do algoritmo, s ← m(s) ´e realizada para todos∈S, ´e chamado de algoritmo M eanShif t [24].

2.5

Agrupamento de Dados por Maximiza¸c˜

ao de

Ex-pectativas

(27)

o n´umero de agrupamentos na base de dados. Esse ajuste do GMM ´e capaz de aprender o Modelo de Mistura Gaussiana a partir de um conjunto de treinamento. A partir de um conjunto de testes, pode-se atribuir `a cada amostra a classe da Gaussiana a qual ela pertence, usando o m´etodo de progn´ostico do GMM [25]. Aprender Modelos de Misturas Gaussianas de bases de dados n˜ao rotuladas ´e uma tarefa complicada, uma vez que n˜ao se conhece a procedˆencia das amostras classificadas. O E-M ´e capaz de lidar com esse problema atrav´es de um processo iterativo, dividido da seguinte maneira:

• Primeiramente, seleciona-se um n´umero aleat´orio de amostras e atribui a cada uma delas a probabilidade de terem sido geradas por cada um dos componentes do mo-delo;

• Em seguida, s˜ao selecionados os parˆametros que maximizam a probabilidade de per-tencer ao componente atribu´ıdo. O processo ´e repetido at´e convergir a um m´aximo local.

(28)

Cap´ıtulo 3

Metodologia

Nesta se¸c˜ao, ´e descrita a metodologia empregada para avaliar o desempenho do classifica-dor OPF na tarefa de estima¸c˜ao dos parˆametros das distribui¸c˜oes Gaussianas no contexto de detec¸c˜ao de anomalias, assim como na t´ecnica de detec¸c˜ao de anomalias baseada ex-clusivamente no classificador OPF.

3.1

Bases de Dados

Para o trabalho, foram criadas trˆes bases de dados sint´eticas (Db1, Db2, e Db3), bem como foram empregadas mais seis bases de dados reais. A Tabela 3.1 cont´em a descri¸c˜ao de cada uma delas.

As bases de dados sint´eticas foram geradas por meio de um algoritmo baseado em distribui¸c˜oes Gaussianas capaz de criar amostras bidimensionais e posicion´a-las dentro do espa¸co abrangido por essas distribui¸c˜oes. Esse algoritmo recebe como entrada, para cada agrupamento, o respectivo n´umero de amostras, ponto central de cada uma das duas dimens˜oes e uma matriz de covariˆancia. Os parˆametros utilizados para gera¸c˜ao de cada uma dessas base de dados sint´eticas s˜ao apresentados nas Tabelas 3.2, 3.3 e 3.4, para Db1, Db2 e Db3, respectivamente. A Figura 3.1 apresenta essas bases de dados sint´eticas, nas quais os n´os “negros” representam as anomalias, e cada uma das demais cores representa uma classe.

3.2

Detec¸c˜

ao de Anomalias por Gaussianas

Multiva-riadas

(29)

Tabela 3.1: Descri¸c˜ao das bases de dados aplicadas neste trabalho. Pen-Based Recog-nition of Handwritten Digits, Landsat Satellite e Thyroid Disease est˜ao dispon´ıveis para download em http://madm.dfki.de/downloads. Nodules ´e uma base de dados privada para detec¸c˜ao de n´odulos cancer´ıgenos em imagens mamogr´aficas. Industrial e Comercial tamb´em s˜ao bases de dados privadas, e se referem a detec¸c˜ao de fraudes na rede el´etrica para clientes industriais e comerciais, respectivamente.

Base de dados # amostras # caracter´ısticas # classes

Db1 100 2 3

Db2 300 2 3

Db3 757 2 6

Indutrial 3182 8 2

Comercial 4952 8 2

Nodules 1210 6 2

Pen-Based R. H. D. 809 16 2

Landsat Satellite 5100 36 2

Thyroid Disease 6916 21 2

Tabela 3.2: Base de dados Db1 formada por trˆes agrupamentos, sendo dois deles referentes `as classes 1 e 2, respectivamente, e um terceiro representando amostras anˆomalas.

classe # amostras M´edia X M´edia Y Matriz covariˆancia

1 140 7 7

1 0 0 1

2 140 15 7

1 0 0 1

anomalias 40 11 12

1 0 0 1

(30)

Tabela 3.3: Base de dados Db2 formada por quatro agrupamentos, sendo os dois primeiros referentes `a classe 1, o terceiro referente `a classe 2 e um quarto representando amostras anˆomalas.

classe # amostras M´edia X M´edia Y Matriz covariˆancia

1 150 6 22

1 0 0 2

1 120 17 0

1 0 0 3

2 130 5 5

1 0 0 7

anomalias 40 18 15

2 0 0 2

amostra para cada distribui¸c˜ao Gaussiana. Finalmente, se esta distˆancia for maior que um limiarT, tal amostra ´e ent˜ao rotulada como uma anomalia.

Na t´ecnica acima mencionada, surgem dois problemas: (i) como ajustar os estimadores, i.e., OPF, k-m´edias, E-M e Mean Shift, e (ii) como encontrar o limiar apropriado para classificar uma amostra como sendo uma anomalia ou n˜ao. Com o objetivo de resolver ambos os problemas, foi proposta a utiliza¸c˜ao de uma grade de busca, a qual ser´a descrita com mais detalhes na pr´oxima se¸c˜ao, e que envolve basicamente encontrar um par de parˆametros para cada estimador:

• (kmax, T): de acordo com a se¸c˜ao 2.2, o parˆametrokmax controla o n´umero m´aximo

de vizinhos considerados pelo OPF ao computar a densidade de cada n´o do conjunto de treinamento;

• (k, T): k est´a relacionado com o n´umero de agrupamentos usados pelo k-m´edias e E-M; e

(31)

Tabela 3.4: Base de dados Db3 formada por sete agrupamentos, sendo os cinco primeiros referentes `as classes 1, 2, 3, 4 e 5, respectivamente, e dois agrupamentos representando amostras anˆomalas.

classe # amostras M´edia X M´edia Y Matriz covariˆancia

1 187 30 30

3 0

0 15

2 185 5 5

12 0

0 10

3 254 10 22

8 0

0 20

4 259 22 0

5 0

0 23

5 113 40 15

5 0 0 7

anomalias 35 37 0

5 0 0 8

anomalias 21 0 35

7 0 0 5

3.3

Detec¸c˜

ao de Anomalias por Floresta de

Cami-nhos ´

Otimos

A t´ecnica de detec¸c˜ao de anomalias baseada em OPF ´e comparada com a detec¸c˜ao de anomalias por Gaussianas Multivariadas em diversos cen´arios. O princ´ıpio ´e similar ao apresentado na Se¸c˜ao 3.2 para detec¸c˜ao por Gaussianas Multivariadas. Dado um con-junto de treinamento composto apenas por amostras n˜ao-anˆomalas, ´e poss´ıvel estimar os agrupamentos que representam os conjuntos de amostras n˜ao-anˆomalas. Em seguida, considerando o conjunto de testes, cada amostra tem sua densidade analisada. Caso a densidade seja menor que um limiarT1, tal amostra ´e ent˜ao rotulada como uma anomalia. Assim como na detec¸c˜ao de anomalias por Gaussianas, na detec¸c˜ao de anomalias por Floresta de Caminhos ´Otimos persistem os problemas de se ajustar o parˆametro kmax e

(32)

Figura 3.1: Bases de dados sint´eticas: (a)Db1, (b)Db2 e (c)Db3.

(a) (b)

(c)

solu¸c˜ao neste caso tamb´em foi adotar a grade de busca, envolvendo encontrar o par de parˆametros (kmax, T1).

3.4

Composi¸c˜

ao dos conjuntos

(33)

3.5

Atribui¸c˜

ao de r´

otulos

Devido ao fato do processo de forma¸c˜ao das distribui¸c˜oes Gaussianas dependerem de pa-rˆametros obtidos em uma classifica¸c˜ao n˜ao-supervisionada, a atribui¸c˜ao dos r´otulos ´e feita de modo sequencial, atribuindo um r´otulo diferente `a cada distribui¸c˜ao. No entanto, este processo pode causar falhas na classifica¸c˜ao, visto que (i) uma classe pode ser represen-tada por mais de um agrupamento, e (ii) a atribui¸c˜ao pode ser feita em uma sequˆencia em que os r´otulos distribu´ıdos s˜ao diferentes dos r´otulos originais do conjunto de treinamento. Para resolver este problema, a seguinte abordagem foi adotada: cada amostra do conjunto de testes ´e classificada como pertencente a uma distribui¸c˜ao Gaussiana. Em seguida, essa amostra recebe o r´otulo original da amostra do conjunto de treinamento mais pr´oxima ao ponto central da distribui¸c˜ao Gaussiana cuja amostra classificada pertence.

3.6

Acur´

acia

Foi adotada uma medida de acur´acia que leva em considera¸c˜ao bases de dados desbalan-ceadas, como ´e o caso de problemas em detec¸c˜ao de anomalias. Assim, a acur´acia Acc

´e calculada levando em considera¸c˜ao que as classes podem ter diferentes tamanhos nos conjuntos de treinamento, valida¸c˜ao e teste. Caso tiv´essemos duas classes, por exemplo, com diferentes tamanhos e um classificador sempre associasse o r´otulo da classe com mais representantes, sua acur´acia diminuiria devido a alta taxa de erro na classe com menor n´umero de elementos.

Seja, ent˜ao, uma base de dados Z = Z1 ∪ Z2, onde Z1 e Z2 denotam os conjuntos de treinamento e teste (similar defini¸c˜ao ´e aplicada ao conjunto de valida¸c˜ao), respectiva-mente. Seja N Z2(i), i= 1,2, . . . , c, o n´umero de elementos emZ2 de cada classe i, ec o n´umero de classes. Definimos, ent˜ao:

ei,1 =

F P(i) |Z2| − |N Z2(i)|

e ei,2 =

F N(i) |N Z2(i)|

, i= 1, . . . , c, (3.1)

ondeF P(i) eF N(i) correspondem aos falsos positivos e falsos negativos, respectivamente. Isto significa queF P(i) corresponde ao n´umero de amostras de outras classes que foram classificadas como sendo da classe i em Z2, e F N(i) ´e o n´umero de amostras da classe i que foram incorretamente classificadas como sendo de outras classes em Z2. Os erros ei,1 eei,2 s˜ao usados para definir

E(i) =ei,1+ei,2, (3.2)

(34)

classifica¸c˜ao ´e dada por:

Acc= 2c− Pc

i=1E(i)

2c = 1−

Pc

i=1E(i)

(35)

Cap´ıtulo 4

Resultados experimentais

Esta se¸c˜ao apresenta os resultados experimentais de acordo com a metodologia descrita no cap´ıtulo anterior. Com o objetivo de encontrar os melhores parˆametros para cada uma das t´ecnicas, foi executada uma busca pseudo exaustiva para os parˆametros Quantil1

∈ [0.01,1.0] com passo de 0.05 para o Mean Shift, kmax ∈ [1,100] com o passo de 5

para o OPF, bem como para o n´umero de agrupamentos para as t´ecnicas E-M e k-m´edias (Tabela 4.1). Os limiares foram selecionados empiricamente entre [0.5, 3.5] com passo 0.25 para a detec¸c˜ao de anomalias por distribui¸c˜oes Gaussianas multivariadas (MGD) e entre [0, 2000] com passo de 100 para a detec¸c˜ao exclusivamente por OPF. As Tabelas 4.2 e 4.3 apresentam os valores m´edios dos parˆametros de entrada e do n´umero de agrupamentos de cada t´ecnica para detec¸c˜ao de anomalias por MGD e OPF, respectivamente. Vale lembrar que o n´umero de agrupamentos ´e calculado automaticamente pelo OPF e pelo Mean Shift.

As Figuras 4.1 e 4.2 apresentam os valores de acur´acia sob diferentes configura¸c˜oes de limiares e parˆametros para cada estimador utilizado na detec¸c˜ao de anomalias por MGD. A Figura 4.3 apresenta os valores de acur´acia para a t´ecnica de detec¸c˜ao de anomalias por OPF sob diferentes configura¸c˜oes de limiares e kmax considerando as bases de dados

Db1 e Satellite, respectivamente2.

Levando-se em considera¸c˜ao a Figura 4.1, pode-se dizer que o OPF obteve um platˆo de valores pr´oximos do m´aximo parakmax ∈[10,100] eT > 2.7, sendo essa ´area maior do

que a ´area das demais t´ecnicas empregadas para estimar os parˆametros das Gaussianas multivariadas. Tal comportamento indica que o OPF ´e mais est´avel do que as demais t´ecnicas, e seus parˆametros requerem menos conhecimento sobre a base de dados. Al´em disso, se fossem usados valores de uma pesquisa aleat´oria ao inv´es de uma grade de busca,

1O parˆametro Quantil est´a relacionado com a largura de banda do Mean shift, e ´e inversamente

proporcional ao n´umero de agrupamentos.

(36)

Tabela 4.1: Intervalo de n´umero de agrupamentos e passo utilizados como parˆametro de entrada na valida¸c˜ao pelos classificadoresk-m´edias e E-M.

Base de Dados Intervalo Passo

Db1 1 a 100 5

Db2 1 a 180 10

Db3 1 a 450 25

Nodules 1 a 285 15

Industrial 1 a 1400 100

Comercial 1 a 2000 100

Pen-based 1 a 300 15

Satellite 1 a 2000 100

Thyroid 1 a 2000 100

Tabela 4.2: M´edia de n´umero de agrupamentos e parˆametros de entrada utilizados por cada t´ecnica. Note que o n´umero de agrupamentos ´e utilizado como parˆametro de entrada para as t´ecnicas k-m´edias e E-M, assim como o kmax ´e utilizado pelo OPF e o Quantil

pelo Mean Shift.

Base de Dados Agrup. k-M´edias Agrup. E-M Agrup. Mean Shift Agrup. OPF kmax Quantil

Db1 6 6 3 3 20 0.21

Db2 10 14 4 4 19 0.19

Db3 30 119 5 7 24 0.14 Nodules 60 131 58 60 20 0.01 Industrial 1268 394 25 438 26 0.25 Comercial 1500 1457 33 1235 13 0.1 Pen-based 128 94 17 32 20 0.31 Satellite 279 332 1 366 40 0.47 Thyroid 110 152 19 435 50 0.76

a probabilidade de obter o par de valores capaz de alcan¸car a acur´acia m´axima seria maior para o OPF do que para as demais t´ecnicas.

(37)

centro-Tabela 4.3: M´edia de n´umero de agrupamentos ekmaxutilizados na detec¸c˜ao de anomalias

por OPF.

Base de Dados N´umero de Agrupamentos kmax

Db1 88 1

Db2 139 1

Db3 197 7

Nodules 60 1

Industrial 721 8

Comercial 254 19

Pen-based 218 5

Satellite 502 17

Thyroid 874 4

esquerda e a outra na regi˜ao inferior, ao centro da Figura 4.2c.

Finalmente, observa-se na Figura 4.3 os resultados obtidos na valida¸c˜ao das bases de dados Db1 e Satellite na detec¸c˜ao de anomalias por OPF. Novamente o ´otimo global se apresenta como um platˆo na base Db1, enquanto na base Satellite ´e representado por uma vasta ´area na regi˜ao inferior esquerda, deixando claramente vis´ıvel ser bem menos sens´ıvel `a escolha dos parˆametros do que na dete¸c˜ao por MGD. ´E interessante compararmos os valores das grades de busca da base Satellite para MGD - OPF ( Figura 4.2a) e OPF (Figura 4.3b). Note que a grade de busca para a detec¸c˜ao de anomalias por OPF ´e muito mais “comportada”, ou seja, a ´area de valores com acur´acia alta (>=90%) ´e maior do que a detec¸c˜ao de anomalias por MGD - OPF.

(38)

Figura 4.1: Valores das grades de busca e suas acur´acias correspondentes em rela¸c˜ao ao conjunto de valida¸c˜ao da base de dados Db1 utilizando os estimadores (a) OPF, (b) k -m´edias, (c) E-M e (d) Mean Shift para encontrar os parˆametros das Gaussianas multiva-riadas.

20 40 60 80 100

kmax 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - OPF

50 56 62 68 74 80 86 92 98

20 40 60 80 100

Número de agrupamentos 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - k-Médias

50 56 62 68 74 80 86 92 98 (a) (b)

20 40 60 80 100

Número de agrupamentos 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - E-M

50 56 62 68 74 80 86 92 98

20 40 60 80 100

Quantil 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - Mean Shift

(39)

Figura 4.2: Valores das grades de busca e suas acur´acias correspondentes em rela¸c˜ao ao conjunto de valida¸c˜ao da base de dados Sat´elite utilizando os estimadores (a) OPF, (b) k-m´edias, (c) E-M e (d) Mean Shift para encontrar os parˆametros das Gaussianas multivariadas.

20 40 60 80 100

kmax 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - OPF

52 55 58 61 64 67 70 73 76

0 500 1000 1500 2000

Número de agrupamentos 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - k-Médias

52.5 55.0 57.5 60.0 62.5 65.0 67.5 70.0 72.5 75.0 (a) (b)

0 500 1000 1500 2000

Número de agrupamentos 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - E-M

52.0 54.5 57.0 59.5 62.0 64.5 67.0 69.5 72.0 74.5

20 40 60 80 100

Quantil 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Limiar

MGD - Mean Shift

(40)

Figura 4.3: Valores das grades de busca e suas acur´acias correspondentes em rela¸c˜ao ao conjunto de valida¸c˜ao das bases de dados Db1 e Sat´elite, utilizando a t´ecnica de detc¸c˜ao de anomalias por OPF.

20 40 60 80 100

kmax 0 200 400 600 800 1000 1200 Limiar

OPF - DB1

50 56 62 68 74 80 86 92 98

20 40 60 80 100

kmax 0 200 400 600 800 1000 1200 Limiar

OPF - Satellite

50 55 60 65 70 75 80 85 90 (a) (b)

Tabela 4.4: Acur´acia m´edia e desvio padr˜ao considerando as bases de dados empregadas neste trabalho.

Base de Dados MGD - OPF MGD -k-M´edias MGD - MS MGD - E-M OPF

Db1 100%±0.0 98.43%±0.96 98.98%±1.68 98.45%±1.18 99.81%±0.33

Db2 99.65%±0.49 98.46%±1.06 99.30%±0.75 99.27%±0.64 99.83%±0.24

Db3 99.45%±0.34 98.24%±0.70 99.37%±0.45 98.85%±0.44 99.20%±0.39 Nodules 99.84%±0.46 99.66%±0.65 97.90%±6.26 90.62%±2.48 99.24%±1.46

Industrial 52.23%±3.68 53.47%±4.52 48.11%±3.30 48.44%±1.77 55.01%±2.92

Comercial 58.17%±3.15 59.76%±2.53 50.23%±4.71 55.78%±2.33 64.41%±3.00

Pen-based 56.25%±4.65 56.28%±3.81 56.97%±3.08 55.75%±4.28 96.91%±3.48

Satellite 75.22%±5.44 74.84%±5.49 79.79%±5.88 74.50%±4.98 89.47%±3.70

(41)

Cap´ıtulo 5

Conclus˜

oes

O problema de detec¸c˜ao de anomalias vem sendo estudado a v´arios anos, dado que ´e de grande interesse da comunidade cient´ıfica e tamb´em de ind´ustrias. Geralmente, a tarefa de detec¸c˜ao de intrus˜ao em redes de computadores e reconhecimento de certas doen¸cas, por exemplo, s˜ao modelados como sendo problemas de detec¸c˜ao de anomalias. Na verdade, problemas para os quais tˆem-se poucas ou nenhuma amostra da classe que representa eventos anˆomalos, s˜ao indicados para serem modelados como uma tarefa de detec¸c˜ao de anomalias.

A detec¸c˜ao de anomalias difere dos problemas de reconhecimento de padr˜oes tradicio-nais pelo fato de tais t´ecnicas n˜ao serem treinadas com o conjunto de dados que descrevem as amostras anˆomalas, justamente pelo fato da pouca informa¸c˜ao dispon´ıvel das mesmas. Assim sendo, a ideia consiste em aprender o comportamento dos dados que descrevem os eventos “normais” e, no caso de uma nova amostra n˜ao corresponder `a esse modelo, ela ´e ent˜ao classificada como uma amostra anˆomala.

Dentre as v´arias t´ecnicas que abordam o contexto de detec¸c˜ao de anomalias, pode-mos citar a que faz uso de distribui¸c˜oes Gaussianas multivariadas. A ideia consiste, basicamente, em modelar o conjunto de dados “normais” como sendo uma distribui¸c˜ao Gaussiana, ou seja, “basta” estimarmos seus parˆametros (m´edia e matriz de covariˆancia) para termos um modelo dos dados que s˜ao considerados eventos n˜ao anˆomalos. Embora essa abordagem seja aparentemente simples, o grande problema diz respeito `a etapa de estima¸c˜ao dos parˆametros das distribui¸c˜oes Gaussianas, que ´e realizado por meio de um aprendizado n˜ao supervisionado. Dado que, geralmente, problemas reais possuem uma distribui¸c˜ao das amostras irregular e, consequentemente, o n´umero de agrupamentos ´e maior do que o n´umero de classes que representam amostras n˜ao anˆomalas, a tarefa de estima¸c˜ao dos parˆametros das distribui¸c˜ao torna-se ainda mais crucial e importante.

(42)
(43)

Apˆ

endice A

Trabalhos Aceitos para Publica¸c˜

ao

-Conferˆ

encias

• Rosa, G.H.; Costa, K.A.P.; PASSOS J ´UNIOR, L.A.; Papa, J.P.; Falc˜ao, A.X.; Tavares, J.R.S. “On the Training of Artificial Neural Networks with Radial Basis Function Using Optimum-Path Forest Clustering”. 22nd International Conference

on Pattern Recognition, 2014, Estocolmo. (Qualis A1)

• PASSOS J ´UNIOR, L.A.; Rosa, G.H.; Costa, K.A.P.; Papa, J.P.; “Obten¸c˜ao de Neurˆonios de Redes Neurais de Base Radial via Agrupamento de Dados por Floresta de Caminhos ´Otimos“. IV Workshop do Programa de P´os-Gradua¸c˜ao em Ciˆencia

da Computa¸c˜ao. (Sem ´ındice Qualis)

• PASSOS J ´UNIOR, L.A.; Costa, K.A.P.; Rosa, G.H.; Papa, J.P.; “Obten¸c˜ao de Neurˆonios de Redes Neurais de Base Radial via Agrupamento de Dados por Floresta de Caminhos ´Otimos“. Interciˆencia & Sociedade - Revista Eletrˆonica. , v.4, p.64 -74, 2015.. (Qualis C)

• RIBEIRO, P. B. ; PASSOS JUNIOR, L. A. ; Costa, K. A. P. ; SILVA, L. A. ; RO-MERO, R. A. F. ; Papa, Jo˜ao P. ; “Unsupervised Breast Masses Classification Th-rough Optimum-Path Forest“. 28th IEEE International Symposium on

Computer-Based Medical Systems, 2015, S˜ao Carlos. (aceito para publica¸c˜ao). (Qualis B1)

Cabe destacar que s˜ao aguardadas as respostas da revista IEEE Transactions on Power Systems (Qualis B1), em rela¸c˜ao a um artigo submetido denominado “Unsupervised Non-Technical Losses Identification Through Optimum-Path Forest”, e de um artigo en-titulado “Fitting Multivariate Gaussian Distributions with Optimum-Path Forest and its Application for Anomaly Detection”,submetido para o congresso Applied Computing 2015

(44)

Referˆ

encias Bibliogr´

aficas

[1] V. Chandola, A. Banerjee, and V. Kumar. Anomaly detection: A survey. ACM

Computing Surveys, 41(3):1–58, 2009.

[2] T. Ahmed, B. Oreshkin, and M. Coates. Machine learning approaches to network anomaly detection. InProceedings of the 2Nd USENIX Workshop on Tackling

Com-puter Systems Problems with Machine Learning Techniques, pages 1–7, Berkeley, CA,

USA, 2007. USENIX Association.

[3] S. Mukkamala, G. Janoski, and A Sung. Intrusion detection using neural networks and support vector machines. InProceedings of the 2002 International Joint

Confe-rence on Neural Networks,, volume 2, pages 1702–1707, 2002.

[4] W. Hu, Y. Liao, and V. R. Vemuri. Robust support vector machines for anomaly detection. InInternational Conference on Machine Learning and Applications, pages 23–24, 2003.

[5] A Banerjee, P. Burlina, and C. Diehl. A support vector method for anomaly detection in hyperspectral imagery. IEEE Transactions on Geoscience and Remote Sensing, 44(8):2282–2291, 2006.

[6] S. Khazai, S. Homayouni, A Safari, and B. Mojaradi. Anomaly detection in hypers-pectral images based on an adaptive support vector method. IEEE Geoscience and

Remote Sensing Letters, 8(4):646–650, 2011.

[7] A. Lazarevic, L. Ertoz, A. Ozgur, V. Kumar, and J. Srivastava. A comparative study of anomaly detection schemes in network intrusion detection. In Proceedings of the

2003 SIAM International Conference on Data Mining, pages 25–36, 2003.

[8] D. S. Kim, H.-N. Nguyen, S.-Y. Ohn, and J. S. Park. Fusions of GA and SVM for anomaly detection in intrusion detection system. In J. Wang, X.-F. Liao, and Z. Yi, editors, Advances in Neural Networks, volume 3498 of Lecture Notes in Computer

(45)

[9] J. Ma and S. Perkins. Time-series novelty detection using one-class support vector machines. InProceedings of the International Joint Conference on Neural Networks, volume 3, pages 1741–1745, 2003.

[10] S. R. Mounce, R. B. Mounce, and J. B. Boxall. Novelty detection for time series data analysis in water distribution systems using support vector machines. Journal

of Hydroinformatics, 13(4):672–686, 2011.

[11] V. A. Sotiris, P. W. Tse, and M. G. Pecht. Anomaly detection through a bayesian support vector machine. IEEE Transactions on Reliability, 59(2):277–286, 2010.

[12] Y. Zhang, N. Meratnia, and P. J.M. Havinga. Distributed online outlier detection in wireless sensor networks using ellipsoidal support vector machine. Ad Hoc Networks, 11(3):1062–1074, 2013.

[13] V. Fritsch, G. Varoquaux, B. Thyreau, J.-B. Poline, and B. Thirion. Detecting outliers in high-dimensional neuroimaging datasets with robust covariance estimators.

Medical Image Analysis, 16(7):1359–1370, 2012. Special Issue on the 2011 Conference

on Medical Image Computing and Computer Assisted Intervention.

[14] G. Kim, S. Lee, and S. Kim. A novel hybrid intrusion detection method integra-ting anomaly detection with misuse detection. Expert Systems with Applications, 41(4):1690–1700, 2014.

[15] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incom-plete data via the EM algorithm. Journal of the Royal Statistical Society: Series B, 39(1):1–38, 1977.

[16] A. Esmaeili and N. Mozayani. Adjusting the parameters of radial basis function networks using particle swarm optimization. In Proceedings of the IEEE Internatio-nal Conference on ComputatioInternatio-nal Intelligence for Measurement Systems and

Appli-cations, pages 179–181, 2009.

[17] G. E. Tsekouras and J. Tsimikas. On training RBF neural networks using input– output fuzzy clustering and particle swarm optimization. Fuzzy Sets and Systems, 221:65–89, 2013.

[18] S. N. Qasem and S. M. Shamsuddin. Memetic elitist pareto differential evolution algorithm based radial basis function networks for classification problems. Applied

(46)

[19] C. Ari and S. Aksoy. Maximum likelihood estimation of gaussian mixture models using particle swarm optimization. In Proceedings of the 20th International

Confe-rence on Pattern Recognition, pages 746–749, 2010.

[20] L. M. Rocha, F. A. M. Cappabianco, and A. X. Falc˜ao. Data clustering as an optimum-path forest problem with applications in image analysis.International

Jour-nal of Imaging Systems and Technology, 19(2):50–68, 2009.

[21] J. Shi and J. Malik. Normalized cuts and image segmentation. IEEE Transactions

on Pattern Analysis and Machine Intelligence, 22(8):888–905, Aug 2000.

[22] Y. Cheng. Mean shift, mode seeking, and clustering. IEEE Transactions on Pattern

Analysis and Machine Intelligence, 17(8):790–799, Aug 1995.

[23] J. MacQueen. Some methods for classification and analysis of multivariate observa-tions. InProceedings of the fifth Berkeley symposium on mathematical statistics and

probability, volume 1, pages 281–297. Oakland, CA, USA., 1967.

[24] K. Fukunaga and L. Hostetler. The estimation of the gradient of a density function, with applications in pattern recognition. Information Theory, IEEE Transactions on, 21(1):32–40, 1975.

[25] Scikitlearn developers. User Guide. Available at http://scikit-learn.org/dev/

user_guide.html.

[26] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incom-plete data via the em algorithm. Journal of the royal statistical society. Series B

(47)
(48)

Referências

Documentos relacionados

Este artigo está dividido em três partes: na primeira parte descrevo de forma sumária sobre a importância do museu como instrumento para construção do conhecimento, destaco

Este trabalho objetiva elaborar uma proposta de intervenção para diminuição das complicações hipertensivas na população da área de abrangência da Equipe de Saúde

Outro aspecto a ser observado é que, apesar da maioria das enfermeiras referirem ter aprendido e executado as fases do processo na graduação, as dificuldades na prática

Algumas sementes e castanhas vão ficar só nessa etapa de hidratação pois já passaram por um processo térmico no caso de algumas castanhas e nozes, outras sementes descascadas

Here, we aim to understand how expression of RA degradation enzymes (Cyp26) can be correlated with RA distribution and functions during amphioxus (B. lanceolatum)

O Parque Estadual Alberto Löfgren - PEAL é um mosaico de remanescentes da Mata Atlântica e reflorestamentos experimentais de espécies arbóreas nativas e

Uma das vantagens do método, segundo os autores, é que o gradiente horizontal total da inclinação do sinal analítico é independente da direção de magnetização e