CONSTRUÇÃO DE ÁRVORES DE DECISÃO PARA EXTRAÇÃO DE REGRAS DE IDS

3 BASES DE ANÁLISE E RESULTADOS

3.3 CONSTRUÇÃO DE ÁRVORES DE DECISÃO PARA EXTRAÇÃO DE REGRAS DE IDS

de IDS

O uso das árvores de decisão como modelo de classificação de atividade maliciosa é interessante devido tanto a seu desempenho de classificação, quanto à possibilidade de extrair regras claras que identifiquem cada tipo de ataque. Além disso, uma vez gerada a árvore de decisão ela pode ser usada na identificação de novas atividades maliciosas (Grégio, Santos, & Montes, 2007).

Segundo Markey e Atlasis (Markey & Atlasis, 2011) árvores de decisão são técnicas capazes de auxiliar a análise de grandes conjuntos de dados para detecção de intrusão, sendo

capazes de responder questões como: “Quais regras devem ser utilizadas para diferenciar o trá- fego malicioso do legítimo?” e “Quais são as características mais comuns de uma atividade de escaneamento quando comparada a outros tráfegos de dados?”.

Nos experimentos realizados nesse pesquisa, escolheu-se para a execução do algoritmo de árvore de decisão o software RapidMiner (Mierswa, Wurst, Klinkenberg, Scholz, & Euler, 2006). Para avaliar os atributos selecionados e a árvore de decisão foi definido como classe o atributo DceRPCServiceop_Name, pois a Microsoft libera em sua biblioteca digital o docu- mento Remote Procedure Call Protocol Extension (Microsoft Corporation, 2013), que indica quais chamadas e quais assinaturas levam aos procedimentos remotos (atributo DceRPCSer- vice_name).

Foi utilizada uma validação cruzada do tipo k-pastas, com k = 10, para estimar o desempe- nho de classificação das árvores de decisão. A primeira dificuldade encontrada na execução do algoritmo foi a quantidade de objetos existentes nas bases de dados Paris e Campinas. Mesmo executando os experimentos em um computador com 32Gb de memória RAM e 128Gb de Swap, a máquina não conseguiu tratar todos os dados. Diante dessa dificuldade se optou por amostrar as bases de dados em períodos de tempo. Inicialmente se pensou em amostrar as bases em períodos de meses, mas três dos quatro conjuntos correspondem a períodos iguais ou inferi- ores a um mês. Em seguida se propôs amostrar os conjuntos em períodos de semanas. Três dos quatro conjuntos permitiram essa amostragem, com exceção do conjunto Paris, que foi amos- trado em períodos equivalentes a um dia.

Sendo assim, o conjunto de dados Paris foi o que teve o menor número de amostras, totali- zando 8 subconjuntos de dados amostrados a partir do conjunto total. O conjunto Berlin ficou ativo por cinco semanas e, por isso, obtiveram-se 5 amostras, cada uma referente a uma semana de atividade do honeypot. Para o conjunto Jacareí ocorreu o mesmo, pois o honeypot ficou ativo por cinco semanas e se obtiveram 5 amostras. O conjunto Campinas corresponde a um período de tempo de treze semanas, sendo assim se obtiveram 13 amostras do conjunto original.

Após a obtenção de todas as amostras criou-se 31 amostras a serem estudadas e submetidas ao algoritmo C4.5 de indução de árvore de decisão (Quinlan, 1993).

3.3.1 Paris

Ao se analisar as árvores geradas para cada amostra da base Paris notou-se que foram criadas três diferentes árvores, que podem ser visualizadas na Figura 5. A Figura 5.a representa a árvore

conjuntos dos dias 2,4,5,6,7 e 8 e, por fim, a Figura 5.c representa a árvore gerada pelo conjunto do dia 3.

Para a análise das árvores de decisão deve-se percorrer o caminho entre o nó raiz da árvore e os nós folhas. Cada caminho entre a raiz e uma folha gera uma regra de decisão. Para a árvore da Figura 5.a, partindo do atributo dcerpcserviceop_vuln com o valor de MS04-11, o atributo connection_protocol tem valor SMBD, o connection_transport tem valor TCP, o dcerpcbind_uuid tem valor Não_Identificado e o atributo dcerpcbind_transfersyntax se divide em dois, um com valor Não_Identificado e outro com valor 8a885d04-1ceb-11c9-9fe8- 08002b104860.

Se percorrermos à esquerda o valor da folha é NetAddAlternateComputerName. Essa regra pode ser interpretada da seguinte forma: uma conexão que explora a vulnerabilidade descrita no relatório MS04-11 utilizou o protocolo SMBD em uma conexão TCP não teve uma

interface DCERPC identificada e nem uma sintaxe de transferência identificada, tentando executar uma chamada para adicionar um nome alternativo do computador. A regra resultante pelo lado direito pode ser interpretada como: uma conexão que explora a vulnerabilidade descrita no relatório MS04-11 utilizou o protocolo SMBD em uma conexão TCP, não teve uma interface DCERPC identificada, a sintaxe de transferência identificada foi 8a885d04-1ceb-11c9-9fe8- 08002b104860, tentando executar uma chamada para alterar uma permissão de um servidor de domínio. Nos dois casos o relatório da Microsoft informa que é uma vulnerabilidade de Buffer Overflow, permitindo a execução remota de comandos arbitrários.

Os ramos da direita levam ao cenário de exploração das vulnerabilidades descritas no MS08-67 e podem ser interpretados da seguinte maneira: um atacante explorando as vulnerabilidades descritas no MS08-67 utilizou o protocolo SMBD em uma conexão TCP com uma interface DCERPC 4b324fc8-1670-01d3-1278-5a47bf6ee188 e uma sintaxe de transferência 8a885d04-1ceb-11c9-9fe8-08002b104860 utilizando o serviço SRVSVC tentou executar a cha- mada NetPathCanonicalize para converter um caminho em um nome canônico.

Cada uma das árvores de decisão geradas para cada um dos oito subconjuntos de dados foi avaliada com uma validação cruzada do tipo k-pastas, com k = 10. Após a avaliação, foi calculada a acurácia percentual para cada subconjunto, a taxa de falsos positivos (FPR) e a taxa de falsos negativos (FNR). Os valores apresentados na Tabela 15 correspondem ao resultado de cada avaliação em k-pastas do modelo gerado por cada subconjunto. A média das k-pastas do teste pode ser observado na Tabela 16.

Os resultados de cada subconjunto apresentaram valores médios de acurácia superiores a 75%, FPR médio em torno de 3% e FNR médio em torno de 14%. Apenas um conjunto teve um resultado inferior com um valor de acurácia de 45%, FPR igual a 9,74% e FNR de 71,42%. Ao se analisar individualmente o resultado da avaliação em k-pastas dos dados amostra- dos, verifica-se que o subconjunto 3 obteve o pior desempenho. Para entender esse comportamento foi avaliada a matriz de confusão gerada pelo modelo. Na Tabela14.c observa-se que houve uma grande confusão entre as classes e algumas não foram mapeadas pelas regras de decisão da árvore. Por exemplo, as classes Vazio, RemoteCreateInstance, RemoteActivation e NetAddAlternateComputerName não foram cobertas pelas regras.

Além da matriz de confusão, foi feita também uma investigação sobre a distribuição dos objetos do subconjunto 3. A partir dessa análise foi possível perceber que: 1) as classes Net- Compare, NetPathCanonicalize e NetShareEnumAll têm a mesma quantidade de objetos; 2) o

modelo não foi capaz de separar adequadamente os objetos em suas referidas classes; e 3) ao se analisar individualmente os objetos de cada classe verifica-se que eles têm características idên- ticas em classes diferentes, o que torna impossível para o algoritmo separá-los adequadamente.

Apesar do modelo gerado pelo subconjunto 3 não ter um desempenho satisfatório na classificação dos objetos ele mostra uma característica interessante dos ataques registrados no dia. Ao percorrer os nós da árvore é possível constatar que o algoritmo foi capaz de identificar que os ataques ao protocolo SMBD ocorreram em portas não padronizadas (portas > 290 e  290). Essa característica levanta a hipótese de que os atacantes estavam buscando comprometer outros sistemas existentes ou um sistema configurado para não utilizar as portas padrões do serviço SMB. Isso pode indicar que os atacantes têm um conhecimento da estrutura da rede na qual o honeypot estava instalado.

Um fato a ser ressaltado durante a análise das matrizes de confusão geradas pelos conjuntos amostrados é que em todas as matrizes o modelo tem dificuldade em separar adequada- mente os objetos das classes NetPathCanonicalize, NetCompare o modelo tem dificuldade em separar adequadamente os objetos dessas duas classes. Ao se analisar os objetos marcados nessas duas classes verifica-se que eles têm os mesmos valores definidos em classes diferentes, o que torna impossível o modelo separar adequadamente essas classes. Para aumentar a acurácia do classificador seria necessário inserir novos atributos que possam diferenciar os objetos dessas duas classes.

Tabela 14: Matrizes de confusão das árvores geradas pelos subconjuntos da base de dados Paris. (a) Primeiro dia, (b) Segundo dia, (c) Terceiro dia, (d) Quarto dia, (e) Quinto dia, (f) Sexto dia, (g) Sétimo dia, (h) Oitavo dia.

VAZIO NetShare-EnumAll NetPath-Ca-nonicalize NetCompare

DsRole-

rUpgrade-Down-

levelServer RemoteCre-ate- Instance

NetAddAlter- nate- Computer-

Name Remote-Acti-vation

VAZIO 776352 0 0 0 1381 0 12 0 NetShareEnumAll 0 537400 0 0 0 0 0 0 NetPathCanonicalize 0 0 483660 483660 0 0 0 0 NetCompare 0 0 53740 53740 0 0 0 0 DsRolerUpgradeDownlevelServer 0 0 0 0 0 0 0 0 RemoteCreateInstance 0 0 0 0 0 5698 0 0 NetAddAlternateComputerName 0 0 0 0 0 0 0 0 RemoteActivation 0 0 0 0 0 0 0 2330 (a)

VAZIO NetShare-EnumAll NetPath-Cano-nicalize NetCom-pare Remote-Crea-teInstance DsRolerUpgrade-Downle-velServer Remote-Acti-vation

VAZIO 830377 0 0 0 0 0 0 NetShareEnumAll 0 647076 0 0 0 0 0 NetPathCanonicalize 0 0 388244 388248 0 0 0 NetCompare 0 0 258832 258828 0 0 0 RemoteCreateInstance 0 0 0 0 6047 0 0 DsRolerUpgradeDownlevelServer 0 0 0 0 0 26 0 RemoteActivation 0 0 0 0 0 0 1937 (b) NetShare- EnumAll NetPath-Cano- nicalize NetCom- pare VA- ZIO Remote-Crea- teInstance Remote-Acti- vation NetAddAlternate-Com- puterName NetShareEnumAll 607351 0 0 844406 6046 2027 4 NetPathCanonicalize 0 485880 485881 0 0 0 0 NetCompare 0 121471 121470 0 0 0 0 VAZIO 0 0 0 0 0 0 0 RemoteCreateInstance 0 0 0 0 0 0 0 RemoteActivation 0 0 0 0 0 0 0 NetAddAlternateComputer- Name 0 0 0 0 0 0 0 (c)

VA-

ZIO NetShare-EnumAll NetPath-Canoni-calize NetCom-pare Remote-CreateIns-tance Remote-Acti-vation NetAddAlternate-Compu-terName

VAZIO 844767 0 0 0 0 0 0 NetShareEnumAll 0 571704 0 0 0 0 0 NetPathCanonicalize 0 0 343020 343024 0 0 0 NetCompare 0 0 228684 228680 0 0 0 RemoteCreateInstance 0 0 0 0 6225 0 0 RemoteActivation 0 0 0 0 0 1322 0 NetAddAlternateComputerName 0 0 0 0 0 0 8 (d) VA-

ZIO NetShare-EnumAll NetPath-Cano-nicalize NetCom-pare Remote-Crea-teInstance NetAddAlternate-Com-puterName Remote-Acti-vation

VAZIO 891636 0 0 0 0 0 0 NetShareEnumAll 0 601372 0 0 0 0 0 NetPathCanonicalize 0 0 420959 420961 0 0 0 NetCompare 0 0 180413 180411 0 0 0 RemoteCreateInstance 0 0 0 0 6045 0 0 NetAddAlternateComputerName 0 0 0 0 0 12 0 RemoteActivation 0 0 0 0 0 0 1295 (e) VA-

ZIO NetShare-EnumAll NetPath-Cano-nicalize NetCom-pare Remote-Crea-teInstance Remote-Acti-vation NetAddAlternate-Com-puterName

VAZIO 924521 0 0 0 0 0 0 NetShareEnumAll 0 640968 0 0 0 0 0 NetPathCanonicalize 0 0 448677 448679 0 0 0 NetCompare 0 0 192291 192289 0 0 0 RemoteCreateInstance 0 0 0 0 6997 0 0 RemoteActivation 0 0 0 0 0 2074 0 NetAddAlternateComputerName 0 0 0 0 0 0 12 (f)

VA- ZIO NetShare- EnumAll NetPath-Cano- nicalize NetCom- pare Remote-Crea- teInstance NetAddAlternate-Com- puterName Remote-Acti- vation VAZIO 955042 0 0 0 0 0 0 NetShareEnumAll 0 611495 0 0 0 0 0 NetPathCanonicalize 0 0 305745 305750 0 0 0 NetCompare 0 0 305750 305745 0 0 0 RemoteCreateInstance 0 0 0 0 7660 0 0 NetAddAlternateComputerName 0 0 0 0 0 8 0 RemoteActivation 0 0 0 0 0 0 1666 (g) VA-

ZIO NetShare-Enu-mAll NetPath-Canonica-lize NetCom-pare Remote-CreateIns-tance Remote-Activa-tion

VAZIO 252526 0 0 0 0 0 NetShareEnumAll 0 241287 0 0 0 0 NetPathCanonicalize 0 0 144771 144774 0 0 NetCompare 0 0 96516 96513 0 0 RemoteCreateInstance 0 0 0 0 883 0 RemoteActivation 0 0 0 0 0 22 (h)

Tabela 15: Resumo do desempenho das árvores para o conjunto Paris. (a) (b) (c) (d) (e) (f) (g) (h) Acurácia 77.53% 76.72% 45.42% 77.73% 77.75% 77.56% 78.15% 75.31%

FPR 0,0281 0,0385 0,0974 0,0318 0,0317 0,0320 0,0312 0,0472 FNR 0,3750 0,1428 0,7142 0,1428 0,1428 0,1428 0,1428 0,1666

Tabela 16: Média do desempenho das árvores do conjunto Paris. Média Mediana Desvio Padrão Coeficiente de Variação Acurácia 73,2713% 77,5450% 11,2885% 0,1541%

FPR 0,0422 0,0319 0,0215 0,5110

3.3.2 Berlin

Ao submeter os subconjuntos amostrados da base de dados Berlin verificou-se que os dois pri- meiros subconjuntos referentes às duas primeiras semanas retornavam um erro do algoritmo. Ao analisar as amostras verificou-se que o atributo alvo continha apenas uma classe (VAZIO) e que os atributos dcerpcbind_uuid, dcerpbind_transfersyntax, dcerpcservoce_name, dcerpcser- viceop_name e dcerpcserviceop_vuln contêm uma única classe (VAZIO). As amostras referentes a primeira e segunda semana têm um total de 71,53% e 54,14% dos ataques direcionados ao protocolo SMBD, respectivamente. Isso reforça a hipótese de que existia um bloqueio entre o atacante e o honeypot que impedia a continuidade do ataque, tornando o honeypot alvo apenas de scan de portas.

Devido a essa característica só foi possível gerar árvores das amostras da terceira, quarta e quinta semana. Ao se analisar as árvores geradas notou-se que foram criadas três diferentes árvores, sendo uma para cada amostra. As árvores obtidas podem ser visualizadas na Figura 6. A Figura 6.a, representa a árvore gerada pelo conjunto amostral da terceira semana. A Figura 6.b representa a árvore gerada pela amostra da quarta semana e, por fim, a Figura 6.c representa a árvore gerada pelo conjunto da quinta semana.

Ao percorrer a árvore obtida na amostra da terceira semana (Figura 6.a) verifica-se que a maior parte da informação é direcionada à classe VAZIO, onde o honeypot não foi capaz de obter informações a respeito do ataque. Infelizmente a amostra da terceira semana não trouxe informações que pudessem ser utilizadas para auxiliar o administrador de rede a proteger seus ativos. Ao se analisar o conjunto gerado pela terceira semana verifica-se que a classe VAZIO foi predominante nos atributos dcerpcbind_uuid (96,80%), dcerpbind_transfersyntax (96,80%), dcerpcservice_name (97,40%), dcerpcserviceop_name (99,15%) e dcerpcserviceop_vuln (99,15%), comprometendo a criação do modelo.

Ao analisar a árvore gerada pela amostra da quarta semana (Figura 6.b) verifica-se uma característica interessante, a árvore tem como nó central o atributo dcerpcbind_transfersyntax com o valor de 8a885d04-1ceb-11c9-9fe8-08002b104860, logo em seguida o modelo divide o atributo em EPMAPPER e SMBD. A partir dessa ramificação o honeypot não é mais capaz de identificar os métodos utilizados pelo atacante, apenas que ao utilizar o protocolo SMBD a cha- mada do serviço utilizado é a NetShareEnumAll, mas o honeypot não é capaz de identificar a qual relatório de segurança essa chamada está associada. Pode-se levantar duas hipóteses a respeito desse comportamento: a primeira é a respeito de uma variação ou mesmo um novo tipo de

ataque que o honeypot não estava programado para suportar; e a segunda, e mais provável hi- pótese, de que existia algum tipo de bloqueio na comunicação do honeypot com o atacante que não permitiu que o atacante completasse o ataque, impedindo o honeypot de associar esse ataque a um relatório de segurança da Microsoft.

A árvore gerada pela amostra da quinta semana (Figura 6.c) permite observar uma cadeia de eventos que levam a exploração da vulnerabilidade MS08-67. Uma característica interessante ao se observar essa árvore é que oito interfaces DCERPC chamaram algum tipo de serviço RPC, mas apenas uma, a 4b324fc8-1670-01d3-1278-5a47bf6ee188, levou a ramificações no modelo gerado. Essa interface DCERPC representa 1,76% da amostra, onde a classe com maior valor é a VAZIO com 58,28%.

A árvore obtida a partir da amostra da quinta semana permite traçar dois perfis de ataques que podem ajudar o administrador a proteger seus ativos. O primeiro perfil pode ser lido como: o atacante utilizou uma conexão TCP com o protocolo SMBD em uma interface DCERPC 4b324fc8-1670-01d3-1278-5a47bf6ee188 utilizando o serviço SRVSVC da interface de transfe- rência 8a885d04-1ceb-11c9-9fe8-08002b104860 com a chamada NetPathCanonicalize para ex- plorar a vulnerabilidade MS08-67. O segundo perfil tem as mesmas características, mudando apenas a chamada para NetShareEnumAll onde o honeypot não foi capaz de associar a um bo- letim de segurança da Microsoft.

Cada uma das árvores de decisão geradas para cada um dos cinco subconjuntos de dados foi avaliada com uma validação cruzada do tipo k-pastas, com k = 10. Após a avaliação foi calculada a acurácia percentual para cada subconjunto, a taxa de falsos positivos e falsos negativos. Os valores apresentados nas Tabela 18a,b e c, correspondem ao resultado de cada avalia- ção em k-pastas do modelo gerado para cada subconjunto. A média das k-pastas do teste pode ser observada na Tabela 19. Os resultados de cada subconjunto apresentaram valores médios de acurácia superiores a 99,53%, FPR médio em torno de 0,06% e FNR médio em torno de 16,28%.

Assim como feito para as amostras do conjunto Paris, a análise das matrizes de confusão geradas pelos subconjuntos amostrados revelou que o modelo tem dificuldade em separar as classes NetPathCanonicalize, NetCompare. Ao se analisar o objeto marcado nessas duas classes verifica-se, assim como nos subconjuntos da base Paris, que eles têm os mesmos valores definidos em classes diferentes, o que torna impossível para o modelo separar adequadamente essas classes.

Tabela 17: Matrizes de confusão dos subconjuntos da base de dados Berlin. (a) Primeira semana, (b) Segunda semana, (c) Terceira semana.

VAZIO NetShare-EnumAll NetPath-Ca-nonicalize NetCompare

DsRole- rUpgrade- Downle-

velServer Remote-Crea-teInstance PNP_Query-ResConfList Remote-Activation

VAZIO 421984 0 0 0 0 0 0 0 NetShareEnumAll 0 224 0 0 0 0 0 0 NetPathCanonicalize 0 0 132 136 0 0 0 0 NetCompare 0 0 92 88 0 0 0 0 DsRolerUpgradeDownlevelServer 0 0 0 0 2537 0 0 0 RemoteCreateInstance 0 0 0 0 0 330 0 0 PNP_QueryResConfList 0 0 0 0 0 0 4 0 RemoteActivation 0 0 0 0 0 0 0 49 (a) VA-

ZIO NetShare-EnumAll NetPath-Ca-nonicalize Net- Com-

pare DsRolerUpgrade-DownlevelServer Remote-Crea-teInstance Remote-Ac-tivation PNP_Query-ResConfList

VAZIO 73472 0 0 0 0 0 0 0 NetShareEnumAll 0 620 0 0 0 0 0 0 NetPathCanonicalize 0 0 558 558 0 0 0 0 NetCompare 0 0 62 62 0 0 0 0 DsRolerUpgradeDownlevelServer 0 0 0 0 6896 0 0 0 RemoteCreateInstance 0 0 0 0 0 521 0 0 RemoteActivation 0 0 0 0 0 0 116 0 PNP_QueryResConfList 0 0 0 0 0 0 0 28 (b) VA-

ZIO PNP_Query-ResConfList NetShare-EnumAll NetPath-Ca-nonicalize NetCom-pare DsRolerUpgrade-DownlevelServer Remote-Crea-teInstance Remote-Ac-tivation

VAZIO 43088 0 0 0 0 0 0 0 PNP_QueryResConfList 0 21 0 0 0 0 0 0 NetShareEnumAll 0 0 278 0 0 0 0 0 NetPathCanonicalize 0 0 0 222 224 0 0 0 NetCompare 0 0 0 56 54 0 0 0 DsRolerUpgradeDownlevelServer 0 0 0 0 0 2965 0 0 RemoteCreateInstance 0 0 0 0 0 0 370 0 RemoteActivation 0 0 0 0 0 0 0 53

(c)

Tabela 18: Tabela Resumo do Desempenho das Arvores do Conjunto Berlin

(a) (b) (c)

Acurácia 99,9500% 99,2500% 99,4100%

FNR 13,7355% 22,5000% 12,5899%

FPR 0,0067% 0,0942% 0,0744%

Tabela 19: Média do desempenho das árvores do conjunto Berlin

Media Mediana Desvio Padrão Coeficiente de Variação

Acurácia 99,54 99,41 37% 0%

FNR 16,28% 13,74% 5,42% 33,31%

(c)

3.3.3 Jacareí

Ao se analisar as árvores geradas para a base Jacareí notou-se que foram criadas três diferentes árvores, apresentadas na Figura 7. A Figura 7.a representa a árvore gerada pelo conjunto amostral da primeira semana, a Figura 7.b representa a árvore gerada pela amostra da segunda semana e, por fim, a Figura 7.c representa a árvore gerada pelos conjuntos das terceira, quarta e quinta semanas.

Ao analisar as árvores geradas pelas amostras da primeira, terceira, quarta e quinta semanas, verifica-se que são árvores simples, com um nó e três folhas (Figura 7.c) ou com um nó e quatro folhas (Figura 7.a). Essas duas árvores geradas não são úteis para obtenção de infor- mações, pois não têm ramificações. Em uma análise mais detalhada dos subconjuntos da primeira, terceira, quarta e quinta semanas não foi possivel identificar o motivo do comportamento do algoritmo.

A análise da árvore gerada pela amostra da segunda semana (Figura 7.b) apresentou uma árvore muito parecida com a árvore obtida na amostra da quinta semana do conjunto Berlin (Figura 6.c), sendo a ramificação a partir do nó dcerpcbind_uuid até as folhas NetPathCompare e NetShareEnumAll muito parecida, variando apenas que na árvore da amostra do conjunto Ber- lin teve a mais o atributo connection_transport e a folha do lado esquerdo foi modificada a chamada do serviço RPC.

Cada uma das árvores de decisão geradas para cada um dos cinco subconjuntos de dados foi avaliada com uma validação cruzada do tipo k-pastas, com k = 10. Após a avaliação, foi calculada a acurácia percentual para cada subconjunto, a taxa de falsos positivos e falsos negativos. Os valores apresentados na Tabela 21 correspondem ao resultado de cada avaliação em k-pastas do modelo gerado por cada subconjunto. A média das k-pastas do teste pode ser obser- vada na Tabela 22.

Os resultados de cada subconjunto apresentaram valores médios de acurácia superiores a 69%, FPR médio em torno de 9,95% e FNR médio em torno de 19,01%. O classificador teve um desempenho ruim devido a quantidade de objetos registrados nas classes NetPathCanoni- calize, NetCompare e, assim como ocorreu com as amostras do conjunto Paris, a análise das matrizes de confusão geradas pelos subconjuntos amostrados revelou que o modelo tem dificul- dade em separar as classes NetPathCanonicalize, NetCompare. Ao se analisar o objeto marcado nessas duas classes verifica-se, assim como nos subconjuntos da base Paris e Berlin, que eles

têm os mesmos valores definidos em classes diferentes, o que torna impossível para o modelo separar adequadamente essas classes.

(a)

(b)

(c, d, e)

Tabela 20: Matrizes de Confusão dos subconjuntos da base de dados Jacareí. (a) Primeira semana, (b) Segunda semana, (c) Terceira semana, (d) Quarta semana, (e) Quinta semana.

VAZIO NetPathCompare NetPathCanonicalize NetShareEnum DsRolerUpgradeDownlevelServer

VAZIO 3669 0 0 0 1 NetPathCompare 0 5146 5150 0 0 NetPathCanonicalize 0 5150 5146 0 0 NetShareEnum 0 0 0 10296 0 DsRolerUpgradeDownlevelServer 0 0 0 0 0 (a)

VAZIO NetPathCom-pare NetPathCanonica-lize NetShareE-num DsRolerUpgradeDownlevelSer-ver

VAZIO 4887 0 0 0 0 NetPathCompare 0 10820 10822 0 0 NetPathCanonicalize 0 4638 4636 0 0 NetShareEnum 0 0 0 15458 0 DsRolerUpgradeDownlevelServer 0 0 0 0 4 (b)

VAZIO NetPathCompare NetPathCanonicalize NetShareEnum

VAZIO 5001 0 0 0

NetPathCompare 0 12934 12936 0

NetPathCanonicalize 0 3234 3232 0

NetShareEnum 0 0 0 16168

(c)

VAZIO NetPathCompare NetPathCanonicalize NetShareEnum

VAZIO 4645 0 0 0

NetPathCompare 0 13905 13906 0

NetPathCanonicalize 0 1546 1545 0

NetShareEnum 0 0 0 15451

(d)

VAZIO NetPathCompare NetPathCanonicalize NetShareEnum

VAZIO 136 0 0 0

NetPathCompare 0 258 262 0

NetPathCanonicalize 0 176 172 0

(e)

Tabela 21: Tabela Resumo do Desempenho das Arvores do Conjunto Jacareí

(a) (b) (c) (d) (e)

Acurácia 70,19% 69,84% 69,78% 69,70% 69,54%

FNR 40,01% 20,00% 10,00% 5,00% 20,05%

FPR 8,49% 8,64% 10,83% 10,87% 10,91%

Tabela 22: Média do desempenho das árvores do conjunto Jacareí

Media Mediana Desvio Padrão Coeficiente de Variação

Acurácia 69,8100 69,7800 0,2404 0,0034

FNR 19,01% 20,00% 13,42% 70,59%

3.3.4 Campinas

Ao submeter os 13 subconjuntos amostrados da base de dados Campinas notou-se que foram criados três diferentes modelos de árvores, apresentados na Figura 8. A Figura 8.a apresenta a árvore gerada pelo conjunto amostral das semanas 1, 2, 3, 4, 6, 8, 9, 11. A Figura 8.b apresenta a árvore gerada pelas amostras das semanas 5, 7 e, por fim, a Figura 8.c apresenta a árvore gerada pelos conjuntos das semanas 12 e 13.

Ao analisar as árvores geradas pelas amostras das semanas 1, 2, 3, 4, 6, 8, 9 e 11 verifica- se que a árvore gerada tem nove folhas a partir do nó dcerpcbind_uuid e um nó connection_pro- tocol. Como visto anteriormente, o conjunto de dados Campinas tem a maior quantidade de interfaces DCERPC coletadas (92 interfaces), cada uma das 9 interfaces representadas na árvore da Figura 8.a leva a uma chamada de serviço DCERPC diferente, mas o algoritmo não foi capaz de identificar outros ramos para essas folhas. O ramo que desce na árvore informa o adminis- trador que a interface DCERPC 4b324fc8-1670-01d3-1278-5a47bf6ee188 é utilizada por duas sintaxes de transferência diferentes visando explorar a mesma vulnerabilidade (MS08-67 e uma não identificada pelo honeypot). Nos conjuntos de dados anteriores somente uma sintaxe de transferência era utilizada. Nesse caso fica explícita a variante do ataque, onde o atacante busca explorar a mesma vulnerabilidade através de outras chamadas.

O mesmo comportamento pode ser observado nas árvores da Figura 8.b e c. Esse suporta a hipótese levantada anteriormente de que os atacantes buscam novos vetores de ataques para explorar novas vulnerabilidades. Essa característica se repete nas folhas dos nó dcerpcbind_uuid, onde diferentes interfaces DCERPC utilizam outras chamadas ao serviço RPC. Diferentemente dos conjuntos Paris, Berlin e Jacareí, que foram coletados na mesma época, aqui se observa claramente que os atacantes estão explorando novos vetores de ataques

No documento Análise de dados de bases de honeypots: estatística descritiva e regras de IDS (páginas 54-96)