• Nenhum resultado encontrado

Detecção de DDoS através da análise da quantificação da recorrência baseada na extração de características dinâmicas e clusterização adaptativa

N/A
N/A
Protected

Academic year: 2021

Share "Detecção de DDoS através da análise da quantificação da recorrência baseada na extração de características dinâmicas e clusterização adaptativa"

Copied!
86
0
0

Texto

(1)UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. Marcelo Antonio Righi. DETECÇÃO DE DDOS ATRAVÉS DA ANÁLISE DA QUANTIFICAÇÃO DA RECORRÊNCIA BASEADA NA EXTRAÇÃO DE CARACTERÍSTICAS DINÂMICAS E CLUSTERIZAÇÃO ADAPTATIVA. Santa Maria, RS 2017.

(2) Marcelo Antonio Righi. DETECÇÃO DE DDOS ATRAVÉS DA ANÁLISE DA QUANTIFICAÇÃO DA RECORRÊNCIA BASEADA NA EXTRAÇÃO DE CARACTERÍSTICAS DINÂMICAS E CLUSTERIZAÇÃO ADAPTATIVA. Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciência da Computação, Área de Concentração em Ciência da Computação, da Universidade Federal de Santa Maria (UFSM, RS), como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.. ORIENTADOR: Prof. Dr. Raul Ceretta Nunes. Santa Maria, RS 2017.

(3) Ficha catalográfica elaborada através do Programa de Geração Automática da Biblioteca Central da UFSM, com os dados fornecidos pelo(a) autor(a).. Righi, Marcelo Antonio DETECÇÃO DE DDOS ATRAVÉS DA ANÁLISE DA QUANTIFICAÇÃO DA RECORRÊNCIA BASEADA NA EXTRAÇÃO DE CARACTERÍSTICAS DINÂMICAS E CLUSTERIZAÇÃO ADAPTATIVA / Marcelo Antonio Righi.- 2017. 83 p.; 30 cm Orientador: Raul Ceretta Nunes Dissertação (mestrado) - Universidade Federal de Santa Maria, Centro de Tecnologia, Programa de Pós-Graduação em Informática, RS, 2017 1. DDoS 2. AQR 3. Clusterização Adaptativa 4. A-Kmeans I. Nunes, Raul Ceretta II. Título.. ©2017 Todos os direitos autorais reservados a Marcelo Antonio Righi. A reprodução de partes ou do todo deste trabalho só poderá ser feita mediante a citação da fonte. Endereço: Av Roraima, n. 1000, Prédio 7, Anexo B, Sala 280 Fone (0xx) 55 8119 0522; End. Eletr.: marcelo.righi@mail.ufsm.br.

(4)

(5) DEDICATÓRIA. Dedico este trabalho primeiramente a minha esposa Ana Paula e minha filha Ana Laura pelo apoio incondicional durante toda a trajetória do curso de mestrado..

(6) AGRADECIMENTOS. Ao Programa de Pós-Graduação em Informática (PPGI) da Universidade Federal de Santa Maria por propiciar o acesso à pós-graduação. Ao professor Dr. Raul Ceretta Nunes, profissional e pessoa digna de todo o reconhecimento, pelo seu apoio e orientação precisa durante o mestrado, principalmente nos diversos momentos em que mais foi preciso. Agradeço por tudo isso e pela honra de ser seu aluno e amigo. Aos professores do Curso e colegas integrantes do grupo de pesquisa GTSeg. Ao Cel Arlindo Souza Braga pelo apoio e amizade durante todo o curso..

(7) A nossa recompensa está no esforço, não no resultado. Um esforço total é uma vitória completa. (Mahatma Gandhi).

(8) RESUMO DETECÇÃO DE DDOS ATRAVÉS DA ANÁLISE DA QUANTIFICAÇÃO DA RECORRÊNCIA BASEADA NA EXTRAÇÃO DE CARACTERÍSTICAS DINÂMICAS E CLUSTERIZAÇÃO ADAPTATIVA AUTOR: Marcelo Antonio Righi ORIENTADOR: Raul Ceretta Nunes O alto número de Ataques Distribuídos de Negação de Serviço (DDoS) tem demandado soluções inovadoras para garantia de confiabilidade e disponibilidade de serviços de internet. Neste sentido, diferentes métodos têm sido utilizados para analisar o tráfego de rede em busca de ataques de negação serviço, tais como redes neurais, árvores da decisão, análise de componentes principais e outros. Entretanto, poucos exploram características dinâmicas para classificar o tráfego de rede, tampouco a clusterização adaptativa. Esta dissertação propõe um novo método, chamado TRAFFICbyAQR, que utiliza a Análise da Quantificação da Recorrência baseada na extração de características dinâmicas para expressar o comportamento do tráfego. O método é combinado com o algoritmo de clusterização adaptativa (A-Kmeans) para realizar a classificação do tráfego de ataque. Os experimentos foram realizados utilizando as bases de dados CAIDA, UCLA e CTU-13 e demonstraram a boa acurácia do método e o baixo número de falsos alarmes. Palavras-chave: DDoS. AQR. Clusterização Adaptativa. A-Kmeans.

(9) ABSTRACT DDOS DETECTION THROUGH THE RECURRENCE QUANTIFICATION ANALYSIS BASED ON EXTRACTING FEATURES DYNAMICS AND ADAPTIVE CLUSTERING AUTHOR: Marcelo Antonio Righi ADVISOR: Raul Ceretta Nunes The high number of Distributed Denial of Service (DDoS) attacks has demanded innovative solutions to guarantee the reliability and availability of Internet services. In this sense, different methods have been used to analyze network traffic in search of denial-of-service attacks, such as neural networks, decision trees, principal component analysis and others. However, few of them explore dynamic characteristics to classify network traffic and none explore the adaptive clustering. This work proposes a new method, called TRAFFICbyAQR, which uses Recurrence Quantification Analysis based on the extraction of dynamic characteristics to express traffic behavior. The method is combined with the adaptive clustering algorithm (A-Kmeans) to perform better attack traffic classification. The experiments were done using the CAIDA, UCLA and CTU-13 databases and have demonstrated the good accuracy of the method and the low number of false alarms.. Keywords: DDoS. RQA. Adaptive Clustering. A-Kmeans..

(10) LISTA DE FIGURAS. Figura 2.1 – Ataques de Negação de Serviço Distribuídos (DDoS) . . . . . . . . . . . . . . . . . . . Figura 2.2 – Ataque UDP Flood Distribuído . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 2.3 – Ataque ICMP Flood Distribuído . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 2.4 – Ataque TCP SYN Flood Distribuído . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 3.1 – Exemplo de Série Temporal Estacionária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 3.2 – Exemplo de Série Temporal Não Estacionária . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 3.3 – GRs formados de duas Séries Temporais do tráfego normal de dois atributos: (a) GR para o atributo Desvio Padrão do tamanho dos pacotes; (b) GR para o atributo Média do tamanho dos pacotes . . . . . . . . . . . . . . . . . . . . . Figura 3.4 – . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 4.1 – Arquitetura da solução de detecção com o método TRAFFICbyAQR . . . . Figura 5.1 – Sinal da série temporal do atributo NUM PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.2 – GR do atributo NUM PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.3 – "Falsos Vizinhos" para o atributo NUM PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.4 – "Falsos Vizinhos" para o atributo NUM BYTES . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.5 – "Falsos Vizinhos" para o atributo M PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.6 – "Falsos Vizinhos" para o atributo VAR TEM PAC . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.7 – "Falsos Vizinhos" para o atributo VAR TAM PAC . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.8 – "Falsos Vizinhos" para o atributo TAX PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.9 – "Falsos Vizinhos" para o atributo TAX BYTES . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.10 – Gráfico da IMM para o atributo NUM PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.11 – Gráfico da IMM para o atributo NUM BYTES . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.12 – Gráfico da IMM para o atributo M PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.13 – Gráfico da IMM para o atributo VAR TEM PAC . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.14 – Gráfico da IMM para o atributo VAR TAM PAC . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.15 – Gráfico da IMM para o atributo TAX PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.16 – Gráfico da IMM para o atributo TAX BYTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.17 – Gráfico Escala Linear Taxa de Recorrência x Raio da Vizinhança do atributo NUM PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.18 – Gráfico Escala Logarítmica Taxa de Recorrência x Raio da Vizinhança do atributo NUM PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.19 – Gráfico Taxa de Determinismo x Raio da Vizinhança do atributo NUM PAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.20 – Histograma do atributo M Pac sem ataque . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 5.21 – Histograma do atributo M Pac com ataque DDoS . . . . . . . . . . . . . . . . . . . . . . Figura 5.22 – Taxa de recorrência para Média do Tamanho dos pacotes (M PAC) . . . . Figura 5.23 – Acurácia para as Janelas de Tempo das STs do TRAFFICbyAQR . . . . . .. 18 20 21 22 27 28. 32 32 36 47 47 50 51 51 52 52 53 53 55 55 56 56 57 57 58 59 60 60 63 64 66 70.

(11) LISTA DE TABELAS. Tabela 2.1 – Principais tipos de ataque DDoS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 4.1 – Atributos utilizados pela AQR. Adaptado de (OO; PHYU, 2013) . . . . . . . . . . Tabela 5.1 – Características dos cenários de botnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 5.2 – Quantidade de dados em cada cenário de botnet . . . . . . . . . . . . . . . . . . . . . . . Tabela 5.3 – Bases de Dados Utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 5.4 – Resultados para o conjunto de dados CAIDA 2007/2008 . . . . . . . . . . . . . . . . Tabela 5.5 – Resultados para o conjunto de dados UCLA CSD Normal/DDoS. . . . . . . . . Tabela 5.6 – Dimensões de Imersão específicas para cada atributo . . . . . . . . . . . . . . . . . . . Tabela 5.7 – Delays específicos para cada atributo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 5.8 – Taxas de Raio da Vizinhança específicas para cada atributo . . . . . . . . . . . . . Tabela 5.9 – Média e Desvio Padrão das MQRs do Atributo Num Pac sem e com ataque DDoS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 5.10 – Tabela de MQRs relevantes para cada atributo do TRAFFICbyAQR . . . . Tabela 5.11 – Limites das MQRs de cada atributo sem ataque DDoS . . . . . . . . . . . . . . . . . Tabela 5.12 – Síntese das versões inicial e otimizada do TRAFFICbyAQR . . . . . . . . . . . . Tabela 5.13 – Acurácia para as Janelas de Tempo das STs do TRAFFICbyAQR . . . . . . Tabela 5.14 – Extrato da distribuição de resultados reais e esperados para um conjunto de dados CAIDA 2007/2008 intercalados com seus respectivos incidentes (TRAFFICbyAQR otimizado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 5.15 – Resultados para o conjunto de dados CAIDA 2007/2008 . . . . . . . . . . . . . . . Tabela 5.16 – Resultados para o conjunto de dados UCLA CSD Normal/DDoS . . . . . . . Tabela 5.17 – Resultados para o conjunto de dados CTU-13 Normal/DDoS . . . . . . . . . . . Tabela 5.18 – Extrato da distribuição de resultados reais e esperados para ataque DDoS sintetico TCP SYN Flood com a ferramenta T50 . . . . . . . . . . . . . . . . . . Tabela 5.19 – Resultados para o ataque DDoS TCP SYN Flood sintético . . . . . . . . . . . . . Tabela 5.20 – Síntese dos resultados dos estudos de caso TRAFFICbyAQR . . . . . . . . . .. 19 40 45 45 46 49 49 54 58 61 64 65 67 68 69. 71 72 72 73 74 75 75.

(12) LISTA DE ABREVIATURAS E SIGLAS. IDS. Intrusion Detection System. DDoS. Distributed Denial of Service. CAIDA. Center for Applied Internet Data Analysis. U CLA. University of California Los Angeles. CT U. Czech Technical University. GR. Gráfico da Recorrência. M QR. Medida de Quantificação da Recorrência. IoT. Internet of Things. RR. Taxa de Recorrência. DET. Determinismo. EN T. Entropia de Shannon. T REN D. Tendência. LAM. Laminaridade. L. Comprimento Médio das Linhas Diagonais. Lmax. Comprimento Máximo das Linhas Diagonais. TT. Comprimento Médio das Estruturas Verticais. MD. Matriz de Distâncias. MR. Matriz de Recorrência. ST. Série Temporal. AQR. Análise da Quantificação da Recorrência. IM M. Informação Mútua Média. DARP A. Defense Advanced Research Projects Agency. T CP. Transmission Control Protocol. U DP. User Datagram Protocol. ICM P. Internet Control Message Protocol. IGM P. Internet Group Management Protocol. DN S. Domain Name System.

(13) HT T P. Hypertext Transfer Protocol. IP. Internet Protocol. TW. Transformada Wavelet. P CAP. Packet Capture Analysis. V RA. Visual Recurrence Analysis. M AXDIST. Máxima Distância do Espaço de Fases. AN OV A. Análise de Variância. CEP. Controle Estatístico de Processo. TFN. Trible Flood Network. VP. Verdadeiro Positivo. VN. Verdadeiro Negativo. FP. Falso Positivo. FN. Falso Negativo. AC. Acurácia. DI. Dimensão de Imersão. V RA. Visual Recurrence Analysis. CA. Clusterização Adaptativa.

(14) SUMÁRIO. 1 1.1 1.2 1.3 2 2.1 2.2 2.2.1 2.2.2 2.3 2.4 2.5 3 3.1 3.2 3.3 3.3.1 3.3.2 3.3.3 3.4 3.5 3.5.1 3.6 3.7 4 4.1 4.1.1 4.1.2 4.1.3 4.1.3.1 4.1.3.2 4.1.3.3 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.3 5 5.1 5.1.1 5.1.2 5.1.3 5.2. INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CONTRIBUIÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ORGANIZAÇÃO DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ATAQUES DISTRIBUÍDOS DE NEGAÇÃO DE SERVIÇO (DDOS) . . . . . . . . ATAQUES DISTRIBUÍDOS DE NEGAÇÃO DE SERVIÇO (DDOS) . . . . . . . . . FORMAS DE ATAQUE DE NEGAÇÃO DE SERVIÇO DISTRIBUÍDOS. . . . . . Ataques por Inundação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ataques por Exploração de Protocolos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ARQUITETURAS PARA DETECÇÃO DE DDOS QUE UTILIZAM AQR . . . . . ARQUITETURAS PARA DETECÇÃO DE DDOS QUE NÃO UTILIZAM AQR CONSIDERAÇÕES FINAIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ANÁLISE DA QUANTIFICAÇÃO DA RECORRÊNCIA . . . . . . . . . . . . . . . . . . . . ANÁLISE DA QUANTIFICAÇÃO DA RECORRÊNCIA . . . . . . . . . . . . . . . . . . . . . . SÉRIES TEMPORAIS E ESTACIONARIEDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . SISTEMAS DINÂMICOS E ESPAÇO DE FASE . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dimensão de Imersão (m) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tempo de Atraso/Retardo (delay) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Janela de Tempo do Espaço Amostral da ST . . . . . . . . . . . . . . . . . . . . . . . . . . . . RAIO DA VIZINHANÇA (ε) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . GRÁFICOS DE RECORRÊNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formação das Estruturas nos Gráficos de Recorrência . . . . . . . . . . . . . . . . MEDIDA DE QUANTIFICAÇÃO DE RECORRÊNCIA (MQR) . . . . . . . . . . . . . . . CONSIDERAÇÕES FINAIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DETECÇÃO DE ATAQUES DDOS UTILIZANDO AQR E CA . . . . . . . . . . . . . . TRAFFICBYAQR - MÉTODO DE DETECÇÃO DE ANOMALIAS DO TRÁFEGO EM REDES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Módulo de Captura de Pacotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Módulo de Extração de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Módulo de Detecção de Ataques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Algoritmo para detecção de ataques DDoS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Módulo AQR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Módulo de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DETERMINAÇÃO DE PARÂMETROS PARA OTIMIZAÇÃO DO MÉTODO. . Atributos de rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MQRs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxa de Raio da Vizinhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dimensão de Imersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CONSIDERAÇÕES FINAIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VALIDAÇÃO EXPERIMENTAL DO MÉTODO PROPOSTO . . . . . . . . . . . . . . . . BASES DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Base de dados CAIDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Base de dados UCLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Base de dados CTU-13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ORGANIZAÇÃO DOS EXPERIMENTOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13 14 15 15 17 17 18 20 22 23 23 25 26 26 26 28 28 29 29 30 31 33 33 35 36 36 37 37 37 38 38 39 39 40 40 41 41 41 43 43 43 44 44 45.

(15) 5.3 5.4 5.4.1 5.4.1.1 5.4.2 5.4.2.1 5.4.3 5.4.4 5.4.4.1 5.4.5 5.4.5.1 5.4.6 5.5 5.5.1 5.5.2 5.5.3 5.5.4 5.5.5 5.5.6 5.6 6 6.1. IMPLEMENTAÇÃO DA PRIMEIRA VERSÃO DO MÉTODO . . . . . . . . . . . . . . . . DEFINIÇÃO DOS PARÂMETROS PARA A OTIMIZAÇÃO DO MÉTODO. . . . Determinação das dimensões de imersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados Obtidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Determinação do tempo de atraso (Delay) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados Obtidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Determinação do raio da vizinhança (ε) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Determinação das MQRs relevantes para o método TRAFFICbyAQR . . Resultados Obtidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Determinação dos limites das MQRs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados Obtidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Síntese da fase de treinamento do TRAFFICbyAQR otimizado . . . . . . . . . ESTUDOS DE CASO DO TRAFFICBYAQR OTIMIZADO . . . . . . . . . . . . . . . . . . Estudo de Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estudo de Caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estudo de Caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estudo de Caso 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estudo de Caso 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Síntese dos resultados da fase de testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CONSIDERAÇÕES FINAIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . REFERÊNCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 48 49 50 50 54 54 59 61 63 66 67 68 68 69 70 72 73 73 75 76 77 78 79.

(16) 1. INTRODUÇÃO. Tradicionalmente, sistemas de detecção de intrusão (Intrusion Detection System – IDS) procuram por comportamentos maliciosos utilizando técnicas baseadas em assinaturas ou anomalias. A detecção por assinatura compara o tráfego de rede com uma base de dados de ataques previamente conhecidos (assinaturas), enquanto a detecção por anomalias compara os dados coletados com registros de atividades consideradas normais no sistema (TSAI et al., 2009). A detecção de intrusão baseada em anomalias vem sendo muito explorada (GARCIATEODORO et al., 2009)(GYANCHANDANI; RANA; YADAV, 2012)(SILVA; MAIA; FONSECA, 2012)(RAUT; SINGH, 2014) devido aos inúmeros e persistentes Ataques Distribuídos de Negação de Serviço (DDoS), os quais, para atacar uma determinada máquina, utilizam até milhares de computadores (pessoais ou servidores), distribuindo a ação de ataque entre estes. A distribuição da ação de ataque é alcançada com o uso de botnets, redes de computadores infectados por malware e que ficam sob controle de um atacante. Em 2016, o maior ataque DDoS da história (GOODIN, 2016) foi registrado com picos de até 1.1 Tbps e as evidências indicam que o ataque utilizado possuía capacidade de bombardear 1.5 Tbps. No ataque os hackers usaram câmeras de segurança e gadgets de IoT (Internet das Coisas). Para detecção de DDoS são utilizadas variadas técnicas (RAUT; SINGH, 2014). Entretanto, muitas ainda possuem limitações e a sua eficácia pode ser comprometida devido ao excesso de falsos alertas, como observado em (GANAME et al., 2008)(KIM; REDDY, 2008)(RAUT; SINGH, 2014). A existência de comportamentos dinâmicos não lineares e não estacionários na série de tráfego pode ser um dos fatores (PALMIERI; FIORE, 2010), dado que o tráfego de rede contém propriedades como auto-similaridade (WILLINGER; PAXSON; TAQQU, 1998), dependência de longa duração (GROSSGLAUSER; BOLOT, 1999) e recorrência (MARWAN; WEBBER, 2015), as quais permitem a utilização da Análise da Quantificação da Recorrência (AQR). A Análise da Quantificação da Recorrência (AQR) (MARWAN; WEBBER, 2015), utilizada inicialmente com limitações em (PALMIERI; FIORE, 2010)(JEYANTHI et al., 2011)(KUMAR; BHARGAVI; GARIMA, 2012)(JEYANTHI; THANDEESWARAN; VINITHRA, 2014) e em outros domínios (VIEIRA et al., 2013), pode também proporcionar soluções para segurança em redes de computadores de maneira mais eficaz e em tempo real (RIGHI; NUNES, 2015)(RIGHI; NUNES, 2016), pois permite analisar o comportamento do tráfego não linear que se repete ao longo de um determinado intervalo de tempo para emitir alertas em reação a um ataque DDoS. O comportamento do tráfego de redes é difícil de ser modelado através de métodos numéricos e estatísticos, devido ao seu comportamento não estacionário, irregular, variante de intensidade. O tráfego de rede também possui algumas.

(17) 14. correlações temporais, como: dependências de longa duração e autossimilaridade, permitindo a utilização da AQR, que mantém a estabilidade das suas MQRs em situações de elevação nos valores numéricos de vários atributos utilizados para caracterizar um ataque DDoS. Na AQR é possível extrair diversas características dinâmicas do comportamento específico para cada sistema, que são chamadas de Medidas de Quantificação da Recorrência (MQR), tais como Taxa da Recorrência (RR), Determinismo (DET), Entropia (ENT), Tendência (TREND), Laminaridade (LAM), dentre outras. Tais medidas norteiam a AQR, o que resulta numa análise focada nas características dinâmicas extraídas ao invés de uma análise focada nas variabilidades momentâneas do tráfego. Esta propriedade foi explorada de maneira aprofundada (RIGHI; NUNES, 2016), tendo demonstrado melhor resultado quando comparado com medidas extraídas diretamente da análise de Séries Temporais (ST) por métodos estatísticos tradicionais. Este trabalho propõe o TRAFFICbyAQR, um novo método para detecção de DDoS que utiliza a AQR baseada na extração de características dinâmicas combinada com a clusterização adaptativa (BHATIA, 2004) para classificar o tráfego de rede em tempo real.. 1.1. OBJETIVOS O objetivo geral deste trabalho é explorar a técnica de Análise da Quantificação da. Recorrência (AQR) e propor um algoritmo baseado na extração de características dinâmicas (MQRs) específicas para ataques DDoS. O trabalho também visa explorar a combinação da técnica com a Clusterização Adaptativa, para obter melhor eficácia na detecção de uma anomalia no tráfego de rede durante um evento de negação de serviço distribuído (DDoS). Para alcançar o objetivo geral, o trabalho foi norteado pelos seguintes objetivos específicos: • Projetar um algoritmo para detecção de DDoS baseado em técnicas de AQR e Clusterização Adaptativa; • Analisar quais as características dinâmicas (MQRs) para cada atributo específico que melhor representam um ataque DDoS quando utilizadas na Clusterização Adaptativa para nominar o tráfego como ataque DDoS ou não; • Analisar, testar e comparar se a combinação da AQR, baseada na extração de características dinâmicas, com a Clusterização Adaptativa contribui para a redução de falsos alarmes na detecção de ataques DDoS;.

(18) 15. • Testar, comparar e validar o método com bases de dados existentes e com ataques sintéticos.. 1.2. CONTRIBUIÇÕES A ampliação da exploração da AQR na detecção de DDoS é a principal contribuição. deste trabalho, pois a Análise da Quantificação da Recorrência (AQR) baseada na extração de características dinâmicas ou Medidas de Quantificação da Recorrência (MQRs) é um assunto bastante complexo e amplo, o qual vem sendo recentemente explorado na detecção de anomalias, porém com muitas limitações ainda, o que favorece a pesquisa científica em busca do aumento da taxa de detecção e diminuição dos falsos alertas de ataques DDoS. Além disso, de nosso conhecimento, não existe pesquisa na literatura que tenha aprofundado o tema da AQR a esse nível, contribuindo de maneira eficaz para a melhoria da acurácia dos IDS existentes. A combinação da AQR com um classificador que utiliza a Clusterização Adaptativa (A-Kmeans), que calcula automaticamente o número de clusters para nominar o tráfego de rede, também é uma contribuição importante na construção do método TRAFFICbyAQR, o qual mostrou-se eficaz através dos testes e experimentos que foram realizados neste trabalho. A ampla análise e exploração das MQRs, indicando quais as que melhor caracterizam um ataque DDoS e permitem melhor eficácia na detecção, constitui-se em um fator importante para a consolidação do método TRAFFICbyAQR. Para isso, foram realizados testes exaustivos descritos nos experimentos deste trabalho. Finalmente este trabalho contribui propondo uma nova técnica de detecção de DDoS que pode manter a sua eficácia durante o aumento do tráfego, isto é, em situações em que predomina a tendência não estacionária das séries temporais, das quais são extraídos os atributos da rede para delimitar seu comportamento.. 1.3. ORGANIZAÇÃO DO TRABALHO O trabalho está organizado da seguinte forma: no Capítulo 2 são abordados as-. pectos dos ataques DDoS, Botnets e os principais tipos de ataques DDoS existentes; no Capítulo 3 alguns aspectos importantes da AQR são mostrados, dando ênfase para os principais parâmetros utilizados, os quais são analisados neste trabalho e as MQRs existentes; no Capítulo 4 é descrita a proposta e o seu algoritmo TRAFFICbyAQR; No Capítulo 5 são apresentados os experimentos e os resultados obtidos, com a calibragem dos parâmetros.

(19) 16. da AQR, juntamente com as MQRs relevantes e seus limites inferiores e superiores, além da análise do método de detecção de DDoS sob cinco diferentes cenários. No Capítulo 6 as conclusões e os trabalhos futuros são apresentados..

(20) 2. ATAQUES DISTRIBUÍDOS DE NEGAÇÃO DE SERVIÇO (DDOS). Neste capítulo estão presentes os principais conceitos e fundamentos abrangendo os Ataques de Negação de Serviço Distribuídos (DDoS) que servem como base para o entendimento do tipo de anomalia que será detectada no método TRAFFICbyAQR. A Seção 2.1 apresenta a definição de DDoS e de um botnet. A Seção 2.2 aborda as principais formas e tipos de ataque de negação de serviço, juntamente com uma breve explicação dos mesmos. As Seções 2.3 e 2.4 descrevem algumas das principais arquiteturas de interesse na detecção de DDoS e, também, demonstram que alguns métodos exploram características dinâmicas ou MQRs, porém com muitas limitações ainda, e outros não as utilizam.. 2.1. ATAQUES DISTRIBUÍDOS DE NEGAÇÃO DE SERVIÇO (DDOS) Ataques de Negação de Serviço Distribuídos (DDoS) visam inabilitar uma rede ou. seus serviços, tornando-os inacessíveis a usuários legítimos. Para tanto, um atacante envia pacotes com uma taxa muito maior do que a vítima pode responder (CASTELUCIO; ZIVIANI; SALLES, 2009). Este é um dos diversos tipos de ataque que permite explorar a enorme quantidade de recursos que existe entre a Internet e a vítima, por meio de uma tecnologia de cliente/servidor, multiplicando a eficácia do ataque utilizando os recursos de múltiplos computadores recrutados involuntariamente. Progressivamente os ataques DDoS se tornam mais sofisticados e difíceis de detectar e cada vez mais os métodos existentes devem ser revistos e atualizados para se poder manter as taxas de detecção em um nível aceitável. Apesar dos estudos desse ataque constituírem muitas fontes de pesquisa a respeito, ainda não há uma solução definitiva para detectá-lo, de maneira que ainda há oportunidades para contribuições. Os ataques DDoS comumente utilizam botnets (AL-DUWAIRI; AL-QUDAH; GOVINDARASU, 2013) para a sua execução, as quais são uma plataforma computacional distribuída (vide Figura 2.1) composta por uma rede de sistemas comprometidos (zombies) que são controlados remotamente por um atacante. Botnets são utilizadas, não apenas em ataques DDoS, mas para uma série de atividades ilegais como envio de spams, envio de e-mail de phishing, disseminação de Cavalos de Tróia, distribuição ilegal de mídias e softwares piratas, roubo de informações e recursos computacionais, extorsão de e-business, disseminação de malwares e outros (LIU et al., 2009)..

(21) 18. Figura 2.1 – Ataques de Negação de Serviço Distribuídos (DDoS). Fonte: (OVH, 2016). No que diz respeito à detecção de DDoS baseada em anomalias, que é o foco deste trabalho, existem diferentes mecanismos que são apresentados na literatura atual, tais como baseados em Wavelets (KAUR; VARMA; JAIN, 2013), Entropia (MA; CHEN, 2014), Bayes (TSAI et al., 2013), Redes Neurais (CHEN; MA; WU, 2013), Distribuição Polinomial (PAUL; PRASADH; DAVIES, 2014), Árvores da Decisão (WU et al., 2011), Clusterização (ZHONG; YUE, 2010), Análise da Quantificação da Recorrência (JEYANTHI; THANDEESWARAN; VINITHRA, 2014) entre outros. Embora haja grande diversidade de técnicas para identificação de ataques DDoS, o grande desafio, ainda, é manter a taxa de acurácia dos modelos existentes a níveis elevados, haja vista que podem haver variações consideráveis nas taxas de diversos parâmetros que são utilizados para caracterizar cada sistema considerado, principalmente, porque em sua maioria são usadas séries temporais estacionárias para extrair os atributos que caracterizam o ataque.. 2.2. FORMAS DE ATAQUE DE NEGAÇÃO DE SERVIÇO DISTRIBUÍDOS Esta seção apresenta uma breve descrição sobre as principais classes e os tipos. de ataques DDoS mais utilizados, descrevendo os aspectos de rede de interesse para este trabalho. No trabalho realizado por (SILVA; SALLES, 2015) foi apresentada uma taxonomia para os ataques DDoS, na qual foram estabelecidas duas classes principais que empregam as estratégias de diminuição de largura de banda e a de esgotamento de recursos. Na.

(22) 19. primeira, os ataques são descritos por inundação ou Flooding. Por outro lado, ataques de esgotamento de recursos são descritos pela utilização indevida dos protocolos de rede. As Subseções 2.2.1 e 2.2.2 apresentam mais detalhes de cada uma destas classes. Em um ataque DDoS, dependendo do método que é utilizado, vários tipos de ataques podem ser executados (vide Tabela 2.1), apropriando-se de recursos de um tipo de protocolo em diferentes níveis do Modelo OSI. No presente trabalho serão abordados ataques TCP SYN Flood, ICMP Flood e UDP Flood, todos distribuídos e focados na negação de serviço por esgotamento de recursos e largura de banda, nominados por seu termo em inglês flooding e caracterizados por serem ataques em nível de infraestrutura (BEITOLLAHI; DECONINCK, 2012), diferenciando-se de ataques no nível de aplicação. Tabela 2.1 – Principais tipos de ataque DDoS. Fonte: Adaptado de (OVH, 2016).

(23) 20. 2.2.1. Ataques por Inundação Esta forma de ataque é também chamada de ataque baseado em volume, o qual. emprega a saturação do alvo com uma quantidade muito alta de pacotes IP (CHEN; MA; WU, 2013), podendo ser utilizados ataques como UDP Flood e ICMP Flood e atualmente HTTP Flood. Esta forma de ataque pode tanto deixar o sistema lento quanto derrubá-lo por completo e muitas vezes inviabilizando toda a comunicação, inclusive, o núcleo da rede do qual o host faz parte. O ataque UDP Flood Distribuído (XU; MA; ZHENG, 2009)(WONG; TAN, 2014) utiliza o Protocolo de Datagrama do Usuário (UDP) que é um protocolo de transmissão que não exige uma resposta de que um pacote foi recebido pelo servidor de destino. Nesse tipo de ataque, o atacante envia o comando de ataque para os computadores zumbies, os quais enviam uma quantidade excessiva de pacotes UDP com endereços de origem falsos para portas aleatórias ou hosts-alvo. O destinatário, então, busca por aplicativos associados a essas requisições e, se não forem encontrados, envia um pacote de "destino inacessível" (vide Figura 2.2). Os computadores infectados enviam cada vez mais pacotes, até que o destinatário não consiga mais responder aos usuários legítimos. Figura 2.2 – Ataque UDP Flood Distribuído. Fonte: (SINGH; JUNEJA, 2010). O ataque ICMP Flood Distribuído (vide Figura 2.3) (WONG; TAN, 2014), também.

(24) 21. chamado de Smurf Attack, é um tipo de ataque DDoS que é projetado para esgotar os recursos e a largura de banda da vítima. De acordo com o protocolo ICMP, quando um dispositivo na rede recebe uma solicitação ICMP ECHO REQUEST ("ping") há uma resposta ao endereço IP de origem com uma mensagem ICMP ECHO REPLAY ("pong"), informando o status do receptor. Nesse ataque, o atacante envia a solicitação "ping" para os computadores infectados (zumbies), os quais enviam um grande número de pacotes ICMP ECHO REPLAY para o IP da vítima (WANG, 2009), ou seja, todos os zumbies que receberam estas mensagens de difusão responderão com mensagens "pong" de volta para o computador vítima. Isso vai esgotar os recursos da vítima ou de toda a rede do servidor. Além disso, o grau de ataque depende do número de máquinas infectadas na rede (que recebem as mensagens de difusão) e das taxas de pacotes de ataque enviadas pelo atacante (WANG, 2009). Figura 2.3 – Ataque ICMP Flood Distribuído. Fonte: (WANG, 2009).

(25) 22. 2.2.2. Ataques por Exploração de Protocolos Ataques por exploração de protocolos caracterizam-se pelo elevado consumo dos. recursos da vítima através do uso indevido de uma característica ou falha na implementação de algum protocolo utilizado. Esse tipo de ataque utiliza principalmente pacotes TCP SYN indevidamente, chamado de TCP SYN Flood (WONG; TAN, 2014), onde o SYN é o primeiro pacote enviado através de uma conexão TCP e indica a intenção de conexão. O ataque TCP SYN Flood Distribuído (vide Figura 2.4) utiliza-se de uma vulnerabilidade do protocolo TCP (Three Way Handshake) e o atacante envia o comando de ataque para os computadores infectados (zumbies), os quais enviam um elevado número de pacotes SYN para o servidor. O servidor então reconhece o pacote SYN enviando uma mensagem SYN-ACK de volta para a origem, no entanto, o pacote ACK que possibilita o estabelecimento da conexão não chega ao servidor, sobrecarregando o sistema à espera do pacote ACK. O potencial abuso surge no ponto em que o sistema do servidor enviou uma confirmação SYN-ACK de volta para o cliente, mas ainda não recebeu o pacote ACK, com isso uma grande quantidade de memória foi alocada esperando uma resposta de um pacote ACK e os pedidos legítimos de conexão são impedidos de ser atendidos até que o ataque acabe. Além disso, as conexões parciais resultantes possibilitam ao atacante acessar arquivos do servidor . Figura 2.4 – Ataque TCP SYN Flood Distribuído. Fonte: (CIAMPA, 2012).

(26) 23. 2.3. ARQUITETURAS PARA DETECÇÃO DE DDOS QUE UTILIZAM AQR Em (GROSSGLAUSER; BOLOT, 1999)(PALMIERI; FIORE, 2010) é sugerido que o. tráfego de rede possui propriedades de auto-similaridade e dependência de longa duração, ou seja, de correlações em uma ampla gama de escalas de tempo. Tais características, de acordo com (MARWAN; WEBBER, 2015), podem permitir a aplicação da Análise da Quantificação da Recorrência (AQR) como uma possível técnica para detecção de anomalias. É possível criar Gráficos de Recorrência (GRs) e analisá-los através de características dinâmicas (MQRs) (MARWAN; WEBBER, 2015) que podem ser extraídas através de testes que melhor caracterizam cada tipo de sistema avaliado. Em outras palavras, isto permite representar matematicamente as correlações dos pontos de recorrência e definir o comportamento da série temporal não estacionária. A AQR foi utilizada em (JEYANTHI et al., 2011)(KUMAR; BHARGAVI; GARIMA, 2012)(JEYANTHI; THANDEESWARAN; VINITHRA, 2014), no entanto, a utilização é genérica, pois confeccionam o GR com base em atributos e MQRs que podem não ser ideais para caracterizar um ataque DDoS. A observação é visual e empírica através da ferramenta Weka, buscando conclusões com base em mudanças abruptas percebidas no GR e nos valores das MQRs. Além disso, esses métodos não possuem dados referentes a Thresholds para os valores das MQRs e, também, não apresentam a acurácia, a taxa de falsos positivos, sem levar em conta o tempo de execução dessas ações e a geração de alertas em tempo real. Dos estudos, observou-se que a AQR, apesar de ser explorada em alguns trabalhos para caracterizar o tráfego de rede, ainda possui limitações e um dos poucos que empregam características dinâmicas de uma maneira mais aprofundada é o de (YUAN; YUAN; CHEN, 2014), onde o autor combina um algoritmo de clusterização com a Transformada Wavelet (TW) e a AQR. Porém a quantidade de falsos positivos no trabalho de Yuan et al (2014) ultrapassa 8% quando utiliza a base de dados DARPA 1999. Além disso, os atributos estatísticos não caracterizam ataques DDoS e o clusterizador é o K-Means (DUDA; HART; STORK, 2000) que possui a limitação de usar um número fixo de clusters, o que diminui sua eficácia.. 2.4. ARQUITETURAS PARA DETECÇÃO DE DDOS QUE NÃO UTILIZAM AQR Em (WU et al., 2011) os autores propõem a detecção de ataques DDoS utilizando. um classificador baseado em árvore da decisão (algoritmo C4.5). No trabalho foram utilizados dezesseis atributos originados dos protocolos TCP, UDP e ICMP, além de outros, como taxa de pacotes por minuto, número de pacotes TCP SYN e TCP ACK, com a finalidade de descrever o padrão de tráfego em situação de normalidade e de ataque DDoS..

(27) 24. Embora o algoritmo tenha uma acurácia elevada, os testes revelaram que a taxa de falsos positivos cresce com o aumento do tráfego, conforme demonstrado nos gráficos do artigo, denotando uma menor eficácia do método em uma situação de aumento normal do fluxo da rede. Além disso, a escolha dos atributos não considerou características importantes para DDoS, dado que os atributos escolhidos não contemplam a variância do tamanho dos pacotes e a variância do tempo dos pacotes recebidos, que tendem a zero durante um ataque DDoS (OO; PHYU, 2013). Com base nessa limitação, foram observadas vantagens na utilização da AQR em combinação com a Clusterização Adaptativa, pois a AQR pode manter a regularidade das MQRs em seu método de detecção, apesar das variações das taxas dos atributos utilizadas nas STs, conforme especificidade de cada sistema, e, além disso, a Clusterização Adaptativa não necessita de uma escolha fixa do número de clusters, aumentado assim a acurácia do modelo proposto. Em (OO; PHYU, 2013), o método proposto procura caracterizar ataques DDoS com base em sete atributos extraídos diretamente do tráfego de rede, tais como média do tamanho dos pacotes, variância do tamanho dos pacotes, taxa de bytes por segundo e outros. Esses atributos correspondem a parâmetros específicos do tráfego em situações de ataque e de normalidade e são utilizados diretamente pelo algoritmo de clusterização K-NN (NGUYEN; CHOI, 2010), que faz o agrupamento pela regra do vizinho mais próximo, na qual a escolha do número de clusters é fixa e determinada pelo pesquisador. Ao final o clusterizador K-NN nominará o tráfego, de acordo com a fase de treinamento, como sendo ataque DDoS ou não. No entanto, de acordo com a nossa abordagem, a utilização de um classificador para operar diretamente a série temporal formada em cada atributo, bem como a escolha fixa do número de clusters, pode ser um limitador significativo para obtenção de uma boa eficiência do método de detecção, pois as variações abruptas nos valores das STs dos atributos citados podem prejudicar a acurácia treinada em situações de estacionariedade do tráfego. De maneira similar, em (ZHONG; YUE, 2010) os autores apresentam um método de detecção de ataques DDoS que captura o tráfego de rede e analisa o status da conexão do protocolo TCP/IP (IP destino, IP de Origem, bytes e outros parâmetros) com o algoritmo de clusterização Fuzzy C-Means (FCM). Porém, esse algoritmo, apesar de buscar uma melhor qualidade dos agrupamentos formados, também possui o limitador de escolher um número fixo de clusters para o seu funcionamento, prejudicando a acurácia do modelo. Embora existam vários mecanismos para clusterização de dados, todos eles possuem a mesma limitação, a escolha do número de clusters, que é predefinida pelo pesquisador diminuindo a eficácia do algoritmo, porém, em (BHATIA, 2004), foi implementado o A-Kmeans, que calcula automaticamente o número de clusters, o qual incrementou o processo de clusterização de dados de forma que os clusters não dependem da identificação inicial. Essa técnica de Clusterização Adaptativa muda o número de clusters conforme o.

(28) 25. conjunto de dados existentes, proporcionando uma adequação automática de cada série em questão.. 2.5. CONSIDERAÇÕES FINAIS Neste capítulo foram abordados aspectos dos ataques DDoS, suas formas e tipos. de ataque mais utilizados e uma explicação mais aprofundada sobre os tipos de ataque que foram explorados neste trabalho. Além disso foram relacionados diversos trabalhos que utilizaram ou não a AQR para detecção de ataques DDoS, salientando o atual estado da arte no que diz respeito às técnicas empregadas para implementar o método TRAFFICbyAQR. Os ataques DDoS dividem-se em duas categorias principais: esgotamento de recursos e esgotamento de banda. Ataques da categoria de esgotamento de recursos exploram vulnerabilidades, esgotando recursos de algum serviço ou protocolo. Ataques do tipo esgotamento de banda enviam um número excessivo de requisições, inundando o host atacado. Como exemplo de ataques DDoS desta categoria temos: TCP Flood, ICMP flood e UDP Flood descritos neste capítulo. Com relação a AQR, foram buscadas referências bibliográficas que utilizam a AQR, apesar de suas limitações descritas e referências que não a utilizam para detecção de ataques DDoS, com a finalidade de ambientar a pesquisa no seu estado mais atual..

(29) 3. ANÁLISE DA QUANTIFICAÇÃO DA RECORRÊNCIA. Este capítulo retrata os conceitos abrangendo a Análise da Quantificação da Recorrência (AQR) e como ela se adapta bem à análise de sistemas não estacionários e dinâmicos, a qual somente pode ser compreendida se revisados seus fundamentos teóricos explícitos. A Seção 3.1 constitui-se em uma explicação geral sobre a AQR; a Seção 3.2 traz uma revisão sobre STs estacionárias e não estacionárias; a Seção 3.3 aborda o que é um sistema dinâmico e o seu espaço de fase; a Seção 3.4 apresenta o principal parâmetro da AQR para a formação dos seus GRs; a Seção 3.5 detalha a formação do GR na AQR; e na Seção 3.6 são apresentadas as MQRs que podem ser extraídas do GR.. 3.1. ANÁLISE DA QUANTIFICAÇÃO DA RECORRÊNCIA Este trabalho está focado na AQR e como ela pode contribuir para a detecção de. um evento de DDoS durante a instabilidade do tráfego de rede. A AQR pode ser dividida em duas análises, sendo uma subjetiva (GR) e outra objetiva (MQRs). Porém, para compreender melhor essa afirmação é necessária uma apresentação dos conceitos de sistema dinâmico e espaço de fase na Seção 3.3 deste capítulo. A recorrência constitui-se em uma característica de vários sistemas dinâmicos dissipativos (MARWAN et al., 2007). Em (POINCARE, 1890) foi criado o Teorema da Recorrência, no qual definiu-se que, para um sistema dinâmico, as trajetórias retornam a regiões vizinhas ou próximas aos pontos iniciais, formando um conjunto de vários momentos de retorno. A análise visual dos GRs apresenta linhas horizontais, verticais e diagonais que apresentam significados de interesse para cada sistema em questão e cabe ao analista interpretar o que o gráfico está mostrando. Diferentemente, com a utilização das MQRs é possível quantificar matematicamente através de programas de computador o que os GRs mostram.. 3.2. SÉRIES TEMPORAIS E ESTACIONARIEDADE Séries Temporais são uma sequência de dados quantitativos relacionados com os. momentos específicos, ou seja, uma coleção de observações feitas progressivamente ao longo do tempo (MORETTIN; TOLÓI, 2006). Uma característica muito importante é que.

(30) 27. as observações vizinhas podem ser dependentes e a análise e modelagem desta dependência pode delimitar um padrão de comportamento específico, no caso deste trabalho, detecção de ataques DDoS. Uma série temporal é considerada estacionária quando os valores observados no decorrer do tempo mantêm uma média e variância constantes, demonstrando estabilidade ao longo das observações (vide Figura 3.1). De maneira geral, quando uma ST possui um equilíbrio estatístico, ou seja, não possui alguma tendência, define-se como estacionária, porém, quando predomina a não-estacionariedade, as suas propriedades mudam ao longo do tempo (vide Figura 3.2). Grande parte dos procedimentos de análise estatística de séries temporais utilizam ST estacionárias, portanto, na maioria das vezes é necessário transformar os dados originais se estes não formam uma série estacionária. Neste trabalho não há necessidade de uma transformação da série temporal de não estacionária para estacionária, pois a AQR pode ser aplicada diretamente na ST, seja ela curta ou longa, estacionária ou não, constituindo-se em uma vantagem na sua utilização, conforme é explicado na Seção 3.6 (MQRs). Figura 3.1 – Exemplo de Série Temporal Estacionária. Fonte: (Portal Action, 2016).

(31) 28. Figura 3.2 – Exemplo de Série Temporal Não Estacionária. Fonte: (Portal Action, 2016). 3.3. SISTEMAS DINÂMICOS E ESPAÇO DE FASE Um sistema dinâmico (OTT; SAUER; YORKE, 1994) pode ser definido como um. modelo matemático que caracteriza a evolução dos estados do sistema ao longo do tempo, ou seja, quando um sistema possui vários estados relacionados entre si em um espaço de tempo determinado. O espaço de fases são variáveis de estado que descrevem a evolução de um sistema dinâmico, ou seja, as coordenadas num ponto do espaço de fases, para um determinado instante, correspondem aos valores das variáveis de estado do sistema para esse instante. Tais coordenadas são comumente designadas por vetores de estado. A reconstrução no espaço de fases a partir de uma única série temporal está baseada no Teorema de Takens (TAKENS, 1981).. 3.3.1. Dimensão de Imersão (m) A dimensão de imersão do espaço de reconstrução refere-se ao número mínimo. de coordenadas do espaço de fase para representar eficazmente a dinâmica do sistema. Portanto, antes de se reconstruir o espaço de fases é necessário determinar a dimensão de imersão do sistema (Embedding Dimension), com base na teoria de (TAKENS, 1981) e (OTT; SAUER; YORKE, 1994), definindo um conjunto de coordenadas para essa reconstrução..

(32) 29. Com base nisso, existem duas hipóteses práticas para a determinação da dimensão de imersão, sendo a primeira a investigação do comportamento do sistema quando se aumenta gradativamente a dimensão de imersão e verifica-se a mudança abrupta de algum invariante geométrico do sistema, chamada de Saturação (GRASSBERGER; PROCACCIA, 1983). A segunda, e mais utilizada, é através do método dos “falsos vizinhos”, alterando-se gradativamente o valor de m e verificando quais os pontos se distanciam da vizinhança (vizinhos verdadeiros sempre permanecem vizinhos) (KENNEL; BROWN; ABARBANEL, 1992).. 3.3.2. Tempo de Atraso/Retardo (delay) Na reconstrução do espaço de fases é necessário escolher o tempo de atraso ou. delay (τ ), que nada mais é que que o intervalo de tempo que o valor de uma variável deve esperar para verificar o próximo valor do estado da fase. Caso este delay seja muito pequeno, isso acarretará em uma alta correlação entre esses valores da ST, resultando em um espaço de fases fortemente alinhado na direção da bissetriz do plano, causando resultados com uma alta recorrência. Por outro lado caso o delay seja muito alto, a correlação pode ficar bastante defasada e os valores das MQRs não serão interpretados corretamente. Dois métodos podem ser utilizados para determinação do tempo de atraso, o método baseado na função de Autocorrelação e o método da Informação Mútua Média (IMM) (FRASER; SWINNEY, 1986). Porém, neste trabalho será utilizado o método IMM, pois é mais indicado para sistemas que apresentam comportamentos não estacionários, tornandose mais efetivo. Segundo (FRASER; SWINNEY, 1986), a teoria da IMM visa determinar o quanto de informação é possível em uma série temporal em um determinado instante de tempo, observando outro instante atrasado em relação ao anterior. O método será abordado e utilizado na Subseção 5.4.2.. 3.3.3. Janela de Tempo do Espaço Amostral da ST A janela do espaço amostral da ST para cada atributo utilizado na formação do GR. não possui uma técnica específica na literatura, por isso foram testados diversos intervalos na Subseção 5.5.1, com a finalidade de levantar qual a melhor janela a ser utilizada no método TRAFFICbyAQR para a detecção de ataques DDoS..

(33) 30. 3.4. RAIO DA VIZINHANÇA (ε) Cabe salientar que o Raio da vizinhança é um parâmetro importante na AQR, pois. ele define a maior ou menor dispersão de pontos de recorrência no GR. Escolhido um valor muito pequeno para Raio de Vizinhança, quase nenhum ponto recorrente pode ser observado e pouca informação a respeito da estrutura recorrente do sistema dinâmico é obtida. Se for escolhido um valor muito alto, falsas recorrências podem ser detectadas (MARWAN et al., 2007). O raio da Vizinhança depende de cada tipo de sistema que está sendo analisado e dos seus objetivos (MARWAN; WEBBER, 2015) (MARWAN, 2003), tendo este que ser ajustado de acordo com o tipo de aplicação, no caso deste trabalho a detecção de DDoS. Ao calcular-se a distância entre os estados do sistema, o Raio de Vizinhança define quais pontos estão dentro ou fora dessa vizinhança (pontos recorrentes ou não recorrentes). A função de Degrau Unitário ou de Decisão ( θ ) mapeia os pontos recorrentes dentro do GR, conforme Equação (3), sendo essa função um ponto de corte para a confecção do GR, pois quanto maior o Raio da Vizinhança, maior será o número de pontos recorrentes do sistema em questão. Esta função transforma a Matriz de Distâncias (MD) em Matriz de Recorrência (MR). Na literatura atual, alguns métodos para obtenção do raio de vizinhança são sugeridos, dentre os quais podem ser citados os seguintes: • A escolha do valor apropriado para o Raio da Vizinhança é sugerida ser uma pequena porcentagem do diâmetro máximo do espaço de fase (MINDLIN; GILMORE, 1992)(ZBILUT; JR, 1992); • O Raio da Vizinhança é escolhido como sendo aquele que mantém a Taxa de Recorrência em um pequeno percentual (0,1 a 2%), garantindo, assim, que o mínimo de informação sobre a recorrência do sistema dinâmico seja obtido. Essa metodologia é empregada quando se deseja que outras medidas não tenham valores saturados, como é o caso da medida determinismo (WEBBER; ZBILUT, 2005); • Definir o raio em relação ao desvio padrão do ruído – método indicado em análises de séries temporais afetadas por ruídos conhecidos. O Raio da Vizinhança (ε) é escolhido como sendo, pelo menos, cinco vezes o valor do Desvio Padrão (σ ) do ruído observado (ε > 5σ ) (THIEL et al., 2002); • Uma das formas de entender propriamente a dinâmica do Raio da Vizinhança é utilizar as próprias MQRs, como a Taxa de Recorrência (RR) e o Determinismo (DET), observando-as com diversos valores de ε e tracejar os resultados em escala logarítmica a fim de detectar uma região onde a dinâmica se sobressaia com mudanças abruptas ou que se diferencie notadamente da tendência apresentada (ZBILUT; JR, 1992)(WEBBER; ZBILUT, 2005)..

(34) 31. Neste trabalho, a metodologia empregada será conforme (WEBBER; ZBILUT, 2005) e é descrita na Subseção 5.4.3, que leva em consideração a obtenção do Raio da Vizinhança em relação à Taxa de Recorrência e do Determinismo.. 3.5. GRÁFICOS DE RECORRÊNCIA Os Gráficos da Recorrência (vide exemplo na Figura 3.3) foram propostos em (ECK-. MANN; KAMPHORST; RUELLE, 1987) como uma técnica de análise não linear de sistemas dinâmicos e proporcionam uma visualização do comportamento da trajetória do espaço de fases multidimensional (MARWAN; WEBBER, 2015). Na prática, os Gráficos de Recorrência são matrizes bidimensionais quadradas que representam a evolução dos estados do sistema dinâmico e que são preenchidas por pontos pretos e brancos (vide Figura 3.4). Os pontos pretos indicam que há recorrência, ou seja, os estados do sistema dinâmico referentes a esses pontos orbitam em regiões próximas uns dos outros na trajetória do espaço de fases (VIEIRA et al., 2013). Tais regiões são chamadas de Raio da Recorrência. Um ponto preto marcado na coordenada (i, j) do gráfico representa a recorrência do estado do sistema e(i) no instante j (ECKMANN; KAMPHORST; RUELLE, 1987)(MARWAN; WEBBER, 2015). Em outras palavras, considerando os gráficos da recorrência da Figura 3.3, cada estado da Taxa Total de Pacotes (Figura 3.3)(a)) e Média do Tamanho dos Pacotes (Figura 3.3)(b)) em um determinado instante (i) é comparado com todos os outros estados em cada instante correspondente. (j, j + 1, ..., n). No caso de recorrência, um ponto preto será marcado a partir de cada resultado de cada comparação, caso contrário será marcado um ponto branco. No instante. (i + 1) seu estado será novamente comparado com todos os outros estados (j, j + 1, ..., n) e assim sucessivamente até o término da série temporal para cada atributo utilizado. O resultado deste processo é numa matriz quadrada de pontos pretos e brancos que indicam a recorrência da característica de interesse..

(35) 32. Figura 3.3 – GRs formados de duas Séries Temporais do tráfego normal de dois atributos: (a) GR para o atributo Desvio Padrão do tamanho dos pacotes; (b) GR para o atributo Média do tamanho dos pacotes. (a). Fonte: Elaborada pelo autor. Figura 3.4. Fonte: (BAPTISTA, 2011). (b).

(36) 33. 3.5.1. Formação das Estruturas nos Gráficos de Recorrência A expressão matemática (vide Equação 3.2) que define a formação do gráfico da. recorrência é computada com base em uma série temporal xi = xi , ..., xn com seus estados xi , onde i = 1, 2, 3, ..., n e n é o número total de amostras (ECKMANN; KAMPHORST; RUELLE, 1987)(MARWAN; WEBBER, 2015). Para o cálculo dos pontos de recorrência no GR é necessária uma série atrasada em relação xi , a qual é definida pela equação 3.1, onde N é o número de estados, sendo. N = n − (m − 1)τ , m a dimensão de imersão e τ é o tempo de atraso. xj = [xj , xj+τ , ..., xN ], j = 1, 2, 3, ..., N. (3.1). Rij = θ(ε − ||xi − xj ||). (3.2). Onde, Rij corresponde a um elemento da matriz de recorrência, ε ao limiar adotado, xi e xj aos estados do sistema no espaço de fase m − dimensional ora em análise e ( θ ) a função de decisão ou degrau unitário definida pela Equação 3.3. De acordo com a Equação 3.3, se a diferença entre os estados xi e xj é menor do que o limiar ε, então o valor de θ(ε) é 1 e existe um ponto preto na posição (i, j) do Gráfico da Recorrência; caso contrário, o valor de θ(ε) é 0 e existe um ponto branco em (i, j).. θ(f (ε)) =. 3.6. 0 (ε−||ei −ej ||)≤0 1 (ε−||ei −ej ||)>0. (3.3). MEDIDA DE QUANTIFICAÇÃO DE RECORRÊNCIA (MQR) A partir do Gráfico da Recorrência, a Análise de Quantificação de Recorrência. (AQR) permite realizar e potencializar avaliações visuais da recorrência. Entretanto, a análise visual dos gráficos de recorrência é subjetiva e pode levar a diferentes interpretações. Por isso, com o objetivo de trazer mais precisão às análises, as estruturas presentes nos GRs foram quantificadas através de Medidas de Quantificação de Recorrência (MQRs) (WEBBER; ZBILUT, 1994). De acordo com Marwan (2003), as principais MQRs são: • Razão de Recorrência (RR) - mede a densidade dos pontos de recorrência no gráfico de recorrência; • Determinismo (DET) - razão entre o número de pontos de recorrência que formam as estruturas diagonais e todos os pontos de recorrência. Está relacionada com a.

(37) 34. previsibilidade do sistema; • Comprimento médio das linhas diagonais (L) – indica o tempo médio que dois segmentos de uma trajetória se mantêm próximos um do outro, podendo ser interpretado como o tempo médio de predição; • Comprimento máximo das linhas diagonais (Lmax) – indica o tempo máximo que dois segmentos de uma trajetória se mantêm próximos um do outro. Mais utilizado na análise de quantificação de recorrência do que o comprimento médio das linhas diagonais; • Entropia de Shannon (ENT) - representa a distribuição de frequências dos comprimentos das linhas diagonais e reflete a complexidade da estrutura determinística presente no sistema; • Tendência (TREND) - é um coeficiente de regressão linear sobre a densidade dos pontos de recorrência das diagonais paralelas à diagonal principal (linha de identidade). Essa medida fornece informações a respeito da não-estacionariedade do processo; • Laminaridade (LAM) - razão entre os pontos de recorrência que formam as estruturas verticais e todo o conjunto de todos os pontos de recorrência presentes no gráfico; • Comprimento médio das estruturas verticais (TT) – também conhecida como tempo de permanência em um estado (Trapping Time). Essa medida contém informação acerca da quantidade e do comprimento das estruturas verticais no gráfico de recorrência. Ela mede o tempo médio que o sistema permanece em um estado específico; Através da AQR e suas MQRs é possível avaliar computacionalmente o comportamento recorrente de sistemas dinâmicos não estacionários independentemente da dimensionalidade dos mesmos. Esta propriedade da AQR elimina a necessidade de considerar a estacionariedade da série temporal, tal como necessitam os métodos estatísticos tradicionais, permitindo seu uso inclusive na análise de séries curtas e não-estacionárias. Em síntese, uma das principais vantagens oferecidas pela AQR e suas MQRs, em comparação a outras técnicas de análise dinâmica não-linear, é habilitar a análise de pontos de recorrência no espaço de fase bidimensional de um sistema não-estacionário, o que pode evitar vieses (bias) na análise que é sujeita a sobrecargas eventuais nos parâmetros amostrais do sistema..

(38) 35. 3.7. CONSIDERAÇÕES FINAIS Neste capítulo foram inicialmente apresentados conceitos sobre a AQR para permi-. tir o embasamento do tema utilizado neste trabalho. Foram também discutidos os tipos de ST existentes para facilitar a ambientação e o entendimento de que AQR pode ser utilizada em diferentes situações de mudança em sua estacionariedade durante um ataque DDoS. A aplicação da AQR requer a definição de parâmetros que devem ser definidos de acordo com cada sistema em questão, os quais foram relatados neste capítulo, permitindo um entendimento amplo do grau de complexidade para a formação dos GRs, os quais podem ser empregados computacionalmente através das MQRs (RR, DET, ENT e outras). Neste trabalho, a AQR é uma técnica fundamental para a eficácia do TRAFFICbyAQR, sendo que os seus parâmetros, as MQRs relevantes e seus Thresholds foram definidos ou calibrados na fase de treinamento na Seção 5.4 e, posteriormente, combinada com a Clusterização Adaptativa para consolidação do novo método proposto nos testes realizados..

(39) 4. DETECÇÃO DE ATAQUES DDOS UTILIZANDO AQR E CA. Neste capítulo é apresentado o TRAFFICbyAQR, um novo método para detecção de ataques DDoS, o qual é baseado na AQR e na Clusterização Adaptativa. Na Seção 4.1 são apresentados os detalhes do método TRAFFICbyAQR para detecção de DDoS; a Seção 4.2 aborda os principais parâmetros do método utilizados no algoritmo em sua primeira versão e na Seção 4.3 são apresentadas as considerações finais deste capítulo.. 4.1 TRAFFICBYAQR - MÉTODO DE DETECÇÃO DE ANOMALIAS DO TRÁFEGO EM REDES Nesta seção é apresentado o método de detecção de anomalias TRAFFICbyAQR. A Figura 4.1 apresenta a arquitetura modular da solução de detecção, onde o módulo de detecção de ataques DDoS que abriga o método proposto é destacado. As subseções 4.1.1, 4.1.2 e 4.1.3 detalham cada módulo. e a subseção 4.1.3.1 apresenta o algoritmo principal que implementa o método TRAFFICbyAQR. Figura 4.1 – Arquitetura da solução de detecção com o método TRAFFICbyAQR. Fonte: Elaborada pelo autor. De maneira geral o TRAFFICbyAQR é um método que combina a Análise da Quan-.

Referências

Documentos relacionados

Faculdade de Ciência e Tecnologia Departamento de Matemática Departamento de Engenharia Civil e Ambiental Departamento de Engenharia Electromecânica Departamento de Computadores

A aplicação de parafina em raízes de mandioca tem sido eficiente para prolongar o seu período de conservação.. Este efeito é atribuído à diminuição da permeabilidade ao

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

A versão reduzida do Questionário de Conhecimentos da Diabetes (Sousa, McIntyre, Martins & Silva. 2015), foi desenvolvido com o objectivo de avaliar o

Realizar a manipulação, o armazenamento e o processamento dessa massa enorme de dados utilizando os bancos de dados relacionais se mostrou ineficiente, pois o

De acordo com o Consed (2011), o cursista deve ter em mente os pressupostos básicos que sustentam a formulação do Progestão, tanto do ponto de vista do gerenciamento

é bastante restrita, visto que tanto suas duas entradas, quanto as galerias e condutos que interligam os pequenos salões são bastante estreitos, e a umidade na maioria dos salões

Este trabalho tem como objetivo contribuir para o estudo de espécies de Myrtaceae, com dados de anatomia e desenvolvimento floral, para fins taxonômicos, filogenéticos e