TRABALHOS RELACIONADOS - Análise de dados de bases de honeypots: estatística descritiva e regra

Apesar dos honeypots terem sido criados inicialmente para coleta de dados e artefatos malicio- sos, a simulação de sistemas e de suas falhas tem permitido que pouca informação seja extraída de seus extensos logs e dos dados armazenados. Apenas nos últimos cinco anos houve um cres- cente interesse em utilizar os dados coletados a fim de extrair informações relevantes para de- tecção de intrusão. Muitas vezes são criadas ferramentas, como o SurfIDS, que agregam dados de honeypots, Antivírus, SandBoxes e de outras fontes na busca de criar um sistema de aviso antecipado que permita ao administrador correlacionar ataques conhecidos e desconhecidos pro- vendo alertas sobre as ameaças existentes.

Esse tipo de ferramenta é baseado na análise dos dados coletados. A compreensão das ame- aças depende da perícia e experiência de cada analista. Por esse motivo, foram iniciadas pesquisas que incluem a aplicação de técnicas de mineração de dados para análise dos dados coletados, fornecendo ao analista um maior subsídio para a tomada de decisão sobre as ameaças que afetam sua rede. Essa seção faz uma breve revisão das principais técnicas aplicadas aos dados coletados por meio do fluxo TCP/IP ou do próprio honeypot.

(Thakar, Varma, & Ramani, 2005) propuseram a criação de uma ferramenta para extrair assinaturas para um sistema de detecção de intrusão de forma semiautomática baseado nas in- formações de um honeypot de baixa interatividade (Honeyd), juntamente com informações ob- tidas do fluxo de rede. Foi desenvolvida uma aplicação para extração das características dos

logs do honeypot e do fluxo de rede. Essas características foram armazenadas em uma base de dados relacional para a geração de estatísticas usando uma interface web na qual estava dispo- nível para o analista o algoritmo Longest Common Substring (LCS). Na interface web o analista podia selecionar as características e os períodos para que o LCS extraia as assinaturas do sistema de detecção de intrusão. A combinação da seleção de características do analista junto com o algoritmo LCS, gerou assinaturas que resultaram em um menor número de falsos positivos e falsos negativos, melhorando a taxa de detecção do sistema de detecção de intrusão.

(Cukier, Berthier, Panjwani, & Tan, 2006) buscaram encontrar características que pudessem ser utilizadas de forma eficiente para separar os ataques coletados por dois honeypots de alta interatividade, onde todo o tráfego de rede era armazenado. Para isso foram definidos quatro tipos de ataques a serem analisados, caracterizados da seguinte maneira:

• Scan de portas: é definido por conexões com uma quantidade inferior a cinco pacotes trocados entre atacante e honeypot;

• Scan de vulnerabilidades: é definido quando existem entre cinco e vinte pacotes troca- dos entre o atacante e o honeypot;

• Ataques: são definidos quando existem acima de vinte conexões trocadas entre o atacante e o honeypot;

• Scans de ICMP: são identificados pelo protocolo utilizado na comunicação entre o ata- cante e o honeypot.

Após uma análise dos dados coletados utilizando a ferramenta Ethereal foi verificado que 78.1% dos dados coletados estavam direcionados à porta 445, fazendo com que os autores se concentrassem nesses ataques. Para isso as conexões da porta 445 foram separadas e analisadas, extraindo-se novas características das mensagens trocadas entre o atacante e o honeypot. Essas características são: o tempo de duração do ataque; a quantidade de pacotes trocados no ataque; a quantidade de bytes por ataque; e o tamanho em bytes da mensagem trocada durante o ataque. Os autores utilizaram o algoritmo k-médias (Jain, 2010) para separar os ataques em três grupos e os resultados obtidos mostraram que um critério simples como o número de bytes é eficiente para separar os ataques iniciais e que a média da distribuição em função do tempo para pacotes, bytes e tamanho das mensagens é ineficiente para separar os ataques. Em contrapartida, a média da distribuição em função dos pacotes para bytes e tamanho das mensagens é um critério eficiente para separar os ataques.

(Grégio, Santos, & Montes, 2007) efetuaram um estudo sobre a aplicação de diferentes téc- nicas de mineração de dados em um fluxo de rede, buscando encontrar a melhor técnica para a

detecção de ataques. Os dados do tráfego de rede foram coletados por um honeypot instalado na rede dos servidores do Instituto Nacional de Pesquisas Espaciais (INPE). Todo o tráfego legí- timo e malicioso foi capturado, sendo necessária a separação dos dois. Para isso foram aplicados três algoritmos de mineração de dados: o k-vizinhos mais próximos (do inglês k-nearest neigh- bors, KNN); uma rede neural (Haykin, 2004)); e uma árvore de decisão (Quinlan, 1993). Para essa tarefa foram selecionados sete atributos do fluxo TCP/IP: tempo de duração da sessão; porta do servidor; número de pacotes enviados pelo servidor; quantidade de bytes enviada pelo servidor; número de pacotes enviados pelo cliente; quantidade de bytes enviados pelo cliente; e um atributo de classe identificando o fluxo como normal ou suspeito. O tráfego TCP/IP foi dividido em dois conjuntos de dados, o direcionado aos servidores do instituto foram classifica- dos como normal e os direcionados ao honeypot foram classificados como suspeitos. As árvores de decisão apresentaram o melhor desempenho para separar o fluxo suspeito do fluxo normal.

(Tang, 2010) utilizou um honeypot de baixa interatividade (Honeyd) para coletar informa- ções de rede utilizando a biblioteca libpcap com o objetivo de criar um sistema automático para a geração de regras para um sistema de detecção de intrusão. O conjunto de dados foi composto por dados de rede da camada dois e três do modelo OSI, onde foram analisados os cabeçalhos dos protocolos IP, TCP e UDP. As características utilizadas foram as definidas nos cabeçalhos dos pacotes, como porta de origem, porta de destino, endereço de origem, endereço de destino, número do pacote, fragmentação, etc. Para gerar a regra foi utilizada a técnica do Longest Com- mon Subsequence (LCS) para encontrar a string comum mais longa sendo definida como o nú- cleo da regra. Uma vez identificado um ataque no honeypot, uma regra é gerada e essa regra é comparada com o arquivo de regras do sistema de detecção de intrusão. Se não fosse encontrada uma regra compatível a nova regra era adicionada a base, mas se uma regra compatível fosse encontrada, a regra da base era atualizada. Os experimentos efetuados mostraram que a utiliza- ção do sistema reduziu os falsos positivos da detecção de intrusão e que ele pode ser utilizado em um ambiente de produção.

(Ghourabi, Abbes, & Bouhoula, 2010) utilizaram uma solução de honeypot como roteador de rede, capturando informações sobre o tráfego que passa pelo honeypot, incluindo o TCP/IP e outros protocolos como OSPF, RIP e BGP. Os dados capturados foram armazenados em arquivos de texto gerando grandes quantidades de dados, se tornando difícil a análise de todos os dados por um analista. Para auxiliá-lo nessa tarefa foi proposta a utilização de técnicas de mi- neração de dados capazes de separar o tráfego normal do tráfego malicioso, reduzindo signifi- cativamente a quantidade de dados a serem analisados. Para essa separação foram utilizados os

obtidas por meio dos cabeçalhos dos pacotes trafegados e são: endereço IP de origem; endereço IP de destino; protocolo; Time To Live (TTL); tamanho do pacote; e o tipo de pacote. Os resul- tados dos experimentos mostraram que o algoritmo DBSCAN teve o melhor resultado retor- nando um menor número de falsos positivos após a análise e classificação do analista.

Devido aos falsos positivos identificados pelas ferramentas de detecção de intrusão, (Song, Takakura, Okabe, & Kwon, 2011) utilizaram duas fontes de dados em seus experimentos: uma proveniente do sistema de detecção de intrusão; e outra de honeypots. Para correlacionar essas duas fontes de dados e identificar ataques ele utiliza uma Support Vector Machine (SVM) de uma classe focando na análise da detecção não supervisionada de anomalias. Do conjunto de dados proveniente dos honeypots são extraídas quatorze características do fluxo TCP/IP e do conjunto de dados proveniente do sistema de detecção de intrusão são extraídas sete caracterís- ticas dos alertas gerados. Ao aplicar a SVM a cada conjunto de dados foram gerados dois mo- delos de detecção de intrusão que foram analisados e correlacionados. A correlação mostrou que o modelo gerado a partir da extração de características apenas dos alertas do sistema de detecção de intrusão não foi suficiente para identificar os ataques reais, tornando-se necessário a inclusão das características extraídas dos pacotes do fluxo TCP/IP que geraram o alerta.

(Matheus & de Castro, 2014) utilizaram os dados coletados por Honeypots para a criação de regras para sistemas de detecção de intrusão. As regras foram extraídas a partir de árvores de decisão construídas com base nos dados de um honeypot real instalado em uma conexão com a internet sem nenhum tipo de filtro. Os resultado dos experimentos realizados mostraram que é possível a extração de regras para um sistema de detecção de intrusão utilizando técnicas de mineração de dados, em particular o algoritmo de árvore de decisão C4.5 (Quinlan, 1993). Os estudos focaram em um conjunto de dados proveniente de um honeypot de média interatividade.

O que a maioria desses trabalhos têm em comum é a utilização dos dados de rede nas análi- ses. A possível hipótese para essa abordagem é a facilidade de se obter as informações do fluxo TCP/IP uma vez que os pacotes TCP/IP fornecem uma fonte rica e padronizada de informações para a análise independentemente do tipo de honeypot instalado. Essa abordagem, apesar de efetiva, carrega algumas limitações e dificuldades que podem ser evitadas ao se utilizar as in- formações já classificadas pelo honeypot. Alguns exemplos são: a união e organização de todos os pacotes trocados em um único ataque; a separação do que realmente é um ataque do que é um fluxo legítimo de rede; a extração dos comandos enviados pelo atacante durante o ataque (payload ou shellcode); e a extração de arquivos enviados e recebidos pelo honeypot.

No documento Análise de dados de bases de honeypots: estatística descritiva e regras de IDS (páginas 31-35)