CONCLUSÕES E TRABALHOS FUTUROS - Análise de dados de bases de honeypots: estatística descritiva

O honeypot é uma ferramenta essencial para que o administrador identifique possíveis ataques a seus ativos. Ele gera grandes quantidades de dados que podem tornar as análises lentas e com- plexas. Sem as técnicas de mineração de dados a quantidade de dados coletados pode ocultar um novo ataque ou uma variação de um ataque conhecido, fornecendo ao administrador da rede a falsa sensação de que seus ativos estão seguros.

Esse dissertação apresentou uma análise estatística de quatro conjuntos de dados coleta- dos por honeypots (Paris, Berlin, Jacareí e Campinas) em diferentes períodos de tempo e em diferentes locais. Essa análise mostrou que há semelhanças marcantes entre os conjuntos de dados, onde se identificou que mais de 90% dos ataques são direcionados a protocolos de co- municação do sistema operacional Microsoft Windows, mais precisamente ao serviço de cha- mada de procedimento remoto (RPC), onde foi explorada a vulnerabilidade descrita no boletim de segurança MS08-67.

Apesar das semelhanças encontradas nos conjuntos de dados, verificou-se que os conjuntos Berlin e Campinas têm características únicas, apresentando uma tendência interessante. Os dados armazenados no conjunto Berlin são, em sua maioria, ataques que não utilizaram cha- madas RPC. Isso levanta a hipótese de que o honeypot que registrou os ataques não foi alvo de ataques que exploram vulnerabilidades nos serviços RPC, ou existia algum tipo de bloqueio entre o honeypot e o atacante que não permitia ao atacante continuar a explorar as vulnerabili- dades existentes.

O conjunto de dados Campinas apresenta uma migração dos ataques que antes eram direcionados aos serviço RPC do Microsoft Windows para outros serviços como o XMPP e o SIP. Essa migração mostra que o administrador deve se preocupar não somente com seus ativos que utilizam o sistema operacional Microsoft Windows, como os outros ativos de comunicação da empresa. Outra característica identificada no conjunto Campinas é que outras interfaces DCERPC foram exploradas e junto com essas interfaces novos serviços e chamadas foram identificadas. Essa característica reforça o fato dos atacantes buscarem novas formas de comprome- ter os ativos explorando novas vulnerabilidades e/ou serviços.

Após a análise descritiva essa pesquisa utilizou o algoritmo de árvore de decisão C4.5, permitindo ao analista identificar as características mais comuns dos ataques, juntamente com comportamentos não esperados. Uma vez identificadas as características mais comuns nos ataques torna-se viável a tarefa de criação de uma regra para um sistema de detecção de intrusão, apenas percorrendo os nós e os ramos da árvore gerada.

Ao se submeter os dados coletados ao algoritmo C4.5 encontrou-se uma dificuldade no que tange a capacidade de memória necessária para a análise de conjuntos de dados maiores. Devido a esse problema recomenda-se que esse tipo de análise seja efetuado diariamente em honeypots com grandes volumes de ataques. Esse problema foi contornado criando subconjun- tos amostrais baseados em períodos de tempo.

Os resultados obtidos com as árvores de decisão apresentaram características interessan- tes que foram observadas em todos os conjuntos de dados:

1. Ao analisar as matrizes de confusão verificou-se que o algoritmo tem dificuldades em separar determinadas classes e algumas classes apresentam os mesmos valores com rótulos diferentes, o que impede que o algoritmo efetue uma separação correta das classes. Sendo assim, torna-se necessário acrescentar novos atributos para que seja possível a separação pelo algoritmo.

2. Amostras diferentes geraram árvores iguais e amostras de diferentes conjuntos geraram ramificações semelhantes. Isso mostra que, apesar dos dados serem coletados em diferentes locais e períodos de tempo, os ataques são semelhantes e buscam explorar as mesmas falhas.

3. Identificaram-se comportamentos anômalos, onde se registrou o acesso a um serviço RPC em portas não padrão. Esse comportamento mostra que o atacante possuía um conhecimento prévio da rede, ou buscava encontrar os serviços através de força bruta, testando todas as portas.

4. Apesar do honeypot não ter informações disponíveis sobre ataques que acessavam serviços específicos das sintaxes de transferência RPC, a árvore de decisão apresentou esses serviços deixando explícito para o analista que uma investigação mais pro- funda deve ser efetuada nessas chamadas.

Ainda analisando os resultados das árvores de decisão é possivel afirmar que a média da acurácia obtida através da validação em k-pastas foi maior que 60%. Isso se deve aos ataques com mesma informação rotulados de forma diferente. Para aumentar a acurácia torna-se neces- sário um estudo acrescentando novos atributos.

Tendo em vista as dificuldades encontradas alguns pontos poderiam ser desenvolvidos como trabalhos futuros para se obter resultados melhores de forma mais rápida e dinâmica:

1- Um estudo detalhado dos bitstreams em conjunto com a tabela emuprofiles, o pri- meiro por conter um registro raw do fluxo de rede durante o ataque e o segundo por conter o payload do ataque no formato de documentos de texto.

2- O desenvolvimento de um sistema automatizado para geração das árvores de deci- são e extração das regras do IDS.

3- A comparação do algoritmo C4.5 com outros algoritmos de indução de árvores de decisão, em busca de solucionar o problema do consumo de memória em conjuntos de dados com grandes quantidades de objetos.

REFERÊNCIAS BIBLIOGRÁFICAS

The Honeynet Project. (2004). Know Your Enemy: Learning About Security Threats - The Honeynet Project (Second ed.). Pearson Education, Inc.

Buffington, J. (2010). Microsoft SQL Server. Em Data Protection for Virtual Data Centers (pp. 267-315). Wiley Publishing, Inc. Fonte: http://dx.doi.org/10.1002/9781118255766.ch8 Cisco Systems. (02 de 2013). Cisco Visual Networking Index: Global Mobile Data Traffic

Forecast Update. Acesso em 2014 de 12 de 15, disponível em http://www.cisco.com/en/US/solutions/collateral/ns341/ns525/ns537/ns705/ns827/whit e_paper_c11-520862.html

Cohen, F. (March de 1998). The Deception ToolKit. Fonte: http://catless.ncl.ac.uk/Risks/19.62.html

Cukier, M., Berthier, R., Panjwani, S., & Tan, S. (2006). A Statistical Analysis of Attack Data to Separate Attacks. Dependable Systems and Networks, 2006. DSN 2006. International Conference on, (pp. 383-392).

de Castro, L. N. (2006). FUNDAMENTALS OF NATURAL COMPUTING: Basic Concepts, algoriths, and Applications. Chapman & Hall/CRC.

Deering, S. E. (1998). Internet protocol, version 6 (IPv6) specification.

Denning, D. (Feb. de 1987). An Intrusion-Detection Model. Software Engineering, IEEE Transactions on, SE-13(2), 222-232.

Dierks, T. (2008). The transport layer security (TLS) protocol version 1.2.

Dionaea Catch Bugs. (04 de 2013). Dionaea Catch Bugs. Acesso em 2014 de 12 de 15, disponível em http://dionaea.carnivore.it/

Dionaea Catch Bugs. (25 de 03 de 2015). Post it yourself. Fonte: Carnivore News: http://carnivore.it/2009/12/08/post_it_yourself.

Ghourabi, A., Abbes, T., & Bouhoula, A. (2010). Data analyzer based on data mining for Honeypot Router. Computer Systems and Applications (AICCSA), 2010 IEEE/ACS International Conference on, (pp. 1-6).

Grégio, A., Santos, R., & Montes, A. (2007). Evaluation of data mining techniques for suspicious network activity classification using honeypots data. Defense and Security Symposium, (pp. 657006-657006).

Han, J., & Kamber, M. (2011). Data Mining: Concepts and Techiniques 3 edition. (A. Press, Ed.) Morgan Kaufmann.

Jain, A. K. (31 de 8 de 2010). Data Clustering: 50 years beyond K-Means. Pattern Recognition Letters, pp. 651-666.

Janert, P. K. (November de 2010). Data Analysis with Open Source Tools (First ed.). (M. Loukides, Ed.) O'Reilly Media, Inc.

Kaspersky Lab. (02 de 2013). Informe de Kaspersky Lab: Evaluacion del nivel de amenaza de las vulnerabilidades en programas. Acesso em 15 de 12 de 2014, disponível em http://www.viruslist.com/sp/analysis?pubid=207271202

Markey, J., & Atlasis, D. A. (05 de 06 de 2011). SANS Intitute Infosec Reading Room. Acesso em 20 de 11 de 2014, disponível em SANS Institute Reading Room: http://www.sans.org/reading-room/whitepapers/detection/decision-tree-analysis-

intrusion-detection-how-to-guide-33678

Matheus, P. H., & de Castro, L. N. (2014). Extracting IDS Rules from Honeypot Data: A Decision Tree Approach. The International Conference in Information Security and Digital Forensics (ISDF2014), (pp. 97-109). Thessaloniki.

Microsoft Corporation. (28 de 03 de 2003). How RPC Works. Acesso em 15 de 12 de 2014, disponível em Microsoft TechNet: http://technet.microsoft.com/en- us/library/cc738291(v=WS.10).aspx

Microsoft Corporation. (january de 2013). [MS-RPCE]: Remote Procedure Call Protocol Extensions. (Microsoft Corporation) Acesso em 20 de Novembro de 2014, disponível em Microsoft Developer Network: http://msdn.microsoft.com/en- us/library/cc243560.aspx

Microsoft Corporation. (2014). 3.1.4 Message Processing Events And Sequencing Rules. Acesso em 15 de 12 de 2014, disponível em Microsoft Developer Network: http://msdn.microsoft.com/en-us/library/cc247234.aspx

Mierswa, I., Wurst, M., Klinkenberg, R., Scholz, M., & Euler, T. (August de 2006). YALE: Rapid Prototyping for Complex Data Mining Tasks. Em L. Ungar, M. Craven, D. Gunopulos, & T. Eliassi-Rad (Ed.), KDD '06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 935-940). New

York, NY, USA: ACM. Fonte: http://rapid-

i.com/component/option,com_docman/task,doc_download/gid,25/Itemid,62/

Nisbet, R., Elder, J., & Miner, G. (2009). Handbook of statistical analysis and data mining applications. Academic Press is an imprint of Elsevier.

Ponemon Institute. (05 de 2012). The Impact of Cybercrime on Business: Studies of IT practitioners in the United States, United Kingdom, Germany,. Acesso em 05 de 12 de

2014, disponível em http://www.ponemon.org/local/upload/file/Impact_of_Cybercrime_on_Business_FINA L.pdf

Provos, N. (2004). A Virtual Honeypot Framework. USENIX Security Symposium. Fonte: http://www.citi.umich.edu/techreports/reports/citi-tr-03-1.pdf

Provos, N., & Holz, T. (Jun. de 2007). Virtual Honeypots: From Botnet Tracking to Intrusion Detection (Vol. 1). (Addison-Wesley, Ed.) Pearson Education, Inc.

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, Inc.

Roesch, M. (1999). Snort: Lightweight Intrusion Detection for Networks. LISA, 99, pp. 229- 238.

Rosenberg, J., Schulzrinne, H., Camarillo, G., Johnston, A., Peterson, J., Sparks, R., . . . others. (2002). SIP: session initiation protocol. Tech. rep., RFC 3261, Internet Engineering Task Force.

Seifert, C., Welch, I., & Komisarczuk, P. (2006). Taxonomy of Honeypots. PO Box 600 Wellington New Zealand.

Song, J., Takakura, H., Okabe, Y., & Kwon, Y. (2011). Correlation Analysis Between Honeypot Data and IDS Alerts Using One-class SVM. Intrusion Detection Systems, In Tech, 173- 193.

SQLite. (may de 2013). SQLite. SQLite. Fonte: http://www.sqlite.org/about.html

Tang, X. (2010). The Generation of Attack Signatures Based on Virtual Honeypots. Parallel and Distributed Computing, Applications and Technologies (PDCAT), 2010 International Conference on, (pp. 435-439).

Thakar, U., Varma, S., & Ramani, A. (2005). HoneyAnalyzer--analysis and extraction of intrusion detection patterns & signatures using honeypot. Proceedings of the Second International Conference on Innovations in Information Technology.

Triola, M. F. (2005). Introdução à Estatística 9º edição. São Paulo, Brasil: LTC.

Van Rossum, G., & others. (2007). Python Programming Language. USENIX Annual Technical Conference.

No documento Análise de dados de bases de honeypots: estatística descritiva e regras de IDS (páginas 100-105)