Gerenciamento autonômico de segurança em cloud: provendo respostas à intrusão e considerando big data

(1)

COMPUTAC¸ ˜AO

Kleber Magno Maciel Vieira

GERENCIAMENTO AUTON ÔMICO DE SEGURANÇ A EM CLOUD: PROVENDO RESPOSTAS À INTRUS ÃO E

CONSIDERANDO BIG DATA

Florian´opolis(SC) 2017

(2)

(3)

Tese submetida ao Programa de P´ os-Gradua¸cão em Ciência da Computa¸cão para a obten¸cão do Grau de Doutor. Orientador: Prof. Carlos Becker Westphall, Dr.

Florian´opolis(SC) 2017

(4)

Vieira, Kleber M. M.

Gerenciamento Autonômico de Segurança em Cloud: Provendo Respostas à Intrusão e Considerando Big Data / Kleber M. M. Vieira ; orientador, Carlos B. Westphall, 2017.

192 p.

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós Graduação em Ciência da Computação, Florianópolis, 2017.

Inclui referências.

1. Ciência da Computação. 2. Ciências da Computação. 3. Segurança Computacional. 4. Nuvem de Computadores. 5. Sistemas Autonômicos . I.

Westphall, Carlos B. . II. Universidade Federal de Santa Catarina. Programa de Pós-Graduação em Ciência da Computação. III. Título.

(5)

Esta Tese foi julgada aprovada para a obten¸cão do T´ıtulo de “Doutor”, e aprovada em sua forma final pelo Programa de Pós-Gradua¸cão em Ciência da Computa¸cão.

Florian´opolis(SC), 20 de Setembro 2017.

Prof Jos´e Lu´ıs Almada G¨untzel, Dr. Coordenador

(6)

Prof. Bruno Ricardo Schulze, Dr.

Fernando Luiz Koch, Dr.

Prof. Roberto Willrich, Dr.

(7)

turo, que se apoia no passado. Por isso, dedico esta tese a um ser muito especial, que foi concebido enquanto eu realizava minha trajet´oria pelo doutorado: Sofia Mota Vieira.

Minha filha é algo presente e que sintetiza meu ideal de futuro. Ela, juntamente com minha esposa, Laci Mota, foram fontes de inspira¸cão constante. Que esta tese as inspire também.

(8)

(9)

A tese aqui apresentada é resultado de um intenso trabalho com a participa¸cão essencial de meu orientador, Prof. Dr. Carlos B. Westphall. Devo a ele o aprofundamento de muitos conceitos, a rearticula¸cão de encaminhamentos e o est´ımulo para seguir em frente, mesmo quando vários problemas teóricos e práticos se avolumavam.

Quero destacar, além disso, as valiosas interven¸cões do Prof. Dr. João Bosco Mangueira Sobral, cujos momentos compartilhados me es-timularam com seus esclarecimentos. Sem dúvida alguma, foram di-versos os professores com os quais tive contato durante meu percurso acadêmico e que, de uma forma ou de outra, também colaboraram para aprimorar esta tese, recomendando leituras ou realizando interven¸cões diretas no texto: nomear todos eles seria tarefa imposs´ıvel. Fica aqui meu agradecimento a cada um em particular.

Agrade¸co, tamb´em, `a toda equipe do PPGCC por lutarem pela qualidade do programa.

Finalmente, não posso deixar de mencionar minha fam´ılia, sem a qual não teria enfrentado as noites de estudo, os fins de semana dedicados à pesquisa e aos testes: com paciência, abdicaram de horas preciosas me fornecendo a retaguarda fundamental para que esta tese fosse conclu´ıda. Muito obrigado a todos.

(10)

(11)

(12)

(13)

Este trabalho versa sobre a constru¸cão de um sistema autonômico de resposta a intrusões em ambientes de computa¸cão em nuvem, utilizando Big Data. A partir da populariza¸cão dos ambientes de Cloud Compu-ting, na sociedade atual ocorreu a expansão e a difusão do volume de in-forma¸cões, que passaram a ter grande valor, e devido à sua importância e vulnerabilidade, elas costumam ser alvos de ataques. Por conta da escala dinâmica dos ambientes de Cloud Computing e da crescente com-plexidade das intrusões, torna-se premente desenvolver estratégias com respostas mais efetivas visando evitar tais ataques. Esta tese examina sistemas de resposta à intrusão para combater ataques que comprome-tam a integridade, confidencialidade ou disponibilidade de recursos em Cloud Computing presentes no estado da arte. A análise comparativa realizada identificou uma lacuna na literatura a respeito do assunto e, assim, nesta tese foi desenvolvido um sistema para resposta a ata-ques de forma autonômica, oferecendo autocura ao ambiente de Cloud Computing com Big Data. A pesquisa resultou no desenvolvimento da arquitetura SARI (Sistema Autonômico de Resposta à Intrusão), que emprega a fun¸cão de utilidade esperada para disparar a tomada de de-cisão de respostas aos ataques. A fun¸cão de utilidade é proveniente da área de Ciências Econômicas e permite tomar uma decisão racio-nal, baseada em critérios pré-definidos. O protótipo desenvolvido foi submetido à experimenta¸cão para avalia¸cão de desempenho por meio de testes em cenários simulados. Os resultados indicaram que a pro-posta da solu¸cão autonômica apresenta desempenho eficiente e eficaz, com uma rela¸cão custo-benef´ıcio otimizada, e ainda viabiliza a imple-menta¸cão em larga escala desta solu¸cão original.

Palavras-chave: Seguran¸ca de rede de computadores. IDS. Ataque cibernético. Computa¸cão em nuvem. Big data. Sistemas autonômicos. Fun¸cão de utilidade.

(14)

(15)

This work aims to devise the theoretical and practical basis for an auto-nomous system able to respond to cybersecurity threats in Distributed computing environments, namely intrusion detection in Cloud Compu-ting systems. The proposed architecture provides the models to collect and analyse large datasets generated during the environment operation, identify behavioural deviances and potential threats, issue recommen-dations, and act to address eminent issues. The growing utilisation of Cloud Computing in business and society render these environments a key target to cybersecurity threats. Moreover, the complexity and multi-elements nature of these solutions increase their vulnerability. The dynamic scale of Cloud Computing environments requires inno-vative strategies of cybersecurity addressing real-world demands and issues. This thesis examines intrusion response systems to combat attacks that compromise the integrity, confidentiality or availability of Cloud Computing environments. The work starts by studying the state-of-the-art and promoting a detail analysis of the problem scenario and existing strategies. From this analysis, the work derives the gaps in the state-of-the-art and opportunity to contribute with new models of intrusion detection and reaction in complex Cloud Computing environ-ments. The work introduces a prototype implementation of the SARI (Autonomous Intrusion Response System) architecture, which applies innovative models of data analysis and context-aware recommendation systems to autonomously responding to attacks and self-healing. The solution was evaluated through simulations. The results indicated that the proposed approach presents improves the performance and effecti-veness of cybersecurity solutions, allowing for scalability and applica-bility to large-scale Cloud Computing environments.

Keywords: Security on Network Computer. IDS. Cyber Attack. Cloud Computing. Big data. Autonomic Computing. Utility Func-tion.

(16)

(17)

Figura 1 Estat´ısticas dos incidentes reportados ao CERT.br . . . 29

Figura 2 Fluxo de detec¸c˜ao . . . 30

Figura 3 Modelo de servi¸cos da Cloud . . . 31

Figura 4 Modelo de Cloud do NIST . . . 38

Figura 5 Os 5Vs do Big Data . . . 41

Figura 6 Os 7Ds do Big Data . . . 43

Figura 7 Classifica¸c˜ao dos IDS . . . 52

Figura 8 Sistema autonˆomico . . . 59

Figura 9 The architecture of LACS system . . . 74

Figura 10 The IDS category . . . 75

Figura 11 The system architecture . . . 76

Figura 12 Types of Cloud based IDS (green) and detection techni-ques used by IDS (red orange). . . 77

Figura 13 The IDS model based on distributed multi-agent . . . 78

Figura 14 An articial immune system IDS . . . 82

Figura 15 Relationship among local government networks . . . 83

Figura 16 The multilevel IDS architecture . . . 84

Figura 17 Architecture of VM integrated IDS management . . . 86

Figura 18 Intrusion detection as a service in Cloud . . . 88

Figura 19 Cloud-based Intrusion Detection Service Framework . . . 89

Figura 20 Cloud deployment models . . . 90

Figura 21 Distributed Intrusion Detection System - DIDS . . . 91

Figura 22 Block diagram of cooperative agent based approach . . . . 92

Figura 23 IDS architecture for Grid/Cloud environment . . . 94

Figura 24 The architecture of Xen based firewall and its extension 96 Figura 25 Architecture of dynamic intelligence cloud firewall . . . 96

Figura 26 Positioning IDPS in network . . . 98

Figura 27 Placement of IDS on VMs and hypervisor/host system . 98 Figura 28 VMI-based IDS architecture . . . 100

Figura 29 Conceptual diagram of proposed system . . . 101

Figura 30 CIDS layers and interactions. . . 102

(18)

Figura 33 Kumar-Mathur framework of intrusion detection system111 Figura 34 Cooperative IDSs system architecture for Cloud

Compu-ting . . . 111

Figura 35 Os processos de detec¸c˜ao ACIDF . . . 114

Figura 36 A proposed platform for AT-IDS on Hadoop . . . 124

Figura 37 Example of LDA modeling for intrusion detection . . . 125

Figura 38 The large scale security monitoring architecture. . . 126

Figura 39 B-DIDS - the control center analytics . . . 127

Figura 40 Big Data analysis system architecture . . . 128

Figura 41 SARI: Sistema Autonˆomico de Resposta a Ataques . . . . 136

Figura 42 M´odulo de an´alise com MapReduce . . . 138

Figura 43 Gr´afico com o tamanho dos arquivos e a quantidade de ataques . . . 151

Figura 44 Ambiente de nuvem computacional LRG para valida¸cão152 Figura 45 Desempenho do módulo de análise na Cloud LRG. . . 153

Figura 46 Gráfico do módulo de planejamento com a utilidade em rela¸cão ao tempo . . . 154

Figura 47 Gráfico do módulo de planejamento com a utilidade em rela¸cão ao tempo normalizado . . . 154

Figura 48 Ambiente de nuvem computacional da Amazon para va-lida¸c˜ao . . . 155

Figura 49 Gr´afico com tempo de captura, processamento, trans-ferˆencia e o tempo total em segundos . . . 156

Figura 50 Gr´afico com a probabilidade de sucesso comparado com o risco de n˜ao sucesso . . . 156

Figura 51 Gráfico com tempo da fun¸cão de utilidade do SARI com a rela¸cão utilidade pelo custo. . . 157

Figura 52 Gr´afico apresentando a quantidade de pacotes e o tama-nho dos arquivos . . . 183

(19)

Tabela 1 Termos utilizados na pesquisa . . . 72

Tabela 2 Trabalhos relacionados em IDS em Cloud . . . 131

Tabela 3 Trabalhos relacionados em IDS autonˆomico de Cloud . . 132

Tabela 4 Trabalhos relacionados em IDS de cloud com BigData . 133 Tabela 5 Nota¸c˜ao usada no c´alculo da utilidade do SARI . . . 141

Tabela 6 Exemplo de c´alculo de utilidade . . . 142

Tabela 7 Exemplo de base de conhecimento K para o c´alculo da utilidade esperada . . . 143

Tabela 8 Exemplo de base de conhecimento K normalizada . . . 144

Tabela 9 Base de conhecimento calculada . . . 144

Tabela 10 Utilidade calculada . . . 144

Tabela 11 Dados utilizados na fase de an´alise . . . 150

Tabela 12 Resultado do m´odulo de an´alise . . . 151

Tabela 13 Parte da tabela de parˆametro para o c´alculo de utilidade esperada . . . 151

Tabela 14 Infraestrutura da Cloud do LRG . . . 187

Tabela 15 Tabela de parˆametros para o c´alculo de utilidade espe-rada LRG . . . 191

Tabela 16 Tabela de parˆametros para o c´alculo de utilidade espe-rada Amazon . . . 192

(20)

(21)

CERT.br Centro de Estudos, Resposta e Tratamento de Incidentes de Seguran¸ca no Brasil

IDS Intrusion Detection System DDoS Distributed Denial of Service

NIST National Institute of Standards and Technology NIST National Institute of Standards and Technology EUA Estados Unidos da Am´erica

SaaS Software as a Service PaaS Platform as a Service IaaS Infrastructure as a Service ZiB Zettabytes

MP3 MPEG 1 Layer-3

MP4 MPEG-4

GPS Global Positioning System

RDBMS Relational Database Management System SQL Structured Query Language

5Vs Volume Veracidade Valor Validade Volatilidade TI Tecnologia da Informa¸c˜ao

CSPs Cloud Service Providers IDM Identity Managment SLAs Service Level Agreementa

WSDL Web Services Description Language IPS Intrusion Prevention System HIDS Host Intrusion Detection System DNS Domain Naming System

DoS Denial of Service

NIDS Network-based Intrusion Detection System ARP Address Resolution Protocol

DID Distribution Intrusion Detection VM Virtual Machine

SNA Sistema Nervoso Autˆonomo

(22)

dmz Zona Desmilitarizada

MAPE-K Monitor-Analyze-Plan-Execute Knowledge ECA Event-Condition-Action

(23)

Ω Conjunto máximo de possibilidades U E Utilidade Esperada P Somatório PA Probabilidade de o U (o) Utilidade de o o Conjunto de resultados A Ato ∩ União f Fun¸cão k Base de conhecimento.

(24)

(25)

1 INTRODUÇ ÃO . . . 27 1.1 CONTEXTUALIZAÇ ÃO DO PROBLEMA . . . 27 1.2 OBJETIVOS . . . 32 1.2.1 Objetivo geral . . . 32 1.2.2 Objetivos espec´ıficos . . . 33 1.3 ORGANIZAÇ ÃO DO TRABALHO . . . 33 2 FUNDAMENTAÇ ÃO TE ÓRICA . . . 35 2.1 COMPUTAÇ ÃO EM NUVEM . . . 35 2.1.1 Caracter´ısticas essenciais . . . 36 2.1.2 Modelos de servi¸co . . . 36 2.1.3 Modelos de implanta¸cão . . . 37 2.2 BIG DATA . . . 38 2.2.1 Volume . . . 39 2.2.2 Variedade . . . 39 2.2.3 Velocidade . . . 40 2.2.4 Veracidade . . . 40 2.2.5 Valor . . . 42 2.2.6 Validade . . . 43 2.2.7 Volatilidade . . . 44 3 SEGURANÇ A NA COMPUTAÇ ÃO EM NUVEM 45 3.1 SISTEMA DE DETECÇ ÃO DE INTRUS ÃO . . . 50 3.1.1 Tipos de ataques aos ambientes em nuvem . . . 55 3.1.2 Tipos de sistema de deteçcão de intrusão em

com-puta¸cão em nuvem . . . 57 3.2 SISTEMAS AUTON ÔMICOS . . . 58 3.2.1 Arquitetura do sistema autonômico . . . 58 3.2.2 Fases do processo . . . 59 3.2.3 Propriedades de sistemas autonômicos . . . 59 3.3 TEORIAS NORMATIVAS DE ESCOLHA RACIONAL

- A UTILIDADE ESPERADA . . . 61 3.3.1 Definindo utilidade esperada . . . 62 3.3.2 Probabilidades condicionais . . . 63 3.3.3 Utilidades de resultados . . . 64 3.3.4 Sobre axiomatiza¸c˜ao e propriedades da utilidade

esperada . . . 66

(26)

4.1.1 Etapa 1: objetivo da revisão . . . 69 4.1.2 Etapa 2: identifica¸cão da literatura . . . 69 4.1.3 Sele¸cão dos estudos a serem inclu´ıdos . . . 70 4.2 A PESQUISA . . . 73 4.3 TRABALHOS COM T ÉCNICAS B ÁSICAS PARA

NU-VEM E IDS . . . 73 4.4 TRABALHOS QUE APRESENTAM IDS E IPS

INCOR-PORADOS EM NUVEM . . . 79 4.4.1 Sistema de Deteçcão de Intrusão Baseado em Host

(HIDS) . . . 80 4.4.2 Sistema de Deteçcão de Intrusão Baseado em Rede

(NIDS) . . . 85 4.4.3 Sistema de Deteçcão de Intrusão Distribu´ıdo (DIDS) 91 4.4.4 IDS em grid e computa¸cão em nuvem . . . 93 4.4.5 Sistema de Preven¸cão de Intrusão (IPS) . . . 93 4.4.6 Sistema de Deteçcão e Preven¸cão de Intrusão (IDPS) 97 4.5 IDS COMO SERVIÇ O DE NUVEM . . . 99 4.5.1 Hypervisor-based intrusion detection system . . . 99 4.6 IDS AUT ÔNOMOS . . . 112 4.7 IDS AUTON ÔMICOS . . . 116 4.8 IDS E BIG DATA . . . 123 4.9 IDS AUTON ÔMICO E BIG DATA EM UM AMBIENTE

DE NUVEM . . . 129 4.10 DISCUSS ˜AO . . . 130

5 ARQUITETURA DO SISTEMA AUTON ˆOMICO

DE RESPOSTA A ATAQUES BASEADO EM BIG DATA . . . 135 5.1 O SISTEMA PROPOSTO . . . 135 5.2 M ÓDULO DE MONITORAMENTO . . . 136 5.3 M ÓDULO DE AN ÁLISE . . . 138 5.4 M ÓDULO DE PLANEJAMENTO . . . 139 5.4.1 Modelo de sistema de resposta . . . 140 5.4.2 Aplica¸cão da utilidade esperada no SARI . . . 143 5.5 M ÓDULO DE EXECUÇ ÃO . . . 144 5.6 M ÓDULO DE CONHECIMENTO . . . 145 6 VALIDAÇ ÃO DO SISTEMA SARI . . . 147 6.1 PROCEDIMENTOS DOS EXPERIMENTOS . . . 147 6.1.1 Etapa de monitoramento . . . 148 6.1.2 Etapa de análise . . . 150

(27)

6.1.5 Experimento na nuvem LRG . . . 152 6.1.6 Experimento na nuvem pública Amazon . . . 154 7 CONCLUS ÃO . . . 159 7.1 PRINCIPAIS CONTRIBUIÇ ÕES . . . 159 7.2 PERSPECTIVAS E TEND ÊNCIAS . . . 160 REFER ÊNCIAS . . . 163 AP ÊNDICE A -- Log de processamento do Map Reduce . . . 179 AP ÊNDICE B -- Quantidade de pacotes . . . 183 AP ÊNDICE C -- Infraestrutura de Cloud do LRG 187

(28)

(29)

1 INTRODUC¸ ˜AO

Este trabalho versa sobre a constru¸cão de um sistema autonômico de resposta a intrusões em ambientes de computa¸cão em nuvem, utili-zando Big Data. Nos cenários atuais de computa¸cão em nuvem, pro-blemas de seguran¸ca surgem a partir da expansão desses ambientes e da difusão de grandes volumes de informa¸cões. Devido à importância e `

as vulnerabilidades dessas informa¸cões, elas costumam ser alvos de ata-ques, e também devido à escala dinâmica desses ambientes e à crescente complexidade desses ataques, torna-se premente desenvolver estratégias com respostas mais efetivas, visando evitar poss´ıveis intrusões.

Neste cap´ıtulo, esse problema é contextualizado. Além disso, delimitam-se o objetivo geral e os espec´ıficos, bem como é apresentada uma s´ıntese dos conteúdos de cada cap´ıtulo.

1.1 CONTEXTUALIZAC¸ ˜AO DO PROBLEMA

A preocupa¸cão inicial que norteou a elabora¸cão desta tese foi a busca por um modelo que fornecesse uma resposta ágil e eficiente para eventuais intrusões maliciosas em ambientes de computa¸cão em nuvem, pois a análise preliminar, aprofundada na pesquisa bibliográfica, mos-trou a inexistência de sistemas com respostas ágeis e que tratem de grandes volumes de informa¸cões. Neste sentido, sistemas autonômicos provêm respostas ágeis e Big Data lidará com o grande volume de informa¸cões coletadas sobre as auditorias dos vários componentes do sistema.

A inexistência de tais sistemas pode ser creditada, conforme co-locam Buyya, Calheiros e Li (2012), às caracter´ısticas dos ambientes da computa¸cão em nuvem: eles são complexos, heterogêneos e operam em grande escala, com uma arquitetura de distribui¸cão diversificada, dis-ponibilizando, também, os recursos da nuvem de forma elástica (MELL; GRANCE, 2011).

Com isso, as informa¸cões pertinentes aos usuários que se encon-tram nesses ambientes tornam-se altamente sens´ıveis e vulneráveis aos ataques de hackers, crackers e outros criminosos cibernéticos, o que acarreta em preju´ızos econômicos, sociais e pol´ıticos. Em que pese o impacto de tais preju´ızos, a administra¸cão segura de tais ambientes continua sendo um desafio ainda hoje não superado. Tal desafio é re-for¸cado pelo incremento nas informa¸cões disponibilizadas, pois foi com

(30)

os ambientes de computa¸c˜ao em nuvem que o conceito de Big Data tornou-se poss´ıvel: ´e a nuvem que viabiliza armazenar e disponibili-zar volumes expressivos de dados, com uma velocidade crescente, como destaca Fonseca Filho (2007):

´

E uma acumula¸cão de dados não só pela den-sidade de informa¸cões bem como pela sucessão rápida com que chega. Se no passado o problema era o de acesso e coleta, agora está sendo o da sele¸cão e avalia¸cão. [...] É necessário que se enfa-tize cada vez mais a análise da informa¸cão e que se encorajem as inova¸cões técnicas nesse campo. Já surgem os grandes sistemas de manipula¸cão de dados, gigantescos depósitos de dados com seus ‘Data Minds’, softwares usando técnicas de IA que trazem, por mecanismos de inferência, a informa¸cão desejada ou a poss´ıvel informa¸cão desejada. (FILHO, 2007).

Este crescente volume de dados foi mapeado por Domingues (2010). O autor coloca que, por exemplo, no Século XVII, a Biblioteca da Universidade de Sorbonne, em Paris, ponto crucial para pesquisas entre os acadêmicos da época, contava com 1338 livros: um número que um pensador, um cientista, poderia, organizando seu tempo, consultar no per´ıodo de uma vida. Em 2016, a Biblioteca do Congresso Ameri-cano, referência como acervo do que é publicado ao redor do mundo, contava com 38 milhões de livros.

Domingues ressalta que mesmo um cientista concentrando-se to-talmente na leitura do que é publicado em sua área, não conseguirá dar conta daquilo que é editado, por ano, em um determinado campo do saber, considerando-se somente o que é indexado, como livros e arti-gos. E com o advento da Internet e das m´ıdias sociais, este volume de dados e informa¸cões passou a crescer geometricamente. Estima-se que o número de internautas ultrapasse 3,2 bilhões de pessoas e que, dia-riamente, são criados 120 mil novos blogs (ICT, 2015). A interpola¸cão desses dois aspectos – o universo da nuvem e o volume de informa¸cões velozmente disponibilizado – acrescentou uma dose extra de dificuldade na administra¸cão dos ambientes cibernéticos, que se tornaram mais vul-neráveis às tentativas de intrusões maliciosas. O Centro de Estudos, Resposta e Tratamento de Incidentes de Seguran¸ca no Brasil, CERT.br, que monitora tentativas de ataques e seus tipos desde 1999, mostra a tendência ao crescimento de tais incidentes, como a Figura 1 permite visualizar (CERT.BR, 2016).

(31)

Figura 1 – Estat´ısticas dos incidentes reportados ao CERT.br

Fonte: Cert.br (2016).

de ataques at´e o ano de 2014, com queda em 2015, mas ainda assim com resultados significativos.1

Este progressivo número de crimes virtuais e a explora¸cão das vulnerabilidades digitais exigem dos administradores de sistemas com-putacionais a tomada de medidas preventivas, bem como a execu¸cão de repostas eficientes de forma rápida, as quais devem suportar o cres-cente volume de dados gerados. Os administradores empenham-se em encontrar abordagens que minimizem os preju´ızos provocados por hac-kers, crackers e outros criminosos cibernéticos, utilizando Sistemas de Deteçcão de Intrusões (IDS) (MODI et al., 2013). Tais sistemas empre-gam técnicas que analisam o comportamento e a origem das tentativas para, então, definirem se a a¸cão é autorizada ou não (STAKHANOVA; BASU; WONG, 2007).

No entanto, o que se verifica é um gap significativo entre as estratégias para detectar as tentativas de ataque e os mecanismos exis-tentes para responder a essas tentativas – e o tempo de resposta é crucial para evitar que a intrusão se concretize, entendendo-se aqui in-trusão como qualquer atividade que possa danificar um sistema ou uma rede. Cohen (1999) destaca que se um intruso habilidoso contar com um intervalo de 10 horas entre sua tentativa e a resposta, seu ataque

1_{A queda pode ser explicada por uma altera¸}_c˜_{ao na metodologia de coleta de} dados ou falta de consolida¸c˜ao deles, j´a que os resultados parciais referentes ao ano de 2016 apontam para um recrudescimento dos ataques, com aumento de 125,36% de ataques DDoS quando se compara o primeiro trimestre de 2016 com o mesmo per´ıodo de 2015(AKAMAI, 2016).

(32)

terá 80% de chances de ser bem sucedido; caso o intruso disponha de 20 horas, o ataque terá 95% de chances de sucesso; e se o intruso tiver 30 horas dispon´ıveis, o ataque torna-se praticamente infal´ıvel. Por outro lado, caso a resposta à intrusão seja imediata, a chance de um ataque ser bem sucedido é praticamente nula.

Por isso, os desenvolvedores buscam aprimorar os Sistemas de Deteçcão de Intrusões, os quais possuem um conjunto de técnicas que permitem detectar rapidamente a¸cões maliciosas ou não autorizadas em um ambiente computacional. Estes sistemas de deteçcão, embora primordiais para o uso seguro do ambiente computacional, apresentam, no entanto, um fluxo com uma etapa de estrangulamento no momento da resposta, que é realizada manualmente (CARVER, 2000). A Figura 2 apresenta tal fluxo.

Figura 2 – Fluxo de detec¸c˜ao

Fonte: Carver (2000).

No fluxo, representado pela Figura 2, destaca-se o momento da deteçcão, realizada de maneira automática. Imediatamente é disparado um aviso para o administrador do sistema e este, só então, realizará a tomada de decisão (portanto, manualmente) necessária para interrom-per o ataque – por isso ocorre a demora na resposta, o que aumenta o risco de o ataque ser bem sucedido. Resultado: mecanismos de respos-tas limitados (STAKHANOVA; BASU; WONG, 2007).

O estudo deste fluxo torna transparente o fato de que substi-tuir uma resposta manual por uma autom´atica ´e fundamental, mas

(33)

as pesquisas de arquiteturas visando uma resposta aos ataques que atenda a este quesito, especialmente nos ambientes de nuvem, ainda não se encontram no mesmo patamar dos processos de deteçcão, e isto ´

e explicado pela complexidade de tais ambientes (STAKHANOVA; BASU; WONG, 2007).

Outro aspecto relevante que dificulta o desenvolvimento de um modelo de resposta eficiente relaciona-se com a enorme diversidade de configura¸c˜oes poss´ıveis no universo da nuvem computacional, englo-bando diferentes inputs e outputs.

Figura 3 – Modelo de servi¸cos da Cloud

Fonte: NIST - National Institute of Standards and Technology.

A Figura 3 sintetiza o modelo de servi¸cos de uma Cloud e apre-senta uma parte do leque de configura¸cões poss´ıveis do ambiente. Qual-quer que seja o sistema de resposta a ataques, para dar conta de detec-tar e atuar rapidamente em rela¸cão às tentativas de intrusão, necessita apresentar uma estrutura que contemple ambientes previamente des-conhecidos, pois a tomada de decisão de uma resposta a ataques varia conforme a natureza dos dados analisados. Por exemplo, o tipo de organiza¸cão e de servi¸cos oferecidos - governamental ou civil; com ou sem fins comerciais; f´ısica ou jur´ıdica; militar ou não, entre outros - de-mandará distintos n´ıveis de respostas. Assim, um modelo de seguran¸ca eficiente precisará incluir diferentes variáveis de configura¸cão para se tornar economicamente viável. Foi o expressivo volume de informa¸cões disponibilizado neste leque de ambientes que levou ao conceito de Big Data e, conforme exposto na Figura 3, o Big Data apresenta-se, no mundo virtual, de maneira desorganizada, aleatória e desestruturada, tornando ainda mais complexo o desenvolvimento de sistemas de

(34)

res-posta imediata e que atendam a v´arias configura¸c˜oes.

Os vários sistemas existentes para deteçcão e resposta a ataques, que são detalhadamente analisados no Cap´ıtulo 3 desta tese, ainda não contemplam um resultado satisfatório para abranger ambientes em Cloud. Conforme Buyya, Calheiros e Li (2012), uma das estratégias para contornar as dificuldades para administrar o ambiente de Cloud é utilizar a abordagem autonômica2_{. Os autores analisaram a ado¸}_c˜_{ao de}

tal abordagem e optaram pela efetividade e eficiência de um sistema autonômico, face aos resultados obtidos com uma tal arquitetura. No entanto, embora tal abordagem seja empregada em diferentes áreas e n´ıveis no universo cibernético, poucos softwares a adotam para dar res-postas às intrusões detectadas, o que torna relevante a presente tese, que se volta para o desenvolvimento de uma ferramenta que incorpore a abordagem autonômica para atuar no ambiente de computa¸cão em nuvem. No caso deste tipo de abordagem, as habilidades do admi-nistrador de sistema tornam-se irrelevantes: a resposta, automatizada, ocorrerá de maneira imediata – e foi a busca por tal sistema, para su-prir uma lacuna existente, que norteou os objetivos e o desenvolvimento desta tese. Assim, desenvolver um sistema autonômico de resposta às intrusões detectadas trará uma contribui¸cão significativa para tornar os ambientes de nuvem mais seguros e confiáveis, conforme os objetivos que serão discriminados a seguir.

1.2 OBJETIVOS

1.2.1 Objetivo geral

Pesquisar sobre seguran¸ca em nuvem e propor solu¸cão para a im-plementa¸cão de sistemas autonômicos de resposta a ataques em ambien-tes de nuvem. Esta solu¸cão foi desenvolvida no formato de um protótipo testado e validado em ambiente controlado. Os custos e benef´ıcios da implanta¸cão do protótipo foram evidenciados,incrementando o conhe-cimento, quanto as práticas relacionadas a este tema.

2_{Define-se autonˆ}_{omico como uma resposta dada pelo pr´}_{oprio sistema, de maneira} automática, independentemente de uma análise com interven¸cão externa. O termo origina-se da Biologia e foi incorporado pelas Ciências da Computa¸cão. O conceito será abordado de maneira aprofundada no Cap´ıtulo 2.

(35)

1.2.2 Objetivos espec´ıficos

Al´em do objetivo geral exposto, s˜ao elencados os seguintes obje-tivos espec´ıficos:

• Pesquisar sobre o estado da arte em um sistema autonˆomico de resposta a ataques;

• Propor um sistema autonˆomico de resposta a ataques que apre-sente os resultados esperados;

• Criar um algoritmo de tomada de decis˜ao para resposta aos ata-ques;

• Validar a proposta por meio de um prot´otipo;

• Executar testes e simula¸cões no protótipo para verificar sua eficiência e eficácia.

Os resultados ser˜ao apresentados de maneira cr´ıtica, para evi-denciar as principais contribui¸c˜oes e encaminhar trabalhos futuros.

1.3 ORGANIZAC¸ ˜AO DO TRABALHO

Este trabalho está organizado da seguinte forma: o primeiro cap´ıtulo, no qual este tópico está inserido, apresenta a contextualiza¸cão do problema, bem como os objetivos geral e espec´ıficos, além da estru-tura organizacional da tese. O segundo cap´ıtulo apresenta a funda-menta¸cão teórica. O terceiro cap´ıtulo apresenta a contextualiza da seguran¸ca na computa¸cão em nuvem. O quarto cap´ıtulo apresenta a revisão sistemática da literatura e o estado da arte relacionado com o trabalho. O quinto cap´ıtulo apresenta a abordagem proposta para a resolu¸cão do problema e o cumprimento dos objetivos. O sexto cap´ıtulo apresenta os resultados e discussões e o sétimo, e último cap´ıtulo, apre-senta as conclusões do trabalho e os encaminhamentos para trabalhos futuros.

(36)

(37)

2 FUNDAMENTAÇ ÃO TE ÓRICA

Este cap´ıtulo permite aprofundar os principais conceitos para al-can¸car os objetivos propostos nesta tese. Com esta conceitua¸cão cria-se um cenário comum para que sejam discutidas as diferentes abordagens relacionadas aos sistemas autonômicos e Big Data em ambientes de computa¸cão em nuvem. Para tanto, será realizada uma interse¸cão des-tas duas subáreas, apresentando as suas principais defini¸cões. A seguir, o cap´ıtulo avan¸ca para a verifica¸cão de como se encontra o cenário da seguran¸ca nos ambientes computacionais em nuvem.

1

2.1 COMPUTAC¸ ˜AO EM NUVEM

A computa¸cão nas nuvens, de acordo com Takabi, Joshi e Ahn (2010), também conhecida como Cloud Computing, é definida pelo Ins-tituto Nacional de Padrões e Tecnologia (NIST - National Institute of Standards and Technology), uma entidade ligada ao Departamento do Comércio dos Estados Unidos da América (EUA), como:

Sendo um modelo para permitir acesso em rede a um conjunto de recursos computacionais con-figur´aveis de forma ub´ıqua, que possam ser rapi-damente provisionados e liberados com o m´ınimo de esfor¸co gerencial ou intera¸c˜ao do provedor de servi¸cos (TAKABI; JOSHI; AHN, 2010).

Para os autores, o modelo de nuvem pode ser analisado e descrito por meio de três enfoques: as caracter´ısticas essenciais, os modelos de servi¸cos e as formas de implanta¸cão. Esses elementos irão orientar o desenvolvimento de todos os sistemas que visam a deteçcão e a res-posta a eventuais ataques e, portanto, necessitam ser analisados em profundidade pelos administradores.

1_{E importante observar que, ao se analisar os sistemas autonˆ}´ _{omicos de Deteç}_c˜_ao de Intrusão, esta modelagem engloba, também, os aspectos relacionados às respostas dadas, mesmo que isto não esteja explicitado literalmente no nome dos sistemas.

(38)

2.1.1 Caracter´ısticas essenciais

Para Takabi, Joshi e Ahn (2010), um ambiente de nuvem apre-senta cinco caracter´ısticas essenciais.

• Atendimento sob demanda: o usuário pode alocar, unilate-ralmente, os recursos de forma dinâmica, tais como: capacidade computacional, tempo em um servidor e tamanho da unidade de armazenamento. Estas decisões são realizadas pelo próprio usuário, na quantidade que julgar necessário, sem a necessidade de intera¸cão humana com cada prestador de servi¸cos;

• Amplo acesso em rede: o acesso deve ser poss´ıvel por meio de redes, como a Internet, com uso de mecanismos-padr˜ao;

• Pool de recursos: os recursos n˜ao podem ser exclusivos de um usu´ario, mas devem estar dispon´ıveis sob demanda;

• R´apida elasticidade: os recursos podem ser rapidamente alo-cados para suprir picos de demanda;

• Mensura¸c˜ao do servi¸co: o ambiente deve ser capaz de contro-lar os recursos e mensurar a sua utiliza¸c˜ao por meio de diversos indicadores.

Estas caracter´ısticas apresentam-se nos diferentes modelos de servi¸cos que ser˜ao encontrados nos ambientes de nuvem.

2.1.2 Modelos de servi¸co

Existem trˆes modelos de servi¸co utilizados nos cen´arios de uma nuvem: Software como Servi¸co (SaaS), Plataforma como Servi¸co (PaaS)

e Infraestrutura como Servi¸co (IaaS) (TAKABI; JOSHI; AHN, 2010). • Software como Servi¸co (SaaS): tanto o software quanto o

servi¸co s˜ao oferecidos para o consumidor, e este n˜ao gerencia nem controla a infraestrutura;

• Plataforma como Servi¸co (PaaS): ´e fornecida para o consu-midor uma plataforma, que inclui uma biblioteca de softwares ou ferramentas, como um banco de dados, por exemplo. O con-sumidor, neste caso, n˜ao gerencia nem controla a estrutura de base;

(39)

• Infraestrutura como Servi¸co (IaaS): modelo mais abran-gente, em que o consumidor conta com capacidade de processa-mento, unidade de armazenaprocessa-mento, estrutura de rede e outros re-cursos. O consumidor pode, nesta op¸cão, ter sua própria solu¸cão de software.

E como tais modelos são implantados? No cenário atual, existem quatro possibilidades, que serão analisadas a seguir.

2.1.3 Modelos de implanta¸c˜ao

Em rela¸cão à implanta¸cão, os mesmos autores descrevem quatro possibilidades: nuvem comunitária, nuvem privada, nuvem pública e nuvem h´ıbrida.

• Nuvem comunit´aria: a estrutura da nuvem ´e fornecida para comunidades com interesses compartilhados;

• Nuvem privada: a estrutura da nuvem ´e fornecida para uma ´

unica institui¸c˜ao;

• Nuvem p´ublica: a estrutura da nuvem ´e aberta para o uso geral;

• Nuvem h´ıbrida: é composta por duas ou mais estruturas de nuvem. Por exemplo: nuvem pública e privada, simultaneamente. A Figura 4 sistematiza o entrela¸camento de caracter´ısticas, mo-delos e fomas de implanta¸cão, conforme proposto por Takabi, Joshi e Ahn (2010).

A Figura 4 apresenta os n´ıveis de modelagem na configura¸cão de-senvolvida por Takabi, Joshi e Ahn (2010). No n´ıvel superior encontram-se as cinco caracter´ısticas que diferenciam o ambiente de nuvens de outros ambientes computacionais. Em alguns ambientes, encontram-se uma ou outra caracter´ıstica, mas não as cinco simultaneamente. No n´ıvel intermediário, estão as três possibilidades de servi¸cos ofertados ao usuário, que se relacionam com as caracter´ısticas já citadas e, também, com os quatro formatos de implementa¸cão sistematizados na base da Figura 4. É esta complexidade organizacional que torna a seguran¸ca no ambiente da nuvem tão dif´ıcil, como será abordado nos cap´ıtulos posteriores.

Visto o conceito de nuvem computacional, é necessário aprofun-dar outro que também é essencial: Big Data.

(40)

Figura 4 – Modelo de Cloud do NIST

Fonte: Seccombe et al. (2011).

2.2 BIG DATA

A partir da crescente dissemina¸c˜ao do uso de plataformas que disponibilizam dados pelos meios computacionais, a quantidade de in-forma¸c˜oes que podem ser acessadas atingiu cifras antes imposs´ıveis de serem imaginadas. Estima-se que a quantidade de dados armazenados atualmente alcance 4,4 zettabytes (MARR, 2015).2 _{No caso do presente}

estudo, estes dados são provenientes de diferentes fontes, como logs, alertas dos IDSs e comunica¸cão de dados; ou seja, os dados são encon-trados com grande diversidade de formatos no ambiente informatizado. Além disso, o volume de dados foi acompanhado pelo crescimento da velocidade com que eles são disponibilizados, transmitidos e acessados. A presen¸ca dessas três caracter´ısticas - volume, diversidade (em vários formatos) e velocidade - é apontada por Zikopoulos (2011) como essencial e faz com que o tratamento das informa¸cões dispon´ıveis não seja pass´ıvel de ser realizado com as abordagens usuais, que não dão conta de armazená-las e processá-las. As técnicas e tecnologias atuais não funcionam adequadamente em tempos de processamentos acelera-dos, e diferentes aplicativos sofrem com o problema do acúmulo ex-pressivo de dados, incluindo a análise de dados de rede e a análise de ataques (ZIKOPOULOS et al., 2011). É nesta situa¸cão e contexto que os

(41)

dados s˜ao definidos como Big Data, portanto:

Big Data é o conjunto de dados e informa¸cões que, pelo seu volume, variedade e velocidade de crescimento tornaram mais complexo os proces-sos de análise, exigindo um tratamento diferen-ciado, o qual é chamado de Big Data Analytics. (KHAN; UDDIN; GUPTA, 2014).3

Estas trˆes caracter´ısticas fundamentais - volume, variedade e ve-locidade - ser˜ao analisadas a seguir.

2.2.1 Volume

O volume de dados refere-se ao tamanho dos dados que est˜ao sendo criados a partir de todas as fontes, incluindo, por exemplo, texto, ´

audio, v´ıdeo, redes sociais, pesquisas, dados médicos, imagens, re-latórios de crimes, previsão do tempo e desastres naturais, entre várias fontes. Isto engloba, por exemplo, conversas em redes sociais, logs do servidor web, sensores de fluxo de tráfego, imagens de satélite, trans-missões de áudio, transa¸cões bancárias, MP3 ou MP4 de música, conteúdo de páginas web, digitaliza¸cões de documentos do governo, trilhas de GPS , telemetria de ve´ıculos, dados do mercado financeiro, entre outros.

Uma caracter´ıstica importante relacionada a tal volume de da-dos, desorganizado e desconhecido, é que ele não pode ser tratado, processado ou consultado por meio das formas tradicionais, pois, con-forme Khan, Uddin e Gupta (2014), dados não estruturados não podem ser normalizados em tabelas ou em conjuntos para serem utilizados por sistemas RDBMS, como Oracle e SQL Server. A abordagem funda-mentada em SQL não funciona quando se lida com petabytes (1015_{) de}

dados n˜ao estruturados (KHAN; UDDIN; GUPTA, 2014).

2.2.2 Variedade

Como j´a abordado, dados aparecem em diversos formatos: ´audio, v´ıdeo, texto, imagens, entre tantos, o que torna o sistema extremamente

3_{Big Data Analytics ´}_{e definido como o processo de an´}_{alise e compreens˜}_ao das caracter´ısticas dos conjuntos de dados massivos, com a extra¸cão de padrões geométricos e estat´ısticos úteis para determinados fins (pesquisa, gestão e adminis-tra¸cão, uso em diferentes segmentos econômicos e sociais, entre outros).

(42)

complexo. Isso torna imposs´ıvel denominar este conjunto de dados como banco de dados relacional (KHAN; UDDIN; GUPTA, 2014). Um dos grandes desafios enfrentados é como integrar dados tão diversificados -diferentes softwares, -diferentes navegadores, -diferentes formatos que são enviados para uma nuvem etc. Agregue-se a este fator, como destacam os autores citados, o fato de que existe uma intermedia¸cão humana e, portanto, erros podem ocorrer - e ocorrem, ou seja, quanto maior o volume e a variedade de dados, maior a possibilidade de ocorrência de erros (KHAN; UDDIN; GUPTA, 2014).

2.2.3 Velocidade

A velocidade refere-se à rapidez com que os dados são gerados e acessados, o que dificulta seu processamento e análise. Dois fatores estão intrinsecamente relacionados: velocidade e volume. O volume aumenta porque a velocidade se ampliou, tornando mais fácil disponi-bilizar e acessar dados e informa¸cões e, simultaneamente, quanto maior o volume, maior a necessidade de velocidade. Além disso, a liberdade, que é um fator inerente à web, e que é um dos fundamentos em sua ori-gem, torna dif´ıcil controlar o que ocorre nos ambientes em nuvem. Em decorrência destes aspectos, as empresas buscam tecnologias e arquite-turas de banco de dados que permitam dar conta de Big Data (KHAN; UDDIN; GUPTA, 2014).

Além destas três variáveis relacionadas com Big Data, de acordo com Dumbill (2012), agregam-se outras duas: veracidade e valor, de-nominando o que o autor chama de os 5Vs do Big Data (Figura 5).

A seguir, ser˜ao analisados estes dois aspectos: veracidade e valor.

2.2.4 Veracidade

Por veracidade, entende-se que um determinado dado pode ser comprovado, ou seja, relaciona-se diretamente a algo considerado ver-dadeiro e sem degrada¸cão. Este aspecto é fundamental quando se pensa no universo de Big Data e em seguran¸ca, pois cabe a quem acessa os dados a responsabilidade por verificar a integridade daquilo que está sendo consultado. Se os dados estiverem corrompidos, isto induzirá a erros, seja em tomadas de decisão, seja na valida¸cão de hipóteses ou na ado¸cão de medidas derivadas das análises efetuadas.

´

(43)

Figura 5 – Os 5Vs do Big Data

Fonte: Dumbill (2012).

modelo de valida¸cão cient´ıfica para verificar procedimentos e resultados obtidos a partir da análise da metodologia adotada por quem realizou a coleta dos dados. Este processo inclui, entre outros aspectos, a análise por pares. Assim, verifica-se a precisão, a existência ou não de viés ou contamina¸cão, a qualifica¸cão dos meios onde os dados estão arma-zenados, entre outros aspectos. No entanto, no universo de Big Data, esta abordagem já não se sustenta, como destacam Khan, Uddin e Gupta (2014). Os dados são disponibilizados, por exemplo, no Face-book, Twitter ou LinkedIn, para citar somente algumas das m´ıdias so-ciais mais conhecidas, e não sofrem nenhuma revisão ou análise prévia. Nem sempre é poss´ıvel, nestas m´ıdias, rastrear alguma metodologia que embase conclusões postadas em uma nuvem. A pergunta que os autores colocam é a seguinte:

Até que ponto os dados obtidos em tais fontes podem ser considerados veross´ımeis? Esses da-dos podem servir como base de análise para to-madas de decisão empresariais ou para outras decisões cr´ıticas?

De acordo com Khan, Uddin e Gupta (2014), a veracidade se torna, portanto, uma grande preocupa¸cão no tratamento e análise de Big Data, pois os dados coletados podem levar ao falseamento de con-clusões. Assim como nos bancos de dados relacionais e tradicionais são utilizadas ferramentas para manter a integridade dos dados, evitar duplicidades e garantir dados confiáveis, o mesmo se aplica em rela¸cão ao Big Data, que exige ferramentas espec´ıficas e algoritmos de grande

(44)

porte para alcan¸car resultados fidedignos.

2.2.5 Valor

A unidade Valor, para Khan, Uddin e Gupta (2014), é designada como um “V Especial”, pois é o resultado que se almeja processar em um Big Data. Como colocam os autores, o objetivo é extrair o valor máximo a partir de qualquer conjunto grande de dados com os quais se trabalha e, para isso, é necessário que o foco seja voltado para o valor verdadeiro destes dados, ou seja, o valor dos dados, propriamente, deve exceder o seu custo, a sua posse ou a sua gestão. Isso só é pass´ıvel de ser obtido se tais dados forem considerados verdadeiros, pois o falseamento anulará o valor do conjunto.

Para os autores citados, o valor, desse modo, não é uma unidade objetiva, mas sim subjetiva, pois se relaciona com a importância que aquele dado possui para a sociedade, mercado, cliente ou usuário. Ou-tro aspecto significativo é que um determinado dado pode adquirir ou perder valor com o tempo, em fun¸cão de mudan¸cas econômicas, sociais ou da eleva¸cão no risco de perda desse dado. Khan, Uddin e Gupta (2014) propõem uma estrutura hierárquica para categorizar os n´ıveis de risco.

Dados que se encontram nos n´ıveis mais altos exigem maior inves-timento em prote¸cão, pois são considerados mais valiosos, como dados de ensaios cl´ınicos destinados à cria¸cão de novos medicamentos (KHAN; UDDIN; GUPTA, 2014), por exemplo. Ao analisar os dados, tendo em vista o seu valor e sua posi¸cão hierárquica, evita-se subestimar ou su-perestimar os investimentos necessários para garantir sua integridade. Assim, equilibra-se o valor de um dado com os investimentos necessários para o armazenamento e gerenciamento, obtendo-se um ponto ótimo entre recompensa e risco, cobrando-se mais por uma prote¸cão maior -mas somente para dados que, na percep¸cão do usuário, exigem este alto n´ıvel de garantia.4_.

Para Khan, Uddin e Gupta (2014), outros elementos são essen-ciais para constituir o que se chama Big Data. Além dos já citados, os autores agregam validade e volatilidade (Figura 6).

Embora validade possa parecer semelhante `a veracidade, os autores citados destacam que existe uma diferen¸ca entre os dois

con-4_{De acordo com Tallon (2013), cerca de 47% do or¸}_{camento dos servi¸}_{cos com} tecnologia da informa¸cão (TI) são destinados para a manuten¸cão da infraestrutura; 40% são destinados para o processo de informa¸cão e processamento de transa¸cões; e cerca de 13% vão para os investimentos estratégicos de TI.

(45)

Figura 6 – Os 7Ds do Big Data

Fonte: Khan, Uddin e Gupta (2014).

ceitos. A quest˜ao da volatilidade tamb´em exige um tratamento dife-renciado quando se aborda Big Data.

2.2.6 Validade

A validade refere-se à exatidão e à precisão dos dados em rela¸cão ao uso desejado. Ou seja, os dados podem ser veross´ımeis, no entanto, podem não ser válidos para um determinado uso. Criticamente falando, um mesmo conjunto de dados pode ser válido para uma aplica¸cão ou uso e, em seguida, inválido para outra aplica¸cão ou uso, portanto, é ne-cessário validá-los para o uso a que se destinam (KHAN; UDDIN; GUPTA, 2014).

A diferen¸ca entre causa-efeito e correla¸cão exemplifica os dois conceitos. Por exemplo: embora o número de pessoas com dengue au-mente durante o verão (argumento verdadeiro), o que é comprovado pelo aumento significativo de busca de informa¸cões sobre a doen¸ca na Internet (ou pessoas procurando socorro em postos de saúde), não se pode dizer que o verão causa dengue (argumento não válido). Os aspec-tos relacionados com validade sempre tiveram importância na análise

(46)

de dados, mas ganharam uma dimens˜ao maior no universo do Big Data, pois a disponibilidade de elementos para serem aplicados em um con-junto ampliou-se exponencialmente.

2.2.7 Volatilidade

O descarte de dados e informa¸cões é uma variável que neces-sita ser controlada com apoio de pol´ıticas previamente explicitadas, evitando-se o acúmulo de materiais desnecessários, que provocam des-perd´ıcio de tempo e podem sobrecarregar os sistemas ou exigir medi-das de seguran¸ca extras (KHAN; UDDIN; GUPTA, 2014). De acordo com Khan, Uddin e Gupta (2014), é necessário considerar exigências legais (por exemplo, manuten¸cão de documenta¸cão que cubra o per´ıodo de garantia de produtos vendidos); ou mesmo mercadológicas (histórico de compras de clientes para orientar implementa¸cão de estratégias de marketing) em fun¸cão dos custos de tal manuten¸cão.

O volume, a variedade e a velocidade com que os dados são encontrados em Big Data torna a seguran¸ca de armazenamento, du-rante per´ıodos amplos, mais onerosa para as empresas e mais complexa do que os aspectos envolvidos com o armazenamento tradicional, exi-gindo tomadas de decisão sobre a manuten¸cão ou destrui¸cão de tais dados. Como já destacado, as especificidades de Big Data exigem fer-ramentas que permitam realizar rastreamentos e coletas de dados de maneira funcional na web.

(47)

3 SEGURANÇ A NA COMPUTAÇ ÃO EM NUVEM

Neste cap´ıtulo, realiza-se uma breve descri¸cão dos desafios à se-guran¸ca e privacidade para computa¸cão em nuvem, pois são aspectos fundamentais para o desenvolvimento de solu¸cões eficazes para tornar o ambiente da computa¸cão em nuvem, seguro. Alguns dos estudos que destacam tais desafios no ambiente da computa¸cão em nuvem são os seguintes: Ren, Wang e Wang (2012); Takabi, Joshi e Ahn (2010); Kretzschmar e Hanigk (2010); Liu (2012); e Murray et al. (2015).

No total, são oito os desafios a serem superados, conforme apon-tado pelos autores ciapon-tados: compartilhamento de responsabili-dade; inexistência de bi-direcionalidade; autentica¸cão dos usuários; confiabilidade no gerenciamento; seguran¸ca no gerenciamento de servi¸cos; gestão organizacional de seguran¸ca; e privacidade dos usuários e dos dados.

• Compartilhamento de responsabilidade - Ren, Wang e Wang (2012) observam que o compartilhamento aumenta a utiliza¸cão do recurso, pois um mesmo recurso pode ser alocado para mais de um usuário simultaneamente. Isso representa novas vulnerabilidades de seguran¸ca e privacidade e, por isso, a nuvem é considerada intrinsecamente insegura do ponto de vista de um usuário. Sem fornecer uma forte garantia de seguran¸ca e privacidade, não se pode esperar que os usuários desativem os seus próprios controles de seus dados e dos aplicativos em nuvem apenas para economi-zar e flexibilieconomi-zar servi¸cos. Além disso, os provedores de nuvem e clientes devem compartilhar a responsabilidade pela seguran¸ca e pela privacidade nesses ambientes, o que não é tarefa fácil, pois estas responsabilidades variam de acordo com o modelo de servi¸co (SaaS, PaaS ou IaaS).

• Inexistência de bi-direcionalidade - De um lado, os prove-dores de servi¸cos em nuvem (Cloud Service Providers, os cha-mados CSPs) podem examinar os dados dos usuários, por di-versas razões. Os usuários, no entanto, não possuem acesso às informa¸cões de opera¸cões internas dos provedores. Este dese-quil´ıbrio gera desconfian¸cas e constitui-se em um grande desafio a ser superado pelos sistemas de seguran¸ca (REN; WANG; WANG, 2012).

• Autentica¸cão dos usuários - Ao utilizar os servi¸cos de nuvem, os usuários podem facilmente acessar suas informa¸cões pessoais

(48)

e torná-las dispon´ıveis para vários servi¸cos em toda a Internet, e este fator é mais um elemento que torna os ambientes em nuvem vulneráveis, pois autentica¸cões baseadas em senha têm uma li-mita¸cão inerente e apresentam riscos significantes, entre os quais, a possibilidade do usuário divulgar indevidamente sua senha ou utilizar senhas que podem ser facilmente rastreadas por um hac-ker.1

Takabi, Joshi e Ahn (2010) destacam que um mecanismo de ge-renciamento de identidade (IDM, Identity Managment ) pode aju-dar a autenticar usuários e servi¸cos com base em suas credenci-ais e caracter´ısticas, minimizando este aspecto e protegendo as informa¸cões privadas relacionadas aos usuários e processos. No entanto, uma questão fundamental sobre IDM nas nuvens são os inconvenientes de interoperabilidade que podem resultar no uso de tokens de identidade e protocolos de negocia¸cão de iden-tidade. Por exemplo, a questão sobre multi-jurisdi¸cão pode com-plicar as medidas de prote¸cão: enquanto os usuários interagem com um servi¸co de front-end, o provedor necessita assegurar que este servi¸co será protegido em rela¸cão a outros que ele também fornece, seja para o mesmo usuário, seja para diferentes clientes que compartilham o ambiente de nuvem. Os provedores devem segregar a identidade de cada cliente, as informa¸cões e os compo-nentes de autentica¸cão e IDM, os quais necessitam ser facilmente integrados com outros elementos de seguran¸ca, tarefa muitas ve-zes complexa (TAKABI; JOSHI; AHN, 2010).

• Controle de Acesso e Contabilidade - A heterogeneidade e diversidade dos servi¸cos, assim como outros requisitos de acesso aos dom´ınios em ambientes de computa¸cão em nuvem, reque-rem pol´ıticas de controle de demanda. Tais controles devem ser flex´ıveis o suficiente para capturar o contexto dinâmico da nuvem, o que abre fronts de vulnerabilidade (TAKABI; JOSHI; AHN, 2010). Para integrar os requisitos de prote¸cão de privacidade expressos por meio de regras complexas, é importante que os sistemas de controle de acesso empregados para ambientes em nuvem sejam de fácil manuseio e seu privilégio de distribui¸cão seja eficientemente

1_{Pesquisa realizada pela TrustWave encontrou vulnerabilidades em 97% das} aplica¸cões que foram testadas. Em rela¸cão às senhas, os pesquisadores mapearam as formas mais usuais com que elas são estabelecidas. Em dois minutos, quebraram 54% das senhas de um universo de 625 mil códigos que estavam analisando para verificar vulnerabilidades (TRUSTWAVE, 2016).

(49)

administrado. Por isso, é necessário garantir que os modelos de fornecimento em nuvem ofere¸cam interfaces de controle de acesso genéricas, visando à interoperabilidade adequada. Isso exige a execu¸cão de pol´ıticas de controle que abranjam o acesso para e entre diferentes dom´ınios (TAKABI; JOSHI; AHN, 2010).

Além disso, os modelos de controle de acesso devem ser capazes de capturar os aspectos relevantes de SLAs (Service Level Agree-ment ) para processar faturas e permitir relatórios contábeis por-menorizados. No entanto, muitas vezes os clientes querem sigilo sobre tais dados e temem que estas informa¸cões sejam divulgadas ou até mesmo utilizadas contra eles (TAKABI; JOSHI; AHN, 2010). Assim, utilizar um modelo de privacidade de servi¸cos de controle de acesso e de contabilidade, cuja conformidade seja facilmente verificada, é fundamental para tranquilizar os clientes.

• Confiabilidade no gerenciamento - Em ambientes de com-puta¸cão em nuvem, as intera¸cões entre os dom´ınios de servi¸cos diferentes, impulsionadas por exigências de servi¸co, podem ser dinâmicas e transitórias, além de intensivas. Apesar de vários prestadores de servi¸cos coexistirem nas nuvens e colaborarem para fornecer múltiplos servi¸cos, eles podem ter abordagens de seguran¸ca e mecanismos de privacidade diferentes. A literatura existente mostra que, mesmo com a verifica¸cão de pol´ıticas de dom´ınio individuais, viola¸cões de seguran¸ca ocorrem facilmente durante essas integra¸cões. O alinhamento de pol´ıticas de se-guran¸ca para ambientes em nuvem deve possibilitar o enfren-tamento, tanto de desafios já mapeados, como heterogeneidade semântica, interoperabilidade segura e o gerenciamento das mu-dan¸cas de pol´ıticas de atua¸cão, como aqueles decorrentes das altera¸cões comportamentais dos clientes, as quais ocorrem ra-pidamente. Assim, os provedores devem gerir cuidadosamente pol´ıticas de controle de acesso que: a) assegurem que os siste-mas de integra¸cão não conduzam a quaisquer viola¸cões de segu-ran¸ca; b) contemplem a heterogeneidade de pol´ıticas seguran¸ca existente; e c) abranjam as diferentes aplica¸cões disponibilizadas. Este enfoque de integra¸cão garante uma colabora¸cão dinâmica e segura, permitindo o monitoramento ativo de poss´ıveis viola¸cões de seguran¸ca durante o processo de interopera¸cão (TAKABI; JOSHI; AHN, 2010). Takabi (2010) destaca que tal perspectiva indica a necessidade de um framework integrado e de interopera¸cão, fun-damentados na confian¸ca e na seguran¸ca, para ajudar a

(50)

estabe-lecer, negociar e manter, de forma adaptativa, a pol´ıtica de in-tegra¸cão. Ou seja: um quadro de confian¸ca é indispensável para capturar um conjunto genérico de parâmetros, o qual é necessário para gerir a integra¸cão de compartilhamento.

• Seguran¸ca no gerenciamento de servi¸cos - Em ambientes de computa¸cão em nuvem, prestadores e integradores de servi¸cos podem compor o que oferecem para seus clientes. O integrador de servi¸cos fornece a plataforma e os prestadores de servi¸cos or-questram servi¸cos e, simultaneamente, disponibilizam alternati-vas adicionais para atender aos requisitos de prote¸cão dos clientes, entre as quais, aquelas que empregam a Web Services Descrip-tion Language (WSDL). Para Tabaki (2010), no entanto, este re-curso não satisfaz plenamente as exigências de seguran¸ca da com-puta¸cão em nuvem, pois neste ambiente, questões como qualidade de servi¸co, pre¸co e SLAs, como em outros ambientes, também são cr´ıticas. As melhores op¸cões para garantir seguran¸ca e privaci-dade, sem violar as pol´ıticas do proprietário do servi¸co, devem, portanto, abordar tais questões e incorporar solu¸cões que con-templem estes aspectos. Em essência, a provisão de servi¸cos au-tomáticos e sistemáticos, além da composi¸cão de um framework que considere as questões de seguran¸ca e privacidade, é crucial (TAKABI; JOSHI; AHN, 2010).

• Gestão Organizacional de Seguran¸ca - Os modelos de ciclo de vida de seguran¸ca, além da própria gestão de seguran¸ca da informa¸cão, interferem, de forma significativa, nas decisões toma-das pelas empresas, quando estas resolvem adotar a computa¸cão em nuvem (TAKABI; JOSHI; AHN, 2010). Em particular, a go-vernan¸ca compartilhada e a dependência de entidades externas podem se tornar problemas cruciais, se não forem abordadas de forma correta. Para Takabi (2010), o uso do ambiente em nuvem traz benef´ıcios, mas acarreta, simultaneamente, desafios, entre os quais destacam-se dois: a) amplia¸cão do temor de ataques e in-cidentes e; b) dificuldade em manter a continuidade dos negócios de maneira sistemática no caso de tais ocorrências.2

2_{A paralisa¸}_c˜_{ao dos neg´}_{ocios, nos casos de ataques ou viola¸}_c˜_{ao de dados} sigilo-sos, traz preju´ızos materiais (monetários) e imateriais (desgaste de imagem). Em rela¸cão aos preju´ızos materiais, são famosos os casos do hacker Albert Gonzales, que atuou entre os anos 2005 e 2007, e violou mais de 45 milhões de senhas de cartões de crédito. Outro que deixou sua marca foi Robert Tappan Morris, que ao desenvolver um código para determinar o tamanho da Internet, acabou por contaminar milha-res de computadomilha-res. Resultado: o governo americano percebeu a necessidade de

(51)

Outro aspecto a considerar é o aumento das possibilidades de amea¸cas internas quando ocorre uma terceiriza¸cão de dados e os processos migram para o ambiente em nuvem: um usuário pode ser v´ıtima de um ataque altamente segmentado que acaba atingindo outros usuários (TAKABI; JOSHI; AHN, 2010). Assim, com a complexifica¸cão (a a¸cão de tornar mais complexo) dos pro-cessos em nuvem, o aumento do volume de dados e apro-cessos, os custos para garantir a seguran¸ca e a recupera¸cão de arquivos e informa¸cões tendem a aumentar, pois passam a envolver partes externas. No entanto, não somente estes fatores necessitam ser considerados. Os clientes, para uma análise efetiva das rela¸cões custo-benef´ıcio, precisam considerar também, além do poss´ıvel vazamento de dados, os problemas relacionados com a instabili-dade econômica ou desastres locais (TAKABI; JOSHI; AHN, 2010). Portanto, como citado em (TAKABI; JOSHI; AHN, 2010), recomenda-se que os modelos existentes de ciclo de vida, análise de riscos, processos de gestão, testes de penetra¸cão e certifica¸cão de servi¸co sejam reavaliados periodicamente, para garantir que os clientes possam contar com os benef´ıcios do ambiente em nuvem. É esta reavalia¸cão que permite utilizar as melhores práticas e desenvol-ver normas para garantir pol´ıticas mais seguras para o uso da computa¸cão em nuvem.

• Privacidade - Para Tabaki (2010), a migra¸cão para uma in-fraestrutura compartilhada faz crescer os riscos das informa¸cões confidenciais serem distribu´ıdas de maneira não autorizada, pois a computa¸cão em nuvem permite fácil acesso aos dados - e é este, de maneira paradoxal, um de seus benef´ıcios. O objetivo é alcan¸car um equil´ıbrio entre acessibilidade aos dados e pri-vacidade, pois é a privacidade a questão central dentre todas aquelas apresentadas até o momento, é a que provoca o maior re-ceio em clientes que utilizam (ou pretendem utilizar) o ambiente em nuvem. Para reduzir o receio destes clientes, os prestadores de servi¸cos em nuvem buscam assegurar a eles um alto grau de transparência em suas opera¸cões, garantindo a prote¸cão das in-forma¸cões de identidade, históricos de transa¸cões e privacidade de ponta-a-ponta nas opera¸cões realizadas. O desafio é garan-tir que somente as entidades autorizadas conseguirão acessar os

desenvolver um plano contingencial para evitar futuras ocorrˆencias deste tipo. Em 2014, ocorreu um vazamento de cinco milh˜oes de senhas do Gmail - o Google nunca se manifestou oficialmente sobre a origem do vazamento (WIRED, 2010) (ZETTER, 2016).

(52)

elementos que se encontram na nuvem, mesmo tendo terceiros que efetuem as tomadas de decisão sobre dados e plataformas. Outra questão relacionada com o tema privacidade é encontrar mecanismos para determinar quem criou um conjunto de dados e quem os modificou, ou seja, quem possui a chave de seguran¸ca. Ao definir este ponto de origem, é poss´ıvel rastrear, auditar e controlar acessos com base em históricos monitorados (TAKABI; JOSHI; AHN, 2010).

IDS é a sigla, em inglês, para Intrusion Detection System, ou seja, em português, Sistema de Deteçcão de Intrusão. Os dife-rentes Sistemas de Deteçcão de Intrusão buscam superar os desafios elencados, pois a seguran¸ca e a privacidade são cruciais para a con-tinuidade dos negócios que utilizam os ambientes em nuvem. Nesse sentido, há uma busca por sistemas e planos de contingência que con-sigam, rapidamente, detectar e dar respostas a eventuais ataques aos ambientes de computa¸cão em nuvem.

A seguir, ser˜ao analisados os fundamentos de tais sistemas.

3.1 SISTEMA DE DETECÇ ÃO DE INTRUS ÃO

O conceito de sistema de deteçcão de intrusão (IDS) nasceu com a ideia de Anderson (1980), apresentada em seu artigo Computer Secu-rity Threat Monitoring and Surveillance, e, desde então, o IDS evoluiu ao longo das três últimas décadas. IDS é uma tecnologia de monito-ramento proativo e um mecanismo de defesa para proteger as infra-estruturas de TI (Tecnologia da Informa¸cão) cr´ıticas quanto a com-portamentos maliciosos que podem comprometer dados confidenciais e aplica¸cões vulneráveis, por meio de ataques via Internet (YASSIN et al., 2012).

Com base na sensibilidade da informa¸cão de uma organiza¸cão, há diferentes riscos e desafios para evitá-los, portanto testes de ataques às vulnerabilidades devem ser considerados. A maioria das técnicas e fer-ramentas computacionais têm sido utilizadas para otimizar a gestão de risco e também para levar as ferramentas que atuam nisso a se beneficia-rem de abordagens computacionais. Uma gestão de risco os minimiza, como é mostrado no estudo de Silva, Westphall e Westphall (2016), pois ela permite ao cliente conhecer, documentar, gerenciar e mitigar os problemas de seguran¸ca. No estudo citado, o autor propôs um mo-delo de partilha de riscos entre fornecedores e clientes, fazendo com que o consumidor seja uma entidade ativa na análise de riscos. Além disso,

(53)

nesses ambientes têm sido necessários maiores esfor¸cos para prevenir a manipula¸cão de dados, as perdas e as altera¸cões não autorizadas.

A utiliza¸cão de redes de comunica¸cão de computadores e a com-puta¸cão no dia a dia estão desempenhando um papel central no mundo digital. Se a rede falhar, de alguma forma, todo o negócio/mercado com base nessa nela entra em colapso. Assim, a seguran¸ca desta veia digital é muito importante. A questão é: como prover a demanda cres-cente de seguran¸ca de rede? A seguran¸ca da rede não é proporcionada por uma ferramenta de constru¸cão simples. Uma forma popular de proteger a rede é implementar um Sistema de Deteçcão de Intrusão (IDS), prevendo que toda rede deve ter um especialista para inferir o conhecimento do IDS. Além disso, o processo requer recursos, como monitoramento de rede, grande capacidade de armazenamento, alta largura de banda e pessoal qualificado. Mas, tomando a vantagem da computa¸cão em nuvem, se fornecermos um IDS como um servi¸co na nuvem, então todos os usuários serão providos com a deteçcão e alerta de vulnerabilidades e intrusões à sua rede.

Os sistemas de IDS foram e são desenvolvidos para garantir a integridade de dados e informa¸cões, evitando a¸cões mal intencionadas, ou seja, o objetivo de um sistema de deteçcão de intrusão é monitorar dinamicamente as a¸cões sobre as máquinas ou sobre a rede em que ele opera, e tentar definir se essas a¸cões representam um ataque ou são um uso leg´ıtimo, autorizado. O primeiro sistema desse gênero foi elaborado por Dorothy Denning e Peter Neumann em 1984, e o conceito utilizado ancorava-se na ideia de que o usuário autorizado possui um padrão de comportamento e que o invasor apresentará um comportamento não esperado e estranho. Isto pode ser definido com o uso de modelos estat´ısticos. A partir desta primeira abordagem, foram desenvolvidas diferentes arquiteturas. Alguns IDSs trabalham em tempo real e podem ser usados para parar um ataque em progresso; outros trabalham de forma reativa: analisam as informa¸cões do ataque para reparar danos e reduzir as possibilidades de ataques futuros (VAID; VERMA, 2014). É poss´ıvel classificar os sistemas de deteçcão de intrusão empregando-se quatro critérios: quanto ao método utilizado; quanto à a¸cão tomada em rela¸cão à deteçcão; quanto à fonte de dados de auditoria; e quanto `

a frequência do monitoramento, conforme sintetizado na Figura 7, que apresenta duas possibilidades de deteçcão de ataques para cada um dos quatro critérios, possibilidades estas que serão abordadas a seguir.

Quanto ao Método de Deteçcão - Pode ser baseado em com-portamento ou em conhecimento.

(54)

Figura 7 – Classifica¸c˜ao dos IDS

Fonte: Vieira et al. (2007).

deteçcão de intrusão baseada em comportamento busca identifi-car um ataque ao considerá-lo um desvio na conduta esperada do sistema ou do usuário. O modelo do comportamento válido é constru´ıdo a partir de dados coletados durante um per´ıodo deter-minado de avalia¸cão. Assim, o IDS realiza a compara¸cão com o modelo ativo e, se um desvio for observado, é gerado um alarme. Ou seja: se a a¸cão do sistema ou do usuário não corresponder ao esperado, ela é considerada um ataque. No entanto, o compor-tamento do usuário costuma mudar com o tempo e é necessário fazer uma reanálise periódica de suas atividades para validar e atualizar o modelo referencial utilizado. Caso isto não seja feito, o sistema pode detectar como ataque, um comportamento que ´

(55)

a mais comum é a baseada em Estat´ıstica, que emprega dados como uso e frequência. Outra técnica, amplamente difundida é o uso de Inteligência Artificial (IDRIS; SHANMUGAM, 2005). Entre

as vantagens de uma deteçcão baseada em comportamento encontram-se a possibilidade de descobrir ataques em falhas ainda desconhecidas e uma maior automa¸cão do sistema de deteçcão. Como desvantagem, encontra-se o ´ındice de falsos positivos e falsos negativos, que é superior ao método de deteçcão ba-seado em conhecimento (VIEIRA et al., 2010), apresentado a seguir.

• Deteçcão de Intrusão Baseado em Conhecimento - São sis-temas baseados na análise de eventos passados, ou seja, operam a partir de uma base de ataques conhecidos e de vulnerabilida-des do sistema, o que permite comparar assinaturas de ataques `

as a¸cões suspeitas. Esses sistemas utilizam heur´ısticas para ma-pear o comportamento de usuários leg´ıtimos e os comportamentos anômalos que podem caracterizar ataques, e, quando uma tenta-tiva de invasão é encontrada, um alarme é gerado (VAID; VERMA, 2014). A boa eficiência deste método depende de uma constante atualiza¸cão da base de dados, para ampliar continuamente o co-nhecimento acumulado. Uma de suas vantagens é o baixo ´ındice de falsos positivos, mas, por outro lado, é dif´ıcil conseguir as in-forma¸cões necessárias (conhecimento sobre os ataques), pois isto exige sistemas especialistas. Além disso, é fundamental anali-sar cuidadosamente cada vulnerabilidade, o que encarece a im-planta¸cão desta abordagem.

Quanto à A¸cão na Deteçcão - Pode ser uma rea¸cão passiva ou ativa.

• A¸cão Passiva - Ocorre quando um ataque é detectado e um alarme é gerado, mas nenhuma contramedida é tomada para impedi-lo.

• A¸cão Ativa - Neste caso, quando o sistema detecta um ataque, uma a¸cão é tomada para impedir que o intruso tenha sucesso. Também é descrita na literatura como um IPS (Intrusion Pre-vention System).

Quanto `a Fonte de Dados - Pode ser um sistema que opera com dados de logs de host ou com dados de pacotes de redes.