Marcelo Invert Palma Salas. Análise de Segurança para a Descoberta, Bloqueio e Rastreamento de Tráfego Malicioso sobre a rede Tor

(1)

COMPUTAÇÃO

Marcelo Invert Palma Salas

Análise de Segurança para a Descoberta, Bloqueio e Rastreamento de Tráfego Malicioso sobre a rede Tor

CAMPINAS

2016

(2)

Análise de Segurança para a Descoberta, Bloqueio e Rastreamento de Tráfego Malicioso sobre a rede Tor

Tese apresentada ao Instituto de Computação da Universidade Estadual de Campinas como parte dos requisitos para a obtenção do título de Doutor em Ciência da Computação.

Orientador: Prof. Dr. Paulo Lício de Geus

Este exemplar corresponde à versão da Tese entregue à banca antes da defesa.

CAMPINAS

2016

(3)

Tor é uma rede de sobreposição que fornece comunicação anónima na Internet para apli- cações TCP. Esta rede atende centenas de milhares de usuários, permitindo-lhes decidir quando desejam identicar-se ou não, evitando rastreamento do seus dados online e protegendo a privacidade das suas atividades contra tentativas de adversários de encontrá-los e destruí-los. Apesar de ser substancialmente utilizada para contornar censura na Internet em países sob regimes ditatoriais, esta rede de anonimato dá suporte, de certo modo, ao acesso a serviços ocultos (por exemplo Silk Road 2.0) fornecendo vendas de drogas, pedolia, tráco de pessoas, entre outros. O serviço que garante a privacidade também esconde, por trás todo um lado oculto de violência, possibilitando a proteção de botnets, envio de SPAM, ataques distribuídos de negação de serviço (DDoS), entre outros ciber- crimes. Neste contexto, o presente projeto de pesquisa propõe o estudo de métodos e técnicas para detecção e classicação de tráfego malicioso, bloqueio de possíveis ameaças e desenvolvimento de técnicas de rastreamento da origem do código malicioso sobre a rede Tor. O objetivo é projetar e implementar uma solução ao crescente tráfego de código malicioso sobre esta rede, pesquisando técnicas forenses e métodos para proteger a rede Tor do tráfego malicioso, preservando a privacidade e anonimato do tráfego não malicioso.

(4)

Tor is an overlay network that provides anonymous communication on the Internet for TCP applications. This network serves hundreds of thousands of users, allowing them to decide when they wish to be identied or not, avoiding tracking of their online data and protecting the privacy of their activities against attempts by opponents to nd and destroy them. Although the network is substantially used to circumvent Internet censorship in countries under dictatorial regimes, the anonymity oered by the Tor network also supports, in a way, access to hidden services (p.ex. Silk Road 2.0) for selling drugs, pedophilia, tracking people, among others. This service that ensures privacy also hides a whole new side of violence, allowing botnets to go undercover, sending SPAM, distributed denial of service attacks (DDoS), among other cybercrimes. In this context, the present research project proposes the research of methods and techniques to detect and classify malicious trac for blocking potential threats and the development of techniques to track the origin of malicious code over the Tor network. The goal is to design and implement a solution to the growing problem of malicious trac on this network, researching forensic techniques and methods to try and protect the Tor network from malicious trac, whilst also trying to preserve the privacy and anonymity of non-malicious trac.

(5)

2.1 Troca de mensagens para estabelecimento de circuito na rede Tor com dois Roteadores Onion. . . 16 2.2 Estrutura da transmissão de dados através do encaminhamento cebola. . . 16 2.3 Funcionamento da rede Tor. . . 17 2.4 Ataque na rede Tor pela botnet gera aumento de usuários Tor em 2013 [6]. 17 2.5 Infraestruturas de uma botnet: (a) Infraestrutura centralizada; (b) Infra-

estrutura distribuída. . . 22 2.6 Ciclo de vida dos bots [12]. . . 23 2.7 Utilização da rede Tor pelas botnets para proteger suas comunicações. . . . 25 2.8 Funcionamento dos Serviços Ocultos em Tor. . . 30 3.1 Arquitetura da plataforma de Coleta de Tráfego Malicioso para a rede

Tor [44]. . . 34 4.1 Resumo esquemático da análise para detecção de malware pelo comporta-

mento em Windows XP e 7. . . 42

(6)

5.1 Cronograma para o primeiro ano. . . 45 5.2 Cronograma para o segundo ano. . . 46

(7)

1 Objetivos do Projeto 10

1.1 Introdução . . . 10

1.2 Objetivos . . . 11

1.3 Contribuições . . . 12

2 Revisão Bibliográca 14 2.1 A Rede Tor . . . 14

2.1.1 Funcionamento de Tor . . . 15

2.1.2 Estado da arte da Rede Tor . . . 17

2.1.3 Objetivos de Pesquisa com a Rede Tor . . . 20

2.2 Botnets sob Tor . . . 20

2.2.1 Funcionamento das Botnets . . . 21

2.2.2 Estado da arte das botnets . . . 24

2.2.3 Objetivos da Pesquisa sobre Tor . . . 27

2.3 Serviços Ocultos sob Tor . . . 28

2.3.1 Funcionamento dos Serviços Ocultos . . . 29

2.3.2 Estados da arte dos Serviços Ocultos . . . 32

2.3.3 Objetivos da Pesquisa para os Serviços Ocultos . . . 33

3 Proposta 34 3.1 Coleta . . . 35

3.2 Análise e Classicação . . . 35

3.2.1 Análise para Botnets . . . 37

3.3 Bloqueio e Rastreamento . . . 37

3.3.1 Bloqueio de Tráfego Malicioso . . . 37

3.3.2 Rastreamento de C&C e Serviços Ocultos . . . 38

4 Resultados Preliminares 39 4.1 Coleta . . . 39

4.2 Análise e Classicação . . . 40

4.3 Outras atividades . . . 40

5 Cronograma e Infraestrutura 43 5.1 Primeiro semestre . . . 43

5.2 Segundo semestre . . . 44

5.3 Equipe . . . 44

5.4 Infraestrutura . . . 47

Referências Bibliográcas 48

(8)

Objetivos do Projeto

1.1 Introdução

Tor (anteriormente um acrônimo para The Onion Router) é uma rede de sobreposição que fornece comunicação anônima na Internet para aplicações TCP [46]. De código aberto, esta rede atende centenas de milhares de usuários, transportando terabytes de informação cifrada, permitindo-lhes decidir quando desejam identicar-se ou não, evitando rastreamento dos seus dados online e protegendo a privacidade das suas atividades online contra tentativas de adversários de encontrá-los e destruí-los [72].

Com mais de 6.700 servidores [9], a rede Tor é propensa a transportar mais de 30 vezes o tráfego malicioso em comparação com servidores que não são parte desta rede [8].

Assim, o dinamismo de Tor torna a tarefa de bloquear o tráfego malicioso em um trabalho complexo para os voluntários [46]. Este problema abre a possibilidade que os voluntários sejam legalmente processados pelo tráfego que circula por seus roteadores.

Infelizmente, os atacantes estão utilizando Tor por causa da sua proteção da privacidade nas comunicações, obtido como descrito a seguir. Através de uma aplicação, Tor seleciona, geralmente, 3 roteadores¹ da sua rede e constrói uma rota anônima utilizando um subconjunto desses roteadores. O tráfego entre o atacante e o destino é retransmi- tido ao longo desse percurso de forma cifrada e impossibilita o rastreamento, já que cada roteador (onion Tor ou relay) apenas conhece seu emissor anterior e receptor posterior das mensagens. Por último, o roteador de saída, atua como um proxy, comunicando-se diretamente com o destino de forma clara e anônima, sendo uma das poucas opções para os pesquisadores de analisar o tráfego de saída Tor.

Apesar da rede ser substancialmente utilizada para contornar censura na Internet em países sob regimes ditatoriais, o anonimato oferecido também dá suporte, de certo modo, ao compartilhamento de materiais com direitos autorais, acesso a serviços ocultos (p.ex. Silk Road 2.0) para venda de drogas, pedolia, tráco de pessoas, roubo de dados, corrupções em governos e empresas, fraudes, entre outros [72]. O serviço que garante a privacidade também esconde, por trás, todo um lado oculto de violência, possibilitando também a proteção de botnets (i.e. Command and Control servers - C&C),

1A conguração padrão da rede Tor é composta por 3 roteadores: um de entrada (entry guard), outro de saída (exit router) e um roteador intermediário. Existem outras congurações que serão descritas nos capítulos seguintes.

10

(9)

envio de SPAM, ataques distribuídos de negação de serviço (Distributed Denial of Service ou DDoS), entre outros Ling [46], Wang [81]. Assim, surge a necessidade permanente de pesquisar o tráfego malicioso sobre Tor.

Neste contexto, o presente projeto de pesquisa propõe uma análise de segurança para o estudo e implementação de métodos e técnicas para detecção e classicação de tráfego malicioso, bloqueio de possíveis ameaças e desenvolvimento de técnicas de rastreamento da origem do código malicioso sobre a rede Tor. O objetivo é projetar e implementar soluções ao crescente tráfego de código malicioso sobre esta rede, pesquisando técnicas forenses e ferramentas para protegê-la do tráfego malicioso, preservando a privacidade e anonimato dos usuários. A combinação de técnicas (p.ex. análise de padrão do tráfego malicioso e análise forense de ataques) e ferramentas (p.ex. IDSs² e analisadores de tráfego) coadjuvarão no desenvolvimento de uma plataforma para avaliar em tempo real possíveis ameaças circulando pela rede Tor, ajudarão no desenvolvimento de técnicas para a análise forense dos ataques e colaborarão na prevenção de futuras ameaças de segurança contra a Internet no Brasil e no mundo [48].

Dadas as políticas da Digital Millennium Copyright Act (DMCA), que monitora constantemente os roteadores de saída Tor e envia noticações contra o compartilhamento de materiais com direitos autorias. Nossa arquitetura encaminhará o tráfego do roteador de saída através de um rewall para outro roteador de entrada (guard onion). Desta forma, haverá condições de bloquear tráfego capaz de possível imputação de responsabilidade le- gal sobre a universidade. Lamentavelmente, o reencaminhamento do tráfego gerará atraso na comunicação entre os usuários e os servidores, no entanto este é um custo quase sempre presente ao se pesquisar tráfego malicioso em ambientes sensíveis.

Pretende-se enfatizar três frentes de pesquisa, envolvendo: i) análise de tráfego malicioso em Tor, o que inclui identicação, classicação e bloqueio deste tráfego utilizando técnicas e ferramentas; ii) botnets, com o objetivo de detectar, analisar e bloquear suas atividades maliciosas sobre a rede Tor, tais como DDoS, SPAM, roubo de informação e outros [81]; e iii) Rastreamento de tráfego malicioso sobre Tor, com o objetivo de tentar localizar os centros de C&C das botnets e outros servidores na Deep Web. O desenvolvimento da plataforma permitirá fazer análise estatística de tráfego malicioso sobre a rede Tor. Isto será possível pela utilização de ferramentas de IDS e análise de reconhecimento de padrões de tráfego para botnet, SPAM e outros. Além de mitigar tráfego malicioso, projeta-se implementar mecanismos para identicar novas ameaças, bloqueá- las e tentar estimar futuros cenários. De certo modo, isto permitirá categorizar o tráfego malicioso sobre a rede Tor.

1.2 Objetivos

A partir da discussão anterior, podemos resumir os principais objetivos esperados deste trabalho como se segue:

1. Denição de uma arquitetura de inspeção de tráfego potencialmente malicioso utilizando a rede Tor. A inspeção será feita por meio de técnicas para identicação,

2Intrusion Detection Systems, i.e. sistemas de detecção de intrusão

(10)

captura e classicação do tráfego. Essa contribuição envolve o projeto e a implan- tação de tal arquitetura por meio da conguração de um roteador Tor de saída e o desvio (através de encaminhamento e uso de proxies) do tráfego não malicioso ou cifrado para fora da universidade, evitando assim o vazamento de ataques para a rede institucional, violação de políticas de segurança e de uso internas, bem como de legislação vigente devido ao uso de redes maliciosas para disseminação de conteúdo protegido.

2. Desenvolvimento de métodos de controle e bloqueio de tráfego malicioso visando o aumento da proteção dos sistemas conectados pela rede Tor. Os métodos desenvol- vidos poderão ser utilizados na implementação de ferramentas para administração de redes, reforço de políticas e controle de tráfego de rede.

3. Provisão de informações reais e atuais sobre a evolução das botnets e sua atua- ção na rede Tor. O estudo do tráfego malicioso permitirá a identicação e análise da comunicação entre as máquinas infectadas (bots) e seus servidores de C&C. A partir dessas informações, será gerada uma metodologia de contra-medidas para a ameaça das botnets que fazem uso de Tor para ataques. Espera-se que a análise do tráfego permita a identicação de novas amostras do malware cujos alvos sejam smartphones, tablets e outros gadgets.

4. Proposta de técnicas para rastreamento de tráfego malicioso com o objetivo de localizar os servidores de C&C das botnets e a utilização de endereços .onion pelos bot, além de servidores maliciosos dentro da Deep Web (i.e. cibercrime).

5. Aplicação e testes para uso efetivo e eciente de técnicas de injeção de ataques para modicar a informação dos pacotes que utilizem roteadores de saída, como também técnicas de aprendizado de máquina em tráfego de rede (em todas as fases do presente projeto) e a integração com ferramentas de análise de tráfego.

1.3 Contribuições

As autoridades justicam a censura contra o uso do Tor pela possibilidade de se ocultar comunicações que será aproveitada pelos criminosos e incentivará vários comportamentos delitivos. Ainda que exista de um lado obscuro, como a Dark Web, sua censura e bloqueio não é justicada, já que esta tecnologia também pode ser utilizada corretamente. Um exemplo é a Primaveira Árabe e como os cidadões foram capazes de contornar os bloqueios das comunicações e planejar o retorno do pais à democracia. O Tor também é utilizado por ativistascomo forma de expor informações secretas sem expo-los a riscos [7].

Assim, a descoberta de novas ameaças que surgem da Deep Web ajudam os atacantes a capturar dispositivos com mais facilidade, manipulando seus sistemas e extraindo infor- mações críticas de aplicações especícas a partir do seu funcionamento [8]. No entanto, existem outras ameaças tais como o roubo de informação, ataques contra os gadgets [41]

(p.ex. malware, ataque man-in-the-middle e etc).

(11)

A necessidade por proteger a privacidade e anonimato destas novas plataformas, que são parte dos desaos da segurança na Internet das Coisas ou IoT (Internet of Things ³ é parte de um desao atual da indústria de tecnologias para fornecer robustez aos gadgets, reduzir as vulnerabilidades e prever futuras ameaças [58].

A implementações de mecanismos de segurança precisam tomar uma ampla e nova superfície de ataques, considerando empregar novas estratégias para mitigar o vazamento de informação e reduzir o impacto sobre estas novas tecnologias.

Um exemplo são os smartphones. A penetração que estes dispositivos tiveram nas atividades diárias motivou o The Tor Project a desenvolver Orbot, uma versão do Tor para Android. Esta aplicação cria uma rede de túneis virtuais que permitem aos seus usuários navegar em segurança pela Internet, protegendo a privacidade das suas comunicações sobre este gadget.

Tratar esse problema comumente envolve o projeto conjunto de mecanismos capazes de capturar tráfego malicioso em Tor de forma segura e analisá-lo [67]. Estas questões são especialmente relevantes para a proteção da rede Tor e seu verdadeiro objetivo, a proteção da democracia e os abusos contra os direitos humanos, nas quais propriedades de segurança da rede como a privacidade e o anonimato precisam ser utilizadas para proteger dados sensíveis e não para encobrir atos de ciberdelinquência.

3A ideia por trás da IoT é que objetos possam medir, processar e se comunicar, aprimorando o volume de informação e consequentemente sua percepção a respeito do mundo, para nalmente transmitir a informação de forma segura.

(12)

Revisão Bibliográca

Neste capítulo são apresentados os trabalhos relacionados a esta proposta. Descrevendo inicialmente a estrutura da rede Tor nos permite analisar as características relevantes desta rede como também os trabalhos que aportam ao desenvolvimento e análise do tráfego malicioso. Isto implica em investigar as novas tendências dos ciberdelinquêntes e sondar as prováveis tendências futuras destas novas ameaças (p.ex. botnets, ransomware, entre outros) descritas na Seção 2.1.

A seguir, descrevemos os trabalhos relacionados a um dos principais problemas que atinge a rede Tor, as botnets. Este tipo de malware representa aproximadamente 10%

do tráfego sobre a rede Tor. A atualização das novas versões de botnets Zeus permitem aos atacantes utilizar a rede Tor como meio de comunicação na forma bots ⇔ C&C ⇔ atacante, fornecendo privacidade e anonimato. Nesta seção 2.2 descrevemos a evolução das botnets e a utilização da rede Tor para proteger sua infraestrutura.

Por último, diversas pesquisas utilizam a porta de saída (router exit) para analisar o tráfego malicioso. No entanto, não conseguem fazer o rastreamento do código malicioso nem da origem da mensagem, em especial quando são utilizados os serviços ocultos. Mais conhecidos como hidden services, estes serviços fazem parte da Deep Web e são apenas acessados através da rede Tor, representando o 80% do conteúdo da nuvem da Internet.

Dentro da Deep Web está a Dark Web, um mundo de ciberdelinquêntes que utilizam a rede Tor e os serviços ocultos para proteger sua identidade. Nesta fase, pesquisamos técnicas e sistemas para extração, bloqueio e rastreamento de tráfego malicioso sobre a rede Tor orientado a serviços ocultos. Além disso, entre os últimos recursos utilizados para proteger os bots, está a utilização do conceito de serviços ocultos, o qual será descrito na Seção 2.3.

2.1 A Rede Tor

A censura na Internet feita em larga escala pelas autoridades em diversas partes do mundo [3] impulsou o desenvolvimento de novas tecnologias que permitem contornar estas restrições, além de proteger a privacidade e o anonimato contra organizações (p.ex. NSA, FBI) que utilizam ferramentas (i.e. PRISM e XKeyscore nos Estados Unidos, Empora e MUSCULAR no Reino Unido, Project 6 na Alemanha, entre outros) para fazer a vigilân-

14

(13)

cia mundial¹. Neste sentido, Tor é o mais popular sistema desenvolvido para lutar contra a censura e a invasão da privacidade online.

Tor é uma rede sobreposta distribuída projetada para tornar anônimas as aplicações baseadas em TCP/IP, como navegação na Web, mensagens instantâneas (IRC) e SSL, ou simplesmente uma rede de anonimato [30]. Tor usa o conceito de roteamento cebola, que em si é baseado no projeto Mix-Net projetado por Chaum [20] em 1981.

Esta rede fornece uma plataforma composta por navegadores, consoles e proxies, que proporciona privacidade e anonimato a organizações e pessoas. Devido à promessa de anonimato, Tor se tornou popular entre diversos grupos, incluindo [8]:

• Usuários que desejam proteção contra a censura

• Usuários que se preocupam com sua privacidade e não desejam ser rastreadas;

• Atores maliciosos que querem esconder sua localização, para evitar problemas legais, o qual é nosso alvo de pequisa.

O roteamento cebola, ou onion routing, garante que o roteador de entrada não é o mesmo que o roteador de saída. Este processo cria o anonimato no usuário ao interagir com o sistema destino através de pulos entre roteadores internos (nós) desta rede, de forma privada e anônima. Assim, o sistema teoricamente impossibilita a detecção da origem da requisição. A seguir descrevo seu funcionamento.

2.1.1 Funcionamento de Tor

Tor faz uso do encaminhamento cebola [31], cuja nalidade é que cada nó intermediário (router) conheça o que é estritamente necessário: o endereço do emissor que envia a mensagem e o endereço para quem tem que reenviar a mensagem. As mensagens que são trocadas pelos roteadores não têm que proporcionar nenhuma informação adicional.

Desta forma, nenhum roteador intermediário conhecerá quem é o emissor, como também nenhum receptor da comunicação [20] conhecerá o emissor da mensagem.

Para navegar na Internet anonimamente, um clientea través de um proxy Tor solicita uma lista de roteadores disponíveis a partir de um dos servidores de diretório [26].

Uma vez selecionada a rota, o cliente inicia a comunicação com o primeiro roteador Tor (Entry Guard) usando a troca de chaves Die-Hellman [24] para gerar uma chave de sessão entre o cliente e o roteador de entrada. Durante toda a extensão do circuito será utilizada a mesma rota e o mesmo processo usando um enfoque telescópico de forma incremental, onde o cliente troca chaves com o próximo roteador intermediário através do roteador de entrada e os roteadores intermediários consecutivos até chegar ao último roteador de saída (exit router).

Assim, o circuito será estendido por solicitação do cliente, estabelecendo uma rota cifrada entre o cliente e o último roteador de saída, descrito na Figura 2.1. Por padrão, Tor usa três roteadores, no entanto podem ser usados até 10 [30].

1Vigilância global refere-se à prática de espionagem e vigilância globalizada, ou seja, além das fronteiras internacionais. Um sistema de sistema global de vigilância maciça, tem a capacidade de intromissão em comunicações eletrônicas em todo o mundo [34]

(14)

Figura 2.1: Troca de mensagens para estabelecimento de circuito na rede Tor com dois Roteadores Onion.

As mensagens do cliente são encapsuladas (cifradas) juntamente com o cabeçalho do protocolo de Internet (IP) para fornecer informação ao roteador seguinte dentro de camadas cifradas individualmente, criando a cebola multicamada (onion) da Tor descrita na Figura 2.2. A seguir, esta mensagem é enviada através da interface do proxy (local host), e é retransmitida por um dos circuitos Tor disponíveis como uxo de dados através de conexões TCP multiplexadas entres os roteadores Tor. A mensagem é descifrada incrementalmente pelo roteador Tor em cada pulo, revelando a próxima camada até que a mensagem do cliente é exposta no roteador de saída. Por último, este roteador envia a mensagem para o destino nal, p.ex. servidor Web.

Figura 2.2: Estrutura da transmissão de dados através do encaminhamento cebola.

O desenho da rede Tor descrito na Figura 2.3, inclui uso de chaves de sessão efêmeras (de curta duração) entre o proxy e os roteadores, chaves públicas entre roteadores e servidores de diretórios e atualização dos endereços dos roteadores (onions routers), que para os últimos deve ser a cada 24 horas. Este funcionamento é conhecido como segurança futura perfeita perfect forward secrecy e ajuda a manter o anonimato e a privacidade [25].

(15)

Figura 2.3: Funcionamento da rede Tor.

2.1.2 Estado da arte da Rede Tor

Desde a revelação dos programas de espionagem pela NSA em junho de 2013, a preocupa- ção pela privacidade online impulsionou a utilização de Tor [9]. Infelizmente, o anonimato fornecido é abusado para diversos ns ilegais. Por exemplo, entre agosto e setembro de 2013, Tor teve um aumento repentino de 6 vezes no número de usuários (ver Figura 2.4).

De acordo com os administradores, a botnet Mevade/Sefnit utilizou a rede Tor para transmitir sua informação entre os milhões de computadores infectados (bots) e o servidor de C&C, saturando a rede e dilatando as comunicações entre os usuários desta rede [6].

Directly connecting users

The Tor Project − https://metrics.torproject.org/

0 1000000 2000000 3000000 4000000 5000000

2014 2015

Figura 2.4: Ataque na rede Tor pela botnet gera aumento de usuários Tor em 2013 [6].

Este incidente foi analisado por Hopper em [35] (mais detalhes na Seção 2.2.2). Abaixo, descrevemos as mais relevantes pesquisas publicadas sobre Tor.

Em [19] os autores analisam o tráfego P2P sobre Tor, especicamente BitTorrent. Este tráfego passa despercebido por ser cifrado. Para melhorar sua transferência, os clientes

(16)

fazem uso do roteamento cebola com 1 pulo (1-hop) para utilizar o roteador Tor como um proxy.

Entre outros problemas abordados está o reconhecimento de tráfego Tor na rede. Neste sentido, os autores em [13] desenvolvem três classicadores baseados em correspondên- cia exata (exact matching), análise heurística e aprendizado de máquina para distinguir tráfego entre (a) HTTPS com HTTP sob Tor e (b) HTTPS com HTTPS sob Tor. Os melhores resultados foram conseguidas com os últimos dois classicadores. A análise heu- rística obteve 98,13% para (a) e 97,54% para (b). Já no classicador com de máquina, o algoritmo que retornou melhores resultados foi random forest com 93,7% para (a) e 97,7%

para (b). Os autores sugerem que o escopo da pesquisa foi limitado pela simplicidade dos dados comparados e a utilização de apenas um atributo (i.e. tamanho dos pacotes indivi- duais). Isto sugere que os resultados possam ser melhorados e que exista a possibilidade de ampliar a pesquisa para classicação de tráfego cifrado Tor com outros protocolos.

Tor é comumente considerado vulnerável a uma grande variedade de ataques, o que permitiria aos colaboradores (roteadores onion) e aos atacantes comprometer o anonimato dos clientes. Por exemplo, o ataque de correlação permite ao atacante controlar o primeiro e último roteador em um circuito para conseguir usar a sincronização e correlação de uxos de dados observados nos roteadores, violando o anonimato em Tor. Neste contexto, o autor em [23] vericou dois algoritmos de correlação (correlação de Levine et al. [42] e correlação de Murdoch e Zieli«ski [51]), comparando com um novo algoritmo proposto por ele, denominado correlação simplicada. Segundo o autor, os dois primeiros algoritmos apresentam problemas para que sejam usados em certos casos, no entanto, o algoritmo desenvolvido neste artigo funciona em diversos cenários. Na atualidade, o ataque de correlação já não é escalável pela grande quantidade de roteadores e as versões mais atuais de Tor previnem este tipo de ataque.

Desta forma, os autores em [78] propõem uma modicação ao ataque de correlação, que consiste em introduzir roteadores que aceitem apenas portas impopulares² (i.e. 25 (SMTP), 119 (NNTP), 6969 (BitTorrent P2P), etc.) para aumentar signicativamente a escalabilidade do ataque. Neste contexto, o atacante força o cliente a abrir novas cone- xões através destas portas, ajudando-se pela pequena fração de roteadores que permitem a comunicação através delas. A análise experimental mostrou que, através da injeção de um número relativamente pequeno (30) de roteadores comprometidos permitindo apenas comunicação entre as portas impopulares, mais de 50% dos circuitos foram comprometidos, sendo que nessa época existiam aproximadamente 3000 roteadores em operação na rede Tor e atualmente já são mais de 6000.

A m de analisar as contribuições dos nós (ou roteadores) das famílias da rede Tor (i.e. guard, middle, exit, double and any) e como inuenciam a rede, Wang et al. [82]

fazem uma análise empírica durante três anos para distinguir os nós de cada família. Os resultados mostram que os roteadores de cada família compõem um pequeno subconjunto, mas funcional, de nós. Os conjuntos de famílias de nós fornecem uma maior estabilidade e

2Segundo Sulaiman [78], as portas impopulares em Tor são um conjunto de portas que são geralmente bloqueadas pelos roteadores Tor para evitar o abuso de ciberdelinquentes, reduzindo o tráfego de malware e compartilhamento de material com direitos autorais (porta 6969, BitTorrent P2P), envio de spam (porta 25, SMTP), sequestro de identidade (spoong) em newsgroups (porta 119, NNTP), entre outros.

(17)

desempenho para os clientes Tor em comparação com os nós que pertencem a duas ou mais famílias, além de certas famílias transmitirem maior quantidade de tráfego e fornecerem maior desempenho à rede. Assim, ataques orientados (p.ex. força bruta) a certa família de nós podem causar sérios problemas de disponibilidade e desempenho com um custo menor para o atacante.

Ghar et al. em [30] apresentam uma metodologia para detectar conexões de entrada e saída para a rede Tor através de uma lista de roteadores Tor, a qual é atualizada a cada 24 horas. No entanto, outra pesquisa [46] demostra que muitos roteadores não são parte desta lista. Segundo os desenvolvedores, a lista não está completa para evitar o bloqueio de todos os roteadores em países onde existem restrições contra Tor.

Ling et al. em [44] desenvolvem um sistema para a descoberta e estudo sistemático de tráfego malicioso sobre Tor. Entre as principais características do sistema está a utilização de um IDS para descobrir e classicar o tráfego malicioso, o redirecionamento do tráfego do roteador de saída para um roteador de entrada com o objetivo de evitar reclamações administrativas e legais contra a organização hospedeira e a análise detalhada para otimi- zar a conguração do onion router. Entre os principais resultados, os autores demostram que cerca do 10% do tráfego Tor é classicado como código malicioso, conseguindo capturar mais de 200 malware conhecidos. O tráfego malicioso inclui P2P, malware (botnets), ataques de negação de serviços, spam, entre outros. O sistema desenvolvido mitiga o abuso sob Tor através de alertas do IDS, além de derrubar e bloquear conexões suspeitas.

Além disso, os autores implementam um sistema de rastreamento de tráfego malicioso, usando a abordagem de dualtone multi-frequency signaling (sinalização de multifrequência de tom duplo) para correlacionar o tráfego de entrada com o de saída.

Em comparação com as pesquisas desenvolvidas, utilizaremos algoritmos de aprendizado de máquina e IDSs para melhorar os resultados na descoberta e classicação de tráfego malicioso, atualizando resultados das pesquisas anteriores, que datam de 2012.

Desenvolveremos técnicas mais ecazes para bloquear o tráfego malicioso³ e implementa- remos técnicas de rastreamento de pacotes para redes que trafegam código malicioso sob a rede Tor.

Nesta pesquisa se espera encontrar protocolos SMTP (e-mails e Spam), SSL, SSH, VPN, P2P, compartilhamento de arquivos, HTTP e HTTPS, provavelmente informação sensível, entre outros. Além disso, será necessário implementar ferramentas para classicar o tráfego malicioso segundo o sistema operacional (Windows, Android, etc.), e desenvolver uma ferramenta para bloquear o tráfego malicioso sob Tor.

Esperamos também encontrar ransomware⁴ e outras novas ameaças que utilizam a rede Tor para esconder a sua natureza maligna e a localização dos responsáveis.

3Tor é vulnerável aos ataques de bloqueio de tráfego: caso um adversário possa monitorar os extremos de um circuito Tor, ele pode analisar e bloquear o tráfego entre o servidor e os roteadores. Para evitar o bloqueio do tráfego, os roteadores vericam constantemente a recepção dos pacotes pelo circuito. Assim, sempre que um roteador comece a bloquear pacotes, Tor modicara a rota de transmissão de pacotes, criando um novo circuito composto por diferentes roteadores.

4Ransomware é um software malicioso que cifra os dados dos utilizadores e exige pagamentos em dinheiro ou Bitcoins pela sua liberação.

(18)

2.1.3 Objetivos de Pesquisa com a Rede Tor

Dado este cenário, os objetivos de pesquisa nesta área são:

1. Conguração da rede Tor: Esta fase consiste em instalar, congurar e proteger a rede Tor. É bem conhecido que esta rede é um meio para compartilhar materiais com direitos autorias, acesso a serviços ocultos e que é constantemente monitorada pela Digital Millennium Copyright Act (DMCA) e outras organizações. A solução planejada será encaminhar o tráfego do roteador de saída através de um rewall para um roteador de entrada à rede Tor. Isto permitirá exercer algum controle sobre o tráfego gerado, mas acima de tudo evitará que o nó local seja um ponto de saída de tráfego da rede Tor, o que eximiria nossa organização hospedeira (universidade) da ser vista como originária de tráfego maligno endereçado a alguma vítima em potencial.

2. Detecção, captura e classicação de tráfego malicioso: Nesta fase aplicaremos técnicas de análise de tráfego à rede Tor. Segundo Ling et al. [46], 10% do trá- fego desta rede é considerado malicioso, além de transportar 30 vezes mais malware em comparação com outras redes como a Internet. Esta informação também é cor- roborada nos reportes 2015 de Akamai [8], Symantec [55] e Symantec 2014 [56].

A análise de tráfego nos permitirá, entre outros, detectar anomalias na rede Tor, identicar e classicar o tráfego maliciosodistinguindo-o do tráfego normalpara ser armazenado e catalogado.

3. Proteção da rede Tor: Nesta última fase, pretendemos mitigar o tráfego malicioso através de mecanismos como rewalls e IDS. Dado que Tor reconhece o bloqueio de tráfego, permitindo aos usuários procurar novas rotas para transmitir sua infor- mação, estudaremos e aplicaremos novas alternativas para reencaminhar o tráfego malicioso a honeypots ⁵.

2.2 Botnets sob Tor

A ciberdelinquência está fazendo da internet um lugar menos conável e amigável para o desenvolvimento das novas tecnologias (p.ex. comércio eletrônico, redes sociais, entre outros), degradando a experiência dos usuários, das empresas e dos governos. Este problema bem acompanhado pela evolução e desenvolvimento de novos malware, as quais são uma variedade de software hostil, intrusivo e nocivo (i.e. virus, worms, cavalos de tróia, rasomware, spyware, adware e outros programas maliciosos,). A nalidade do malware é inltrar-se em um sistema de computador alheio de forma ilícita, com o intuito de causar alguns danos, alterações ou roubo de informações (condenciais ou não). Ele pode aparecer na forma de código executável, scripts de conteúdo ativo, e outros softwares [75].

As botnets fazem parte de uma categoria muito mais complexa de malware, onde o objetivo é, na maioria dos casos, atingir algum ganho nanceiro através da tomada de

5Sistema monitorados que identicam tentativas de ataque, obtendo informações a respeito delas, incluindo programas maliciosos que seriam instalados no sistema vítima.

(19)

controle de um maior número de vítimas possíveis [12, 69]. Tais vítimas (chamadas de botclients, bots ou zumbis), após a infecção, tornam-se parte de uma rede de máquina infectadasa botnete aguardam por comandos para disparar ataques [79].

As botnets se tornaram uma ferramenta popular para fazer ataques em larga escala devido a sua capacidade de espalhar infecções amplamente e por poderem ser altamente lucrativas. Esses exemplares de malware avançados fazem uso de técnicas de polimor- smo e criptograa das mensagens trocadas de forma a evitar que sejam detectados por mecanismos de defesa baseados em assinaturas. Assim também usam protocolos de comu- nicação cifrada para enganar os tradicionais ltros de pacotes e dissimular suas atividades, impedindo a aparição de anomalias que dariam pistas de sua presença dentro dos sistemas contaminados [76].

Embora os pesquisadores venham criando e evoluindo técnicas para mitigar esse tipo de malware, os atacantes também desenvolvem novos mecanismos para dicultar sua aná- lise e construção de defesas. Assim, não existe uma solução única que seja capaz de lidar com todas as técnicas existentes para proteger os sistemas das ações destes software sos- ticados [12]. Entretanto, a combinação de soluções como técnicas de detecção especícas e avançadas, criação de ferramentas forenses de análise de tráfego e pesquisa de mecanismos para identicação de infecção pelos bots podem ajudar a mitigar seu avanço [46].

Dada a complexidade crescente deste problema, as botnets estão evoluindo para serem redes anônimas e privadas, protegendo as comunicações entre seus componentes e atualizando constantemente novas funcionalidade de ataques. Assim, a utilização da rede Tor, protocolos P2P e módulos de extensão (plugin) ensejam nova geração de botnets [74].

Desta forma, a utilização de técnicas de análise passiva sobre a rede Tor é uma al- ternativa viável para encontrar novas botnets e capturar os comportamentos suspeitos e desconhecidos no tráfego desta rede [46]. Uma forma de tornar o processo de análise de dados mais automatizado e ecaz é a aplicação de técnicas de aprendizado de máquina para análise dos pers de tráfego encontrado e sua classicação em tráfego malicioso ou não [18]. Outras formas para identicação de botnets envolvem a monitoração do comportamento de execução através do uso de honeypots especiais, sistemas de análise dinâmica ou por engenharia reversa de binários coletados, descritos em [76,77,79]

A seguir descrevemos o funcionamento das Botnets e sua evolução, concluindo com os objetivos desta pesquisa.

2.2.1 Funcionamento das Botnets

O conceito de botnets está associado ao conjunto de máquinas comprometidas que permitem ao atacante o controle remoto de recursos computacionais para realizar atividades fraudulentas ou ilícitas [29,49]. Tais máquinas utilizam um software chamado de bot (da palavra robô), o qual liga os computadores infectados a uma infraestrutura de C&C [12].

Esta infraestrutura permite que os bots se conectem a uma entidade de controle, que pode ser centralizada ou distribuída, como observamos na Figura 2.5. Para comunicação com os bots, um ou mais protocolos de comunicação são utilizados pelos botmasters⁶, i.e.

6Para controlar as operações de uma botnet é necessária uma entidade externa, denida como botmaster [77]. Um botmaster coordena as ações realizadas por cada bot, incluindo estratégias de ataques

(20)

HTML, P2P, SOCKS, RDP e outros. Tais estratégias permitem que a botnet continue operando mesmo em situações de interrupções por via judicial [73], sequestro do canal de C&C [77] ou contra-ataques de inundação dos bots [21].

(a) Botnet IRC/HTTP centralizada (B) Botnet P2P/HTTP distribuída

Servidor C&C Botmaster

Servidor C&C Servidor C&C

bot bot bot

bot bot

Botmaster

Servidores C&C e proxies

bot

bot bot

bot

Figura 2.5: Infraestruturas de uma botnet: (a) Infraestrutura centralizada; (b) Infraes- trutura distribuída.

A Figura 2.5 apresenta os principais componentes e interações do uso de botnets. Para que uma botnet continue operando é importante que novos hosts sejam constantemente recrutados, já que, uma vez que bots são identicados por sistemas de detecção, são comumente cadastrados em algum tipo de lista negra ou blacklist [38]. Por isso, identicar hosts vulneráveis e comprometê-los é uma atividade vital para o sucesso de uma botnet.

Além dos componentes já citados, uma botnet deve possuir vetores de propagação (malware) capazes de infectar novos dispositivos. Em geral, novos bots podem ser obtidos através de dois métodos: autopropagação (método ativo) ou propagação por indução (método passivo) de malware [70].

Na autopropagação, o bot busca na rede outros dispositivos com vulnerabilidades que possam ser exploradas e que permitam acesso remoto. Por outro lado, na propagação por indução, técnicas de engenharia social (por exemplo, redirecionamento de URLs) tentam ludibriar o usuário para que o mesmo execute um malware. Em ambos os casos, após a infecção do dispositivo, o host busca o canal de C&C para noticar o botmaster e aguardar novas instruções [12].

O processo para encontrar hosts vulneráveis, explorá-los e torná-los membros da botnet é denido como ciclo de vida dos bots [12], descrito na Figura 2.6. Muitos trabalhos exploram o ciclo de vida das botnets para encontrar pontos de fraqueza e interromper as operações ilícitas da rede [11,50,59].

A Figura 2.6 ilustra o ciclo de vida de uma botnet. De maneira resumida, o ciclo de vida pode ser representado pelas seguintes etapas. No Passo 1, um membro da botnet identica um host vulnerável na rede. Após a infecção desse host através dos vetores de propagação, consultas DNS são realizadas para encontrar o servidor que distribui software bot (Passo 2). No Passo 3, o host infectado baixa e instala o software bot para, nalmente, ingressar no canal de comando e controle (Passo 4).

como negação de serviço e envio de spam em massa.

(21)

Botmaster

Servidor C&C

Servidor DNS Servidor de

Distribuição de Binários

bot

bot bot

bot

Vítima Infecção Primária

Identificação e Exploração de host vulneráveis (PASSO 1)

Resposta DNS (PASSO 2) Solicitação DNS

Infecção Secundária Obtenção do software bot

(PASSO 3) Canal do

C&C

Ingresso no C&C (PASSO 4) Trafego em claro

Tráfego cifrado

Botnet

Figura 2.6: Ciclo de vida dos bots [12].

Para alguns trabalhos ( [14, 43]), o binário malicioso ou backdoor já faz parte do malware que infectou o dispositivo. Por outro lado, outros trabalhos observaram que o host comprometido realiza o download desse binário em um segundo instante (infecção secundária), a partir de um servidor que armazena o software malicioso, descrito em [11, 28,74]. Embora esses trabalhos divirjam quanto à presença do binário malicioso durante o estágio inicial de infecção, um dispositivo zumbi somente se torna útil à botnet a partir do momento em que o botmaster sabe da sua existência.

Como mostrado na Figura 2.6, a infecção do dispositivo pode ser dividida em duas etapas: primária e secundária. Na infecção primária, o host vulnerável é infectado por um malware (virus, worms, cavalos de tróia, entre outros). Em seguida, na infecção secundá- ria, o host infectado inicia o download do código malicioso para entrar em contato com o C&C. A vantagem dessa estratégia é que a botnet pode suportar versões especícas do binário malicioso para arquiteturas de computadores distintas. Portanto, computadores e outros dispositivos com poderes limitados podem ingressar na botnet [12].

Para encontrar o canal de comando e controle e unir-se aos demais membros da botnet, o bot realiza um procedimento chamado rallying. Isto refere-se ao momento em que um bot está se autenticando no servidor de comando e controle [68]. Esse procedimento pode ser realizado através de uma abordagem estática ou dinâmica. Na abordagem estática, o host comprometido utiliza o endereço IP do servidor de C&C que se encontra codicado no próprio código que o infectou [47]. Embora tal estratégia seja simples, técnicas de engenharia reversa poderiam ser usadas para revelar o endereço IP do servidor de C&C, permitindo que a botnet possa ser retirada de funcionamento [27].

Na abordagem dinâmica, o bot consulta servidores DNS (comprometidos ou não) para encontrar o endereço de nome de domínio que responde pela C&C. Tal estratégia permite ao atacante realocar a sua rede de maneira rápida, caso servidores sejam sequestrados [77].

Se a conexão falhar, o bot envia uma consulta DNS para receber o novo nome de domínio

(22)

do servidor de C&C. Existem alguns sites que fornecem esse serviço gratuitamente, como dyndns.com, onde é possível criar seu próprio domínio yourname.dydns.com e atribuir um endereço IP dinâmico para este nome. Botnets recentes, por exemplo Torpig [76], usam domínios de uxo rápido (Fast Flux Domains), onde cada bot independentemente usa um algoritmo de geração de nomes de domínios (DGA - Domain Generation Algorithm) para computar uma lista de nomes de domínios. Quando nomes de domínios são usados, é necessário usar o sistema DNS para encontrar os endereços IP das máquinas a serem contactadas.

O sucesso de uma botnet está diretamente relacionado ao tempo que o botmaster mantém a rede em funcionamento. Por isso, diferentes arquiteturas têm evoluído para tornar o canal de C&C mais resiliente. A seguir descrevemos o estado da arte das botnets.

2.2.2 Estado da arte das botnets

Embora a denição de botnets possa atender as principais tecnologias atuais, o termo botnet pode ser renado para abranger novas tendências e arquiteturas computacionais. Por exemplo, pesquisadores de uma empresa de segurança detectaram que um ataque de spam em massa tinha origem em roteadores, televisores e um refrigerador [22] Tais dispositivos conectados fazem parte da Internet das Coisas (IoT - Internet of Things) e, portanto, uma vez infectados podem ser denidos como bot das coisas (ou thingbots). Além disso, a proliferação de aplicações maliciosas para ambiente móveis (p.ex. smartphones) mostra que qualquer dispositivo conectado à Internet pode ser considerado um bot em potencial.

Desta forma, esse trabalho dene uma botnet como um conjunto de dispositivos eletrôni- cos comprometidos que são controlados remotamente por um ou mais operadores de bots (botmasters) [12].

Neste sentido, as botnets vão evoluindo frente aos desaos que são apresentados pelas reguladores da internet, governos e os pesquisadores. Assim, estas redes podem ser cate- gorizados usando uma variedade de características. Para Sood et al. [74] o protocolo de comunicação e a motivação (i.e. utilização ou ataques desempenhados) são duas métricas importantes que podem ser usadas para classicar as botnets por gerações, descritas a seguir:

1a. Geração - Nesta geração as botnets eram controladas utilizando o protocolo de In- ternet Relay Chat (IRC) e foram usadas principalmente para desenvolver ataques de negação de serviço distribuídos (DDoS), phishing ou fraude ele- trônica e roubo de credenciais de acesso ou login nas máquinas das vítimas.

2a. Geração - As botnets baseadas em IRC eram suscetíveis a ataques contra a infraestrutura de C&C. Assim, a segunda geração de botnets utilizava o protocolo Peer-to-Peer (P2P) para frustrar esta debilidade. As botnets P2P usam uma arquitetura de comunicação distribuída cliente-servidor para formar uma rede descentralizada, a qual é mais resiliente a diversos ataques e rastreamento. Também começou a ser utilizado o protocolo HTTP, dado que o tráfego P2P era suscetível a bloqueios. Assim, cou impraticável o bloqueio ao tráfego das botnets.

(23)

3a. Geração - Também conhecida como TGBs (third-generation botnets), são carac- terizadas pela motivação econômica e projeto sosticado. Estas botnets permitem utilizar módulos de extensão ou plugins para fornecer novas fun- cionalidades de ataques e atualizar os componentes que as compõem. Tam- bém estão evoluindo na utilização de redes anônimas (i.e. Tor) para proteger suas comunicações entre os bots, C&C e o botmaster, descrito na Figura 2.7. Por último, estão fazendo uso de serviços ocultos ou hidden services, os quais permitem que cada componente da botnet funcione como um servidor oculto com extensão .onion para dicultar o rastreamento dos bots pelos pesquisadores e a polícia.

TOR

Botmaster

C&C

bot bot

Trafego em claro Tráfego cifrado

Figura 2.7: Utilização da rede Tor pelas botnets para proteger suas comunicações.

Não é de se surpreender que as fronteiras entre as gerações de botnets não são bem denidas, i.e. existem botnets híbridos que combinam características de múltiplas gera- ções [74]. A seguir descrevemos os artigos mais relevantes sobre a evolução das botnets.

Stone-Gross et al. [77], [76] relatam o esforço para assumir o controle da botnet de Torpig durante um período de 10 dias. Nesse tempo, os autores observam mais de 180 mil infecções, armazenando 70GB de dados recolhidos pelos bots.

Nicholas Hopper [35] analisa um ataque desenvolvido contra Tor em agosto de 2013.

Segundo o autor, o precursor da súbita redução drástica do desempenho na rede foi devido à botnet Mevade/Sefnit. A causa principal foi o incremento da carga de processamento nos roteadores Tor causado pela grande troca de chaves necessárias para construir os circuitos cifrados anônimos. Combinado com o aumento de 1 a 6 milhões de clientes, o tempo médio para fazer download de um arquivo de 50 KB passou de 1,5 a 3 segundos.

O autor também avalia quatro estratégias com o objetivo de assegurar a disponibilidade da rede Tor sob ameaças de botnets. Entre as abordagens consideradas estão: (1) a otimização baseada em recursos que descreve duas técnicas para controlar o consumo

(24)

de recursos por parte dos roteadores Tor, i.e. Proof of Work para analisar o tempo de utilização de recursos do processador e CAPTCHA para denegar o uso de Tor por parte de sistemas autônomos; (2) a otimização do roteador de entrada (entry guard) através da limitação das conexões EXTEND para um cliente/servidor; (3) a reutilização de circuitos com falhas parciais, com o objetivo de recuperar o circuito composto pelos roteadores que não apresentam problemas de conexão (p.ex. timeout), e por conseguinte reduzindo a carga da construção de novos circuitos; e (4) isolamento de circuitos de serviços ocultos através do reconhecimento de diversos padrões como Pontos de Encontro, entre outros.

Os autores em [74] descrevem o funcionamento da botnet SpyEye de 3a. geração.

O desenho modular, a utilização do Kit de desenvolvimento de bots (similar à botnet Zeus), a arquitetura de plugins, o servidor de armazenamento como backend, o sistema de administração C&C baseado em tecnologia Web, além das técnicas de ataque e roubo de informação são descritos neste artigo.

Casenove and Miraglia [17] analisam as botnets que utilizam P2P sob Tor. Segundo os autores, estas botnets são vulneráveis aos mesmos tipos de ataques próprios da rede Tor (p.ex. rastreamente e sinkholing⁷). A utilização de Tor pode causar perda de anonimato aos atacantes através de roteadores de saídas, entre outros.

Ying [85] utilizou o algoritmo de aprendizado de máquina Naïve Bayes para classicar e detectar o tráfego cifrado das botnets Zeus, Waled, Storm e Benig, comparando com outros tráfegos cifrados. As características utilizadas (p.ex. entropia, distribuição de frequências de bytes e características de uxo com relação à porta utilizada, o tamanho do payload e o tipo de protocolo da camada de aplicação) permitiram classicar o tráfego com 95% de precisão para todas as botnets, excluindo a botnet Zeus onde se conseguiu apenas 46%.

Os autores em [84] propõem um classicador para detectar o tráfego malicioso das botnets sob P2P em comparação com o tráfego normal P2P. Para isso, eles utilizam uma metodologia composta por duas fases. A primeira fase consiste de um classicador de tráfego P2P que trabalha em duas etapas. Na primeira etapa, um classicador baseado em assinaturas é combinado com a técnica denominada de heurística de conexão para reduzir a utilização de recursos computacionais e classicar rapidamente os pacotes. Já na segunda etapa, um classicador estatístico é compensado pela heurística do padrão do protocolo. O classicador estatístico foi construído através de REPTree, um algoritmo de árvores de decisão. Na segunda fase, os autores distinguem o tráfego P2P das botnets de outros tráfegos P2P através de técnicas de aprendizado de máquina, conseguindo 97% de detecção do tráfego malicioso.

Os autores em [36] apresentam uma visão abrangente de ataques de negação de serviço distribuídos ou DDoS (Distributed Denial of Service) por botnets, taxonomia e detalhes técnicos. Além disso, são descritas a arquitetura das botnets, as técnicas utilizadas e os desaos de pesquisa nesta área.

Por último, Sanatinia e Noubir em [66] desenvolvem uma botnet, denominada de oni- onbot que trabalha sob redes privadas, como Tor. Esta pesquisa pretende analisar a

7O ataque de Sinkholing é o redirecionamento de tráfego de seu destino original para um destino especicado pelos atacantes. O destino alterado é conhecido como escoadouro, porque toda a informação desaparece.

(25)

evolução das botnets de 3a. geração. A botnet utiliza uma infraestrutura privada para evitar sua detecção e posterior análise, evitando diversas técnicas de mitigação baseadas em reconhecimento por IP. Por último, os autores desenvolveram uma técnica denominada SOAP, que neutraliza os roteadores dos bots sobre a rede privada, enfatizando a necessidade de desenvolver novas técnicas por parte da comunidade cientíca frente a esta ameaça em evolução constante.

Assim, nosso objetivo nesta pesquisa é monitorar e analisar técnicas passivas e dinâ- micas do tráfego da rede Tor, como também identicar padrões de comunicação suspeitos dos bots, C&C e botmasters destas redes. Existem diferentes técnicas de reconhecimento de padrões e IDS que podem ser aplicadas para identicar, capturar o tráfego e possíveis técnicas para bloqueá-los, as quais serão estudadas nesta pequisa.

2.2.3 Objetivos da Pesquisa sobre Tor

Dado este cenário, os objetivos de pesquisa nesse tópico são:

1. Identicação e captura de malware sobre Tor: Nesta fase, serão utilizadas diversas técnicas e ferramentas para inspecionar o tráfego da rede e identicar a presença de tráfego malicioso ou exemplares de malware em trânsito na rede Tor.

Após a identicação, o tráfego sob suspeita será analisado para o reconhecimento de comunicação envolvendo botnets, captura de exemplares ou códigos de ataque e tratamento dos artefatos coletados para classicação de amostras de malware, podendo incorrer na descoberta de malware novo.

2. Análise de comportamento de malware: Através da utilização de honeypots, sistemas de análise dinâmica e técnicas de aprendizado de máquina, o comportamento malicioso será extraído em busca de padrões úteis para o reconhecimento de ataques/infecções presentes na rede Tor.

3. Bloqueio de tráfego malicioso: Utilizando os insumos obtidos das fases anteriores, o objetivo desta fase nal é o de desenvolver métodos, técnicas e ferramentas para bloquear o tráfego malicioso detectado na rede Tor, principalmente o gerado pelos bots e o C&C.

A necessidade de analisar o tráfego não-cifrado que sai pelo roteador de saída⁸ surge da necessidade de estudar as caraterísticas observáveis dos dados que circulam pela rede Tor, dando prioridade a comunicações P2P, as quais são muito utilizadas pelos bots para se comunicarem com o C&C, além de novos malware para diversos sistemas operacionais.

Outro aspecto a pesquisar são os serviços ocultos, acessados através de Tor e o endereço onion do serviço. O problema é que muitos destes serviços ajudam a tracar armas, drogas, bens roubados ou pornograa infantil [72]. Os clientes e servidores utilizam os roteadores onion como pontos de encontro para permitir acesso aos serviços ocultos, muitos parte da Dark Web⁹ [25].

8É importante destacar que a segurança em nível de transporte que a rede Tor implementa é só até o roteador de saída (exit node).

9A Dark Web é o conteúdo privado da World Wide Web que existe nas darknets, que são redes superpostas à Internet, requerindo software especíco, congurações ou autorizações para acesso.

(26)

2.3 Serviços Ocultos sob Tor

Tor [25], de certa forma, é a rede anônima de baixa latência mais popular e pesquisada na atualidade, fornecendo aos serviços da Internet e clientes a possibilidade de anonimizar suas comunicações através de serviços ocultos ou (hidden services) (HS) [16]. Um serviço da Internet pode prover serviços ocultos ao esconder sua localização [46], isto é, não fornecer seu endereço IP.

Uma característica destes serviços ocultos é que são apenas acessíveis através de redes de anonimato como Tor. Para prover tal característica, Tor utiliza a técnica denominada Pontos de Encontro (Rendezvous Points). Neste caso, o proxy do cliente e o serviço da Internet enviam suas mensagens a um ponto de encontro (isto é, um roteador intermediá- rio), previamente estabelecido pelo serviço de diretório para desacoplar a comunicação e trocar pacotes [33] entre o cliente e o servidor, ocultando o endereço IP dos participantes.

Esta rede de sobreposição evita que os motores de busca indexem seu conteúdo, protegendo-o também de ser supervisado por organizações de vigilância global, tais como a PRIS da NSA. O mau emprego por parte dos ciberdelinquentes permitiu a criação da Dark Web, o mercado de serviços ilícitos que funciona sobre Tor. Um dos principais servi- ços ilícitos é a Silk Road 2.0. Este serviço fornece substâncias ilícitas, tráco de pessoas, pornograa infantil, venda de armas, entre outros [16], gerando em torno de US$ 1,9 milhões por mês com uma comissão de 7,5% para os operadores das transações. Estas transações utilizam bitcoins como sistema de pagamento online porque fornecem anonimato aos clientes, permitindo-os permanecer anônimos e protegidos pelos serviços ocultos da rede Tor.

Outra aplicação ilegal dos serviços ocultos são os malware. Em abril de 2012 [4], surgiu uma versão modicada da botnet Zeus. Este malware começou a operar dentro da rede Tor, permitindo aos bots comunicarem-se com seu C&C através de Pontos de Encontro.

Nesta evolução, os C&C trabalhavam como serviços ocultos e os bots como clientes. Este problema foi reportado na lista de correios da Tor-Talk [5], ocializando a existência de botnets sobre Tor. A utilização de diversas tecnologias (i.e. Tor, serviços ocultos, HTTP e outras) permitiu aos atacantes proteger seus malware até serem praticamente seguros, anônimos e rentáveis (p.ex., uma das primeiras versões de botnets sob Tor incluía um sistema de mineração de bitcoins).

Outra evidência do mal intencionado uso dos serviços ocultos é o ransomware Cryp- toLocker [66]. Este malware inovou na utilização de bitcoins para fazer pagamento do resgate dos aparelhos infetados. Utilizando uma infraestrutura privada através de Tor, os servidores de C&C permitiam anonimizar e proteger o ransomware, atualizando e melho- rando constantemente o malware.

É evidente que as agências de segurança e os governos estão tendo um limitado sucesso em combater e conter estas ameaças. Neste sentido, nossa pesquisa analisará técnicas e métodos para detectar, medir e desanonimizar os serviços ocultos mal intencionados sobre a rede Tor. Entre as técnicas a serem utilizadas estão algoritmos de aprendizado de máquina, IDS etc.

Os algoritmos de aprendizado de máquina permitem reconhecer padrões estatísticos do tráfego cifrado. Combinado com técnicas de detecção e rastreamento do tráfego malicioso,

(27)

esperamos reconhecer os pontos de encontro para localizar os serviços ocultos maliciosos da Deep Web, descritos em [12,16].

Estas técnicas e métodos serão formalizados em uma plataforma, a ser operacionalizada sob o funcionamento da rede Tor. Através da utilização de uma série de componentes roteadores Tor (entrada, intermediários e saída), rewals, IDSs, entre outrosconseguiremos levantar uma arquitetura para proteger esta rede do tráfego malicioso, gerando ferramentas, técnicas e métodos.

2.3.1 Funcionamento dos Serviços Ocultos

O serviço oculto em Tor foi introduzido em 2004 para cobrir o anonimato de volta (respos- tas) [25], permitindo concretar um circuito anônimo entre um emissor e seu receptor [16].

Especicamente, os serviços ocultos permitem a execução de serviços TCP/IP (p.ex. ser- viços Web, IRC, SSL, botnets, ransomware etc.) e esconder o endereço IP real aos clientes e ao servidor.

A arquitetura de serviço oculto é composta dos seguintes componentes (ver Figura 2.8):

• Serviço de internet, que está disponível como um serviço oculto.

• Cliente, que procura acessar o serviço oculto e car anônimo.

• Células, são pacotes utilizadas pelos nós da rede Tor para se comunicar por meio das conexões TLS com células de tamanho xo (512 bits). Estas células possuem um cabeçalho contendo um identicador do circuito (é possível usar múltiplos circuitos em uma mesma conexão TLS) e o tipo da célula, se é uma célula de conexão (relay) ou de controle.

As células de conexão carregam os dados a serem propagados no circuito e enviados para o destino nal e comandos para abrir e fechar conexões TCP e para estender o circuito virtual;

As células de controle são usadas para criar, destruir e conrmar a criação de circuitos.

• Diretório de Serviços Ocultos, ou Hidden Service Directories (HSDir), são re- positórios Tor onde os provedores de serviços ocultos publicam seus descritores. Isto permite aos clientes conhecer os endereços dos Pontos de Introdução (ver abaixo) para comunicar-se com os serviços ocultos. Para que um roteador Tor obtenha a bandeira HSDir, deve estar operacional por mais de 25 horas.

• Pontos de Introdução, ou Introduction Points (IP), são roteadores Tor escolhidos pelo serviço oculto para encaminhar as células de conexão Tor ao serviço oculto, informando o ponto de encontro (ver abaixo).

• Ponto de Encontro, ou Rendezvous Point (RP), é um roteador Tor escolhido pelo cliente para encaminhar a comunicação entre o cliente e o serviço oculto, de forma desacoplada, cifrada e utilizando o roteamento cebola.

(28)

RP IP HSDir

Serviço Oculto Cliente

RP: Rendezvous Point ou Ponto de Encontro

IP: Introduction Points ou Ponto de Introdução

HSDir: Hidden Service Directories ou Diretório de Serviços Ocultos

Figura 2.8: Funcionamento dos Serviços Ocultos em Tor.

A seguir, descrevemos o funcionamento desta tecnologia desde o ponto de vista do serviço oculto até o cliente, descrito em [10,16,25].

Funcionamento do lado do Serviço Oculto

A m de suportar esta funcionalidade, os provedores dos serviços primeiramente geram um par de chaves pública e privada para identicar seu serviço oculto. Na continuação anunciam seu serviço por distintos roteadores Tor, fazendo petições assinadas com a chave pública para que sejam utilizadas como pontos de contato (Pontos de Introdução, passo 1 da Figura 2.8) [16]. É importante enfatizar que todas as comunicações entre o cliente, roteadores e o serviço oculto utilizam circuitos ou roteamento cebola, protegendo o anonimato das comunicações.

Em seguida, o serviço oculto constrói um descritor (mensagem) composto pela chave pública e a lista de Pontos de Introdução (endereços IP dos Roteadores Tor). Depois, o descritor é assinado com sua chave privada e associado a um endereço tipo .onion. Este endereço, conhecido como ponteiro em Tor, é gerado a partir de um FQDN (fully qualied domain name) do pseudo-TLD onion (Pseudo-Top Level Domain do domínio .onion), o qual é publicado em um servidor de diretório (HSDir, passo 2). O FQDN tem a forma de <valorhash>.onion, composto de 16 caracteres em base 32 e é gerado da função hash da chave pública RSA usando o algoritmo SHA-1. O valor hash serve como identicador, para que os clientes possam solicitar o descritor do serviço ao servidor de diretório e o endereço .onion é utilizado para reconhecer os serviços ocultos de Tor e encaminhar automaticamente a requisição aos servidores de diretório.

(29)

Funcionamento do lado do Cliente

Os serviços ocultos podem ser procurados pelo cliente através de buscadores na internet.

Geralmente eles são compartilhados na forma de endereços .onion denominados de pon- teiros. É recomendado fazer a busca do ponteiro utilizando Tor para garantir o anonimato antes e durante a utilização dos serviços ocultos.

O cliente estabelece a conexão em Tor, inserindo o ponteiro. Quando Tor reconhece o endereço .onion, faz uma requisição na Tabela de Distribuição de Função Resumo ou Distributed Hash Table para procurar o descritor do serviço oculto no HSDir (Passo 3).

Caso exista o valor hash, o descritor é enviado para o cliente.

Com o descritor, o cliente cria um circuito aleatório para que funcione como Ponto de Encontro (passo 4). Para isso, o onion proxy (OP) do cliente estabelece o circuito utilizando a célula RELAY_COMMAND_ESTABLISH_RENDEZVOUS. O corpo da célula contém o cookie Rendezvous com um valor de 20 bytes arbitrários, selecionado aleatoriamente pelo OP¹⁰. Ao receber esta célula, o roteador Tor selecionado associa o cookie Rendezvous com o circuito estabelecido pelo cliente para agir como Ponto de Encontro.

Assim, o roteador anonimiza a comunicação até o cliente.

Quando o Ponto de Encontro está criado, o cliente constrói uma mensagem de intro- dução (cifrada pela chave pública do serviço oculto), incluindo o endereço do Ponto de Encontro, o hash da chave pública do serviço, o cookie Rendezvous e parte do protocolo Die-Hellman (start of a DH handshake). Assim, o cliente constrói um novo circuito para um dos Pontos de Introdução detalhado no descritor do serviço oculto, enviando-o uma célula RELAY_COMMAND_INTRODUCE1 (passo 5). Mais uma vez, a comunicação é realizada através de um circuito Tor para manter em privado a comunicação entre o cliente e o Ponto de Introdução.

Neste passo (5), se o Ponto de Introdução reconhece a chave pública de um serviço oculto que ele serve, o roteador encaminhará o corpo da célula para uma nova célula denominada RELAY_COMMAND_INTRODUCE2 ao circuito do serviço oculto correspondente.

Ao receber a a célula RELAY_COMMAND_INTRODUCE2, o OP do serviço oculto (passo 6) decifra o corpo da célula usando a chave privada do serviço correspondente e extrai o Ponto de Encontro juntamente com os outros elementos descritos acima.

Se o serviço oculto deseja estabelecer uma conexão com o cliente, construirá um novo circuito até o Ponto de encontro enviando a célula RELAY_COMMAND_RENDEZVOUS1.

Esta célula contém o cookie Rendezvous, a segunda parte do Die-Hellman e o hash da chave que compartilham (passo 7).

Neste ponto é de especial importância que o serviço oculto utilize rmemente as regras de guardas de entrada (entry guards) para criar novos circuitos ¹¹. Caso contrario, um

10O onion proxy gera um novo cookie para cada tentativa de conexão.

11Tor é vulnerável aos ataques de conrmação de tráfego: caso um adversário possa monitorar os extremos de um circuito Tor, ele pode conrmar quem está se comunicando. Isso é muito perigoso para os serviços ocultos. Assim, Tor seleciona um conjunto de roteadores como Guardas de Entrada, os quais permanecem neste status entre 30 e 60 dias. Assim, sempre que um circuito é estabelecido, um roteador de entrada é selecionado a partir de um conjunto de roteadores de guarda aleatoriamente para a primeira conexão das três. O objetivo é reduzir a probabilidade que o atacante possa ser escolhido como entrada para as comunicações do serviço oculto.

(30)

atacante pode tomar controle de um roteador Tor e forçar o serviço oculto a criar um número arbitrário de circuitos com a esperança que o roteador seja o escolhido como nó de entrada e possa descobrir o IP do serviço oculto via análise de timing [54].

Neste último passo (8), o Ponto de Encontro notica ao cliente o estabelecimento da conexão bem-sucedida enviando a célula RELAY_COMMAND_RENDEZVOUS2. A seguir, o cliente e o serviço oculto estabelecem uma comunicação cifrada e anônima sobre Tor. O Ponto de Encontro simplesmente reenvia as mensagens (cifradas ponto a ponto) do cliente para o serviço e vice-versa.

Em geral, a conexão completa entre o cliente e o serviço oculto é composta por 6 roteadores Tor: 3 deles são escolhidos pelo cliente, sendo o terceiro o Ponto de Encontro e os outros três escolhidos pelo serviço oculto. Desta forma, o cliente sabe apenas o Ponto de Encontro. Nem o serviço oculto aprende o endereço IP real do cliente nem o cliente conhece o endereço IP do serviço oculto.

2.3.2 Estados da arte dos Serviços Ocultos

A primeira publicação de ataques contra serviços ocultos em Tor foi apresentada por Øver- lier e Syverson em [54]. Este problema descrito na seção anterior, detalha a necessidade de utilizar guardas de entrada. Para montar este ataque, o atacante estabelece muitos circuitos Rendezvous, ou seja, cria diversos circuitos a um Ponto de Encontro através dos Pontos de Introdução. Além de instalar múltiplos roteadores na rede Tor, o atacante utiliza a técnica de tráfego de correlação para determinar se um deles foi escolhido como parte de um dos circuitos. Assim, se for escolhido um roteador de entrada a localização do serviço oculto seria revelada. Como resultado deste artigo, o conceito de guarda de entrada foi adicionado à especicação de serviços ocultos de Tor por Wright et al [83].

Outras abordagens de ataques foram apresentadas em Murdoch [52] e Zander [86].

Estes ataques são baseados na observação de que a temperatura da CPU pode produzir distorção no funcionamento do relógio de um computador. O ataque consiste em vigiar a marca temporal (timestamps) do servidor do serviço oculto a partir de outro computador conectado à Internet. Observa-se como a frequência do relógio do serviço apresenta distorções ao receber múltiplas conexões, causadas pelo incremento na carga de trabalho da CPU. Uma desvantagem deste ataque é que o atacante assume um modelo de mundo fechado, i.e. precisa conhecer com antecedência a lista de possíveis servidores candidatos.

Além disso, o grau de escalabilidade do ataque é limitado pelo fato de que o atacante precisa sondar cada servidor da lista, solicitando marcas temporais a todos os servidores candidatos, até encontrar um que apresente um padrão de distorção esperado no relógio do servidor.

Pustogarov [57] e Biryukov et. al. [16] analisaram a segurança dos serviços ocultos de Tor, descrevendo falhas tanto na concepção quanto na implementação, as quais permitem medir a popularidade deles arbitrariamente, desanonimizá-los e derrubá-los. Subsequente- mente, Pustogarov et al. [15] coletam 39.824 descritores de serviços ocultos com o objetivo de analisá-los e classicá-los segundo seu conteúdo. Eles concluem que a popularidade dos serviços ocultos pode ser obtida a partir da taxa de requisição dos descritores dos Diretórios de serviços ocultos. Assim, descobrem que os serviços ocultos mais populares