A Influência da observabilidade e da visualização radial no projeto de sistemas de monitoramento de redes de computadores

(1)

UNIVERSIDADEFEDERALDO RIO GRANDE DO NORTE El´etrica e de Computa¸c˜ao – PPgEEC

A Influˆ

encia da Observabilidade e da Visualiza¸

c˜

ao

Radial no Projeto de Sistemas de Monitoramento

de Redes de Computadores

Jo˜

ao Paulo de Souza Medeiros

Orientador: Prof. Dr. Paulo S´ergio da Motta Pires

Tese de Doutorado apresentada ao Pro-grama de Pós-gradua¸cão em Engenharia Elétrica e de Computa¸cão da UFRN (área de concentra¸cão: Engenharia de Computa¸cão) como parte dos requisitos para obten¸cão do t´ıtulo de Doutor em Ciências.

(2)

Medeiros, Jo˜ao Paulo de Souza.

A Influência da Observabilidade e da Visualiza¸cão Radial no Projeto de Sis-temas de Monitoramento de Redes de Computadores. / João Paulo de Souza Medeiros. – Natal, RN, 2014.

167 f.: il.

Orientador: Prof. Dr. Paulo S´ergio da Motta Pires.

Tese (Doutorado) – Universidade Federal do Rio Grande do Norte. Centro de Tecnologia. Programa de Pós-gradua¸cão em Engenharia Elétrica e de Com-puta¸cão.

1. Monitoramento de redes – Tese. 2. Sistemas complexos – Tese. 3. Obser-vabilidade de sistemas – Tese. 4. Visualiza¸cão de topologias – Tese. 5. Análise de desempenho e complexidade – Tese. I. Pires, Paulo Sérgio da Motta. II. Universidade Federal do Rio Grande do Norte. III. T´ıtulo.

(3)

(4)

(5)

Ao Prof. Paulo Sérgio da Motta Pires, pelo incentivo e apoio. Seu compromisso com a excelência ajuda-nos a descobrir do quão somos capazes. Sou grato também pelos valiosos conselhos e oportunidades, além do exemplo de profissionalismo.

Ao Prof. Agostinho de Medeiros Brito Júnior, pelo incentivo e apoio. Sou grato pois é de sua responsabilidade minha inser¸cão em pesquisa e no meio cient´ıfico.

Ao Prof. Selan Rodrigues dos Santos, pelas conversas esclarecedoras e por ter me ajudado a reﬂetir sobre os rumos de minha vida proﬁssional.

`

A minha mãe, Maria Nerivan de Souza Medeiros, pela ben¸cão, incentivo e por ter me mostrado que mãe é defini¸cão de determina¸cão e lealdade.

Ao meu pai, Josias Martinho de Medeiros, por me influenciar com os dons da paciência, supera¸cão e discernimento.

Ao meu irmão, Prof. Luiz Paulo de Souza Medeiros, pelas discussões enriquecedoras e por demonstrar de maneira própria como se tornar um profissional exemplar.

`

A minha companheira, Graciele Saionara Linhares de Lima, por sempre me ajudar a recuperar as for¸cas e reﬂetir sobre meus objetivos. Seu apoio, aten¸c˜ao e compreensividade foram fundamentais e dignos.

Ao meu filho, Pedro Joaquin de Lima Medeiros, sua anuncia¸cão e presen¸ca me proporcio-naram a base emocional, firme como rocha, que precisamos quando enfrentamos grandes desafios, além de propiciar a eleva¸cão espiritual necessária na finaliza¸cão deste trabalho.

Aos meus amigos, Franscisco da Chagas Araujo de Lima (em memória) e Maria Cassé Linhares de Lima, por terem me acolhido e ajudado de forma generosa e amável.

Aos meus amigos, Prof. João Batista Borges Neto e Prof. Luiz Paulo de Assis Barbosa, pelo apoio, pelas discussões esclarecedoras e pelos momentos de descontra¸cão.

Ao grupo de desenvolvedores do Umit, especialmente ao Adriano Monteiro Marques e ao Lu´ıs Ant´onio Basti˜ao Silva, pelo enriquecedor envolvimento no meu trabalho.

Ao criador do Nmap, Gordon ‘Fyodor’ Lion, pelos coment´arios, oportunidades e conheci-mento compartilhados.

(6)

Este trabalho apresenta um levantamento dos problemas associados à influência da observabilidade e da visualiza¸cão radial no projeto de sistemas de monitoramento para redes de grande magnitude e complexidade. Além disso, se propõe a apresentar solu¸cões para parte desses problemas.

Através da utiliza¸cão da Teoria de Redes Complexas, são abordadas duas questões: (i) a localiza¸cão e a quantidade de nós necessários para garantir uma aquisi¸cão de dados capaz de representar o estado da rede de forma efetiva e (ii) a elabora¸cão de um modelo de visualiza¸cão das informa¸cões da rede capaz de ampliar a capacidade de inferência e de entendimento de suas propriedades.

Esta tese estabelece limites teóricos para estas questões e apresenta um estudo sobre a complexidade do monitoramento eficaz, eficiente e escalável de redes.

(7)

This thesis presents a survey of problems associated to the inﬂuence of observability and radial visualization in the design of a monitoring system for huge and complex networks. In addition, there were proposed solutions for part of these problems.

Through the use of Complex Networks Theory, this thesis addresses two questions: (i) the localization and the quantity of nodes needed to ensure the gathering of data suﬃcient to eﬀectively represent the network state, and (ii) the elaboration of an information visu-alization model capable of amplify the capability of inference and understating of network properties.

This thesis establishes theoretical limits for these questions and presents a study about the complexity of an eﬀective, eﬃcient and scalable network monitoring system.

(8)

Sum´

ario

Lista de Algoritmos iii

Lista de Defini¸c˜oes vi

Lista de Figuras viii

Lista de Tabelas ix

Lista de Teoremas xii

Gloss´ario xiii

1 Introdu¸c˜ao 1

1.1 Motiva¸c˜ao . . . 2

1.2 Objetivos . . . 2

1.3 Trabalhos relacionados . . . 2

1.4 Contribui¸c˜oes . . . 5

1.5 Organiza¸c˜ao do trabalho . . . 6

1.6 Publica¸c˜oes relacionadas . . . 7

2 Projeto de monitoramento 9 2.1 Introdu¸c˜ao. . . 10

2.2 Fundamenta¸c˜ao . . . 11

2.2.1 Topologia . . . 13

2.2.2 Observadores . . . 14

2.2.3 Otimiza¸c˜ao . . . 17

2.2.4 Predicados . . . 19

2.2.5 Visualiza¸c˜ao. . . 22

2.3 Objetivos espec´ıﬁcos . . . 22

2.4 Metodologia . . . 23

3 Observabilidade de redes 25 3.1 Introdu¸c˜ao. . . 26

3.1.1 Modelo linear de representa¸c˜ao topol´ogica . . . 26

3.1.2 Modelo estocástico de propaga¸cão da informa¸cão . . . 29

3.2 Modelo proposto . . . 31

3.2.1 Observabilidade estrutural. . . 32

(9)

3.4 Considera¸c˜oes . . . 61

3.4.1 Quantidade de n´os . . . 61

3.4.2 Localiza¸c˜ao dos n´os . . . 62

4 Visualiza¸c˜ao de redes 63 4.1 Introdu¸c˜ao. . . 64

4.2 Modelo proposto . . . 66

4.2.1 Disposi¸c˜ao radial . . . 67

4.2.2 Otimiza¸c˜ao . . . 68

4.3 An´alise . . . 73

4.3.1 Tempo de execu¸c˜ao esperado . . . 73

4.3.2 Escalabilidade da visualiza¸c˜ao. . . 75

4.4 Experimentos . . . 77

4.4.1 Distribui¸c˜ao do raio da visualiza¸c˜ao . . . 78

4.4.2 Rela¸c˜ao entre o diˆametro e o raio . . . 79

4.4.3 Rela¸cão entre a eficiência e o raio . . . 80

4.5 Considera¸c˜oes . . . 80

5 Conclus˜oes 81 5.1 Resultados. . . 82

5.2 Trabalhos futuros . . . 83

A Caracteriza¸c˜ao de redes complexas 85 A.1 Introdu¸c˜ao. . . 86

A.2 M´etricas . . . 89

A.2.1 Distribui¸c˜ao dos graus . . . 89

A.2.2 Distˆancia m´edia . . . 92

A.2.3 Diˆametro . . . 96

A.2.4 Eﬁciˆencia . . . 97

A.2.5 Coeﬁciente de agrupamento . . . 98

B Representa¸c˜ao de redes complexas 101 B.1 Introdu¸c˜ao. . . 102

B.2 Topologias determin´ısticas . . . 102

B.3 Grafos aleat´orios . . . 106

B.4 Mundo pequeno. . . 108

B.5 Livre de escala . . . 110

C Resultados complementares 113 C.1 Caracteriza¸c˜ao de redes determin´ısticas . . . 113

C.2 Observabilidade. . . 121

C.3 Visualiza¸c˜ao . . . 123

Referˆencias Bibliogr´aficas 132

(10)

Lista de Algoritmos

3.1 Algoritmo (Busca do conjunto observador estrutural m´ınimo) . . . 36

3.2 Algoritmo (Rendimento) . . . 38

3.3 Algoritmo (Constru¸cão da matriz estocástica de transi¸cão). . . 39

3.4 Algoritmo (Busca do conjunto observador funcional m´ınimo) . . . 42

4.1 Algoritmo (C´alculo do espa¸co angular necess´ario) . . . 72

4.2 Algoritmo (C´alculo do raio m´ınimo) . . . 73

A.1 Algoritmo (C´alculo dos graus de entrada e sa´ıda de cada n´o) . . . 90

A.2 Algoritmo (Constru¸cão da fun¸cão de distribui¸cão dos graus) . . . 91

A.3 Algoritmo (Distância em rela¸cão a um nó) . . . 93

A.4 Algoritmo (Caminho mais curto) . . . 94

A.5 Algoritmo (Distˆancia m´edia) . . . 95

A.6 Algoritmo (Diˆametro) . . . 96

A.7 Algoritmo (Eficiência média) . . . 98

A.8 Algoritmo (Coeﬁciente de agrupamento) . . . 99

A.9 Algoritmo (Coeﬁciente de agrupamento da rede) . . . 100

B.1 Algoritmo (Cria¸c˜ao de uma rede aleat´oria). . . 106

B.2 Algoritmo (Cria¸c˜ao de uma rede de mundo pequeno) . . . 108

(11)

Lista de Defini¸

c˜

oes

2.1 Deﬁni¸c˜ao (Monitoramento) . . . 10

2.2 Defini¸cão (Nós observadores ou monitores). . . 10

2.3 Defini¸cão (Aquisi¸cão passiva) . . . 11

2.4 Defini¸cão (Aquisi¸cão ativa) . . . 11

2.5 Defini¸cão (Eficácia). . . 12

2.6 Defini¸cão (Eficiência) . . . 12

2.7 Deﬁni¸c˜ao (Escalabilidade) . . . 12

2.8 Deﬁni¸c˜ao (O conceito de topologia) . . . 13

2.9 Defini¸cão (O problema da identifica¸cão topológica) . . . 14

2.10 Deﬁni¸c˜ao (O problema da escolha dos observadores) . . . 15

2.11 Deﬁni¸c˜ao (Controlabilidade) . . . 16

2.12 Deﬁni¸c˜ao (Observabilidade) . . . 17

2.13 Defini¸cão (O problema da otimiza¸cão e aproxima¸cão) . . . 18

2.14 Defini¸cão (O problema da inferência de predicados) . . . 19

2.15 Defini¸cão (Visualiza¸cão da informa¸cão) . . . 22

2.16 Defini¸cão (O problema da apresenta¸cão da informa¸cão). . . 22

3.1 Defini¸cão (Representa¸cão eficaz) . . . 26

3.1 Premissa (Invariˆancia topol´ogica) . . . 26

3.2 Premissa (Evolu¸c˜ao discreta de estado). . . 27

3.2 Deﬁni¸c˜ao (Sistema linear discreto invariante no tempo). . . 27

3.3 Premissa (Conserva¸c˜ao da informa¸c˜ao) . . . 29

3.4 Premissa (Atingibilidade) . . . 29

3.3 Deﬁni¸c˜ao (Processo marcoviano) . . . 29

3.4 Deﬁni¸c˜ao (Conjunto observador estrutural) . . . 31

3.5 Deﬁni¸c˜ao (Conjunto observador funcional) . . . 31

3.6 Deﬁni¸c˜ao (Observabilidade estrutural) . . . 32

3.7 Deﬁni¸c˜ao (Observabilidade funcional) . . . 37

3.8 Defini¸cão (Rendimento de um nó). . . 38

3.9 Defini¸cão (Matriz estocástica regular) . . . 40

4.1 Defini¸cão (Disposi¸cão radial) . . . 67

4.2 Defini¸cão (Disposi¸cão radial expressiva) . . . 68

4.3 Defini¸cão (Disposi¸cão radial expressiva m´ınima). . . 68

4.4 Defini¸cão (Sobreposi¸cão angular) . . . 69

4.5 Defini¸cão (Sobreposi¸cão parental) . . . 69

(12)

A.5 Defini¸cão (Distribui¸cão dos graus da rede) . . . 89

A.6 Defini¸cão (Distância entre dois nós). . . 92

A.7 Defini¸cão (Distância média) . . . 95

A.8 Defini¸cão (Diâmetro) . . . 96

A.9 Defini¸cão (Eficiência) . . . 97

A.10 Defini¸cão (Eficiência média) . . . 97

A.11 Deﬁni¸c˜ao (Vizinhan¸ca) . . . 98

A.12 Defini¸cão (Coeficiente de agrupamento) . . . 99

A.13 Defini¸cão (Coeficiente de agrupamento da rede) . . . 100

C.1 Deﬁni¸c˜ao (Grafo direcionado em anel) . . . 113

C.2 Deﬁni¸c˜ao (Grafo direcionado em estrela) . . . 113

(13)

Lista de Figuras

2.1 Representa¸c˜ao do processo de monitoramento de redes . . . 10

2.2 Representa¸c˜ao das etapas do projeto de um sistema de monitoramento . . . 13

2.3 Ilustra¸c˜ao de uma ´arvoremulticast . . . 15

2.4 Representa¸c˜ao de grafos por matriz de adjacˆencia . . . 16

2.5 Representa¸cão do processo de identifica¸cão de sistemas . . . 20

2.6 Mapa auto-organiz´avel de assinaturas de sistemas operacionais . . . 20

2.7 Descritores do TCP ISN PRNG de diferentes sistemas operacionais . . . 21

2.8 Ilustra¸c˜ao do procedimento metodol´ogico . . . 23

3.1 Representa¸c˜ao em blocos da equa¸c˜ao de espa¸co de estado . . . 27

3.2 Exemplo de mapeamento topol´ogico para equa¸c˜ao de espa¸co de estado . . . 28

3.3 Matrizes de adjacˆencia das topologias determin´ısticas. . . 29

3.4 Matriz de transmiss˜ao para topologias determin´ısticas. . . 31

3.5 Exemplo de emparelhamento m´aximo em grafos n˜ao direcionados . . . 34

3.6 Rendimento dos n´os em uma rede livre de escala . . . 43

3.7 Rela¸c˜ao entre o rendimento e o grau em redes livre de escala . . . 44

3.8 Cardinalidade do conjunto observador estrutural . . . 45

3.9 Distribui¸c˜ao da quantidade de n´os observadores estruturais . . . 46

3.10 Grau esperado relativo dos n´os observadores estruturais . . . 47

3.11 Rela¸c˜ao entre o diˆametro e a observabilidade estrutural . . . 48

3.12 Rela¸cão entre a eficiência e a observabilidade estrutural . . . 49

3.13 Rela¸c˜ao entre o agrupamento e a observabilidade estrutural . . . 50

3.14 Rela¸c˜ao entre a cardinalidade deOo_e e a quantidade de rotas . . . 51

3.15 Exemplo de localiza¸c˜ao dos n´os observadores estruturais . . . 52

3.16 Rela¸c˜ao entre o rendimento e a cardinalidade de O_co . . . 53

3.17 Rela¸cão entre o rendimento e a quantidade de tráfego instantâneo. . . 54

3.18 Cardinalidade do conjunto observador funcional. . . 55

3.19 Distribui¸c˜ao da quantidade de n´os observadores funcionais . . . 56

3.20 Grau esperado relativo dos n´os observadores funcionais. . . 56

3.21 Rela¸c˜ao entre o diˆametro e a observabilidade funcional . . . 57

3.22 Rela¸cão entre a eficiência e a observabilidade funcional . . . 58

3.23 Rela¸c˜ao entre o agrupamento e a observabilidade funcional. . . 59

3.24 Rela¸c˜ao entre a cardinalidade deOo c e a quantidade de rotas . . . 59

3.25 Exemplo de localiza¸c˜ao dos n´os observadores funcionais . . . 60

4.1 Composi¸c˜ao de tra¸cados de rota para universidades brasileiras. . . 64

4.2 Ilustra¸cão das regras da visualiza¸cão por disposi¸cão radial . . . 67

(14)

4.7 Rela¸cão entre o diâmetro e o raio da visualiza¸cão . . . 79

4.8 Rela¸cão entre a eficiência e o raio da visualiza¸cão . . . 80

A.1 Tipos de representa¸c˜ao de redes complexas . . . 86

A.2 Representa¸c˜ao de redes por meio de lista de adjacˆencia. . . 88

A.3 Caracteriza¸c˜ao e transforma¸c˜ao de grafos . . . 89

B.1 Ilustra¸c˜ao das topologias em anel, em estrela e linear . . . 102

B.2 Distˆancia m´edia das topologias determin´ısticas . . . 104

B.3 Eficiência média das topologias determin´ısticas . . . 105

B.4 Exemplo de rede de mundo pequeno . . . 109

B.5 Exemplo da evolu¸c˜ao de uma rede livre de escala . . . 111

(15)

Lista de Tabelas

3.1 Influência das métricas na observabilidade . . . 61

4.1 Representa¸c˜ao por meio da utiliza¸c˜ao das propriedades retinais . . . 65

4.2 Eficácia da representa¸cão de cada propriedade retinal. . . 65

5.1 Desempenho das m´etricas de caracteriza¸c˜ao . . . 81

5.2 Influência das métricas na visualiza¸cão . . . 83

(16)

Lista de Teoremas

3.1 Teorema (Condi¸c˜ao para observabilidade estrutural) . . . 32

3.1 Lema (Correspondˆencia entre controlabilidade e observabilidade) . . . 33

3.2 Teorema (Conjunto controlador m´ınimo) . . . 35

3.1 Corol´ario (Conjunto observador estrutural m´ınimo) . . . 35

3.3 Teorema (Comportamento do processo marcoviano regular) . . . 40

3.4 Teorema (Estado est´avel do processo marcoviano regular) . . . 40

3.5 Teorema (Potˆencias da matriz de adjacˆencia) . . . 41

3.2 Lema (Regularidade da matriz de transi¸c˜ao). . . 41

3.2 Corolário (Influência do diâmetro sobre a matriz regular) . . . 41

3.3 Corol´ario (Conjunto observador funcional m´ınimo) . . . 41

4.1 Lema (Equivalencia entre o raio base e o espa¸co) . . . 68

4.2 Lema (Espa¸co angular necess´ario de um n´o) . . . 69

4.3 Lema (Espa¸co angular necess´ario para evitar sobreposi¸c˜ao angular) . . . 70

4.4 Lema (Raio base m´ınimo necess´ario para evitar sobreposi¸c˜ao angular) . . . 71

4.5 Lema (Raio base m´ınimo necess´ario para evitar sobreposi¸c˜ao parental) . . . 71

4.1 Teorema (Raio base m´ınimo para a disposi¸c˜ao radial expressiva) . . . 72

4.2 Teorema (Tempo de execu¸c˜ao esperado do algoritmo ‘espaco-angular()’) . . 73

4.3 Teorema (Tempo de execu¸c˜ao esperado do algoritmo ‘raio-minimo()’). . . . 74

4.6 Lema (Quantidade máxima de nós por área). . . 75

4.7 Lema (Quantidade máxima de nós distribu´ıdos em anéis concêntricos) . . . 75

4.8 Lema (Rela¸cão entre quantidade de nós em anéis concêntricos e a área) . . 76

4.9 Lema (Pior caso da escalabilidade em an´eis concˆentricos) . . . 77

4.4 Teorema (Escalabilidade da disposi¸c˜ao radial expressiva m´ınima) . . . 77

C.1 Lema (Distˆancia m´edia na topologia em anel) . . . 114

C.1 Corolário (Influência da paridade de|N|em E{Sring_}₎ _{. . . 114}

C.2 Corol´ario (Comportamento assint´otico de E_{Sring_}). . . 115

C.2 Lema (Distˆancia m´edia na topologia em estrela) . . . 115

C.3 Corol´ario (Comportamento assint´otico de E_{Sstar_}₎_{. . . 115}

C.3 Lema (Distˆancia m´edia na topologia em linha) . . . 116

C.4 Corol´ario (Comportamento assint´otico de E_{Sline_}₎ _{. . . 116}

C.4 Lema (Eficiência média na topologia em anel) . . . 117

C.5 Corolário (Influência da paridade de_|N_|em E_{Fring_}₎ _{. . . 117}

C.6 Corol´ario (Comportamento assint´otico de E{Fring_}₎ _{. . . 118}

C.5 Lema (Eficiência média na topologia em estrela) . . . 119

C.7 Corol´ario (Comportamento assint´otico de E_{Fstar_}) . . . 119

(17)

C.9 Lema (Conjunto observador estrutural m´ınimo da topologia em estrela) . . 121

C.10 Lema (Estado est´avel da topologia em estrela) . . . 122

C.11 Lema (Comportamento assint´otico de f(n, m) = (nm+1₋_n₎_/₍_n₋₁₎₎_{. . . . 123}

C.12 Lema (Quantidade esperada de n´os em uma ´arvore) . . . 123

(18)

Gloss´

ario

Acrˆ

onimos

BFS . . . .Breadth-First Search BGP . . . .Border Gateway Protocol CAIDA . . . .Cooperative Association for Internet Data Analysis CDF . . . .Cumulative Distribution Function DDoS . . . .Distributed Denial of Service DoS . . . .Denial of Service FIFO . . . .First-In First-Out IDS . . . .Intrusion Detection System IoT . . . .Internet of Things IP . . . .Internet Protocol IPv4 . . . .Internet Protocol version 4 IPv6 . . . .Internet Protocol version 6 IPS . . . .Intrusion Prevention System ISN . . . .Initial Sequence Number NAPT . . . .Network Address and Port Translation NAT . . . .Network Address Translation NAT-PT . . . .Network Address Translation – Protocol Translation NP . . . .Nondeterministic Polynomial Time P2P . . . .Peer to Peer PDF . . . .Probability Distribution Function PRNG . . . .Pseudo-Random Number Generator SOM . . . .Self-Organizing Map TCP . . . .Transmission Control Protocol

Simbologia

C.Q.D.. . . Demarcador contra¸c˜ao de ‘como se queria demonstrar’.

. . . Demarca fim de Algoritmos, Defini¸cões, Teoremas, dentre outros.

Representa¸c˜oes

x . . . Letras min´usculas em negrito indicam vetores coluna. ´E poss´ıvel pa-rametrizar o vetor, por exemplo, x(t) =

x1(t) · · · xn(t) ⊺

(19)

X . . . Letras maiúsculas em negrito indicam matrizes. Assim como é poss´ıvel parametrizar vetores, o mesmo é poss´ıvel com matrizes, por exemplo, uma matriz variante no tempo pode ser representa por X(t).

X . . . Letras maiúsculas caligráficas representam variáveis aleatórias.

˙

x(t) . . . Indica a derivada da fun¸cão x(_·) em rela¸cão ao tempo t. Também se aplica a funcionais em vetores e matrizes.

n! . . . Operador fatorial, deﬁnido recursivamente comon! =n(n₋1)! e com caso base 0! = 1. De forma iterativa tamb´em pode ser descrito como

n! =

n−2 Y

i=0

(n₋i),

paran_≥2.

n k

. . . Coeﬁciente binomial de ndadok, onde 0≤k≤n, deﬁnido como

n k

= n!

k!(n₋k)!,

que pode ser computado de forma eﬁciente utilizando

n k

=

k Y

i=1

n₋(k₋i)

i ,

que possui complexidade Θ(k).

δ(t), δij . . . A fun¸c˜ao delta de Kronecker, deﬁnida como

δij ,

1 sei=j

0 caso contr´ario ,

utilizada como contrapartida discreta da fun¸cão delta de Dirac. Por conveniência, é poss´ıvel usar a seguinte representa¸cão

δ(t),

1 se t= 0

0 caso contr´ario .

Dessa forma temos de forma equivalente que o valor δ(i−j) ´e 1 se

(20)

Hn . . . Indica a soma dos nprimeiros termos da s´erie harmˆonica,

represen-tada por

Hn= n X

i=1

1

i,

que diverge no limite quando n → ∞. Por´em, possui a seguinte propriedade assint´otica

lim

n→∞Hn−log(n) =γ,

ondeγ ≈0.57721 representa a constante de Euler-Mascheroni. Por-tanto, ´e poss´ıvel usar a seguinte igualdade assint´otica

Hn≃log(n) +γ,

onde o logaritmo natural ´e o da base natural e.

{x:p(x)_} . . . . Descri¸cão do conjunto representado pelos elementos x que têm a propriedade, ou predicado, p(x). Adicionalmente, o predicado p(x) pode ser descrito utilizando os operadores da lógica proposicional.

(_∀x)(p(x)) . . . Quantifica¸cão universal em rela¸cão aos elementosxque têm a propri-edade, ou predicado, p(x). A pertinência dos elementos representa-dos porxtambém pode ser descrita de forma explicita, por exemplo, (_∀x _∈ N₎₍_p₍_x_{)). Que expressa que todos os elementos do conjunto} dos números naturais possuem o predicado p. Adicionalmente, o predicado p(x) pode ser descrito utilizando os operadores da lógica proposicional.

(_∃x)(p(x)) . . . Quantifica¸cão existencial em rela¸cão aos elementosx que têm a pro-priedade, ou predicado, p(x). A pertinência dos elementos represen-tados porxtambém pode ser descrita de forma explicita, por exem-plo, (_∃x_∈N₎₍_p₍_x_{)). Que expressa que existe pelo menos um n´}_umero natural que possui o predicadop. Adicionalmente, o predicado p(x) pode ser descrito utilizando os operadores da lógica proposicional.

Nota¸c˜ao assint´otica

O(·) . . . Quando é expresso que f(n) ∈ O(g(n))[i], dize-se que existe uma constante k, tal que a fun¸cão f(n), para todo valor de n > n0, é

sempre limitada superiormente porkg(n).

Ω(·) . . . Quando é expresso quef(n)∈Ω(g(n)), dize-se que existe uma cons-tantek, tal que a fun¸cão f(n), para todo valor de n > n0, é sempre

limitada inferiormente porkg(n).

[i]_{Utiliza-se o s´ımbolo de pertinˆencia}_∈_{pois interpreta-se que o operador O(}_·_{) representa o conjunto das}

fun¸cões que são limitadas superiormente pelo seu argumento, no caso a fun¸cãog(·). O mesmo princ´ıpio

(21)

Θ(_·) . . . Quando é expresso quef(n)_∈Θ(g(n)), dize-se que existe uma cons-tantek1, tal que a fun¸cão f(n), para todo valor den > n0, é sempre

limitada inferiormente pork1g(n), e tamb´em existe uma outra

cons-tantek2, tal que a fun¸c˜ao f(n), para todo valor den > n0, ´e sempre

limitada superiormente por k2g(n). De forma equivalente, deﬁne-se

quef(n)∈Θ(g(n)) se e somente se

lim

n→∞ f(n)

g(n) =c,

parag(n) diferente de zero ou, pelo menos, sempre maior de que zero a partir de algum ponto e para 0< c <∞.

Igualdades matem´aticas

≈ . . . Valor aproximado.

≃ . . . Igualdade assintótica, isto é, sef(n)≃g(n) então

lim

n→∞ f(n)

g(n) = 1,

parag(·) inﬁnitamente diferente de zero.

∝ . . . Proporcionalidade, isto é, se f(n) _∝ g(n), então existe uma cons-tantektal quef(n) =kg(n). De forma generalista, pode considerar também a igualdade assintótica.

, . . . Igualdade por deﬁni¸c˜ao, por exemplo,

dx(t)

dt , h

dx1(t) dt · · ·

dxn(t) dt

i⊺

,

ondex(t) ´e um vetor coluna.

≡ . . . Equivalência, por exemplo, x _≡ y significa que x é definido como sendo logicamente igual à y.

Nota¸c˜ao estat´ıstica

∼ . . . Indicador de distribui¸cão de probabilidade, por exemploX ∼N(µ, σ) indica que a variável aleatória X segue uma distribui¸cão de probabi-lidade normal com médiaµ e desvio padrão σ.

Xζ . . . Resultado ou realiza¸cão ζ da variável aleatóriaX.

(22)

P(Xζ |p) . . . Probabilidade da variável aleatória X assumir a realiza¸cão ζ dado

que o predicado p´e verdadeiro.

E{X } . . . Valor esperado da variável aleatória X. No caso discreto é definido como

E_{{X }}= X

{ζ∈℧_}

XζP(Xζ),

onde℧_{´e o conjunto de poss´ıveis realiza¸c˜}_{oes da vari´}_{avel aleat´}_oria.

E{X |p} . . . Valor esperado da variável aleatória X dado que o predicado p é verdadeiro. No caso discreto é definido como

E_{{X }}= X

{ζ∈℧_}

XζP(Xζ|p),

onde℧_{´e o conjunto de poss´ıveis realiza¸c˜}_{oes da vari´}_{avel aleat´}_oria.

Operadores matem´aticos

| · | . . . Se for aplicado a um escalar, indica o seu valor absoluto. Caso seja aplicado a um conjunto, indica sua cardinalidade.

⌊·⌋ . . . O maior valor inteiro menor ou igual ao escalar.

⌈·⌉ . . . O menor valor inteiro maior ou igual ao escalar.

ρ(_·) . . . Posto de uma matriz, por exemplo dada uma matriz identidadeIn×n, ρ(I) =n.

X⊺ . . . Opera¸cão de transposi¸cão da matriz X, isto é, troca dos elementos

xij pelos elementosxji. Tamb´em pode ser aplicada a vetores, no qual

transforma vetores coluna em vetores linha, e vice-versa.

X₋Y . . . Subtra¸cão de elementos de conjuntos. Utilizando a nota¸cão de con-juntos pode ser definido por

X₋Y ,{z: (z_∈X)_∧(z /_∈Y)_},

que representa o conjunto resultante da retirada dos elementos em

X que tamb´em est˜ao em Y.

X_×Y . . . Produto cartesiano entre dois conjuntosXeY. Utilizando a nota¸c˜ao de conjuntos pode ser deﬁnido por

X_×Y ,{(x, y) : (x_∈X)_∧(y_∈Y)_},

(23)

Operadores l´ogicos

¬ . . . Operador un´ario de nega¸c˜ao.

∨ . . . Operador binário de disjun¸cão, definido como ‘ou inclusivo’.

∧ . . . Operador binário de conjun¸cão, definido com valor lógico ‘e’.

⇒ . . . Operador binário de implica¸cão, por exemplo, (a ⇒ b), onde a é denominado antecedente e b consequente. Único operador binário não comutativo.

(24)

Cap´ıtulo 1

Introdu¸

c˜

ao

“If knowledge can create problems, it is not through ignorance that we can solve them.”

Isaac Asimov

Desde sua cria¸cão até sua populariza¸cão, a Internet tem sido usada para os mais diversos fins. A influência que a Internet exerce no in´ıcio do século XXI, faz com que institui¸cões militares, cient´ıficas, pol´ıticas ou comerciais despertem um grande interesse no conhecimento de sua estrutura [Deibert et al. 2008, Deibert et al. 2010, Lordet 2012]. Esse interesse deve-se, dentre outras coisas, ao fato da Internet tornar poss´ıvel, enquanto meio de comunica¸cão, a liberdade de expressão e a pluralidade ideológica em escala global [Arsu 2011, Goodman 2011].

Este trabalho apresenta um levantamento dos problemas associados à influência da ob-servabilidade e da visualiza¸cão radial no projeto de sistemas de monitoramento para redes de grande magnitude, como a Internet, e estabelece limites teóricos para esses problemas. Além disso, esta tese se propõe a apresentar solu¸cões para parte desses problemas. É dada ênfase na localiza¸cão e na quantidade de nós necessários para garantir uma aquisi¸cão de dados capaz de representar o estado da rede de forma efetiva e na elabora¸cão de um modelo de visualiza¸cão das informa¸cões da rede com o objetivo de ampliar a capacidade de inferência e de entendimento de suas propriedades.

(25)

1.1 Motiva¸

c˜

ao

Além de existirem tentativas de desenvolver mecanismos de controle para a Internet, há também esfor¸cos para garantir sua integridade e a descentraliza¸cão estrutural de tais mecanismos de controle. Em ambos os casos, para se desenvolver qualquer tipo de sis-tema computacional voltado para algum desses propósitos, é necessário um entendimento efetivo sobre os aspectos que caracterizam redes como a Internet. Esse cenário é ainda mais cr´ıtico quando consideramos novas tendências tecnológicas como é o caso da IoT (do inglês, Internet of Things). Isso porque, nesse novo contexto, inserido no modelo de computa¸cão ub´ıqua, é considerada a conexão direta de dispositivos, principalmente os de propósito pessoal, à Internet. Torna-se evidente que o estudo das propriedades estrutu-rais e das funcionalidades dessas redes pode estabelecer limites teóricos relacionados à confidencialidade e outras questões de seguran¸ca.

O estudo dos limites teóricos para cria¸cão de um sistema de monitoramento global da Internet parece caminhar na dire¸cão do controle do fluxo da informa¸cão. Entretanto, esse estudo também é capaz de revelar em que condi¸cões os requisitos, necessários para possibilitar esse monitoramento restritivo, podem deixar de serem atendidos. Dessa forma, deixando em segundo plano o propósito final do monitoramento, este trabalho tem como motiva¸cão o entendimento dos fatores associados à influência da observabilidade e da visualiza¸cão radial na cria¸cão de um sistema de monitoramento para redes de grande escala e complexidade.

1.2 Objetivos

A cria¸cão de sistemas de monitoramento para redes de grande magnitude, deve atender, além da efetividade, a requisitos de eficiência e escalabilidade. No desenvolvimento deste trabalho, são apontados diversos problemas cr´ıticos na concep¸cão desses tipos de sistemas. Dentre eles estão: (i) a necessidade de cria¸cão de algoritmos eficientes para estimar a quantidade m´ınima e a localiza¸cão dos nós da rede que terão de coletar dados para o monitoramento e (ii) a necessidade de algoritmos eficientes para a cria¸cão de modelos escaláveis de apresenta¸cão das informa¸cões extra´ıdas no processo de monitoramento. Dessa forma, em rela¸cão aos desafios teóricos associados ao monitoramento de redes de grande escala, este trabalho se concentra em avan¸car teoricamente nessas duas questões.

1.3 Trabalhos relacionados

Nesta Se¸cão, é feita uma revisão bibliográfica dos principais trabalhos relacionados ao atual estado da arte no que se refere à inferência do estado interno da rede e da visualiza¸cão dos predicados da rede com base em sua representa¸cão topológica. As referências são apresentadas em ordem cronológica.

Inferˆencia do estado interno da rede

(26)

desempenho de pontos individuais da rede a partir de medi¸cões unicastassociadas a cada uma de suas poss´ıveis rotas. Cáceres et al. (1999) mostram que o uso de medi¸cões fim-a-fim multicast possibilita a inferência de caracter´ısticas internas da rede. Apesar de se tratar de um método de monitoramento ativo, que gera tráfego excedente na rede, a utiliza¸cão de mensagens multicast reduz esse impacto. A quantidade de tráfego necessária para se obter estimativas do estado interno da rede não é apresentada em [Cáceres et al. 1999]. Essa informa¸cão pode ser obtida a partir do estudo da escalabilidade desse modelo.

Ji & Elwalid (2002), a partir da considera¸cão de que os nós observadores estão locali-zados principalmente nas bordas da rede, apresentam as condi¸cões em que a quantidade de medi¸cões necessárias no modelo de Cáceres et al. (1999) é escalável. Especificamente, eles verificaram que a quantidade de medi¸cões cresce linearmente em rela¸cão ao tamanho da rede, ou seja, é da ordem de O(n)[i], quando não há perda de pacotes na transmissão e, portanto, é escalável. Quando considera-se a possibilidade de perda de pacotes, a quanti-dade de medi¸cões cresce de forma mais rápida comparada ao crescimento da própria rede, o que caracteriza a não escalabilidade do sistema. Porém, a premissa de que todos os nós da borda da rede são nós observadores é bastante restritiva quantitativamente. Considerando o crescimento hierárquico na quantidade de nós, pode-se chegar a uma quantidade de nós observadores de aproximadamente metade da quantidade total de nós. É conveniente que seja poss´ıvel minimizar essa quantidade.

No contexto de monitoramento de sobrecargas em uma rede, por exemplo, latência, congestionamento e falhas, Chen et al. (2007) desenvolveram um modelo capaz de mini-mizar a quantidade de nós observadores para redes de grande escala. Ao contrário do que é proposto por Ji & Elwalid (2002), os autores consideram que os enlaces é que serão mo-nitorados no lugar dos nós. Até então, sistemas eficazes com esse propósito requeriam que a quantidade de enlaces observados fosse da ordem de O(n2). A partir do procedimento de minimiza¸cão desenvolvido, Chen et al. (2007) demonstraram que essa quantidade pode ser reduzida para O(nlogn). Apesar de diminuir de forma significativa a quantidade de enlaces monitorados, a quantidade de observadores pode chegar a ser maior que a própria quantidade de nós da rede.

Gopalan & Ramasubramanian (2012) estabelecem condi¸cões necessárias e suficientes para que seja poss´ıvel utilizar apenas um observador para estimar de forma eficaz in-forma¸cões sobre métricas de enlace aditivas como, por exemplo, latência e distância. Para computar a quantidade m´ınima e a localiza¸cão dos observadores quando essas condi¸cões não se fazem presentes, os autores apresentam um algoritmo de tempo polinomial, espe-cificamente, da ordem de O(n2). Porém, não há indica¸cão da quantidade e da localiza¸cão esperada dos nós observadores.

Visualiza¸c˜ao de predicados com base na topologia

O entendimento da estrutura de uma rede é um problema permanentemente abordado na visualiza¸cão da informa¸cão. Sua aplicabilidade em redes de comunica¸cão tem como interesse, por exemplo, apresentar de forma adequada o grau de conectividade em uma rede e a distância entre seus nós. Esse problema é abordado por Yee et al. (2001) com base em uma aplica¸cão interativa para explora¸cão de grafos sendo a visualiza¸cão de sua estrutura topologia disposta de forma radial. Os autores verificaram que a forma interativa como a aplica¸cão foi desenvolvida, onde é permitida a habilidade de mudar o foco da visualiza¸cão,

(27)

entusiasma os usuários a fim de descobrir propriedades relacionadas à localiza¸cão dos nós da rede. Apesar de exitoso, esse trabalho deixa como desenvolvimento futuro a questão de escalabilidade quando a rede possui uma grande quantidade de nós. Sugestões de pior caso de escalabilidade são encontrada na literatura [Battista et al. 1998], mas o melhor caso e o comportamento esperado dessa escalabilidade não são conhecidos.

A visualiza¸cão por disposi¸cão radial tem como finalidade inicial a apresenta¸cão de estrutura hierárquicas, ou seja, árvores. Isso pode ser considerado uma desvantagem asso-ciada à sua utiliza¸cão. Porém, como apresentado por Kim et al. (2004), redes complexas são fortemente caracterizadas por seu núcleo de comunica¸cão (communication kernel, ou backbonepara redes de computadores) que tem uma forte correla¸cão com a topologia ori-ginal. Esse núcleo de comunica¸cão é criado com base em uma métrica de centralidade [Newman 2003] e no estudo das árvores de cobertura [Kruskal 1956]. De fato, a utiliza¸cão de métricas baseadas em centralidade é uma abordagem já utilizada no projeto de algorit-mos de roteamento [Oliveira et al. 2010, Raalgorit-mos et al. 2012]. Portanto, em vez de se tornar uma desvantagem, a caracter´ıstica centrada na visualiza¸cão de estruturas hierárquicas da visualiza¸cão por disposi¸cão radial a torna ainda mais adequada. Adicionalmente, Kim et al. (2005) verificam também que, para redes livre de escala, a distribui¸cão dos graus da ´

arvore que representa o núcleo de comunica¸cão também é livre de escala.

Em rela¸cão à qualidade da visualiza¸cão, tem-se que a minimiza¸cão de cruzamentos entre arestas é um dos principais critérios para legibilidade. Em seu trabalho, Bachmaier (2007) demonstra que a visualiza¸cão radial é mais flex´ıvel para rotear arestas quando comparada a visualiza¸cão tradicional. De fato, Bachmaier (2007) verificou experimentalmente que a utiliza¸cão da disposi¸cão radial possibilita em média uma redu¸cão de 30% na quantidade de cruzamentos entre arestas quando comparada à sua contrapartida cartesiana. Isso é poss´ıvel a partir do uso de um algoritmo da ordem de O(en2_{). Ainda segundo Bachmaier}

(2007), a representa¸cão de grafos por disposi¸cão radial é bem adaptada à visualiza¸cão de propriedades centrais, o que também é verificado por Ham & Wattenberg (2008).

Medeiros & Santos (2008) apresentam o uso da visualiza¸cão proposta por Yee et al. (2001) para representa¸cão de predicados associados à seguran¸ca em redes de computadores. Com o objetivo de apresentar solu¸cões para as questões de escalabilidade, os autores utilizam técnicas de agrupamento dos nós, prioriza¸cão do foco da visualiza¸cão e ajuste do raio. O controle desses parâmetros é feito pelo próprio analista, de forma que é necessário o desenvolvimento de técnicas de ajuste preliminar desses parâmetros. Essas técnicas, no entanto, podem ter como base o estudo da escalabilidade da visualiza¸cão.

(28)

Solu¸c˜oes propostas

Como não há um estudo sobre a observabilidade da rede considerando o monitora-mento passivo, em que o processo de monitoramonitora-mento não gera tráfego excedente, tem-se a defini¸cão da primeira proposta desse trabalho: desenvolver um modelo eficaz e algorit-mos eficientes que permitam o projeto de observabilidade passiva de redes em rela¸cão à localiza¸cão ótima dos nós observadores.

Como também não há um estudo sobre a escalabilidade da visualiza¸cão por disposi¸cão radial, propõe-se desenvolver um modelo otimizado para visualiza¸cão de redes de larga escala que permita a utiliza¸cão de algoritmos eficientes e de uma quantidade de recursos computacionais escalável, sem comprometer sua eficácia.

1.4 Contribui¸

c˜

oes

Os desenvolvimentos teóricos, a análise de desempenho das solu¸cões propostas e as implica¸cões dos resultados observados no projeto de sistemas de monitoramento de redes, para as duas questões apresentadas na Se¸cão1.2, compõem a maior parte das contribui¸cões deste trabalho. Além disso, com base na revisão bibliográfica apresentada na Se¸cão1.3, é poss´ıvel destacar os seguintes fatos: (i) não há um estudo sobre a quantidade m´ınima e a localiza¸cão dos nós observadores em rela¸cão ao monitoramento passivo da rede e (ii) não há um estudo sobre a escalabilidade esperada da visualiza¸cão por disposi¸cão radial. Portanto, as contribui¸cões são discriminadas a seguir na ordem em que são apresentadas. Com base na descri¸cão de redes através da Teoria de Sistemas Complexos e das equa¸cões de espa¸co de estado, foi elaborado um algoritmo capaz de definir a quantidade m´ınima de nós observadores (aqueles que atuarão como sensores na rede) para monitorar uma dada topologia. Esse problema é abordado de duas formas: (i) a localiza¸cão e a quan-tidade m´ınima de nós observadores necessários para se estimar o estado de todos os nós da rede de forma passiva e (ii) a localiza¸cão e a quantidade m´ınima de nós observadores necessários para se capturar uma determinada propor¸cão do tráfego de informa¸cão na rede em um dado instante. Esses dois subconjuntos de nós observadores da rede, denominados nós observadores estruturais e nós observadores funcionais, estão associados diretamente à topologia da rede, considerando a forma como os estados de nós adjacentes interagem e as entidades que regem o tráfego das informa¸cões, por exemplo, os algoritmos de roteamento. Utilizando os algoritmos desenvolvidos para o estudo de observabilidade de redes, fo-ram realizados experimentos a fim de relacionar propriedades de redes livre de escala (por exemplo, grau dos nós observadores e quantidade de nós em rela¸cão ao diâmetro da rede) com a quantidade e a localiza¸cão dos nós observadores. Além disso, são explora-das também as propriedades de observa¸cão de redes com topologias determin´ısticas (em anel, em estrela e linear), que também é uma contribui¸cão deste trabalho. É importante destacar que o conjunto de nós observadores estruturais possui caracter´ısticas distintas daquelas encontradas no conjunto de nós observadores funcionais. Por exemplo, enquanto os nós observadores funcionais tendem a se concentrar na parte central da rede, os nós observadores estruturais se concentram nas bordas.

(29)

for-mal do modelo de visualiza¸cão. Tanto o modelo formal, quanto o processo de otimiza¸cão, também são contribui¸cões deste trabalho. É provada a escalabilidade do modelo de visua-liza¸cão demonstrando formalmente que ela atinge o limite teórico inferior no melhor caso. Da mesma forma é demonstrado o tempo de execu¸cão linear do algoritmo proposto.

1.5 Organiza¸

c˜

ao do trabalho

Além desta Introdu¸cão, o trabalho está organizado em mais quatro Cap´ıtulos e três Apêndices, cujos conteúdos são individualmente discriminados a seguir.

No Cap´ıtulo 2, trata-se dos fundamentos associados ao projeto de sistemas de mo-nitoramento de redes de computadores. Nele é definido o contexto de aplica¸cão assim como todas as defini¸cões fundamentais relacionadas à bibliografia e aos desenvolvimentos teóricos deste trabalho. Ainda nesse Cap´ıtulo, são descritos, de forma mais elaborada, os problemas relacionados à cria¸cão de um sistema de monitoramento de redes de grande escala. Finalmente, com base em uma defini¸cão estendida dos objetivos espec´ıficos, é descrita a metodologia utilizada no desenvolvimento do trabalho.

As contribui¸cões do trabalho no que se refere à quantidade m´ınima e localiza¸cão dos nós observadores, são apresentadas no Cap´ıtulo3. Inicialmente, é apresentado o modelo de representa¸cão de redes, que tem como objetivo dar suporte aos algoritmos de identifica¸cão do subconjunto dos nós observadores. Em seguida, são apresentados os algoritmos para identifica¸cão do conjunto observador estrutural m´ınimo e do conjunto observador funcional m´ınimo. Utilizando os algoritmos desenvolvidos, são apresentados experimentos a fim de relacionar propriedades de redes livre de escala com a quantidade e localiza¸cão dos nós observadores. Finalmente, são realizados experimentos tendo como exemplo dados de levantamentos topológicos da Internet.

A apresenta¸cão dos dados em um sistema de monitoramento é fundamental para o entendimento dos predicados da rede a ser monitorada. Dessa forma, o modelo de visu-aliza¸cão dessas informa¸cões deve propiciar uma representa¸cão das informa¸cões que seja adequada à escala da quantidade dos dados. No Cap´ıtulo 4, é definido um modelo eficaz de representa¸cão de topologias utilizando a visualiza¸cão por meio da disposi¸cão radial. Esse modelo é otimizado a fim de minimizar a quantidade de espa¸co necessário para vi-sualiza¸cão de topologias sem que haja preju´ızo das propriedades visuais das entidades de representa¸cão da informa¸cão. Um algoritmo de tempo linear é desenvolvido com base na solu¸cão do problema de otimiza¸cão. Finalmente, tanto o tempo de execu¸cão do algoritmo quanto a escalabilidade do modelo são demostradas.

Por fim, no Cap´ıtulo 5, são sumarizados e discutidos os resultados do trabalho e, com base no estudo realizado em cada Cap´ıtulo, são ainda apresentados poss´ıveis direci-onamentos para novas pesquisas. Resultados indiretos e algumas defini¸cões utilizadas no trabalho estão organizadas nos Apêndices. Especificamente, o modelo de caracteriza¸cão de topologias utilizado neste trabalho para estudar as propriedades do monitoramento de redes, é apresentado no Apêndice A. Inicialmente, são definidas os conceitos básicos e as propriedades de grafos e de seus elementos fundamentais. Em seguida, são apresentadas métricas de caracteriza¸cão de redes complexas.

(30)

Apêndice são utilizados na modelagem e análise das solu¸cões propostas neste trabalho. Finalmente, no Apêndice C, são apresentadas demonstra¸cões complementares utilizadas em cada um dos Cap´ıtulos. Basicamente, esse Apêndice contém uma série de resultados utilizados no desenvolvimento teórico apresentado neste trabalho.

1.6 Publica¸

c˜

oes relacionadas

Durante o desenvolvimento desta tese, foram publicados cap´ıtulos de livros, artigos em conferências e em periódicos. As publica¸cões relacionados à esta tese são listadas a seguir.

Cap´ıtulos de livros

1. Medeiros, J.P.S.; Borges Neto, J.B.; Brito J´unior, A.M.; Pires, P.S.M. Learning Remote Computer Fingerprinting, Computational Intelligence in Digital Foren-sics, Springer, Studies in Computational Intelligence, ISSN 1860-949X, 2014 (aceito para publica¸c˜ao).

2. Medeiros, J.P.S.; Borges Neto, J.B.; Queiroz, G.S.D.; Pires, P.S.M. Intelligent Remote Operating System Detection, Case Studies in Intelligent Computing: Achievements and Trends, ISBN 978-1-4822-0703-3, CRC Press, Taylor and Francis, 2014.

Conferˆencias

1. Medeiros, J.P.S.; Brito J´unior, A.M.; Pires, P.S.M. A New Method for Recog-nizing Operating Systems of Automation Devices, 14th IEEE International Conference on Emerging Technologies and Factory Automation (ETFA), 2009. Pro-ceedings of ETFA 2009, ISSN 1946-0759, pages 1-4, ISBN 978-1-4244-2727-7, 2009. 2. Medeiros, J.P.S.; Brito J´unior, A.M.; Pires, P.S.M.A Data Mining Based

Analy-sis of Nmap Operating System Fingerprint Database, 2nd International Workshop on Computational Intelligence in Security for Information Systems (CI-SIS), 2009. Computational Intelligence in Security for Information Systems, ISBN 978-3-642-04090-0, Springer, Advances in Soft Computing, ISSN 1867-5662, volume 63, pages 1-8, 2009.

3. Medeiros, J.P.S.; Brito J´unior, A.M.; Pires, P.S.M. An Effective TCP/IP Fin-gerprinting Technique Based on Strange Attractors Classification, 2nd International Workshop on Autonomous and Spontaneous Security (SETOP), 2009. Data Privacy Management and Autonomous Spontaneous Security, ISBN 978-3-642-11206-5, Springer, Lecture Notes in Computer Science (LNCS), ISSN 0302-9743, volume 5939, pages 208-221, 2010.

4. Medeiros, J.P.S.; Brito J´unior, A.M.; Pires, P.S.M. A Qualitative Survey of Ac-tive TCP/IP Fingerprinting Tools and Techniques for Operating Systems Identification, 4th International Workshop on Computational Intelligence in Secu-rity for Information Systems (CISIS), 2011. Computational Intelligence in SecuSecu-rity for Information Systems, ISBN 978-3-642-21322-9, Springer, Lecture Notes in Com-puter Science (LNCS), ISSN 0302-9743, volume 6694, pages 68-75, 2011.

(31)

Com-plex Systems for the Next Decade: A Conference in Honor of Eugene Stanley and Liacir Lucena, Book of Abstracts, page 37, 2011.

Peri´odicos

1. Medeiros, J.P.S.; Santos, S.R.; Brito J´unior, A.M.; Pires, P.S.M. Advances in Network Topology Security Visualisation, International Journal of System of Systems Engineering (IJSSE), ISSN 1748-0671, Inderscience, volume 1, number 4, pages 387-400, 2009.

2. Medeiros, J.P.S.; Brito J´unior, A.M.; Pires, P.S.M.Using Intelligent Techniques to Extend the Applicability of Operating System Fingerprint Databases, Journal of Information Assurance and Security (JIAS), ISSN 1554-1010, volume 5, issue 4, pages 554-560, 2010.

(32)

Cap´ıtulo 2

Projeto de monitoramento

“We can only see a short distance ahead, but we can see plenty there that needs to be done.”

Alan Mathison Turing

O entendimento dos fundamentos associados ao projeto de sistemas de monitoramento de redes de computadores é condi¸cão necessária para o desenvolvimento teórico a que se propõe este trabalho. Este Cap´ıtulo tem por objetivo apresentar o contexto no qual enquadra-se o monitoramento de redes. Além disso, são apresentadas algumas defini¸cões que serão utilizadas ao longo da tese.

(33)

2.1 Introdu¸

c˜

ao

O monitoramento em redes pode ser definido como o processo de realizar medi¸cões de suas propriedades a fim de inferir alguma informa¸cão de interesse a partir dessas medi¸cões [Dilman & Raz 2002]. Essas informa¸cões, denominadas predicados, podem ser repassados para outros sistemas que têm como responsabilidade atuar na rede a fim de mantê-la em um estado desejável. Dessa forma, não necessariamente as informa¸cões sin-tetizadas são apresentadas ou assistidas por algum indiv´ıduo que desempenhe o papel de analista da informa¸cão. Apesar de opcional, a visualiza¸cão de dados de monitoramento pode auxiliar no processo de tomada de decisão assistida, como por exemplo, através da minera¸cão visual de dados. Por esse motivo, estendemos a defini¸cão de monitoramento adicionando ao processo mais uma incumbência, a da apresenta¸cão de informa¸cões por meio da visualiza¸cão cient´ıfica [Card et al. 1999]. O processo de monitoramento, com a apresenta¸cão visual de informa¸cões, é definido a seguir e apresentado na Figura2.1.

Defini¸cão 2.1 (Monitoramento). O processo de monitoramento é definido como a com-posi¸cão de 3 etapas distintas: (i) aquisi¸cão de dados extra´ıdos da rede, (ii) processamento dos dados a fim de inferir predicados da rede e (iii) apresenta¸cão dos predicados com base

em um modelo visual adequado.

aquisição de dados 1

processamento 2

apresentação da informação 3

extração de dados da rede

informação dados

modelo de apresentação da informação rede

modelo

Figura 2.1: Representa¸cão do processo de monitoramento de redes de computadores divido em três etapas: (1) aquisi¸cão de dados extra´ıdos da rede, (2) processamento dos dados a fim de extrair informa¸cões relevantes ao entendimento do funcionamento de algum aspecto da rede em questão e (3) apresenta¸cão da informa¸cão com base em um modelo.

No processo de monitoramento, nem todos os nós possuem a capacidade de extrair e repassar dados da rede para outros nós. Isso pode acontecer por limita¸cões computacionais do nó ou por questões de acesso restrito ao nó ou ao próprio dado. Dessa forma, a seguinte defini¸cão tem como objetivo discriminar os nós que são usados para essa finalidade.

Defini¸cão 2.2 (Nós observadores ou monitores). Dentre o conjunto de nós da rede, o subconjunto de nós que é designado para a etapa de aquisi¸cão de dados é denominado

conjunto de n´os observadores.

(34)

Com o objetivo de estabelecer conceitos relevantes para o entendimento deste trabalho, faz-se necessário um esclarecimento mais detalhado sobre a etapa de aquisi¸cão de dados. A forma como esses dados são capturados diferem quanto à atividade ou passividade do nó observador. Nesse sentido, são duas as formas como o nó observador pode capturar esses dados da rede, definidas a seguir.

Defini¸cão 2.3 (Aquisi¸cão passiva). A aquisi¸cão de dados é dita passiva quando o nó observador coleta apenas dados locais ou que trafegam diretamente por ele.

Defini¸cão 2.4 (Aquisi¸cão ativa). A aquisi¸cão de dados é denominada ativa quando o nó observador utiliza-se de comunica¸cão com outros nós da rede a fim de gerar dados

relevantes para o processo de monitoramento.

A forma natural de captura dos dados é por meio de métodos passivos, em que não há necessidade de gerar tráfego excedente na rede (ou overhead). Outra caracter´ıstica da aquisi¸cão passiva de dados, é que o processo de aquisi¸cão pouco altera o estado da rede. Dessa forma, a influência do processo de monitoramento na medi¸cão é minimizada. Por esse motivo, os métodos passivos devem ser utilizados preferencialmente. Exemplos de dados que são obtidos com a utiliza¸cão de métodos passivos são: (i) tabelas de rotas e (ii) quantidade de dados trafegados por unidade de tempo.

Infelizmente, nem sempre informa¸cões relevantes para o entendimento da rede podem ser extra´ıdas dos dados que são gerados espontaneamente. Um exemplo é quando o nó que possui esse dado não pode ser um nó observador. Nesses casos, a utiliza¸cão de métodos ativos se faz necessária. Exemplos de dados que são obtidos com a utiliza¸cão de métodos ativos são: (i) rotas (via traceroute), (ii) identifica¸cão de servi¸cos em máquinas remotas (via port scan), e (iii) identifica¸cão de dispositivos, como firewall, proxies, e sistemas operacionais (via operating system detection).

Na etapa de processamento, independente do método de aquisi¸cão, os dados advin-dos da primeira etapa são utilizados para compor predicados sobre a rede. Temos como exemplo: (i) a reconstru¸cão da topologia a partir do tra¸cado de rotas ou de tabelas de rotas, (ii) a classifica¸cão do sistema operacional de dispositivos remotos a partir da análise de pacotes e (iii) a descoberta de servi¸cos e de sua versão a partir da análise de pacotes. Uma vez extra´ıdos, os predicados da rede podem servir de informa¸cão de entrada para outros sistemas ou, simplesmente, podem ser apresentados em um modelo visual da rede. Exemplos de sistemas em que esses predicados podem servir de entrada são os sistemas de deteçcão de intrusão (IDS, do inglês, Intrusion Detection System) e os sistemas de preven¸cão contra intrusão (IPS, do inglês,Intrusion Prevention System).

Dado o contexto de monitoramento de redes apresentado nesta Se¸cão, serão definidos na próxima Se¸cão os problemas associados à cria¸cão de um sistema de monitoramento. Es-pecificamente, serão esclarecidos em quais pontos o desenvolvimento cient´ıfico é suficiente e em quais pontos deve-se avan¸car para tornar poss´ıvel a cria¸cão de sistemas eficientes.

2.2 Fundamenta¸

c˜

ao

Um dos grandes desafios do monitoramento de uma rede como a Internet está rela-cionado à escalabilidade, dada a quantidade de elementos que compõem essa rede. Por exemplo, em uma rede como a Internet, cuja camada de rede é baseada no protocolo IP (Internet Protocol), o número de nós pode ser da ordem de 232_{, se considerarmos o campo}

(35)

o campo de endere¸camento IPv6 (IP versão 6) [Deering & Hinden 1998]. Se considerarmos a utiliza¸cão de redes privadas criadas, por exemplo, com a utiliza¸cão de NAT (Network Address Translation) [Egevang & Francis 1994, Srisuresh & Egevang 2001] ou NAT-PT (Protocol Translation) [Tsirtsis & Srisuresh 2000], esse número pode ser significativamente maior. Por esse motivo, o projeto de uma estrutura de monitoramento de uma rede desse porte deve ser embasado em estudos que considerem a otimiza¸cão de cada uma das etapas do processo descrito na Figura2.1.

O projeto de um sistema de monitoramento, como o descrito na Defini¸cão 2.1, deve ser eficaz, eficiente e escalável. Com o objetivo de evitar ambiguidades, neste trabalho, definimos os termos ‘eficaz’, ‘eficiente’ e ‘escalável’ para qualificar um sistema ou modelo.

Defini¸cão 2.5 (Eficácia). Entende-se por sistema (ou modelo) eficaz aquele que produz um resultado consistente em rela¸cão à sua entrada. De tal forma que se a entrada do sistema é consistente, a sa´ıda também deve ser consistente.

Em um sistema de monitoramento eficaz os predicados apresentados refletem de forma fiel o estado real da rede. Por exemplo, a topologia da rede apresentada pelo sistema expressa as conexões entre os nós de forma consistente, ou seja, a topologia apresentada não difere substancialmente da topologia real. Isso é poss´ıvel desde que os dados capturados e a inferência de predicados sejam corretos, adequados e suficientes.

Defini¸cão 2.6 (Eficiência). Entende-se por sistema (ou modelo) eficiente aquele que minimiza a quantidade de tempo necessário para produzir resultados. Quando esse tempo atinge o limite teórico m´ınimo, diz-se que a eficiência é de melhor caso.

O tempo total necessário para realizar o monitoramento, desde a etapa de aquisi¸cão dos dados até a apresenta¸cão da informa¸cão, é um parâmetro que caracteriza, em termos gerais, a eficiência do sistema. Se esse tempo cresce de forma muito mais rápida em rela¸cão ao crescimento da própria rede, então o sistema não pode ser dito eficiente. Por exemplo, se o tempo necessário para capturar os dados adequados e suficientes para descrever a topologia de uma rede de n nós é da ordem de 2n, a simples aquisi¸cão desses dados impossibilita todo o processo de monitoramento para valores de n maiores que apenas algumas dezenas. Essa configura¸cão hipotética caracteriza uma incompatibilidade entre a eficácia e a eficiência do sistema. Isso porque, no exemplo citado, para ser eficaz é necessário que haja um tempo de espera da ordem exponencial, o que torna o sistema ineficiente. É, então, necessário um estudo para que haja um balanceamento entre essas duas qualidades do sistema.

Quando esse tipo de incompatibilidade surge, é comum o modelo recair em um pro-blema de otimiza¸cão combinatória. Nessa classe de problemas, é natural a constata¸cão da classifica¸cão do problema como NP-árduo (Nondeterministic Polynomial Time) [Cormen et al. 2009]. Problemas que pertencem a essa classe não são pass´ıveis de resolu¸cão exata mesmo para instâncias de tamanho razoável. Uma solu¸cão para contornar esse impasse computacional se dá por meio da utiliza¸cão de algoritmos aproximativos. A utiliza¸cão de algoritmos aproximativos objetiva a resolu¸cão do problemas de forma aproximadamente ótima. Métodos de busca estocástica, como é o caso dos algoritmos genéticos [Goldberg 1989], são candidatos para resolu¸cão desses problemas.

(36)

Além de capturar e processar os dados de forma eficaz e eficiente, é necessário arma-zenar as informa¸cões antes de serem processadas. Por exemplo, sabendo que os dados utilizados para criar a topologia podem ser baseados na coleta de tabelas de rotas de al-gum protocolo de roteamento, se essas tabelas de roteamento crescem de forma linear em rela¸cão ao número de nós da rede, a quantidade de espa¸co de armazenamento necessário pode extrapolar a capacidade do sistema. Isso porque a quantidade de espa¸co para arma-zenar as rotas será quadrática em rela¸cão ao número de nós. Portanto, para ser praticável, o sistema, além de eficaz e eficiente, deve ser escalável. A Figura 2.2 ilustra as rela¸cões entre as etapas do projeto de um sistema de monitoramento.

identiﬁcação de topologia 1

deﬁnição de observadores 2

otimização e aproximação 3

construção de predicados 4

elaboração da visualização 5

analista de informação

interação exploração

extrapolação

dados a

b

c d

e

f

g

h

Figura 2.2: Representa¸cão das etapas do projeto de um sistema de monitoramento. As rela¸cões entre as etapas do projeto são identificadas pelos rótulos comentados a seguir: (a) descoberta da topologia da rede, (b) defini¸cão dos nós observadores a partir da topologia, (c) otimiza¸cão de pro-cedimentos influenciados pela topologia, (d) modelo de gerenciamento dos dados adquiridos pelos observadores, (e) otimiza¸cão de procedimentos influenciados pela localiza¸cão dos nós observado-res, (f) preprocessamento dos dados para inferência de predicados, (g) análise dos dados a fim de estabelecer estruturas visuais adequadas para visualiza¸cão da informa¸cão e (h) apresenta¸cão da informa¸cão para o analista cuja intera¸cão ajuda a extrapolar informa¸cões acerca da topologia e explorar os dados por meio da interpreta¸cão dos predicados.

Como apresentado pela Figura2.2, não há explicitamente uma etapa inicial no desen-volvimento de um sistema de monitoramento, já que há uma interdependência entre as etapas. Nesse sentido, é importante ressaltar que a metodologia do projeto de um sistema de monitoramento deve considerar um desenvolvimento paralelo de etapas dependentes entre si. A seguir, serão levantadas alguma questões fundamentais que relacionam os desafios associados ao projeto desse sistema.

2.2.1 Topologia

A identifica¸cão de topologia é um dos problemas mais desafiadores do projeto de um sistema de monitoramento. Mesmo a defini¸cão do significado real do termo é algo que pode causar desentendimentos. Para evitar esse transtorno, define-se o que se deve entender pela utiliza¸cão do termo topologia neste trabalho.

Defini¸cão 2.8 (O conceito de topologia). Entende-se por topologia de uma rede, qual-quer descri¸cão da interconexão de seus nós em um dado instante de tempo. No caso da topologia de redes de computadores, consideram-se nós dispositivos com capacidades computacionais e de comunica¸cão e suas conexões como canais f´ısicos ou lógicos de

(37)

De acordo com essa Defini¸cão, pode-se falar de dois tipos diferentes de topologia da Internet: (i) a da camada de enlace (n´ıvel 2) e (ii) a da camada de rede (n´ıvel 3). A identi-fica¸cão da topologia de uma rede descentralizada como a Internet, baseada em um conjunto de protocolos não projetados para permitir tal identifica¸cão, exige a utiliza¸cão de técnicas que não têm como garantir confiabilidade. Por exemplo, Albert et al. (2000) cometeram o engano de confiar em dados dessa natureza. Os problemas relacionados à identifica¸cão da topologia estão intrinsecamente associados à interpreta¸cão de propriedades baseadas na má utiliza¸cão dos dados [Alderson & Doyle 2010, Roughan et al. 2011]. Os trabalhos que evidenciam as razões desse problema atribuem a confusão a dois fatos: (i) utiliza¸cão de modelos diferentes que fazem suposi¸cões também diferentes e (ii) diferen¸cas metodológicas que resultam em resultados distintos [Doyle et al. 2005, Willinger et al. 2009]. De forma geral, os dados utilizados são gerados por ferramentas que tra¸cam rotas (traceroute) entre nós e realizam uma composi¸cão dessas rotas, ou são coletados através de informa¸cões ori-ginadas de protocolos de roteamento, como o BGP (Border Gateway Protocol) [Rekhter et al. 2006]. Porém, nem o tra¸cado de rotas [Zhang et al. 2011] nem o protocolo BGP fo-ram projetados para realizar o levantamento topológico de uma rede [Roughan et al. 2011]. Portanto, com a utiliza¸cão desses dados, tem-se o comprometimento da eficácia do sistema. Para solucionar esse impasse, novas técnicas de reconhecimento topológico e modelos da Internet são desenvolvidos. Um novo conjunto de ferramentas de estudo, denominadas como tomografia da Internet [Coates et al. 2002], são uma alternativa (ou complemento) aos métodos de tra¸cado de rotas e baseados em tabelas de roteamento. Essas novas técnicas apresentam, em rela¸cão à descoberta da topologia da Internet, uma forma eficaz de des-cobrir a topologia e prometem também ser razoavelmente eficientes e escaláveis [Erikson et al. 2012]. Contudo, para se validar essas técnicas é necessária uma avalia¸cão dos seus resultados e essa avalia¸cão deve ter como base um ambiente de testes significativamente parecido com a Internet. Técnicas e modelos que não possuam uma valida¸cão adequada estão sujeitos aos mesmos problemas identificados no trabalho de Albert et al. (2000). Porém, o requisito de um ambiente de controle dessa magnitude demanda uma grande quantidade de recursos. Dessa forma, pesquisas nessa área necessitam de financiamento adequado e da colabora¸cão de diversos sistemas autônomos que compõem a Internet. Fi-nalmente, com base no que foi apresentado nesta Subse¸cão, tem-se a defini¸cão do primeiro problema associado ao projeto do sistema de monitoramento.

Defini¸cão 2.9 (O problema da identifica¸cão topológica). Modelar de forma eficaz e identificar de forma eficiente a topologia da rede, principalmente, quando essa eficiência depende de conhecimento prévio de propriedades da própria topologia.

2.2.2 Observadores

(38)

No modelo de monitoramento centrado na rede (network centric monitoring) os estados da rede são monitorados. Exemplos de informa¸cão que podem compor esses estados são: (i) a quantidade de pacotes perdidos, (ii) atrasos em cada nó da rede e (iii) capacidade de transmissão de canais e de nós [Ji & Elwalid 2002]. Naturalmente, se cada nó da rede for um nó observador, então não há dificuldade na aquisi¸cão dessas informa¸cões, logo teremos uma aquisi¸cão passiva eficaz. Porém, considerar que cada nó de uma rede como a Internet irá enviar de forma espontânea essas informa¸cões não seria poss´ıvel, tampouco eficiente. Felizmente, por causa da correla¸cão espacial de dados como atraso e perda de pacotes, é poss´ıvel estimar, a partir da observa¸cão de um subconjunto de nós da rede, as mesmas informa¸cões nos demais nós [Cao et al. 2000]. Ji & Elwalid (2002) desenvolveram um modelo baseado em uma árvoremulticast onde os nós observadores estão localizados nos nós finais e possivelmente em nós internos da árvore, como representado na Figura 2.3.

nós nais nós internos

Figura 2.3: Ilustra¸cão de uma árvoremulticastondevrrepresenta o nó raiz e dev1atévkh (sendo ha altura eko fator de ramifica¸cão da árvore) são representados os nós finais.

Como resultado, Ji & Elwalid (2002), conclu´ıram que essa localiza¸cão espec´ıfica dos nós observadores, faz com que a quantidade de medidas necessárias (mensagens que passam do nó raiz vr até os nós observadores) seja escalável quando não há perdas de pacotes

significativas. Esse resultado, além de importante do ponto de vista da eficácia e da escalabilidade, mostra que a quantidade de nós observadores é aproximadamente igual `

a kh, que representa uma fra¸cão da quantidade total de nós[i]. Todavia, a Internet não pode ser representada significativamente por meio de uma árvore, pois a redundância de conexões é uma caracter´ıstica de sua robustez. Além disso, considerar que todos os nós folhas são monitores não é viável. Nesse sentido, é razoável utilizar um modelo de estudo mais adequado para escolha dos nós observadores. Portanto, tem-se a defini¸cão do segundo problema associado ao projeto do sistema de monitoramento.

Defini¸cão 2.10(O problema da escolha dos observadores). Dado que a topologia da rede é conhecida, escolher de forma ótima, dentre os nós acess´ıveis, aqueles que desempenharão

o papel de observadores.

Um poss´ıvel caminho para responder a essa questão tem como base o trabalho de Liu et al. (2011), que utiliza a representa¸cão de espa¸co de estado (state space representation) para estudar a controlabilidade de redes complexas modeladas como sistemas lineares dinâmicos [Kalman 1963]. A seguir, é feita uma descri¸cão introdutória dessa teoria.

[i]_{Considerando que o n´}_{umero de n´}_os _n ₌ Ph

i=0k

i_{, a quantidade de n´}_{os finais ´e de} _kh_{, que se trata}

apenas do último termo do somatório. Especificamente, a quantidade de nós finais pode ser descrita como

uma fun¸c˜aof(n, k) = (n(k−1) + 1)/k. Por exemplo, parak= 2, essa quantidade ´e de aproximadamente