Le deuxième chapitre concerne les analyses réalisées sur la base de pots de miel à faible interaction. Le chapitre quatre se concentre sur l’analyse des données collectées sur le pot de miel à haute interaction présenté dans le chapitre trois.
Introduction
- Historique et usage d’Internet
- Naissance de la piraterie
- Motivation des pirates informatiques
- Approche `a la compr´ehension du comportement des pirates
Les activités de blanchiment d’argent, de vol et de détournement de fonds sont à l’origine de l’augmentation du spam. Ainsi, des pirates informatiques exploitent cette faille pour racheter les bookmakers [Ber03], qui sont une de leurs cibles privilégiées.
Pr´esentation des menaces sur Internet - terminologie
La sˆ uret´e de fonctionnement
En abordant le problème de la cybercriminalité sous l’angle des sciences humaines, il tente d’enrichir les connaissances sur les pirates informatiques. Il s'agit de méthodes et de techniques qui assurent aux utilisateurs le bon fonctionnement des fonctions du système.
Les malveillances
Moyens pour faire face aux malveillances
- Pr´evention des fautes
- Tol´erance aux fautes
- Elimination des fautes
- Pr´evision des fautes
- L’´evaluation ordinale bas´ee sur des crit`eres
- L’´evaluation quantitative bas´ee sur des mod`eles
- L’´evaluation exp´erimentale
Une politique d'authentification peut être mise en œuvre sur la base d'un système de mot de passe. Les méthodes de détection d'intrusion visent à détecter les violations de la politique de sécurité d'un système.
Sondes et pots de miel
Les sondes
Historiquement, les efforts se concentraient d’abord sur l’enquête sur les pannes des systèmes et du matériel. Les travaux ont ensuite été consacrés... à la caractérisation du comportement en présence d'erreurs dans les logiciels et systèmes d'exploitation, les pilotes de périphériques, les systèmes distribués, les réseaux, les serveurs basés sur Internet et récemment sur les systèmes mobiles [SCK04].
Les pots de miel
- Historique des pots de miel
- Les pots de miel basse interaction
- Les pots de miel haute interaction
- Les pots de miel interm´ediaires
Les pots de miel à faible interaction usurpent l'identité des services réseau pour tromper les logiciels malveillants. Toutes les connexions au pot de miel à faible interaction sont redirigées vers le pot de miel à interaction élevée.
Les projets bas´es sur les sondes et les pots de miel
- Les projets Caida et Internet Motion Sensor . 21
- Le projet Leurre.com
Le trafic malveillant destiné aux honeypots à faible interaction et correspondant à une nouvelle activité est redirigé vers des honeypots à forte interaction. Le dialogue ainsi établi est analysé pour faire évoluer le niveau d'interaction des honeypots à faible interaction.
Conclusion : orientation et contributions de la th`ese
Architecture
Une session globale est un ensemble de paquets qui ont été échangés entre la source et tous les environnements honeypot du projet Leurr´e.com. Une session volumineuse est un ensemble de paquets qui ont été échangés entre une source et un environnement de pot de miel spécifique.
Vue globale et analyses pr´eliminaires des donn´ees
Pr´esentation et analyse pr´eliminaire
La dernière colonne correspond au rapport entre le nombre de sessions et le nombre d'adresses différentes. La dernière colonne contient le nom de l'environnement le plus ciblé par ces adresses, avec le nombre de sessions associées entre parenthèses.
Probl`eme li´e aux p´eriodes de silence suspectes
De plus, pour chaque adresse, le nombre de sessions exécutées dans son environnement privilégié est relativement faible par rapport au nombre total de sessions.
Discussion
M´ethodologie d’analyse
Notations et d´efinitions
0, l'environnement k est dans une période de silence suspecte. 1, l'environnement k n'est pas dans une période de silence suspecte. La différence correspond à des tentatives d’attaque, qui ne sont pas observées en raison de la présence de périodes de silence suspectes dans l’environnement ciblé.
M´ethodologie
Fig.2.7 – Processus de traitement des données collectées à partir des environnements honeypot des employés en ligne.
Pr´etraitement des donn´ees
M´ethodes d’identification des valeurs aberrantes
Divers tests statistiques ont été présentés dans la littérature pour détecter les valeurs aberrantes [Pla05, HA04]. Les quantiles permettent de délimiter les zones à valeurs aberrantes et les zones à valeurs rationnelles.
Identification des p´eriodes de silence suspectes
Il produit également un boxplot avec des moustaches dimensionnées en fonction de la mesure d'asymétrie. Autrement dit, autant lorsque nous observons une séance nous sommes sûrs de l'accessibilité de l'environnement, autant lorsque le calme a duré longtemps nous sommes sûrs de son inaccessibilité.
S´election des donn´ees
Nous considérons dans un premier temps une sous-période égale à la durée totale des observations. De plus, la sous-période considérée est suffisamment longue pour mener des analyses significatives (environ deux ans).
Mod´elisation des intervalles entre attaques
- Estimation des param`etres : l’algorithme Em
- Validation des mod`eles : tests statistiques
- Test du χ 2
- Test de Kolmogorov-Smirnov
- Application aux processus d’attaque observ´es
- Densit´es de probabilit´e empiriques
- Mod´elisation
Le test de Kolmogorov-Smirnov est un test d'ajustement non paramétrique qui permet de comparer des données à une loi de probabilité théorique. Parfois, le test de Kolmogorov-Smirnov est difficile à appliquer en raison de la nature des données manipulées.
Analyse des corr´elations
- Evolution dans le temps du nombre de sessions
- R´egression lin´eaire et coefficient de corr´elation
- Mod`ele de r´egression
- Corr´elation entre les environnements
- Corr´elation en fonction de l’origine g´eographique
Enfin, nous appliquons ces outils aux données représentant l'évolution du nombre de séances dans le temps. 2.17 – Evolution du nombre de sessions observées et du nombre de sessions estimées par le modèle de régression, pour tous les environnements.
Propagation des attaques
Principe de la propagation des attaques
Ensuite, pour tous les environnements et globalement, les modèles obtenus sont bons, sauf pour les environnements 13, 28 et 31, pour lesquels la corrélation avec les pays reste généralement faible. Il est également intéressant de noter que les environnements 14 et 42 présentent des tendances équivalentes concernant les corrélations des activités observées dans chacun des environnements, toutes origines confondues, et concernant les activités originaires de pays spécifiques.
Mod`ele de propagation
PG(tj,k) correspond à la probabilité d'occurrence de la propagation associée considérant l'ensemble des sessions enregistrées pour l'environnement vj. La probabilité ePG(tj,k) est le rapport entre le nombre de propagations effectuées entre les environnements vj et vket le nombre de propagations effectuées à partir de l'environnement vj.
Illustration
L'introduction de mesures liées au temps écoulé entre deux transitions successives pourrait permettre d'affiner ce modèle. Enfin, il est également intéressant d’observer que certains environnements (31 et 62) présentent un comportement de sortie équivalent (i.e. les probabilités QG(t31,k) et QG(t62,k) sont du même ordre de grandeur).
Conclusion
Ces modèles peuvent être utilisés pour générer un trafic malveillant représentatif des activités observées sur les honeypots à faible interaction. Les données que nous avons considérées dans ce chapitre proviennent de pots de miel à faible interaction.
Caract´eristiques des pots de miel haute interaction
- La transparence
- L’observabilit´e
- La flexibilit´e
- La nature
Un pot de miel doté d'un haut niveau de flexibilité permet de reconfigurer rapidement les instruments. Un pot de miel virtuel doit, à son tour, être installé en tant qu'invité au-dessus d'un système d'exploitation hôte.
Impl´ementations de pots de miel haute interaction
- Un pot de miel avec VMware
- Uml comme pot de miel
- Sebek
- Uberlogger
Prelude-LML : cette sonde analyse régulièrement les fichiers journaux disponibles sur le système d'exploitation invité. Intercepter ces appels système permet d’obtenir des informations intéressantes sur l’activité du honeypot.
Architecture du pot de miel haute interaction
- Les objectifs et les donn´ees `a collecter
- L’observation des activit´es des attaquants
- Remarques pr´eliminaires
- Fonctionnement de ssh
- Moyens d’observation des connexions ssh
- La redirection des rebonds
- Architecture g´en´erale
Le but d'un pot de miel est de recueillir des informations sur les activités des attaquants. La connexion 1 est initiée par un attaquant depuis l'ordinateur a sur Internet vers la machine honeypot b.
Conception et impl´ementation
- La modification du noyau des syst`emes d’exploitation
- Archivage des donn´ees collect´ees
- R´ecup´eration des donn´ees archiv´ees
- Vue globale de la collecte des donn´ees
- Le m´ecanisme de redirection des connexions
Ce pilote tty est l'interface entre le système d'exploitation et le terminal utilisateur distant. Le délai de récupération signifie que les informations doivent être temporairement stockées dans le système d'exploitation invité.
D´eploiement
Le vocabulaire d’une attaque par dictionnaire observée est un ensemble de paires tentées (nom d’utilisateur, mot de passe). Une intrusion est un ensemble de connexions établies par une machine (l'intrus) avec la même machine dans le honeypot (la cible de l'intrus).
Conclusion
Analyses pr´eliminaires
Le premier est le délai entre la date de déclaration d’un troupeau et la date de la première connexion réussie avec ce troupeau (τ1). Un temps nul signifie que la première connexion réussie est également la première connexion réussie avec entrée de commande.
Origine des connexions
Le compte C5 représente un cas particulier : le temps écoulé entre la première connexion réussie et la première connexion réussie avec saisie de commande est nul. En d’autres termes, une intrusion est constituée de deux types de connexions : les connexions d’authentification et les connexions d’action.
Discussion et m´ethodologie
Un attaquant ne lance pas une attaque par dictionnaire uniquement pour trouver une correspondance valide. Une intrusion est une séquence de connexions dont certaines ont non seulement réussi, mais ont également permis à l'attaquant d'effectuer une action au sein du système ciblé.
Construction de l’ensemble des sessions
Fenˆetre glissante
La méthode de la « fenêtre glissante » utilise un seuil de densité minimum pour effectuer la classification des entités. L’ensemble des arêtes de ce graphe est l’ensemble des paires d’éléments reliés par la relation de proximité, V =ei, ej ∈E2/eiR(E,s)ej.
D´efinition formelle d’une session
On agrandit le groupe en absorbant l'élément suivant le plus proche si la différence entre le dernier élément absorbé et cet élément suivant est inférieure au seuil. Une fois la définition d'une session établie, nous présentons l'algorithme qui permet de les extraire des données (voir Algorithme 4).
Choix de la valeur du seuil
La figure 4.10 montre l'évolution du nombre de sessions en fonction du seuil (exprimé en secondes), en prenant en compte l'ensemble des données collectées au cours des 419 jours de collecte. Nous définissons le taux de regroupement, vr(T, s) comme la dérivée de l'évolution du nombre de regroupements en fonction du seuil.
Identification des classes de comportement
Dans notre cas, il peut y avoir un exemple de comportement faussement négatif ayant effectué une attaque par dictionnaire, mais peu d’informations ont été collectées. Quant à un faux positif, il pourrait s’agir d’un exemple de comportement lié à une erreur de l’utilisateur qui n’est pas malveillant.
Le processus d’attaque
Ces analyses sont effectuées plus loin dans ce chapitre, en commençant par les attaques par dictionnaire. Le reste de ce chapitre étudie plus en détail les étapes des attaques et des intrusions par dictionnaire.
Etude des attaques par dictionnaire
- Pr´esentation des attaques par dictionnaire observ´ees
- Distance inter-textuelle
- D´efinition de la distance entre deux vocabulaires
- Partitionnement des donn´ees
- Classement des vocabulaires
- Identification des cœurs de dictionnaire
Ainsi, pour toutes les paires de vocabulaires du cluster, le plus petit des deux partagera au moins (1−√ . α)·100 %. On ne peut pas dire avec précision qu'une paire qui n'a été tentée que lors d'une seule attaque sur le cluster appartient au cœur du dictionnaire.
Etude des intrusions
Identification des diff´erentes communaut´es
On peut supposer que ce n'est pas ce point qui permettrait d'alerter l'attaquant pour soupçonner la présence du honeypot. En revanche, on peut facilement identifier l'adresse de l'intrus, la liste des identifiants et mots de passe valides qu'il a utilisés pour le piratage et les traces de toutes les activités de l'intrus sur le honeypot.
Nature des intrus : ˆetres humains ou outils automatiques
Nous supposons que lorsque cette fonction renvoie plus d'un caractère, les données ont été transférées par "copier-coller". L'exemple de la figure 4.27 montre les données collectées dans cette fonction si l'utilisateur saisit des commandes avec une faute de frappe.
Les activit´es des intrus
La situation est différente dans le cas d'un « copier-coller » dans le terminal de l'utilisateur client. Ces exploits ne peuvent pas fonctionner sur le pot de miel en raison d'un conflit de version.
Comp´etences des intrus
La première exploite deux vulnérabilités : une vulnérabilité liée au gestionnaire de mémoire du système callremap[CERb] et une autre liée au gestionnaire chargé de gérer les processus du tas[CERa]. Cet exploit a été utilisé par 3 intrus, obtenant ainsi un accès root au pot de miel.
Enseignements apport´es par l’emploi du m´ecanisme de redirection125
Brown : Code-red : a case study on the spread and victims of an Internet worm. Dans Proceedings of the Internet Measurement Workshop (IMW), 2002. Tian : Analysis of keyboard timing and timing attacks in SSH.Dans Proceedings of the 10th conference on USE-NIX Security Symposium (SSYM'01), p.
La sˆ uret´e de fonctionnement
M´ethodes disponibles pour la mise en œuvre des moyens de la sˆ uret´e
Architecture du pot de miel basse interaction, projet Leurre.com . 27
Nombre d’adresses, en ordonn´ee, ayant r´ealis´e le nombre de sessions
Liste des adresses ayant r´ealis´e les plus fortes activit´es
Evolution du nombre de sessions observ´ees par jour sur l’environnement
Variables repr´esentant les dates des sessions et les dur´ees entre deux
Processus de traitement des donn´ees collect´ees sur les environnements
Exemple de boxplot
Exemples de distributions
Evolution du nombre de sessions par jour pour certains environnements 42
Test du χ 2
Ajustement du mod`ele de m´elange et comparaison avec d’autres mod`eles 55
Evolution du nombre de sessions toutes origines confondues et ´evolution
Exemple de propagation d’un ver
Graphe de propagation associ´e aux 8 environnements
Architecture d’un pot de miel bas´e sur Prelude et Uml
M´ecanisme d’interception d’un appel syst`eme
L’´echange de cl´e Diffie-Hellman
M´ethode d’inf´erence du contenu de connexions chiffr´ees
Architecture g´en´erale du pot de miel haute interaction
Impl´ementation du pot de miel haute interaction
Architecture du m´ecanisme de redirection des connexions
Configuration du premier d´eploiement
Configuration du deuxi`eme d´eploiement
Liste des couples les plus employ´es
Evolution de la dur´ee entre les connexions successives
Fr´equences des dur´ees entre connexions successives
Temps entre les premi`eres connexions pour chaque couple d´eclar´e
Impression sur une feuille
Exemple d’application de l’algorithme de la fenˆetre glissante
Exemple de construction d’ensemble de sessions
Cas de figure diff´erents pour la d´etermination du seuil de regroupement. 98
Vitesse de regroupement des sessions
Classification des sessions
Caract´eristiques statistiques des tailles des vocabulaires
Rapport du nombre de couples diff´erents r´ep´et´es sur le nombre de
Exemple de couverture de vocabulaires
Repr´esentation des ensembles utilis´es dans le calcul de la distance inter-
Evolution de la distance en fonction de la couverture et de la ressemblance109
Exemple de repr´esentation matricielle
Distances entre les vocabulaires
Exemple de construction du cœur de dictionnaire pour une grappe
Profils des cœurs de dictionnaire
Nombre d’intrusions par compte
Evolution des connaissances de l’intrus
Distance entre les intrusions
Nombre d’intrusions par grappe
Exemple de saisie avec une faute de frappe
Nature des intrus
Exemple d’intrusion ayant activ´e le m´ecanisme de redirection
Processus de traitement et classification des donn´ees