• Nenhum resultado encontrado

Corr´elation en fonction de l’origine g´eographique

No documento Eric Alata (páginas 71-74)

2.6 Analyse des corr´elations

2.6.5 Corr´elation en fonction de l’origine g´eographique

Le trafic `a destination d’un environnement est originaire de plusieurs pays diff´e- rents. Toutefois, sur la base d’observations empiriques, nous avons constat´e que le trafic originaire de certains pays pr´esente des tendances similaires compar´e `a l’en- semble du trafic toutes sources confondues. Nous avons voulu v´erifier cette hypoth`ese de fa¸con plus rigoureuse en utilisant le mod`ele de r´egression (cf. section 2.6.2).

Nous avons appliqu´e le mod`ele de r´egression lin´eaire en consid´erant un, deux ou plus de pays. Les r´esultats r´ev`elent qu’un mod`ele de bonne qualit´e peut ˆetre obtenu en consid´erant uniquement un seul pays. Nous avons identifi´e trois mod`eles fournissant les meilleures r´egressions du nombre total de sessions sur tous les environnements. Ils ont ´et´e obtenus en consid´erant les sessions originaires de la Chine, du Canada et de

CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR DES POTS DE MIEL BASSE INTERACTION

environnementi

global 9 13 14 28 31 32 42 62

environnementj

global 1,00 0,56 0,10 0,86 0,13 0,45 0,51 0,86 0,35 9 0,56 1,00 0,10 0,24 0,16 0,01 0,31 0,23 0,25 13 0,10 0,10 1,00 −0,04 0,12 −0,07 0,20 0,00 0,08 14 0,86 0,24 −0,04 1,00 0,01 0,29 0,18 0,97 0,23 28 0,13 0,16 0,12 0,01 1,00 0,13 0,09 −0,02 −0,08 31 0,45 0,01 −0,07 0,29 0,13 1,00 0,17 0,25 −0,12 32 0,51 0,31 0,20 0,18 0,09 0,17 1,00 0,23 0,25 42 0,86 0,23 0,00 0,97 −0,02 0,25 0,23 1,00 0,29 62 0,35 0,25 0,08 0,23 −0,08 −0,12 0,25 0,29 1,00

Tab. 2.10 – Coefficients de corr´elation entre environnements

la France. Les coefficients de corr´elation correspondants sont ´elev´es, respectivement 0,87, 0,86 et 0,85. Ils d´enotent une bonne r´egression. Par exemple, le mod`ele estim´e obtenu en consid´erant les sessions originaires du Canada est d´efini de la mani`ere suivante :

Ns(u) = 9,4708·Ns,Canada(u) + 471,8792 (2.29) La figure 2.17 pr´esente l’´evolution du nombre de sessions observ´e ainsi que le mod`ele pr´ec´edent, pour un pas de 1 jour. Notons au passage que le coefficient de corr´elation d´epend du pas consid´er´e : pour des pas plus grands (une semaine, un mois, . . . ), les ´evolutions sont moins bruit´ees et le coefficient est plus ´elev´e. Nous pouvons constater que le mod`ele de r´egression suit globalement bien les donn´ees observ´ees.

Ces r´esultats sont d’autant plus surprenants que les sessions originaires de la France et du Canada ne repr´esentent qu’une faible proportion du nombre total de sessions (3% chacun).

Nous avons effectu´e des analyses similaires en consid´erant chacun des environ- nements. Le but est de savoir si des conclusions similaires peuvent ˆetre obtenues en confrontant, pour chacun, le nombre total de sessions et le nombre de sessions originaires des diff´erents pays. Les r´esultats sont pr´esent´es dans le tableau 2.11. La premi`ere colonne identifie l’environnement. Les six colonnes suivantes contiennent les coefficients de corr´elation pour les mod`eles consid´erant la Chine, le Canada, la France, les Etats-Unis, la Pologne, l’Espagne comme pays de r´ef´erence. La derni`ere colonne contient le coefficient de corr´elation du meilleur mod`ele que nous avons identifi´e. Le pays correspondant est indiqu´e entre parenth`eses.

Nous pouvons noter que la qualit´e des r´egressions en consid´erant les Etats-Unis comme variable explicative est convenable pour 5 des 8 environnements (r > 0,8).

Les environnements pour lesquels ce pays ne permet pas d’obtenir un mod`ele conve- nable poss`edent pourtant une activit´e importante (cf. tableau 2.9). Le coefficient de corr´elation est g´en´eralement faible (r <0,8). Cela indique que l’observation effectu´ee sur la globalit´e des environnements n’est pas visible d’un point de vue local, envi- ronnement par environnement. Cependant, pour la majorit´e des environnements, le meilleur mod`ele de r´egression implique quatre des pays suivants : les Etats-Unis, la Chine, la Pologne et l’Espagne. Ces quatre pays permettent aussi d’aboutir `a un bon 59

500100020003000

dates

nombre de Large_Session

tous Canada

2005−10−28 2006−04−05 2006−09−11 2007−02−17 2007−07−26

Fig. 2.17 – Evolution du nombre de sessions observ´e et du nombre de sessions estim´e par le mod`ele de r´egression, pour tous les environnements

env. k r r r r r r meilleur r

Chine Canada France Etats-Unis Pologne Espagne (pays) global 0,87 0,86 0,85 0,81 0,61 0,62 0,87 (Chine) 9 0,69 0,65 0,61 0,84 0,51 0,55 0,84 (Etats-Unis) 13 0,56 0,45 0,39 0,63 0,39 0,38 0,63 (Etats-Unis) 14 0,97 0,91 0,93 0,88 0,23 0,41 0,97 (Chine) 28 0,66 0,32 0,25 0,64 0,67 0,28 0,67 (Pologne) 31 0,52 0,57 0,62 0,69 0,66 0,71 0,71 (Espagne) 32 0,58 0,69 0,66 0,83 0,71 0,52 0,83 (Etats-Unis) 42 0,98 0,87 0,93 0,85 0,23 0,46 0,98 (Chine) 62 0,64 0,37 0,41 0,83 0,30 0,36 0,83 (Etats-Unis)

Tab.2.11 – R´esultat de la r´egression lin´eaire sur 8 environnements

mod`ele de r´egression en consid´erant l’ensemble des environnements. Par contre, trois environnements s’´ecartent du lot, 13, 28 et 31, pour lesquels le mod`ele de r´egression ne donne pas des r´esultats int´eressants pour aucun des pays consid´er´es.

Les Etats-Unis forment un pays qui peut ˆetre utilis´e comme variable explicative.

Tout d’abord, comme indiqu´e sur le tableau 2.9, une bonne partie des sessions provient

CHAPITRE 2. CARACT´ERISATION DES PROCESSUS D’ATTAQUES `A PARTIR DES POTS DE MIEL BASSE INTERACTION

de ce pays, et ce pour tous les environnements. Ensuite, pour tous les environnements et globalement, les mod`eles obtenus sont convenables, hormis pour les environnements 13, 28 et 31, pour lesquels toute corr´elation avec les pays reste faible de fa¸con g´en´erale.

Les mˆemes remarques peuvent ˆetre ´etablies pour la Chine et le Canada. Quant `a ce dernier pays, ce qui est remarquable est la faible proportion des sessions originaires de ce pays quelque soit l’environnement consid´er´e. Un pays qui contribue significati- vement aux attaques en terme de nombre de sessions peut ˆetre utilis´e pour ´etablir un mod`ele lin´eaire acceptable. Il est aussi int´eressant de noter que les environnements 14 et 42 pr´esentent des tendances ´equivalentes par rapport aux corr´elations des activit´es observ´ees sur chacun des environnements toute origine confondue et par rapport aux activit´es issues de certains pays. Ces r´esultats renforcent ceux observ´es au tableau 2.10 montrant une forte corr´elation entre les activit´es de ces deux environnements. Ils sont aussi surprenants dans la mesure o`u ces deux environnements sont situ´es dans des sites g´eographiques diff´erents et ont des adresses distantes.

No documento Eric Alata (páginas 71-74)