Visualisation des règles - Post-traitement des règles d’association : état de l’art

4.1 Post-traitement des règles d’association : état de l’art

4.1.2 Visualisation des règles

Les méthodes et outils de visualisation de règles décrits ci-dessous comportent généralement des fonctionnalités basiques de tri et de filtrage des règles, en fonction des items qui les constituent ou bien selon quelques indices de règle (peu d’indices en fait : le support, la confiance, et parfois une troisième mesure comme le lift).

Une première méthode de visualisation des règles d’association est la repré- sentation par matrice. [HW01] et le groupe de recherche Quest¹[AAB⁺96], ainsi que les logiciels DBMiner² [Han98], MineSet³ [BQK97], Enterprise Miner⁴, et DB2 Intelligent Miner Visualization⁵, en donnent différentes implémentations.

Dans une matrice itemset-à-itemset (figure 4.2), chaque colonne correspond à un itemset en prémisse et chaque ligne à un itemset en conclusion. Une règle entre deux itemsets est symbolisée dans la cellule à l’intersection par un objet 2D ou 3D dont les caractéristiques graphiques (généralement les dimensions et la couleur) représentent des indices de règle. Cette technique de visualisation a été améliorée en matrices item-à-règle [WWT99], où chaque ligne correspond à un item et chaque colonne à une règle (figure 4.3). La cellule à l’intersection d’un item et d’une règle est pleine ou vide suivant que l’item appartient ou non à la règle, la couleur de remplissage indiquant si l’item participe à la prémisse ou à la conclusion. La matrice est complétée par deux lignes qui indiquent le support et la confiance de chaque règle par la hauteur de barres dessinées en trois dimensions. Par rapport aux matrices itemset-à-itemset, les matrices item-à-règle sont moins encombrées et permettent une meilleure représentation des règles de plus de deux items. La principale limite de ces représentations matricielles est

1www.almaden.ibm.com/software/quest

2www.dbminer.com

3www.purpleinsight.com

4www.sas.com/technologies/analytics/datamining/miner/

5www.ibm.com/software/data/iminer/visualization/index.html

Fig.4.3 – Une matrice item-à-règle dans [WWT99]

Fig.4.4 – Un graphe d’items

qu’elles atteignent des tailles considérables dans le cas de grands ensembles de règles portant sur de nombreux items.

Les ensembles de règles d’association peuvent également être visualisés à l’aide d’un graphe⁶ orienté (voir [KMR⁺94], [RR00], et les logiciels DBMiner² [Han98], CHIC⁷[CG05], et DB2 Intelligent Miner Visualization⁵). Dans ce type de représentations, les noeuds et les arcs symbolisent respectivement les items et les règles (voir figure 4.4 où les lettres désignent des items). Les indices de règle sont données par les arcs, par exemple avec la couleur ou l’épaisseur. Dans [HDH⁺], la méthode est implémentée en 3D avec un algorithme de type masses-

6Pour des règles de plus de deux items, il s’agit en fait d’un hypergraphe : les arcs peuvent contenir plusieurs branches pour relier plusieurs items en prémisse à plusieurs items en conclusion.

7www.ardm.asso.fr/CHIC.html

4.1 - Post-traitement des règles d’association 89

Fig.4.5 – Un graphe d’itemsets

ressorts⁸qui optimise le placement des noeuds dans l’espace. Si la représentation par graphe a le mérite d’être très intuitive, elle admet deux principales limites.

D’abord, elle fait implicitement apparaître les règles comme des relations transitives, alors que dans le cas général, les règles ne sont pas transitives (avec la plupart des indices de règle, la qualité des règles ne se propage pas par tran- sitivité). Ensuite, elle ne convient pas non plus à la visualisation de grands ensembles de règles portant sur de nombreux items : le graphe est surchargé de noeuds et d’arcs qui se croisent, d’autant plus si des règles de plus de deux items sont considérées. En réponse à ce problème est proposée dans [Leh00] une représentation dynamique qui est un sous-graphe du treillis des itemsets. Dans ce graphe, les noeuds ne représentent pas les items mais les itemsets, de telle façon qu’une règle (A∧B)→ (C) est symbolisée par un arc entre les noeuds (A∧B)et(A∧B∧C)(figure 4.5). Le graphe résultant est acyclique et comporte plus de noeuds mais moins de croisements d’arcs. L’utilisateur peut développer dynamiquement le graphe à sa guise en interagissant avec les noeuds.

Les autres méthodes de représentation de règles d’association ne concernent pas la visualisation de l’ensemble exhaustif des règles qui peuvent être extraites à partir d’un jeu de données. Etant donné quelques variables⁹, ces méthodes ne représentent que le sous-ensemble des règles qui comportent uniquement ces variables. Elles permettent une étude approfondie d’un nombre limité de règles (la représentation devient rapidement inexploitable si trop de variables sont considérées), en particulier en montrant comment elles sont affectées par le changement des modalités des variables. Par exemple, la représentation dite en mosaïque pour les tables de contingence (mosaic display) a été adaptée aux règles d’association dans [HW01], chaque règle étant représentée par un rec- tangle dont l’aire est le support et la hauteur est la confiance (voir figure 4.7).

Des techniques inspirées des coordonnées parallèles sont également utilisées pour visualiser des règles d’association [KT01] ou de classification¹⁰ [HAC00]. Les

8Les noeuds sont considérés comme les masses, et la raideur du ressort entre deux masses est égal à la fréquence jointe (support) des deux items correspondant. Le graphe obtenu correspond à un état d’équilibre du système masses-ressorts. Ce type d’algorithme de dessin de graphe a été proposé initialement dans [Ead84].

9Nous rappelons que nous distinguons dans nos appellations les notions de variables et d’items(voir chapitre 1). Les variables sont les descripteurs qui se trouvent dans les données d’origine, elles peuvent être multimodales. Les items sont les descripteurs binaires issus du codage disjonctif des variables, chaque item correspondant à une modalité d’une variable.

10Les règles de classification sont des règles qui concluent toutes sur la même variable.

Contrairement aux règles d’association, les règles de classification sont extraites par des algo- rithmes supervisés.

(a) DBMiner [Han98] (b) Mineset³

(e) DB2 Intelligent Miner Visualization⁵ (f) PerformanSe-FELIX [Leh00]

Fig.4.6 – Visualisation de règles d’association par matrices (a, b, c) ou graphes (d, e, f) dans quelques logiciels

No documento Un système de visualisation pour l’extraction, l’évaluation, et l’exploration interactives des règles d’association. (páginas 104-108)