• Nenhum resultado encontrado

au chapitre suivant.

¦ Autres indices de nature statistique

Les mesures de significativité statistique mises à part, il existe des indices de règle qui sont de nature statistique mais ne reposent pas sur un modèle pro- babiliste. Ces indices sont au nombre de trois (voir formules tableau 1.3 page 16) :

– l’indice rule-interest de Piatetsky-Shapiro [PS91],

– la contribution orientée au χ2 de Lerman [Ler81], notéeq(a→b), – l’opposé de l’indice d’implication de Gras [Gra96], noté−ii(a→b)11. La contribution orientée au χ2 et l’indice d’implication interviennent dans les calculs de l’indice de vraisemblance du lien et de l’intensité d’implication quand on fait le choix d’approximer la loi de Poisson par une loi normale. En effet, ils correspondent respectivement à la valeurnab centrée et réduite selon Nab et à la valeurnab centrée et réduite selonNabdans la modélisation poissonienne. Ils sont liés par la relation suivante :ii(a→b) =q(a→b). Ces indices peuvent être interprétés comme une contribution orientée au χ2 de la table de contingence croisant les variablesaetb:χ2=q(a→b)2+q(a→b)2+q(a→b)2+q(a→b)2 [Ler81]. q(a→ b) est orienté en faveur des exemples, tandis queii(a →b) est orienté en faveur des contre-exemples.

les règles aux concepts connexes que sont les similarités, les implications, et les équivalences. Nous avons également réalisé une classification inédite des princi- paux indices de règle de la littérature selon trois critères : l’objet, la portée, et la nature.

– L’objet est la notion qui est mesurée par l’indice. Il peut s’agir d’un écart à l’équilibre, d’un écart à l’indépendance, ou plus anecdotiquement d’une similarité. Ecart à l’équilibre et écart à l’indépendance sont deux aspects différents mais complémentaires de la qualité des règles.

– La portée est l’entité concernée par le résultat de la mesure. Il peut s’agir d’une unique règle, ou bien d’une règle et de sa contraposée (quasi- implication), ou bien d’une règle et de sa réciproque (quasi-conjonction), ou bien d’une règle et de sa contraposée et de sa réciproque (quasi- équivalence).

– La nature est le caractère descriptif ou statistique de l’indice.

Ces trois critères nous paraissent essentiels pour appréhender la signification des indices. Ainsi, la classification permet d’aider l’utilisateur à choisir quels indices appliquer pour valider les règles. Elle amène par exemple à se demander si l’utilisateur s’intéresse uniquement à des règles au sens strict, ou bien si la contraposée et la réciproque peuvent faire sens pour lui. Il est également per- tinent de se demander si l’utilisateur désire mesurer des écarts à l’équilibre ou des écarts à l’indépendance, ou bien les deux. En l’absence d’indication de la part de l’utilisateur, il nous paraît judicieux d’employer conjointement un in- dice descriptif d’écart à l’équilibre, un indice statistique d’écart à l’équilibre, un indice descriptif d’écart à l’indépendance, et un indice statistique d’écart à l’in- dépendance. Selon nous, un tel quadruplet d’indices permet de mesurer quatre aspects fortement "orthogonaux" de la qualité des règles.

1.5-Conclusion39 XXXXObjet XXXXXX

Portée

Règle Quasi-implication Quasi-conjonction Quasi-équivalence

Ecart à l’équilibre

– confiance,

– indice de Sebag et Schoenauer,

– taux des exemples et contre-exemples,

– estimateur laplacien de probabilité conditionnelle, – indice de Ganascia, – moindre-contradiction

– indice d’inclusion

Ecart à

l’indépendance – multiplicateur de cotes

– indice de Loevinger, – conviction

–intensité d’implication, –indice d’implication

– lift ou intérêt –indice de

vraisemblance du lien, –contribution orientée auχ2

– coefficient de corrélation, – nouveauté,

– collective strength, –κ,

– indice de Yule, – rapport de cotes –rule-interest

Similarité

@@

@@

@@

@

@@

@@

@@

@

@@

@@

@@

@

@@

@@

@@

@

– support ou indice de Russel et Rao,

– indice de Jaccard, – indice de Dice, – indice d’Ochiai, – indice de Kulczynski

– support causal ou indice de Sokal et Michener, – indice de Rogers et Tanimoto

Lanaturedes indices est indiquée par le style de la police : les indices en italique sont statistiques, les autres sont descriptifs.

Tab.1.16 – Classification des indices de règle

Trois indices de règle : IPEE, intensité

d’implication entropique,

taux informationnel 2

Sommaire

2.1 IPEE, un indice probabiliste d’écart à l’équilibre 42 2.1.1 Modèle aléatoire . . . 42 2.1.2 Expression analytique . . . 44 2.1.3 Propriétés . . . 44 2.2 L’intensité d’implication entropique . . . 47 2.2.1 Rappels sur l’intensité d’implication . . . 47 2.2.2 L’indice d’inclusion, un indice descriptif fondé sur

l’entropie . . . 49 2.2.3 Association des deux indices . . . 51 2.2.4 Propriétés . . . 51 2.3 Le taux informationnel, un indice de règle entro-

pique . . . 55 2.3.1 Mesures entropiques pour l’évaluation des règles . . 56 2.3.2 Taux informationnel . . . 58 2.3.3 Propriétés . . . 62 2.3.4 Comparaisons à d’autres mesures . . . 64 2.4 Conclusion . . . 67

Dans ce chapitre, nous présentons trois nouveaux indices de règle : IPEE, l’intensité d’implication entropique, et le taux informationnel. Ils possèdent tous les trois des caractéristiques originales, c’est pourquoi nous leur consacrons un chapitre à part entière. Le premier indice, nommé IPEE, est le seul indice d’écart à l’équilibre qui soit de nature statistique. Il est fondé sur un modèle probabiliste et évalue la significativité de l’écart à l’équilibre. L’intensité d’implication entro- pique, quant à elle, est une extension de l’intensité d’implication mieux adaptée aux grands jeux de données. Elle prend en compte à la fois l’écart à l’équilibre et l’écart à l’indépendance. Enfin, le taux informationnel est une mesure fondée sur la théorie de l’information. Elle possède la particularité unique de rejeter simultanément les mauvais écarts à l’équilibre et les mauvais écarts à l’indépen-

Fig. 2.1 – Tirage aléatoire d’un ensemble X sous hypothèse d’équiprobabilité entre les exemples et les contre-exemples

dance. Pour chacun des trois indices de règle, nous décrivons sa construction et étudions ses propriétés.

2.1 IPEE, un indice probabiliste d’écart à l’équi-