• Nenhum resultado encontrado

Analyse s´emantique bioinspir´ee

No documento Lexique et analyse s´emantique de textes - (páginas 172-200)

FIGURE4.6 – Capture de mot-cl´es issus du r´eseau lexical.

les rappels et pr´ecisions pour la diffusion seule. Une F-mesure sup´erieure `a 70 % a ´et´e trouv´e pour des textes d’actualit´e (d’environ une page). Nos propres exp´eriences ont montr´e que l’extension per- mettait de retrouver, dans 90 % des cas (en rappel), les mots-cl´es th´ematiques accompagnant les articles du Monde de l’ann´ee 1994.

L’approche directe par centro¨ıde (vecteur qui est la somme pond´er´ee de tous les termes de l’ar- ticle) produit une dispersion et une redondance des mots-cl´es (multiplicit´e des synonymes). Sans extension, nous retrouvons les mots-cl´es th´ematiques dans 20 % des cas, et avec dans 55 % des cas.

L’approche directe par un noyau unitaire (un seul mot-cl´e) concentre trop fortement la th´ematique suppos´ee du document qui est devenue unique. Dans ce cas, sans extension nous retrouvons les mots-cl´es th´ematiques dans environ 30% des textes et dans 45 % avec extension.

Un ´echantillon tr`es r´eduit de 20 articles a ´et´e fournis `a une dizaine de personnes. Apr`es lecture, il leur a ´et´e propos´e plusieurs listes de mots-cl´es. La liste A ´etait issue de la m´ethode par diffusion seule, la liste B correspondait `a la diffusion plus l’extension, et la liste C ´etait constitu´ee de mots du texte s´electionn´es al´eatoirement (constituant ainsi une r´ef´erence de base). Les individus devaient ordonner les listes par pr´ef´erence d´ecroissante. La liste plac´ee en tˆete recevait 2 points, la seconde 1 point et la troisi`eme (et derni`ere) 0 point. En moyenne pour les 30 articles, les listes A ont obtenu 1,1points, les listes B1,85points et les listes C,0,05points. L’exp´erience est certes extrˆemement modeste mais n´eanmoins encourageante.

(verbe, nom, adjectif, etc.). `A partir des cat´egories, des relations grammaticales entre les mots sont extraites et ces relations peuvent ˆetre repr´esent´ees sous la forme d’une structure arborescente appel´ee arbre d’analyse morphosyntaxique. Cependant les relationss´emantiquesentre les mots ne sont en aucune fac¸on pr´esentes dans cet arbre. Pour repr´esenter ces relations et la structure aff´erente, nous consid´erons les mots comme les entit´es de base d’un r´eseau d’interactions dans lequel la dynamique implicite permet de r´ev´eler le sens le plus probable parmi l’ensemble des sens attach´es aux mots polys´emiques.

La th`ese que nous d´efendons ici est qu’un texte peut ˆetre consid´er´e comme unsyst`eme complexe.

Nous en proposons la d´efinition g´en´erale suivante et comme `a notre connaissance il ne semble pas en exister aujourd’hui d’unique ou consensuelle dans le domaine du TAL (contrairement en physique, en chimie ou encore en automatique) nous tentons une d´efinition pour l’analyse s´emantique de textes.

Un syst`eme complexe est un syst`eme compos´e de nombreuses entit´es au comportement dynamique en interaction entre elles et avec leur environnement. Le comportement glo- bal du syst`eme, non d´eductible des caract´eristiques des entit´es elles-mˆemes, ´emerge de l’auto-organisation du syst`eme.

L’analyse s´emantique de textes peut-ˆetre vue comme un syst`eme complexe dont les ac- teurs sont les objets du texte (mots, acceptions, syntagmes, etc.) et les relations qu’ils entretiennent (rˆoles syntaxiques, rˆoles s´emantiques, etc.), et dont la dynamique vise `a

´elaborer des chemins d’interpr´etation entre acteurs et la mise en ´evidence des plus adapt´es `a l’environnement.

La nature offre un ´eventail vari´e de syst`emes r´epondant `a la d´efinition g´en´erale. Ils sont caract´eris´es par des propri´et´es globales qui ne sont obtenues ni par un processus de supervision, ni par une co- ordination centralis´ee. Bancs de poissons, nu´ees d’oiseaux [Chat´e & Gr´egoire, 2004], colonies de bact´eries [BJ2004], tas de sable [Bak, 1996], r´eseaux d’interactions prot´eiques [Amaret al., 2004]

et sans aucun doute les langages sont autant d’exemples de syst`emes de ce type. Leurs propri´et´es r´esultent des interactions locales entre les entit´es elles-mˆemes et entre les entit´es et leur environne- ment. Leur capacit´e d’auto-organisation, qui peut ˆetre d´efinie comme un processus dynamique, ho- listique et d´ecentralis´e de structuration, permet leur auto-adaptation aux changements dynamiques et impr´evisibles qui se produisent au sein de leur environnement.

L’action d’une entit´e peut affecter les actions ult´erieures d’autres entit´es dans le syst`eme ; cette interd´ependance s’exprime au niveau global par la formule bien connue : le tout est plus que la somme de ses parties, ou, autrement formul´ee,l’action du tout produit davantage que la simple somme des actions de ses parties3. Les actions, dans le contexte de notre ´etude, correspondent aux sens des mots qui constituent le texte, et la somme des actions produit le sens global du texte, qui est, `a n’en pas douter, bien plus que la simple somme des sens des mots consid´er´es. En pratique, l’un des probl`emes qui se pr´esentent est que les sens ne sont pas, `a proprement parler, des ´el´ements actifs. Ainsi, pour exprimer la dynamique du syst`eme dans son ensemble, nous avons d´ecid´e d’ajou- ter au syst`eme un support d’activit´e compos´e detransporteurs de sens. Cestransporteursont pour but de permettre les interactions entre les ´el´ements qui composent le texte. Ils doivent ˆetre `a la fois l´egers (du fait de leur nombre potentiellement important) et ind´ependants (les sens des mots sont

3. [Langton, 1996]Why do we need artificial life ?page 305.

164

directes, par des marques num´eriques, les ph´eromones, et par des marques structurelles mat´erialis´ees par la modification de leur environnement. Dans le cadre de notre probl`eme de d´esambigu¨ısation lexicale, l’environnement est un arbre d’analyse morphosyntaxique.

Nos travaux sur la question ont pour objectif d’exploiter la capacit´e d’auto-organisation des colonies de fourmis pour la d´etermination de solutions au probl`eme de la d´esambigu¨ısation lexicale, pour lequel la d´efinition d’une fonction d’´evaluation globale appropri´ee est extrˆemement d´elicate. Plus pr´ecisement, la d´esambigu¨ısation lexicale est la d´etermination du sens des mots, en contexte (d’un

´enonc´e, d’un discours ou d’un dialogue). L’id´ee retenue consiste `a concevoir un syst`eme `a base de fourmis artificielles qui se d´eplacent `a l’int´erieur d’un graphe, r´esultant de l’analyse syntaxique du texte ´etudi´e, et qui le modifient. Une solution s’exprime comme un ensemble de chemins qui mettent en ´evidence les compatibilit´es entre les sens des mots. Pour construire de tels chemins, les fourmis disposent de deux types d’objets. Les marques num´eriques, les ph´eromones, sont d´epos´ees sur les arˆetes et indiquent l’importance relative de certains chemins. D’autres arˆetes, que nous appel- lerons lesponts, sont cr´e´ees par les fourmis entre des sommets voisins sur le plan s´emantique. Ces arˆetes constituent des marques structurelles. La combinaison des ph´eromones et des ponts permet aux fourmis de coop´erer de mani`ere indirecte et asynchrone. Ce principe de base a ´et´e identifi´e par Pierre-Paul Grass´e qui l’a nomm´estigmergie[Grass´e, 1959].

Bien que les algorithmes `a fourmis aient ´et´e largement utilis´es pour le traitement de probl`emes d’optimisation classiques, nous n’avons pas connaissance de leur utilisation dans le domaine du traitement algorithmique de la langue naturelle (TAL). Cependant, une id´ee proche a d´ej`a ´et´e mise en œuvre par le projet COPYCAT [Hofstadter, 1995]. Dans ce travail, l’environnement lui-mˆeme contribue au calcul de la solution et cet environnement est modifi´e par une population d’agents dont le rˆole et la motivation varient (voir ´egalement les travaux de Mitchell [Mitchell, 1993]). En 1992, Gale, Church et Yarowsky ont utilis´e une technique relevant de l’approche bay´esienne na¨ıve pour la d´esambigu¨ısation lexicale [Galeet al., 1992]. Certaines propri´et´es de ces mod`eles semblent bien adapt´ees `a des tˆaches d’analyse s´emantique et lexicale, dans la mesure o`u les sens des mots peuvent ˆetre consid´er´es en concurrence `a l’acc`es aux ressources.

Au del`a des concepts relevant de labioinspiration(stigmergie, mise en concurrence pour l’obten- tion de ressources, adaptation `a un environnement changeant), quelques principes nous paraissent essentiels pour approcher la r´esolution du probl`eme : (1) l’information mutuelle o`u la proximit´e s´emantique est un facteur d´eterminant pour l’activation lexicale, (2) la structure syntaxique du texte et en particulier les fonctions syntaxiques peut servir de guide pour la propagation de l’information, (3) desponts conceptuelsentre ´el´ements de l’environnement (les termes et les syntagmes) peuvent ˆetre construits (et supprim´es) dynamiquement et fournissent une lecture partielle du r´esultat. Ces ponts sont des ´el´ements qui permettent l’´echange d’information mutuelle au-del`a des voisinages lo- caux et constituent des raccourcis pouvant s’agglom´erer de proche en proche. Finalement, comme not´e par Hofstadter [Hofstadter, 1995], (4) la randomisation biais´ee (`a ne pas confondre avec le chaos) en particulier `a travers l’utilisation de la fonction sigmo¨ıde, joue un rˆole majeur dans le mod`ele, sachant que l’effet global n’est lui pas du tout al´eatoire.

Les d´etails concernant le mod`ele d’analyse de texte bioinspir´e, ainsi que certains r´esultats sont pr´esents dans l’article inclus (M. Lafourcade, F. Guinand (2010)Artificial Ants for Natural Lan- guage Processing).

165

avant la possibilit´e d’approches holistiques o`u la stratification en phases (morphologique, syntaxique puis s´emantique) laisserait la place `a des approches o`u les tˆaches seraient plus finement entrelac´ees.

De plus, bien que nous ne l’ayons pas explicit´e tel quel, l’apprentissage par le calcul de vecteurs d’id´ees lors de l’analyse de textes semble aussi ˆetre un ´el´ement important devant ˆetre intimement li´e au processus d’analyse lui-mˆeme. L’analyse s´emantique doit de plus tirer davantage profit de la notion de chemins interpr´etatifs qui peuvent fournir des structures profondes d’explications. Un couplage de l’analyse de textes avec les r´eseaux lexicaux semble alors une direction `a prendre. Un r´eseau lexical ne serait plus seulement un fournisseur de structures s´emantiques (vecteurs d’id´ees, signatures lexicales) mais serait en lui-mˆeme l’environnement o`u s’activeraient termes et concepts lors de l’analyse.

Articles adjoints au chapitre 4

M. Lafourcade et Ch. Boitet (2002)UNL lexical Selection with Conceptual Vectors.In proc. of LREC’2002, Las Palmas, Canary Island, Spain, May 27, 2002, 7 p.

M. Bouklit et M. Lafourcade (2006)Propagation de signatures lexicales dans le graphe du Web.In proc of RFIA’2006, Tours, France, 25 au 27 janvier 2006, 9 p.

M. Lafourcade, F. Guinand (2010)Artificial Ants for Natural Language Processingin Artificial Ants. N. Monmarch´e, F. Guinand, P. Siarry Eds. Wiley ISBN : 9781848211940.

pages 454-492.

166

FIGURE4.7 – Fonction sigmo¨ıde, cas particulier de fonction logistique (source Wikip´edia).

La fonction sigmo¨ıde est de la forme : f(x) = 1

1 +ex =1 2 +1

2tanh(x 2)

et son expression la plus g´en´erale, comme famille de fonctions logistiques, est : f(x) =K 1

1 +aerx K, r∈R+ et a∈R

Cette fonction est souvent utilis´ee dans les r´eseaux de neurones comme fonction d’activation. La production d’un agent (une fourmi) dans le mod`ele bioinspir´e, correspond en effet `a l’´emission d’un signal destin´e `a se propager dans l’environnement. La probabilit´e d’´emission du signal est ainsi si- mul´ee par la fonction sigmo¨ıde. Le coˆut de l’´emission du signal fait baisser l’activation (en abscisse dans la figure4.7) d’une petite quantit´e, rendant l’´emission d’un nouveau signal moins probable. `A activation nulle, la probabilit´e d’´emission est de1/2, ce qui correspond au milieu de la phase de transition d’un ´etat non-actif vers un ´etat actif.

La fonction sigmo¨ıde est un cas particulier de fonction logistique (de P. F. Verhulst) mod´elisant une

´evolution de population comportant un frein et une certaine capacit´e d’accueilK(on peut passer de l’une `a l’autre par transformation affine). Ces fonctions peuvent ´egalement mod´eliser des r´eactions autocatalyliques. Les fonctions en S (logistiques, tangente hyperbolique ou fonction de Heaviside, entre autres) apparaissent aussi fr´equemment dans les m´ethodes bay´esiennes.

167

168

M. Bouklit M. Lafourcade Algorithmique et Combinatoire.

Laboratoire d’Informatique Algorithmique, Fondements et Applications.

Université Denis Diderot (case courrier 7014).

2, place Jussieu. 75251 Paris cedex 5 - France

Traitements Algorithmiques du Langage.

Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier.

161, rue Ada. 34392 Montpellier Cedex 5 - France bouklit@liafa.jussieu.fr

lafourcade@lirmm.fr

Résumé

L’analyse du graphe formé par les pages web et les liens hypertextes qui les relient, communément appelé graphe du Web, a permis d’améliorer la performance des moteurs de recherche actuels. Ainsi, lancé en 1998, le moteur de recherche Google classe les pages grâce à la combinai- son de plusieurs facteurs dont le principal porte le nom de PageRank. Nous présentons dans cet article l’algorithme LexicalRank propageant deux signatures lexicales : l’une interne, l’autre externe. Une signature lexicale est un en- semble de termes pondérés décrivant une page.

Mots Clef

Recherche d’informations, graphe du Web, PageRank, mo- teur de recherche, signature lexicale.

Abstract

Theorical analysis of the Web graph is often used to im- prove the efficience of search engines. The PageRank al- gorithm, proposed by Brin and Page in 1998 is used by Google search engine to improve the results of requests.

In this paper, we present the LexicalRank algorithm which propagates two lexical signatures : one interns, the other external one. A lexical signature is a set of weighted terms describing a page.

Keywords

Information Retrieval, Web graph, PageRank, search en- gine, lexical signature.

1 Introduction

Le Web (ensemble des pages hypertextes disponibles sur Internet) est devenu une partie intégrante de la vie quo- tidienne de millions de gens. La nature même des mé- dias électroniques, ainsi que la volonté de ses inventeurs [BLCL

94] lui ont donné une nature hypertexte : les do- cuments sont structurés en pages, qui se pointent les unes vers les autres, par un système de références.

La croissance exponentielle du Web rend problématique l’appréhension de sa structure globale. Pourtant, une connaissance du contenu et de la structure du Web est in- dispensable pour réaliser de nombreuses tâches essentielles à la vie de l’internaute, telles que la recherche d’informa- tions (où trouver une page sur tel sujet ?) ou la mesure d’au- dience (ma page est-elle populaire ?).

C’est pourquoi les moteurs de recherche ont développé des méthodes de tri automatique des résultats. Leur but est d’afficher dans les dix à vingt premières réponses les docu- ments répondant le mieux à la question. Dans la pratique, aucune méthode de tri n’est parfaite, d’autant plus que la question de la justesse d’un classement est en grande partie subjective. Un classement est justifié au mieux par un son- dage, le plus souvent au jugement du lecteur. Cependant, la variété des méthodes offre à l’usager la possibilité de traquer l’information de différentes manières : cette variété augmente donc ses chances d’améliorer ses recherches.

La suite de l’article est organisée comme suit. La section 2 décrit tout d’abord quelques méthodes de tri automa- tique des résultats comme PageRank, une mesure de popu- larité des pages Web. La section 3 introduit notre modèle LexicalRank et l’algorithme qui en est déduit. LexicalRank

2 Méthodes de tri automatique des résultats

2.1 Tri par contenu

La méthode de tri la plus ancienne et la plus utilisée est la méthode de tri par contenu : on la trouvait dans les moteurs Voila, Lycos, AltaVista, Excite, InfoSeek, ... Elle est ba- sée sur le nombre d’occurrences des termes de la recherche dans les pages, de leur proximité, de leur place dans le texte [Sal89, YLYL95].

Malheureusement, cette méthode présente l’inconvénient d’être facile à détourner par des auteurs désireux de placer leurs pages en tête de liste : pour cela, il suffit de répéter les mots importants soit dans l’en-tête, soit dans le texte en uti- lisant des techniques de spamming (écrire le texte en blanc sur fond blanc par exemple) pour modifier à son avantage le classement.

2.2 PageRank

Les limites du tri par contenu ont alors conduit à recher- cher, à partir de principes tout à fait différents, d’autres méthodes complémentaires indépendantes du contenu des documents. C’est dans ce contexte que sont apparues des méthodes de tri basées sur une notion de popularité.

En 1998, Sergei Brin et Larry Page alors étudiants en thèse à l’Université Stanford mettent au point une méthode qui va révolutionner le Web [PBMW98]. Cette méthode consiste à estimer la popularité des pages web en se servant de la structure induite par les pages web et les liens hypertextes qui les relient communément appelé graphe du Web. Plus précisément, elle classe les pages en utilisant un indice nu- mérique (le «rang») calculé globalement pour chaque page d’où le nom PageRank. Ce rang donne en fait une bonne estimation de la popularité de la page. C’est ce même rang qui permettra en particulier d’ordonner les résultats d’une requête d’un usager. Quelques mois plus tard, le moteur de recherche Google [Goo98] voit le jour ...

Dans la suite, nous appellerons le graphe formé par les page web

et les liens hypertextes qui les relient . représentera le nombre de pages de

. En pratique, est principalement obtenu par une succession de parcours du Web (crawls). En effet, il y a en amont du processus les robots qui chalutent continuellement le Web dans l’intention de découvrir de nouvelles pages et à défaut de mettre à jour les anciennes. Ces pages sont sto- ckées dans un entrepôt de données. Viennent ensuite les hy-

cerveau est un outil secondaire quand il s’agit de trou- ver les «bonnes» pages web. Toutes les variantes de Pa- geRank peuvent s’interpréter comme un surfeur aléatoire, censé modéliser un internaute lambda, dont le comporte- ment, bien qu’aléatoire, est soumis à certaines règles qui définissent la variante.

Le plus souvent, ces règles se traduisent par un processus stochastique de type markovien. A partir d’une distribu- tion initiale de probabilité sur l’ensemble des pages web, le processus est itéré et, sous réserves de garanties de conver- gence et d’unicité de la limite, tend vers une distribution de probabilité qui est par définition le PageRank de la variante en question. On comprend donc qu’il existe en réalité une multitude de PageRanks même si on parle souvent du Pa- geRank au singulier[BP98].

Modèle initial. Le niveau zéro du surfeur aléatoire, pro- posé par [PBMW98], suppose que notre internaute, quand il est sur une page donnée, va ensuite cliquer de manière équiprobable sur un des liens sortants.

Si représente la probabilité de présence de notre surfeur à l’instant sur la page , l’équation de propa- gation du rang s’écrit donc :

"!#

$%

&('*) +$% (1)

$-,. désigne “$ pointe sur ” et où&('*) +$% est le degré externe de

$

.

Vectoriellement, si on appelle/ la matrice d’adjacence de , et01324 658739;=<?>A@:

1CB (par conventionD FEE ), l’équation de propagation se formule ainsi :

G H

0JIK (2)

Rechercher une distribution de probabilité sur

vérifiant (1) revient à trouver la distribution asymptotique de la chaîne de Markov homogène dont la matrice de transi- tion est0 . Si0 est apériodique et irréductible2, il est bien connu [SC96] que le processus itératif (2) converge géo- métriquement vers une distribution de probabilité véri- fiant (1) quelque soit la distribution de probabilité initiale

L

. Dans ce cas, la matrice0 est stochastique car c’est une matrice positive dont la somme de chacune des lignes vaut

1Notons que [PBMW98] ignore les ancres pour faciliter le calcul du PageRank.

2Une matrice est dite irréductible si son graphe est fortement connexe, et apériodique si le p.g.c.d. des longueurs des circuits est 1.

No documento Lexique et analyse s´emantique de textes - (páginas 172-200)