• Nenhum resultado encontrado

Lexique et analyse s´emantique de textes -

N/A
N/A
Protected

Academic year: 2023

Share "Lexique et analyse s´emantique de textes -"

Copied!
298
0
0

Texto

L'usage est la projection d'un sens (au sens classique de la lexicographie) sur un contexte spécifique (souvent implicite dans les dictionnaires). L'identification des usages des termes et l'amélioration des relations peuvent et doivent faire partie de la boucle entre les utilisateurs et les processus.

Dictionnaires, lexiques et ressources lexicales

Dictionnaires furco¨ıdes multilingues

Structurellement, les équivalents dans les deux langues cibles sont côte à côte, donnant à l'ensemble une organisation divisée, d'où le nom de furkoïdes. Serveur FeM au LIG : http://www-clips.imag.fr/cgi-bin/geta/fem/fem.pl.

Bases lexicales multilingues par acceptions

Une analyse des difficultés de construction associées à ces projets a été présentée dans [Lafourcade, 1998]. Dans [Jalabert & Lafourcade, 2002], la question de nommer le sens d'une entrée a été abordée, et cela a représenté le début de l'automatisation du travail avec les gloses dans les projets Fe*.

Lexiques = r´eseaux ?

La question de la construction à faible coût (informatique et humaine) de vecteurs conceptuels multilingues a été explorée dans [Lafourcade et al., 2004] et celle des réseaux lexicaux multilingues de manière contributive a été explorée dans [Lafourcade et al., 2004]. Zampa et Lafourcade, 2009a].

Vecteur d’id´ees : une structure d’espace

  • Vecteurs conceptuels et vecteurs anonymes
  • Op´erations sur les vecteurs
  • Vecteurs et fonctions lexicales
  • Construction et utilisation de vecteurs

Le schéma général de construction d’un ensemble de vecteurs construits par émergence est le suivant. En effet, rappelons que lors de la création d’une page, un rédacteur est avant tout un internaute.

R´eseau lexical : une structure de graphe

D´efinition g´en´erale

Lorsque les nœuds correspondent à des significations ou à des concepts, on parle généralement de réseaux sémantiques. Les nœuds et les arcs sont pondérés, reflétant respectivement (et de manière extrêmement vague) le sens dans l'usage du terme et la force de la relation.

R´eseaux et fonctions lexicales

Ici, le type peut être soit une association générale (relative), soit un sujet possible de la graine verbale (agent). Le réseau français obtenu en collaboration avec JeuxDeMots contient environ 232 000 expressions et plus d'un million de relations environ).

Construction de relations et mixit´e

L'ajout de relations est évidemment souhaitable, mais dans le contexte de la PNL et de l'analyse de texte, nous pensons que trop de nettoyage pour éliminer la redondance est une mauvaise idée. La présence de poids dans les relations permet de prioriser l'importance relative de chacune d'elles.

Signature : une structure ensembliste lexicalis´ee

Fonction d’activation

Autres op´erations

Enfin, le voisinage d'une signature S peut aussi être construit par une simple extension de la définition sur les vecteurs. Intuitivement, les premiers termes de la signature devraient entretenir une relation forte avec les premiers voisins.

Construction et applications

Considérons d'abord le cas plus simple de la synonymie absolue (qui n'est qu'un cas particulier de synonymie relative). On a aussi le cas du travail (A) et du chômage (B) du fait de la polysémie du travail.

Figure 1. Stratégie de construction de la base Papillon
Figure 1. Stratégie de construction de la base Papillon

Construction par propagation et points d’ancrage

In the context of word meaning disambiguation (WSD) and lexical transfers in machine translation (MT), the representation of word meanings is one of the critical issues. A text analysis process based on conceptual vectors is independent of the underlying vector space. In almost all KR documents, hyperonymy is assimilated to the general argument of the is-is relationship (the basics are given in [1]).

The zero vector~0 is the neutral element of the vector sum, and by definition we have ~0⊕~0=~0. The experiments we conducted (another example is in the appendix) on a collection of several hundred nouns (and nouns) revealed the problem of the conceptual horizon. In our case, we know one of the two terms (the source term) as well as the relation type (imposed by the instruction given to the players).

Several definitions of similarity can be found in NLP, for example (Manning and Schütze 1999) or more recently (Fairon and Ho 2004). We ignored tree uses whose relevance is below a given threshold (empirically set to 50 in our experiment). In the context of word sense disambiguation (WSD) and lexical transfers in machine translation (MT), the representation of word meaning is one of the main problems.

Fig 1 : Semantic analysis with a typical definition of tit as  Insectivorous passerine bird with colorful feather  We have undertaken three main experiments
Fig 1 : Semantic analysis with a typical definition of tit as Insectivorous passerine bird with colorful feather We have undertaken three main experiments

Construction par ´emergence

Evaluation des m´ethodes de construction de vecteurs ´

From a morphosyntactic analysis tree of the text, we associate for each term sentence (acceptance) a vector. Let's define Sim(A, B) as one of the similarity measures between two vectorsA and B, which is often used in information retrieval. This horizon stands at the lowest level of the concept hierarchy (in the hierarchy we use [10] for French language, which corresponds to the depth4.

In addition, one of the goals is the ability to associate relations, not on terms themselves (with ambiguities for polysemous terms), but on their usage (thus clearing up lexical ambiguities). The perspective of our work is to strongly confirm that inserting identified word usages into a lexical network and suggesting them to players has some good properties.

Identification d’usages de termes

Cliques et usages de sens

Nous sommes donc amenés à faire la distinction entre les notions de sens d'usage et de sens. La compréhension du sens de l'usage (généralement appelé usage) sera bien plus fidèle aux locuteurs que celle du sens qui, comme le montre [Veronis, 2001], est relativement faible lorsqu'on se réfère aux dictionnaires traditionnels ou à des sources comme WordNet. Ci-dessus se trouvent quelques exemples de répartition du sens du terme barrage (exemple tiré de [Veronis, 2001].

La section (a) fait partie du Wiktionnaire1 et comprend deux anciennes significations (péage et blanchisserie). La section (b) fait partie d’un dictionnaire en ligne2 et comporte une signification particulière en psychologie.

Organisation d’usages de sens en arbre

The calculation of this number of points (explained in (Lafourcade and Joubert, 2008)) is made to achieve both precision and recall when feeding the database. The usage tree of a term is a structure that expresses the refinements of its different meanings, as inferred from the state of the lexical network. Labeling the different nodes of a term's usage tree is done during a breadth-first search, that is, according to a.

We performed the evaluation only on the first level of the usage tree computed for a given term. The overall meaning of a text results from the interactions between the different meanings of the words that make up the text.

Figure 1: An example of a part of the lexical network. For the sake of clarity, the relation weights are not represented here
Figure 1: An example of a part of the lexical network. For the sake of clarity, the relation weights are not represented here

Validation par r´einjection dans le jeu

Algorithme de remont´ee-descente

Si le mot est inconnu (c'est-à-dire qu'il n'est pas dans le dictionnaire), le vecteur nul est pris en compte. Le processus de propagation vers le haut et vers le bas est répété jusqu'à ce qu'un nombre maximum de cycles soit atteint ou jusqu'à ce que le vecteur racine se stabilise. La stabilisation est détectée empiriquement lorsqu'entre deux cycles la variation de la distance angulaire entre les deux versions du vecteur racine est faible.

Cette sélection est elle-même le résultat d'une descente en contextualisant les vecteurs des termes environnants (le contexte de chaque terme). La diffusion s'accompagne d'un fort processus de contextualisation, qui est à la base de la sélection (la fonction de contextualisation des vecteurs d'idées est présentée au chapitre 1).

Algorithme de remont´ee simple

La propagation (le long de la structure, ici l'arbre morpho-syntaxique) est l'idée centrale de l'approche présentée. D’une part, différentes interprétations sont combinées, mais d’autre part, les restrictions entre les différents sens choisis pour les mots ne sont pas structurellement représentées.

Extraction et calcul de termes-cl´es th´ematiques

Amorc¸age par mots-cl´es centraux

L'Inverse Document Frequency (IDF) peut être extraite d'un corpus de référence ou d'une source de dictionnaire externe (comme le réseau JeuxDeMots par exemple). De manière générale, la fréquence d'un nom, d'un verbe, d'un adjectif ou d'un adverbe T dans une langue dans un réseau lexical peut être approximée par la somme des termes associés à T. Nous soulignerons que, contrairement à une simple approche de comptage, dans le corpus on obtient une valeur de fréquence pour les termes composés (étrier, pomme de terre, etc.), ainsi que pour les expressions ambiguës (tour>bâtiment, lapin>viande, etc.).

Nous nous sommes demandés s'il existait une corrélation raisonnable entre cette mesure pour un terme du réseau (nous parlerons vaguement de son poids) et les données des deux groupes ci-dessus. JDM est l'ensemble des termes et de leurs poids, tirés de JeuxDeMots.) Que dire de ces résultats. Cela est au moins vrai pour les termes les plus fréquents ; le degré de corrélation tend à diminuer à mesure que les groupes s'étendent vers les termes les moins fréquents.

S´election de mots-cl´es p´eriph´eriques par diffusion dans le texte

FIGURE 4.5 – (a) Extraction de mots-clés – l'ensemble des mots du texte qui composent la signature. b) comparaison par sélection de quartier de mots-clés, répétés à partir du premier mot-clé ou vecteur centroïde. Les figures 4.5 illustrent les types de résultats obtenus avec la méthode de diffusion proposée ici (à gauche) et une méthode qui consisterait à partir d'un point central et à sélectionner un quartier (à droite). Le point de départ peut être le premier mot-clé (le noyau réduit à un terme) ou le vecteur centroïde du noyau (les trois premiers mots-clés).

En général, partir d’un point focal permet uniquement de saisir les termes liés au sujet dominant.

Capture de mot-cl´es connexes par propagation dans le r´eseau

Nos propres expérimentations ont montré que l'extension permettait de retrouver les mots-clés thématiques associés aux articles du Monde de 1994 dans 90% des cas (rappel). L'approche centroïde directe (vecteur qui est la somme pondérée de tous les termes de l'article) assure la dispersion et la redondance des mots-clés (multiplicité des synonymes). Sans extension on retrouve des mots-clés thématiques dans 20% des cas, et dans 55% des cas.

Dans ce cas, sans extension on retrouve des mots-clés thématiques dans environ 30% des textes et dans 45% avec extension. La liste A résultait de la seule méthode de distribution, la liste B correspondait à la distribution plus expansion et la liste C était constituée de mots sélectionnés au hasard dans le texte (fournissant ainsi une référence de base).

Analyse s´emantique bioinspir´ee

Dans cet article, nous présentons l'algorithme LexicalRank qui propage deux signatures lexicales : l'une interne et l'autre externe. La signature interne d'une page (notée) est la signature lexicale que souhaite donner l'auteur de la page. La signature externe d'une page (notée) est la signature lexicale perçue par les auteurs des pages qui y renvoient.

La signature externe de la page courante est obtenue à partir des signatures internes précédentes des pages qui pointent vers elle. Les tableaux 2 à 4 illustrent l'évolution des signatures lexicales d'un site Internet introduisant des réseaux peer-to-peer.

Figure 1: propagation de rang
Figure 1: propagation de rang

Evaluation et consolidation d’un r´eseau lexical ´

AKI : un oracle lexical

Vers d’autres activit´es pour l’acquisition de donn´ees lexicales

Visualisation globale

Vers une analyse holistique de textes

Principe g´en´eral

D´ecouverte de constituants et de d´ependances

Inf´erence, inhibition et lecture du r´esultat

Imagem

Figure 1. Stratégie de construction de la base Papillon
Figure 2. Utilisation d’un lien inter axies pour représenter les phénomènes contrastifs de l’équivalence lexicale.
Figure 4. Architecture du serveur de communauté Papillon.
Figure 5. Définition XML des structures de dictionnaires monolingues de la base Pa- Pa-pillon.
+7

Referências

Documentos relacionados

D´emarche Extraction et analyse d’important corpus > 100K notices repr´esentatifs depuis des BDD bibliom´etriques Analyse de type ‘bibliographic coupling’ basant la notion de