Conclusion - transducteurs d’arbres et clustering pour induction de grammaires catégorielles

Notre méthode, en mélangeant l’apprentissage par uniﬁcation et le clustering pour guider celui-ci, c’est à dire de l’apprentissage statistique, donne des résultats prometteurs.

Le lexique, quant à lui, peut-être utilisé à 91,3% pour typer des phrases.

Etant donné le nombre d’informations que nous utilisons, il sera de toute façon complexe de dépasser en terme de justesse des types donnés par le Supertag- ger, cependant la grammaire extraite peut permettre d’analyser des phrases, comme nous le verrons dans le chapitre suivant.

Nous utilisons actuellement très peu d’informations, c’est à dire des bi- grammes lors de l’étape de clustering. Passer à l’utilisation de trigrammes devrait donner d’encore meilleurs résultats. De même, nous devons trouver un équilibre entre rajouter des informations et pouvoir gérer une certaine quantité de mots, car avec la complexité de l’algorithme que nous utilisons actuellement, chaque dimension que nous rajoutons diminue le nombre de mots passés en en- trée.

Analyse de phrases

Après avoir utilisé différentes méthodes pour extraire une grammaire AB des différents corpus, nous avons voulu tester celles-ci, non pas uniquement en obtenant des arbres mais en les couplant à une étape de typage pour l’analyse syntaxique à large couverture. Cela permet donc dans un premier temps de tester notre grammaire en passant un premier lot de phrases correctes à l’analyseur et en regardant combien sont effectivement analysées puis dans un second temps d’analyser de nouvelles phrases pour savoir si elles sont correctes ou non.

Ces travaux ont fait l’objet de deux publications [Sandillon-Rezer, 2012a,b]

et d’une démonstration [Sandillon-Rezer, 2012c].

L’organigramme de la ﬁgure 5.1 montre l’enchaînement des étapes à ef- fectuer pour arriver à l’analyse de phrases et le chapitre suivra ce plan. Tout d’abord nous verrons le typage de phrases en vue de l’analyse, puis l’extraction de grammaires probabilistes (PCFG pour Probabilistic Context Free Gram- mar). Enﬁn nous nous focaliserons sur l’analyse et l’algorithme CYK, pour ensuite parler de l’implémentation et évaluer notre méthode.

5.1 Typage de phrases

L’étape de typage consiste à donner une ou plusieurs catégories aux mots d’une phrase, avec dans le cas où il y a plusieurs catégories possibles la proba- bilité de chacune.

Typage par arbres de dérivation Bien que cette solution n’ait pas été re- tenue ﬁnalement, nous avons la possibilité d’extraire la frontière des arbres de dérivation, composée des mots et de leur type.

Cela nous a permis, pendant la phase de développement du logiciel, de vériﬁer que l’algorithme de parsing fonctionnait correctement : en eﬀet,

Arbres de dérivation

grammaire

phrases analysées

phrases

phrases typées

Ygg Extracteur de grammaire

Supertagger Clustering

Figure 5.1 – Des arbres de dérivation, venant soit du transducteur soit du clustering, on extrait une grammaire qui servira, avec des phrases typées par Grail, d’entrée pour l’algorithme CYK probabiliste.

si la grammaire vient des mêmes arbres de dérivation que les phrases, le résultat doit être de 100% d’analyse. Nous nous sommes aussi servis de cette méthode pour comparer les couvertures des grammaires extraites des diﬀérents corpus, comme décrit dans la section 5.5.

De plus, sur certaines phrases complexes, cela nous a permis de voir comment était formé le nouvel arbre de dérivation associé et de corriger certaines règles du transducteur.

Nous aurions aussi pu décider de typer les phrases avec le lexique, cependant nous avons préféré utiliser le Supertagger [Moot, 2010a,b; Clark et Curran, 2007], entraîné avec les données extraites de nos arbres de dérivation.

Typage par Supertagger Cette méthode agit en deux étapes : tout d’abord on eﬀectue une passe qui assignera un ou plusieurs POS-tags aux mots de la phrase et ensuite les mots seront “supertaggés” avec les informations venant du lexique après transduction. Prenant le contexte du mot en paramètre, il va donner des types qui devraient pouvoir se combiner. Le Supertagger, en fonction du contexte local, donne une première formule ainsi que sa probabilitéppour chaque mot de la phrase. C’est en fonction de cette probabilité ppour chaque mot qu’il peut y avoir d’autres types, en fonction d’un paramètre β. Tous les types ayant une probabilité plus grande queβ×pseront proposés. Par conséquent, siβ = 1il n’y a qu’un seul type par mot et plus β est petit, plus il y a de types rares.

Un exemple de sortie du Supertagger, avecβ = 0,01, est donné figure 5.2, tandis que la même phrase typée par le transducteur est donnée figure 5.3. La différence la plus notable est au niveau du verbe : dans le premier cas “avait”

prendra deux arguments, le groupe nominal et le participe passé, alors que dans le second cas c’est le participe passé qui prendra en argument le groupe nominal et le verbe, lui, seulement le participe passé.

(SENT

(Ce "np/n:0.933277" "(s/s)/n:0.0617") (procès "n:1")

(gagné "n\\n:0.962703" "np\\s_p:0.0126507")

(donne "((np\\s)/np)/pp_a:0.755706" "(np\\s)/np:0.151997"

"(np\\s)/pp:0.0536585" "((np\\s)/pp_a)/np:0.0163681") (au "pp_a/n:0.699803" "(((np\\s)/np)\\((np\\s)/np))/n:0.170054"

"pp/n:0.0887591" "(s\\s)/n:0.0163106") (Crédit_Lyonnais "n:0.999581")

(les "np/n:0.966763" "(n\\n)/n:0.0162433") (coudées "n:0.998672")

(franches "n\\n:0.98412")

(pour "pp:0.718979" "((n\\n)\\(n\\n))/((n\\n)\\(n\\n)):0.113514"

"(s\\s)/(s\\s):0.0722447" "(n\\n)/(n\\n):0.0456898"

"(np\\s_i)/(np\\s_i):0.0132377"

"((np\\s_i)\\(np\\s_i))/((np\\s_i)\\(np\\s_i)):0.0118367"

"(n\\np)/(n\\np):0.00822545")

(gérer "(pp\\(s\\s))/np:0.574272" "((n\\n)\\(n\\n))/np:0.117099"

"(s\\s)/np:0.0539138" "(pp\\((np\\s_i)\\(np\\s_i)))/np:0.0395798"

"(n\\n)/np:0.0353713" "(pp\\((n\\n)\\(n\\n)))/np:0.0269907"

"((np\\s_i)\\(np\\s_i))/np:0.0155271" "(np\\s_i)/np:0.0153476"

"pp\\(np\\s_i):0.0105502" "n\\n:0.00965271"

"(pp\\((np\\s)\\(np\\s)))/np:0.00964481"

"pp\\(s\\s):0.00930784" "s/np:0.0066719" "n/np:0.00652519") (MGM "np:0.968841" "n:0.0202698")

(. "s\\txt:0.987188" "np\\txt:0.0118688") )

Figure5.2 – Phrase “Ce procès gagné donne au Crédit_Lyonnais les coudées franches pour gérer MGM.” typée par le Supertagger.

No documento transducteurs d’arbres et clustering pour induction de grammaires catégorielles (páginas 100-104)