A análise de conteúdo

3 3 O processo de recolha de dados

Le premier ministre a fait plusieurs faux ROOT S₀ B₀ B₁ B₂ B₃ S₂ NMOD Softmax pas Det Dense

Le tampon Historique d'actions

3 3 O processo de recolha de dados

3.4 O Processo de tratamento de dados

3.4.1 A análise de conteúdo

4.2 Systèmes par transitions pour l’analyse syntaxique et

l’iden-tification d’EPs

Des modifications sur le type de systèmes présenté section 4.1 permettent de produire des

sorties plus riches, et notamment coupler l’analyse syntaxique avec d’autres tâches. Un couplage

possible est l’analyse en dépendances et l’étiquetage morphosyntaxique, deux tâches hautement

inter-dépendantes. Bohnet et Nivre (2012) construisent un système par transitions qui réalise

l’étiquetage morphosyntaxique et l’analyse syntaxique en dépendances de façon conjointe, en

ajoutant la fonction d’étiquetage morphosyntaxique sur la transitionShift(s’inspirant de Nivre

(2009)). Cette architecture permet d’améliorer la performance des deux tâches pour certaines

langues morphologiquement riches.

En s’inspirant de la méthode précédente, Constant et Nivre (2016) proposent un système par

transitions pour réaliser conjointement l’analyse syntaxique en dépendances et l’identification des

EPs. Le système utilise un tampon, une pile pour l’analyse syntaxique comme vu à la section 4.1,

et une pile supplémentaire, dite « pile lexicale » pour l’identification des unités lexicales, simples

ou polylexicales. Ce système peut être considéré comme une extension du système arc-standard

(voir section 4.1.2), intégrant des transitions supplémentaires pour l’identification d’EPs. Le jeu

de transitions comprend en effet les trois transitions d’arc-standard, modulo le fait que Shift

dépose le premier élément du tampon non seulement sur la pile syntaxique mais également sur la

pile lexicale. Des transitions spécifiques à la pile lexicale permettent de grouper certains tokens

(pas forcément contigus) pour identifier des EPs. Il s’agit de trois transitions supplémentaires :

Syntactic Merge,Lexical Mergeetcomplete. Alors que leSyntactic Mergefusionne

deux tokens sur la pile syntaxique et sur la pile lexicale, ce qui est utilisé pour les EPs

syntaxi-quement irrégulières, la transitionLexical Merge n’opère une fusion que sur la pile lexicale,

ce qui permet de dissocier irrégularité sémantique des EPs et régularité syntaxique de certaines

d’entre elles. La transitionCompletedéclare une unité lexicale comme complète et l’enregistre

dans la liste des unités lexicales en cours de construction.

L’utilisation de plusieurs piles est inspirée de l’analyseur en dépendances multiplanaire de

Gómez-Rodríguez et Nivre (2013) et la stratégie d’analyse syntaxique pour les EPs

(hiérar-chiques) est très similaire à la méthode d’analyse déterministe en constituants de Crabbé (2014).

Les expérimentations menées sur deux jeux de données différents montrent que l’approche

amé-liore l’identification des EPs de manière significative par rapport aux approches conjointes

exis-tantes et qu’elle arrive parfois à améliorer l’analyse syntaxique.

Le système par transitions que nous avons utilisé dans notre travail est largement inspiré de

celui de Constant et Nivre (2016), dont nous avons repris et modifié les transitions concernant

la pile lexicale.

4.3 Réseaux de neurones pour les systèmes par transitions

Les réseaux de neurones sont massivement utilisés en TAL depuis le début des années 2010.

Un aspect clé de ces architectures non linéaires est la possibilité de représenter les symboles

atomiques (les mots, les POS, les étiquettes de dépendances...) par des vecteurs denses. Cela

permet en particulier d’intégrer des vecteurs de mots appris sur gros corpus bruts, qui capturent

une similarité lexicale distributionnelle. Les mots représentés ne sont pas des symboles

totale-ment distincts mais sont positionnés dans un espace vectoriel, et les systèmes peuvent utiliser la

similarité plus ou moins grande entre mots distincts.

Un autre avantage des réseaux de neurones est que leur non linéarité permet de capturer des

combinaisons de traits d’entrée, qui peuvent du coup être relativement simples, comparativement

aux traits dans des architectures linéaires.

Nous présentons ci-dessous un bref historique de l’utilisation des réseaux de neurones pour

l’analyse syntaxique par transitions. Nous ne pouvons pas viser l’exhaustivité étant donné le

nombre de travaux, mais citons des travaux emblématiques de ce courant.

4.3.1 Réseaux de neurones à propagation avant

Afin de réduire l’effort requis pour la construction des systèmes par transitions pour l’analyse

syntaxique en dépendances, Chen et Manning (2014) utilisent des traits simples et indépendants

de la langue en entrée d’un réseau de neurones, à la place des traits sophistiqués et incluant des

combinaisons d’attributs linguistiques utilisés dans des classifieurs linéaires (comme par exemple

Zhang et Nivre (2011b)).

Le réseau neuronal utilisé est un modèle Perceptron Multicouche (MLP) (« multilayer

per-ceptron »), composé d’une entrée, d’une couche cachée avec une fonction d’activation cubique et

d’une couche de sortie softmax.

Dans ce modèle, les traits fournis en entrée sont en effet une simple concaténation de vecteurs

creux (« one-hot ») pour quelques tokens spécifiques de la configuration courante (par exemple

« le premier et le deuxième élément du tampon », « le dépendant le plus à gauche du premier

élément de la pile », etc.), que nous appellerons les “tokens ciblés”30. Pour chaque token ciblé,

l’entrée concatène un vecteur one-hot pour la forme fléchie, l’étiquette morphosyntaxique et

parfois l’étiquette de dépendances déjà prédites pour eux.

Notez que les paramètres entre la couche d’entrée et la couche cachée correspondent à des vecteurs

denses représentant les symboles atomiques (forme fléchie, étiquette morphosyntaxique, étiquette

de dépendance), ce que l’on appelle « plongement » en français (« embedding » en anglais).

Enfin, une couche softmax permet de fournir en sortie une distribution de probabilités sur les

transitions pour une configuration donnée, le tout étant utilisé dans un système arc-standard

(voir section 4.1.2).

Ce modèle entraîne une amélioration significative des performances, pour les treebanks usuels

pour l’anglais et le chinois.

Weiss et al. (2015) reprennent une version légèrement améliorée du réseau de neurones de

Chen et Manning (2014) (avec notamment une couche cachée supplémentaire), mais ajoutent

une étape d’apprentissage par perceptron structuré. Lors de l’apprentissage, une première étape

est l’entraînement d’un classifieur local pour prédire une transition à partir d’une configuration.

ajoutant la fonction d’étiquetage morphosyntaxique sur la transition_Shift(s’inspirant de Nivre

Syntactic Merge^,Lexical Merge^etcomplete^{. Alors que le}Syntactic Merge^fusionne

syntaxi-quement irrégulières, la transition_{Lexical Merge} n’opère une fusion que sur la pile lexicale,

d’entre elles. La transition_Completedéclare une unité lexicale comme complète et l’enregistre

élément de la pile », etc.), que nous appellerons les “tokens ciblés”³⁰. Pour chaque token ciblé,

Figure^{4.6 –}^{Réseau de neurones de Dyer et al. (2016) :} ^{Une figure de Dyer et al. (2016),}

dépendances pour la phraseLepremier₁ ministre₁ afait₂ plusieurs faux₂_,₃ pas₂_,₃. La couche

E_Le

E_premier

E_plusieur

E_faux

E_pas

E_ministre E_a E_fait