Cercetări de lingvis/că
computațională în grupurile NLP@UAIC-FII și NLP@AR-IIT
Dan Cristea UAIC-FII
AR-IIT
dcristea@info.uaic.ro
NLP-Group@UAIC-FII
• MLC + drd. Daniel Anechitei
• info + drd. info Paul Diac
• conf. dr. calc. Corina Forăscu
• filol. + MLC + drd. info Andreea Gagea
• dr. filos. + drd. Info Daniela Gîfu
• conf. dr. info Adrian IKene
• dr. filol. + MLC + drd. Info Cătălina Mărănduc
• drd. Elena Mitocariu
• filol. + MLC + dr. filol. Augusto Cenel Perez
• lect. dr. info Ionuț Pistol
• info + MLC + drd. Radu Simionescu
• Studenții de la Masteratul de Lingvis/că Computațională (MLC-1 și MLC-2)
Ro-NLP, Iași, 24 mar/e 2016
NLP-Group@AR-IIT
• mate-info Cecilia Bolea
• dr. info Alex Moruz
• filol. + drd. Mihaela Onofrei
• info Laura Pistol
• info + drd. info Andrei Scutelnicu
Ro-NLP, Iași, 24 mar/e 2016
Colaborări externe
• Colec/vul de la AR-ICIA condus de acad. Dan Tufiș
• dr. filol. + MLC Anca Bibiri (Dept. Cercetări Interdisciplinare – UAIC)
• conf. dr. Mihaela Colhon (Univ. Craiova)
• CP 1 + dr. filol. Gabriela Haja (AR – Ins/t. Philippide)
• CP 1 + dr. filol. Isabelle Tamba (AR – Ins/t. Philippide)
• CP 1 + dr. filol. Marius Clim (AR – Ins/t. Philippide)
Ro-NLP, Iași, 24 mar/e 2016
Construcția de resurse lingvis/ce
• Corpusuri & tezaure
– Digi/zări de dicționare tezaur: eDTLR (2008-2012) – QuoVadis (proiect studențesc MLC, 2013-2015) – RoTB-UAIC (proiecte doctorale, 2007-în curs)
– COROLA – AR-IIT, dar și AR-ICIA (proiect prioritar al AR, 2014-2017)
Ro-NLP, Iași, 24 mar/e 2016
Quo-Vadis: en/tăți
• Tipuri: PERSOANĂ/ZEU & GRUP
– Personaje (Marcus Vinicius, împăratul), grupuri (creș4nii, soldații)
– Realizări sintac/ce: grupuri nominale – Pot fi imbricate: [mama [Ligiei]]
Ro-NLP, Iași, 24 mar/e 2016
Relații
• Referențiale (coref, part-of…)
[Ligia]… [tânăra frigiană]
• Afec/ve (love, hate…)
[Vinicius] înțelese că o iubea pe [tânăra frigiană].
• Rudenie (parent-of, sibling…)
[mama adop/vă a [Ligiei]]
• Sociale (inferior-of, colleague-with)
[Împăratul] și [curtenii săi].
Ro-NLP, Iași, 24 mar/e 2016
<ENTITY ID="E8" TYPE="PERSON">
<W id="28" LEMMA="Marcus">Marcus</W>
<W id="29" LEMMA="Vinicius">Vinicius</W>
</ENTITY>
<W id="30" LEMMA="fi">era</W>
<KINSHIP ID="KIN57" FROM="E12" TO="E11" TRIGGER="31" TYPE="child- of">
<ENTITY ID="E12" TYPE="PERSON">
<W id="31" LEMMA="fiu">fiul</W>
<KINSHIP ID="KIN53" FROM="E11" TO="E10" TRIGGER="32"
TYPE="sibling-of">
<ENTITY ID="E11" TYPE="PERSON">
<W id="32" LEMMA="soră">surorii</W>
<ENTITY ID="E10" TYPE="PERSON">
<W id="33" LEMMA="său">sale</W>
</ENTITY>
<W id="34" LEMMA="mai">mai</W>
<W id="35" LEMMA="mare">mari</W>
</ENTITY>
</KINSHIP>
</ENTITY>
</KINSHIP>
<W id="36" LEMMA=",">,</W>
<KINSHIP ID="KIN59" FROM="E13" TO="E15" TRIGGER="44"
TYPE="spouse-of">
<ENTITY ID="E13" TYPE="PERSON">
<W id="37" LEMMA="care">care</W>
</ENTITY>
<W id="38" LEMMA=",">,</W>
<W id="39" LEMMA="cu">cu</W>
<W id="40" LEMMA="an">ani</W>
<W id="41" LEMMA="în_urmă">în urmă</W>
<W id="42" LEMMA=",">,</W>
<W id="43" LEMMA="sine">se</W>
<W id="44" LEMMA="căsători">căsătorise</W>
<W id="45" LEMMA="cu">cu</W>
<KINSHIP ID="KIN61" FROM="E15" TO="E14" TRIGGER="46"
TYPE="parent-of">
<ENTITY ID="E15" TYPE="PERSON">
<W id="46" LEMMA="tată">tatăl</W>
<ENTITY ID="E14" TYPE="PERSON">
<W id="47" LEMMA="acesta">acestuia</W>
</ENTITY>
</ENTITY>
</KINSHIP>
</KINSHIP>
<SOCIAL ID="SOC9" FROM="E17" TO="E16" TRIGGER="49"
TYPE="inferior-of">
<ENTITY ID="E17" TYPE="PERSON">
<W id="49" LEMMA="consul">consul</W>
<W id="50" LEMMA="pe">pe</W>
<W id="51" LEMMA="vreme">vremea</W>
<W id="52" LEMMA="el">lui</W>
<ENTITY ID="E16" TYPE="PERSON">
<W id="53" LEMMA="Tiberiu">Tiberiu</W>
</ENTITY>
</ENTITY>
</SOCIAL>
<W id="54" LEMMA=".">.</W>
<REFERENTIAL ID="REF37" FROM="E12" TO="E8" TYPE="coref" / REFERENTIAL>
<REFERENTIAL ID="REF38" FROM="E13" TO="E11" TYPE="coref" / REFERENTIAL>
<REFERENTIAL ID="REF39" FROM="E14" TO="E8" TYPE="coref" / REFERENTIAL>
<REFERENTIAL ID="REF40" FROM="E17" TO="E15" TYPE="class-of" / REFERENTIAL>
Dezvoltă o tehnologie capabilă să…
• recunoască în texte en/tăți și relații între ele
• să răspundă la întrebări rela/v la en/tăți și relații
• facă raționamente simple despre personaje și relațiile lor
• aprecieze empa/ile pe care anumite personaje le pot trezi în ci/tor
• genereze rezumate focalizate pe anumite personaje
Ro-NLP, Iași, 24 mar/e 2016
Funcțiile de
colectare, curare, procesare
Portal
Ro-NLP, Iași, 24 mar/e 2016
Fluxul de procesare a datelor:
Curator – Provider – Portal
Portalul COROLA
Ro-NLP, Iași, 24 mar/e 2016
Fluxul de procesare a datelor:
Portal – Voluntari - Portal
Portalul COROLA
• Curățare
• Completare metadate
Ro-NLP, Iași, 24 mar/e 2016
Datele sunt documentate:
completarea metadatelor
CMDI standard Metadata Element Set
1. Document title 2. Author name 3. Publication date 4. Source
5. Source name 6. Translator name 7. Medium
8. Document style
9. Document text domain 10. ISSN/ISBN
CMDI – Component MetaData Infrastructure (CLARIN)
Un cadru de descriere și reutilizare a metadatelor documentelor
Ro-NLP, Iași, 24 mar/e 2016
Fluxul de procesare a datelor:
Portal (adăugare adnotări)
Portalul COROLA • Adnotări:
• cuvinte și fraze
• părți de vorbire
• grupuri
• sintaxă
• semantică
• ...
TOK POS NP
pipe-line
Ro-NLP, Iași, 24 mar/e 2016
U/lizarea datelor din corpus:
Portal (adăugare adnotări)
Portalul COROLA
Ro-NLP, Iași, 24 mar/e 2016
Concordanțe
(KWIC – Key Word In Context)
…
Ro-NLP, Iași, 24 mar/e 2016
U/lizarea datelor din corpus:
Portal (adăugare adnotări)
Portalul COROLA
Modele de limbă folosite în
antrenamentul sistemelor de TA.
Ro-NLP, Iași, 24 mar/e 2016
Construcția de instrumente pentru prelucrări lingvis/ce
Ro-NLP, Iași, 24 mar/e 2016
Construcția de instrumente pentru prelucrări lingvis/ce
E/chetare la parte de vorbire (POS tagging)
Ro-NLP, Iași, 24 mar/e 2016
Construcția de instrumente pentru prelucrări lingvis/ce
Recunoașterea grupurilor nominale (NP chunking)
Ro-NLP, Iași, 24 mar/e 2016
Construcția de instrumente pentru prelucrări lingvis/ce
Parsare sintac/că (arbori de dependență)
Ro-NLP, Iași, 24 mar/e 2016
MappingBooks
• Tehnologie de adnotare a textelor cu informație auxiliară rela/vă la nume de en/tăți geografice
• Legături sensibile la:
– contextul mențiunii din carte – locația curentă a ci/torului
– momentul în care ci/torul inițiază un acces – personalitatea ci/torului
Ro-NLP, Iași, 24 mar/e 2016
U/lizarea informației textuale în MappingBooks
MappingBooks
TA = Text Analytics
NER = Name Entity Recognition EC = Entity Crowling
RD = Relations Detection GEO = Geography
M&T = Maps and Trajectories
AR = Augmented Reality DEV = Device Info
INT = Interfaces RES = Resources
M&E = Management and Evaluation
Ro-NLP, Iași, 24 mar/e 2016
MappingBooks se adresează…
• Elevilor – pentru a-i face din nou să citească (pierdutul paradis al minunatelor cărți)
• Adolescenților, aventurierilor, călătorilor, montagnarzilor – dornici să schimbe păreri despre călătorii comune
• Editorilor deținători de date textuale – pentru a-și vinde mai bine cărțile
• Administrațiilor locale și agențiilor turis/ce – pentru a face reclamă locurilor menționate în cărți celebre…
Ro-NLP, Iași, 24 mar/e 2016
Zona discursului: dezvoltări ale Teoriei Nervurilor (Cristea, Ide, Romary, 1998)
• Elena Mitocariu:
– măsuri de similaritate aplicate arborilor de discurs – rezumare bazată pe nuclearitate
• Daniel Anechitei:
– corpusul MASC adnotat cu marcheri de discurs – la Vassar College
– reducerea spațiului soluțiilor în generarea arborilor de discurs => obiec/varea adnotării structurilor retorice prin micșorarea nedeterminismului
– realizarea de instrumente: segmentator al frazei în
clauze, rezolvitor de anafore, vizualizator, recunoscător de nume de en/tăți, rezumator
Ro-NLP, Iași, 24 mar/e 2016
1 2 3 4 5
6 7 8
9 10
11 12
13-??
??-??
H = 1 9 * V = 1 9 * H = 1
V = 1 9 *
H = 9 V = 1 9 * H = 1
V = 1 9 *
H = 5 V = 1 5 9 * H = 1
V = 1 9 * H = 3
V = 1 3 5 9 *
H = 6 7 V = 1 5 6 7 9 *
H = 9 V = 1 9 * H = 9 V = 1 9 *
H = 9 V = 1 (8) 9 *
H = 10 V = 1 9 10 *
H = 11 V = 1 9 10 11 * H = 3
V = 1 3 5 9
DRA = 1 3 H = 9
V = 1 (8) 9 DRA = 1 8 9
Trees as in RST
1
4