• Nenhum resultado encontrado

dcristea@info.uaic.ro

N/A
N/A
Protected

Academic year: 2023

Share "dcristea@info.uaic.ro "

Copied!
41
0
0

Texto

(1)

Cercetări de lingvis/că

computațională în grupurile NLP@UAIC-FII și NLP@AR-IIT

Dan Cristea UAIC-FII

AR-IIT

dcristea@info.uaic.ro

(2)

NLP-Group@UAIC-FII

•  MLC + drd. Daniel Anechitei

•  info + drd. info Paul Diac

•  conf. dr. calc. Corina Forăscu

•  filol. + MLC + drd. info Andreea Gagea

•  dr. filos. + drd. Info Daniela Gîfu

•  conf. dr. info Adrian IKene

•  dr. filol. + MLC + drd. Info Cătălina Mărănduc

•  drd. Elena Mitocariu

•  filol. + MLC + dr. filol. Augusto Cenel Perez

•  lect. dr. info Ionuț Pistol

•  info + MLC + drd. Radu Simionescu

•  Studenții de la Masteratul de Lingvis/că Computațională (MLC-1 și MLC-2)

Ro-NLP, Iași, 24 mar/e 2016

(3)

NLP-Group@AR-IIT

•  mate-info Cecilia Bolea

•  dr. info Alex Moruz

•  filol. + drd. Mihaela Onofrei

•  info Laura Pistol

•  info + drd. info Andrei Scutelnicu

Ro-NLP, Iași, 24 mar/e 2016

(4)

Colaborări externe

•  Colec/vul de la AR-ICIA condus de acad. Dan Tufiș

•  dr. filol. + MLC Anca Bibiri (Dept. Cercetări Interdisciplinare – UAIC)

•  conf. dr. Mihaela Colhon (Univ. Craiova)

•  CP 1 + dr. filol. Gabriela Haja (AR – Ins/t. Philippide)

•  CP 1 + dr. filol. Isabelle Tamba (AR – Ins/t. Philippide)

•  CP 1 + dr. filol. Marius Clim (AR – Ins/t. Philippide)

Ro-NLP, Iași, 24 mar/e 2016

(5)

Construcția de resurse lingvis/ce

•  Corpusuri & tezaure

–  Digi/zări de dicționare tezaur: eDTLR (2008-2012) –  QuoVadis (proiect studențesc MLC, 2013-2015) –  RoTB-UAIC (proiecte doctorale, 2007-în curs)

–  COROLA – AR-IIT, dar și AR-ICIA (proiect prioritar al AR, 2014-2017)

Ro-NLP, Iași, 24 mar/e 2016

(6)

Quo-Vadis: en/tăți

•  Tipuri: PERSOANĂ/ZEU & GRUP

–  Personaje (Marcus Vinicius, împăratul), grupuri (creș4nii, soldații)

–  Realizări sintac/ce: grupuri nominale –  Pot fi imbricate: [mama [Ligiei]]

Ro-NLP, Iași, 24 mar/e 2016

(7)

Relații

•  Referențiale (coref, part-of…)

[Ligia]… [tânăra frigiană]

•  Afec/ve (love, hate…)

[Vinicius] înțelese că o iubea pe [tânăra frigiană].

•  Rudenie (parent-of, sibling…)

[mama adop/vă a [Ligiei]]

•  Sociale (inferior-of, colleague-with)

[Împăratul] și [curtenii săi].

Ro-NLP, Iași, 24 mar/e 2016

(8)

<ENTITY ID="E8" TYPE="PERSON">

<W id="28" LEMMA="Marcus">Marcus</W>

<W id="29" LEMMA="Vinicius">Vinicius</W>

</ENTITY>

<W id="30" LEMMA="fi">era</W>

<KINSHIP ID="KIN57" FROM="E12" TO="E11" TRIGGER="31" TYPE="child- of">

<ENTITY ID="E12" TYPE="PERSON">

<W id="31" LEMMA="fiu">fiul</W>

<KINSHIP ID="KIN53" FROM="E11" TO="E10" TRIGGER="32"

TYPE="sibling-of">

<ENTITY ID="E11" TYPE="PERSON">

<W id="32" LEMMA="soră">surorii</W>

<ENTITY ID="E10" TYPE="PERSON">

<W id="33" LEMMA="său">sale</W>

</ENTITY>

<W id="34" LEMMA="mai">mai</W>

<W id="35" LEMMA="mare">mari</W>

</ENTITY>

</KINSHIP>

</ENTITY>

</KINSHIP>

<W id="36" LEMMA=",">,</W>

<KINSHIP ID="KIN59" FROM="E13" TO="E15" TRIGGER="44"

TYPE="spouse-of">

<ENTITY ID="E13" TYPE="PERSON">

<W id="37" LEMMA="care">care</W>

</ENTITY>

<W id="38" LEMMA=",">,</W>

<W id="39" LEMMA="cu">cu</W>

<W id="40" LEMMA="an">ani</W>

<W id="41" LEMMA="în_urmă">în urmă</W>

<W id="42" LEMMA=",">,</W>

<W id="43" LEMMA="sine">se</W>

<W id="44" LEMMA="căsători">căsătorise</W>

<W id="45" LEMMA="cu">cu</W>

<KINSHIP ID="KIN61" FROM="E15" TO="E14" TRIGGER="46"

TYPE="parent-of">

<ENTITY ID="E15" TYPE="PERSON">

<W id="46" LEMMA="tată">tatăl</W>

<ENTITY ID="E14" TYPE="PERSON">

<W id="47" LEMMA="acesta">acestuia</W>

</ENTITY>

</ENTITY>

</KINSHIP>

</KINSHIP>

<SOCIAL ID="SOC9" FROM="E17" TO="E16" TRIGGER="49"

TYPE="inferior-of">

<ENTITY ID="E17" TYPE="PERSON">

<W id="49" LEMMA="consul">consul</W>

<W id="50" LEMMA="pe">pe</W>

<W id="51" LEMMA="vreme">vremea</W>

<W id="52" LEMMA="el">lui</W>

<ENTITY ID="E16" TYPE="PERSON">

<W id="53" LEMMA="Tiberiu">Tiberiu</W>

</ENTITY>

</ENTITY>

</SOCIAL>

<W id="54" LEMMA=".">.</W>

<REFERENTIAL ID="REF37" FROM="E12" TO="E8" TYPE="coref" / REFERENTIAL>

<REFERENTIAL ID="REF38" FROM="E13" TO="E11" TYPE="coref" / REFERENTIAL>

<REFERENTIAL ID="REF39" FROM="E14" TO="E8" TYPE="coref" / REFERENTIAL>

<REFERENTIAL ID="REF40" FROM="E17" TO="E15" TYPE="class-of" / REFERENTIAL>

(9)

Dezvoltă o tehnologie capabilă să…

•  recunoască în texte en/tăți și relații între ele

•  să răspundă la întrebări rela/v la en/tăți și relații

•  facă raționamente simple despre personaje și relațiile lor

•  aprecieze empa/ile pe care anumite personaje le pot trezi în ci/tor

•  genereze rezumate focalizate pe anumite personaje

Ro-NLP, Iași, 24 mar/e 2016

(10)

Funcțiile de

colectare, curare, procesare

Portal

Ro-NLP, Iași, 24 mar/e 2016

(11)

Fluxul de procesare a datelor: 


Curator – Provider – Portal

Portalul COROLA

Ro-NLP, Iași, 24 mar/e 2016

(12)

Fluxul de procesare a datelor: 


Portal – Voluntari - Portal

Portalul COROLA

•  Curățare

•  Completare metadate

Ro-NLP, Iași, 24 mar/e 2016

(13)

Datele sunt documentate: 


completarea metadatelor

CMDI standard Metadata Element Set

1.  Document title 2.  Author name 3.  Publication date 4.  Source

5.  Source name 6.  Translator name 7.  Medium

8.  Document style

9.  Document text domain 10.  ISSN/ISBN

CMDI – Component MetaData Infrastructure (CLARIN)

Un cadru de descriere și reutilizare a metadatelor documentelor

Ro-NLP, Iași, 24 mar/e 2016

(14)

Fluxul de procesare a datelor: 


Portal (adăugare adnotări)

Portalul COROLA •  Adnotări:

•  cuvinte și fraze

•  părți de vorbire

•  grupuri

•  sintaxă

•  semantică

•  ...

TOK POS NP

pipe-line

Ro-NLP, Iași, 24 mar/e 2016

(15)

U/lizarea datelor din corpus:

Portal (adăugare adnotări)

Portalul COROLA

Ro-NLP, Iași, 24 mar/e 2016

(16)

Concordanțe


(KWIC – Key Word In Context)

Ro-NLP, Iași, 24 mar/e 2016

(17)

U/lizarea datelor din corpus:

Portal (adăugare adnotări)

Portalul COROLA

Modele de limbă folosite în

antrenamentul sistemelor de TA.

Ro-NLP, Iași, 24 mar/e 2016

(18)

Construcția de instrumente pentru prelucrări lingvis/ce

Ro-NLP, Iași, 24 mar/e 2016

(19)

Construcția de instrumente pentru prelucrări lingvis/ce

E/chetare la parte de vorbire (POS tagging)

Ro-NLP, Iași, 24 mar/e 2016

(20)

Construcția de instrumente pentru prelucrări lingvis/ce

Recunoașterea grupurilor nominale (NP chunking)

Ro-NLP, Iași, 24 mar/e 2016

(21)

Construcția de instrumente pentru prelucrări lingvis/ce

Parsare sintac/că (arbori de dependență)

Ro-NLP, Iași, 24 mar/e 2016

(22)

MappingBooks

•  Tehnologie de adnotare a textelor cu informație auxiliară rela/vă la nume de en/tăți geografice

•  Legături sensibile la:

–  contextul mențiunii din carte –  locația curentă a ci/torului

–  momentul în care ci/torul inițiază un acces –  personalitatea ci/torului

Ro-NLP, Iași, 24 mar/e 2016

(23)

U/lizarea informației textuale în MappingBooks

MappingBooks

(24)

TA = Text Analytics

NER = Name Entity Recognition EC = Entity Crowling

RD = Relations Detection GEO = Geography

M&T = Maps and Trajectories

AR = Augmented Reality DEV = Device Info

INT = Interfaces RES = Resources

M&E = Management and Evaluation

Ro-NLP, Iași, 24 mar/e 2016

(25)

MappingBooks se adresează…

•  Elevilor – pentru a-i face din nou să citească (pierdutul paradis al minunatelor cărți)

•  Adolescenților, aventurierilor, călătorilor, montagnarzilor – dornici să schimbe păreri despre călătorii comune

•  Editorilor deținători de date textuale – pentru a-și vinde mai bine cărțile

•  Administrațiilor locale și agențiilor turis/ce – pentru a face reclamă locurilor menționate în cărți celebre…

Ro-NLP, Iași, 24 mar/e 2016

(26)

Zona discursului: dezvoltări ale Teoriei Nervurilor (Cristea, Ide, Romary, 1998)

•  Elena Mitocariu:

–  măsuri de similaritate aplicate arborilor de discurs –  rezumare bazată pe nuclearitate

•  Daniel Anechitei:

–  corpusul MASC adnotat cu marcheri de discurs – la Vassar College

–  reducerea spațiului soluțiilor în generarea arborilor de discurs => obiec/varea adnotării structurilor retorice prin micșorarea nedeterminismului

–  realizarea de instrumente: segmentator al frazei în

clauze, rezolvitor de anafore, vizualizator, recunoscător de nume de en/tăți, rezumator

Ro-NLP, Iași, 24 mar/e 2016

(27)

1 2 3 4 5

6 7 8

9 10

11 12

13-??

??-??

H = 1 9 * V = 1 9 * H = 1

V = 1 9 *

H = 9 V = 1 9 * H = 1

V = 1 9 *

H = 5 V = 1 5 9 * H = 1

V = 1 9 * H = 3

V = 1 3 5 9 *

H = 6 7 V = 1 5 6 7 9 *

H = 9 V = 1 9 * H = 9 V = 1 9 *

H = 9 V = 1 (8) 9 *

H = 10 V = 1 9 10 *

H = 11 V = 1 9 10 11 * H = 3

V = 1 3 5 9

DRA = 1 3 H = 9

V = 1 (8) 9 DRA = 1 8 9

Trees as in RST

1

4

2

3

relations

labeled units nuclear

Ro-NLP, Iași, 24 mar/e 2016

(28)

Adjuncția

Ro-NLP, Iași, 24 mar/e 2016

(29)

Mecanisme simbolice: GGS

•  Radu Simionescu:

–  Graphical Grammar Studio: un mecanism de analiză grafic și interac/v, care a plecat de la

NOOJ (expresii regulate) a ajuns la complexitatea mașinilor Turing

–  aplicații:

•  îmbunătățirea POS-taggerelor prin reguli de corectare a erorilor frecvente

•  recunoașterea numelor de en/tăți (MappingBooks)

•  limbaj de interogare pentru COROLA (constrângeri)

Ro-NLP, Iași, 24 mar/e 2016

(30)

GGS: nume de en/tăți

Ro-NLP, Iași, 24 mar/e 2016

(31)

Studiu compara/v lexical diacronic al limbii române vorbite de o parte și de

alta a Prutului

•  Daniela Gîfu: Corpus de texte

Ro-NLP, Iași, 24 mar/e 2016

(32)

Temporalitate în text

•  Andreea Gagea: determinarea planurilor (câmpurilor) temporale, rupturi temporale, întoarceri în /mp

–  /puri de planuri:

•  NAR –nara/v

•  SUP – al supozițiilor

•  GEN – al cunoașterii generale

•  FIC – al ficțiunii

–  perspec/ve

•  Lucrăm la elaborarea unui manual de adnotare (MLC-1)

–  Tash Aw

(33)

Exemplu

Între două reprize de bulion și o rapidă clămpănire pe Facebook, mi-am amin/t că am așezat printre cărțile e/chetate cu

„neapărat de ci/t“ volumul lui Teodor

Baconschi, Facebook. Fabrica de narcisism, apărută anul acesta la Editura Humanitas.

N-am putut să mă despart de el până la capăt.

Ro-NLP, Iași, 24 mar/e 2016

(34)

Adnotări

<TP id=”1” >Între două reprize de bulion și o rapidă clămpănire pe Facebook, <SIGNAL id=”s1” from=”2”

to=”1” rela/on=”before”>mi-am amin/t</SIGNAL></

TP> <TP id=”2” /me=”before 1”>că am așezat printre cărțile e/chetate cu „neapărat de ci/t“ volumul lui Teodor Baconschi, Facebook. Fabrica de narcisism,</

TP> <TP id=”3” /me=”before 2”><SIGNAL id=”s2”

from=”3” to=”2” rela/on=”before” feat=”lemma tmp”>apărut</SIGNAL> anul acesta la Editura

Humanitas.</TP> <TP id=”4” con/nue=”2”>N-am putut să mă despart de el până la capăt.</TP>

Ro-NLP, Iași, 24 mar/e 2016

(35)

Planuri (câmpuri) temporale

Ro-NLP, Iași, 24 mar/e 2016

(36)

Ro-NLP, Iași, 24 mar/e 2016

(37)

  Inițiată în 1993

Seria de Școli de Vară EUROLAN

•  Inițiată în 1993

În colaborare cu Academia Română

(38)

Ro-NLP, Iași, 24 mar/e 2016

(39)

Seria anuală de conferințe

“Resurse lingvistice și

instrumente pentru prelucrarea limbii române”

•  Inițiată în 2001

În colaborare cu Academia Română

(40)

Ro-NLP, Iași, 24 mar/e 2016

(41)

Mulțumesc!

Ro-NLP, Iași, 24 mar/e 2016

Referências

Documentos relacionados

Uma excelente rodada está m&amp;tciiüa para a noite de hoje, no estádio da rua Guanabara, na qual se apresentarão quatro dos mais credenciados concorrentes do