sau petalele informatice ale limbii române

(1)

CoRoLa

sau petalele informatice ale limbii române

Dan Cristea

Universitatea “Alexandru Ioan Cuza” din Iași, Facultatea de Informatică Academia Română Filiala Iași, Insititutul de Informatică Teoretică

[email protected]

(2)

CoRoLa

(Contemporary Romanian Language)

ò  Proiect prioritar al Academiei Române (2014 - 2017);

ò  Parteneri:

-  Institutul de Cercetări pentru Inteligența Artificială (ICIA);

-  Institutul de Informatică Teoretică (IIT).

ò  Asociați (prin proiectul DRuKoLa – finanţat de Fundaţia Humboldt):

ò  Universitatea București ò  IDS Mannheim

Academia de Științe a Moldovei, Chișinău, 25 mai 2018

(3)

Datele primare

ò  Texte în format electronic

-  PDF, DOC ( edituri, persoane fizice) -  HTML (din internet – bloguri, ziare)

ò  Înregistrări de voce

-  WAV, MP3, MP4

(4)

Fabrica CoRoLa

Portal

(5)

Procurarea datelor primare:

Curator – Proprietar – Portal

(6)

Procurarea datelor primare:

Curator – Proprietar – Portal

(7)

Procurarea datelor primare:

Curator – Proprietar – Portal

(8)

Procurarea datelor primare:

Curator – Proprietar – Portal

(9)

Procurarea datelor primare:

Curator – Proprietar – Portal

(10)

Procurarea datelor primare:

Curator – Proprietar – Portal

Portalul COROLA

(11)

Curățare, introducere metadate:

Portal – Voluntari – Portal

•  Metadate

1.  Titlu 2.  Autor 3.  Data

publicării 4.  Sursa

5.  Traducător 6.  Mediu

7.  Stil

8.  Domeniu 9.  ISSN/ISBN Portalul

COROLA:

IIT Iași •  Curățare

1.  Cod

caractere 2.  Headere 3.  Note subsol 4.  Formule 5.  Tabele 6.  Cuprins 7.  Bibliografie etc.

(12)

CoDAP

CoRoLa Data cleaning and metadata Platform

(http://89.38.230.23/)

(13)

Panțul de prelucrare:

Portal

•  Adnotări:

•  Segmentare fraze

•  Tokeni lexicali

•  Punctuație

•  Parte de vorbire

•  Morfologie

•  Grupuri nominale

•  Sintaxă

•  Semantică

•  …

TOK POS NP

TTL pipe-line

Portalul COROLA:

IIT Iași

(14)

Exemplu de adnotare morfo - lexicală

(15)

Accesul la corpus

Punct de acces:

RACAI, București

Oglinda:

IIT, Iași

(16)

Concordanțe

(KWIC – Key Word In Context) …

16

(17)

Interfaţa de interogare KorAP

•  Permite administrarea unor corpusuri mari (zeci de miliarde de cuvinte)

•  Uşor adaptabilă la diferite stiluri de adnotare

•  Limbaj de interogare puternic:

-  niveluri multiple;

-  criterii de interogare: se pot combina câmpuri din metadate (în lucru) și din adnotări

-  utilizatorul poate să-şi construiască un corpus virtual propriu (exemplu

“texte privind arhitectura publicate în perioada 2000-2005”) – în lucru

•  Rezultatele căutării sunt fragmente de dimensiune rezonabilă pentru investigaţia lingvistică (1 – 2 propoziţii)

(18)

Prelucrarea (semiautomată) a înregistrărilor orale

ò  Niveluri de adnotare

ò  Transcriere ortografică

ò  Aliniere: text vorbit - text scris ò  Segmentare la fraze

ò  Împărţire în silabe

ò  Variante fonem în funcţie de context

(19)

Exemplu - prelucrare text vorbit

0.00 0.63 [silence]

0.63 1.38 des1nderea 1.38 1.48 [silence]

1.48 1.92 r3ce1te 1.92 2.45 aburul 2.45 2.76 [silence]

2.76 3.04 as<el 3.04 3.17 c3 3.17 3.46 poate 3.46 3.78 ap3rea 3.78 3.82 [silence]

3.82 4.27 condensarea 4.27 4.50 unei

4.50 4.83 p3r2i 4.83 5.10 din 5.10 5.42 abur

5.42 5.79 [silence]

Aliniere la nivel de

cuvânt

0 6300000 sil sil6300000 7000000 d des1nderea7000000 7500000 e7500000 8400000

s8400000 9300000 t9300000 9900000 i9900000 10800000 n10800000 11200000 d11200000 11800000 e11800000 12100000 r12100000 12600000 e@12600000 13800000 a13800000 14800000 sp14800000 15500000

r r3ce1te15500000 16200000

@16200000 17200000 ch17200000 17500000 e17500000 18000000 . . .

Aliniere la nivel de

fonem

(20)

CoRoLa Workbench (CWB):

interfața sonoră

(21)

Distribuţia pe domenii (DocumentTextStyle)

Law;

527.519.345

Memoirs, Administrative,

11,564,015 Imaginative, 51,617,302

Science, 184,761,720

Journalistic,

77,277,228 Others, 2,100,318

Statistici corpus textual -

880.975.551 cuvinte (iunie 2017)

(22)

Distribuţia pe stiluri

(DocumentTextDomain)

Art and Culture, 27,697,861

Nature, 119,150,171

Society, 571,986,834 Science,

160,309,410

Others, 1,831,275

(23)

Statistici corpus oral – 272 ore de înregistrări

Corpus Type Source Time length

(h:m:s)

RASC many speakers (read) RoWikipedia 14:22:02 RSS-ToBI single speaker (read) news&fairy tales 03:44:00 RADOR many speakers read news& interviews 106:52:33 Radio Iaşi many speakers read news& interviews under development Audio-books single/

multiple read stories (~200h) (not IPR cleared) speaker

134:57:24

Corpus Tip Transcris

(h)

Durată înregistrări (h)

RomanTV vorbitori multipli 12 23

RadioVIVA vorbitori multipli 3 4

RadioIasi vorbitori multipli 33 33

RadioU vorbitori multipli 20 20

Teatru vorbitori multipli 8 8

AudioBooks un singur

vorbitor 43 43

Prof. L. Carausu vorbitori multipli 4 4

IIT ICIA

(24)

Și mai departe?

ò  7 puncte de vedere personale...

(25)

1. Corectarea trebuie continuată

ò  Surse de erori...

ò  coduri de diacritice neconvenționale

ò  incompatibilități între adnotări TTL și interfața KorAP ò  erori în metadate

ò  erori de aliniere între vorbire și text ò  etc.

ò  Filtrarea erorilor

ò  programatică ò  manuală

ò  utilizând serviciul online de raportare a erorilor

(26)

ò  Temă inclusă în planurile anuale ale IIT și ICIA

ò  NP, VP

ò  sintaxă (de dependențe) ò  un mixaj sintaxă-semantică

Imagine oferită de Cătălina Mărănduc, raport de doctorat, dec. 2017

2. Adăugare de noi niveluri

de adnotare

(27)

3. Dezvoltare continuă

ò  Obținerea de noi date textuale și de vorbire

ò  de la furnizorii tradiționali, dar și de la alții noi ò  asigurarea unui echilibru între domenii și stiluri

ò  organizarea de servicii de crawling pentru preluare continuă din online (modelul Mannheim)

ò  Dacă automatizăm complet procesul: dezvoltare permanentă, sincronă cu dezvoltarea limbii

ò  "românesc contemporan" ar trebui să fie valabil acum, precum și peste 50 de ani

ò  păstrând doar datele actuale, el va deveni un corpus învechit, nici măcar unul diacronic

(28)

4. Orientare spre trecut:

dezvoltarea unui corpus diacronic

ò  CyRo (un proiect care a trecut de faza a 2-a de

evaluare): un pipeline OCR => transcriere chirilic-latin:

ò  achiziția semi-automată a documentelor românești din secolele 16-19 în manuscris, semi-uncial și tipărit

ò  inferența morfologiei paradigmatice a scrisurilor vechi românești

ò  utilizarea și a citatelor din eDTLR

ò  pași: documente originare => scanate => OCRizate =>

transcrise interpretativ => revizuite manual => adnotate TOK+POS+etc. => incluse în corpusul diacronic

(29)

5. Îmbunătățirea accesului

ò  Pentru cercetătorii limbii române și utilizatorii ocazionali

ò  marcarea și exportul ocurențelor (liste) și a sub-corpusurilor

ò  posibilitatea de utilizare a constrângerilor de natură sintactică și semantică ò  servicii asociate corpusului (accesibil prin program):

ò  deschiderea pentru sarcini de lingvistică computațională ò  conectarea la CoRoLa a aplicațiilor

ò  CoRoLa privit ca Big Textual Data

(30)

6. Legarea corpusului CoRoLa cu alte resurse lingvistice

ò  În practica obișnuită, procesele de prelucrare a limbajului de nivel înalt sunt instruite pe resurse care combină datele

lingvistice brute cu adnotările experților

ò  să utilizăm CoRoLa ca o ancoră de care sunt legate, prin metode Lingvistic Linked Open Data, alte resurse lingvistice:

eDTLR, CLRE, WordNet, dicționare bilingve, de ex. Tiktin, dicționarul român-german, ediția a 3-a

ò  să construim un mediu care să permită interogări complexe, accesând simultan resurse de diferite tipuri

(31)

7. Cooperare și diseminare

ò  DRUKOLA: colaborarea cu echipa IDS Mannheim

ò  îmbunătățirea interfeței

ò  realizarea de studii de caz comparative în limbile germană și română ò  experimentarea unei platforme comune de analiză a corpusului pentru a

împărtăși rezultate tehnice și de cercetare lingvistică

ò  EuReKo: o structură de cristalizare pentru un corpus de referință federalizat

ò  fiecare colecție de date textuale specifică unei limbi este localizată fizic și

întreținută de institutele sale responsabile, dar permite interogări combinate și extragerea de corpusuri comparabile

ò  criterii unificatoare: metodologia, metadatele, limbajul de interogare,

(32)

7. Cooperare și diseminare

ò  Încurajarea inițiativelor de colaborare cu Rep. Moldova

ò  Organizarea de evenimente de lansare in Chișinău, Iași, Cluj- Napoca, Timișoara etc.

ò  Orchestrarea folosirii corpusului CoRoLa în facultățile de Litere și în institutele de studiere a limbii române

ò  Colecționarea de reacții din partea utilizatorilor și îmbunătățiri aduse corpusului și tehnologiei pe baza lor

(33)

Alte inițiative

ò  2 proiecte în evaluare...

(34)

CyRo – româna scrisă în alfabet chirilic

ò  Procurarea unei colecții de documente cu scriere chirilică în limba română în format digital care acoperă toate perioadele istorice, interpretate în alfabet latin

ò  Adăugarea de metadate și adnotări

ò  Antrenarea de segmentatoare pentru identificarea în paginile scanate: limitele blocurilor de text, liniile, cuvintele, caracterele

ò  Antrenarea de programe OCR pentru decodarea documentelor: tipărite, semi-uncial și cursiv în chirilice românești

ò  Aplicarea de reguli de interpretare pentru transcrierea din alfabetul chirilic în cel latin

ò  Dezvoltarea unei interfațe prietenoase care să ajute cercetătorii umaniști (filologi, lingviști, istorici, arheologi, sociologi etc.): indexare, regăsire documentară, editare critică, studii de interpretare culturală etc.

(35)

CyRo – scopuri ambițioase, un consorțiu puternic

ò  Paleolingviști

ò  Lingviști informaticieni ò  Speclaliști în

prelucrarea imaginilor ò  Curatori bibliotecari

(36)

BiDFRoM – Big Data Flows

between Romania and Moldova

ò  Dezvoltarea unei platforme mari de date pentru gestionarea, accesarea și analiza datelor textuale destinate să sprijine luarea deciziilor prin facilitarea proceselor de prognozare bazate pe

semnale slabe, apărute în presa românească și moldovenească.

ò  Organizarea și actualizarea pe platformă a unei biblioteci de metode de învățare automată, algoritmi și modele reutilizabile, direct aplicabile datelor colectate, capabile să: ordoneze știrile după diverse criterii, organizeze datele, determine domeniile, detecteze topicul, evalueze sentimente, prezică schimbări, descopere știri false etc.

(37)

sau petalele informatice ale limbii române

CoRoLa