CoRoLa
sau petalele informatice ale limbii române
Dan Cristea
Universitatea “Alexandru Ioan Cuza” din Iași, Facultatea de Informatică Academia Română Filiala Iași, Insititutul de Informatică Teoretică
CoRoLa
(Contemporary Romanian Language)
ò Proiect prioritar al Academiei Române (2014 - 2017);
ò Parteneri:
- Institutul de Cercetări pentru Inteligența Artificială (ICIA);
- Institutul de Informatică Teoretică (IIT).
ò Asociați (prin proiectul DRuKoLa – finanţat de Fundaţia Humboldt):
ò Universitatea București ò IDS Mannheim
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Datele primare
ò Texte în format electronic
- PDF, DOC ( edituri, persoane fizice) - HTML (din internet – bloguri, ziare)
ò Înregistrări de voce
- WAV, MP3, MP4
Fabrica CoRoLa
Portal
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Procurarea datelor primare:
Curator – Proprietar – Portal
Procurarea datelor primare:
Curator – Proprietar – Portal
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Procurarea datelor primare:
Curator – Proprietar – Portal
Procurarea datelor primare:
Curator – Proprietar – Portal
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Procurarea datelor primare:
Curator – Proprietar – Portal
Procurarea datelor primare:
Curator – Proprietar – Portal
Portalul COROLA
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Curățare, introducere metadate:
Portal – Voluntari – Portal
• Metadate
1. Titlu 2. Autor 3. Data
publicării 4. Sursa
5. Traducător 6. Mediu
7. Stil
8. Domeniu 9. ISSN/ISBN Portalul
COROLA:
IIT Iași • Curățare
1. Cod
caractere 2. Headere 3. Note subsol 4. Formule 5. Tabele 6. Cuprins 7. Bibliografie etc.
CoDAP
CoRoLa Data cleaning and metadata Platform
(http://89.38.230.23/)
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Panțul de prelucrare:
Portal
• Adnotări:
• Segmentare fraze
• Tokeni lexicali
• Punctuație
• Parte de vorbire
• Morfologie
• Grupuri nominale
• Sintaxă
• Semantică
• …
TOK POS NP
TTL pipe-line
Portalul COROLA:
IIT Iași
Exemplu de adnotare morfo - lexicală
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Accesul la corpus
Punct de acces:
RACAI, București
Oglinda:
IIT, Iași
Concordanțe
(KWIC – Key Word In Context) …
16
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Interfaţa de interogare KorAP
• Permite administrarea unor corpusuri mari (zeci de miliarde de cuvinte)
• Uşor adaptabilă la diferite stiluri de adnotare
• Limbaj de interogare puternic:
- niveluri multiple;
- criterii de interogare: se pot combina câmpuri din metadate (în lucru) și din adnotări
- utilizatorul poate să-şi construiască un corpus virtual propriu (exemplu
“texte privind arhitectura publicate în perioada 2000-2005”) – în lucru
• Rezultatele căutării sunt fragmente de dimensiune rezonabilă pentru investigaţia lingvistică (1 – 2 propoziţii)
Prelucrarea (semiautomată) a înregistrărilor orale
ò Niveluri de adnotare
ò Transcriere ortografică
ò Aliniere: text vorbit - text scris ò Segmentare la fraze
ò Împărţire în silabe
ò Variante fonem în funcţie de context
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Exemplu - prelucrare text vorbit
0.00 0.63 [silence]
0.63 1.38 des1nderea 1.38 1.48 [silence]
1.48 1.92 r3ce1te 1.92 2.45 aburul 2.45 2.76 [silence]
2.76 3.04 as<el 3.04 3.17 c3 3.17 3.46 poate 3.46 3.78 ap3rea 3.78 3.82 [silence]
3.82 4.27 condensarea 4.27 4.50 unei
4.50 4.83 p3r2i 4.83 5.10 din 5.10 5.42 abur
5.42 5.79 [silence]
Aliniere la nivel de
cuvânt
0 6300000 sil sil6300000 7000000 d des1nderea7000000 7500000 e7500000 8400000
s8400000 9300000 t9300000 9900000 i9900000 10800000 n10800000 11200000 d11200000 11800000 e11800000 12100000 r12100000 12600000 e@12600000 13800000 a13800000 14800000 sp14800000 15500000
r r3ce1te15500000 16200000
@16200000 17200000 ch17200000 17500000 e17500000 18000000 . . .
Aliniere la nivel de
fonem
CoRoLa Workbench (CWB):
interfața sonoră
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Distribuţia pe domenii (DocumentTextStyle)
Law;
527.519.345
Memoirs, Administrative,
11,564,015 Imaginative, 51,617,302
Science, 184,761,720
Journalistic,
77,277,228 Others, 2,100,318
Statistici corpus textual -
880.975.551 cuvinte (iunie 2017)
Distribuţia pe stiluri
(DocumentTextDomain)
Art and Culture, 27,697,861
Nature, 119,150,171
Society, 571,986,834 Science,
160,309,410
Others, 1,831,275
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Statistici corpus oral – 272 ore de înregistrări
Corpus Type Source Time length
(h:m:s)
RASC many speakers (read) RoWikipedia 14:22:02 RSS-ToBI single speaker (read) news&fairy tales 03:44:00 RADOR many speakers read news& interviews 106:52:33 Radio Iaşi many speakers read news& interviews under development Audio-books single/
multiple read stories (~200h) (not IPR cleared) speaker
134:57:24
Corpus Tip Transcris
(h)
Durată înregistrări (h)
RomanTV vorbitori multipli 12 23
RadioVIVA vorbitori multipli 3 4
RadioIasi vorbitori multipli 33 33
RadioU vorbitori multipli 20 20
Teatru vorbitori multipli 8 8
AudioBooks un singur
vorbitor 43 43
Prof. L. Carausu vorbitori multipli 4 4
IIT ICIA
Și mai departe?
ò 7 puncte de vedere personale...
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
1. Corectarea trebuie continuată
ò Surse de erori...
ò coduri de diacritice neconvenționale
ò incompatibilități între adnotări TTL și interfața KorAP ò erori în metadate
ò erori de aliniere între vorbire și text ò etc.
ò Filtrarea erorilor
ò programatică ò manuală
ò utilizând serviciul online de raportare a erorilor
ò Temă inclusă în planurile anuale ale IIT și ICIA
ò NP, VP
ò sintaxă (de dependențe) ò un mixaj sintaxă-semantică
Imagine oferită de Cătălina Mărănduc, raport de doctorat, dec. 2017
2. Adăugare de noi niveluri
de adnotare
3. Dezvoltare continuă
ò Obținerea de noi date textuale și de vorbire
ò de la furnizorii tradiționali, dar și de la alții noi ò asigurarea unui echilibru între domenii și stiluri
ò organizarea de servicii de crawling pentru preluare continuă din online (modelul Mannheim)
ò Dacă automatizăm complet procesul: dezvoltare permanentă, sincronă cu dezvoltarea limbii
ò "românesc contemporan" ar trebui să fie valabil acum, precum și peste 50 de ani
ò păstrând doar datele actuale, el va deveni un corpus învechit, nici măcar unul diacronic
4. Orientare spre trecut:
dezvoltarea unui corpus diacronic
ò CyRo (un proiect care a trecut de faza a 2-a de
evaluare): un pipeline OCR => transcriere chirilic-latin:
ò achiziția semi-automată a documentelor românești din secolele 16-19 în manuscris, semi-uncial și tipărit
ò inferența morfologiei paradigmatice a scrisurilor vechi românești
ò utilizarea și a citatelor din eDTLR
ò pași: documente originare => scanate => OCRizate =>
transcrise interpretativ => revizuite manual => adnotate TOK+POS+etc. => incluse în corpusul diacronic
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
5. Îmbunătățirea accesului
ò Pentru cercetătorii limbii române și utilizatorii ocazionali
ò marcarea și exportul ocurențelor (liste) și a sub-corpusurilor
ò posibilitatea de utilizare a constrângerilor de natură sintactică și semantică ò servicii asociate corpusului (accesibil prin program):
ò deschiderea pentru sarcini de lingvistică computațională ò conectarea la CoRoLa a aplicațiilor
ò CoRoLa privit ca Big Textual Data
6. Legarea corpusului CoRoLa cu alte resurse lingvistice
ò În practica obișnuită, procesele de prelucrare a limbajului de nivel înalt sunt instruite pe resurse care combină datele
lingvistice brute cu adnotările experților
ò să utilizăm CoRoLa ca o ancoră de care sunt legate, prin metode Lingvistic Linked Open Data, alte resurse lingvistice:
eDTLR, CLRE, WordNet, dicționare bilingve, de ex. Tiktin, dicționarul român-german, ediția a 3-a
ò să construim un mediu care să permită interogări complexe, accesând simultan resurse de diferite tipuri
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
7. Cooperare și diseminare
ò DRUKOLA: colaborarea cu echipa IDS Mannheim
ò îmbunătățirea interfeței
ò realizarea de studii de caz comparative în limbile germană și română ò experimentarea unei platforme comune de analiză a corpusului pentru a
împărtăși rezultate tehnice și de cercetare lingvistică
ò EuReKo: o structură de cristalizare pentru un corpus de referință federalizat
ò fiecare colecție de date textuale specifică unei limbi este localizată fizic și
întreținută de institutele sale responsabile, dar permite interogări combinate și extragerea de corpusuri comparabile
ò criterii unificatoare: metodologia, metadatele, limbajul de interogare,
7. Cooperare și diseminare
ò Încurajarea inițiativelor de colaborare cu Rep. Moldova
ò Organizarea de evenimente de lansare in Chișinău, Iași, Cluj- Napoca, Timișoara etc.
ò Orchestrarea folosirii corpusului CoRoLa în facultățile de Litere și în institutele de studiere a limbii române
ò Colecționarea de reacții din partea utilizatorilor și îmbunătățiri aduse corpusului și tehnologiei pe baza lor
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
Alte inițiative
ò 2 proiecte în evaluare...
CyRo – româna scrisă în alfabet chirilic
ò Procurarea unei colecții de documente cu scriere chirilică în limba română în format digital care acoperă toate perioadele istorice, interpretate în alfabet latin
ò Adăugarea de metadate și adnotări
ò Antrenarea de segmentatoare pentru identificarea în paginile scanate: limitele blocurilor de text, liniile, cuvintele, caracterele
ò Antrenarea de programe OCR pentru decodarea documentelor: tipărite, semi-uncial și cursiv în chirilice românești
ò Aplicarea de reguli de interpretare pentru transcrierea din alfabetul chirilic în cel latin
ò Dezvoltarea unei interfațe prietenoase care să ajute cercetătorii umaniști (filologi, lingviști, istorici, arheologi, sociologi etc.): indexare, regăsire documentară, editare critică, studii de interpretare culturală etc.
Academia de Științe a Moldovei, Chișinău, 25 mai 2018
CyRo – scopuri ambițioase, un consorțiu puternic
ò Paleolingviști
ò Lingviști informaticieni ò Speclaliști în
prelucrarea imaginilor ò Curatori bibliotecari
BiDFRoM – Big Data Flows
between Romania and Moldova
ò Dezvoltarea unei platforme mari de date pentru gestionarea, accesarea și analiza datelor textuale destinate să sprijine luarea deciziilor prin facilitarea proceselor de prognozare bazate pe
semnale slabe, apărute în presa românească și moldovenească.
ò Organizarea și actualizarea pe platformă a unei biblioteci de metode de învățare automată, algoritmi și modele reutilizabile, direct aplicabile datelor colectate, capabile să: ordoneze știrile după diverse criterii, organizeze datele, determine domeniile, detecteze topicul, evalueze sentimente, prezică schimbări, descopere știri false etc.
Academia de Științe a Moldovei, Chișinău, 25 mai 2018