CLT131: Tekstityökalut 2011, yhdeksäs luento
Tommi A Pirinen
tommi.pirinen@helsinki.fi
Helsingin yliopisto
Kieliteknologian oppiaine, Nykykielten laitos
2011-02-11
Asialista
1 Käytännön asiat
tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 2 / 10
Viime kalvojen virheet
join vaatii aakkostetut sarakkeet
join -1 2 -2 1antoi väärän tuloksen koska pitäisi olla sarakkeet 2 ja 1 tiedostoista 1 ja 2 samassa järjestyksessä sort -k 2järjestää toisen sarakkeen ja tietystisort ensimmäisen mukaan
Loput harjoitustehtävät ja harjoitustyö
Harjoitustehtävät 1—8 kattavat koko kurssin pisteet Loppuajan voi käyttää harjoitustyöhön ja tehtäväpisteiden täydentämiseen
Tehtäväpisteitä on maksimissaan 50 ja harjoitustyöpisteitä siis 50;
arvosanaan 1 riittää 48 % pisteistä eli 48 pistettä (so. puolet pakollisista tehtävistä ja puolivalmis harjoitustyö)
Harjoitustyön aihe kannattanee ilmoittaa ajoissa Ohjeet kurssisivun yksityisellä osiolla
tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 4 / 10
Harjoitustyö
Kurssin ja harjoitustyön tavoitteena pystyä käyttämään tekstiaineistoa esim. tutkielman aineistona:
I noutaa olemassa oleva aineisto, kuten verkkosivu, kirja, korpus tms.
I muuntaa se tekstiksi käsittelyä varten
I poimia tutkielmaan liittyviä osioita ja/tai
I jäsentää niistä tutkielmaan sopivia kuvauksia, kuten saneet, frekvenssit, prosenttiosuudet jne.
tässä kirjoitetaan siitä lyhyt vapaamuotoinen pohdinta lisäksi käyttöohje
Esimerkkiaiheet
Etsi erisnimiä tekstistä (HT 4)
Päivämäärien ja tapahtumien haku (HT 5)
Jonkin sanan vierusparin tai bigrammien laskenta Mitä eroa on sijapäätteissä *omenoita*, *omenoja*
Mitä eroa on synonyymeillä *kaunis* ja *komea*
Miten wikipedian aineistosta voi tehdä tekstikorpuksen Moniko suomen kaksitavuisista fonotaktisista sarjoista on käytössä oleva sana
tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 6 / 10
Kirjoitelmasta
Katsotaan ohjeita ja malleja kurssisivuilta
Harjoitustyön toteutuksen käsin tehtävä tarkastelu
on olemassa joitakin asioita joita joko ei voi automatisoida tai jotka tekee nopeammin ja paremmin käsin kuin automatisoituna
esimerkki 1: synonymian luonteen arviointi:
I haetaan korpuksesta nominatiiveja yms.kaunisjakomea
I luokitellaankin hakutuloksia semanttisesti ja käsin
harjoitustyön kirjoitelmassa on olennaista kirjoittaa virkkeen tai kappaleen verran siitä, miten paljon käsitöitä jäi ja miksi se on parasta tehdä niin
tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 8 / 10
Käsin tehtävä tarkastelu, 2. esimerkki
Jos halutaan luokitella sanamuotoja suffiksikielen jonkinlaista morfologiaa varten voidaan silmämääräisesti tarkastella sanojen loppuja:
I tr -s ’ ’ ’\n’ | rev | sort | rev
I voidaan taas luokitella hakutuloksia käsin
I tässä hakutulosten luokittelusta voisi keksiä myös automatisoituja luokitteluja
Muita hyödyllisiä
monista kurssilla tuotetuista listauksista saa liitettyä openofficeen suoraan laskentataulukoita
esim. frekvenssiaineiston muunnos sarkamin erotelluksi:
I awk ’{printf("%s\t%s\n", $2, $1)}
sarkaimin eroteltu tiedosto eli .csv on eräs yksinkertainen laskentataulukon muoto
tätä voi siis käyttää jos tekee laskelmia ja haluaa esim. kuvaajia
tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 10 / 10