CLT131: Tekstityökalut 2010, ensimmäinen luento
Tommi A Pirinen
tommi.pirinen@helsinki.fi
Helsingin yliopisto
Kieliteknologian oppiaine, Nykykielten laitos
2010-11-04 (päivitetty: 2010-11-08)
Asialista
Käytännön asiat
Kurssin motivaatio ja sisältö
Perustyökaluja
Kirjallisuusvihjeet
Asialista
Käytännön asiat
Kurssin motivaatio ja sisältö
Perustyökaluja
Kirjallisuusvihjeet
Yleistä: Osoitteet
I luennoitsija Tommi A Pirinen
tommi.pirinen+clt131@helsinki.fi
I kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi
I käyttäkää sähköpostin otsikossa aina muotoaCLT131:
jotain jotain
I kurssisivuthttp:
//www.ling.helsinki.fi/kit/2010s/clt131/
I kurssin kuvaus, kalenteri, luentokalvot ja tehtävät
I wikisivuthttps://kitwiki.csc.fi/twiki/bin/ view/KitWiki/HyClt131s2010
I Opiskelijoiden muistiinpanot ja yhteistyö
I kurssin shellipalvelinssh:hippu.csc.fi
Yleistä: Osoitteet
I luennoitsija Tommi A Pirinen
tommi.pirinen+clt131@helsinki.fi
I kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi
I käyttäkää sähköpostin otsikossa aina muotoa CLT131:
jotain jotain
I kurssisivuthttp:
//www.ling.helsinki.fi/kit/2010s/clt131/
I kurssin kuvaus, kalenteri, luentokalvot ja tehtävät
I wikisivuthttps://kitwiki.csc.fi/twiki/bin/ view/KitWiki/HyClt131s2010
I Opiskelijoiden muistiinpanot ja yhteistyö
I kurssin shellipalvelinssh:hippu.csc.fi
Yleistä: Osoitteet
I luennoitsija Tommi A Pirinen
tommi.pirinen+clt131@helsinki.fi
I kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi
I käyttäkää sähköpostin otsikossa aina muotoa CLT131:
jotain jotain
I kurssisivuthttp:
//www.ling.helsinki.fi/kit/2010s/clt131/
I kurssin kuvaus, kalenteri, luentokalvot ja tehtävät
I wikisivuthttps://kitwiki.csc.fi/twiki/bin/
view/KitWiki/HyClt131s2010
I Opiskelijoiden muistiinpanot ja yhteistyö
I kurssin shellipalvelinssh:hippu.csc.fi
Yleistä: Osoitteet
I luennoitsija Tommi A Pirinen
tommi.pirinen+clt131@helsinki.fi
I kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi
I käyttäkää sähköpostin otsikossa aina muotoa CLT131:
jotain jotain
I kurssisivuthttp:
//www.ling.helsinki.fi/kit/2010s/clt131/
I kurssin kuvaus, kalenteri, luentokalvot ja tehtävät
I wikisivuthttps://kitwiki.csc.fi/twiki/bin/
view/KitWiki/HyClt131s2010
I Opiskelijoiden muistiinpanot ja yhteistyö
I kurssin shellipalvelinssh:hippu.csc.fi
Yleistä: kurssin suoritus
I laajuus3 op
I luennotperjantaisin 12—14, laskuharjoituksettorstaisin 10—12(ellei muuta sovita) 4.11.2010—11.3.2011
I yleinen arvosteluasteikko 1—5 (48 % pisteistä→hyväksytty 1, 96 % tai enemmän→5)
I viikottaiset laskuharjoitukset 50 % ja harjoitustyö 50 %, tai laajempi harjoitustyö 100 % pisteistä
I harjoitustöistä ja etäsuorituksesta on aina sovittava kurssiassistentin tai luennoitsijan kanssa
Yleistä: kurssin suoritus
I laajuus 3 op
I luennot perjantaisin 12—14, laskuharjoitukset torstaisin 10—12 (ellei muuta sovita) 4.11.2010—11.3.2011
I yleinen arvosteluasteikko 1—5 (48 % pisteistä→hyväksytty 1, 96 % tai enemmän→5)
I viikottaiset laskuharjoitukset 50 % ja harjoitustyö 50 %, tai laajempi harjoitustyö 100 % pisteistä
I harjoitustöistä ja etäsuorituksesta on aina sovittava kurssiassistentin tai luennoitsijan kanssa
Yleistä: kurssin suoritus
I laajuus 3 op
I luennot perjantaisin 12—14, laskuharjoitukset torstaisin 10—12 (ellei muuta sovita) 4.11.2010—11.3.2011
I yleinen arvosteluasteikko 1—5 (48 % pisteistä→hyväksytty 1, 96 % tai enemmän→5)
I viikottaiset laskuharjoitukset 50 % ja harjoitustyö 50 %, tai laajempi harjoitustyö 100 % pisteistä
I harjoitustöistä ja etäsuorituksesta on aina sovittava kurssiassistentin tai luennoitsijan kanssa
Yleistä: Laskuharjoitukset
I tehtävät kurssisivujen yksityisessä osiossa
http://www.ling.helsinki.fi/kit/2010s/
clt131/priv/index.shtml—käyttäjätunnuksen ja salasanan saa luennoitsijalta tai kurssiassistentilta
I laskuharjoitukset palautetaan laskuharjoitustilaisuutta edeltävänä päivänäennen puoltapäivää(11.59) sähköpostitse
I laskuharjoitustilaisuudessa käsitellään palautettuja harjoituksia ja laajennetaan niihin liittyviä aiheita, esim. esitellään parempia ratkaisuja
I laskuharjoitustilaisuudetei pakollisiamutta niissä käytäviä asioita ei kerrata luennoilla
I laskuharjoitustilaisuus dokumentoidaan enintään wikissä, siis jos tehtävien sisältö ei auennut, kannattanee tulla
Yleistä: Laskuharjoitukset
I tehtävät kurssisivujen yksityisessä osiossa
http://www.ling.helsinki.fi/kit/2010s/
clt131/priv/index.shtml—käyttäjätunnuksen ja salasanan saa luennoitsijalta tai kurssiassistentilta
I laskuharjoitukset palautetaan laskuharjoitustilaisuutta edeltävänä päivänäennen puoltapäivää (11.59) sähköpostitse
I laskuharjoitustilaisuudessa käsitellään palautettuja harjoituksia ja laajennetaan niihin liittyviä aiheita, esim.
esitellään parempia ratkaisuja
I laskuharjoitustilaisuudetei pakollisiamutta niissä käytäviä asioita ei kerrata luennoilla
I laskuharjoitustilaisuus dokumentoidaan enintään wikissä, siis jos tehtävien sisältö ei auennut, kannattanee tulla
Yleistä: Harjoitustyö
I laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä
kieliteknologiasovelluksessa
I sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisenongelman ja ratkaisun toteutuksen sekä käyttöohjeen
I deadline 31.3.2011
I harjoitustyötä voi aloittaa työstää kurssin edetessä kun keksii mielenkiintoisia aiheita, kannattaa kuitenkin varmistaa aihe assistentilta tai luennoitsijalta
Yleistä: Harjoitustyö
I laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä
kieliteknologiasovelluksessa
I sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisenongelman ja ratkaisun toteutuksen sekä käyttöohjeen
I deadline31.3.2011
I harjoitustyötä voi aloittaa työstää kurssin edetessä kun keksii mielenkiintoisia aiheita, kannattaa kuitenkin varmistaa aihe assistentilta tai luennoitsijalta
Yleistä: Harjoitustyö
I laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä
kieliteknologiasovelluksessa
I sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisenongelman ja ratkaisun toteutuksen sekä käyttöohjeen
I deadline 31.3.2011
I harjoitustyötä voi aloittaa työstää kurssin edetessä kun keksii mielenkiintoisia aiheita, kannattaa kuitenkin varmistaa aihe assistentilta tai luennoitsijalta
Yleistä: Käyttöympäristö csc:llä
Kopioidaan nämä asetukset koneellahippu.csc.fi
tiedostoon.bashrc(esim. kurssimateriaaleista copy-pastella):
export LANG=fi_FI.UTF-8 export LC_ALL=fi_FI.UTF-8 export LESSCHARSET=utf-8
export GREP_OPTIONS=- -colour=auto
module load gcc/4.4.4 openfst/1.2 libtool hfst/2.4 python/3.1.1-gcc omorfi
Asialista
Käytännön asiat
Kurssin motivaatio ja sisältö
Perustyökaluja
Kirjallisuusvihjeet
Kielitiede ja tekstit
I tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja
I kirjojen sisältötekstejä, sanomalehtien vuosikertoja
I Internet-sivustoja, pikaviestinkeskusteluja
I puheaineistojen transskriptiot
I isojen (tilastollisesti merkittävien) havaintojen
vahvistaminen vaatii enemmän aineistoa kuin on käsin viihtyisää käydä läpi
Kielitiede ja tekstit
I tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja
I kirjojen sisältötekstejä, sanomalehtien vuosikertoja
I Internet-sivustoja, pikaviestinkeskusteluja
I puheaineistojen transskriptiot
I isojen (tilastollisesti merkittävien) havaintojen
vahvistaminen vaatii enemmän aineistoa kuin on käsin viihtyisää käydä läpi
Kielitiede ja tekstit
I tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja
I kirjojen sisältötekstejä, sanomalehtien vuosikertoja
I Internet-sivustoja, pikaviestinkeskusteluja
I puheaineistojen transskriptiot
I isojen (tilastollisesti merkittävien) havaintojen
vahvistaminen vaatii enemmän aineistoa kuin on käsin viihtyisää käydä läpi
Kurssin sisältö
I opitaan erilaisia tekstiaineistojen tyyppejä,tekstikorpuksia
I tekstikorpuksista hakujen, yhteenvetojen ym.
kokonaisuuksien automatisointi
I eri tekstitiedostotyyppien ja koodausten ym. käytännön ongelmien hallinta
I lingvistisesti mielenkiintoisten tekstiaineistojen luonti ja jäsennys
Kurssin sisältö
I opitaan erilaisia tekstiaineistojen tyyppejä,tekstikorpuksia
I tekstikorpuksista hakujen, yhteenvetojen ym.
kokonaisuuksien automatisointi
I eri tekstitiedostotyyppien ja koodausten ym. käytännön ongelmien hallinta
I lingvistisesti mielenkiintoisten tekstiaineistojen luonti ja jäsennys
Kurssin sisältö
I opitaan erilaisia tekstiaineistojen tyyppejä,tekstikorpuksia
I tekstikorpuksista hakujen, yhteenvetojen ym.
kokonaisuuksien automatisointi
I eri tekstitiedostotyyppien ja koodausten ym. käytännön ongelmien hallinta
I lingvistisesti mielenkiintoisten tekstiaineistojen luonti ja jäsennys
Mihin lingvitsit käyttävät tekstityökaluja?
I sanan/sanamuodon/sanaluokanX
tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)
I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?
I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?
I sanojen käyttö ja käyttöympäristö (semantiikka)
I Esim: mitä eroa onkauniillajakomealla
I sanojen suhteet; synonymia, antonymia, hyponymia, . . .
I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta
Mihin lingvitsit käyttävät tekstityökaluja?
I sanan/sanamuodon/sanaluokanX
tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)
I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?
I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?
I sanojen käyttö ja käyttöympäristö (semantiikka)
I Esim: mitä eroa onkauniillajakomealla
I sanojen suhteet; synonymia, antonymia, hyponymia, . . .
I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta
Mihin lingvitsit käyttävät tekstityökaluja?
I sanan/sanamuodon/sanaluokanX
tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)
I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?
I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?
I sanojen käyttö ja käyttöympäristö (semantiikka)
I Esim: mitä eroa onkauniillajakomealla
I sanojen suhteet; synonymia, antonymia, hyponymia, . . .
I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta
Mihin lingvitsit käyttävät tekstityökaluja?
I sanan/sanamuodon/sanaluokanX
tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)
I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?
I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?
I sanojen käyttö ja käyttöympäristö (semantiikka)
I Esim: mitä eroa onkauniillajakomealla
I sanojen suhteet; synonymia, antonymia, hyponymia, . . .
I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta
Mihin lingvitsit käyttävät tekstityökaluja?
I sanan/sanamuodon/sanaluokanX
tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)
I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?
I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?
I sanojen käyttö ja käyttöympäristö (semantiikka)
I Esim: mitä eroa onkauniillajakomealla
I sanojen suhteet; synonymia, antonymia, hyponymia, . . .
I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta
Asialista
Käytännön asiat
Kurssin motivaatio ja sisältö
Perustyökaluja
Kirjallisuusvihjeet
Tekstinmuokkaimet
I cat — ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun
I nano(pico) — helppo perusmuokkain pikkuhommiin
I gedit, jedit, kate — graafiset perusmuokkaimet aina kun X-yhteys toimii
I vi, vim, gvim — perinteinen tehokäyttäjien muokkain
I vim lopetetaan komennolla(esc):q
I emacs — toinen perinteinen tehokäyttäjien muokkain
I emacsista tarkemmin ks. johdantokurssin monisteet
Tekstinmuokkaimet
I cat — ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun
I nano (pico) — helppo perusmuokkain pikkuhommiin
I gedit, jedit, kate — graafiset perusmuokkaimet aina kun X-yhteys toimii
I vi, vim, gvim — perinteinen tehokäyttäjien muokkain
I vim lopetetaan komennolla(esc):q
I emacs — toinen perinteinen tehokäyttäjien muokkain
I emacsista tarkemmin ks. johdantokurssin monisteet
Tekstinmuokkaimet
I cat — ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun
I nano (pico) — helppo perusmuokkain pikkuhommiin
I gedit, jedit, kate — graafiset perusmuokkaimet aina kun X-yhteys toimii
I vi, vim,gvim— perinteinen tehokäyttäjien muokkain
I vim lopetetaan komennolla(esc):q
I emacs — toinen perinteinen tehokäyttäjien muokkain
I emacsista tarkemmin ks. johdantokurssin monisteet
Tekstinmuokkaimet
I cat — ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun
I nano (pico) — helppo perusmuokkain pikkuhommiin
I gedit, jedit, kate — graafiset perusmuokkaimet aina kun X-yhteys toimii
I vi, vim, gvim — perinteinen tehokäyttäjien muokkain
I vim lopetetaan komennolla(esc):q
I emacs — toinen perinteinen tehokäyttäjien muokkain
I emacsista tarkemmin ks. johdantokurssin monisteet
Avun ja sopivien sovellusten haeskelu
I fgrep— hakee merkkijonoja tiedostoista ja tulosteista
I apropos— hakee sanoja ohjehakemistoista
I esim.apropos owner | fgrep ’(1)’
I man — näyttää ohjesivun
I info — näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia
I http://www.google.fi— suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)
Avun ja sopivien sovellusten haeskelu
I fgrep — hakee merkkijonoja tiedostoista ja tulosteista
I apropos — hakee sanoja ohjehakemistoista
I esim.apropos owner | fgrep ’(1)’
I man— näyttää ohjesivun
I info — näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia
I http://www.google.fi— suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)
Avun ja sopivien sovellusten haeskelu
I fgrep — hakee merkkijonoja tiedostoista ja tulosteista
I apropos — hakee sanoja ohjehakemistoista
I esim.apropos owner | fgrep ’(1)’
I man — näyttää ohjesivun
I info— näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia
I http://www.google.fi— suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)
Avun ja sopivien sovellusten haeskelu
I fgrep — hakee merkkijonoja tiedostoista ja tulosteista
I apropos — hakee sanoja ohjehakemistoista
I esim.apropos owner | fgrep ’(1)’
I man — näyttää ohjesivun
I info — näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia
I http://www.google.fi— suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)
Mitä mä nyt tein kun se toimi. . . ?
I history— kertoo mitä aiemmin on tehty
I !{numero} — toista historiasta
I script — tallentaa mitä tehdään, hyvin tarkasti. Tätä käytetään toisinaan tehtäväpalautuksissa!
Mitä mä nyt tein kun se toimi. . . ?
I history — kertoo mitä aiemmin on tehty
I !{numero} — toista historiasta
I script— tallentaa mitä tehdään, hyvin tarkasti. Tätä käytetään toisinaan tehtäväpalautuksissa!
Asialista
Käytännön asiat
Kurssin motivaatio ja sisältö
Perustyökaluja
Kirjallisuusvihjeet
Vapaaehtoista, syventävää, lukemista (ei siis kurssilukemisto)
I Vim-kirja (978-0596529833)
I emacs-kirja (978-0596006488)
I Jantunen, J.:Synonymia ja käännössuomi952-458-479-4
I Nikolaev, Niemi:Suomen nominien taivutuksesta(Virittäjä 2005: 482)