• Nenhum resultado encontrado

PDF CLT131: Tekstityökalut 2010, ensimmäinen luento

N/A
N/A
Protected

Academic year: 2023

Share "PDF CLT131: Tekstityökalut 2010, ensimmäinen luento"

Copied!
41
0
0

Texto

(1)

CLT131: Tekstityökalut 2010, ensimmäinen luento

Tommi A Pirinen

tommi.pirinen@helsinki.fi

Helsingin yliopisto

Kieliteknologian oppiaine, Nykykielten laitos

2010-11-04 (päivitetty: 2010-11-08)

(2)

Asialista

Käytännön asiat

Kurssin motivaatio ja sisältö

Perustyökaluja

Kirjallisuusvihjeet

(3)

Asialista

Käytännön asiat

Kurssin motivaatio ja sisältö

Perustyökaluja

Kirjallisuusvihjeet

(4)

Yleistä: Osoitteet

I luennoitsija Tommi A Pirinen

tommi.pirinen+clt131@helsinki.fi

I kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi

I käyttäkää sähköpostin otsikossa aina muotoaCLT131:

jotain jotain

I kurssisivuthttp:

//www.ling.helsinki.fi/kit/2010s/clt131/

I kurssin kuvaus, kalenteri, luentokalvot ja tehtävät

I wikisivuthttps://kitwiki.csc.fi/twiki/bin/ view/KitWiki/HyClt131s2010

I Opiskelijoiden muistiinpanot ja yhteistyö

I kurssin shellipalvelinssh:hippu.csc.fi

(5)

Yleistä: Osoitteet

I luennoitsija Tommi A Pirinen

tommi.pirinen+clt131@helsinki.fi

I kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi

I käyttäkää sähköpostin otsikossa aina muotoa CLT131:

jotain jotain

I kurssisivuthttp:

//www.ling.helsinki.fi/kit/2010s/clt131/

I kurssin kuvaus, kalenteri, luentokalvot ja tehtävät

I wikisivuthttps://kitwiki.csc.fi/twiki/bin/ view/KitWiki/HyClt131s2010

I Opiskelijoiden muistiinpanot ja yhteistyö

I kurssin shellipalvelinssh:hippu.csc.fi

(6)

Yleistä: Osoitteet

I luennoitsija Tommi A Pirinen

tommi.pirinen+clt131@helsinki.fi

I kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi

I käyttäkää sähköpostin otsikossa aina muotoa CLT131:

jotain jotain

I kurssisivuthttp:

//www.ling.helsinki.fi/kit/2010s/clt131/

I kurssin kuvaus, kalenteri, luentokalvot ja tehtävät

I wikisivuthttps://kitwiki.csc.fi/twiki/bin/

view/KitWiki/HyClt131s2010

I Opiskelijoiden muistiinpanot ja yhteistyö

I kurssin shellipalvelinssh:hippu.csc.fi

(7)

Yleistä: Osoitteet

I luennoitsija Tommi A Pirinen

tommi.pirinen+clt131@helsinki.fi

I kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi

I käyttäkää sähköpostin otsikossa aina muotoa CLT131:

jotain jotain

I kurssisivuthttp:

//www.ling.helsinki.fi/kit/2010s/clt131/

I kurssin kuvaus, kalenteri, luentokalvot ja tehtävät

I wikisivuthttps://kitwiki.csc.fi/twiki/bin/

view/KitWiki/HyClt131s2010

I Opiskelijoiden muistiinpanot ja yhteistyö

I kurssin shellipalvelinssh:hippu.csc.fi

(8)

Yleistä: kurssin suoritus

I laajuus3 op

I luennotperjantaisin 12—14, laskuharjoituksettorstaisin 10—12(ellei muuta sovita) 4.11.2010—11.3.2011

I yleinen arvosteluasteikko 1—5 (48 % pisteistä→hyväksytty 1, 96 % tai enemmän→5)

I viikottaiset laskuharjoitukset 50 % ja harjoitustyö 50 %, tai laajempi harjoitustyö 100 % pisteistä

I harjoitustöistä ja etäsuorituksesta on aina sovittava kurssiassistentin tai luennoitsijan kanssa

(9)

Yleistä: kurssin suoritus

I laajuus 3 op

I luennot perjantaisin 12—14, laskuharjoitukset torstaisin 10—12 (ellei muuta sovita) 4.11.2010—11.3.2011

I yleinen arvosteluasteikko 1—5 (48 % pisteistä→hyväksytty 1, 96 % tai enemmän→5)

I viikottaiset laskuharjoitukset 50 % ja harjoitustyö 50 %, tai laajempi harjoitustyö 100 % pisteistä

I harjoitustöistä ja etäsuorituksesta on aina sovittava kurssiassistentin tai luennoitsijan kanssa

(10)

Yleistä: kurssin suoritus

I laajuus 3 op

I luennot perjantaisin 12—14, laskuharjoitukset torstaisin 10—12 (ellei muuta sovita) 4.11.2010—11.3.2011

I yleinen arvosteluasteikko 1—5 (48 % pisteistä→hyväksytty 1, 96 % tai enemmän→5)

I viikottaiset laskuharjoitukset 50 % ja harjoitustyö 50 %, tai laajempi harjoitustyö 100 % pisteistä

I harjoitustöistä ja etäsuorituksesta on aina sovittava kurssiassistentin tai luennoitsijan kanssa

(11)

Yleistä: Laskuharjoitukset

I tehtävät kurssisivujen yksityisessä osiossa

http://www.ling.helsinki.fi/kit/2010s/

clt131/priv/index.shtml—käyttäjätunnuksen ja salasanan saa luennoitsijalta tai kurssiassistentilta

I laskuharjoitukset palautetaan laskuharjoitustilaisuutta edeltävänä päivänäennen puoltapäivää(11.59) sähköpostitse

I laskuharjoitustilaisuudessa käsitellään palautettuja harjoituksia ja laajennetaan niihin liittyviä aiheita, esim. esitellään parempia ratkaisuja

I laskuharjoitustilaisuudetei pakollisiamutta niissä käytäviä asioita ei kerrata luennoilla

I laskuharjoitustilaisuus dokumentoidaan enintään wikissä, siis jos tehtävien sisältö ei auennut, kannattanee tulla

(12)

Yleistä: Laskuharjoitukset

I tehtävät kurssisivujen yksityisessä osiossa

http://www.ling.helsinki.fi/kit/2010s/

clt131/priv/index.shtml—käyttäjätunnuksen ja salasanan saa luennoitsijalta tai kurssiassistentilta

I laskuharjoitukset palautetaan laskuharjoitustilaisuutta edeltävänä päivänäennen puoltapäivää (11.59) sähköpostitse

I laskuharjoitustilaisuudessa käsitellään palautettuja harjoituksia ja laajennetaan niihin liittyviä aiheita, esim.

esitellään parempia ratkaisuja

I laskuharjoitustilaisuudetei pakollisiamutta niissä käytäviä asioita ei kerrata luennoilla

I laskuharjoitustilaisuus dokumentoidaan enintään wikissä, siis jos tehtävien sisältö ei auennut, kannattanee tulla

(13)

Yleistä: Harjoitustyö

I laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä

kieliteknologiasovelluksessa

I sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisenongelman ja ratkaisun toteutuksen sekä käyttöohjeen

I deadline 31.3.2011

I harjoitustyötä voi aloittaa työstää kurssin edetessä kun keksii mielenkiintoisia aiheita, kannattaa kuitenkin varmistaa aihe assistentilta tai luennoitsijalta

(14)

Yleistä: Harjoitustyö

I laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä

kieliteknologiasovelluksessa

I sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisenongelman ja ratkaisun toteutuksen sekä käyttöohjeen

I deadline31.3.2011

I harjoitustyötä voi aloittaa työstää kurssin edetessä kun keksii mielenkiintoisia aiheita, kannattaa kuitenkin varmistaa aihe assistentilta tai luennoitsijalta

(15)

Yleistä: Harjoitustyö

I laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä

kieliteknologiasovelluksessa

I sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisenongelman ja ratkaisun toteutuksen sekä käyttöohjeen

I deadline 31.3.2011

I harjoitustyötä voi aloittaa työstää kurssin edetessä kun keksii mielenkiintoisia aiheita, kannattaa kuitenkin varmistaa aihe assistentilta tai luennoitsijalta

(16)

Yleistä: Käyttöympäristö csc:llä

Kopioidaan nämä asetukset koneellahippu.csc.fi

tiedostoon.bashrc(esim. kurssimateriaaleista copy-pastella):

export LANG=fi_FI.UTF-8 export LC_ALL=fi_FI.UTF-8 export LESSCHARSET=utf-8

export GREP_OPTIONS=- -colour=auto

module load gcc/4.4.4 openfst/1.2 libtool hfst/2.4 python/3.1.1-gcc omorfi

(17)

Asialista

Käytännön asiat

Kurssin motivaatio ja sisältö

Perustyökaluja

Kirjallisuusvihjeet

(18)

Kielitiede ja tekstit

I tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja

I kirjojen sisältötekstejä, sanomalehtien vuosikertoja

I Internet-sivustoja, pikaviestinkeskusteluja

I puheaineistojen transskriptiot

I isojen (tilastollisesti merkittävien) havaintojen

vahvistaminen vaatii enemmän aineistoa kuin on käsin viihtyisää käydä läpi

(19)

Kielitiede ja tekstit

I tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja

I kirjojen sisältötekstejä, sanomalehtien vuosikertoja

I Internet-sivustoja, pikaviestinkeskusteluja

I puheaineistojen transskriptiot

I isojen (tilastollisesti merkittävien) havaintojen

vahvistaminen vaatii enemmän aineistoa kuin on käsin viihtyisää käydä läpi

(20)

Kielitiede ja tekstit

I tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja

I kirjojen sisältötekstejä, sanomalehtien vuosikertoja

I Internet-sivustoja, pikaviestinkeskusteluja

I puheaineistojen transskriptiot

I isojen (tilastollisesti merkittävien) havaintojen

vahvistaminen vaatii enemmän aineistoa kuin on käsin viihtyisää käydä läpi

(21)

Kurssin sisältö

I opitaan erilaisia tekstiaineistojen tyyppejä,tekstikorpuksia

I tekstikorpuksista hakujen, yhteenvetojen ym.

kokonaisuuksien automatisointi

I eri tekstitiedostotyyppien ja koodausten ym. käytännön ongelmien hallinta

I lingvistisesti mielenkiintoisten tekstiaineistojen luonti ja jäsennys

(22)

Kurssin sisältö

I opitaan erilaisia tekstiaineistojen tyyppejä,tekstikorpuksia

I tekstikorpuksista hakujen, yhteenvetojen ym.

kokonaisuuksien automatisointi

I eri tekstitiedostotyyppien ja koodausten ym. käytännön ongelmien hallinta

I lingvistisesti mielenkiintoisten tekstiaineistojen luonti ja jäsennys

(23)

Kurssin sisältö

I opitaan erilaisia tekstiaineistojen tyyppejä,tekstikorpuksia

I tekstikorpuksista hakujen, yhteenvetojen ym.

kokonaisuuksien automatisointi

I eri tekstitiedostotyyppien ja koodausten ym. käytännön ongelmien hallinta

I lingvistisesti mielenkiintoisten tekstiaineistojen luonti ja jäsennys

(24)

Mihin lingvitsit käyttävät tekstityökaluja?

I sanan/sanamuodon/sanaluokanX

tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)

I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?

I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?

I sanojen käyttö ja käyttöympäristö (semantiikka)

I Esim: mitä eroa onkauniillajakomealla

I sanojen suhteet; synonymia, antonymia, hyponymia, . . .

I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta

(25)

Mihin lingvitsit käyttävät tekstityökaluja?

I sanan/sanamuodon/sanaluokanX

tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)

I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?

I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?

I sanojen käyttö ja käyttöympäristö (semantiikka)

I Esim: mitä eroa onkauniillajakomealla

I sanojen suhteet; synonymia, antonymia, hyponymia, . . .

I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta

(26)

Mihin lingvitsit käyttävät tekstityökaluja?

I sanan/sanamuodon/sanaluokanX

tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)

I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?

I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?

I sanojen käyttö ja käyttöympäristö (semantiikka)

I Esim: mitä eroa onkauniillajakomealla

I sanojen suhteet; synonymia, antonymia, hyponymia, . . .

I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta

(27)

Mihin lingvitsit käyttävät tekstityökaluja?

I sanan/sanamuodon/sanaluokanX

tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)

I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?

I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?

I sanojen käyttö ja käyttöympäristö (semantiikka)

I Esim: mitä eroa onkauniillajakomealla

I sanojen suhteet; synonymia, antonymia, hyponymia, . . .

I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta

(28)

Mihin lingvitsit käyttävät tekstityökaluja?

I sanan/sanamuodon/sanaluokanX

tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.)

I Esim: sanotaankoomenoita,omenojavaiomenia; missä yhteyksissä ja minkä takia?

I Esim: onkopuuro tuli mustaaoikeasti hyvä kieliopillinen rakenne tai käytössä?

I sanojen käyttö ja käyttöympäristö (semantiikka)

I Esim: mitä eroa onkauniillajakomealla

I sanojen suhteet; synonymia, antonymia, hyponymia, . . .

I Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta

(29)

Asialista

Käytännön asiat

Kurssin motivaatio ja sisältö

Perustyökaluja

Kirjallisuusvihjeet

(30)

Tekstinmuokkaimet

I cat — ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun

I nano(pico) — helppo perusmuokkain pikkuhommiin

I gedit, jedit, kate — graafiset perusmuokkaimet aina kun X-yhteys toimii

I vi, vim, gvim — perinteinen tehokäyttäjien muokkain

I vim lopetetaan komennolla(esc):q

I emacs — toinen perinteinen tehokäyttäjien muokkain

I emacsista tarkemmin ks. johdantokurssin monisteet

(31)

Tekstinmuokkaimet

I cat — ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun

I nano (pico) — helppo perusmuokkain pikkuhommiin

I gedit, jedit, kate — graafiset perusmuokkaimet aina kun X-yhteys toimii

I vi, vim, gvim — perinteinen tehokäyttäjien muokkain

I vim lopetetaan komennolla(esc):q

I emacs — toinen perinteinen tehokäyttäjien muokkain

I emacsista tarkemmin ks. johdantokurssin monisteet

(32)

Tekstinmuokkaimet

I cat — ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun

I nano (pico) — helppo perusmuokkain pikkuhommiin

I gedit, jedit, kate — graafiset perusmuokkaimet aina kun X-yhteys toimii

I vi, vim,gvim— perinteinen tehokäyttäjien muokkain

I vim lopetetaan komennolla(esc):q

I emacs — toinen perinteinen tehokäyttäjien muokkain

I emacsista tarkemmin ks. johdantokurssin monisteet

(33)

Tekstinmuokkaimet

I cat — ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun

I nano (pico) — helppo perusmuokkain pikkuhommiin

I gedit, jedit, kate — graafiset perusmuokkaimet aina kun X-yhteys toimii

I vi, vim, gvim — perinteinen tehokäyttäjien muokkain

I vim lopetetaan komennolla(esc):q

I emacs — toinen perinteinen tehokäyttäjien muokkain

I emacsista tarkemmin ks. johdantokurssin monisteet

(34)

Avun ja sopivien sovellusten haeskelu

I fgrep— hakee merkkijonoja tiedostoista ja tulosteista

I apropos— hakee sanoja ohjehakemistoista

I esim.apropos owner | fgrep ’(1)’

I man — näyttää ohjesivun

I info — näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia

I http://www.google.fi— suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)

(35)

Avun ja sopivien sovellusten haeskelu

I fgrep — hakee merkkijonoja tiedostoista ja tulosteista

I apropos — hakee sanoja ohjehakemistoista

I esim.apropos owner | fgrep ’(1)’

I man— näyttää ohjesivun

I info — näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia

I http://www.google.fi— suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)

(36)

Avun ja sopivien sovellusten haeskelu

I fgrep — hakee merkkijonoja tiedostoista ja tulosteista

I apropos — hakee sanoja ohjehakemistoista

I esim.apropos owner | fgrep ’(1)’

I man — näyttää ohjesivun

I info— näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia

I http://www.google.fi— suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)

(37)

Avun ja sopivien sovellusten haeskelu

I fgrep — hakee merkkijonoja tiedostoista ja tulosteista

I apropos — hakee sanoja ohjehakemistoista

I esim.apropos owner | fgrep ’(1)’

I man — näyttää ohjesivun

I info — näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia

I http://www.google.fi— suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)

(38)

Mitä mä nyt tein kun se toimi. . . ?

I history— kertoo mitä aiemmin on tehty

I !{numero} — toista historiasta

I script — tallentaa mitä tehdään, hyvin tarkasti. Tätä käytetään toisinaan tehtäväpalautuksissa!

(39)

Mitä mä nyt tein kun se toimi. . . ?

I history — kertoo mitä aiemmin on tehty

I !{numero} — toista historiasta

I script— tallentaa mitä tehdään, hyvin tarkasti. Tätä käytetään toisinaan tehtäväpalautuksissa!

(40)

Asialista

Käytännön asiat

Kurssin motivaatio ja sisältö

Perustyökaluja

Kirjallisuusvihjeet

(41)

Vapaaehtoista, syventävää, lukemista (ei siis kurssilukemisto)

I Vim-kirja (978-0596529833)

I emacs-kirja (978-0596006488)

I Jantunen, J.:Synonymia ja käännössuomi952-458-479-4

I Nikolaev, Niemi:Suomen nominien taivutuksesta(Virittäjä 2005: 482)

Referências

Documentos relacionados

O presente trabalho procura identificar as noções de sustentabilidade, demandas e princi- pais entraves enfrentados pelos Povos e Comunidade de Terreiro no acesso às políticas