• Nenhum resultado encontrado

CLT131: Tekstityökalut 2011, yhdeksäs luento

N/A
N/A
Protected

Academic year: 2023

Share "CLT131: Tekstityökalut 2011, yhdeksäs luento"

Copied!
10
0
0

Texto

(1)

CLT131: Tekstityökalut 2011, yhdeksäs luento

Tommi A Pirinen

tommi.pirinen@helsinki.fi

Helsingin yliopisto

Kieliteknologian oppiaine, Nykykielten laitos

2011-02-11

(2)

Asialista

1 Käytännön asiat

tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 2 / 10

(3)

Viime kalvojen virheet

join vaatii aakkostetut sarakkeet

join -1 2 -2 1antoi väärän tuloksen koska pitäisi olla sarakkeet 2 ja 1 tiedostoista 1 ja 2 samassa järjestyksessä sort -k 2järjestää toisen sarakkeen ja tietystisort ensimmäisen mukaan

(4)

Loput harjoitustehtävät ja harjoitustyö

Harjoitustehtävät 1—8 kattavat koko kurssin pisteet Loppuajan voi käyttää harjoitustyöhön ja tehtäväpisteiden täydentämiseen

Tehtäväpisteitä on maksimissaan 50 ja harjoitustyöpisteitä siis 50;

arvosanaan 1 riittää 48 % pisteistä eli 48 pistettä (so. puolet pakollisista tehtävistä ja puolivalmis harjoitustyö)

Harjoitustyön aihe kannattanee ilmoittaa ajoissa Ohjeet kurssisivun yksityisellä osiolla

tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 4 / 10

(5)

Harjoitustyö

Kurssin ja harjoitustyön tavoitteena pystyä käyttämään tekstiaineistoa esim. tutkielman aineistona:

I noutaa olemassa oleva aineisto, kuten verkkosivu, kirja, korpus tms.

I muuntaa se tekstiksi käsittelyä varten

I poimia tutkielmaan liittyviä osioita ja/tai

I jäsentää niistä tutkielmaan sopivia kuvauksia, kuten saneet, frekvenssit, prosenttiosuudet jne.

tässä kirjoitetaan siitä lyhyt vapaamuotoinen pohdinta lisäksi käyttöohje

(6)

Esimerkkiaiheet

Etsi erisnimiä tekstistä (HT 4)

Päivämäärien ja tapahtumien haku (HT 5)

Jonkin sanan vierusparin tai bigrammien laskenta Mitä eroa on sijapäätteissä *omenoita*, *omenoja*

Mitä eroa on synonyymeillä *kaunis* ja *komea*

Miten wikipedian aineistosta voi tehdä tekstikorpuksen Moniko suomen kaksitavuisista fonotaktisista sarjoista on käytössä oleva sana

tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 6 / 10

(7)

Kirjoitelmasta

Katsotaan ohjeita ja malleja kurssisivuilta

(8)

Harjoitustyön toteutuksen käsin tehtävä tarkastelu

on olemassa joitakin asioita joita joko ei voi automatisoida tai jotka tekee nopeammin ja paremmin käsin kuin automatisoituna

esimerkki 1: synonymian luonteen arviointi:

I haetaan korpuksesta nominatiiveja yms.kaunisjakomea

I luokitellaankin hakutuloksia semanttisesti ja käsin

harjoitustyön kirjoitelmassa on olennaista kirjoittaa virkkeen tai kappaleen verran siitä, miten paljon käsitöitä jäi ja miksi se on parasta tehdä niin

tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 8 / 10

(9)

Käsin tehtävä tarkastelu, 2. esimerkki

Jos halutaan luokitella sanamuotoja suffiksikielen jonkinlaista morfologiaa varten voidaan silmämääräisesti tarkastella sanojen loppuja:

I tr -s ’ ’ ’\n’ | rev | sort | rev

I voidaan taas luokitella hakutuloksia käsin

I tässä hakutulosten luokittelusta voisi keksiä myös automatisoituja luokitteluja

(10)

Muita hyödyllisiä

monista kurssilla tuotetuista listauksista saa liitettyä openofficeen suoraan laskentataulukoita

esim. frekvenssiaineiston muunnos sarkamin erotelluksi:

I awk ’{printf("%s\t%s\n", $2, $1)}

sarkaimin eroteltu tiedosto eli .csv on eräs yksinkertainen laskentataulukon muoto

tätä voi siis käyttää jos tekee laskelmia ja haluaa esim. kuvaajia

tommi.pirinen@helsinki.fi (Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos)CLT131: 9. luento 2011-02-11 10 / 10

Referências

Documentos relacionados

O AG proposto nesta dissertação utiliza indivíduos (soluções potenciais) com alelos compostos de estrutura de dados de 11 bits e cada alelo contém o valor