Tiedon louhinnan menetelmät, syksy 2005
Ongelma 1

Miten aineistosta löydetään pieni ja edustava joukko erilaisia esimerkkejä?

Tiedon louhintaongelman taustaa. Usein aineistoa analysoitaessa ensimmäinen tavoite on saada yleiskuva aineistosta, jokin pienehkö ja ymmärrettävä kuvaus. Hyödyllistä (jatko-)analyysiä ei yleensä voi tehdä, ellei ensin tunne ja ymmärrä aineistoa kohtuullisesti. Edustavien esimerkkien löytäminen on yksi keino saada jonkinlainen yleiskuva.

Ongelma. Suomessa on myytävänä n. 2500 erilaista henkilöautomallia, kun eri varusteluvaihtoehdot on pääosin jätetty huomioimatta (data/autot1.csv, data/auto_doc.pdf).
Jos aineiston kuvauksena pitäisi antaa yksi tyypillinen auto, mikä tai millainen se olisi? Entä jos aineiston saisi kuvata muutamalla tyypillisellä autolla?

(Huom: aineisto on harjoituksen vuoksi tuttu, jotta tulosten mielekkyyden arvointi ja siten menetelmien toiminnan arviointi olisi helppoa. Toisaalta esitiedot voivat ohjata voimakkaasti vastauksien etsimistä. Käyttäkää harjoituksessa tiedon louhintamenetelmiä havaintojen tekoon ja omaa taustatietämystä enemmäkin tulosten ja menetelmien arviointiin!)

Hyödynnettävä materiaali. Han ja Kamber: johdanto (luku 1) ja klusterointi (luku 8).

Käytännön vinkki. Esimerkki aineiston yksinkertaisesta muokkaamisesta: awk-komento joka käyttää puolipistettä kentän erottimena, joka tulostaa vain rivit 2 ja 8 sekä suuremmat, ja joka tulostaa kaikki muut kentät paitsi 3. ja 4.

      awk -vFS=";" '(NR==2 || NR>=8) {for (i=1; i<NF; i++) if (i!=3 && i!=4) printf "%s;", $i; print $NF;}' < autot.csv > autot1.csv
    
Käyttäkää aineiston muokkaamiseen mitä tahansa tuntemianne työkaluja (awk, tr, sed, perl, java, Excel, SAS, ...). Unix-työkaluista ohjeita saa man awk -komennolla tai vastaavalla. Varsinaiseen analyysiin voitte käyttää haluamianne valmiita tiedon louhintaohjelmia tai voitte toteuttaa niitä itse.

Lisää ohjeita ja täsmennyksiä annetaan työn edetessä aina tarpeen mukaan.

Lisäys 7.9.: (Huom: aineistosta autot1 on poistettu korin malli, jottei se ohjaa liikaa tehtävän suoritusta (alkuperäisen tiedoston kentät 3-4), sekä suuri osa otsaketiedoista. Alkuperäinen aineisto on myös käytettävissä tiedostossa data/autot.csv. Vrt. käytännön vinkki alla.)

Lisäys 7.9.: Työn palautuspäivä: pe 23.9.2005.