Tiedon louhintaongelman taustaa. Usein aineistoa analysoitaessa ensimmäinen tavoite on saada yleiskuva aineistosta, jokin pienehkö ja ymmärrettävä kuvaus. Hyödyllistä (jatko-)analyysiä ei yleensä voi tehdä, ellei ensin tunne ja ymmärrä aineistoa kohtuullisesti. Edustavien esimerkkien löytäminen on yksi keino saada jonkinlainen yleiskuva.
Ongelma.
Suomessa on myytävänä n. 2500 erilaista henkilöautomallia, kun eri
varusteluvaihtoehdot on pääosin jätetty huomioimatta
(data/autot1.csv,
data/auto_doc.pdf).
Jos aineiston kuvauksena pitäisi antaa yksi tyypillinen
auto, mikä tai millainen se olisi?
Entä jos aineiston saisi kuvata muutamalla tyypillisellä autolla?
(Huom: aineisto on harjoituksen vuoksi tuttu, jotta tulosten mielekkyyden arvointi ja siten menetelmien toiminnan arviointi olisi helppoa. Toisaalta esitiedot voivat ohjata voimakkaasti vastauksien etsimistä. Käyttäkää harjoituksessa tiedon louhintamenetelmiä havaintojen tekoon ja omaa taustatietämystä enemmäkin tulosten ja menetelmien arviointiin!)
Hyödynnettävä materiaali. Han ja Kamber: johdanto (luku 1) ja klusterointi (luku 8).
Käytännön vinkki.
Esimerkki aineiston yksinkertaisesta muokkaamisesta: awk-komento
joka käyttää puolipistettä kentän erottimena,
joka tulostaa vain rivit 2 ja 8 sekä suuremmat,
ja joka tulostaa kaikki muut kentät paitsi 3. ja 4.
awk -vFS=";" '(NR==2 || NR>=8) {for (i=1; i<NF; i++) if (i!=3 && i!=4) printf "%s;", $i; print $NF;}' < autot.csv > autot1.csvKäyttäkää aineiston muokkaamiseen mitä tahansa tuntemianne työkaluja (awk, tr, sed, perl, java, Excel, SAS, ...). Unix-työkaluista ohjeita saa man awk -komennolla tai vastaavalla. Varsinaiseen analyysiin voitte käyttää haluamianne valmiita tiedon louhintaohjelmia tai voitte toteuttaa niitä itse.
Lisää ohjeita ja täsmennyksiä annetaan työn edetessä aina tarpeen mukaan.
Lisäys 7.9.: (Huom: aineistosta autot1 on poistettu korin malli, jottei se ohjaa liikaa tehtävän suoritusta (alkuperäisen tiedoston kentät 3-4), sekä suuri osa otsaketiedoista. Alkuperäinen aineisto on myös käytettävissä tiedostossa data/autot.csv. Vrt. käytännön vinkki alla.)
Lisäys 7.9.: Työn palautuspäivä: pe 23.9.2005.