Tiedon louhinnan menetelmät, syksy 2005
Ongelma 2

Miten löydetään annettuun attribuuttiin (tilastollisesti) vaikuttavia muita attribuutteja? Miten ennustetaan annetun attribuutin arvo muiden attribuuttien avulla?

Tiedon louhintaongelman taustaa. Ennustaminen sinänsä on usein hyödyllistä: minkä kirjan tämänhetkiselle asiakkaalle voisi myydä (amazon.com), mikä oli ilman lämpötila 6500 vuotta sitten, onko televerkossa poikkava ongelmatilanne vai ei, tai onko potilaalla astmalle altistava geeni? Usein tiedon louhinnassa ennustajaa käytetään kuitenkin kohdeattribuuttiin liittyvien riippuvuuksien parempaan ymmärtämiseen: mikä geeni altistaa astmalle, mitkä ominaisuudet vaikuttavat ostopäätökseen ja miten, mitkä tekijät ennakoivat televerkon ongelmia?

Ongelma. Tarkasteellaan taas Suomessa myytäviä henkilöautomalleja, tällä kertaa alkuperäistä aineistoa (data/autot.csv, data/auto_doc.pdf) jossa on myös korityyppi mukana. Tehkää luokittelija, joka ennustaa auton korityypin mahdollisimman hyvin muiden attribuuttien avulla. Kuinka hyvin luokittelija toimii? Kiinnittäkää huomiota luokittelijan tarkkuuden objektiiviseen arviointiin. Mitkä attribuutit vaikuttavat eniten ennustukseen ja miten?

Hyödynnettävä materiaali. Han ja Kamber: classification and prediction (luku 7).

Työn palautuspäivä: pe 7.10.2005.