Tiedon louhinnan menetelmät, syksy 2005
Ongelma 3

Millaiset autojen ominaisuudet toistuvat usein yhdessä?

Tiedon louhintaongelman taustaa. Yksinkertainen mutta hyödyllinen tapa kuvata ainestoa on etsiä siinä toistuvia ilmiöitä (hahmoja): annettuna joukko esimerkkejä, millaiset ominaisuudet esiintyvät niissä usein? Toistuvien ominaisuuksien lisäksi voidaan etsiä (assosiaatio-)sääntöjä, jotka kuvaavat ominaisuuksien yhteisesiintymisen ehdollista todennäköisyyttä (säännön luottamus) ja yleisyyttä (säännön tuki).

Ongelma. Tarkasteellaan edelleen Suomessa myytäviä henkilöautomalleja (data/autot.csv, data/auto_doc.pdf). Soveltakaa assosiaatiosääntöjen etsintää tähän aineistoon. Pyrkikää löytämään mielenkiintoisia (yllättäviä, poikkeuksellisia, hyödyllisiä, tms.) yhteyksiä attribuuttien välillä. Pohtikaa myös assosiaatiosääntöjen soveltuvuutta aineiston analysointiin sekä sen yhteyksiä ja eroja sekä luokitteluun (esim. millaiset assosiaatiosäännöt ennustavat korityyppiä ja kuinka hyvin) että klusterointiin.

(Lisätty 31.10.2005):
Säännön A->B objektiivisia mielenkiintoisuusmittoja:

Hyödynnettävä materiaali. Han ja Kamber luku 6: Mining association rules, aliluvut -6.2.2, 6.5.1, 6.7.

Työn palautuspäivä: pe 4.11.2005. (Huom: kurssi on tauolla koe- ja väliviikot 17.10.- 30.10., jolloin ei ole kurssin opetusta.)