Seminaarin aihepiiri
Havaintojen klusterointi on niiden automaattista ryhmittelyä keskenään
samankaltaisten havaintojen joukkoihin.
Klusteroinnilla voidaan etsiä vastauksia esimerkiksi seuraaviin kysymyksiin:
- "Millaisiin luonteviin ryhmiin aineistoni voidaan jakaa?"
(etsi klusterit)
-
"Millaiset havainnot ovat tyypillisiä tai edustavia?"
(anna tyypilliset eri klustereiden edustajat)
-
"Miten aineistoani voi luonnehtia lyhyesti?"
(kuvaa klusterit koko aineiston asemesta)
Klusterointi on yksi tiedon louhinnan (data mining, knowledge discovery)
perusongelmatyypeistä ja jo vanha koneoppimisongelma.
Seminaari on luonteeltaan opintoseminaari.
Siinä käsitellään klusterointialgoritmeja alkuperäisiin
tutkimusartikkeleihin perustuen. Tavoitteena on saada
kattava yleiskuva klusterointimenetelmistä -
sekä jo perinteisistä että uusimmista menetelmistä.
Esitiedot
Osallistujilta edellytetään tieteellisen kirjoittamisen kurssin
suorittamista.
Hyödyllisiä kursseja seminaaria varten
ovat mm. tietämyksen muodostaminen, koneoppiminen sekä
algoritmien suunnittelu ja analyysi.
Seminaarin toiminta matkii tieteellisiä konferensseja.
Kukin osallistuja laatii aiheestaan alkusyksyn aikana raportin ("artikkelin"),
joka palautetaan seminaarin ("konferenssin") järjestäjälle.
Toiset seminaarin osallistujat ("ohjelmatoimikunta") arvioivat
raportin ja antavat niistä palautetta, jonka perusteella
tekijä muokkaa raportin lopulliseen muotoonsa.
Seminaari ("konferenssi") kokoontuu lopulta kaksipäiväisenä,
ja kukin osallistuja pitää esitelmän.
Viimeistellyt raportit kootaan yhteen ("konferenssijulkaisuksi")
ennen kokoontumista ja jaetaan osallistujille sitä ennen tutustumista
varten.
Seminaari siis kokoontuu poikkeuksellisesti vain neljä kertaa:
järjestäytymiseen sekä kolmeen pidempään istuntoon, jotka
kestävät 4-7 tuntia.
Aikataulu (palautuspäivät ja kokoontumiset lihavoitu):
- pe 20.9. 10-12: järjestäytyminen
-
20.9.-30.9.: lähdemateriaalin valinta ja siihen tutustuminen,
esitelmän rungon valmistelu
-
ti 1.10.: raporttisuunnitelman palautus: lähteet, runko
(sähköpostitse Hannulle)
-
2.-17.10: raportin kirjoittaminen
(malli_kasikirjoitus.pdf,
malli_kasikirjoitus.tex)
-
pe 18.10. 8-12: raporttien palautus ja töiden lyhyet esittelyt
(raportti neljänä kopiona, esittely 10 min/pari kalvoa)
-
19.10.-31.10.: kolmen muun osallistujan raportin arviointi
(arviolomake.txt)
-
pe 1.11. klo 12 mennessä: arvioiden palautus
(sähköpostitse tekijälle ja Hannulle)
-
2.-14.11.: raportin viimeistely arvioiden perusteella
(malli_valmis.pdf,
malli_valmis.tex)
-
ti 12.11. klo 15 mennessä:
lopullisen sivumäärän ilmoittaminen Hannulle
-
pe 15.11.: lopullisen raportin palautus
(sähköisesti (pdf tai ps) ja mielellään yksipuolisesti paperilla Hannulle)
sekä lyhyt kuvaus raporttiin tehdyistä muutoksista arvoijille ja Hannulle
-
16.-27.11.: suullisen esitelmän valmistelu
-
(16.-21.11.: raporttien kokoaminen)
-
(pe 22.11.: raporttikokoelma toimitetaan osallistujille)
-
23.-27.11.: muiden osallistujien raportteihin tutustuminen
-
to 28.11. 8-16: seminaariesitelmät I/II
-
pe 29.11. 8-16: seminaariesitelmät II/II
Harvoista kokoontumisista huolimatta seminaari vaatii osallistujilta
aktiivista työskentelyä marraskuun loppuun asti.
Harvoista kokoontumisista johtuen seminaari edellyttää osallistujilta
aktiivisuutta ja omatoimisuutta.
Valmistautuminen
Seminaarin aihepiirin valmistaa hyvin Estivill-Castron artikkeli
Why so many clustering algorithms - A Position Paper
(SIGKDD Explorations, June 2002, Volume 4, Issue 1).
Seminaarin suorittaminen
Seminaari suoritetaan osallistumalla aktiivisesti seminaarin työskentelyyn:
työskentelymuotoja ovat tieteelliseen lähdemateriaaliin perehtyminen,
raportin kirjoittaminen ja esitelmän pitäminen,
toisten osallistujien raporttien lukeminen ja arviointi
sekä esitelmien aktiivinen seuraaminen.
Arvostelu perustuu omaan kirjalliseen raporttiin (1/3),
omaan suulliseen esitykseen (1/3),
sekä toisten raporttien kommentointiin ja muuhun aktiivisuuteen (1/3).
Ohjelma
Katso
raportin yhteydestä.
Ohjeita
Seminaarin tarkoituksena on oppia uusia asioita
tietojenkäsittelytieteestä sekä harjoitella tieteellisen
tekstin tuottamista ja esitelmän pitämistä.
Klusterointimenetelmillä pyritään löytämään hyvä klusterointi.
Klusteroinnin hyvyydelle täytyy siis olla jokin mitta.
Kun se on määritelty, niin jäljelle jää usein optimointionglma:
miten löydetään mitan mielessä hyvä klusterointi.
Esitelmässä esitettäviä keskeisiä asioita -
vaikkakin usein lähdemateriaalissa erikseen mainitsemattomia -
ovat seuraavat:
-
Millaisella mallilla dataa ja klustereita kuvataan?
Mikä on se klusteroinnin laadun mitta, jota pyritään optimoimaan?
Miksi tai milloin kyseinen malli tai mitta on hyvä?
-
Millaisella algoritmilla hyvää klusterointia etsitään?
Löytääkö se globaalin vai lokaalin optimin?
Tai mitä muita hyviä ominaisuuksia algoritmilla on?
Kannattaa muistaa, että kirjallisella raportilla ja suullisella
esitelmällä on osin erilaiset tarkoitukset.
Esitelmässä kuulijoille
välitetään sisällön keskeiset ajatukset, tarvittaessa sopivasti asioita
yksinkertaistaen. Hyvä esitelmä sisältää - tietysti aiheesta riippuen -
runsaasti esimerkkejä, jotka havainnollistavat aihetta, ja vain
sellaisia valikoituja teknisiä yksityiskohtia, jotka ovat tärkeitä
ja joita ehditään käsitellä riittävästi esitelmän aikana.
Suullisen esitelmän pituus on n. 45 minuuttia.
(Esitys kalvoilla, mikroa tai videotykkiä ei ole käytössä.)
Raportissa korostuu esitelmää enemmän täsmällisyys ja tieteellinen
ilmaisu. Raporttikin on usein tiivistelmä käytetystä lähdemateriaalista,
joten valintaa ja karsintaa täytyy tehdä. Valitut asiat tulee sitten
kuvata raportissa riittävällä tarkkuudella; karsittujen asioiden
kohdalla voi tarvittaessa viitata lyhyemmin lähdemateriaaliin.
Raportin sopiva pituus on 10-15 sivua
(valmisteluohjeita esim.
tieteellisen kirjoittamisen kurssin sivuilla).
Lisää ohjeita myös laitoksen
seminaariohjeissa.
Raportit kootaan yhdeksi julkaisuksi. Ulkoasun yhtenäistämiseksi
tässä yleisiä ohjeita ja malli ulkoasusta:
käsikirjoitus (pdf,
latex) ja
valmis raportti (pdf,
latex).
Seminaarin vetäjä
Prof. Hannu TT Toivonen, Helsingin yliopisto
|