University of Helsinki - Department of Computer Science

58302306 Klusterointimenetelmät (2 ov) (seminaari S02)


Ajankohtaista:

Lopulliset raportit (TKTL:n raportti C-2002-54) ovat saatavilla sähköisesti. Seminaarin osallistujat voivat noutaa paperiversion laitoksen kirjastosta (mieluiten ja varmimmin klo 8-14 välisenä aikana).

Muut seminaarista kiinnostuneet voivat tulostaa esitelmiä verkosta (ks. linkki yllä). Jos olet kiinnostunut tulemaan kuuntelemaan esitelmiä seminaarin kokoontumiseen, ota etukäteen yhteys Hannu Toivoseen.


Seminaari toimii konferenssin tapaan: katso alta kohta seminaarin toiminta! Seminaarin kokoontumiset:

  • pe 20.9. 10-12: järjestäytyminen (sali A320) (johdantokalvot)
  • pe 18.10. 8-12: raporttien palautus ja töiden lyhyet esittelyt (sali A320)
  • to 28.11. 8-15: seminaariesitelmät I/II (sali 309, Tieteiden talo, Kirkkokatu 6)
  • pe 29.11. 8-16: seminaariesitelmät II/II (sali 309, Tieteiden talo, Kirkkokatu 6)

Sali A320 on Vallilassa osoitteessa Teollisuuskatu 23.

http://www.cs.helsinki.fi/hannu.toivonen/teaching/seminaariS02/



Seminaarin aihepiiri

Havaintojen klusterointi on niiden automaattista ryhmittelyä keskenään samankaltaisten havaintojen joukkoihin. Klusteroinnilla voidaan etsiä vastauksia esimerkiksi seuraaviin kysymyksiin:

  • "Millaisiin luonteviin ryhmiin aineistoni voidaan jakaa?" (etsi klusterit)
  • "Millaiset havainnot ovat tyypillisiä tai edustavia?" (anna tyypilliset eri klustereiden edustajat)
  • "Miten aineistoani voi luonnehtia lyhyesti?" (kuvaa klusterit koko aineiston asemesta)

Klusterointi on yksi tiedon louhinnan (data mining, knowledge discovery) perusongelmatyypeistä ja jo vanha koneoppimisongelma.

Seminaari on luonteeltaan opintoseminaari. Siinä käsitellään klusterointialgoritmeja alkuperäisiin tutkimusartikkeleihin perustuen. Tavoitteena on saada kattava yleiskuva klusterointimenetelmistä - sekä jo perinteisistä että uusimmista menetelmistä.

Esitiedot

Osallistujilta edellytetään tieteellisen kirjoittamisen kurssin suorittamista. Hyödyllisiä kursseja seminaaria varten ovat mm. tietämyksen muodostaminen, koneoppiminen sekä algoritmien suunnittelu ja analyysi.

Seminaarin toiminta

Seminaarin toiminta matkii tieteellisiä konferensseja. Kukin osallistuja laatii aiheestaan alkusyksyn aikana raportin ("artikkelin"), joka palautetaan seminaarin ("konferenssin") järjestäjälle. Toiset seminaarin osallistujat ("ohjelmatoimikunta") arvioivat raportin ja antavat niistä palautetta, jonka perusteella tekijä muokkaa raportin lopulliseen muotoonsa. Seminaari ("konferenssi") kokoontuu lopulta kaksipäiväisenä, ja kukin osallistuja pitää esitelmän. Viimeistellyt raportit kootaan yhteen ("konferenssijulkaisuksi") ennen kokoontumista ja jaetaan osallistujille sitä ennen tutustumista varten.

Seminaari siis kokoontuu poikkeuksellisesti vain neljä kertaa: järjestäytymiseen sekä kolmeen pidempään istuntoon, jotka kestävät 4-7 tuntia. Aikataulu (palautuspäivät ja kokoontumiset lihavoitu):

  • pe 20.9. 10-12: järjestäytyminen
  • 20.9.-30.9.: lähdemateriaalin valinta ja siihen tutustuminen, esitelmän rungon valmistelu
  • ti 1.10.: raporttisuunnitelman palautus: lähteet, runko (sähköpostitse Hannulle)
  • 2.-17.10: raportin kirjoittaminen (malli_kasikirjoitus.pdf, malli_kasikirjoitus.tex)
  • pe 18.10. 8-12: raporttien palautus ja töiden lyhyet esittelyt (raportti neljänä kopiona, esittely 10 min/pari kalvoa)
  • 19.10.-31.10.: kolmen muun osallistujan raportin arviointi (arviolomake.txt)
  • pe 1.11. klo 12 mennessä: arvioiden palautus (sähköpostitse tekijälle ja Hannulle)
  • 2.-14.11.: raportin viimeistely arvioiden perusteella (malli_valmis.pdf, malli_valmis.tex)
  • ti 12.11. klo 15 mennessä: lopullisen sivumäärän ilmoittaminen Hannulle
  • pe 15.11.: lopullisen raportin palautus (sähköisesti (pdf tai ps) ja mielellään yksipuolisesti paperilla Hannulle) sekä lyhyt kuvaus raporttiin tehdyistä muutoksista arvoijille ja Hannulle
  • 16.-27.11.: suullisen esitelmän valmistelu
  • (16.-21.11.: raporttien kokoaminen)
  • (pe 22.11.: raporttikokoelma toimitetaan osallistujille)
  • 23.-27.11.: muiden osallistujien raportteihin tutustuminen
  • to 28.11. 8-16: seminaariesitelmät I/II
  • pe 29.11. 8-16: seminaariesitelmät II/II

Harvoista kokoontumisista huolimatta seminaari vaatii osallistujilta aktiivista työskentelyä marraskuun loppuun asti. Harvoista kokoontumisista johtuen seminaari edellyttää osallistujilta aktiivisuutta ja omatoimisuutta.

Valmistautuminen

Seminaarin aihepiirin valmistaa hyvin Estivill-Castron artikkeli Why so many clustering algorithms - A Position Paper (SIGKDD Explorations, June 2002, Volume 4, Issue 1).

Seminaarin suorittaminen

Seminaari suoritetaan osallistumalla aktiivisesti seminaarin työskentelyyn: työskentelymuotoja ovat tieteelliseen lähdemateriaaliin perehtyminen, raportin kirjoittaminen ja esitelmän pitäminen, toisten osallistujien raporttien lukeminen ja arviointi sekä esitelmien aktiivinen seuraaminen.

Arvostelu perustuu omaan kirjalliseen raporttiin (1/3), omaan suulliseen esitykseen (1/3), sekä toisten raporttien kommentointiin ja muuhun aktiivisuuteen (1/3).

Ohjelma

Katso raportin yhteydestä.

Ohjeita

Seminaarin tarkoituksena on oppia uusia asioita tietojenkäsittelytieteestä sekä harjoitella tieteellisen tekstin tuottamista ja esitelmän pitämistä.

Klusterointimenetelmillä pyritään löytämään hyvä klusterointi. Klusteroinnin hyvyydelle täytyy siis olla jokin mitta. Kun se on määritelty, niin jäljelle jää usein optimointionglma: miten löydetään mitan mielessä hyvä klusterointi. Esitelmässä esitettäviä keskeisiä asioita - vaikkakin usein lähdemateriaalissa erikseen mainitsemattomia - ovat seuraavat:

  • Millaisella mallilla dataa ja klustereita kuvataan? Mikä on se klusteroinnin laadun mitta, jota pyritään optimoimaan? Miksi tai milloin kyseinen malli tai mitta on hyvä?
  • Millaisella algoritmilla hyvää klusterointia etsitään? Löytääkö se globaalin vai lokaalin optimin? Tai mitä muita hyviä ominaisuuksia algoritmilla on?

Kannattaa muistaa, että kirjallisella raportilla ja suullisella esitelmällä on osin erilaiset tarkoitukset.

Esitelmässä kuulijoille välitetään sisällön keskeiset ajatukset, tarvittaessa sopivasti asioita yksinkertaistaen. Hyvä esitelmä sisältää - tietysti aiheesta riippuen - runsaasti esimerkkejä, jotka havainnollistavat aihetta, ja vain sellaisia valikoituja teknisiä yksityiskohtia, jotka ovat tärkeitä ja joita ehditään käsitellä riittävästi esitelmän aikana. Suullisen esitelmän pituus on n. 45 minuuttia. (Esitys kalvoilla, mikroa tai videotykkiä ei ole käytössä.)

Raportissa korostuu esitelmää enemmän täsmällisyys ja tieteellinen ilmaisu. Raporttikin on usein tiivistelmä käytetystä lähdemateriaalista, joten valintaa ja karsintaa täytyy tehdä. Valitut asiat tulee sitten kuvata raportissa riittävällä tarkkuudella; karsittujen asioiden kohdalla voi tarvittaessa viitata lyhyemmin lähdemateriaaliin. Raportin sopiva pituus on 10-15 sivua (valmisteluohjeita esim. tieteellisen kirjoittamisen kurssin sivuilla). Lisää ohjeita myös laitoksen seminaariohjeissa.

Raportit kootaan yhdeksi julkaisuksi. Ulkoasun yhtenäistämiseksi tässä yleisiä ohjeita ja malli ulkoasusta: käsikirjoitus (pdf, latex) ja valmis raportti (pdf, latex).

Seminaarin vetäjä

Prof. Hannu TT Toivonen, Helsingin yliopisto