58308106 Tiedon louhinnan seminaari (3 op, 2 ov), kevät 08
Tämä sivu: http://www.cs.helsinki.fi/hannu.toivonen/teaching/seminaariK08/
Seminaari kokoontuu kevätlukukaudella 2008 tiistaisin klo 10-12 salissa C220.
Seminaarin aihepiiri ja lähteitä
Tiedon louhinnassa (data mining, knowledge discovery) tutkitaan ja kehitetään algoritmeja suurten tietoaineistojen analysointiin. Seminaarissa käsitellään monipuolisesti erilaisia tiedon louhinnan menetelmiä ja sovelluskohteita tuoreeseen tutkimuskirjallisuuteen perustuen.
Lähdekirjallisuutta
- Data Mining and Knowledge Discovery, Springerin julkaisema lehti: korkeatasoisia artikkeleita. Artikkelit luettavissa yliopiston verkossa.
- M. Kantardzic, J. Zurada (Editors): Next Generation of Data-Mining Applications; Wiley-IEEE Press 2005: sovelluspainotteisia, erillisiä lukuja (sopivat vain niille opiskelijoille, joilla on riittävät pohjatiedot tiedonlouhintamenetelmistä) Tuon kirjasta seminaariin pari kopiota.
Seminaarin suorittaminen
Seminaari suoritetaan osallistumalla aktiivisesti seminaarin työskentelyyn: työskentelymuotoja ovat tieteelliseen lähdemateriaaliin perehtyminen, raportin kirjoittaminen ja esitelmän pitäminen, toisten osallistujien raporttien lukeminen ja arviointi sekä esitelmien aktiivinen seuraaminen.
Arvostelu perustuu omaan kirjalliseen työskentelyyn (1/3), omaan suulliseen esitykseen (1/3), sekä toisten raporttien kommentointiin ja muuhun aktiivisuuteen (1/3).
Tarkemmat toimintamuodot:
- Seminaarisuunnitelma: alustavasti oma aihe, lähteet, jäsentely. Pituus 1-2 sivua, palautus sähköpostissa Hannulle mahdollisimman pian, viimeistään ennen seminaarikokoontumista 5.2.2008.
- Kirjallinen raportti, 10-15 sivua. Palautus 2 viikkoa ennen omaa esitelmää arvioijille ja Hannulle.
- Kahden muun kirjallisen raportin arviointi (arviolomake.txt; huom: aikaa vain viisi päivää). Arvion palautus viimeistään maanantaina klo 12.00 mennessä sähköpostitse kirjoittajalle ja Hannulle.
- Kirjallisen raportin viimeistely palautteen perusteella (huom: aikaa viimeistelyyn vain kolme päivää). Viimeistellyn raportin palautus omaa esitelmää edeltävänä torstaina sähköpostitse koko seminaarille.
- Muiden raportteihin perehtyminen (huom: aikaa vain perjantaista maanantaihin).
- Esitelmä.
- Esitelmien seuraaminen ja keskustelu.
- Suullisen palautteen antaminen ja saaminen esitelmästä.
- Kolmen harjoitustehtävän laatiminen omasta esitelmästä.
- Harjoitustehtävien tekeminen ex tempore muiden esitelmistä.
- Lyhyt itsearviointi omasta esitelmästä ja raportista esitelmää seuraavaan perjantaihin mennessä (mitä tein hyvin, mikä meni hyvin; mitä tekisin toisin, mitä neuvoja antaisin nyt muille osallistujille)
- Lyhyt itsearviointi koko seminaarista seminaarin päätteeksi.
(Seminaarin alun esitelmiin aikataulua sovelletaan joustavasti.)
Seminaarikokoontumisen kulku:
- (Esitelmöijä toimittaa ehdotukset harjoitustehtäviksi Hannulle ennen esitelmää.)
- Esitelmä n. 45 min.
- Keskustelu esitelmän sisällöstä.
- Lyhyt palautekeskustelu esityksestä: vahvuudet ja kehityskohteet.
- Esitelmään liittyvine harjoitustehtävien tekoa.
- Harjoitustehtävien läpikäynti yhdessä.
Ohjeita
Kannattaa muistaa, että kirjallisella raportilla ja suullisella esitelmällä on osin erilaiset tarkoitukset.
Esitelmässä kuulijoille välitetään sisällön keskeiset ajatukset, tarvittaessa sopivasti asioita yksinkertaistaen. Hyvä esitelmä sisältää -- tietysti aiheesta riippuen -- runsaasti esimerkkejä, jotka havainnollistavat aihetta, ja vain sellaisia valikoituja teknisiä yksityiskohtia, jotka ovat tärkeitä ja joita ehditään käsitellä riittävästi esitelmän aikana. Suullisen esitelmän pituus on n. 45 minuuttia.
Raportissa korostuu esitelmää enemmän täsmällisyys ja tieteellinen ilmaisu. Raporttikin on usein tiivistelmä käytetystä lähdemateriaalista, joten valintaa ja karsintaa täytyy tehdä. Valitut asiat tulee sitten kuvata raportissa riittävällä tarkkuudella; karsittujen asioiden kohdalla voi tarvittaessa viitata lyhyemmin lähdemateriaaliin. Raportin sopiva pituus on 10-15 sivua (valmisteluohjeita esim. tieteellisen kirjoittamisen kurssin sivuilla). Lisää ohjeita myös laitoksen seminaariohjeissa.
Ohjelma
(15.1. | ei seminaaria, siirretään toiseen ajankohtaan) |
22.1. | Hannu Toivonen: Seminaarin järjestäytyminen |
29.1. | Niko Välimäki: Merkkijonojoukkojen louhinta kattavuusrajoitteilla
(sali B222!)
(harjoitustehtävät)
(raporttia kommentoivat Ilkka ja Panu) |
5.2. | Aija Niissalo: Geeniekspressiohahmojen haku moniulotteisesta datasta
(harjoitustehtävät)
(Suvi, Mikko) |
12.2. | Panu Luosto: Yksinkertainen alustusalgoritmi k:n keskiarvon ryvästysmenetelmää varten
(harjoitustehtävät)
(Kari, Niko) |
(19.2. | ei seminaaria) |
(26.2. | ei seminaaria, koeviikko) |
4.3. | Toni Merivuori: Tiedon louhintaa kompressointia hyväksikäyttäen
(harjoitustehtävät)
(Tuomas, Sami) |
(11.3. | ei seminaaria) |
18.3. | Mikko Heinonen: Useaa tietolähdettä käyttävä klusterointi
PERUTTU
(Sami, Toni) |
(25.3. | ei seminaaria, pääsiäinen) |
1.4. | Tuomas Tanner: Assosiaatiosääntöjen louhinnan tehostaminen
(harjoitustehtävät)
(Aija, Suvi) |
7.4. klo 14 |
SIIRRETTY pidettäväksi 22.4. klo 8.30 |
8.4. | Sami Yläkäs: Peräkkäishahmojen tunnistaminen webin louhinnassa
(harjoitustehtävät)
(Toni, Aija) |
(15.4. | ei seminaaria) |
21.4. klo 14 |
Suvi Hiltunen: Datan puhdistaminen (alustavasti)
PERUTTU
(Ilkka, Tuomas) |
22.4. klo 8.30 |
Ilkka Kosunen: aikasarjojen louhinta (alustavasti)
PERUTTU
(Kari) |
22.4. | Kari Palomäki: Reaaliaikaisen osakemarkkinatiedon pursketapahtumien korrelaatiot
(harjoitustehtävät)
(Niko, Panu) |
Esitiedot
Osallistujilta edellytetään tieteellisen kirjoittamisen kurssin suorittamista. Tiedon louhinnan menetelmät -kurssin suorittaminen on merkittävästi eduksi. Muita hyödyllisiä kursseja ovat mm. tiedon louhinnan erikoiskurssi, koneoppiminen, data-analyysi, kolme käsitettä -kurssit sekä algoritmien suunnittelu ja analyysi.
Seminaariin valitaan maks. 12 osallistujaa opintojen edistymisen ja suoritettujen kurssien sopivuuden perusteella.
Osallistujat:
- Heinonen Mikko
- Hiltunen Suvi
- Kosunen Ilkka
- Luosto Panu
- Merivuori Toni
- Niissalo Aija
- Palomäki Kari
- Tanner Tuomas
- Välimäki Niko
- Yläkäs Sami
Yhteenveto palautteesta
Viimeisen kokoontumiskerran lopulla kerättiin (anonyymisti) kirjallista palautetta siitä, miten seminaarin ensimmäisessä kokoontumisessa asetetut tavoitteet saavutettiin, ja mistä työskentelymuodoista oli hyötyä. Lisäksi palautetta toimitettiin sähköpostitse. Tässä yhteenveto palautteesta.
- Kirjoittajana kehittyminen: tässä useimmat teistä olivat kokeneet kehittyneensä (yllättävänkin paljon). Hyödylliseksi mainittiin kirjoittamisen lisäksi usein myös palautteen saaminen.
- Esiintyjänä kehittyminen: tästä palaute oli keskimäärin lievästi positiivista. Johdonmukaisesti hyödyllisenä pidettiin esitysten lomassa käytyä keskustelua, usein myös sitä että aikaa esityksiin oli reilusti.
- Aihepiirin sisällön oppiminen: palaute on vaihtelevaa. Esitysten tasoa pidettiin vaihtelevana, parhaat olivat innostavia ja houkuttelivat oppimaan lisää. Muutamat pitivät seminaarin monipuolisuudesta ja sen antamasta yleiskuvasta. Huonoksi koettiin se, ett~ tehtäviin jäi vähän aikaa.
Muita palautteissa olleita kommentteja ja ideoita:
- keskusteluun kannustava, avoin ilmapiiri sai kiitosta
- suuri keskeyttämisprosentti laski motivaatiota ja sisällön määrää
- opiskelijoiden arviot toistensa töistä olisivat voineet olla tiukempiakin
- jos kukin tekisi vain yhden arvion, siihen voisi paneutua paremmin
- tapaamisten lopussa tuli usein valitettava kiire
- tehtävät voisi jakaa etukäteen tutustuttaviksi
Seminaarin vetäjä
Prof. Hannu Toivonen, Helsingin yliopisto
- Email: etunimi.sukunimi@cs.helsinki.fi
- WWW: http://www.cs.helsinki.fi/hannu.toivonen/
- Tavattavissa huoneessa D240b vastaanottoaikoina sekä sähköpostitse.