Yliopiston etusivulle Suomeksi In English
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Vuosikertomus 2007

Datasta tietoon - FDK

Datasta tietoon -huippuyksikkö eli FDK (From Data to Knowledge) kehittää tietojenkäsittelymenetelmiä, joilla voidaan muodostaa hyödyllistä tietoa suurista tietomassoista. Yksikkö toimii monitieteisesti ja sen tutkimusryhmissä yhdistyy algoritmien, tilastollisten menetelmien ja sovellusalojen kuten bioinformatiikan ja luonnollisen kielen käsittelyn asiantuntemus. Yksikkö valittiin Suomen Akatemian huippututkimusyksiköksi kuusivuotiskaudeksi 2002 - 2007 ja uusiutuneessa muodossa (Algoritmisen data-analyysin huippuyksikkö) kaudeksi 2008 - 2013.

FDK-yksikkö on Helsingin yliopiston ja Teknillisen korkeakoulun yhteinen. Pääosa sen toiminnasta sijoittuu Helsingin yliopiston tietojenkäsittelytieteen laitokselle ja tietotekniikan tutkimuslaitos HIITiin. Yksikön johtajana toimii professori Esko Ukkonen ja sen professorijäseniä ovat Helena Ahonen-Myka, Jaakko Hollmén (TKK), Heikki Mannila (HIITin perustutkimusyksikössä toimiva akatemiaprofessori) ja Hannu Toivonen. Yksikön piirissä oli vuonna 2007 noin kuusikymmentä tutkijaa ja jatko-opiskelijaa.

Yksikkö tutkii data-analyysin algoritmisia ongelmia. Sen kansainvälistä kärkeä edustavia vahvuusalueita ovat kombinatorinen hahmontunnistus ja merkkijonoalgoritmit sekä koneoppiminen ja tiedon louhinta. FDK:n toiminta-ajatuksessa korostuu teorian kehittelyn ja tuoreiden käytännön sovellusten vuorovaikutus. Tavoitteena on löytää uusia laskentaongelmia, joiden käsitteellisen perustan rakentamisella ja ratkaisualgoritmeilla on laajempaa käyttöä.

Yksikön toiminta jakautuu useaan toisiinsa kytkeytyvään pääteemaan ja samat henkilöt toimivat useissa projekteissa. Ensimmäinen pääteema on tiedon louhinta ja algoritminen koneoppiminen. Tavoitteena on kehittää käsitteitä ja alkuperäismenetelmiä yksikön ydinosaamisalueella. Tavoitteena ovat teoreettiset perustutkimustulokset, jotka ovat käyttökelpoisia erilaisissa sovelluksissa. Tekstitietokannat ja dokumenttikokoelmat sekä molekyylibiologiset sekvenssit ovat esimerkkejä reaalidatasta, jota käytämme. Tiedon suodatus Internetistä ja muu luonnollisen kielen tietotekniikka kuuluvat tämän hankkeen alaan samoin kuin koneoppimismenetelmien käyttö kuvien analyysissä.

Toinen pääteema keskittyy ensimmäisen teeman sovelluksiin bioinformatiikassa. Kohteena ovat lääketieteellisen genetiikan sekä genomiikka-, proteomiikka- ja aineenvaihduntadatan analysoinnin menetelmät. Yhteistyökumppaneihin kuuluu mm. Euroopan Bioinformatiikkainstituutti ja lukuisia kotimaisia huippututkimusryhmiä. Projektissa kehitetään laskentamenetelmiä erilaisten geenisäätely- ja aineenvaihduntaverkkojen muodostamiseen mittausdatan perusteella. Uusimmat tutkimusaiheet liittyvät esimerkiksi haplotyyppeihin, geeniekspressiodatan hallintaan ja metaboliamallien rakentamiseen sekä paleoekologiaan. Syöpätutkijoiden kanssa jatkettiin geenisäätelyn ja mutaatioiden yhteisvaikutuksen analysointia. Yhdysvaltalainen NIH aloitti yksikön erään hankkeen rahoittamisen.

Kombinatorinen hahmontunnistus ja tiedonhaku merkkijonoista kuuluu yksikön ydinalueeseen. Likimääräinen hahmonsovitus, tehokkaat indeksit sekä toistuvien hahmojen oppiminen datan perusteella ovat tämän teeman keskeisiä algoritmiteoreettisia kysymyksiä. Toistuvien hahmojen synteesistä saatiin useita teoreettisia perustuloksia ja tehokkaiden merkkijonodatan indeksointirakenteiden kehittäminen jatkui.

Perustutkimuksen ja jatkokoulutuksen ohella FDK-yksikön tavoitteena on toimia "algoritmiateljeena", joka kehittää laskentaratkaisuja uusiin ongelmiin eri sovellusaloilla. Yksikkö etsii jatkuvasti uusia yhteistyökumppaneita, joilla on tarjota oman alansa eturintamassa olevia laskentaongelmia.

Vuoden 2007 aikana yksikössä valmistui 4 tohtorinväitöskirjaa.

Yhteyshenkilö : professori Esko Ukkonen, akatemiaprofessori Heikki Mannila
Kotisivu : http://www.cs.helsinki.fi/research/fdk/