Yliopiston etusivulle Suomeksi På svenska In English
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Vuosikertomus 2006

Datasta tietoon – FDK

Datasta tietoon -huippuyksikkö eli FDK (From Data to Knowledge) kehittää tietojenkäsittelymenetelmiä, joilla voidaan muodostaa hyödyllistä tietoa suurista tietomassoista. Yksikkö toimii monitieteisesti ja sen tutkimusryhmissä yhdistyy algoritmien, tilastollisten menetelmien ja sovellusalojen kuten bioinformatiikan ja luonnollisen kielen käsittelyn asiantuntemus. Yksikkö valittiin Suomen Akatemian huippututkimusyksiköksi 1.1.2002 alkaneeksi kuusivuotiskaudeksi ja uusiutuneessa muodossa 1.1.2008 alkavaksi uudeksi kuusivuotiskaudeksi.

FDK-yksikkö on Helsingin yliopiston ja Teknillisen korkeakoulun yhteinen. Pääosa sen toiminnasta sijoittuu Helsingin yliopiston tietojenkäsittelytieteen laitokselle. Yksikön johtajana toimii professori Esko Ukkonen ja sen professorijäseniä ovat Helena Ahonen-Myka, Jaakko Hollmén (TKK), Heikki Mannila (HIITin perustutkimusyksikössä toimiva akatemiaprofessori) ja Hannu Toivonen. Yksikön piirissä oli vuonna 2006 noin kuusikymmentä tutkijaa ja jatko-opiskelijaa.

Yksikkö keskittyy data-analyysiin liittyvään algoritmitutkimukseen. Sen kansainvälistä kärkeä edustavia vahvuusalueita ovat kombinatorinen hahmontunnistus ja merkkijonoalgoritmit sekä koneoppiminen ja tiedon louhinta. FDK:n toiminta-ajatuksessa korostuu teorian kehittelyn ja tuoreiden käytännön sovellusten vuorovaikutus. Tavoitteena on löytää uusia laskentaongelmia, joiden käsitteellisen perustan rakentamisella ja ratkaisualgoritmeilla on laajempaa käyttöä.

Yksikön toiminta jakautuu useaan toisiinsa kytkeytyvään pääteemaan ja samat henkilöt toimivat useissa projekteissa.

Ensimmäinen pääteema on tiedon louhinta ja algoritminen koneoppiminen. Tämä on alkuperäismenetelmiä ja käsitteitä kehittävä yksikön ydinosaamiseen liittyvä hanke. Tavoitteena ovat teoreettiset perustutkimustulokset jotka ovat käyttökelpoisia erilaisissa sovelluksissa. Tekstitietokannat ja dokumenttikokoelmat sekä molekyylibiologiset sekvenssit ovat esimerkkejä reaalidatasta, jota käytämme. Tiedon suodatus Internetistä ja muu luonnollisen kielen tietotekniikka kuuluvat tämän hankkeen alaan samoin kuin koneoppimismenetelmien käyttö kuvien analyysissä.

Toinen pääteema keskittyy ensimmäisen teeman sovelluksiin bioinformatiikassa. Aiheena ovat lääketieteellisen genetiikan sekä genomiikka-, proteomiikka- ja aineenvaihduntadatan analysoinnin menetelmät. Yhteistyökumppaneihin kuuluu mm. Euroopan Bioinformatiikkainstituutti ja lukuisia kotimaisia huippututkimusryhmiä. Projektissa kehitetään laskentamenetelmiä erilaisten geenisäätely- ja aineenvaihduntaverkkojen muodostamiseen mittausdatan perusteella. Uusimmat tutkimusaiheet liittyvät esimerkiksi haplotyyppeihin, genomien kokonaisarkkitehtuurin selvittämiseen, geeniekspressiodatan hallintaan ja metaboliamallien rakentamiseen. Toteutettiin uusi metabolisten virtojen laskentamenetelmä. Syöpätutkijoiden kanssa jatkettiin geenisäätelyn ja mutaatioiden yhteisvaikutuksen analysointia.

Kombinatorinen hahmontunnistus ja tiedonhaku merkkijonoista kuuluu yksikön ydinalueeseen. Likimääräinen hahmonsovitus, tehokkaat indeksit sekä toistuvien hahmojen oppiminen datan perusteella ovat tämän teeman keskeisiä algoritmiteoreettisia kysymyksiä. Merkkijonoalgoritmien toteutus ohjelmakirjastoksi jatkuu, samoin musiikkitiedonhakua koskeva soveltava tutkimus. Pisteytysmatriiseina annetuille merkkihahmoille kehitettiin useita tehokkaita hakualgoritmeja ja ratkaistiin merkkijonomotiivien synteesin laskennallinen vaativuus. XML-dokumenteille kehitettiin hakumenetelmiä.

Perustutkimuksen ja jatkokoulutuksen ohella FDK-yksikön tavoitteena on toimia "algoritmiateljeena", joka kehittää laskentaratkaisuja uusiin ongelmiin eri sovellusaloilla. Yksikkö etsii jatkuvasti uusia yhteistyökumppaneita, joilla on tarjota oman alansa eturintamassa olevia laskentaongelmia.

Vuoden 2006 aikana yksikössä valmistui 4 tohtorinväitöskirjaa.

Yhteyshenkilö : professori Esko Ukkonen

Kotisivu : http://www.cs.helsinki.fi/research/fdk/

Projektit

Tiedon louhinta ja algoritminen koneoppiminen:

Information extraction
Paleoecological data analysis
APRIL II (EU)
PASCAL (EU NoE)

Laskennallinen biologia ja bioinformatiikka:

Laskennallisia menetelmiä nisäkkäiden genomin rakenteen ja funktion analysointiin
Alttiusgeenien etsintä tapaus-verrokki-aineistoista
A global molecular approach in the study of microbial stress
Yeast systems biology - Integrated analysis of metabolism-related data
BIOSAPIENS (EU NoE)
REGULATORY GENOMICS (EU)

Kombinatorinen hahmontunnistus ja tiedonhaku:

C-BRAHMS - music information retrieval
GLAS - Generic software library of algorithms on strings

Laskennallinen rakennebiologia:
Biologisten makromolekyylikompleksien rakenne, kokoaminen ja dynamiikka

Julkaisuja

Gionis, A. & Mannila, H. & Mielikäinen, T. & Tsaparas, P.: Assessing data mining results via swap randomization. International Conference on Knowledge Discovery and Data Mining: KDD-2006. - New York , NY : ACM Press 2006. p. 167-176.

Hallikas, O. & Palin, K. & Sinjushina, N. & Rautiainen, R. & Partanen, J. & Ukkonen, E. & Taipale, J.: Genome-wide prediction of mammalian enhancers based on analysis of transcription-factor binding affinity. Cell. - Cambridge , MA : Cell Press. 124 (2006) : 1, p. 47-59.

Koivisto, M.: An O*(2n) algorithm for graph coloring and other partitioning problems via inclusion-exclusion. Symposium on Foundations of Computer Science: 47th Annual IEEE Symposium on Foundations of Computer Science. – Los Alamitos , CA : IEEE Computer Society cop. 2006. p. 583-590.

Rousu, J. & Saunders, C. Szedmak, S. & Shawe-Taylor, J.: Kernel-based learning of hierarchical multilabel classification models. Journal of machine learning research. - Cambridge (MA) : MIT Press. 7 (2006), p. 1601-1626.

Sevon, P. & Toivonen, H. & Ollikainen, V.: TreeDT : tree pattern mining for gene mapping. IEEE/ACM transactions on computational biology and bioinformatics. - New York (NY) : IEEE. 3 (2006) : 2, p. 174-185.