Datasta tietoon – FDK
Datasta tietoon -huippuyksikkö eli FDK (From Data to Knowledge) kehittää tietojenkäsittelymenetelmiä, joilla voidaan muodostaa hyödyllistä tietoa suurista tietomassoista. Yksikkö toimii monitieteisesti ja sen tutkimusryhmissä yhdistyy algoritmien, tilastollisten menetelmien ja sovellusalojen kuten bioinformatiikan ja luonnollisen kielen käsittelyn asiantuntemus. Yksikkö nimettiin Suomen Akatemian huippututkimusyksiköksi 1.1.2002 alkaneeksi kuusivuotiskaudeksi.
FDK-yksikkö on Helsingin yliopiston ja Teknillisen korkeakoulun yhteinen. Pääosa sen toiminnasta sijoittuu Helsingin yliopiston tietojenkäsittelytieteen laitokselle. Yksikön johtajana toimii professori Esko Ukkonen ja sen professorijäseniä ovat Helena Ahonen-Myka, Jaakko Hollmén (TKK), Heikki Mannila (HIITin perustutkimusyksikössä toimiva akatemiaprofessori) ja Hannu Toivonen. Yksikön piirissä oli vuonna 2005 noin kuusikymmentä tutkijaa ja jatko-opiskelijaa.
Yksikkö keskittyy data-analyysiin liittyvään algoritmitutkimukseen. Sen kansainvälistä kärkeä edustava vahvuusalue on yhtäältä kombinatorinen hahmontunnistus ja merkkijonoalgoritmit sekä toisaalta koneoppiminen ja tiedon louhinta. FDK:n toiminta-ajatuksessa korostuu teorian kehittelyn ja tuoreiden käytännön sovellusten vuorovaikutus. Tavoitteena on löytää laskentaongelmia, joiden käsitteellisen perustan rakentamisella ja ratkaisualgoritmeilla on käsillä olevaa tapausta laajempaa käyttöä. Yksikkö kehittää alkuperäisalgoritmeja ja niiden prototyyppitoteutuksia sekä selvittää niiden käyttöalaa ja suorituskykyä.
Yksikön toiminta jakautuu useaan toisiinsa kytkeytyvään pääteemaan. Samat henkilöt toimivat useissa projekteissa. Tavoitteena on edistää yksikön sisäistä tiedonkulkua ja tutkijoiden asiantuntemuksen hyödyntämistä eri sovelluksissa.
Ensimmäinen pääteema on tiedon louhinta ja algoritminen koneoppiminen. Tämä on alkuperäismenetelmiä ja käsitteitä kehittävä yksikön ydinosaamista ylläpitävä hanke. Tavoitteena ovat teoreettiset perustutkimustulokset. Tuloksille haetaan relevanssia erilaisista sovelluksista. Tekstitietokannat ja dokumenttikokoelmat sekä puhelinverkkojen tapahtumajonot ovat esimerkkejä reaalidatasta, jota käytämme. Tiedon suodatus Internetistä ja muu luonnollisen kielen tietotekniikka kuuluvat tämän hankkeen alaan samoin kuin koneoppimismenetelmien käyttö kuvien analyysissä. Kysymysvastausjärjestelmiin liittyvän tutkimuksen painopiste on ollut kysymysten analyysimenetelmissä. Menetelmien kieliriippumattomuutta on testattu kehittämällä kysymysvastausjärjestelmiä kolmelle kielelle (suomi, ranska, englanti).
Toinen pääteema keskittyy ensimmäisen teeman sovelluksiin bioinformatiikassa. Aiheena ovat lääketieteellisen genetiikan sekä genomiikka-, proteomiikka- ja aineenvaihduntadatan analysoinnin menetelmät. Yhteistyökumppaneihin kuuluu mm. Euroopan Bioinformatiikkainstituutti ja lukuisia kotimaisia huippututkimusryhmiä. Projektissa kehitetään laskentamenetelmiä erilaisten geenisäätely- ja aineenvaihduntaverkkojen muodostamiseen mittausdatan perusteella. Uusimmat tutkimusaiheet liittyvät esimerkiksi haplotyyppeihin, genomien kokonaisarkkitehtuurin selvittämiseen ja systeemibiologiaan. Haplotyyppien päättelystä ja käytöstä geenikartoituksessa saatiin useita vahvoja tuloksia. Yhteistyössä syöpätutkijoiden kanssa saavutettiin merkittävä avaus geenisäätelyhahmojen paikantamisessa DNA:sta.
Kombinatorinen hahmontunnistus ja tiedonhaku merkkijonoista kuuluu yksikön ydinalueeseen. Likimääräinen hahmonsovitus, tehokkaat indeksit sekä toistuvien hahmojen oppiminen datan perusteella ovat tämän teeman keskeisiä algoritmiteoreettisia kysymyksiä. Merkkijonoalgoritmien toteutus ohjelmakirjastoksi jatkuu, samoin musiikkitiedonhakua koskeva soveltava tutkimus. XML-tiedonhakuun liittyen on tutkittu, miten XML-dokumentit voidaan parhaiten jakaa sopiviin indeksointiyksiköihin.
Perustutkimuksen ja jatkokoulutuksen ohella FDK-yksikön tavoitteena on toimia "algoritmiateljeena", joka kehittää laskentaratkaisuja uusiin ongelmiin eri sovellusaloilla. Yksikkö etsii jatkuvasti uusia yhteistyökumppaneita, joilla on tarjota oman alansa eturintamassa olevia laskentaongelmia.
Vuoden 2005 aikana yksikössä valmistui 2 tohtorinväitöskirjaa ja yksikön tutkijat olivat osallisena yhdessä uudessa patentissa.
Yhteyshenkilö : professori Esko Ukkonen
Kotisivu: http://www.cs.helsinki.fi/research/fdk/
Julkaisuja
Ahonen-Myka, H.
Mining all maximal frequent word sequences in a set of sentences.
Proceedings of the 14th ACM International Conference on Information and Knowledge Management, CIKM 2005, October 31- November 5, 2005, Bremen , Germany s. 255-256.
Hintsanen, P. & Sevon, P. & Onkamo, P. & Eronen, L. & Toivonen, H.
An empirical comparison of case-control and trio-based study designs in high-throughput association mapping. Journal of Medical Genetics, Published Online First: 28 October 2005. doi:10.1136/jmg.2005.036020
Kivioja, T. & Arvas, M. & Saloheimo, M. & Penttilä, M. & Ukkonen, E.
Optimization of cDNA-AFLP experiments using genomic sequence data. Bioinformatics 21(11): 2573-2579 (2005)
Mäkinen, V. & Navarro, G. & Ukkonen, E.
Transposition invariant string matching. Journal of algorithms 56, s. 124-153
Yangarber R. & Jokipii L.
Redundancy-based Correction of Automatically Extracted Facts. In Proceedings of the Human Language Technology Conference/ Conference on Empirical Methods in Natural Language Processing: HLT/EMNLP-2005, (2005) Vancouver , Canada
Projektit
Tiedon louhinta ja algoritminen koneoppiminen:
- Information extraction
- Paleoecological data analysis
- APRIL II
- PASCAL
Laskennallinen biologia ja bioinformatiikka:
- Laskennallisia menetelmiä nisäkkäiden genomin rakenteen ja funktion analysointiin
- Fysiologian säätelyn systeemibiologinen analyysi
- Alttiusgeenien etsintä tapaus-verrokki-aineistoista
- A global molecular approach in the study of microbial stress
- Yeast systems biology - Integrated analysis of metabolism-related data
- BIOSAPIENS (EU NoE)
- REGULATORY GENOMICS (EU)
Kombinatorinen hahmontunnistus ja tiedonhaku:
- C-BRAHMS - music information retrieval
- GLAS - Generic software library of algorithms on strings
- Mobile and multilingual maintenance man
Laskennallinen rakennebiologia:
- Biologisten makromolekyylikompleksien rakenne, kokoaminen ja dynamiikka