Tutkimusprojektit
Complex Systems Computation Group - CoSCo
Probabilistiset menetelmät mikrosirudata nalyysissä - Probabilistic Methods for Microarray Data (PMMA)
Ajankohta: 1/2004-4/2008
Tutkijat: Petri Myllymäki, Jorma Rissanen, Teemu Roos, Hannes Wettig, Jussi Lahtinen, Tomi Silander, Petri Kontkanen
Rahoitus: Tekes
Tutkimuksen tavoitteena on kehittää uusia probabilistisia menetelmiä mikrosirudata-analyysiin. Tutkimus keskittyy erityisesti seuraaviin osa-alueisiin: mikrosirukuvien kohinan poisto, geenien ryhmittely ja luokittelu, geenisäätelyä mallintavien verkkomallien rakentaminen ja tulosten hyvyyden arviointi.
Tutkimuskonsortio kostuu kolmesta osaryhmästä: 1) Laskennallisen tekniikan laboratorio, Teknillinen korkeakoulu (vast. johtaja TkT Jukka Heikkonen, koordinaattori), 2) Biolääketieteen instituutti, Helsingin yliopisto (vast.johtaja professori Tomi Mäkelä) ja 3) Tietojenkäsittelytieteen laitos, Helsingin yliopisto (vast.johtaja professori Petri Myllymäki).
Vuonna 2007 projektissa jatkettiin optimaalisen Bayes-verkon löytävien algoritmien tutkimusta, ja osoitettiin että toisin kuin on luultu, optimointiongelma on yllättävän sensitiivinen ns. equivalent sample size-parametrin arvon valinnan suhteen. Lisäksi projektissa tutkittiin histogrammitiheysfunktioiden käyttöä jatkuvien muuttujien käsittelemiseksi.
MDL-teoriaan perustuvat kuvasignaalien kohinanpoistomenetelmät / MDL-Based Methods for Image Denoising (KUKOT)
Ajankohta: 1/2006-7/2008
Tutkijat: Petri Myllymäki, Jorma Rissanen, Teemu Roos, Hannes Wettig, Petri Kontkanen, Tomi SIlander, Tommi Mononen
Rahoitus: Tekes
Tieto- ja viestintäteknologiasektorilla prosessoitavien digitaalisten bittivirtojen voidaan ajatella koostuvan kahdesta yhteenlimittyneestä osasta, joista toinen on hyödyllistä informaatiota ja toinen hyödytöntä kohinaa. Kohinaa on kaikessa digitaalisessa mediassa: sitä syntyy alkuperäisen informaatiolähteen puutteista (esimerkiksi kuvien huono resoluutio), ja signaalin siirtämisessä tapahtuneista virheistä (esimerkiksi häiriöt langattomassa liikenteessä tai virheet kovalevyllä). Kohinaa voidaan yrittää suodattaa mikäli kohinalähteen ominaisuudet ovat tunnettuja (edes suurin piirtein), mutta yleiskäyttöisten kohinanpoistomenetelmien rakentaminen on hyvin hankalaa, koska niiden on pystyttävä rakentamaan adaptiivisia malleja mielivaltaisille kohinalähteille. Pääongelma tällaisessa adaptiivisessa mallintamisessa on mallien regularisointi: liian kompleksiset (ylisovitetut) mallit tulkitsevat kohinankin osaksi informaatiota, ja ovat siten hyödyttömiä. MDL (Minimum Description Length) on aritmeettisen koodauksen isän Jorma Rissasen kehittämä informaatioteoreettinen kehikko, joka antaa elegantin ratkaisun tähän ongelmaan.
Valitettavasti MDL-teoriasta johdetut menetelmät ovat usein laskennallisesti vaativia. Vuonna 2007 projektissa keskityttiin tutkimaan kuinka kehitettyjä menetelmiä voidaan approksimoida ja toteuttaa mahdollisimman tehokkaasti niin että menetelmien käyttö on laskennallisesti käytännön sovellusten edellyttämällä tasolla, ja projektissa kehitettiin laskennallisesti tehokkaita menetelmiä tietyntyyppisten (puurakenteisten) diskreettien Bayes-verkkojen käsittelyyn. Lisäksi kehitettiin kaksi uudentyyppistä variaatiota NML-kriteeristä (sequential NML ja factorized NML), joiden ominaisuuksia parhaillaan analysoidaan.
Tutkimuskonsortio kostuu kahdesta osaryhmästä: 1) CoSCo-ryhmä / Tietojenkäsittelytieteen laitos, Helsingin yliopisto (vast.johtaja professori Petri Myllymäki, koordinaattori) ja 2) Laskennallisen tekniikan laboratorio, Teknillinen korkeakoulu (vast. johtaja TkT Jukka Heikkonen) . Lisätietoja: http://www.mdl-research.org
Search-Ina-Box (SIB)
Ajankohta: 03/2003-06/2007
Tutkijat: Petri Myllymäki, Wray Buntine, Jussi Lahtinen, Jaakko Löfström, Jukka Perkiö, Vladimir Poroshin, Antti Tuominen, Ville Tuulos, Kimmo Valtonen
Rahoitus: Tekes, Patentti- ja rekisterihallitus, Nokia, Wisane, M-Brain
SIB-projektissa kehitettiin uuden sukupolven laajoihin tietomassoihin skaalautuvia, tiedon automaattiseen analyysiin perustuvia semanttisen tiedonhaun ja personoinnin menetelmiä. Nämä menetelmät integroitiin sarjaksi toimivia prototyyppejä joita testattiin erilaisissa pilottiympäristöissä. Tällaisia pilotteja olivat mm. koko Suomen .FI-domainin kattava Aino-hakukone (aino.hiit.fi), patenttien hakukone (patent.hiit.fi), ja uusi hakukäyttöliittymä Wikipediaan. Mainitut kunnianhimoiset pilotit toimivat tutkimuksen selkärankana ja motivoivat ja suuntasivat projektin puitteissa tehtyä perustutkimusta. Tärkeimmät pilotit ovat julkisia, ja niiden luomisessa käytetyt ohjelmistot ovat avointa lähdekoodia.
Koska tiedonhaku tulee olemaan keskeinen tietoverkkojen peruspalvelu, SIB-teknologian potentiaaliset sovellukset ovat laajat. SIB-projektissa kehitetyt menetelmät voivat toimia perusteknologiana tulevissa verkkopohjaisissa informaationhallintajärjestelmissä niin yritysten sisäisissä tietoverkoissa kuin avoimissa Internetin tietoa tarjoavissa järjestelmissä (mm. Internet-hakukoneet).
Tutkimuskonsortion osapuolia oli kolme: Helsingin yliopiston tietojenkäsittelytieteen laitos / Tietotekniikan tutkimusinsituutti HIIT (professori Petri Myllymäki, koordinaattori), Tampereen yliopiston tietojenkäsittelytieteiden laitos (professori Kari-Jouko Räihä, ja Kuopion yliopiston Terveyshallinnon ja -talouden laitos (professori Olli-Pekka Ryynänen). Lisätietoja: http://cosco.hiit.fi/search/
Kognitiotasoinen annotointi latenttien tilastollisten mallien avulla / Cognitive-Level Annotation using Latent Statistical Structure (CLASS)
Ajankohta: 01.01.2006-31.12.2008
Tutkijat: Petri Myllymäki, Ville Tuulos, Antti Tuominen, Tomi Silander, Mika Urtela
Rahoitus: EU
Class-projektissa kehitetään alkeellisia kognitiivisen tason menetelmiä sisällön älykkääseen analyysiin: strukturoimattoman tietovirran automaattiseen muokkaukseen sisältökategorioiksi ja attribuuteiksi. Demonstraatiot keskittyvät hahmontunnistukseen ja tilanneanalyysiin tekstitetyissä kuvissa ja videoissa.
Teknisesti työ yhdistää piilomuuttujamalleja ja puoliohjatun oppimisen menetelmiä näkötutkimuksen kehittyneisiin visuaalisiin muuttujiin ja parhaisiin saatavilla oleviin tekstianalyysitekniikoihin. Tutkimus käsittelee kolmea eri abstraktiotasoa: uusia yksilöitä (ihmisiä, esineitä, tilanteita, toimintoja), uusia objektiluokkia ja attribuutteja, sekä hierarkkisia kategorioita ja entiteettien välisiä suhteita.
Class on monitieteinen projekti joka yhdistää kuuden johtavan eurooppalaisen tutkimusryhmän osaamista näkötutkimuksen, tekstin ymmärryksen ja summarisoinnin, sekä koneoppimisen alueelta.
Projektin kotisivu: http://class.inrialpes.fr/
SensorPlanet
Aika: 4/2007-6/2007
Rahoitus: Nokia
Tutkijat: Petri Myllymäki, Ville Tuulos, Tomi Silander, Jukka Perkiö
Nokian innovoima ja perustama SensorPlanet-hanke pyrkii luomaan avoimen, maailmanlaajuisen tutkimuskeskeisen alustan langattomien sensoriverkkojen tutkimukselle. Tämä hajautettu alusta tarjoaa maailman huippulaboratorioiden innovatiiviselle langattomien sensoriverkkojen tutkimukselle infrastruktuurin, jossa mobiililaitteet voidaan nähdään paitsi portteina sensoriverkkohin, myös itse sensorisolmuina. Lisätietoja hankkeesta löytyy sivulta http://www.sensorplanet.org/ .
Avoimen SensorPlanet-hankkeen lisäksi Nokialla oli Tekesin rahoittama tutkimushanke, jonka puitteissa se rahoitti paikallista SensorPlanet-hankkeeseen liittyvää taustatutkimusta Suomessa, ja Helsingin yliopiston Cosco-ryhmältä alihankintana tilattu SensorPlanet-projekti oli osa tätä Tekes-projektia.
EU Network of Excellence in Pattern Analysis, Statistical Modelling and Computational Learning (PASCAL)
Ajankohta: 12/2003-2/2008
Tutkijat: Petri Myllymäki [Site Manager], Wray Buntine, Patrik BJ Floréen, Aapo Hyvärinen, Matti Kääriäinen, Jyrki Kivinen, Tei Laine, Taneli Mielikäinen, Vladimir Poroshin, Jorma Rissanen, Juho Rousu, Esko Ukkonen, Huizhen Yu, Janne Kataja, Rahul Katragadda, Jukka Kohonen, Jussi T Lindgren, Teemu T Roos, Tomi Silander, Abhishek Tripathi, Kimmo Valtonen, Hannes Wettig, Juan Carlos Borrás García, Petri Kontkanen, Tommi Mononen, Petteri Nurmi, Esa Pitkänen, Jukka Suomela, Ville Tuulos
Rahoitus: EU
Pascal on EU:n rahoittama tutkimusverkosto (Network of Excellence), johon kuuluu 57 eurooppalaista tutkimuslaitosta. Helsingin yliopiston tietojenkäsittelytieteen laitos on yksi verkoston kolmestatoista ydinsolmusta (core sites) ja Helsingin yliopiston edustajalla on paikka verkoston johtoryhmässä. Verkoston perusajatuksena on koota yhteen tilastollisen mallinnuksen ja koneoppimisen huippuosaajat Euroopassa.
Vuonna 2007 Helsingin yliopiston solmu jatkoi aktiivista osallistumistaan verkon toimintaan mm. temaattisissa ohjelmissa, ns. haasteiden (challenge) järjestämisessä, ja informaatioteoreettisen mallintamisen SIG-ryhmässä. Petri Myllymäki toimi edelleen verkoston johtokunnassa.
Lisätietoja: http://www.pascal-network.org/
Kognitiivisesti motivoidut visuaaliset käyttöliittymät moniulotteisen informaation esittämisessä - Cognitively Inspired Visual Interfaces for Representing Multidimensional Information (CIVI)
Ajankohta: 01/2005-12/2008
Tutkijat: Petri Myllymäki, Jussi Lahtinen, Petri Kontkanen
Rahoitus: Suomen Akatemia
CIVI-projektissa tutkitaan sitä, kuinka visualisoida sellaista monimutkaista informaatiota joka nykyään on jokaisen saatavilla esimerkiksi erilaisten hakukoneitten kautta. Ongelmaa tarkastellaan toisaalta matemaattisena dimensionvähennystehtävänä, toisaalta havaintopsykologisena haasteena. Tätä poikkitieteellistä tutkimusta tehdään kahden korkeakoulun muodostamassa konsortiossa, johon kuuluvat professori Petri Myllymäen johtama Cosco-ryhmä Helsingin yliopistolta, ja dosentti Ilpo Kojon tutkimusryhmä Helsingin Kauppakorkeakoulun CKIR-yksiköstä.