Yliopiston etusivulle Suomeksi På svenska In English
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Vuosikertomus 2006

Tutkimusprojektit

Älykkäät järjestelmät

Monikielinen tilastollinen analyysi tiedonhaussa ja konekääntämisessä - Statistical Multilingual Analysis for Retrieval and Translation (SMART)

Ajankohta: 10/2006-9/2009
Tutkijat: Juho Rousu, Wray Buntine, Matti Kääriäinen, Huizhen Yu, Kimmo Valtonen, Ville Tuulos, Antti Tuominen, Matti Vuorinen
Rahoitus: EU

Projektin tavoitteena on kehittää uusia tilastollisia ja koneoppimismenetelmiä monikieliseen tiedonhakuun ja konekääntämiseen. Konekääntämisessä painopistealueita ovat käännösmallin automaattinen päivittäminen käyttäjäpalautteen perusteella sekä raakakäännösten kielellisen sujuvuuden parantaminen. Monikielisessä tiedonhaussa erityisenä kiinnostuksen kohteena on latenttien, kieliriippumattomien piirteiden poiminta. Projektin akateemiset partnerit ovat Southamptonin ja Bristolin yliopistot, University College London, Università degli Studi di Milano, Josef Stefan Institute sekä National Research Council Canada.

Probabilistiset menetelmät mikrosirudata-analyysissä - Probabilistic Methods for Microarray Data (PMMA)

Ajankohta: 1/2004-12/2007
Tutkijat: Petri Myllymäki, Jorma Rissanen, Teemu Roos, Hannes Wettig, Jussi Lahtinen, Tomi Silander
Rahoitus: Tekes

Tutkimuksen tavoitteena on kehittää uusia probabilistisia menetelmiä mikrosirudata-analyysiin. Tutkimus keskittyy erityisesti seuraaviin osa-alueisiin: mikrosirukuvien kohinan poisto, kompressioestimaatiomenetelmien (comprestimation) kehittäminen, geenien ryhmittely ja luokittelu, geenisäätelyverkkojen rakentaminen ja tulosten hyvyyden arviointi. Tutkimuskonsortio kostuu kolmesta osaryhmästä: Teknillisen korkeakoulun laskennallisen tekniikan laboratorio (vastaava johtaja TkT Jukka Heikkonen), Helsingin yliopiston biolääketieteen instituutti (vastaava johtaja professori Tomi Mäkelä) ja Helsingin yliopiston tietojenkäsittelytieteen laitos (vastaava johtaja professori Petri Myllymäki).

Vuonna 2006 projektissa kehitettiin mm. optimaalisen Bayes-verkon löytävä algoritmi, joka soveltuu tapauksille joissa käsiteltäviä muuttujia on 30 tai vähemmän. Algoritmin empiirinen testaus on vielä kesken. Lisäksi projektissa on tutkittu menetelmiä Bayes-verkkojen oppimisalgoritmien hajauttamiseksi.

MDL-teoriaan perustuvat kuvasignaalien kohinanpoistomenetelmät - MDL-Based Methods for Image Denoising (KUKOT)

Ajankohta: 1/2006-12/2007
Tutkijat: Petri Myllymäki, Jorma Rissanen, Teemu Roos, Hannes Wettig, Petri Kontkanen, Tommi Mononen
Rahoitus: Tekes

Tieto- ja viestintäteknologiasektorilla prosessoitavien digitaalisten bittivirtojen voidaan ajatella koostuvan kahdesta yhteenlimittyneestä osasta, joista toinen on hyödyllistä informaatiota ja toinen hyödytöntä kohinaa. Kohinaa on kaikessa digitaalisessa mediassa: sitä syntyy alkuperäisen informaatiolähteen puutteista (esimerkiksi kuvien huono resoluutio) ja signaalin siirtämisessä tapahtuneista virheistä (esimerkiksi häiriöt langattomassa liikenteessä tai virheet kovalevyllä). Kohinaa voidaan yrittää suodattaa mikäli kohinalähteen ominaisuudet ovat tunnettuja (edes suurin piirtein), mutta yleiskäyttöisten kohinanpoistomenetelmien rakentaminen on hyvin hankalaa, koska niiden on pystyttävä rakentamaan adaptiivisia malleja mielivaltaisille kohinalähteille. Pääongelma tällaisessa adaptiivisessa mallintamisessa on mallien regularisointi: liian kompleksiset (ylisovitetut) mallit tulkitsevat kohinankin osaksi informaatiota, ja ovat siten hyödyttömiä.

MDL (Minimum Description Length) on aritmeettisen koodauksen isän Jorma Rissasen kehittämä informaatioteoreettinen kehikko, joka antaa elegantin ratkaisun tähän ongelmaan. Valitettavasti MDL-teoriasta johdetut menetelmät ovat usein laskennallisesti vaativia. Projektissa on kehitetty yhdessä Jorma Rissasen kanssa MDL-teorian tuoreimpiin tuloksiin perustuvia uusia, laskennallisesti tehokkaita yleiskäyttöisiä kohinanpoistomenetelmiä kuvasignaalien prosessointiin. Tuloksia voidaan soveltaa joko tehokkaampaan signaalien kompressointiin, mikä johtaa tehokkaampaan kuvasignaalien välittämiseen, tai vastaanotettavan kuvasignaalin laadun parantamiseen ilman että lähetettävää digitaalista informaatiota tarvitsee merkittävästi lisätä. Kehitettyjen menetelmien toimivuutta testataan erilaisilla yhteistyökumppanien luovuttamilla ja julkisilla aineistoilla. Tutkimuskonsortio kostuu kahdesta osaryhmästä: Helsingin yliopiston tietojenkäsittelytieteen laitos (vastaava johtaja professori Petri Myllymäki) ja Teknillisen korkeakoulun laskennallisen tekniikan laboratorio (vastaava johtaja TkT Jukka Heikkonen). Lisätietoja: http://ww.mdl-research.org

Search-Ina-Box (SIB)

Ajankohta: 3/2003-6/2007
Tutkijat: Petri Myllymäki, Wray Buntine, Jussi Lahtinen, Jaakko Löfström, Jukka Perkiö, Vladimir Poroshin, Antti Tuominen, Ville Tuulos, Kimmo Valtonen
Rahoitus: Tekes, Patentti- ja rekisterihallitus, Nokia, Wisane, M-Brain

SIB-projektissa tuotetaan uuden sukupolven tera- ja petatavuihin skaalautuvan tiedon automaattiseen analyysiin perustuvan semanttisen tiedonhaun ja personoinnin menetelmiä, jotka toimivat yhdessä toisiaan tukevana kokonaisuutena. Nämä menetelmät on integroitu sarjaksi toimivia prototyyppejä, joita testataan erilaisissa pilottiympäristöissä. Tällaisiksi pilottiympäristöiksi on valittu yritysten informaationhallintajärjestelmät, aihekohtaiset hakukoneet, uutistiedon jalostaminen sekä julkisyhteisölliset älykkäät hakupalvelut. Koska tiedonhaku on tulevaisuudessa keskeinen tietoverkkojen peruspalvelu, SIB-teknologian potentiaaliset sovellukset ovat laajat.

SIB-projektissa kehitetyt menetelmät toimivat perusteknologiana tulevissa verkkopohjaisissa informaationhallintajärjestelmissä, niin yritysten sisäisissä tietoverkoissa kuin avoimissa Internetin tietoa tarjoavissa järjestelmissäkin (mm. Internet-hakukoneet). Tutkimuskonsortion osapuolia on kolme: Helsingin yliopiston tietojenkäsittelytieteen laitos / Tietotekniikan tutkimuslaitos HIIT (professori Petri Myllymäki), Tampereen yliopiston tietojenkäsittelytieteiden laitos (professori Kari-Jouko Räihä, ja Kuopion yliopiston terveyshallinnon ja -talouden laitos (professori Olli-Pekka Ryynänen). Lisätietoja: http://cosco.hiit.fi/search/

Skaalautuvat, todennäköisyyteen perustuvat menetelmät seuraavan sukupolven Internet-hakupalveluissa - Scalable Probabilistic Methods for the Next Generation Search Engine (PROSE)

Ajankohta: 1/2003-12/2006
Tutkijat: Petri Myllymäki, Wray Buntine, Jussi Lahtinen, Jaakko Löfström, Jukka Perkiö, Vladimir Poroshin, Antti Tuominen, Ville Tuulos, Kimmo Valtonen
Rahoitus: Suomen Akatemia

Projektin tavoitteena on tutkia seuraavan sukupolven Internet-hakupalvelujen kehittämisessa tarvittavia moderneja laskennallisia tilastollisia menetelmiä ja niiden skaalautuvia tehokkaita toteutuksia. Tutkimus keskittyy kehittämään ongelmiin soveltuvia tilastomallintamisen tekniikoita, mm. multinomipääkomponenttianalyysia (mPCA).

Menetelmien teoreettisen ja analyyttisen tarkastelun ja kehittämisen lisäksi projektissa on tutkittu erityisesti menetelmien soveltuvuutta erittäin suurten (giga- ja teratavuluokan) dokumenttikokoelmille. Tällaisia menetelmiä tarvitaan toteuttamaan hakupalvelujen edistyneempiä piirteitä kuten moniluokkainen ryhmittely, aihepiirihierarkioiden automaattinen muodostaminen dokumenttimassasta sekä älykäs kyselyjen jakaminen eri aihepiireihin erikoistuneille hakukonesolmuille. Menetelmällisen perustutkimuksen lisäksi projektissa kehitettiin ohjelmakirjastoja jotka perustuvat avoimen lähdekoodin tieteellisen laskennan kirjastoihin. Kehitettyjä ohjelmakirjastoja voidaan käyttää hajautetun hakukoneen solmujen eri funktionaalisuuksien tehokkaassa toteuttamisessa. Lisätietoja: http://cosco.hiit.fi/search/

 

Kognitiivisesti motivoidut visuaaliset käyttöliittymät moniulotteisen informaation esittämisessä - Cognitively Inspired Visual Interfaces for Representing Multidimensional Information (CIVI)

Ajankohta: 1/2005-12/2008
Tutkijat: Petri Myllymäki, Jussi Lahtinen, Petri Kontkanen, Pekka Uronen
Rahoitus: Suomen Akatemia

CIVI-projektissa tutkitaan sitä, kuinka visualisoida sellaista monimutkaista informaatiota, joka nykyään on jokaisen saatavilla esimerkiksi erilaisten hakukoneitten kautta. Ongelmaa tarkastellaan toisaalta matemaattisena dimensionvähennystehtävänä, toisaalta havaintopsykologisena haasteena. Tätä poikkitieteellistä tutkimusta tehdään kahden korkeakoulun muodostamassa konsortiossa, johon kuuluvat professori Petri Myllymäen johtama Cosco-ryhmä Helsingin yliopistosta, ja dosentti Ilpo Kojon tutkimusryhmä Helsingin Kauppakorkeakoulun CKIR-yksiköstä. Edistynyt data-analyysi näkötutkimuksessa - Advanced data analysis in vision research
Ajankohta: 1/2004-12/2006
Tutkijat: Aapo Hyvärinen, Ilmari Kurki
Rahoitus: Suomen Akatemia

Kehitämme uusia tapoja analysoida ihmisen näköjärjestelmän suorituskyvystä mitattua dataa. Lähestymistapamme perustuu äskettäin kehitettyyn kokeelliseen paradigmaan, nk. luokittelukuviin. Kyseessä on yhteistyöprojekti Helsingin yliopiston psykologian laitoksen kanssa.

 

Kuva- ja videodatan tilastollinen mallintaminen - Statistical modelling of image and video data

Ajankohta: 4/2003- 12/2009
Tutkijat: Aapo Hyvärinen, Jarmo Hurri, Mika Inki, Urs Köster, Jussi Lindgren
Rahoitus: HIIT BRU, Suomen Akatemia, HeCSE, ulkomainen säätiö

Kehitämme uusia tilastollisia malleja kuva- ja videodatasta. Mallit ovat hyödyllisiä sekä ihmisen näköjärjestelmän tutkimuksen että tietokonenäön ja kuvankäsittelyn kannalta. Vuonna 2006 kehitimme malleja ennen kaikkea kvadraattisten piirteiden tilastollisesta oppimisesta. Vuoden 2006 alusta alkoi myös Suomen Akatemian neurotieteen tutkimusohjelman rahoittama konsortio XtraVision, jossa toimimme yhteistyössä kokeellisen neurotieteen tutkijoiden kanssa. Konsortion johtaja on Aapo Hyvärinen.

 

Ei-gaussisia bayes-verkkoja kausaaliseen mallintamiseen - Non-Gaussian Bayesian networks for causal discovery

Ajankohta: 1/2005-12/2007
Tutkijat: Patrik Hoyer, Aapo Hyvärinen, Antti Kerminen, Markus Palviainen, Shohei Shimizu
Rahoitus: HIIT/BRU, Suomen Akatemia, ulkomainen säätiö

Tilastollisen data-analyysin tavoitteena on usein löytää havaittujen muuttujien välisiä kausaalisia suhteita. Tavanomaiset tilastolliset menetelmät eivät kuitenkaan yleensä pysty analysoimaan syy-seuraus-suhteita. Viime aikoina on kuitenkin kehitetty erilaisia menetelmiä, joiden oletetaan pystyvän löytämään kausaalisuhteita entistä paremmin, perustuen analyysiin hypoteettisten interventioiden vaikutuksista. Tässä projektissa pyrimme kehittämään uusia kausaalianalyysin menetelmiä yhdistämällä kaksi menetelmäperhettä: Bayes-verkot ja riippumattomien komponenttien analyysin.