Tutkimusprojektit
Algoritmit ja koneoppiminen
Approksimointi- ja oppimisalgoritmit - Approximation and learning algorithms (ALEA)
Ajankohta: 1/2005-12/2008
Tutkijat: Krishnan Narayanan, Jyrki Kivinen
Rahoitus: Suomen Akatemia
Approksimointialgoritmit ovat menetelmiä, jotka etsivät laskennallisiin ongelmiin ei aivan parhaita mahdollisia ratkaisuja. Ajatuksena on säästää laskentaresursseja ongelmissa, joiden tarkka ratkaiseminen on laskennallisesti hankalaa. Koneoppimisen perusmenetelmä on muodostaa annetun esimerkkidatan perusteella hypoteesi, joka selittää esimerkit ja on mahdollisimman yksinkertainen. Tässä on usein luontevaa käyttää approksimointialgoritmeja, sillä yksinkertaisen hypoteesin löytäminen voi olla laskennallisesti hankalaa, ja usein ei halutakaan selittää kaikkia esimerkkejä tarkasti. Esimerkeissä voi olla virheitä, joita oppimisalgoritmin ei pidäkään jäljitellä. Hankkeessa tarkastellaan approksimointialgoritmeja erityisesti koneoppimisen tarpeita silmälläpitäen. Eräs osatavoite on muokata perinteisiä pahimman tapauksen tarkasteluun perustuvia approksimointialgoritmeja siihen suuntaan, että ne pystyvät paremmin hyötymään käytännössä usein esiintyvistä helpoista tapauksista. Toinen lähestymissuunta on sellaisten koneoppimisen mallien ja menetelmien kehittäminen, joissa vaikeaksi tunnettu approksimointiongelma väistetään joko muuntamalla hypoteesin esitysmuotoa tai formalisoimalla oppimisongelma kokonaan toisin.
Sisältöperusteinen musiikin haku ja analyysi - Content-Based Retrieval and Analysis of Harmony and other Music Structures (C-BRAHMS)
Ajankohta: 8/2005-7/2010
Tutkijat: Kjell Lemström, Väinö Ala-Härkönen, Johan Brunberg, Niko Mikkilä, Veli Mäkinen
Rahoitus: Suomen Akatemia
Projektin tehtävänä on suunnitella ja toteuttaa algoritmeja ja tietorakenteita symbolisesti koodatun musiikin analyysiin ja hakuun sisällön perusteella. C-BRAHMSin tutkimustuloksia käytetään GNU GPL -lisenssin ehtojen mukaisesti jaettavassa prototyyppijärjestelmässä. Järjestelmä ja lisätietoa projektista löytyy sivulta http://www.cs.helsinki.fi/group/cbrahms/ .
Monikielinen tilastollinen analyysi tiedonhaussa ja konekääntämisessä - Statistical Multilingual Analysis for Retrieval and Translation (SMART)
Ajankohta: 10/2006-9/2009
Tutkijat: Juho Rousu, Wray Buntine (NICTA), Matti Kääriäinen, Vladimir Poroshin, Kimmo Valtonen, Matti Vuorinen, Huizhen Yu
Rahoitus: EU
Projektin tavoitteena on kehittää uusia tilastollisia ja koneoppimismenetelmiä monikieliseen tiedonhakuun ja konekääntämiseen. Projektin akateemiset partnerit ovat Southamptonin ja Bristolin yliopistot, University College London, Università degli Studi di Milano, Josef Stefan Institute sekä National Research Council Canada.
Vuonna 2007 TKTL:n ryhmä kehitti uusia menetelmiä kohdekielisten lauseiden koostamiseksi fraasitietokannan perusteella (decoding), menetelmiä lauseiden sujuvuuden ja oikeakielisyyden ennustamiseksi (language modelling), uusia koneoppimismenetelmiä rakenteisiin ennustustehtäviin sekä menetelmiä monikielisen sanaston automaattiseen eristämiseen (multilingual lexicon extraction).