Suomeksi På svenska In English
Helsingin yliopisto Institutionen för datavetenskap
 

Årsberättelse 2006

Flerspråkig statistisk analys för informationssökning och maskinöversättning - Statistical Multilingual Analysis for Retrieval and Translation (SMART)

Tidsperiod: 10/2006-9/2009
Forskare: Juho Rousu, Wray Buntine, Matti Kääriäinen, Huizhen Yu, Kimmo Valtonen, Ville Tuulos, Antti Tuominen, Matti Vuorinen
Finansiering: EU

Projektet har som målsättning att utveckla nya statistiska metoder och maskininlärningsmetoder för flerspråkig informationssökning och maskinöversättning. Inom maskinöversättning ligger tyngdpunkterna på att automatiskt uppdatera översättningsmodeller på basen av användarfeedback och att förbättra språket i grovöversättningar. Inom flerspråkig informationssökning är utvinningen av latenta egenskaper som är oberoende av språk särskilt intressant. Akademiska partners i projektet är universiteten i Southampton och Bristol, University College London, Università degli Studi di Milan, Josef Stefan Institute samt National Research Council Canada.

Probabilistiska metoder för analys av mikrochipdata – Probabilistic Methods for Microarray Data (PMMA)

Tidsperiod: 1/2004-12/2007
Forskare: Petri Myllymäki, Jorma Rissanen, Teemu Roos, Hannes Wettig, Jussi Lahtinen, Tomi Silander
Finansiering: Tekes

Målsättningen för forskningen är att utveckla nya probabilistiska metoder för analys av mikrochipdata. Forskningen inriktar sig särskilt på följande delområden: avlägsning av störningar i mikrochipbilder, utveckling av kompressionsestimationsmetoder (comprestimation), gruppering och klassificering av gener, att bygga genregleringsnätverk och utvärdering av resultaten. Forskningskonsortiet består av tre grupper: laboratoriet för beräkningsteknik vid Tekniska högskolan (ansvarig direktör TkD Jukka Heikkonen), biomedicinska institutet vid Helsingfors universitet (ansvarig direktör professor Tomi Mäkelä) och institutionen för datavetenskap vid Helsingfors universitet (ansvarig direktör professor Petri Myllymäki).

år 2006 utvecklade projektet bl.a. en algoritm som upptäcker det optimala Bayes-nätverket och som är lämplig för fall där man behandlar högst 30 variabler. Den empiriska testningen av algoritmen har inte slutförts ännu. Dessutom har projektet studerat metoder för att distribuera inlärningsalgoritmerna för Bayes-nätverk.

MDL-baserade metoder för avlägsning av störningar i bildsignaler - MDL-Based Methods for Image Denoising (KUKOT)

Period: 1/2006-12/2007
Forskare: Petri Myllymäki, Jorma Rissanen, Teemu Roos, Hannes Wettig, Petri Kontkanen, Tommi Mononen

Man kan tänka sig att de digitala bitströmmarna som behandlas inom informations- och kommunikationssektorn består av två överlappande delar, av vilka den ena består av nyttig information och den andra av odugliga störningar. Det finns störningar i alla digitala media; den skapas av brister i den ursprungliga informationskällan (t.ex. dålig bildupplösning) och fel vid överföringen av signalen (t.ex. störningar i trådlös kommunikation eller fel på hårdskivor). Man kan försöka filtrera störningarna om man känner till hur de har uppstått, men det är mycket svårt att konstruera allmänt användbara metoder för avlägsning av störningar eftersom de måste kunna bygga adaptiva modeller av arbiträra störningskällor. Det huvudsakliga problemet med sådan adaptiv modellering är regulariseringen av modellerna: alltför komplexa (överanpassade) modeller tolkar störningen som en del av informationen och är därmed värdelösa.

MDL (Minimum Description Length) är ett informationsteoretiskt ramverk som har utvecklats av den aritmetiska kodningens fader, Jorma Rissanen, och som ger en elegant lösning till det här problemet. Tyvärr är metoderna som avletts från MDL-teorin ofta mycket krävande ur ett beräkningsmässigt perspektiv. Projektet har samarbetat med Jorma Rissanen för att utveckla nya, beräkningsmässigt effektiva metoder för att avlägsna störningar ur bildsignaler på basen av de senaste resultaten inom MDL-teorin. Resultaten kan tillämpas antingen för effektivare komprimering av bildsignaler, vilket leder till effektivare överföring av bildsignaler, eller för att förbättra kvaliteten på de mottagna signalerna utan att man behöver öka nämnvärt på den digitala informationen som avsänds. Metoderna som utvecklas inom projektet kommer att testas på material som överlåts av samarbetsparterna samt offentliga data. Forskningskonsortiet består av två grupper: institutionen för datavetenskap vid Helsingfors universitet (ansvarig direktör professor Petri Myllymäki) och laboratoriet för beräkningsteknik vid Tekniska högskolan (ansvarig direktör TkD Jukka Heikkonen). Tilläggsinformation: http://ww.mdl-research.org

Search-Ina-Box (SIB)

Period: 3/2003-6/2007
Forskare: Petri Myllymäki, Wray Buntine, Jussi Lahtinen, Jaakko Löfström, Jukka Perkiö, Vladimir Poroshin, Antti Tuominen, Ville Tuulos, Kimmo Valtonen
Finansiering: Tekes, Patent- och registerstyrelsen, Nokia, Wisane, M-Brain

SIB-projektet producerar metoder för semantisk informationssökning och personifiering som baserar sig på automatisk analys av den nya generationen av information som är skalbar till tera- och petabitgrupper. Metoderna samarbetar i en helhet där de stöder varandra. Dessa metoder has integrerats till en serie prototyper som testas i olika pilotmiljöer. Miljöerna har valts ut från informationshanteringssystem vid företag, ämnesbaserade sökmaskiner, förädling av nyhetsinformation samt offentliga intelligenta söktjänster. Eftersom informationssökning i framtiden kommer att vara en av bastjänsterna i informationsnätverk är potentialen för tillämpningar av SIB-tekniken mycket stor.

Metoderna som har utvecklats inom SIB-projektet fungerar som grundteknik i framtida nätverksbaserade informationshanteringssystem, både i företagens interna datanät och i system som erbjuder information på Internet (bl.a. sökmaskiner). Forskningskonsortiet har tre parter: institutionen för datavetenskap vid Helsingfors universitet/Forskningsinstitutet för informationsteknik HIIT (professor Petri Myllymäki), institutionen för datavetenskap vid Tammerfors universitet (professor Kari-Jouko Räihä), och institutionen för hälsoförvaltning och –ekonomi vid Kuopio universitet (professor Olli-Pekka Ryynänen). Tilläggsinformation: http://cosco.hiit.fi/search/

Skalbara probabilistiska metoder för nästa generations sökmaskin - Scalable Probabilistic Methods for the Next Generation Search Engine (PROSE)

Period: 1/2003-12/2006
Forskare: Petri Myllymäki, Wray Buntine, Jussi Lahtinen, Jaakko Löfström, Jukka Perkiö, Vladimir Poroshin, Antti Tuominen, Ville Tuulos, Kimmo Valtonen
Finansiering: Finlands Akademi

Projektet har som målsättning att studera moderna statistiska beräkningsmetoder och skalbara effektiva tillämpningar av dem för utvecklingen av nästa generation av söktjänster för Internet. Forskningen koncentrerar sig på att utveckla lämpliga tekniker för statistisk modellering, bl.a. multinom huvudkomponentanalys (mPCA).

Förutom de teoretiska och analytiska betraktelserna och utvecklingen har projektet särskilt studerat hur metoderna lämpar sig för riktigt stora dokumentsamlingar (i giga- och terabitgruppklassen). Sådana metoder behövs för att förverkliga de mera avancerade egenskaperna i söktjänsterna, som multiklassificering, automatisk gruppering enligt ämneshierarkier ur dokumentmassor, samt intelligent uppdelning av frågeställningar till sökmaskinsnoder som specialiserar sig på olika ämnesområden. Förutom den metodiska grundforskningen har projektet utvecklat programvarubibliotek som baserar sig på biblioteken för vetenskaplig beräkning med öppen källkod. Programvarubiblioteken som har utvecklats kan utnyttjas till att effektivt förverkliga olika funktioner i konceptkartan i kärnan av sökmaskinsnoden. Tilläggsinformation: http://cosco.hiit.fi/search/

Kognitivt motiverade visuella användargränssnitt för presentering av mångdimensionell information - Cognitively Inspired Visual Interfaces for Representing Multidimensional Information (CIVI)

Tidsperiod: 1/2005-12/2008
Forskare: Petri Myllymäki, Jussi Lahtinen, Petri Kontkanen, Pekka Uronen
Finansiering: Finlands Akademi

Inom CIVI-projektet studerar man hur man kan visualisera sådan komplex information som nuförtiden är tillgänglig för alla via t.ex. olika sökmaskiner. Problemet studeras dels som en matematisk dimensionsreduktionsuppgift, dels som en utmaning inom varseblivningspsykologin. Denna tvärvetenskapliga forskning utförs i ett konsortium mellan två universitet: Cosco-gruppen från Helsingfors universitet, ledd av professor Petri Myllymäki, och docent Ilpo Kojos forskningsgrupp vid CKIR-enheten vid Helsingfors handelshögskola.

Avancerad dataanalys inom seendeforskning – Advanced data analysis in vision research

Tidsperiod: 01/2004-12/2006
Forskare: Aapo Hyvärinen, Ilmari Kurki
Finansiering: Finlands Akademi

Vi utvecklar nya metoder för att analysera mätningsdata över prestationsförmågan hos människans synsystem. Vår metod baserar sig på ett nytt experimentellt paradigm, såkallade kategoriseringsbilder. Detta är ett samarbetsprojekt med institutionen för psykologi vid Helsingfors universitet.

Statistisk modellering av bild- och videodata – Statistical modelling of image and video data

Tidsperiod: 04/2003- 12/2009
Forskare: Aapo Hyvärinen, Jarmo Hurri, Mika Inki, Urs Köster, Jussi Lindgren
Finansiering: HIIT/BRU, Finlands Akademi, HeCSE, en utländsk fond

Vi utvecklar nya statistiska modeller av bild- och videodata. Modellerna kan utnyttjas såväl för forskning om människans synsystem samt datorseende och bildhantering. År 2006 utvecklade vi först och främst modeller av statistisk inlärning av kvadratiska drag. I början av år 2006 startade också konsortiet XtraVision, som finansieras av neurovetenskapliga forskningsprogrammet vid Finlands Akademi, och där vår grupp samarbetar med forskare inom experimentell neurovetenskap. Konsortiet leds av Aapo Hyvärinen.

Icke-gaussiska bayesiska nätverk för kausal modellering - Non-Gaussian Bayesian networks for causal discovery

Tidsperiod: 01/2005-12/2007
Forskare: Patrik Hoyer, Aapo Hyvärinen, Antti Kerminen, Markus Palviainen, Shohei Shimizu
Finansiering: HIIT/BRU, Finlands Akademi, en utländsk stiftelse

Syftet med statistisk dataanalys är ofta att finna kausala förhållanden mellan noterade varianter. Däremot kan man oftast inte analysera förhållandena mellan orsak och verkan med vanliga statistiska metoder. På senare tid har man dock utvecklat olika metoder som antas kunna finna kausala förhållanden bättre än förr. De baserar sig på analys av verkningarna från hypotetiska interventioner. Inom detta projekt försöker vi utveckla nya metoder för kausal analys genom att kombinera två metodgrupper: bayesiska nätverk och analys av oberoende komponenter.