Årsberättelse 2005

Informationshantering

Analys av oberoende komponenter och dess utvidgningar – Independent component analysis and its extensions

Tidsperiod: 4/2003-12/2005

Forskare: Aapo Hyvärinen, Patrik Hoyer, Shohei Shimizu, Antti Kerminen, Urs Köster, Jukka Perkiö

Finansiering: HIIT/BRU, Finlands Akademi, utländska stiftelser

Analysen av oberoende komponenter är en dataanalysmodell där mångdimensionell mätningsdata presenteras som en lineär kombination av gömda, statistiskt oberoende komponenter.

Vi utvecklar nya, mera effektiva varianter av metoden, t.ex. med hjälp av signalers tidsbeteende och beroendeförhållanden, samt studerar hur metodologin kan anpassas till kausalanalys. Vi studerar också vad metoden har för bindningar till andra modeller för mångdimensionell dataanalys, som t.ex. positiv matrisfaktorisering och modeller för strukturekvationer..

Avancerad dataanalys inom seendeforskning – Advanced data analysis in vision research

Tidsperiod: 1/2004 - 12/2006

Forskare: Ilmari Kurki, Aapo Hyvärinen

Finansiering: Finlands Akademi

Vi utvecklar nya metoder för att analysera mätningsdata över prestationsförmågan hos människans synsystem. Vår metod baserar sig på en ny experimentell paradigm, såkallade kategoriseringsbilder. Detta är ett samarbetsprojekt med institutionen för psykologi vid Helsingfors universitet.

Statistisk modellering av bild- och videodata – Statistical modelling of image and video data

Tidsperiod: 4/2003 - 12/2007

Forskare: Aapo Hyvärinen, Jarmo Hurri, Urs Köster, Jussi Lindgren

Finansiering: HIIT/BRU, Finlands Akademi, HeCSE, en utländsk fond

Vi utvecklar nya statistiska modeller av bild- och videodata. Modellerna kan utnyttjas såväl för forskning om människans synsystem samt datorseende och bildhantering. År 2005 utvecklade vi först och främst modeller av de statistiska egenskaperna hos ickelinjära särdrag.

Application of Probabilistic Inductive Logic Programming II (APrIL II) – Tillämpning av probabilistisk induktiv logikprogrammering II

Tidsperiod: 1/2004 – 12/2006

Forskare: Aristides Gionis, Heikki Mannila, Taneli Mielikäinen, Evimaria Terzi, Panayiotis Tsaparas

Finansiering: EU

Probabilistisk induktiv logikprogrammering förenar probabilistisk modellering och induktiv logikprogrammering till ett helhetsramverk för att utvinna probabilistiskt logiska modeller från strukturerade data.

Projektet APrIL II har som målsättning att studera den teoretiska grunden för probabilistisk induktiv logikprogrammering, utveckla effektiva beräkningsmetoder för att estimera strukturer och parametrar hos probabilistiska logiska modeller, samt tillämpa de nya metoderna på praktiska modelleringsproblem, särskilt inom bioinformatiken. I projektet deltar forskare från Albert-Ludwig-universitetet i Freiburg, Imperial College of Science, Technology and Medicine, INRIA Rocquencourt, Forskningsinstitutet för informationsteknologi HIIT samt universitetet i Florens. Forskningen i Helsingfors koncentrerar sig på algoritmikproblem inom probabilistisk induktiv logikprogrammering, särskilt segmenteringsproblem inom algoritmiken.

Kontextigenkänning genom dataanalys av användarsituationer – Context recognition by user situation data analysis (Context)

Tidsperiod: 1/2003-12/2005

Forskare: Mika Raento, Kari Laasonen, Renaud Petit, Hannu Toivonen

Finansiering: Finlands Akademi

Projektet undersöker karakterisering och analys av användarsituationer samt användningen av kontextinformation inom proaktiv databehandling. Projektet undersöker bl.a. hur användaren ser sin egen kontext, automatisk slutledning som rör kontextdata, samt hur kontextdata skall visas för användaren. Projektet förverkligas i samarbete med användarferfarenhetsgruppen i enheten för tillämpad forskning vid HIIT

Projektet producerade programvaran ContextPhone, som samlar, sparar och förmedlar kontextdata i vanliga S60-mobiltelefoner. Den kan också automatisk annotera bilder tagna med en kameratelefon och flytta dem till t.ex. en webbsida. Med hjälp av programvaran har projektet studerat hur förmedlingen av kontextdata inverkar på användarens kommunikation, samt utvecklat metoder för att förädla användarens cellbaserade platsinformation till ett mera lättillgängligt format. ContextPhone-programvaran har använts som forskningsredskap vid bl.a. Berkeley, MIT och Konstindustriella högskolan.

Beräkningsmetoder för analys av paleontologiska data – Computational methods for the analysis of palaentological data

Tidsperiod: 1/2005-12/2008

Forskare: Heikki Mannila, Ella Bingham, Hannes Heikinheimo, Kai Puolamäki, Antti Ukkonen

Finansiering: Finlands Akademi, HIIT/BRU

Projektet utvecklar beräkningsmetoder för analys av paleontologiska och andra ekologiska data. Projektet har utvecklat nya dateringsmetoder som baserar sig på användningen av spektralsystem och MCMC-metoder. Förutom metoden som använder MCMC tillämpades den sk aspect Bernoulli-modellen för sökning av fel i materialet.

Den hierarkiska strukturen hos data över moderna däggdjur studerades med hjälp av distansmätningar av deras spridning, och den automatiska inlärningen av hierarkin utvärderades. Projektet är ett samarbete med geologiska institutionen vid Helsingfors universitet.

Den rörliga servicemannens flerspråkiga hjälpmedel – Mobile and multilingual maintenance man (4M)

Tidsperiod: 8/2003-7/2007

Forskare: Reeta Kuuskoski, Helena Ahonen-Myka, Damien Beaudrey, Antoine Doucet.

Finansiering: Samarbetsprojekt, övriga partners: HU/språkteknologi, HU/institutionen för översättningsvetenskap, Tekniska högskolan/SoberIT/användbarhetsgruppen, TH/informationsteknik, VTT informationsteknik Tekes, Fujitsu Services, Nokias forskningscenter, Nokia Business Infrastructure, Pasanet/Lingsoft, Penningautomatföreningen, Wärtsilä

Projektet utvecklar ett informationsstödsystem som är till hjälp vid reparationer. Systemet innehåller samtalskomponenter som använder naturligt språk. Informationen om apparatur och deras problem finns lagrad i ontologier. Instruktioner kan också sökas i apparaturdokumentationen om svaret inte finns i ontologierna.

Den första prototypen som integrerar alla komponenter blev färdig i september. Vi hade ansvar för komponenten som söker efter information i ontologierna. Därtill utvecklade vi dokumentstruktureringsmetoder som t.ex. metoder för igenkänning av instruktionerna i dokumenteringen. Struktureringen av dokumenteringen effektiverar problemlösningen i realtid.

Nya beräkningsmetoder för analys av genomstruktur och -funktion hos däggdjur - New computational techniques for analysing the structural and functional landscape of the mammalian genomes (CompGenome)

Tidsperiod: 1/2004-12/2007

Forskare: Heikki Mannila, Aristides Gionis, Niina Haiminen, Jaana Wessman, Mikko Koivisto, Jussi Kollin, Kimmo Palin, Panayiotis Tsaparas

Finansiering: Finlands Akademi

Projektet undersöker genetiska och funktionella variationer inom och mellan arter. Syftet är att förstå bl.a. multifaktoriella sjukdomar. De biologiska grundfrågorna rör haplotypstrukturer, genetiska förändringar i stor skala, fenotypsklustring och genexpressioner. Beräkningsmässigt rör huvudfrågorna probabilitetsmodellering och Markov Chain Monte Carlo-metoder, kunskapsutvinning och mönstersökning, samt kombinatoriska algoritmer. Projektet är ett samarbete med Finlands genomcentral, Folkhälsoinstitutet och Karolinska Institutet i Stockholm, och det hör till Finlands Akademis SYSBIO-program.

Under sitt andra år fortsatte projektet med att segmentera genom och modellera mångdimensionella fenotyper, samt utarbetade en ny populationsbaserad beräkningsmetod för att bestämma haplotyper. Särskilt i fråga om beräkning uppnådde man intressanta resultat för dessa forskningsområden.

Induktiva frågor för utvinning av mönster och modeller – Inductive Queries for Mining Patterns and Models (IQ)

Tidsperiod: 9/2005 – 8/2008

Forskare: Aristides Gionis, Heikki Mannila, Taneli Mielikäinen, Pauli Miettinen, Panayiotis Tsaparas

Finansiering: EU

En av de centrala utmaningarna inom kunskapsutvinning är utvecklingen av ett teoretiskt ramverk. En lovande metod för att nalka sig detta problem erbjuder induktiva databaser, d.v.s. databaser för kunskapsutvinning som erbjuder en deklarativ approach till dataanalys.

IQ-projektet studerar den teoretiska grunden för induktiva databaser och utvecklar induktiva databaser för olika dataanalysuppgifter. Biologiska frågor utgör tillämpningsobjekten.

I projektet deltar forskare från Belgien (Universiteit Antwerpen), Frankrike (Institut National des Sciences Appliquées de Lyon), Tyskland (Albert-Ludwigs-Universität Freiburg), Slovenien (Institute Josef Stefan) och Finland (Forskningsinstitutet för informationsteknologi HIIT).

Projekt: Klustring av fenotyper som är associerade med schizofreni och bipolär sjukdom - Clustering of phenotypic features in schizophrenia and bipolar disorder samples (PhenoClusters)

Tidsperiod: 8/2004 - 9/2005

Forskare: Heikki Mannila, Jaana Wessman, Mikko Koivisto, Laura Ruotsalainen

Finansiering: Orion Abp

Det är viktigt att reda ut den genetiska grunden för multifaktoriella sjukdomar. Då en stor mängd fenotyper hör samman med sjukdomen är det utmanande att analysera data. Projektet utvecklar probabilitetsmodeller och klustringsprogram för mångdimensionell fenotypdata. Metoderna tillämpas på fenotyp- och genotypdata som hänger samman med schizofreni och bipolär sjukdom. Projektet är ett samarbete med Folkhälsoinstitutet.

År 2005 valde projektet ut en mängd av de mest intressanta klustringarna, vars särdrag studerades noggrant i samarbete med experter från Folkhälsoinstitutet. Projektet befanns lyckat: approachen med klustring öppnade nya infallsvinklar till mångdimensionella data och avslöjade vissa tidigare okända särdrag som måste undersökas noggrannare.