Från data till kunskap - FDK
Forskningsenheten From Data to Knowledge (FDK, www.cs.helsinki.fi/research/fdk) utvecklar beräkningsmetoder för att utvinna nyttig kunskap från stora mängder data. Enheten är tvärvetenskaplig, och kombinerar expertis inom algoritmforskning, statistiska metoder och tillämpningsfält som bioinformatik och hantering av naturliga språk. Enheten utsågs till en av Finlands Akademis spetsforskningsenheter för en sexårsperiod som började 1/1 2002, och i sin nya form för följande sexårsperiod som börjar 1/1 2008.
FDK-enheten är ett samarbete mellan Helsingfors universitet och Tekniska högskolan. Den fungerar huvudsakligen i institutionen för datavetenskap vid Helsingfors universitet. Professor Esko Ukkonen är ledare för enheten, och övriga professorer vid enheten är Helena Ahonen-Myka, Jaakko Hollmén (TH), Heikki Mannila (akademiprofessor, verksam vid grundforskningsenheten vid HIIT) och Hannu Toivonen. År 2006 ingick omkring 60 forskare och fortsättningsstuderande i enheten.
Enhetens centrala kompetensområde är algoritmik för dataanalys. Dess styrka på internationell nivå består å ena sidan av kombinatorisk mönsterigenkänning och strängalgoritmer samt å andra sidan maskininlärning och kunskapsutvinning. FDK lägger stor vikt vid växelverkan mellan utveckling av teorier och praktiska tillämpningar. Målet är att finna forskningsfrågor där det konceptuella grundproblemet och lösningsalgoritmen har stor potential för tillämpningar.
Enhetens arbete kan delas upp i flera sammanhängande huvudteman, och samma personer arbetar inom flera projekt.
Det första huvudtemat är kunskapsutvinning och maskininlärning. Detta är ett projekt som upprätthåller enhetens grundkunskaper genom att utveckla elementära metoder och begrepp. Målet är att finna teoretiska grundforskningsresultat som är användbara med olika tillämpningar. Några exempel på vilken sorts reell data vi använder är textdatabaser och dokumentsamlingar samt sekvenser inom molekylbiologi. Informationsfiltrering från Internet och annan språkteknologi ligger inom detta projekts forskningsfält, liksom användningen av maskininlärning för bildanalys.
Det andra huvudtemat fokuserar på tillämpningar av det första temat inom bioinformatiken. Enheten specialiserar sig på beräkningsbiologi genom att studera metoder för medicinsk genetik och för analys av genom-, proteom- och metaboldata. Samarbetspartners är bl.a. det europeiska bioinformatikinstitutet (European Bionformatics Institute) samt åtskilliga ledande inhemska forskningsgrupper. Projektet utvecklar beräkningsmetoder för att skapa olika genreglerings- och metabolismnätverk på basen av mätningsdata. De senaste forskningsobjekten har att göra med t.ex. haplotyper, genomers helhetsarkitektur, hantering av genexpressionsdata samt konstruering av metaboliska modeller. En ny beräkningsmetod för metaboliska flöden förverkligades. I samarbete med cancerforskare fortsatte man analysera samverkan av genreglering och mutationer.
Kombinatorisk mönsteridentifiering och informationssökning hör till enhetens kärnområden. De centrala forskningsfrågorna omfattar approximerad mönstersökning, effektiva indexstrukturer, samt att upptäcka återkommande mönster i data. Arbetet med att bygga ett programbibliotek bestående av strängalgoritmer fortsätter, liksom den tillämpande forskningen om musikinformationssökning. Man utvecklade flera effektiva sökalgoritmer för tecken som angetts som poängsättningsmatriser och löste beräkningskompetensen för syntesen av teckensträngmotiv. För XML-dokument utvecklade man nya sökmetoder.
Förutom grundforskning och doktorsutbildning vill FDK-enheten också fungera som en "algoritmateljé", där man utvecklar beräkningslösningar till nya problem inom olika discipliner. Enheten söker ständigt efter nya partners som kunde ställa nya, obesvarade beräkningsfrågor inom aktuell forskning.
Under år 2006 färdigställdes 4 doktorsavhandlingar vid enheten.
Kontaktperson: professor Esko Ukkonen
Webbsida: http://www.cs.helsinki.fi/research/fdk/
Projekt
Kunskapsutvinning och algoritmisk maskininlärning
Information extraction
Paleoecological data analysis
APRIL II (EU)
PASCAL (EU NoE)
Beräkningsbiologi och bioinformatik:
Beräkningsmetoder för analys av genomstruktur och –funktion hos däggdjur
Sökning av predispositionsgener ur fall-kontrolldata.
A global molecular approach in the study of microbial stress
Yeast systems biology - Integrated analysis of metabolism-related data
BIOSAPIENS (EU NoE)
REGULATORY GENOMICS (EU)
Kombinatorisk mönsterigenkänning och informationsutvinning:
C-BRAHMS - music information retrieval
GLAS - Generic software library of algorithms on strings
Beräkning av strukturbiologi:
Strukturen, hopsättningen och dynamiken hos biologiska makromolekylkomplex
Publikationer
Gionis, A. & Mannila, H. & Mielikäinen, T. & Tsaparas, P.: Assessing data mining results via swap randomization. International Conference on Knowledge Discovery and Data Mining: KDD-2006. - New York , NY : ACM Press 2006. p. 167-176.
Hallikas, O. & Palin, K. & Sinjushina, N. & Rautiainen, R. & Partanen, J. & Ukkonen, E. & Taipale, J.: Genome-wide prediction of mammalian enhancers based on analysis of transcription-factor binding affinity. Cell. - Cambridge , MA : Cell Press. 124 (2006) : 1, p. 47-59.Koivisto, M.: An O*(2n) algorithm for graph coloring and other partitioning problems via inclusion-exclusion. Symposium on Foundations of Computer Science: 47th Annual IEEE Symposium on Foundations of Computer Science. – Los Alamitos , CA : IEEE Computer Society cop. 2006. p. 583-590.
Rousu, J. & Saunders, C. Szedmak, S. & Shawe-Taylor, J.: Kernel-based learning of hierarchical multilabel classification models. Journal of machine learning research. - Cambridge (MA) : MIT Press. 7 (2006), p. 1601-1626.
Sevon, P. & Toivonen, H. & Ollikainen, V.: TreeDT : tree pattern mining for gene mapping. IEEE/ACM transactions on computational biology and bioinformatics. - New York (NY) : IEEE. 3 (2006) : 2, p. 174-185.