Suomeksi På svenska In English
Helsingin yliopisto Institutionen för datavetenskap
 

Årsberättelse 2005

Från data till kunskap - FDK

Forskningsenheten From Data to Knowledge (FDK, www.cs.helsinki.fi/research/fdk) utvecklar beräkningsmetoder för att utvinna nyttig kunskap från stora mängder data. Enheten är tvärvetenskaplig, och kombinerar expertis inom algoritmforskning, statistiska metoder och tillämpningsfält som bioinformatik och hantering av naturliga språk. Enheten utnämndes till spetsforskningsenhet av Finlands Akademi för en sexårsperiod med början år 2002.

FDK-enheten är gemensam för Helsingfors universitet och Tekniska högskolan. Den fungerar huvudsakligen i institutionen för datavetenskap vid Helsingfors universitet. Professor Esko Ukkonen är ledare för enheten, och övriga professorer vid enheten är Helena Ahonen-Myka, Jaakko Hollmén (TH), Heikki Mannila (akademiprofessor, verksam vid grundforskningsenheten vid HIIT) och Hannu Toivonen. År 2005 ingick omkring 60 forskare och fortsättningsstuderande i enheten.

Enhetens centrala kompetensområde är algoritmik för dataanalys. Dess styrka på internationell nivå består å ena sidan av kombinatorisk mönsterigenkänning och strängsökning samt å andra sidan maskininlärning och kunskapsutvinning. FDK lägger stor vikt vid växelverkan mellan utveckling av teorier och praktiska tillämpningar. Målet är att finna forskningsfrågor där det konceptuella grundproblemet och lösningsalgoritmen har stor potential för tillämpningar. Enheten utvecklar nya algoritmer och prototypstillämpningar av dem, samt utreder dessas användningsområden och prestanda.

Verksamheten inom enheten delar sig i flera sammanhängande huvudteman. Samma personer arbetar inom flera projekt. Detta underlättar den interna kommunikationen och utnyttjandet av sakkunskap inom olika tillämpningsområden.

Det första huvudtemat är kunskapsutvinning och maskininlärning. Detta är ett projekt som upprätthåller enhetens grundkunskaper genom att utveckla elementära metoder och begrepp. Målsättningen för forskningen är teoretiska grundforskningsresultat. Resultatens relevans testas med diverse tillämpningar. Några exempel på vilken sorts data vi använder är textdatabaser och dokumentsamlingar, samt händelseförlopp inom telekommunikationsnätverk. Informationsfiltrering från Internet och annan språkteknologi ligger inom detta projekts forskningsfält, liksom användningen av maskininlärning för bildanalys. Tyngdpunkten för forskningen inom fråge- och svarssystem ligger på analysmetoder för frågor. Språkoavhängigheten hos metoderna har testats genom att utveckla fråge- och svarssystem på tre språk (finska, franska och engelska).

Det andra huvudtemat fokuserar på tillämpningar av det första temat inom bioinformatiken. Enheten specialiserar sig på beräkningsbiologi genom att studera metoder för medicinsk genetik och för analys av genom-, proteom- och metaboldata. Samarbetspartners är bl.a. UCLA, det europeiska bioinformatikinstitutet (European Bionformatics Institute) samt åtskilliga ledande inhemska forskningsgrupper. Projektet utvecklar beräkningsmetoder för att kartlägga de gener i arvsmassan som orsakar vissa sjukdomar (som beror på flera orsaker9 samt skapa olika genreglerings- och metabolismnätverk på basen av mätningsdata. De senaste forskningsobjekten har att göra med t.ex. haplotyper, genomers helhetsarkitektur samt systembiologi. Gruppen nådde många betydande resultat vad gäller härledning av haplotyper och deras användning för genkartläggning. I samarbete med cancerforskare har gruppen gjort banbrytande arbete med att lokalisera genregleringsmönster i DNA.

Kombinatorisk mönsteridentifiering och informationssökning hör till enhetens kärnområden. De centrala forskningsfrågorna omfattar approximerad mönstersökning, effektiva indexstrukturer, samt att upptäcka återkommande mönster i data. Arbetet med att bygga ett programbibliotek bestående av strängalgoritmer fortsätter. En tillämpning går ut på att bl.a. söka efter och analysera musik som lagrats i form av noter. I samband med XLM-informationssökning har man forskat i hur XML-dokument bäst kan indelas i lämpliga indexeringsenheter.

Förutom grundforskning och doktorsutbildning vill FDK-enheten också fungera som en "algoritmateljé", där man utvecklar beräkningslösningar till nya problem inom olika discipliner. Enheten söker ständigt efter nya partners som kunde ställa nya, obesvarade beräkningsfrågor inom aktuell forskning.

Under år 2005 blev 2 doktorsavhandlingar klara inom enheten, och enhetens forskare har deltagit i ett nytt patent.

Kontaktperson: professor Esko Ukkonen

Websida: http://www.cs.helsinki.fi/research/fdk/

Publikationer

Ahonen-Myka, H.
Mining all maximal frequent word sequences in a set of sentences.
Proceedings of the 14th ACM International Conference on Information and Knowledge Management, CIKM 2005, October 31- November 5, 2005, Bremen , Germany s. 255-256.

Hintsanen, P. & Sevon, P. & Onkamo, P. & Eronen, L. & Toivonen, H.
An empirical comparison of case-control and trio-based study designs in high-throughput association mapping. Journal of Medical Genetics, Published Online First: 28 October 2005. doi:10.1136/jmg.2005.036020

Kivioja, T. & Arvas, M. & Saloheimo, M. & Penttilä, M. & Ukkonen, E.
Optimization of cDNA-AFLP experiments using genomic sequence data. Bioinformatics 21(11): 2573-2579 (2005)

Mäkinen, V. & Navarro, G. & Ukkonen, E.
Transposition invariant string matching. Journal of algorithms 56, s. 124-153

Yangarber R. & Jokipii L.
Redundancy-based Correction of Automatically Extracted Facts. In Proceedings of the Human Language Technology Conference/ Conference on Empirical Methods in Natural Language Processing: HLT/EMNLP-2005, (2005) Vancouver , Canada .

Forskningsprojekt

Kunskapsutvinning och maskininlärning

  • Information extraction
  • Paleoecological data analysis
  • APRIL II
  • PASCAL

Beräkningsbiologi och bioinformatik

  • Beräkningsmetoder för analys av genomstruktur och –funktion hos däggdjur
  • Systembiologisk analys av fysiologisk reglering
  • Sökning efter predispositionsgener ur fall-kontrolldata
  • A global molecular approach in the study of microbial stress
  • Yeast systems biology - Integrated analysis of metabolism-related data
  • BIOSAPIENS (EU NoE)
  • REGULATORY GENOMICS (EU)

Kombinatorisk mönsterigenkänning och informationsutvinning

  • C-BRAHMS - music information retrieval
  • GLAS - Generic software library of algorithms on strings
  • Mobile and multilingual maintenance man

Beräkning av strukturbiologi

  • Strukturen, hopsättningen och dynamiken hos biologiska makromolekylkomplex

Internationella besök

Matti Kääriäinen
International Computer Science Institute, Berkeley, California, Algorithms Group
4.4.2005-31.3.2006