Årsberättelse 2005

Bioinformatik

Genomverktyg och metoder för att bestämma bindingsspecifitet hos expressionsfaktorer - Advanced genomics instruments, technology and methods for determination of transcription factor binding specificities; applications for identification of genes predisposing to colorectal cancer.(REGULATORY GENOMICS)

Tidsperiod: 9/2004-9/2008

Forskare: Kimmo Palin, Cinzia Pizzi, Esko Ukkonen (samt 6 andra grupper i 4 europeiska länder)

Finansiering: EU

Sekventeringen av människans genom och fastställandet av den genetiska koden har lett till snabba framsteg inom kartläggningen av däggdjursgener. Däremot vet man inte så mycket om genexpressioner och de molekylära mekanismer som reglerar deras variation. Detta beror långt på den ofullkomliga uppfattningen om 'den andra genetiska koden' – expressionsfaktorernas bindningsspecifiteter. Projektet har som mål att utveckla nya genomverktyg och –metoder för att bestämma expressionsfaktorernas bindningsspecifitet. Dessa verktyg kommer att användas för igenkänning av enbaspolymorfi (SNP) som påverkar genregleringen av gener som predisponerar för ändtarmscancer samt gener som är gemensamma för flera onkogenetiska expressionsfaktorer.

Projektet har utvecklat progamvaran Enhancer Element Locator (EEL) som har använts för att igenkänna expressionsfaktorernas målgener i hela genomet. Programmets prognoser har bevisats genom laboratorieförsök och publicerats i en ansedd biologitidskrift (CELL 13.1.06).

Ett europeiskt genomannotationsnätverk - A European Network of Genome Annotation (BIOSAPIENS)

Tidsperiod: 1/2004-12/2008

Forskare: Kimmo Palin, Juha Kärkkäinen, Esa Pitkänen, Pasi Rastas, Esko Ukkonen (sammanlagt 21 institutioner i Europa)

Finansiering: EU

Det europeiska genomannotationsnätverket BIOSAPIENS har som syfte att annotera de funktionella områdena i människans genom. Områdena som skall annoteras upptäcks med hjälp av både experimentella metoder och beräkningsmetoder. Sammanlagt 21 oberoende institutioner från olika europeiska länder tillhör detta toppforskningsnätverk, och en av nätverkets viktigaste målsättningar är att koordinera forskningen vid olika laboratorier så att forskningsresurserna i Europa kunde användas så effektivt som möjligt. Nätverket arrangerar små arbetsmöten samt kurser under rubriken ”Europeisk bioinformatikskola”. Genomannotationerna som skapats inom nätverket är öppna för allmänheten och tillgängliga gratis via ett distribuerat annotationssystem (DAS).

Projektet publicerade de förutspådda förstärkande elementen (Enhancer Elements) av genuttrycken som täcker människans hela genom. Elementen delas ut via annotationsservern som installerats vid institutionen. Parterna inom samma arbetspaket som institutionen möttes för en minikonferens i Berlin i mars.

Jästsystembiologi - Yeast systems biology (YEASTSYS)

Tidsperiod: 1/2004-12/2005

Forskare: Esa Pitkänen, Pekko Parikka, Markus Heinonen, Arto Åkerlund, Ari Rantanen, Esko Ukkonen

Finansiering: Tekes

YEASTSYS är ett samarbetsprojekt mellan institutionen för datavetenskap vid Helsingfors universitet, Statens tekniska forskningscentral samt ett antal företagsparter. TEKES finansierar projektet som en del av forskningsprogrammet NeoBio. YEASTSYS-projektet utvecklar en webbtillämpning av de modelleringsmetoder som projektet utvecklat tidigare för beräkning av cellmetabolism.

År 2005 utvecklade projektet ett program för sökning av variationer i cellmetabolismen som ökar produktionen av önskade metaboliska produkter. Därtill utvecklades ett program för att utreda motstridigheter i den biokemikaliska terminologin som används vid konstruktionen av metabolimodeller. Båda programmen förverkligades som en del av en webbportal som erbjuder ett enhetligt användargränssnitt för programmen.

Systembiologisk analys av fysiologisk reglering - Experimental and computational analysis of physiological regulation (SYSFYS)

Tidsperiod: 1/2004-12/2007

Forskare: Juho Rousu, Esko Ukkonen, Ari Rantanen, Esa Pitkänen, Markus Heinonen

Finansiering: Finlands Akademi, Forskningsprogrammet för systembiologi och bioinformatik (SYSBIO)/Finlands Akademi

Forskningskonsortiet SYSFYS, där institutionen för datavetenskap och institutet för bioteknik vid Helsingfors universitet samt VTT ingår, har som syfte att utveckla och tillämpa avancerade metoder för experiment och beräkning.

År 2005 fortsatte man modellera cellens ämnesomsättning vid institutionen för datavetenskap. En beräkningsmetod som estimerar hastigheten hos ämnesomsättningsresponser utvecklades för att mera effektivt kunna utnyttja dyr såkallad isotopmärkningsdata som är svår att producera [1]. Därtill utvecklades en automatisk experimentplaneringsmetod med vilken man kan rikta mätningar till de beräkningsmässigt mest informativa ämnesomsättningsprodukterna (metaboliter) [2]. För att göra det lättare att producera isotopmärkningsdata fortsatte projektet med att utveckla mera automatiserade igenkännings- och analysmetoder av metabolitfragment producerade av en tandemmasspektrometer [3]. Man fortsatte också med att analysera strukturerna hos ämnesomsättningsnätverk med hjälp av distansmått utvecklade inom projektet vilka bättre tar i beaktande ämnesomsättningens specialegenskaper [4]. Som en ny inriktning för projektet började man forska i att utveckla kärnfunktionsbaserade likhetsmått för enzymer. I fortsättningen är det meningen att utnyttja måtten för rekonstruktion av ämnesomsättningsnätverk och förutspå enzymverksamhet.

Avancerade genomikinstrument, teknologi och metoder för att bestämma transkriptionsfaktorers bindningsspecifitet: tillämpningar för ändtarmscancer – Advanced genomics instruments, technology and methods for determination of transcription factor binding specificities; applications for identification of genes

Tidsperiod: 9/2004-9/2008

Forskare: Kimmo Palin, Cinzia Pizzi, Esko Ukkonen (samt 6 andra grupper i 4 europeiska länder)

Finansiering: EU

Sekventeringen av människans genom och fastslåendet av den genetiska koden har lett till snabba framsteg inom kartläggningen av däggdjursgener. Däremot vet man inte så mycket om genexpressioner och de molekylära mekanismer som reglerar deras variation. Detta beror långt på den ofullkomliga uppfattningen om 'den andra genetiska koden' – transkriptionsfaktorernas bindningsspecifiteter. Projektet har som mål att utveckla nya genomverktyg och –metoder för att bestämma expressionsfaktorernas bindningsspcifitet. Dessa verktyg kommer att användas för igenkänning av enbaspolymorfi (SNP) som påverkar genregleringen av gener som predisponerar för ändtarmscancer samt gener som är gemensamma för flera onkogenetiska expressionfaktorer.

Infektioner och människogenomens ursprung. Människans endogena retrovirus, hälsa och sjukdomar.

Tidsperiod: 1/2003

Forskare: Merja Oja, Samuel Kaski

Projektet studerar växelverkan mellan virusparasiter, symbioter och människovärdar. Transposoner, av vilka de flesta är retrovirussekvenser, har trängt sig in a djur- och växtgenomer. Informationen som projektet utvinner är viktig både på lång sikt, för att förstå människans framtid, och på kort sikt för att kunna förstå sjukdomsmekanismer och utveckla möjliga genbehandlingsformer. Projektet kartlägger och utvecklar bioinformatiska metoder med vilka man kan upptäcka retrovirussekvenser i människans genom och karakterisera dem. Rönen förenas med sekvensernas uttrycksdata. Med hjälp av styrda maskininlärningstekniker försöker projektet upptäcka virussekvenser och med hjälp av ostyrda dataanalys- och kunskapsutvinningstekniker försöker man karakterisera sekvensernas egenskaper. Projektet gör upp en databas över människogenomets retrotransposoninnehåll, och den förenas med data över transposonuttryck i olika vävnader.

Systemmodeller för ämnesomsättningsdynamik och reglering av genuttryck – Systemic models for metabolic dynamics and regulation of gene expression

Tidsperiod: 1/2004 - 4/2006

Forskare: Janne Sinkkonen, Tapio Rinnet, Samuel Kaski

Projektet utvecklar nya beräkningsmetoder för modellering av genernas regleringsnätverk, tillämpar dem på jästens systembiologi, och integrerar dem med analysverktyg. Projektet modellerar särskilt stressresponsernas andel i experiment med genextraktionsmutationer samt jästens regleringsproteiners inverkan vid stressrespons.

Projektet har utvecklat en ny beräkningsmässigt mycket enkel metod som har tillämpats för att söka efter liknande egenskaper i flera olika datasamlingar. Metoden har använts för att skilja mellan jästens stressrespons och andra funktioner hos jästen, vilket är viktigt t.ex. då man vill förstå hur genextraktionsexperiment påverkar ämnesomsättningen hos jäst. Metoden, som baserar sig på kanonisk korrelationsanalys, är allmänt brukbar och den kan även användas inom andra tillämpningsområden. Projektet har utvecklat en programvara som kommer att integreras med samarbetspartens programvaruplattform.

Dessutom har projektet modellerat genreglering under stressrespons genom att förena regleringsfaktorernas bindningsdata med uttrycksdata över jästgener, och funnit nya hypoteser om växelverkan inom genreglering. Projektet kommer att utveckla en programvara också för dehär metoderna.
Referenser:

Nikkilä, Roos, Savia, Kaski: Exploratory Modeling of Yeast Stress Response and its Regulation with gCCA and Associative Clustering, International Journal of Neural Systems, vol. 15, No. 4, 2005.

Samuel Kaski and Janne Nikkilä. Of mice and men and yeast, and dependency exploration. CSC news, Information Technology for Science in Finland, 4,24--26, 2005.

Samuel Kaski, Janne Nikkilä, Eerika Savia, and Christophe Roos. Discriminative clustering of yeast stress response. In Udo Seiffert, Lakhmi Jain, and Patric Schweizer, editors, Bioinformatics using Computational Intelligence Paradigms, pages 75--92. Springer, Berlin, 2005.

Infektioner och ursprunget för människans genom. Endogena retrovirus, hälsa och sjukdomar hos människan.

Tidsperiod: 1/2003 – 12/2006

Forskare: Merja Oja, Samuel Kaski

Finansiering: Suomen Akatemia

Projektet studerar växelverkan mellan virusparasiter, symbioter och människovärdar. Transposoner, av vilka en stor del är retrovirussekvenser, har trängt sig in i djur- och växtgenomerna. Informationen som projektet alstrar är viktig både på lång sikt, för att förstå människans framtid, och på kortare sikt, för att förstå sjukdomsmekanismer och utveckla genetiska behandlingsformer. Projektet utvecklar bioinformatikmetoder med vilka man kan söka efter retrovirussekvenser i människans genom samt beskriva dem. Fynden kombineras med uttrycksdata för sekvenserna. Med hjälp av styrd maskininlärningsteknik försöker man finna virussekvenser och med hjälp av ostyrda dataanalys- och datautvinningsmetoder försöker man beskriva sekvensernas egenskaper. Projektet kommer att sammanställa en databas över människogenomens retrotransposoninnehåll, och den kommer att kombineras med data över transposonernas förekomst i olika vävnader.

Ett av de första stegen mot att förstå mänskliga endogena retrovirus (Human Endogenous Retrovirus, HERV) är att klassbestämma HERVernas familjer. Vi har studerat relationerna mellan befintliga HERV-familjer och försökt upptäcka nya HERV-familjer. En median självorganiserande karta (Self-Organizing Map, SOM), en SOM för icke-vektoriska data, användes för att gruppera och visualisera en samling med 3661 HERV-proteinsekvenser.

Den SOM-baserade analysen kompletterades med utvärderingar av resultatens tillförlitlighet. En ny metod för att visualisera pålitligheten användes för att estimera vilka delar av SOM-visualiseringen som var tillförlitliga och vilka som inte var det. Pålitligheten hos de extraherade HERV-grupperna som vi var intresserade av verifierades genom en kallstartsprocedur som lämpar sig för en visualiseringsbaserad SOM-analys. SOM-analysen lokaliserade en helt ny grupp epsilonretrovirussekvenser och kunde därmed belysa relationerna mellan tre befintliga HERV-familjer. SOM-analysen frambragte en grupp medERV9-, HERVW- och HUERSP3-sekvenser, vilket antyder att ERV9- och HERVW-sekvenser kan ha ett gemensamt ursprung.

Kartläggning av gener och diagnostik: beräkningsverktyg för nya laboratorieteknologier - Gene mapping and diagnostics: computational tools for new high-throughput laboratory technologies (Altti)

Tidsperiod: 3/2003-2/2005

Forskare: Hannu Toivonen, Petteri Sevon, Petteri Hintsanen, Lauri Eronen, Kimmo Kulovesi

Finansiering: Tekes, GeneOS, Jurilab, Cyberell

Laboratoriemetoderna för bioteknik utvecklas snabbt. Med de nya metoderna kan man producera stora mängder genetiskt material, t.ex. från fall-kontrollundersökningar som gjorts för epidemiologiska behov. Projektet utvecklade nya beräkningsmetoder, med vilka man lättare kan analysera även stora materialsamlingar. Metoderna som utvecklas kommer att göra genanalys i laboratorier lättare och mera effektivt.

Projektet producerade metoder med vilka man kan haplotypbestämma stora fall-kontrollresultat samt lokalisera sjukdomsassociationer (predispositionsgener) i sådana data. Projektet utvecklade också metoder och verktyg för populationssimulation, med vilka man kunde göra mångsidiga jämförelser mellan olika genkartläggningskonstellationer och –metoder.

Utvinning av biodatabaser (Biomine)

Tidsperiod: 3/2005-12/2007

Forskare: Hannu Toivonen, Petteri Sevon, Lauri Eronen, Petteri Hintsanen, Kimmo Kulovesi

Finansiering: Tekes, Jurilab, Biocomputing Platforms, GeneOS (samt samarbetsparterna institutionen för medicinsk genetik vid Helsingfors universitet, Karolinska Institutet, VTT bioteknik och CSC)

Projektet utvecklar metoder och verktyg för analys av allmänna biodatabaser (sekvenser, proteiner, växelverkan, artiklar m.m.) Med hjälp av dem kan bioforskare utöka sina egna datasamlingar, finna tidigare okända samband och analogier mellan allmänna databaser, samt inrikta sina resurser på de mest lovande forskningsobjekten. Det huvudsakliga tillämpningsområdet är en noggrannare analys av kandidatgener som upptäckts genom genkartläggning.

Projektet har studerat hur man kan presentera biologisk data som en graf, där noderna representerar olika koncept (t.ex. gener, proteiner, vävnadstyper, haplotyper, fenotyper, celldelar) och bågarna förhållandena mellan dem (t.ex. sambandet mellan en gen och en biologisk process som rapporterats i en gendatabas). Projektet har utvecklat metoder för analys av sådana grafer samt den automatiska sökningen och visualiseringen av förhållandet mellan koncepten.