Yliopiston etusivulle Suomeksi In English
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Vuosikertomus 2007

Doremi

Doremi-tutkimusryhmä keskittyy kieliteknologiaan. Suuri osuus informaatiosta on olemassa vain luonnollisilla kielillä kirjoitettuna, esimerkiksi Internetissä ja kirjoissa. Informaation määrä ja samalla tarve näiden tekstien käsittelemiseen automaattisesti kasvaa nopeasti. Tässä käytettävät menetelmät vaihtelevat yksinkertaisista tavoista järjestää tietoa helposti löydettäväksi hienostuneempaan sisällön ymmärtämiseen.

Doremissa tutkitaan kielen automaattiseen käsittelyyn liittyviä kysymyksiä ja kehitetään laskennallisia menetelmiä luonnollisen kielen ymmärtämiseen.

Ryhmässä tutkitaan erilaisia tiedonhakuun liittyviä ongelmia. Esimerkiksi uutisaiheen löytämisen ja jäljittämisen tekniikoilla havaitaan dokumentteja, jotka käsittelevät aiemmin havaitsemattomia tapahtumia ja aiheita uutisvirrassa, sekä jäljitetään ja seurataan näitä tapahtumia niiden edetessä.

Yksi ryhmän tutkimusaiheista on tekstin louhinta. Tekstistä voidaan eristää etukäteen määriteltyjä, erityyppisiä määrämuotoisia faktoja, joista voidaan koota tietokanta tai jotka voidaan merkata tekstiin. Suurista tekstikokoelmista voidaan löytää erityisen kuvaavia fraaseja, jotka lyhyydestään huolimatta kuvaavat koko tekstin sisältöä ja helpottavat tiedon hakemista.

Doremissa tutkitaan myös sitä, kuinka sanojen merkitys voidaan oppia sanojen esiintymisestä (jakaumasta) tekstissä. Menetelmiä sovelletaan esimerkiksi etymologisiin ongelmiin, kuten sanojen alkuperään ja keskinäisiin suhteisiin suomen sukukielissä.

Doremi toimi 2007 osana From Data To Knowledge-huippuyksikköä ja työ jatkuu Algodan-huippuyksikössä.

Yhteyshenkilö : professori Roman Yangarber
Kotisivu : http://doremi.cs.helsinki.fi

Valittuja julkaisuja

A. Doucet, M. Lehtonen: Unsupervised classification of text-centric XML document collections. Comparative Evaluation of XML Information Retrieval Systems, 5th International Workshop of the Initiative for the Evaluation of XML Retrieval. Springer Lecture Notes in Computer Science, Volume 4518 (2007) pp. 515-527

M. Lehtonen, N. Pharo, A. Trotman: A Taxonomy for XML Retrieval Use Cases. Comparative Evaluation of XML Information Retrieval Systems, 5th International Workshop of the Initiative for the Evaluation of XML Retrieval. Springer Lecture Notes in Computer Science, Volume 4518 (2007) pp. 430-439

R. Yangarber, R. Steinberger, C. Best, P. von Etter, F. Fuart, D. Horby: Combining Information Retrieval and Information Extraction for Medical Intelligence. Mining Massive Data Sets for Security, Nato Advanced Study Institute. (2007) Gazzada , Italy

R. Yangarber, C. Best, P. von Etter, F. Fuart, D. Horby, R. Steinberger: Combining Information about Epidemic Threats from Multiple Sources. Multi-source, Multilingual Information Extraction and Summarization, RANLP-2007. (2007) Borovets , Bulgaria