Yliopiston etusivulle Suomeksi På svenska In English
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Vuosikertomus 2006

Dokumenttien hallinta, tiedonhaku ja tiedon louhinta - Doremi

Doremi-ryhmän tutkimusalueita ovat dokumenttien hallinta, tiedonhakumenetelmät, tiedon louhinta ja kieliteknologia. Ryhmä on kehittänyt menetelmiä kysymysvastausjärjestelmiin, tiedon eristämiseen, uutistapahtumien tunnistamiseen ja seuraamiseen, tiedonhakuun XML-dokumenteista sekä tiedon louhintaan tekstistä.

Tiedonhaku XML-dokumenteista on saanut viime aikoina laajaa huomiota mm. kansainvälisessä INEX-evaluointihankkeessa, jonka testiaineistoja ryhmässä vuonna 2006 valmistuneessa Miro Lehtosen väitöskirjassakin on hyödynnetty. Väitöskirjatyön tulokset liittyvät XML-dokumenttien indeksointimenetelmiin. Valikoimalla dokumenteista vain tekstipitoisimmat osat indeksoitavaksi hakemiston koko pienenee, mikä myös parantaa hakutulosten laatua. Lisäksi havaittiin, että XML-merkkaukseen perustuva termien painotus edelleen kasvattaa tiedonhaun tarkkuutta.

Päättynyt Mobile and Multilingual Maintenance Man (4M) -projekti jatkuu uutena projektina Cognitive Guidance and Knowledge Systems (CoGKS). Kuten 4M:kin, CoGKS on laaja yhteistyöprojekti Helsingin yliopiston ja Teknillisen korkeakoulun useiden tutkimusryhmien sekä VTT Tietotekniikan välillä. Tavoitteena on asiantuntijayhteisöä (esim. yrityksen huoltomiehiä) tukeva kommunikointi- ja tietämystukijärjestelmä, jossa 4M-järjestelmän rooli on seurata ihmisasiantuntijoiden keskustelua ja tarvittaessa tarjota ohjausta ja taustatietoja. Doremi-ryhmän vastuualueena on kehittää tiedonhakumenetelmiä, jotka poimivat tarvittavat hakusanat keskustelusta ja muista lähteistä sekä suorittavat dynaamisesti hakuja tausta-aineistosta. Lisäksi kehitämme varsinkin tiedon eristämiseen perustuvia menetelmiä tietämyksen keräämiseksi laajasta dokumenttikokoelmasta, mm. huoltodokumenteissa raportoiduista ongelma- ja korjauskuvauksista.

Doremi on aloittanut yhteistyön EU:n Joint Research Centre (JRC) –tutkimuslaitoksen kanssa tavoitteena toteuttaa järjestelmä, joka integroi tiedonhaku- ja tiedoneristämisteknologioita. Järjestelmä kerää ja analysoi tartuntatauteihin liittyviä tiedotuksia kansainvälisistä uutislähteistä. JRC:n kehittämä Europe Media Monitor (EMM) –järjestelmä etsii avainsana-analyysia käyttäen tuhansista online-lähteistä uutisdokumentteja aiheista, jotka ovat tärkeitä useille EU:n yksiköille. Löydetyt dokumentit klusteroidaan aiheen perusteella. Doremi-ryhmän kehittämä Pattern-based Understanding and Learning System (PULS) - järjestelmä analysoi tartuntatauteihin liittyvien klustereiden dokumentit ja eristää niistä faktatietoa: mikä tauti on löydetty mistä maasta ja kuinka monta henkeä on saanut tartunnan. Integroitu, reaaliaikaisesti päivittyvä järjestelmä Medisys on nähtävissä osoitteessa medusa.jrc.it/.

Ryhmää on ollut yhteistyössä myös Kotimaisten kielten tutkimuskeskuksen (Kotus) kanssa ja kehittänyt suomalais-ugrilaisten kielten etymologista tietokantaa. Tietokannan sisältö on peräisin Suomen sanojen alkuperä (SSA) -sanakirjasta, joka on aikaisemmin ollut käytettävissä vain painetussa muodossa. Tietokantaa tullaan käyttämään laskennallisen etymologian algoritmien kehittämisessä ja testaamisessa. Algoritmit etsivät suomalais-ugrilaisten kielten välisiä geneettisiä suhteita. Tietokanta tulee olemaan myös arvokas resurssi ugrilaisen etymologian tutkijoille.

Doremi-ryhmässä työskenneltiin myös kysymysvastausjärjestelmien parissa. Kysymysvastausjärjestelmien ideana on, että käyttäjä antaa kysymyksen luonnollisen kielen lauseena ja järjestelmä etsii kysymykseen vastauksen laajasta tekstikokoelmasta. Vastaus on vaatimuksista riippuen joko katkelma tekstiä, josta lukija vastauksen ymmärtää, tai tarkka vastaus, esimerkiksi erisnimi.

 

Yhteyshenkilöt : professori Helena Ahonen-Myka ja PhD Roman Yangarber

Kotisivu: http://www.cs.helsinki.fi/research/doremi/

Projekti:

Mobile and Multilingual Maintenance Man (4M)

Julkaisuja:

Doucet, A. & Ahonen-Myka, H: Fast extraction of discontiguous sequences in text: a new approach based on maximal frequent sequences. In proceedings of IS-LTC 2006, Information Society - Language Technologies Conference, Ljubljana, Slovenia, October 9-14, 2006, p. 186-191.

Doucet, A. & Ahonen-Myka, H: Probability and Expected Document Frequency of Discontinued Word Sequences, an efficient method for their exact computation. TAL journal, special issue on "Scaling of Natural Language Processing: Complexity, Algorithms and Architectures", 46 (2): 25 pages, 2006.

Lehtonen, M: Designing User Studies for XML Retrieval. In proceedings of the ACM SIGIR 2006 Workshop on XML Element Retrieval Methodology, Seattle , USA , 10 August 2006, pages 28-34.

Lehtonen, M: Preparing Heterogeneous XML for Full-Text Search. ACM Transactions on Information Systems (TOIS), Special Issue on XML Retrieval, 24, 4, pages 455-474. ACM Press, October 2006.

Lehtonen, M: When a Few Highly Relevant Answers Are Enough. Lecture Notes in Computer Science, Advances in XML Information Retrieval andEvaluation: 4th International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2005. Volume 3977 /2006. p. 296-305.