Suomeksi På svenska In English
Helsingin yliopisto Institutionen för datavetenskap
 

Årsberättelse 2005

Dokumenthantering, informationsåtervinning och kunskapsutvinning – Doremi

Forskningsenheten Doremi undersöker dokumenthantering, informationssökning, kunskapsutvinning och språkteknologi. Enheten har utvecklat metoder för fråge- och svarssystem, informationsextrahering, varseblivande och spårning av händelser, informationssökning i XML-dokument samt kunskapsutvinning ur text.

Idéen med fråge- och svarssystem är att användaren ställer en fråga på ett naturligt språk och systemet söker fram ett svar på frågan ur en stor textsamling. Beroende på kraven är svaret antingen ett stycke text, ur vilket läsaren kan hitta svaret, eller ett exakt svar, som ett egennamn. År 2005 har Doremi deltagit i utvärderingsprojektet Cross-Language Evaluation Forum (CLEF), och närmare bestämt i dess fråge- och svarsdel med syftet att erbjuda experimentmaterial och en utvärderingsomgivning för fråge- och svarssystem. Gruppen deltog i projektet med tre system, av vilka två var enspråkiga (finska, franska) och ett var tvåspråkigt (frågor på finska, textsamlingar på engelska).

Ett projekt som samlar flera av våra forskningsproblem är Mobile and Multilingual Maintenance Man (4M), ett stort samarbetsprojekt mellan Helsingfors universitet och flera forskningsgrupper vid Tekniska högskolan samt VTT Informationsteknik. Inom 4M-projektet är målet att utveckla ett system för kunskapsstöd åt en serviceman som reparerar apparater. Doremi ansvarar för att utveckla metoder för att producera kunskap ur textdokument, t.ex. genom att hitta olika tillvägagångssätt ur handböckerna för apparaterna. Dessutom undersöker gruppen informationssökning, som utnyttjar ontologier och tidigare diskussioner, som passar för en liten monitor, och som strävar efter exakta resultat.

Det nya projektet Pattern-based Understanding and Learning System (PULS) har som målsättning att utveckla ett system som skall hjälpa infektionsläkare. Systemet samlar dagligen från en e-postlista för läkare nya meddelanden om infektionssjukdomars förekomst i världen, utvinner vissa fakta ur meddelandena (plats, typ av infektionssjukdom, antal insjuknade osv) och skriver in dessa data i en databas, där vem som helst kan hämta information via en webbsida ( http://doremi.cs.helsinki.fi/puls/). Projektet har som särskilt mål att göra utvinningsresultaten mera pålitliga genom att analysera databasen som helhet. Vanligtvis utvinns data ur endast ett dokument åt gången, så den här formen av utvinning över dokumentgränser är ännu mycket ny.

Övriga forskningsteman inbegriper bland annat textutvinning och informationssökning i XML-dokument. I samband med detta tema färdigställde Antoine Doucet sin doktorsavhandling om hur man finner och utnyttjar termer som består av flera ord.

Kontaktpersoner : professor Helena Ahonen-Myka och forskare, PhD Roman Yangarber.

Webbsida: http://www.cs.helsinki.fi/research/doremi/

Projekt

Mobile and Multilingual Maintenance Man (4M)

Publikationer

L. Aunimo: A Question Typology and Feature Set for QA. Proceedings of the Workshop for Knowledge and Reasoning for Answering Questions, held in conjuction with IJCAI-05, July 2005, Edinburgh , Great Britain .

A. Doucet: Advanced Document Description, a Sequential Approach. PhD Thesis. Department of Computer Science, Series of Publications A, Report A-2005-2.

A. Doucet and H. Ahonen-Myka: A Method to Calculate Probability and Expected Document Frequency of Discontinued Word Sequences. In Proceedings of ACM SIGIR 2005, ELECTRA Workshop on Methodologies and Evaluation of Lexical Cohesion Techniques in Real-world Applications (Beyond Bag of Words), Salvador, Brazil, August 15-19, 2005.

A. Vallin, B. Magnini, D. Giampiccolo, L. Aunimo, C. Ayache, P. Osenova, A. Penas, M. de Rijke, B. Sacaleanu, D. Santos, and R. Sutcliffe: Overview of the CLEF 2005 Multilingual Question Answering Track. Proceedings of the 6th Workshop of the Cross-Language Evaluation Forum, CLEF 2005, Vienna , Austria , September 21-23, 2005.

R. Yangarber and L. Jokipii: Redundancy-based Correction of Automatically Extracted Facts. In Proceedings of the Human Language Technology Conference/ Conference on Empirical Methods in Natural Language Processing: HLT/EMNLP-2005, Vancouver , Canada .

Internationella besök

Damien Beaudrey, INSA Lyon, Frankrike

21.2-31.7 2005