[an error occurred while processing this directive]
|
|
Projektit
Käynnissä olevat projektit
- Tiedon eristäminen: Pattern-based Understanding and Learning System (PULS)
- Pattern-based Understanding and Learning System (PULS) on hanke, jonka
tavoitteena on rakentaa infektiolääkäreitä avustava
järjestelmä. Järjestelmä kerää päivittäin lääkärien sähköpostilistalta
uusia ilmoituksia infektiotautien esiintymisestä maailmassa, eristää
ilmoituksista faktatiedot (paikkakunta, infektiotauti, sairastuneiden
määrä jne) ja tallentaa tiedot tietokantaan, josta kuka tahansa voi
tietoja hakea WWW-sivun kautta (http://doremi.cs.helsinki.fi/puls/).
Erityisenä tavoitteena projektilla on lisätä eristystuloksen
luotettavuutta analysoimalla tietokantaa kokonaisuutena. Yleisemmin
tiedoneristämistutkimuksemme tavoitteena on kehittää menetelmiä
tekstissä esiintyvien semanttisten entiteettien ja relaatioiden
löytämiseksi.
- Mobile and Multilingual Maintenance Man (4M)
- Mobile and Multilingual
Maintenance Man (4M) on laaja yhteistyöprojekti Helsingin
yliopiston ja Teknillisen korkeakoulun useiden tutkimusryhmien sekä
VTT Tietotekniikan välillä. 4M-projektissa tavoitteena on
kehittää luonnollisella kielellä keskusteleva tietämystukijärjestelmä
laitteita korjaavaa huoltomiestä varten. Doremi-ryhmän vastuualueena
on kehittää menetelmiä tietämyksen tuottamiseen tekstidokumenteista,
esimerkiksi erilaisten toimintaohjeiden eristämiseen laitteen
käsikirjoista. Lisäksi tutkitaan pienelle näytölle sopivaa, tarkkaan
tulokseen tähtäävää tiedonhakua, joka hyödyntää ontologioita ja
keskusteluhistoriaa.
- Kysymysvastausjärjestelmät: CLEF/QA at University of Helsinki
- Kysymysvastausjärjestelmien ideana on, että käyttäjä antaa kysymyksen
luonnollisen kielen lauseena ja järjestelmä etsii kysymykseen
vastauksen laajasta tekstikokoelmasta. Vastaus on vaatimuksista
riippuen joko katkelma tekstiä, josta lukija vastauksen ymmärtää, tai
tarkka vastaus, esimerkiksi erisnimi. Vuonna 2005 osallistuimme toista
kertaa evaluointihankkeen Cross-Language Evaluation Forum (CLEF)
kysymysvastaus-osioon, jonka tarkoituksena on tarjota koeaineistoja ja
evaluointiympärist~ kysymysvastausjärjestelmille. Osallistuimme
hankkeeseen kolmella järjestelmällä, kahdella yksikielisellä (suomi,
ranska) ja yhdellä kaksikielisellä (kysymykset suomeksi -
tekstikokoelmat englanniksi).
- XML-dokumenttien hallintaINEX at University of Helsinki
- Olemme osallistuneet kansainväliseen XML-tiedonhakujärjestelmiä kehittävään evaluointihankkeeseen INEX omalla järjestelmällä. Tutkimme erityisesti mm. XML-dokumenttien fragmentointia indeksointia varten.
- Tekstin louhinta
- Olemme kehittäneet menetelmiä
tekstissä esiintyvien yleisten sanajonojen (monisanaisten termien)
löytämiseksi. Yleinen sanajono esiintyy esim. vähintään 10 lauseessa,
voi olla mielivaltaisen pitkä ja jonon sanojen välissä voi esiintyä
tekstissä muita sanoja. Olemme myös tutkineet tällaisten sanajonojen
hyödyntämistä tiedonhaussa. Lisäksi tutkimme tekstin segmentointia
aiheen mukaisiin katkelmiin.
Last modified: Tuesday, 22-May-2007 14:48:56 EEST