me@tktl 08/06

Tietojenkäsittelytieteen laitoksen verkkolehti

Etusivu

Henkilö: Miro Lehtinen väitteli

Kirjoitukset: Vaalit tulevat - ketä äänestää ja miksi?

Päiväkirja: Heikki Lokki

Kuulumiset

Summary

Aiemmat numerot

Toimitus

Miro Lehtonen väitteli

Miro Lehtonen väitteli 14.11. aiheesta "Indexing Heterogenous XML for Full-Text Search". XML on tiedontallennusmuoto, jota voidaan käyttää monipuolisesti teksteistä tietokantoihin. XML-dokumentissa sisällöstä voidaan erottaa esimerkiksi otsikot ja lihavoinnit XML-merkkauksella (tageillä).

XML on yleistynyt dokumenttien formaattina monissa ympäristöissä. Indeksit taas toimivat samaan tapaan kuin kirjojen takaa löytyvät hakusanahakemistot. Indeksiin voidaan valita kaikki dokumentin sanat tai vain tärkeimmät sanat. Väitöskirjassa kehitettyjen indeksointimenetelmien avulla voidaan parantaa tiedon löytymistä suuresta aineistosta.

- Päädyin aiheeseen, koska halusin tehdä jotain XML:ään liittyvää. Silloin 2002 olimme mukana XML-tiedonhaun arvioinnissa kansainvälisessä Inex-hankkeessa. Inexissä olimme Antoinen (Doucet) kanssa sitten mukana monena vuonna, Miro kertoo.

Käpistelyura alkoi ohjelmalistausten kopioimisella MikroBitistä pienenä. Tietojenkäsittelytieteen laitokselle Miro tuli 1998.

- Vaihdoin tietojenkäsittelytieteen pääaineeksi, sitä ennen opiskelin matikkaa mutta ei oikein tuntunut siltä että sieltä voisi valmistua.

Työt tktl:lla Miro aloitti vuonna 2000 gradunteolla TYTTI-projektissa. Maisterintutkinto valmistui vuotta myöhemmin. Miro opiskeli sivuaineena kieliteknologiaa (nimi oli vielä silloin tietokonelingvistiikka), mikä johdatti hänet informaatiojärjestelmien linjalle. Jatko-opinnot alkoivat välittömästi.

Mitä on suunnitelmissa väitöksen jälkeen?

- Ihan ensin pidän XML-tietokannat -kurssin loppuun.

Paluu opettamisen arkeen tapahtuikin pian: Miro oli luennoimassa jo heti väitöstä ja karonkkaa seuraavana päivänä kahdeltatoista. Pidemmänkin tähtäimen suunnitelmia on.

- Haluaisin jatkaa väitöskirjani aiheeseen liittyvää tutkimusta -- paljon hienosäätöä on vielä tekemättä ja uusiakin menetelmiä samaan ongelmaan voisi löytää. Vielä ei ole testattu, ovatko väitöskirjan tulokset yleistettävissä muihin dokumenttikokoelmiin.

Miron väitös ethesiksessä