University of Helsinki - Department of Computer Science



Thesis Defence by Pirjo Moen


Title

Attribuuttien, tapahtumasarjojen ja tapahtumasarjoissa esiintyvien tapahtumatyyppien samankaltaisuusmittoja tietämyksen muodostamisessa

Mått på likheter mellan kännetecken, händelseserier och händelsetyper inom kunskapsutvinning

Attribute, Event Sequence, and Event Type Similarity Notions for data Mining

Defender

  • Pirjo Moen
  • University of Helsinki, Department of Computer Science

Opponent

Custos

Time and Place

  • Friday, February 25, 2000
  • at 12
  • Auditorium XII, University Main Building, Old Side, 2nd floor

Abstract/Fin

Tietokoneteknologian nopea kehitys viime vuosikymmeninä on johtanut siihen, että suurten tietomäärien kerääminen on entistä helpompaa. Tietämyksen muodostaminen (data mining) on tietojenkäsittelytieteen osa-alue, jonka tavoitteena on kehittää erilaisia menetelmiä näiden suurten tietomassojen analysointiin, erityisesti erilaisten datassa esiintyvien säännönmukaisuuksien etsimiseen. Tällaisten erilaisten säännönmukaisuuksien löytäminen edellyttää, että pystymme määrittelemään, kuinka samankaltaisia eri tietoalkiot ovat. Siksi tietoalkioiden samankaltaisuus on yksi tietämyksen muodostamisen keskeisimpiä käsitteitä.

Tietämyksen muodostamisen kannalta hyvin tärkeitä datajoukkoja ovat tietokantarelaatiot, jotka koostuvat tietoalkioista, joilla on useita attribuutteja. Eräs tapa analysoida tällaista dataa on tarkastella tietokannan attribuuttien välisiä samankaltaisuuksia. Esimerkiksi ostosdatasta voitaisiin tutkia eri tuotteiden samankaltaisuutta vertailemalla niitä ostavien asiakkaiden ostoskäyttäymistä.

Perinteisesti kahden attribuutin samankaltaisuutta on tarkasteltu käyttäen mittoja, jotka ottavat huomioon vain näiden kyseisten attribuuttien arvot. Tällaiset mitat ovat usein hyödyllisiä, mutta valitettavasti ne eivät pysty kuvaamaan kaikkia tärkeitä samankaltaisuustyyppejä. Siksi väitöskirjassa esitellään uusi samankaltaisuusmitta, joka ottaa huomioon myös muiden tietokannassa esiintyvien attribuuttien arvot. Lisäksi työssä vertaillaan erilaisten attribuuttien samankaltaisuutta kuvaavien mittojen käyttäytymistä uutisartikkelikokoelman sekä kurssi-ilmoittautumisdatan avulla.

Toinen tietämyksen muodostamisen kannalta tärkeä datatyyppi ovat tapahtumasarjat. Tällaisia tapahtumasarjoja esiintyy useilla sovellusalueilla, esimerkiksi teleliikenteessä ja WWW-sivujen hakupyyntöjen tarkkailussa. Analysoimalla tapahtumasarjoja voimme saada hyödyllistä tietämystä järjestelmän tai käyttäjien toiminnasta. Tätä tietämystä voidaan hyödyntää esimerkiksi puhelinverkossa esiintyvien hälytysten paikallistamisessa. Väitöskirjassa tarkastellaankin tapoja määritellä sekä tapahtumasarjojen että niissä esiintyvien tapahtumatyyppien välinen samankaltaisuus.

Väitöskirjassa esiteltävä tapahtumasarjojen välisen samankaltaisuuden määritelmä perustuu ideaan siitä, että samankaltaisuuden pitäisi jollain tavalla heijastella sitä työn määrää, joka tarvitaan tapahtumasarjan muuttamiseksi toiseksi. Tämä idea määritellään täsmällisesti sarjojen editointietäisyytenä. Esitellyn samankaltaisuusmitan ominaisuuksia kuvataan työssä käyttäen esimerkkeinä sekä puhelinverkon hälytysten että WWW-sivujen hakupyyntöjen muodostamia tapahtumasarjoja.

Kolmantena samankaltaisuusmittojen joukkona työssä tarkastellaan sitä, kuinka tapahtumasarjoissa esiintyvien erilaisten tapahtumatyyppien samankaltaisuutta voitaisiin mitata. Intuitiivisesti kaksi tapahtumatyyppiä ovat samankaltaisia, jos ne esiintyvät samankaltaisissa konteksteissa. Väitöskirjassa tarkastellaan erilaisia tapoja määritellä tapahtuman konteksti sekä sitä, kuinka kahden tapahtumatyypin samankaltaisuus voidaan määritellä niiden kontekstien avulla. Erilaisten samankaltaisuusmittojen ominaisuuksiin tutustutaan tarkastelemalla puhelinverkon hälytysten ja kurssi-ilmoittautumisten muodostamia tapahtumasarjoja sekä joukkoa hemoglobiinisekvenssejä.

Abstract/Swe

Den snabba utvecklingen under de senaste decennierna inom datetekniken har gjort det möjligt att enkelt samla stora kvantiteter data. Kunskapsutvinning (data mining) är ett forskningsområde inom datavetenskapen vars målsättning är att utveckla metoder för analys av stora datamängder, i synnerhet att upptäcka mönster och regelbundheter. För att finna dessa krävs det att man kan beskriva hur lika två objekt är. Därför är likheter mellan objekt ett av de mest centrala begreppen inom kunskapsutvinning.

Ett typiskt forsknings material inom kunskapsutvinning är en databas bestående av ett antal objekt med ett flertal olika kännetecken. Ett sätt att analysera databasen är att studera likheterna mellan de förekommande kännetecknen. Man kan till exempel studera likheterna mellan olika produkter i olika snabbköpkunders inköpskorgar.

Traditionella metoder för att finna likheter mellan två kännetecken tittar oftast endast på de ingående kännetecknen. Dessa metoder kan användas i vissa fall, men de finner inte alla betydelsefulla likheter. Därför förs här fram ett nytt mått på likheter mellan kännetecken, som även tar hänsyn till de kännetecken som ligger utanför den egentliga analysen. En samling nyhetstelegram och kursanmälningar har använts för att visa på skillnaderna mellan de olika måtten.

Dataserier är en annan betydande typ av data som studeras inom kunskapsutvinning. Dessa förekommer inom vitt skilda områden, till exempel telenätverk och internetsökningar. Genom att analysera sådana serier kan man få värdefull information om hur ett system fungerar eller hur en användare beter sig. Detta kan sedan utnyttjas för att till exempel förebygga allvarliga fel inom ett telenätverk. I denna avhandling behandlas både likheter mellan serier och likheter mellan händelsetyper i serier.

Grundidén i denna avhandling är att ett mått på likheten mellan två händelseserier skall spegla det arbete som krävs för att omforma en serie till en annan. Detta arbete definieras i avhandlingen som de två händelseseriernas formella avstånd. Resultat från experiment utförda på felmeddelanden från telenätverk och internetsökningar redovisas i avhandlingen.

Den tredje gruppen likhetsmått bestämmer likheter mellan händelsetyper inom en serie. Två händelsetyper är lika om de förkommer i liknande kontexter. Avhandlingen lyfter fram flera möjligheter att finna en händelses kontext i en serie och sätt att bestämma likheten mellan två händelsetyper genom att titta på deras kontexter. Felmeddelanden från telenätverk, proteinserier i hemoglobin och kursanmälningar har använts för att belysa dessa mått.

Abstract/Eng

The rapid development of computer technology in the last decades has made it possible to easily collect huge amounts of data. Data mining is a research area in computer science that aims at developing methods for analyzing these databases, and especially finding different patterns and regularities in the data. Finding such patterns and regularities requires that we can describe how similar to each other two data objects are. Therefore, one of the central concepts in data mining is similarity between objects.

A typical data set considered in data mining is a relation that consists of a number of data objects with several attributes. One way of analyzing this kind of data is to study similarities between the attributes of the relation. We could, for example, define similarities between products sold in a supermarket by looking at how the customers buy these products.

Traditional approaches for defining similarity between two attributes typically consider only the values of those two attributes. Such similarity measures are often useful, but unfortunately they cannot describe all important types of similarity. Therefore, we introduce a new attribute similarity measure that also takes into account the values of other attributes in the relation. The behavior of the different measures is demonstrated on a collection of newswire articles and a set of course enrollment data.

Another important form of data considered in data mining is sequential data. This kind of data occurs in many application domains, such as telecommunication and World Wide Web page request monitoring. Analyzing such sequences of events gives us important knowledge about the behavior of a system or a user. This knowledge can, for example, be used in predicting severe faults in a telecommunication network. In this thesis we consider both similarities between event sequences and similarities between event types occurring in sequences.

Our approach to event sequence similarity is based on the idea that similarity between event sequences should reflect the amount of work that is needed to transform one event sequence into another. This work we define as an edit distance between sequences. We also give some experimental results on a telecommunication alarm sequence and a log of World Wide Web page requests.

As the third case of similarity notions, we study how similarity between types of events occurring in sequences could be defined. Intuitively, two event types are similar if they occur in similar contexts. We show different possibilities for how a context of an event can be extracted from a sequence, and ways of defining similarity between two event types by using their contexts. Results of experiments on the event type similarity with different measures are described on a telecommunication alarm sequence, a set of hemoglobin sequences, and a set of course enrollment data.

Welcome!