University of Helsinki - Department of Computer Science



Thesis Defence by Barbara Heikkinen


Title

Generalization of Document Structures and Document Assembly

Defender

Opponent

Custos

Language

  • Defence: Finnish
  • Thesis: English

Time and Place

  • Saturday, April 8, 2000
  • at 10
  • Auditorium XIV, University Main Building, Old Side, 2nd floor

Abstract/Fin  Abstract/Swe  Abstract/Eng

Dokumenttirakenteiden yleistäminen ja dokumenttien koostaminen

Tietoverkkojen käyttäjät pääsevät käsiksi lukuisiin digitaalisiin dokumenttikokoelmiin ja tietovarastoihin Internetin välityksellä. Käyttäjä selvästikin tarvitsee uudenlaisia työkaluja tiedon löytämiseen, yhdistelyyn ja uudelleenkäyttöön suurista dokumenttimassoista. Toisaalta loogisen rakenteen perusteella merkattujen dokumenttien määrä lisääntyy merkittävästi lähitulevaisuudessa, sillä XML (Extensible Markup Language) on saavuttanut erittäin nopeasti valtavan suosion monien tietotekniikan soveltajien keskuudessa.

XML:n avulla voidaan suunnitella erilaisia dokumenttirakenteita esimerkiksi artikkeleille, kirjoille, uutisille, teknisille dokumenteille sekä organisaatioiden sisäisille dokumenteille. XML-dokumentteja voidaankin käsitellä ja räätälöidä tarpeiden mukaan paljon monipuolisemmin kuin HTML-dokumentteja, joiden rakenne-elementit ovat ennalta määrättyjä ja kuvaavat lähinnä ulkoasuun liittyviä ominaisuuksia. Erilaiset XML-rakennemäärittelyt tuottavat kuitenkin ongelmia, kun halutaan yhdistää ja uudelleenkäyttää erirakenteisia dokumentteja eri kokoelmista.

Dokumenttien koostaminen on tietokoneavusteista uusien dokumenttien muodostamista dokumenttikokoelmista. Tällainen uudelleenkäyttö sisältää dokumenttien merkityksellisten katkelmien löytämistä, muokkaamista ja yhdistämistä koostedokumentiksi. Tässä väitöskirjassa kuvataan uudenlainen dokumenttien koostamisen malli, joka perustuu yhtenäisten ja toisistaan riippumattomien katkelmien monipuoliseen tunnistamiseen ja muokkaamiseen. Työssä esitellään sekä yleiskäyttöinen dokumenttien koostamisjärjestelmä nimeltään SAW että erikoistunut järjestelmä, jolla voidaan räätälöidä ja tilata oppikirjoja Internetin välityksellä.

Jotta koostedokumentteja voitaisiin edelleen käsitellä, täytyy alkuperäisten dokumenttien erilaiset rakenteet yhdenmukaistaa. Väitöskirjassa esitetään uusi elementtityyppien luokittelumenetelmä, joka helpottaa heterogeenisten rakenteiden yhdenmukaista käsittelyä. Menetelmä sisältää päättelysäännöt, joiden avulla mielivaltainen rakenne-elementti voidaan kuvata ennalta määritellyksi yleiseksi elementiksi. Yleiset elementtiluokat määritellään dokumenttityypin määrittelyssä (Document Type Definition, DTD), jota kutsutaan yleiseksi DTD:ksi. Tämä metarakenteiden määrittely kuvaa elektronisten dokumenttien tyypillisiä loogisia rakenteita.

Elementtityyppien luokittelumenetelmän päättely ei perustu elementtien nimiin, vaan menetelmä kokoaa tietämystä elementtien välisistä suhteista ja elementtien keskimääräisistä tekstipituuksista dokumenteissa. Tällä tavoin voidaan tunnistaa erilaisia rakenteita, kuten hierarkioita ja säiliöelementtejä, jotka muodostavat loogisia kokonaisuuksia. Menetelmä esitetään formaalisti käyttäen kielioppimorfismin käsitettä. Työ sisältää myös lukuisia käytännön esimerkkejä yleisten elementtiluokkien soveltamisesta, ja menetelmää on testattu useisiin julkisiin dokumenttityyppeihin. Dokumenttien koostamisen lisäksi elementtityyppien luokittelumenetelmän tuloksia voidaan käyttää hyväksi, kun automaattisesti generoidaan tyylimäärittelyjä rakenteisille dokumenteille.

Abstract/Swe  Abstract/Fin  Abstract/Eng

Generalisering av dokumentstrukturer och sammanställning av dokument

Internet gör en mängd digitala dokumentsamlingar och informationsarkiv tillgängliga för användare av informationsnät. Det är uppenbart att användaren behöver nya verktyg för att hitta, kombinera och återanvända informationen från de enorma mängderna dokument. Å andra sidan kommer dokumenten markerade enligt en logisk struktur att öka inom en nära framtid, eftersom XML (Extensible Markup Language) snabbt har nått stor popularitet bland IT-tillämpare.

Med hjälp av XML kan man planera olika dokumentstrukturer för, till exempel, artiklar, böcker, nyheter, tekniska dokument samt organisationers interna dokument. XML-dokument kan också behandlas och skräddarsys enligt behov, på ett mycket mera mångsidigt vis än HTML-dokument, vars strukturelement är förutbestämda, och mest har att göra med dokumentets utseende. Däremot förorsakar de olika XML-strukturspecifikationerna problem då man vill kombinera och återanvända dokument med olika strukturer från skilda samlingar.

Att sammanställa dokument är att forma nya dokument från befintliga dokumentsamlingar med hjälp av datorn. En sådan återanvändning innebär att man kan finna, redigera och kombinera relevanta avsnitt av dokument för att få ett collagedokument. Denna doktorsavhandling beskriver en ny modell för att sammanställa dokument. Modellen baserar sig på att sammanhängande utdrag, som är oberoende av varandra, kan igenkännas och redigeras på ett mångsidigt sätt. Avhandlingen presenterar både ett allmänt system för sammanställningen av dokument som kallas SAW, och ett specialiserat system med vilket man kan skräddarsy och beställa läroböcker från Internet.

För att kunna vidarebehandla collagedokument måste de olika strukturerna i de ursprungliga dokumenten förenhetligas. Avhandlingen presenterar en ny klassificeringsmetod för elementtyper som kommer att göra det enklare att behandla heterogena strukturer på ett enhetligt sätt. Metoden innehåller en härledningsprincip, enligt vilken man kan beskriva ett arbiträrt strukturelement som ett allmänt element som har definierats på förhand. De allmänna elementklasserna definieras i dokumenttypsdefinitionen (Document Type Definition, DTD), som kallas allmänt DTD. Denna definition av metastrukturer beskriver de typiska logiska strukturerna hos elektroniska dokument.

Klassificeringsmetoden för elementtyper härleds inte från elementens namn, utan metoden samlar data om förhållandet mellan element och om den genomsnittliga längden på elementtexterna i dokumenten. På detta sätt kan man identifiera olika strukturer, såsom hierarkier och elementbehållare som bildar logiska helheter. Metoden presenteras formellt med hjälp av begreppet grammatisk morfism. Avhandlingen innehåller också en mängd praktiska exempel på tillämpning av allmänna elementklasser, och metoden har testats på många typer av offentliga dokument. Förutom till att sammansätta dokument kan resultaten av klassificeringsmetoden tillämpas då man automatiskt genererar stilspecifikationer för strukturerade dokument.

Abstract/Eng  Abstract/Fin  Abstract/Swe

Generalization of Document Structures and Document Assembly

The accelerating evolution of the World Wide Web has made numerous digital document collections widely available for the public. There is a clear need for new tools that assist the user to gather, combine, and reuse information from existing document collections. On the other hand, the amount of fine-structured documents will enormously increase in the near future, since the Extensible Markup Language (XML) is rapidly gaining popularity in various communities. Compared to HTML, XML makes more versatile processing and customization of documents possible. However, explicit structuring using XML leads to heterogeneously structured document collections, which causes problems when combining and reusing fragments of documents.

Document assembly is the computer-aided construction of new documents from existing document collections. Such reuse includes finding relevant document fragments, modifying them as needed, and combining the fragments. This thesis describes a document assembly model based on versatile recognition and manipulation of document fragments that are coherent, contiguous, and relatively independent document parts used as the basis for new assemblies. We also introduce a general document assembly system SAW and a specialized system for tailoring textbooks via the Web.

If the assembled documents are to be further processed, the heterogeneous structures of the original documents also have to be unified. This work presents an element-type classification method that facilitates uniform processing of heterogeneous structures. The method contains a decision procedure for mapping an arbitrary structure element to a predefined generic class. The generic classes are defined in a Document Type Definition (DTD) called generic DTD, which can be seen as a metastructure definition describing typical logical structures of electronic documents.

The element-type classification extracts information from document instances by inspecting element relations and average text lengths of element instances. In this way various structures, such as hierarchies and element containers wrapping logical units, can be recognized. The method is formally presented by using the concept of grammar morphism. Various practical examples of applying the generic classes are provided, and the method is applied to several well-known public document types. In addition to document assembly, the results of the element-type classification method can be used, for instance, in automatic generation of stylesheets for structured documents.


Welcome!