Thesis Defence by
Barbara Heikkinen
|
Title
Generalization of Document Structures and Document Assembly
Defender
Opponent
Custos
Language
- Defence: Finnish
- Thesis: English
Time and Place
- Saturday, April 8, 2000
- at 10
- Auditorium XIV, University Main Building, Old
Side, 2nd floor
Dokumenttirakenteiden yleistäminen ja dokumenttien koostaminen
Tietoverkkojen käyttäjät pääsevät käsiksi lukuisiin digitaalisiin
dokumenttikokoelmiin ja tietovarastoihin Internetin välityksellä.
Käyttäjä selvästikin tarvitsee uudenlaisia työkaluja tiedon
löytämiseen, yhdistelyyn ja uudelleenkäyttöön suurista
dokumenttimassoista. Toisaalta loogisen rakenteen perusteella
merkattujen dokumenttien määrä lisääntyy merkittävästi
lähitulevaisuudessa, sillä XML (Extensible Markup Language) on
saavuttanut erittäin nopeasti valtavan suosion monien tietotekniikan
soveltajien keskuudessa.
XML:n avulla voidaan suunnitella erilaisia dokumenttirakenteita
esimerkiksi artikkeleille, kirjoille, uutisille, teknisille
dokumenteille sekä organisaatioiden sisäisille dokumenteille.
XML-dokumentteja voidaankin käsitellä ja räätälöidä tarpeiden mukaan
paljon monipuolisemmin kuin HTML-dokumentteja, joiden
rakenne-elementit ovat ennalta määrättyjä ja kuvaavat lähinnä
ulkoasuun liittyviä ominaisuuksia. Erilaiset XML-rakennemäärittelyt
tuottavat kuitenkin ongelmia, kun halutaan yhdistää ja
uudelleenkäyttää erirakenteisia dokumentteja eri kokoelmista.
Dokumenttien koostaminen on tietokoneavusteista uusien dokumenttien
muodostamista dokumenttikokoelmista. Tällainen uudelleenkäyttö
sisältää dokumenttien merkityksellisten katkelmien löytämistä,
muokkaamista ja yhdistämistä koostedokumentiksi. Tässä
väitöskirjassa kuvataan uudenlainen dokumenttien koostamisen malli,
joka perustuu yhtenäisten ja toisistaan riippumattomien katkelmien
monipuoliseen tunnistamiseen ja muokkaamiseen. Työssä esitellään
sekä yleiskäyttöinen dokumenttien koostamisjärjestelmä nimeltään SAW
että erikoistunut järjestelmä, jolla voidaan räätälöidä ja tilata
oppikirjoja Internetin välityksellä.
Jotta koostedokumentteja voitaisiin edelleen käsitellä, täytyy
alkuperäisten dokumenttien erilaiset rakenteet yhdenmukaistaa.
Väitöskirjassa esitetään uusi elementtityyppien luokittelumenetelmä,
joka helpottaa heterogeenisten rakenteiden yhdenmukaista
käsittelyä. Menetelmä sisältää päättelysäännöt, joiden avulla
mielivaltainen rakenne-elementti voidaan kuvata ennalta määritellyksi
yleiseksi elementiksi. Yleiset elementtiluokat määritellään
dokumenttityypin määrittelyssä (Document Type Definition, DTD),
jota kutsutaan yleiseksi DTD:ksi. Tämä metarakenteiden määrittely
kuvaa elektronisten dokumenttien tyypillisiä loogisia rakenteita.
Elementtityyppien luokittelumenetelmän päättely ei perustu
elementtien nimiin, vaan menetelmä kokoaa tietämystä elementtien
välisistä suhteista ja elementtien keskimääräisistä tekstipituuksista
dokumenteissa. Tällä tavoin voidaan tunnistaa erilaisia rakenteita,
kuten hierarkioita ja säiliöelementtejä, jotka muodostavat loogisia
kokonaisuuksia. Menetelmä esitetään formaalisti käyttäen
kielioppimorfismin käsitettä. Työ sisältää myös lukuisia käytännön
esimerkkejä yleisten elementtiluokkien soveltamisesta, ja menetelmää
on testattu useisiin julkisiin dokumenttityyppeihin. Dokumenttien
koostamisen lisäksi elementtityyppien luokittelumenetelmän tuloksia
voidaan käyttää hyväksi, kun automaattisesti generoidaan
tyylimäärittelyjä rakenteisille dokumenteille.
Generalisering av dokumentstrukturer och sammanställning av dokument
Internet gör en mängd digitala dokumentsamlingar och informationsarkiv
tillgängliga för användare av informationsnät. Det är uppenbart att
användaren behöver nya verktyg för att hitta, kombinera och
återanvända informationen från de enorma mängderna dokument. Å andra
sidan kommer dokumenten markerade enligt en logisk struktur att öka
inom en nära framtid, eftersom XML (Extensible Markup Language)
snabbt har nått stor popularitet bland IT-tillämpare.
Med hjälp av XML kan man planera olika dokumentstrukturer för, till
exempel, artiklar, böcker, nyheter, tekniska dokument samt
organisationers interna dokument. XML-dokument kan också behandlas
och skräddarsys enligt behov, på ett mycket mera mångsidigt vis än
HTML-dokument, vars strukturelement är förutbestämda, och mest har
att göra med dokumentets utseende. Däremot förorsakar de olika
XML-strukturspecifikationerna problem då man vill kombinera och
återanvända dokument med olika strukturer från skilda samlingar.
Att sammanställa dokument är att forma nya dokument från befintliga
dokumentsamlingar med hjälp av datorn. En sådan återanvändning
innebär att man kan finna, redigera och kombinera relevanta avsnitt
av dokument för att få ett collagedokument. Denna doktorsavhandling
beskriver en ny modell för att sammanställa dokument. Modellen
baserar sig på att sammanhängande utdrag, som är oberoende av
varandra, kan igenkännas och redigeras på ett mångsidigt sätt.
Avhandlingen presenterar både ett allmänt system för
sammanställningen av dokument som kallas SAW, och ett specialiserat
system med vilket man kan skräddarsy och beställa läroböcker från
Internet.
För att kunna vidarebehandla collagedokument måste de olika
strukturerna i de ursprungliga dokumenten förenhetligas.
Avhandlingen presenterar en ny klassificeringsmetod för elementtyper
som kommer att göra det enklare att behandla heterogena strukturer
på ett enhetligt sätt. Metoden innehåller en härledningsprincip,
enligt vilken man kan beskriva ett arbiträrt strukturelement som ett
allmänt element som har definierats på förhand. De allmänna
elementklasserna definieras i dokumenttypsdefinitionen (Document Type
Definition, DTD), som kallas allmänt DTD. Denna definition av
metastrukturer beskriver de typiska logiska strukturerna hos
elektroniska dokument.
Klassificeringsmetoden för elementtyper härleds inte från elementens
namn, utan metoden samlar data om förhållandet mellan element och om
den genomsnittliga längden på elementtexterna i dokumenten. På detta
sätt kan man identifiera olika strukturer, såsom hierarkier och
elementbehållare som bildar logiska helheter. Metoden presenteras
formellt med hjälp av begreppet grammatisk morfism. Avhandlingen
innehåller också en mängd praktiska exempel på tillämpning av
allmänna elementklasser, och metoden har testats på många typer av
offentliga dokument. Förutom till att sammansätta dokument kan
resultaten av klassificeringsmetoden tillämpas då man automatiskt
genererar stilspecifikationer för strukturerade dokument.
Generalization of Document Structures and Document Assembly
The accelerating evolution of the World Wide Web has made numerous
digital document collections widely available for the public. There is
a clear need for new tools that assist the user to gather, combine,
and reuse information from existing document collections. On the other
hand, the amount of fine-structured documents will enormously increase
in the near future, since the Extensible Markup Language (XML) is
rapidly gaining popularity in various communities. Compared to HTML,
XML makes more versatile processing and customization of documents
possible. However, explicit structuring using XML leads to
heterogeneously structured document collections, which causes problems
when combining and reusing fragments of documents.
Document assembly is the computer-aided construction of new
documents from existing document collections. Such reuse includes
finding relevant document fragments, modifying them as needed, and
combining the fragments. This thesis describes a document assembly
model based on versatile recognition and manipulation of document
fragments that are coherent, contiguous, and relatively independent
document parts used as the basis for new assemblies. We also introduce
a general document assembly system SAW and a specialized system for
tailoring textbooks via the Web.
If the assembled documents are to be further processed, the
heterogeneous structures of the original documents also have to be
unified. This work presents an element-type classification
method that facilitates uniform processing of heterogeneous
structures. The method contains a decision procedure for mapping an
arbitrary structure element to a predefined generic class. The
generic classes are defined in a Document Type Definition (DTD) called
generic DTD, which can be seen as a metastructure definition
describing typical logical structures of electronic documents.
The element-type classification extracts information from document
instances by inspecting element relations and average text lengths of
element instances. In this way various structures, such as hierarchies
and element containers wrapping logical units, can be recognized. The
method is formally presented by using the concept of grammar
morphism. Various practical examples of applying the generic classes
are provided, and the method is applied to several well-known public
document types. In addition to document assembly, the results of the
element-type classification method can be used, for instance, in
automatic generation of stylesheets for structured documents.
|