Preservation Metadata in de praktijk

Dit keer een gastblog van Liesbeth van Wijk. Zij bezocht op 19 juni samen met Niels Molenaar de workshop preservation metadata in de praktijk.

De workshop met lezingen en discussie op 19 juni in de KB was wegens grote belangstelling voor de tweede maal dit jaar georganiseerd door Beel d en Geluid en NCDD. Er waren ongeveer 70 mensen van zeer diverse instellingen.

Tijdens de hele dag kwamen diverse datamodellen voor duurzame opslag van digitaal materiaal voorbij: het SPOT-model, het OAIS-model en PREMIS. Eerst werd de algemene theorie uitgelegd door Titia van der Werf, programmamanager bij OCLC Research. In vier casussen kwam de praktijk aan de orde. Hierin kwamen de drie modellen ook steeds terug. Het zijn geen normatieve standaarden, die precies voorschrijven hoe je je systemen moet inrichten. Het zijn handige kapstokken waarmee je kunt nagaan of je aan alles gedacht hebt en die je bewust maken van alle keuzes die je moet maken.

Titia van der Werf begon metadata in te delen naar functie (bv. discovery, access, management) en typen (bv. beschrijvend, technisch, administratief). Duurzaam opslaan (“preservation”) is de verantwoordelijkheid van erfgoedinstellingen en kent een aantal uitdagingen: de hoeveelheid digitale informatie (risico van duplicatie), complexitieit, afhankelijkheid van hardware en software, snelle technologische veranderingen. Daar komt recent bij de uitdaging van duurzaam opslaan van digital born collecties. Vragen met het oog op de toekomst daarbij zijn: hoe blijft iets bewaard en raadpleegbaar, ook als de techniek verandert? En hoe bepaal je de authenticiteit van een digital born object?

SPOT-model

Het SPOT-model (Simple Property-Oriented Threat Model for Risk Assessment) beschrijft zes essentiële kenmerken van succesvolle digitale duurzaamheid (in het engels availability, identity, persistence, renderability, understandability, and authenticity) en voor elk kenmerk risico’s en bedreigingen (zie bijlage). Zie ook: https://www.dlib.org/dlib/september12/vermaaten/09vermaaten.html.

PM1

 

OAIS-model

Een conceptueel model voor beheeractiviteiten is het OAIS-model: het Open Archival Information System Reference Model (ISO-standaard sinds 2002). Zie deze pagina van NCDD: https://www.ncdd.nl/blog/?page_id=447. Het kan dienen als gids bij het ontwerpen van digital repositories en als benchmark voor het beoordelen van bestaande repositories. Het is een procesmodel, dat beschrijft hoe materialen beheerd worden in de verschillende stappen in het systeem.

PM2

 

Buiten het model in de omgeving zie je drie actoren: producer, consumer en management. In het model zijn de blauwe blokjes diverse activiteiten:

  • Ingest
  • Archival Storage.
  • Data Management.
  • Administration
  • Access
  • Preservation Planning.
  • Common Services

Een belangrijk begrip hierbij is Information Package (IP): een package is een bestand plus metadata. Daarvan zie je in het model drie varianten, in verschillende stadia (witte bolletjes) in het proces:

  • SIP = Submission Information Package

het bestand plus de metadata die de leverancier van de informatie meelevert aan het digitaal archief

  • AIP = Archivel Information Package

het digitaal archief voegt weer allerlei eigen metadata toe (bijv. catalogusinformatie) en slaat het geheel op als AIP

  • DIP = Dissemination Information Package.

als een gebruiker de informatie opvraagt, maakt het digitaal archief een ‘package’ met het bestand en alleen de metadata die de gebruiker nodig heeft.

Vooral in het AIP komen de preservation metadata om de hoek kijken. De verschillende soorten metadata zijn:

  • Reference metadata (unieke, persistent identifier)
  • Provenance Information: waar komt het object vandaan
  • Context information: relatie tot andere objecten, bv. in EAD of METS
  • Fixity information: bewijs van authenticiteit.

PM3

PREMIS Data Dictionary

PREMIS (Preservation Metadata: Implementation Strategies) bevat een ‘data dictionary’ met alle mogelijke preservation metadata is in digitale archiefsystemen. Rosetta (Ex Libris) implementeert PREMIS, evenals OCLC’s Digital Archive. PREMIS is gebaseerd op het OAIS-referentiemodel en bevat vijf entiteiten die elk hun eigen metadata hebben.

PM4

Intellectual entity

  • Het origineel, een intellectuele eenheid voor beheer en beschrijving (bv. een boek, een foto).
  • Heeft één of meer digitale representaties
  • Kan andere intellectuele entiteiten omvatten (een website bevat bv. meerdere webpagin’s)
  • wordt opgeslagen in de repository
  • kan één file bevatten, maar ook een aantal files die samen een intellectuele entiteit voorstellen, vgl een object in Digitool, een METS die een boek beschrijft.
  • Een handeling die het object betreft (bv. validering, ingest, conversie).
  • Bij een event horen ook metadata: wat gebeurde er, wanneer?
  • Een persoon, een organisatie of software programma/systeem verbonden met een event of een recht. Agents zijn alleen indirect aan objecten gelinkt via events of rights statements
  • Copyright, intellectuele rechten

Objects

  • wordt opgeslagen in de repository
  • kan één file bevatten, maar ook een aantal files die samen een intellectuele entiteit voorstellen, vgl een object in Digitool, een METS die een boek beschrijft.

Events

  • Een handeling die het object betreft (bv. validering, ingest, conversie).
  • Bij een event horen ook metadata: wat gebeurde er, wanneer?

Agents

  • Een persoon, een organisatie of software programma/systeem verbonden met een event of een recht. Agents zijn alleen indirect aan objecten gelinkt via events of rights statements

Rights statements

  • Copyright, intellectuele rechten

In het kader van PREMIS is “preservation metdata” informatie in een repository gebruikt tbv digitale duurzamheids en toekomstvaste documentatie van digitale objecten. De PREMIS data dicitionary is onafhankelijk van platform, technologie, hardware. Bij het ontwikkelen is gelet op uitvoerbaarheid, presenteerbaarheid, begrijpelijkheid, authenticiteit, identiteit in een duurzame context en technische neutraliteit. Er worden geen aannames gedaan over specifieke technologie, systeemarchitectuur, e.d.

Het is een richtlijn, een checklist, een gids voor locale implementatie, standaard voor uitwisseling tussen repositories. Het is NIET een out-of-the-box oplossing.

Nut voor de UB

Deze modellen kunnen we gebruiken om meer structuur aan te brengen in het denken over duurzaam opslaan van digitale collectie, de inrichting van een nieuwe repository, e-depot enz.

Met welke doelen doen we dat en welke metadata hebben we daarvoor nodig? Deze modellen kunnen helpen geen belangrijke aspecten over het hoofd te zien en goede keuzes te maken. Hebben we daarvoor alle drie modellen nodig of één of twee?

Dit sluit mooi aan bij het nu lopende project “Beleidsadvies Bijzondere Collecties” waarin wordt vastgelegd hoe we in de komende jaren met de Digitale Collecties zullen omgaan en welke prioriteiten en speerpunten aangepakt gaan worden.