Open en online Onderwijs, de bibliotheek en de opslag van leermiddelen

Open en Online Onderwijs

Op 20 maart – in de Open Education Week, alweer een tijdje geleden – was ik aanwezig bij een Themamiddag over Bibliotheken en Open en Online onderwijs van SURFnet in samenwerking met de SHB en UKB. Daar werden o.a. de eerste resultaten van een verkenning naar de rol die bibliotheken voor zichzelf zien bij open en online onderwijs gepresenteerd. Deze verkenning werd in opdracht van Surf uitgevoerd door dr. Karianne Vermaas (WAU?!). Het rapport is verder aangevuld met de resultaten van de discussie tijdens de bijeenkomst, en op 19 mei 2015 gepresenteerd: De rol van de bibliotheek in open en online onderwijs: een verkenning.

Voor de verkenning heeft Vermaas ca. 30 Hoger Onderwijs-instellingen bevraagd. Daarbij stuitte zij op veel verwarring over de definitie van ‘open en online onderwijs’. Veel verwarring in de definitie. Want wat is eigenlijk Open? Dat het gratis is? Dat je het kunt volgen wanneer je wilt? Maar veel MOOCs – toch het voorbeeld bij uitstek van open en online onderwijs – hebben een vaste begin- en einddatum. Gaat het dan om vrije toegankelijkheid? Maar wederom bij MOOCs heb je vaak een account nodig om deel te nemen. Dat account kan dan wel weer iedereen aanmaken, er zijn geen ingangseisen. Maar is dat vrij, en open?
In de inventarisatie is gekozen voor de definitie dat het materiaal gepubliceerd met een open licentie, zodat hergebruik en aanpassing binnen een andere context mogelijk wordt. Een ietwat bijzondere keus naar mijn mening.

Open en online onderwijs staat in ieder geval bij de meeste instellingen nog in de kinderschoenen en bibliotheken oriënteren zich nog op hun rol. Deze hangt tevens af van de positie die zij in de organisatie innemen. Bij sommige instellingen zit de bibliotheek dicht op het onderwijs, bij andere staat zij er verder van weg.

Als meer traditionele rollen bij Open en online onderwijs worden advies over auteursrechten en licenties, opslag en ontsluiting van materiaal, en het bijbrengen van informatievaardigheden genoemd. Het eerstgenoemde is feitelijk al een vrij moderne rol, aangezien deze direct gekoppeld is aan het ‘digitale tijdperk’. De informatievaardighedenrol kan verschillende vormen aannemen, zoals het aanbieden van eigen open cursusmateriaal van de bibliotheek, maar ook het ondersteunen van faculteiten bij het aanbieden en vinden van open leermateriaal.

Andere rollen die in de inventarisatie ter sprake kwamen zijn content-creatie (ondersteuning bij het maken van onderwijsmateriaal, zoals video’s), content-curatie (selecteren en ordenen van online beschikbaar onderwijsmateriaal, in het verlengde van de klassieke taak van de bibliotheek) en het stimuleren en aanjagen van open en online onderwijs. Ook biedt de bibliotheek bij sommige instellingen een experimenteerruimte: een soort ICTO- of innovatielab met ‘open’ pc’s waarop docenten en studenten alles kunnen uitproberen wat (nog) niet centraal wordt ondersteund. Voorbeelden daarvan zijn EdLab Universiteit Maastricht, Digital Learning Lab Hogeschool Rotterdam, Explora Innovatielab Avans. Bij deze instellingen zit de bibliotheek dicht op het onderwijs. In Leiden is de ICTO-ondersteuning facultair georganiseerd en ontbeert daarom een centrale plek waar alle expertise bij elkaar komt. Wellicht kan de UBL een dergelijke ruimte bieden door de handen met de ICTO-ondersteuners, het ICLON en het ISSC ineen te slaan?

Over opslag van onderwijsmateriaal werd in de presentatie aanvankelijk vrij snel heen gegaan, maar hier werd later tijdens de bijeenkomst op teruggekomen. Waar dit in het gedrukte tijdperk over boekenplanken ging, gaat het nu om servers en repositories. Online beschikbaar materiaal is een randvoorwaarde voor de onderwijstrend van ‘flipped classroom’, die beoogt dat studenten de stof op eigen gelegenheid tot zich nemen zodat de contacturen kunnen worden gereserveerd voor interactie (en niet voor uitleg).

De UBL is tot nu toe terughoudend wat betreft de opslag van leermaterialen. Er hangen aan dit materiaal dan ook enkele ingewikkelde aspecten: De rechten van het gebruikte leermateriaal liggen vaak niet bij de eigen instelling, en het materiaal kan vele vormen aannemen (teksten, afbeeldingen, powerpoints, video, audio, interactief materiaal, etc.).
De UBL heeft nu 2 repositories, die eind 2015 in een gezamenlijke infrastructuur moeten zijn ondergebracht: Het Leiden Repository in DSpace met ‘Leidse’ wetenschappelijke publicaties en scripties (alleen zelfgeproduceerd materiaal dus), en Digital Special Collections in Digitool (veelal rechtenvrij). Het online beschikbaarstellen van (verzamelingen van) materiaal van anderen zonder de rechten goed te regelen is tricky, en dat geldt ook in een besloten systeem.

In de praktijk slaan docenten het onderwijsmateriaal bij een cursus (dat niet online of niet voor een Leidse doelgroep beschikbaar is) direct in Blackboard op, desnoods eigenhandig gedigitaliseerd. Maar dit is – ook voor zelf geproduceerd materiaal – geen geschikte opslagplek. Items zijn niet vindbaar en herbruikbaar door collega-docenten, en bij gebruik in meerdere cursussen (ook van dezelfde docent) moeten deze vaak dubbel worden ingevoerd. Videomateriaal neemt veel serverruimte in beslag, waardoor de licentiekosten van Blackboard (het opslaggedeelte) hoog oplopen. Dit is momenteel een serieus issue, waaraan de nieuwe Leidse streaming video dienst (opvolger van U-Stream) soelaas moet bieden.

Dit project heeft helaas inmiddels een flinke vertraging opgelopen, maar ook als de streaming dienst straks wordt gelanceerd, blijft de vraag wat je er precies in mag opslaan en onder welke voorwaarden. Alleen eigen materiaal? Ook materiaal van anderen, maar dan alleen met toestemming en wellicht besloten? Hoe regel je dat? Inhoudelijk gaat het sowieso om hybride materiaal: leermiddelen (kennisclips en andere educatieve video), (populair-)wetenschappelijke producties (zelf vervaardigde documentaires, presentaties voor vakgenoten of een breed publiek), wervingsmateriaal (PR-video’s), maar ook onderzoeksdata (opnamen van testpersonen, veldwerkopnamen, etc.).
Maar zou je er ook er ook een collectie gedownloade video’s in kunnen opslaan die je wilt ‘veiligstellen’ voor onderzoek, of een op internet gevonden video die jouw onderwijs goed illustreert?

Zo moet er in het kader van de nieuwe videodienst moet over veel zaken nagedacht gaan worden die ook op andere repositories toepasbaar zijn. Wellicht komen we zo tot randvoorwaarden, waaronder in het nieuwe Leidse repository (op termijn) ook leermiddelen ook opgeslagen zouden kunnen worden. Hand in hand!

Van GGC naar WorldShare

images

Het is zeker niet de belangrijkste vraag in bibliotheekland, maar wel al jaren de meest gestelde: is het nu dé GGC of hét GGC? GGC staat voor Gemeenschappelijk Geautomatiseerd Catalogiseersysteem en dus is ‘het’ correct, maar bij afkortingen wil de onzijdigheid nog wel eens verdwijnen. Datzelfde geldt voor de de/het-vraag, want in een paar stappen zullen we afscheid nemen van het GGC (laat ik het daar maar op houden). De UKB-bibliotheken stappen over op WorldShare (zonder lidwoord), ook van OCLC. WorldShare is, heel kort door de bocht, een internationale GGC. Overgang naar WorldShare betekent dat we aansluiten bij internationale standaarden en regels, dat we beter gebruik kunnen maken van metadata die door leveranciers wordt geleverd en dat we efficiënter kunnen werken. Bovendien is de verwerking van papier en elektronisch materiaal in WorldShare beter geïntegreerd dan in het GGC.

Voor de oppervlakkige beschouwer lijkt de overgang naar WorldShare misschien een fluitje van een cent. Onze gegevens zitten er immers al in. Maar zoals meestal in het leven is de werkelijkheid net iets genuanceerder. In de loop der jaren is het grootste deel van het Leidse bezit inderdaad overgezet naar WorldCat, maar de kwaliteit van de conversie was aanvankelijk nog niet optimaal en daarom moet er nog wel wat herstelwerkzaamheden verricht worden. Bovendien staan de exemplaargegevens nog niet in WorldCat. Die slag moet nog gemaakt.

Maar de overgang brengt meer wijzigingen met zich mee. Zo zullen we afscheid nemen van WinIBW. Hiervoor in de plaats komt de gloednieuwe editor Record Manager. Het Picaformaat wordt ingeruild voor het internationaal veel meer ingeburgerde Marc21. Ook het IBL-systeem zal op termijn vervangen worden door een WorldShare-variant. Omdat dit nieuwe systeem voorlopig nog even op zich laat wachten, zal ook na de overgang naar WorldShare het GGC nog in gebruik blijven om de interbibliothecaire verkeer in stand te houden.


Capture


OCLC biedt een totaaloplossing met naast WorldCat onder meer een backendsysteem, maar de overgang naar WorldCat betekent niet dat we automatisch ook de andere producten gaan afnemen. Over de toekomst van onze linkresolver (nu is dat SFX) is bijvoorbeeld nog geen beslissing genomen.

De grote vraag is nu natuurlijk wanneer de overgang naar WorldCat gaat plaatsvinden. UKB en OCLC werken samen in een landelijk project. De universiteiten zullen één voor één, of hooguit in groepjes van 2 of 3 overgaan. De TU Delft bijt het spits af. Volgens de huidige planning zullen zij in juli gaan catalogiseren in WorldShare. Leiden zal zoals het er nu naar uitziet in de zomer van 2016 overgaan. We hopen tegen die tijd meer duidelijkheid te hebben over ons backendsysteem. Blijft het Aleph? Wordt het de opvolger Alma? Of wordt het toch WMS? Omdat WorldShare en het backendsysteem voor een groot deel gebruik maken van dezelfde gegevens zijn dat belangrijke vragen. Bovendien staat ons begin 2016 een grote verhuizing van collecties te wachten. Het is beter om zo’n grote operatie te doen in een systeem waarin we helemaal thuis zijn. En natuurlijk betekent het achteraan aansluiten ook dat we minder geconfronteerd worden met kinderziektes (want die zijn er nu eenmaal altijd). Dat betekent overigens niet dat we tot die tijd achterover leunen. We kunnen nu al veel doen om ervoor te zorgen dat we straks geolied en zonder onnodig verlies aan kwaliteit de stap kunnen maken. Er is daarom nu al een projectgroep in het leven geroepen.

Maar we hoeven we niet tot de zomer van 2016 te wachten op nieuwe OCLC-producten, want eind dit jaar zal de vervanger van Picarta, WorldCat Discovery, in gebruik worden genomen. Overigens betekent dat niet we daarmee direct afscheid nemen van Picarta: dat blijft nog tot een niet nader genoemde datum beschikbaar.


ISIL code!? Welke ISIL code!?

mistakes-300px

Sinds 2004 beschikken we over een internationale standaard voor de unieke identificatie van organisaties die actief zijn op het gebied van bibliografische informatie, zoals bibliotheken, archieven en musea. Hiervoor wordt gebruik gemaakt van de zogenaamde ISIL code. Nationaal en ook internationaal richten we steeds meer gezamenlijke data- en infrastructuren in. Dit maakt het noodzakelijk om eenduidig te kunnen verwijzen naar de herkomst van de data, zoals een bibliografische beschrijving, of een gedigitaliseerd werk. Je moet dus in één oogopslag kunnen zien wat de herkomst van de beschrijving of de scans is en waar het originele, fysieke werk zich bevindt. Dat die eenduidige verwijzing minder vanzelfsprekend is dan het lijkt wordt duidelijk wanneer je een aantal portalen waaraan de UBL de afgelopen jaren scans en metadata heeft geleverd met elkaar vergelijkt :

  • In Delpher, waar gedigitaliseerde oude drukken in zijn opgenomen, zijn wij netjes te vinden als “Leiden, Universiteitsbibliotheek”;
  • Maar in de Daguerreobase – de collectieve catalogus voor daguerreotypieën – zitten onze collecties als “Collectie Prentenkabinet Leiden”;
  • En op de website van het Geheugen van Nederland zijn onze digitale collecties opgenomen als “Bijzondere Collecties Leiden”.

In de eerste plaats is dit verwarrend voor gebruikers die niet bekend zijn met de geschiedenis van de Leidse universiteitsbibliotheek. Zij kunnen denken dat het hier om drie verschillende collecties gaat. Maar je kunt je ook voorstellen dat dit ook zorgt voor problemen wanneer we de collecties via één gezamenlijke website willen gaan aanbieden. Ontdubbeling wordt dan bijvoorbeeld heel lastig. Daarom werkt ook Bureau Metamorfoze sinds kort met ISIL codes voor het administreren van instellingen, metadata en scans. Tijdens de aanvraag voor de digitalisering van het archief van Christiaan Snouck Hurgronje werd ook ons voor het eerst gevraagd om onze UBL ISIL code op te geven.
In elk land treed de nationale bibliotheek op als ISIL-beheerorganisatie. In Nederland is dit de KB, maar die heeft deze taak gedelegeerd aan een aantal andere Nederlandse organisaties. Voor archiefdiensten en historische verenigingen is de toekenning van identifiers gedelegeerd aan het Nationaal Archief. Voor de openbare bibliotheken is de Stichting Bibliotheek.nl verantwoordelijk en de ISIL codes voor wetenschappelijke en speciale bibliotheken worden toegekend door OCLC. Handig, want hierdoor is in WorldCat altijd direct te zien wie verantwoordelijk is voor een beschrijving in de catalogus.

Helaas is de onderlinge afstemming niet helemaal goed geregeld. We kwamen er namelijk al snel achter dat er verschillende codes circuleren.

  • Volgens de WorldCat registry van OCLC zijn aan UBL twee ISIL codes toegekend: NL-L2U en OCLC-L2U
  • Volgens OCLC PICA is onze ISIL code echter NL-0200050000

De verwarring is nog groter geworden doordat er ook bibliotheken met erfgoedcollecties zijn die een ISIL-code aanvragen bij het Nationaal Archief. De codes die het NA toekent zijn aantrekkelijker om in de bestandsnaam van scans en andere digitale documenten op te nemen dan de ISIL-code van OCLC-PICA. Voor Leiden zou de code moeten zijn: NL-LdnUBL. 

En mocht je denken: hé die ISIL codes van het Nationaal Archief  lijken wel wat op de Marc code for libraries…dat klopt! Deze code is namelijk NL-LeU. In onder meer België en Duitsland fungeert de ISIL-code tevens als MARC Organization Code en worden één en dezelfde code dus voor beide gebruikt.

De ISIL heeft dus geen vaste structuur, kan door meerdere instellingen los van elkaar worden toegekend, en er is overlap met de standaard coderingen van Marc. Snapt u het? Nou, wij ook niet!

Na onderzoek door de KB en OCLC is vast komen te staan dat de juiste ISIL code voor UB Leiden NL-0200050000 moet zijn. Wanneer je op deze lijst kijkt, dan zie je dat NL-0200050000 inderdaad de juiste code is en dat L2U een library symbol is (en dus geen code). Maar Bureau Metamorfoze had ons inmiddels al opgedragen om NL-L2U te gebruiken. Gelukkig konden we dat nog snel corrigeren.

Wel zijn we er zo achter gekomen dat we zelf ook niet altijd de juiste codes hebben gebruikt in  de EAD.xml van onze collectiebeschrijvingen. Hier hebben wij namelijk altijd (consequent, dat wel 😉 de Marc code NL-LeU genoteerd, in plaats van de verplichte ISIL code. Zoals Liesbeth van Wijk tijdens het laatste Broodje Kennis vertelde, hebben we onze collectiebeschrijvingen al in Archivegrid laten opnemen, en we hebben plannen met Apenet en Archieven.nl. Om echt goed voorbereid te zijn op de toekomst zullen we die nog moeten aanpassen. En we zullen op korte termijn contact op moeten nemen met WorldCat, zodat wij ook op de juiste manier in hun Registry vermeld worden.

Zo zie je maar, zelfs een bibliothecaris vergist zich wel eens….

SWIB14

Begin december 2014 werd SWIB14 gehouden in Bonn, Duitsland. Dit is een conferentie over het Semantisch Web in bibliotheken, die dit jaar over Linked Open Data ging.
Linked Open Data is een manier om gestructureerde data te publiceren op zo’n manier dat de data met elkaar verbonden is, vrij toegankelijk is (open) en op een betekenisvolle manier bevraagd kan worden. Linked Open Data maakt gebruik van technieken als HTTP, URI en RDF.
Wat bovenstaande precies inhoudt en ook hoe het toe te passen is, daar ging de conferentie over.
De conferentie zelf was 2 dagen, maar de dag ervoor werden er workshops gegeven. Ik ben naar de workshop “Introduction to Linked Open Data” geweest:
Het internet draaide eerst helemaal om computers (computers met elkaar verbonden), later om documenten (websites), maar binnen het semantische web draait eigenlijk alles om dingen. Tja, dingen, en wat zijn dat dan die dingen, vraag je je misschien af. Nou, dat kan van alles zijn; boeken, documenten (dus ook weer websites), personen, maar ook concepten of ideeën.
Over die dingen kan je dingen beweren, zoals die auto is rood of dat boek is geschreven door “Douglas Adams”. De dingen zijn dan “die auto” en “dat boek”, maar ook “rood” en “Douglas Adams”. Een bewering wordt gedaan in de vorm subject-predicate-object, ook wel triple genaamd. Bijvoorbeeld bij de bewering “die auto is rood” is “die auto” het subject, “is” is het predicaat en “rood” is het subject.
Als je uitspraken over dingen wilt doen en die met anderen wilt delen, moet je die dingen wel uniek kunnen identificeren. Dit doe je met behulp van URI’s. Maar ook de predicaten worden met URI’s aangeduid. Maar dat is niet voldoende; je moet ook afspraken maken wat wat betekent en dat een en hetzelfde ding of predicaat dezelfde URI heeft. Hiervoor is het nodig om een vocabulary (woordenschat) te gebruiken.
Er zijn verschillende vocabularies beschikbaar, zoals FOAF, DBpedia, DC terms. En voor bijna elk ding is wel een vocabulary te vinden, bijvoorbeeld via Linked Open Vocabularies.

Linked Open Data in de praktijk
Linked Open Data kan op verschillende manieren genoteerd worden, zoals Turt> le, N3, RDFa, RDF/XML en JSON-LD). Turtle is de meest simpele manier waar vrij duidelijk te zien is dat alles in triples (subject-predicate-object) beschreven kan worden:

<isbn:0330258648> <httpː//purl.org/dc/elements/1.1/creator> "Douglas Adams" .
<isbn:0330258648> <httpː//purl.org/dc/elements/1.1/title> "The Hitchhiker's Guide to the Galaxy" .

Hier zijn de drie delen goed te zien. Let op de punt op het eind.
Als meerdere statements over hetzelfde ding geschreven moeten worden, dan gaat het vervelen om steeds weer het subject in zijn geheel op te schrijven. Ook het gebruikte vocabulair kan korter (of eigenlijk eenmalig) opgeschreven worden:

@prefix dc: <httpː//purl.org/dc/elements/1.1/>
<isbn:0330258648> dc:creator "Douglas Adams" ;

dc:title "The Hitchhiker's Guide to the Galaxy" .
De titel van het boek is nu in het Engels, terwijl dat niet duidelijk gemaakt is. Bovendien willen we wellicht ook de Nederlandse titel kwijt:

@prefix dc: <httpː//purl.org/dc/elements/1.1/>
<isbn:0330258648> dc:creator "Douglas Adams" ;

dc:title "The Hitchhiker's Guide to the Galaxy"@en,
"Het Transgalactisch liftershandboek"@nl .

 

Wat is nu het grote voordeel van linked open data?

  • verbonden: het is linked open data. Als de dingen met een URI benoemd worden, kan de data makkelijk met elkaar verbonden worden omdat duidelijk is dat over hetzelfde ding gesproken wordt;
  • open: de data is vrij toegankelijk. Niet alleen omdat het niks (of in elk geval weinig) kost, maar ook omdat er geen restricties op het gebruik zitten;
  • eenduidig: doordat er gebruik wordt gemaakt van URI’s, kunnen de dingen eenduidig benoemd worden, ook als ze in praktijk dezelfde naam hebben. Bijvoorbeeld bij het woord “venus” kan de planeet, de godin, de plaats (in Florida, Roemenie of Texas), de film, het lied, de popgroep, het scheermes, het schip of de tennister bedoeld worden. Echter, elk van deze dingen heeft een eigen URI;
  • betekenisvol: door linked open data krijgt data betekenis, zelfs meer dan op het eerste gezicht lijkt. Linked open data maakt gebruik van vocabularies (een dataset die betekenis geeft aan bepaalde begrippen). Door deze vocabularies te gebruiken krijgt de data zelf al meer betekenis, niet alleen voor mensen maar ook voor computers die de data interpretteren. Bijv. als het Schema vocabulary gebruikt wordt om aan te geven dat Henk werkt bij de Universiteit Leiden, dan is niet alleen daarmee bekend dat Henk werkt bij de Universiteit Leiden, maar ook dat Henk blijkbaar een Persoon (een bepaalde klasse binnen Schema) is en dat “Universiteit Leiden” een Organisatie (een andere Klasse binnen Schema) is. Door dus dat vocabulary te gebruiken is er meer betekenis gegeven aan de data;
  • meerwaarde: doordat de data open, verbonden, eenduidig en betekenisvol is, krijgt de data meerwaarde. Niet alleen voor de producent van de data, maar ook voor de consument van de data. En daarbij kan de producent optreden als consument van andere Linked Open Data;
  • taalonafhankelijk: linked open data werkt met dingen in plaats van met woorden. Elk ding, of eigenlijk concept, kan in meerdere talen beschreven zijn. Zoeken op “Den Haag” levert dan ook resultaten voor “The Hague” en “’s Gravenhage” op omdat deze alle zijn gekoppeld aan dezelfde URI.

Natuurlijk werkt Linked Open Data alleen goed als gebruik gemaakt wordt van dezelfde vocabularies. Dit gebeurt voor een deel, maar er zijn ook wel weer een groot aantal vocabularies beschikbaar (zie LOV). Deels worden termen uit de verschillende vocabularies (impliciet of expliciet) weer met elkaar verbonden.

Er waren op SWIB14 diverse presentaties over het gebruik van Linked Open Data. Hieronder een verslag van de naar mijn mening interessantste:

Tom Grahame van de BBC sprak over hoe de BBC Linked Open Data gebruikt. Ze begonnen hiermee met het WK van 2010 en daarna de Olympische Spelen van 2012. Elke atleet was een entiteit (ding) en had een eigen pagina die geheel werd opgebouwd uit Linked Data. Hierdoor had ook een minder bekende atleet een eigen pagina, die qua opbouw gelijk was aan die van een zeer bekende atleet, gevuld met informatie. Hiervoor hoefde een redacteur niet de pagina te maken, maar werd alleen data toegevoegd (ook uit andere bronnen). Voor het nieuws zijn ze nu bezig, maar dat is een stuk lastiger omdat het veel diverser is. Voor de ontologies (een formeel gebruikt woord voor vocabularies) hebben ze een eigen website, evenals een website om alle dingen te beschrijven.
Ze gebruiken hun eigen ontologie omdat het lastig is (maar wel het beste!) om een bestaande ontologie te gebruiken.
Alle linked data wordt in een triplestore opgeslagen en daar liggen diverse lagen overheen zodat de data beschikbaar wordt gesteld aan hun eigen apps maar ook aan derde partijen.

De Pina Bausch Foundation heeft een digitaal archief gemaakt van de danseres/choreografe Pina Bausch. Deze danseres had tijdens haar leven al zelf een digitaal archief bijgehouden. De data is als Linked Data beschikbaar gemaakt en gebruikt verschillende vocabularies zoals purl.orgDC termsFOAF en SKOS. Op basis hiervan is ook een iPad app gemaakt.

Wikidata had ook een interessante presentatie. Wikidata valt onder Wikimedia, waar ook weer Wikipedia onder valt. Wikipedia bevat heel veel data, maar heeft ook een aantal uitdagingen: ze zijn afhankelijk van vrijwilligers en daardoor zijn er veel verschillen tussen talen. Je zou zeggen dat de meeste informatie beschikbaar is in het Engels. Maar dat is niet zo: slechts 50% van de data op Wikipedia is in het Engels beschikbaar. Helaas zijn andere talen slechter vertegenwoordigd. Wikipedia heeft wel heel veel data, maar is niet altijd toegankelijk. Sommige vragen zijn niet te beantwoorden, terwijl de data wel beschikbaar is op Wikipedia. Wikidata probeert dit probleem op te lossen door de data uit Wikipedia op een soort Linked Open Data manier te beschrijven. Deze data wordt weer binnen Wikipedia gebruikt in bijvoorbeeld de informatieboxen aan de rechterkant van een Wikipedia pagina (zie bijvoorbeeld hier). De data in WikiData is veel gestructureerder, meertalig en met vaste verwijzigingen (URI’s) naar andere bronnen. Ook probeert men voor alle data die toegevoegd wordt een bronvermelding te doen.

Europeana had een presentatie over problemen bij meertaligheid. Ze probeerden een deel van de problemen op te lossen met een nieuwe datamodel gebaseerd op SKOS. Ze hadden voor verschillende termen de vertalingen in verschillende talen en die onderling gerelateerd.

BIBFRAME is de MARC21 opvolger, of althans dat zou het moeten zijn volgens Eric Miller van het bedrijf Zepheira. Bibliotheken hebben veel goede data en zijn op veel punten ver vooruit (“libraries are credibility engines”), maar de data die ze hebben is niet zichtbaar op het internet. De data moet meer naar buiten gebracht worden, bijvoorbeeld via Libhub. We spreken nu niet op een manier die het web begrijpt, maar dat zouden we wel moeten doen. Schema.org is een nieuwe manier om op het web te komen, maar niet dé manier. Links zijn dat. We moeten de search engines gebruiken om gevonden te worden. Niet door te vragen aan de search engines of ze ons en onze data willen opnemen, maar door ze zelf te gebruiken. Met BIBFRAME zou dit mogelijk moeten worden, het is een sociaal data model. Helaas is BIBFRAME nog in de draft/test fase en wordt nog niet echt door bibliotheken gebruikt.

De eindpresentatie werd gedaan door Richard Wallis van OCLC. Hij herhaalde nogmaals dat de bibliotheek niet gelinkt was aan het web: “Why catalog? So we can find things. Why are we on the web? So todays users can find our resources”. Wat bibliotheken moeten doen volgens hem is gebruik gaan maken van linked data met Schema.org als vocabulair. Met Hadoop kan makkelijk data geconverteerd worden. We moeten niet meer denken in records, maar focussen op entiteiten. WorldCat loopt daar volgens hem in voorop.

Natuurlijk waren er nog veel andere interessante presentaties, zoals over alles annoteren, SKOS, KOS, Microtask Crowdsourcing, d:swarm (demo.dswarm.org), ElasticSearch en nog veel meer.

Betere toegang tot digitale collecties door middel van persistente identifiers.

De UBL wil in 2015 haar digitale collecties beter toegankelijk maken voor zowel mensen als machines. Het gaat hierbij bijvoorbeeld om kaartmateriaal, hoogleraarsportretten, onderzoeksdata en publicaties. Om digitale objecten beter toegankelijk te maken is het noodzakelijk dat objecten buiten het eigen systeem op een eenduidige manier te identificeren en te lokaliseren zijn.

Op 17 oktober 2014 was er in Utrecht een workshop over object identifiers, georganiseerd door U2Connect. U2Connnect is een samenwerking van enkele Nederlandse universiteiten waar geëxploreerd wordt hoe de diensten van het door de Europese Commissie gefinancierde EUDATproject ingezet kunnen worden met betrekking tot datamanagement.

Het EUDATproject ontwikkelt zogenaamde common services, gemeenschappelijke diensten die door veel andere diensten gebruikt kunnen worden. Te denken valt hierbij aan diensten om data te delen (B2SHARE), te vinden (B2FIND), repliceren (B2STORE) en beschikbaar te maken voor analyse (B2STAGE). Voor al deze diensten is het van belang om objecten op een eenduidige manier te kunnen identificeren en te lokaliseren.

URL’s kunnen gebruikt worden om objecten uniek te identificeren en lokaliseren. In de praktijk komt er echter regelmatig linkrot voor waardoor de URL’s niet meer verwijzen naar het object. Dit kan bijvoorbeeld het geval zijn als de objecten naar een andere server verplaatst zijn. Om identifiers en lokaties naar objecten goed te kunnen beheren zijn er identifiersystemen ontwikkeld. Er wordt ook wel gesproken van persistent identifiers om aan te geven dat de identifiers voor de lange termijn geldig zijn. Als er sprake is van persistente identifiers dan wordt er in het algemeen van uitgegaan dat zowel de identifier als het object voor de lange termijn geldig moeten zijn.

Er zijn verschillende oplossingen die gebruikt kunnen worden voor het identificeren en lokaliseren van objecten. Om een juiste keuze te maken is het van belang te kijken naar het beleid, de functionaliteit, de schaalbaarheid en het draagvlak van de aangeboden oplossingen.

Tijdens de workshop werden er presentaties gegeven van DataCite, URN:NBN en EPIC en werd er aangegeven hoe deze oplossingen door 3TU Datacentrum, DANS en SurfSara worden gebruikt.

Alle oplossingen hebben een aantal kenmerken met elkaar gemeen. Ze hebben een unieke alfanumerieke reeks nummers om een object te identificeren. Deze nummers zijn gekoppeld aan een locatie. Daarnaast is er een zogenaamde resolver waar je de locatie van een identifier kunt opvragen.

Een voorbeeld van een persistent identifier is:

https://hdl.handle.net/1887/13839 De identifier bestaat uit drie delen:

  • handle.net: verwijst naar de resolver die de identifiers toewijst en die er voor zorgt dat de gebruiker naar de locatie van het object wordt geleid
  • 1887; dit staat voor de databank, in dit geval het Leids Repositorium.
  • 13839: dit verwijst naar het object

De resolver zorgt ervoor dat de gebruiker naar de juiste locatie wordt geleid. In dit geval is dat https://openaccess.leidenuniv.nl/handle/1887/13839. Wanneer dit object, in dit geval een masterscriptie, naar een andere plek zou worden verplaatst, bijvoorbeeld naar https://masterscripties/leiden/98423, zorgt de resolver ervoor dat u via de persistent identifier (die niet verandert) naar deze nieuwe locatie wordt geleid. Om een bepaalde vorm van persistent identifiers te mogen toekennen, registreert de instelling zich bij een zgn Registration Agency. Dit is een organisatie die de afspraken rondom de toekenning van persistent identifiers vastlegt en bewaakt. Een voorwaarde die een Registration Agency kan stellen aan een persistent identifier is dat het digitale object dat er aan gekoppeld is, moet zijn opgeslagen in een Long Term Preservation depot. Voor het Nederlandse subdomein van URN:NBN fungeert de KB bijvoorbeeld als Registration Agency. De Registration Agency, die een onderdeel is van de KB, bewaakt alle afspraken rondom het NBN en tussen de stakeholders en registreert instellingen die NBN’s toekennen.

De oplossingen verschillen van elkaar wat betreft het doel, bereik en tijdspad waarvoor ze gebruikt kunnen worden. DataCite wordt gebruikt voor het refereren naar onderzoeksdata. DataCite maakt gebruik van DOI’s. De DOI’s kunnen geresolved worden door middel van het handle systeem. DataCite delegeert het uitgeven van DOI’s aan registratie-organisaties.

Voorbeeld: https://dx.doi.org/10.1594/PANGAEA.726855

URN:NBN worden gebruikt voor het refereren aan publicaties en onderzoeksdata. Er wordt gebruik gemaakt van de syntax van URN’s. De URN:NBN maakt gebruik van in eigen beheer ontwikkelde resolvers. De nationale bibliotheken zijn de registratie-organisaties van de URN:NBN en kunnen de uitgifte van URN:NBN’s delegeren.

Voorbeeld: URN:NBN:NL:UI:13-2UYT-ZI

Deze identifier bestaat uit vier delen:

1 – URN: Identifier scheme

2 – NBN: Namespace voor zogeheten National Bibliographic Numbers

3 – NL:UI: Geeft aan dat het om identifiers gaat die in Nederland zijn uitgegeven.

4 – 13-2UYT-ZI: Een unieke code voor de dataset, in dit geval binnen DANS.

EPIC kan gebruikt worden voor verschillende doeleinden. EPIC maakt gebruik van handles. Het EPIC consortium fungeert als registratie-organisatie. De handles kunnen geresolved worden door middel van het handlesysteem.

Voorbeeld: https://hdl.handle.net/1839/00-4F7E67EB-3358-48DD-8EB8-158A8EA99AF0@format=imdi@view

Er is geen one size fits all-oplossing die voor alle doeleinden ingezet kan worden. Interessant is het daarom te horen op welke wijze 3TU datacentrum, DANS en SurfSara gebruik maken van persistent identifiers.

3TU datacentrum gebruikt DataCite voor het refereren aan datasets. Elke dataset die voor de lange termijn bewaard moet worden en niet meer verandert krijgt een DOI. Het betreft hier statische datasets. De DOI’s verwijzen naar de metadata van een dataset. Er moet verplicht een aantal Dublin Corevelden ingevuld worden. Een aantal velden is optioneel. Indien er voldoende metadatavelden zijn ingevuld worden deze records doorgegeven aan de Data Citation Index van Thomson Reuters.

DANS maakt uit het oogpunt van duurzaamheid gebruik van URN:NBN. DANS hanteert hierbij hetzelfde principe als de KB. Aan alle door DANS toegankelijke datasets wordt een URN:NBN toegekend. Omdat URN:NBN een standaard is en de resolver- en registration agency in eigen beheer zijn kan DANS op deze wijze duurzame toegang tot datasets garanderen.

URN:NBN is niet erg bekend onder onderzoekers als een middel om te citeren naar onderzoeksdata. DANS wil om deze reden eveneens gebruik maken van DataCite voor het citeren van datasets.

DANS biedt naast een voorziening voor het bewaren van onderzoeksdata voor de lange termijn (EASY) ook een voorziening voor het delen van onderzoeksdata gedurende het lopende onderzoek (DataVerse). DataVerse maakt gebruik van handles voor het refereren naar de datasets.

SurfSara maakt in haar suite van B2 diensten veelvuldig gebruik van handles die beheerd en geresolved worden door de EPIC-infrastructuur. De B2-diensten worden onder andere gebruikt door onderzoeksprojecten waar grote hoeveelheden data beheerd worden. Identifiers worden niet alleen gebruikt voor het refereren naar een gehele dataset maar eveneens om individuele objecten voor zowel mens als machine toegankelijk te maken. De EPIC-infrastructuur is zo schaalbaar en robuust dat deze grote hoeveelheid identifiers goed verwerkt kunnen worden.

Om de digitale collecties van de UBL beter toegankelijk te maken voor zowel mensen als machines moet er goed gekeken worden voor welk doel de UBL deze identifiers wil gebruiken en welke voorwaarden de PI registration agencies aan het gebruik stellen.

De UBL heeft een projectvoorstel in voorbereiding om het bovenstaande verder uit te zoeken en een keuze te maken voor een of enkele PI-oplossingen. Een onmisbare component voor het nog beter toegankelijk maken van de digitale collecties van de UBL.

Rob Feenstra en Laurents Sesink

Preservation Metadata in de praktijk

Dit keer een gastblog van Liesbeth van Wijk. Zij bezocht op 19 juni samen met Niels Molenaar de workshop preservation metadata in de praktijk.

De workshop met lezingen en discussie op 19 juni in de KB was wegens grote belangstelling voor de tweede maal dit jaar georganiseerd door Beel d en Geluid en NCDD. Er waren ongeveer 70 mensen van zeer diverse instellingen.

Tijdens de hele dag kwamen diverse datamodellen voor duurzame opslag van digitaal materiaal voorbij: het SPOT-model, het OAIS-model en PREMIS. Eerst werd de algemene theorie uitgelegd door Titia van der Werf, programmamanager bij OCLC Research. In vier casussen kwam de praktijk aan de orde. Hierin kwamen de drie modellen ook steeds terug. Het zijn geen normatieve standaarden, die precies voorschrijven hoe je je systemen moet inrichten. Het zijn handige kapstokken waarmee je kunt nagaan of je aan alles gedacht hebt en die je bewust maken van alle keuzes die je moet maken.

Titia van der Werf begon metadata in te delen naar functie (bv. discovery, access, management) en typen (bv. beschrijvend, technisch, administratief). Duurzaam opslaan (“preservation”) is de verantwoordelijkheid van erfgoedinstellingen en kent een aantal uitdagingen: de hoeveelheid digitale informatie (risico van duplicatie), complexitieit, afhankelijkheid van hardware en software, snelle technologische veranderingen. Daar komt recent bij de uitdaging van duurzaam opslaan van digital born collecties. Vragen met het oog op de toekomst daarbij zijn: hoe blijft iets bewaard en raadpleegbaar, ook als de techniek verandert? En hoe bepaal je de authenticiteit van een digital born object?

SPOT-model

Het SPOT-model (Simple Property-Oriented Threat Model for Risk Assessment) beschrijft zes essentiële kenmerken van succesvolle digitale duurzaamheid (in het engels availability, identity, persistence, renderability, understandability, and authenticity) en voor elk kenmerk risico’s en bedreigingen (zie bijlage). Zie ook: https://www.dlib.org/dlib/september12/vermaaten/09vermaaten.html.

PM1

 

OAIS-model

Een conceptueel model voor beheeractiviteiten is het OAIS-model: het Open Archival Information System Reference Model (ISO-standaard sinds 2002). Zie deze pagina van NCDD: https://www.ncdd.nl/blog/?page_id=447. Het kan dienen als gids bij het ontwerpen van digital repositories en als benchmark voor het beoordelen van bestaande repositories. Het is een procesmodel, dat beschrijft hoe materialen beheerd worden in de verschillende stappen in het systeem.

PM2

 

Buiten het model in de omgeving zie je drie actoren: producer, consumer en management. In het model zijn de blauwe blokjes diverse activiteiten:

  • Ingest
  • Archival Storage.
  • Data Management.
  • Administration
  • Access
  • Preservation Planning.
  • Common Services

Een belangrijk begrip hierbij is Information Package (IP): een package is een bestand plus metadata. Daarvan zie je in het model drie varianten, in verschillende stadia (witte bolletjes) in het proces:

  • SIP = Submission Information Package

het bestand plus de metadata die de leverancier van de informatie meelevert aan het digitaal archief

  • AIP = Archivel Information Package

het digitaal archief voegt weer allerlei eigen metadata toe (bijv. catalogusinformatie) en slaat het geheel op als AIP

  • DIP = Dissemination Information Package.

als een gebruiker de informatie opvraagt, maakt het digitaal archief een ‘package’ met het bestand en alleen de metadata die de gebruiker nodig heeft.

Vooral in het AIP komen de preservation metadata om de hoek kijken. De verschillende soorten metadata zijn:

  • Reference metadata (unieke, persistent identifier)
  • Provenance Information: waar komt het object vandaan
  • Context information: relatie tot andere objecten, bv. in EAD of METS
  • Fixity information: bewijs van authenticiteit.

PM3

PREMIS Data Dictionary

PREMIS (Preservation Metadata: Implementation Strategies) bevat een ‘data dictionary’ met alle mogelijke preservation metadata is in digitale archiefsystemen. Rosetta (Ex Libris) implementeert PREMIS, evenals OCLC’s Digital Archive. PREMIS is gebaseerd op het OAIS-referentiemodel en bevat vijf entiteiten die elk hun eigen metadata hebben.

PM4

Intellectual entity

  • Het origineel, een intellectuele eenheid voor beheer en beschrijving (bv. een boek, een foto).
  • Heeft één of meer digitale representaties
  • Kan andere intellectuele entiteiten omvatten (een website bevat bv. meerdere webpagin’s)
  • wordt opgeslagen in de repository
  • kan één file bevatten, maar ook een aantal files die samen een intellectuele entiteit voorstellen, vgl een object in Digitool, een METS die een boek beschrijft.
  • Een handeling die het object betreft (bv. validering, ingest, conversie).
  • Bij een event horen ook metadata: wat gebeurde er, wanneer?
  • Een persoon, een organisatie of software programma/systeem verbonden met een event of een recht. Agents zijn alleen indirect aan objecten gelinkt via events of rights statements
  • Copyright, intellectuele rechten

Objects

  • wordt opgeslagen in de repository
  • kan één file bevatten, maar ook een aantal files die samen een intellectuele entiteit voorstellen, vgl een object in Digitool, een METS die een boek beschrijft.

Events

  • Een handeling die het object betreft (bv. validering, ingest, conversie).
  • Bij een event horen ook metadata: wat gebeurde er, wanneer?

Agents

  • Een persoon, een organisatie of software programma/systeem verbonden met een event of een recht. Agents zijn alleen indirect aan objecten gelinkt via events of rights statements

Rights statements

  • Copyright, intellectuele rechten

In het kader van PREMIS is “preservation metdata” informatie in een repository gebruikt tbv digitale duurzamheids en toekomstvaste documentatie van digitale objecten. De PREMIS data dicitionary is onafhankelijk van platform, technologie, hardware. Bij het ontwikkelen is gelet op uitvoerbaarheid, presenteerbaarheid, begrijpelijkheid, authenticiteit, identiteit in een duurzame context en technische neutraliteit. Er worden geen aannames gedaan over specifieke technologie, systeemarchitectuur, e.d.

Het is een richtlijn, een checklist, een gids voor locale implementatie, standaard voor uitwisseling tussen repositories. Het is NIET een out-of-the-box oplossing.

Nut voor de UB

Deze modellen kunnen we gebruiken om meer structuur aan te brengen in het denken over duurzaam opslaan van digitale collectie, de inrichting van een nieuwe repository, e-depot enz.

Met welke doelen doen we dat en welke metadata hebben we daarvoor nodig? Deze modellen kunnen helpen geen belangrijke aspecten over het hoofd te zien en goede keuzes te maken. Hebben we daarvoor alle drie modellen nodig of één of twee?

Dit sluit mooi aan bij het nu lopende project “Beleidsadvies Bijzondere Collecties” waarin wordt vastgelegd hoe we in de komende jaren met de Digitale Collecties zullen omgaan en welke prioriteiten en speerpunten aangepakt gaan worden.

Managing Open Access

Op 20 mei vond in de Royal Society in London een workshop plaats van de UKSG. De workshop is bijgewoond door vertegenwoordigers van universiteitsbibliotheken en van uitgevers, en vanuit beide perspectieven werd er ingegaan op de vele uitdagingen die het publiceren in open access publiceren met zich mee brengt.

2258365376_98b3817ecd

In de UK hebben op dit moment vrijwel alle wetenschappers te maken met de verplichting om hun publicaties openbaar beschikbaar te stellen. In het in 2012 verschenen rapport van Janet Finch werd een duidelijke voorkeur uitgesproken voor Gold OA, en deze aanbeveling is hierna overgenomen in het beleid van de RCUK, een organisatie die de werkzaamheden van Britse subsidieverstrekkers op een nationaal niveau coördineert. Een tweede belangrijke ontwikkeling is dat open access ook een belangrijk onderdeel is geworden van het in 2014 gelanceerde Research Excellence Framework (REF), een systeem voor de evaluatie van de kwaliteit van onderzoek aan Britse universiteiten. De uitkomsten van de REF bepalen voor een groot deel ook de toewijzing van onderzoeksgelden. Vanaf 2016 worden alleen de open access publicaties meegewogen in de evaluatie.

Britse universiteiten proberen hun auteurs momenteel zo goed mogelijk te ondersteunen bij het voldoen aan al deze verplichtingen, en deze ondersteunende werkzaamheden zijn vaak ondergebracht bij bibliotheken. Het ondersteunen van OA is echter voor veel bibliotheken een relatief nieuwe taak, en veel bibliotheken ondervinden dan ook problemen bij het uitwerken van goede procedures. Tijdens de workshops werden er ervaringen en best practices gedeeld van, onder meer, de Universiteit van Liverpool, Saint Andrews en Glasgow. Er zijn duidelijk een aantal problemen waar alle instellingen mee kampen. Vaak ontbreekt er een volledig overzicht van wat er daadwerkelijk wordt gepubliceerd. Wanneer er voor APCs moet worden betaald is vaak ook onduidelijk hoe deze kunnen worden gefinancierd. De RCUK en de Wellcome Trust hebben beide ‘block grants’ beschikbaar gesteld aan universiteiten, maar het is vaak lastig om te bepalen hoe dit geld moet worden verdeeld onder alle auteurs. Bij het ondersteunen van het publicatieproces moet er veel informatie worden beheerd over, onder meer, de artikelen zelf, de financierders, de licenties, de uitgeverijen, en de status van de financiele transacties. Er zijn momenteel nog geen goede systemen voor het beheer van deze gegevens, en veel universiteiten werken met omvangrijke Excel-bestanden.

Ook voor uitgevers levert OA ook veel uitdagingen op. Tijdens de workshop waren er presentaties van SAGE en IOP publishers. Voor internationale uitgevers is het vaak lastig om een uniform beleid op te stellen, omdat er in verschillende landen vaak specifieke regels met betrekking tot open access. OA levert ook veel meer administratie op. Terwijl er bij de afhandeling van abonnementen meestal één invoice per tijdschift was, moet er bij Gold OA vaak voor ieder individueel artikel een factuur worden opgesteld. Voor uitgevers is het vaak ook onduidelijk wie hun eerste aanspreekpunten zijn. Zij kunnen de besprekingen over artikelen voeren met de auteurs zelf, maar ook met bibliotheken of met Research Support Offices. In toenemende mate maken universiteiten ook gebruik van de diensten van tussenpartijen zoals Open Access Key, JISC APC, Swets en EbscoAdvantage.

Een van de meest inspirerende presentaties van de dag werd gehouden door Susan Ashworth van de Universiteit van Glasgow. In totaal werken er in Glasgow 3 fte aan het ondersteunen van Open Access. Door de bibliotheek is er een vast e-mail-adres aangemaakt waar auteurs informatie over hun geaccepteerde artikel naar toe kunnen sturen. De bibliotheek draagt hierna zorg voor het volledige publicatieproces. Er wordt beoordeeld of het artikel in Green of in Gold moet worden gepubliceerd, en of de betaling van APCs wel of niet nodig is. Glasgow heeft een verrijkt repositorium ingericht, waarin niet alleen informatie over publicaties, maar ook gegevens over subsidiverstrekkers en licenties wordt bewaard.

Binnen de UBL loopt er momenteel een project waarin wordt onderzocht hoe open access beste kan worden ondersteund binnen de Universiteit Leiden, en het bezoek aan deze workshop heeft dan ook veel inspiratie opgeleverd!

 

Over de KB, Metamorfoze en Delpher

Image

 

 

Vorige week bezocht ik een informatiebijeenkomst over de Metamorfoze digitaliseringsprojecten en Delpher.

Sinds 2013 werkt bureau Metamorfoze – financier en coördinator van conserveringsprojecten voor het behoud van papieren collecties en gevestigd in de Koninklijke Bibliotheek (KB) – volgens twee vaste trajecten: unieke werken in het traject Archieven en Bijzondere Collecties (ABC) en gedrukte materialen in Boeken, Kranten en Tijdschriften (BKT).  In het geval van ABC projecten zijn de instellingen zelf verantwoordelijk voor de meeste werkzaamheden, maar het BKT-traject wordt uitgevoerd in samenwerking met de KB. Dat houdt in dat instellingen hun materiaal naar de KB sturen, en dat deze bibliotheek verder verantwoordelijk is voor de planning en uitvoering van het digitaliseringstraject. Dat betekent ook dat de KB het grootste deel van de Metamorfoze subsidies incasseert – van vestzak naar broekzak – , maar daar staat tegenover dat het hele traject wel veel efficiënter georganiseerd is en dus ook een veel kortere doorloop heeft. De periode dat de boeken buiten de deur van de instelling verblijven is dus ook beperkt.  Er zijn bovendien ook financiële voordelen. De KB werkt voor het BKT traject met een aantal preferred suppliers, die tijdens een Europese aanbestedingsprocedure zijn geselecteerd.  Door de efficiënte workflow is het geselecteerde scanbedrijf verzekerd van een constante aanvoer van opdrachten, waardoor gunstigere afspraken kunnen worden gemaakt. Door dit alles wordt de gemiddelde prijs per scan ook lager.

Nieuw is dat de KB er ook voor gaat zorgen dat alle scans die in het BKT traject worden gemaakt worden ge-OCRd en online beschikbaar worden gesteld via Delpher. Slim, want op deze manier zorgt men voor een constante aanvoer van tekstueel bronmateriaal aan het portaal. Delpher wordt hiermee langzaam maar zeker hét startpunt voor online bronnen over Nederlandse cultuur en geschiedenis. Delpher bevat op dit moment meer dan 90.000 boeken, 1 miljoen kranten en  1,5 miljoen pagina’s uit Nederlandse tijdschriften uit de 17e tot 20e eeuw. Ook Leiden is in het portaal vertegenwoordigd. Enkele jaren heeft een consortium van UB Amsterdam, KB en UB Leiden 10.000 boeken uit het Nederlandse taalgebied uit de periode 1781-1800 gedigitaliseerd en beschikbaar gesteld via het portaal Early Dutch Books Online. De boeken uit dit portaal zijn inmiddels ook opgenomen in Delpher.

Maar het is de bedoeling dat de komende jaren het totale aanbod verdubbeld tot 50 miljoen pagina’s, mede dankzij de Metamorfoze projecten. Ook wordt het tekstuele materiaal uit het Geheugen van Nederland, zoals de Kinderboeken en de literaire nalatenschappen, hierheen overgebracht. Dit lijkt me een goed idee, want op deze plaats worden deze bronnen veel beter doorzoekbaar. Bovendien wordt ook de scope van beide sites dan duidelijker: Delpher voor teksten, het Geheugen voor beeldmateriaal. Het Geheugen van Nederland gaat vervolgens op dezelfde infrastructuur draaien als Delpher, maar behoudt wel een eigen identiteit en interface. Ook wordt nagedacht over integratie met het andere grote portaal voor bronmateriaal over de Nederlandse literatuur, taal en cultuurgeschiedenis, de DBNL.

Ook nieuw is dat digitale afbeeldingen, metadata en teksten niet alleen via het portaal beschikbaar worden gesteld, maar dat er ook dienstverlening op wordt ingericht.  Zo kun je tegenwoordig datasets uit het Delpher portaal ontvangen.  Op die manier kunnen de data worden (her-)gebruikt voor onderzoek, webtoepassingen en nieuwe diensten. Zo heeft men in het Translantis project, dat als doel heeft de invloed van de Verenigde Staten op Nederland  in kaart te brengen, gebruik gemaakt van de Databank Digitale Dagbladen, inmiddels ook onderdeel van Delpher. Maar je zou (op termijn) ook kunnen denken aan Distant Reading , een wetenschappelijke stroming waarbinnen onderzoekers literatuur niet willen leren begrijpen door het “close reading” bestuderen van bepaalde teksten, maar door het aggregeren en analyseren van grote hoeveelheden data.

Op dit moment ontvangen wij nog van alle Metamorfoze projecten harde schijven met scans,  zodat wij deze via onze eigen beeldbank beschikbaar kunnen stellen. Je kunt je echter afvragen of dat wel nodig is. Waarom zou je scans op twee plaatsen opslaan en onderhouden? Het is belangrijker dat de links vanuit onze catalogus naar de scans goed geregeld worden. Voor de EDBO scans zijn hier indertijd helaas geen goede afspraken voor gemaakt, waardoor de scans niet vanuit onze catalogus te vinden zijn. Maar het is de bedoeling dat dit onderdeel wordt van de hele dienstverlening rondom de BKT projecten. Kort geleden werd bovendien bekend dat de KB een overeenkomst heeft gesloten met Lira en Pictoright waardoor ook alle boeken tot 1940 online beschikbaar gesteld mogen worden. Dit maakt het natuurlijk wel heel aantrekkelijk om onze scans via Delpher beschikbaar te stellen! 

Een supersnel straatje

IMG_20140225_155649

Afgelopen woensdag hadden we een kleine delegatie van mijn alma mater op bezoek. 4 collega’s van de UB Groningen kwamen langs om onze scanstraat te bekijken en ons het hemd van het lijf te vragen over onze dienstverlening rondom digitalisering.

Hoewel wij zelf best trots zijn op de inrichting van onze “straat”, zijn onze mogelijkheden met slechts één scanner en een camera toch beperkt. Om ook een idee te krijgen van wat zich aan het andere einde van het digitaliseringsspectrum bevindt, bezochten wij ’s middags dan ook Naturalis. Dit museum ontving in 2009 dertig miljoen van de overheid voor de inrichting van een Nederlands Centrum voor Biodiversiteit. Als tegenprestatie moesten in 2015 twee doelstellingen gerealiseerd zijn: zeven miljoen gedigitaliseerde objecten én een permanente infrastructuur voor opslag en presentatie. Dat red je natuurlijk niet met één scanner, dus werd het digitaliseringsproces ingericht als een fabriek met productielijnen en werd er 80 man aan (tijdelijk) personeel ingehuurd om deze klus te klaren. Niet dat wij op korte termijn van plan zijn om de UB vol te zetten met scanners en het personeel in witte jassen achter een lopende band te zetten, maar toch valt er ook voor kleinere instellingen zeker wat te leren van een dergelijke grootschalige opzet.

Ze heeft men voor elke materiaalsoort of bewaarmethode een aparte lijn ingericht, elk met een gespecialiseerde apparatuur en eigen specificaties. Zo is er een aparte lijn voor het 2D materiaal (de notities en tijdschriften), de herbarium-collectie (gedroogde planten op papier), de zgn. natte collectie (dieren op alcohol), voor dieren die alleen met de microscoop zijn te bekijken en voor glaspreparaten. Op deze manier kunnen niet alleen meer scans tegelijk worden gemaakt, maar hoeven de instellingen en procedures tijdens het proces ook nauwelijks aangepast. En dat scheelt tijd. Zo ver als Naturalis kunnen we hierin natuurlijk niet gaan, maar een scanner erbij zou ook voor ons winst kunnen opleveren. Dan kunnen we bijvoorbeeld een scanner voor beeld- en een voor tekstmateriaal reserveren, of een voor losse materialen en een voor boeken en handschriften, of materialen die plat kunnen worden gelegd en boeken en handschriften die in een wieg dienen te worden gescand.

Ook zijn vooraf hele heldere keuzes gemaakt met betrekking tot de kwaliteit. Zo is de metadatering tot een minimum beperkt, wordt er nauwelijks aan beeldbewerking gedaan en worden de onbewerkte TIFs niet opgeslagen. Voor alle productielijnen wordt één en hetzelfde collectieregistratiesysteem gebruikt. Als een van de beschrijvers de handgeschreven beschrijving op een object niet kan lezen dan wordt dit niet uitgezocht, maar wordt eenvoudigweg de foto zelf bijgevoegd. Ook op dit vlak kunnen we nog wel wat van Naturalis leren. Wij doen namelijk heel veel aan beeldbewerking en slaan diverse varianten van de TIF op, voor ons eigen archief en voor levering aan de klanten. Dit hoeft natuurlijk helemaal niet erg te zijn als dit een bewuste en weldoordachte keuze is, maar het kan geen kwaad om ons proces een keer kritisch onder de loep te nemen om te bekijken welke stappen echt van belang zijn voor onszelf en de klant.

Daar waar mogelijk wordt samengewerkt met commerciële partners. Zo heeft het bedrijf Picturae geholpen bij de inrichting van het paradepaardje van Naturalis, de Herbariumstraat. Hier zijn in 9 maanden tijd zo’n 4 Miljoen scans gemaakt. De workfklow is geheel volgens de principes van Lean Six Sigma ingericht (hierover schreef ik al in een eerdere blog):
Poka Yoke – een proces wordt zodanig ingericht dat mensen geen fouten kunnen maken;
Jidoka – de volgende productiestap mag pas worden genomen wanneer het deelproduct defectvrij is. Hoe doen ze dat?

Zo is het proces opgedeeld in enkele helder gedefinieerde stappen: het herbariumvel wordt uit de doos gehaald, ontdaan van stof en chemische resten, op een vaste plek op de lopende band gelegd, van een unieke barcode voorzien, gefotografeerd en weer terug in de doos gestopt. Deze barcode functioneert tijdens het gehele proces als identifier, en is tegelijk gekoppeld aan de standplaats. Een fout wordt opgelost tijdens het proces en niet achteraf. Hiervoor is elke stap voorzien van geautomatiseerde software. Constateert deze een fout, dan wordt de band stopgezet, een stap teruggedraaid, de fout opgelost en de scan opnieuw gemaakt. De metadata-invoer vindt plaats aan de hand van de scans door een team dat in Suriname is gevestigd.
Aan het eind van elke dag worden de scans klaargezet op een harvesting-schijf. De TIFs worden naar het Instituut voor Beeld en Geluid gestuurd voor duurzame opslag, en er worden geautomatiseerd afgeleiden gemaakt voor eigen presentatie.

Dit lijkt heel simpel, en zo zou het ook moeten zijn. Naar mijn idee wordt er in ons proces nog iets te vaak geup- en download en van de ene naar de nadere PC geschreven. Dit kost niet alleen wachttijd, maar ook nadenktijd (uhhhh….wat was ik ook alweer aan het doen? Had ik die scans nou wel of niet….?). GOOBI heeft in dit opzicht al voor een grote verbetering gezorgd, maar van een naadloos proces is nog geen sprake. Ook daar moeten we de komende tijd over gaan nadenken. Deze activiteiten passen bovendien goed in enkele van de projecten en activiteiten die voor 2014 op de agenda staan, zoals de storage van digitale objecten en het oplossen van de uploadachterstanden van de scans in onze beeldbank.

Aan dus, die witte jas, en op naar een super snel en soepel straatje!

 

Een deel van de digitaliseringsactiviteiten vindt plaats op de zaal, te midden van bezoekers. De hond is opgezet, en maakt de drempel tot het stellen van vragen een stuk lager.

Een deel van de digitaliseringsactiviteiten vindt plaats op de zaal, te midden van bezoekers. De hond die vooraan op de verhoging ligt is opgezet, maar maakt de drempel tot het stellen van vragen een stuk lager.

 

It’s the end of the world as we know it…?

We hebben er allemaal wel eens last van. Soms nestelt een liedje zich hardnekkig in je hoofd. Je fluit het vanaf het moment dat je opstaat, tot je naar bed toe gaat. En het gaat er wekenlang niet meer uit. Dat heb ik momenteel met: ‘It’s the end of the world as we know it…’ van REM.

Misschien heeft het te maken met de crisis. Als ik het nieuws moet geloven bevinden wij ons op een zinkend schip, zowel economisch, cultureel als sociaal. Maar het deuntje kan ook te maken hebben met het jubileumcongres van de Nederlandse Boekhistorische Vereniging (NBV) dat ik op 1 november bezocht. Centrale vraag tijdens deze dag was of de geschiedenis van het boek ons kan helpen om de mediarevolutie (of beter gezegd -depressie) waar wij ons momenteel middenin bevinden beter te begrijpen. Want zoals we allemaal weten lezen we steeds minder, kopen we geen papieren boeken meer, zeggen we massaal de krant op en voeden we ons met snapshots van Nu.nl en sociale media.

De NBV had aan acht onderzoekers, gespecialiseerd in uiteenlopende periodes en aspecten van de boekgeschiedenis, gevraagd om ter beantwoording van deze vraag de voorbije revoluties in tekstoverdracht onder de loep te nemen. Het doemdenken over het einde van het boek en het lezen bleek niet uniek voor onze tijd, maar doorheen de geschiedenis een terugkerend thema te zijn. Van de overgang van handschrift naar druk, de leesrevolutie van de 18de eeuw tot aan de uitvinding van elektronische media als telefoon en radio, elke mediarevolutie is tot dusver op een vergelijkbare manier ervaren. Enerzijds met vreugde over de groei van het aanbod en het toegenomen gemak. Anderzijds met angst voor oppervlakkigheid en het verlies aan controle. En, zoals Adriaan van der Weel in zijn introductie betoogde, net zoals bij een echte revolutie zijn de veranderingen onontkoombaar. Ze kunnen niet door individuen kunnen worden beïnvloed, laat staan worden tegengehouden.

Het verhaal van Lisa Kuitert richtte zich op de leesrevolutie van de achttiende eeuw. Zij liet zien dat tijdens deze periode steeds meer werd gelezen en gekocht en dat zich ook allerlei nieuwe genres ontwikkelden. Het lezen beperkte zich niet meer tot een intensieve bestudering van de canon, maar er werd steeds meer en oppervlakkiger gelezen. Dit zorgde voor een veranderende relatie tot de tekst die hiermee minder heilig werd en niet alleen vereerd, maar ook bespot kon worden. Deze ontheiliging ziet zij terug in de moderne tijd. Door het internet, social media en self-publishing wordt de diversiteit in teksten groter en groter, maar de waarde en levensduur ervan wordt ook steeds kleiner. Zij roept daarom (tevergeefs, zie boven) op om in opstand te komen, en deze trend te keren.

Kevin Absillis probeerde in zijn betoog vooral een verklaring te bieden voor onze angst voor het verdwijnen van het boek. Hij constateerde daarbij allereerst dat in de recente pers en literatuur de persoon Gutenberg wordt geassocieerd met allerlei ‘verlichte’ uitvindingen, zoals democratie, de moderne mens en de rede. Zo werd in The Economist 1439 -het jaar waarin Gutenberg voor het eerst met losse letters drukte – als belangrijkste jaartal in de geschiedenis van de mensheid verkozen. Dat is op zijn zachtst gezegd merkwaardig. Dat aan het drukken van boeken meer belang wordt gehecht dan aan het maken van machines kan ik nog wel volgen, maar dat deze gebeurtenis zelfs de geboorte van Jezus Christus verslaat….?
Absillis beschouwt het ophemelen van het (papieren) boek in het algemeen en de persoon Gutenberg in het bijzonder dan ook als een nostalgisch gestimuleerde bewustzijnsvernauwing, maar hoe kan deze worden verklaard? Hiervoor bestudeerde hij een aantal apocalyptische films en romans waarin boeken onverwacht een grote rol blijken te spelen, zoals 1984, V is for Vendetta en The day after tomorrow. In alle gevallen staan boeken symbool voor het verdwijnen van onze beschaving. Alleen door het redden van boeken (lees: onze rede) kan het tij worden gekeerd en onze beschaving gered. Hieruit spreekt een verlangen naar de moderniteit zoals die oorspronkelijk bedoeld was, met de belofte van vooruitgang, redelijkheid en perfectie. Absilis waarschuwt dat de moderne wetenschap zich afzijdig zou moeten houden van deze deze ideologische interpretatie van de boekgeschiedenis en meer naar de feiten zou moeten kijken.
Dit doet ook Kiene Brillenburg, die ‘het einde van het boek’ slechts als de uiting van een literair genre beschouwt. Volgens haar is er juist sprake van een tegentrend. Net zoals er na de uitvinding van de magnetron en kant-en-klaarschotels hernieuwde aandacht kwam voor slow-cooking en kleinschalig produceren, zien we nu dat de digitale revolutie ook een slow-traditie tot gevolg heeft. Grote bedrijven hebben te lijden onder de crisis, maar tegelijk komen er steeds meer kleine uitgeverijen, die zich richten op ambachtelijke productie voor een klein publiek.

De slotdiscussie zorgde voor misschien wel de boeiendste bijdrage aan de dag. Voormalig uitgever-directeur van Meulenhoff Laurens van Krevelen vroeg hierin aandacht voor de invloed van de economische zienswijze op de huidige (veronderstelde) teloorgang van het boekenvak. Concernvorming, marketing, massaproductie; het zijn deze mechanismen die bij uitgeverijen hebben gezorgd voor een beleid dat slechts gericht was op winstmaximalisatie, met de bekende desastreuze gevolgen. We hoeven daarbij alleen maar te denken aan de teloorgang van Selexyz en de Free Record Shop. We kunnen wel somberen over de dalende uitleencijfers bij openbare bibliotheken, maar moeten deze vooral in perspectief zien. Vóór 1970 waren ze namelijk nog veel lager waren dan nu. Ook kranten laten een vergelijkbare curve zien. De oplage van NRC groeide in de jaren negentig explosief van 90.000 naar 300.000. Door de huidige daling krijgen wij misschien wel het gevoel dat het einde van de papieren krant in zicht is, maar in zekere zin zijn we nu weer terug bij de normale cijfers. Met andere woorden, we hebben te maken gehad met een zeepbel, een onnatuurlijke groei die gedoemd was tot een einde te komen. Dat dit nu gebeurt is misschien wel een noodzakelijke ontwikkeling. Het kaf wordt van het koren gescheiden, de (kleinere) gezonde bedrijven blijven over en het belangrijkste: we zijn terug bij de menselijke schaal.

En of het papieren boek zal blijven bestaan? Dat zal de tijd ons leren. Vanaf het moment dat de drager geen toegevoegde waarde meer biedt op de inhoud, dan zal deze verdwijnen. Wie treurt er nu bijvoorbeeld nog over het verlies van het casettebandje? Maar hoewel we inmiddels auto’s, vliegtuigen en raketten tot onze beschikking hebben, stappen we allemaal nog massaal in de trein. En ondanks de uitvinding van de TV luisteren we allemaal nog altijd graag radio, een archaisch medium, al zo’n 100 jaar oud, maar nog altijd springlevend. Iets minder Armagaddon dus graag. We bevinden ons dan misschien aan het einde van een tijdperk, maar het einde van onze beschaving is gelukkig nog lang niet in zicht.
It’s the end of the world as we know it? But I feel fine……..!!!