DH Benelux 2015

Leiden nieuwe ICT-technieken echt tot nieuwe vragen en methoden binnen het Geesteswetenschappelijk onderzoek?  Op wat manieren kunnen bibliotheken en andere aanbieders van digitale informatie dit nieuwe type van onderzoek het beste ondersteunen? Op 8 en 9 juni hebben ca. 150 Geesteswetenschappers, bibliotheekmedewerkers en IT-specialisten zich gebogen over deze vragen tijdens het Digital Humanities Benelux congres, dat dit jaar werd georganiseerd aan de Universiteit van Antwerpen.

De opening keynote werd verzorgd door Will Noel van de universiteit van Pennsylvania. Hij ging in op een project waarin hij een palimpsest met, in de onderste laag, een aantal teksten van Archimedes via digitale en chemische technieken heeft onderzocht. Hij pleitte in zijn lezing vooral voor het vrijelijk delen van onderzoeksdata, onder het motto “If you have sexy data, make them promiscuous”. Peter Robinson betoogde grotendeels hetzelfde in zijn lezing over de verschillende digitale edities die hij heeft verzorgd: “Your interface is everyone else’s enemy” en het werk dat voor een kritische editie is verzet wordt pas echt herbruikbaar wanneer afbeeldingen en gecodeerde teksten openlijk worden gedeeld.

Jesper Verhoef en Melvin Wevers, beiden van het onderzoeksproject Translantis, gaven een presentatie over The Digital Humanities Cycle. De onderzoekscyclus bestaan uit activiteiten als zoeken, analyseren, het leren werken met een tool, het voorbereiden van data en het kritisch evalueren van resultaten. Zij benadrukten dat er over het algemeen niet één onderzoekstool bestaat die een onderzoeksvraag kan beantwoorden. Iedere tool heeft zijn beperkingen. Vaak moeten er verschillende tools worden gecombineerd, of moeten bestaande tools worden aangepast.

Inger Mees van de Vrije Universiteit presenteerde over haar onderzoek naar de herkenning van emoties in teksten. Op basis van een nieuwe semantic tagger zijn binnen een corpus van ca. 300 Nederlandstalige toneelstukken de verschillende emoties die worden uitgedrukt beschreven. Tijdens een sessie over Digitization and Exogenesis liet Ronan Crowley (Universiteit van Passau) zien dat grote tekstverzamelingen (Large Scale Digitisation Inititiatives of LSDIs) zoals het Google Books corpus van groot belang kunnen zijn bij onderzoek naar intertextualiteit, allusies en citaten. Antal van den Bosch, ten slotte, heeft onderzoek gedaan naar teksten waarin dromen worden beschreven (ontleend aan Dreambank). Van den Bosch wilde weten wat de karakteristieke kenmerken zijn van deze teksten. Het onderzoek begon met het toepassen van vele verschillende technieken  (“shoot with many guns”), waaronder n-gram analysis, topic modeling, text classification en discourse coherence measures. Uiteindelijk bleek Topic Modelling de meest relevante resultaten op te leveren. Ik heb zelf een presentatie gegeven over de visualisatietechnieken die ik heb toegepast tijdens mijn onderzoek naar poëzie.

In een aantal andere verslagen van congres werd aangegeven dat het congres vooral ging over de methodologie en veel minder over de nieuwe geesteswetenschappelijke inzichten die deze methoden kunnen opleveren. Tijdens het congres werden, zoals wel vaker het geval is, vooral de positieve aspecten van onderzoeksprojecten gepresenteerd. Voor bibliotheekmedewerkers die dit type van onderzoek willen ondersteunen was het daarom lastig om vast te stellen waar nog uitdagingen liggen, en waar daadwerkelijk behoefte aan bestaat. Wat wel duidelijk werd is dat er heel veel wordt geëxperimenteerd met verschillende onderzoekstools. Onderzoekers moeten vaak veel tijd investeren in het leren werken met deze nieuwe technieken. Meer gerichte informatie over de mogelijkheden en de beperkingen van specifieke tools ontbreekt heel vaak, en veel onderzoekers kunnen gebaat zijn bij een betere ondersteuning bij het gebruik van de beschikbare tools.

Het DH Benelux congres zal volgend jaar plaatsvinden op 9 en 10 juni, in Belval in Luxemburg.

Digitale Bibliotheek voor de Nederlandse Cariben

Sinds de bibliotheekcollecties van het KIT en KITLV worden beheerd door de UBL beschikken we over een aanzienlijke hoeveelheid bronnen over onze voormalige koloniën. Door onze plannen met betrekking tot de Asian Library staat het Oost-Indische deel (de Indonesische collectie) volop in de belangstelling, maar dat het West-Indische deel ook zeker de moeite waard is, dat is bij minder mensen bekend.

Sinds 2014 beheert de UBL de grootste collectie op het gebied van de cultuur en geschiedenis van de (voormalige) Nederlandse Cariben. Het gaat voor de periode tot en met 1954 in totaal om ca. 3000 boeken, tijdschriften en artikelen, rond de 1000 kaarten en enkele belangrijke archiefcollecties. Dankzij een subsidie van OCW kunnen we op dit moment de gehele collectie digitaliseren, voor onszelf en voor de universiteit van Curaçao. De bibliotheek van deze jonge universiteit is namelijk gestart met de bouw van een digitale bibliotheek, die dé toegang moet gaan worden voor onderwijs en onderzoek in en over deze regio.  De Leidse collectie zal hierbinnen toegankelijk worden gemaakt als Dutch Caribbean Heritage Collections.

De digitale bibliotheek in wording heeft de naam Dutch Caribbean Digital Platform gekregen. Deze site wordt zelf weer onderdeel van het grotere DLoC – Digital Library of the Caribbean. Hierin heeft zich inmiddels al een groot aantal bibliotheken verenigd, waaronder die van de universiteiten van Florida, Suriname,  Haïti en de Bahamas.  Het DLoC consortium omvat niet alleen een gedeeld repositorium, maar er is ook een opleidings- en trainingsprogramma aan verbonden, er worden handleidingen en best practices gedeeld en instellingen kunnen een beroep doen op subsidies.

De materialen die nu worden gedigitaliseerd zijn in fysieke vorm vaak niet meer aanwezig, of slecht toegankelijk voor de lokale bevolking. Met de digitalisering van deze collectie wordt dan ook een belangrijke bijdrage geleverd aan de toegankelijkheid van deze bronnen. Hierdoor kunnen (nieuwe) vragen worden gesteld over uiteenlopende onderwerpen, zoals de geschiedenis van de voormalige koloniën, Nederlands Caribische literatuur en kunst, slavernij, of de ontwikkeling van het Nederlands. De collectie is van groot belang voor de ontwikkeling van het onderwijs, niet alleen op Curaçao, maar ook op de overige eilanden (Bonaire, Sint Eustatius, Saba, Aruba en Sint Maarten). Op basis van de teksten en afbeeldingen die beschikbaar komen, kunnen reguliere colleges worden gegeven, maar ook afstudeerscripties worden geschreven en MOOCS worden vervaardigd. En voor lagere en middelbare scholen kan eindelijk lesmateriaal worden vervaardigd waarin ook de lokale geschiedenis, geografie en biologie aan bod komen. In het DLoC repositorium zijn hiervan al een aantal interessante voorbeelden te vinden. Dankzij het corpus worden ook nieuwe, innovatieve vormen van onderzoek mogelijk. Zo kunnen de gedrukte teksten worden gebruikt voor textmining, en de kaarten voor GIS projecten.

Mooie plannen dus. Maar om dit allemaal mogelijk te maken moet eerst een aantal praktische zaken worden geregeld. Er zijn inmiddels drie batches gedigitaliseerd (meer dan 100.000 scans) en batch 4 en 5 liggen al bij digitaliseringsbedrijf Microformat in Lisse en worden momenteel verwerkt. Als alles goed gaat worden de laatste scans in januari 2016 uitgeleverd.

Een groot deel van het materiaal kan niet zonder meer beschikbaar worden gesteld aan het grote publiek. De UB van Curaçao gaat vanaf september 2015 dan ook een start maken met clearen van copyright. Totdat dit is geregeld zijn de materialen in het repositorium alleen als een zogenaamde snippet of fragment te bekijken, vergelijkbaar met Google Books. En fysieke bezoekers krijgen de mogelijkheid om scans te printen in de bibliotheek. Op die manier krijgen bewoners van de Nederlandse Antillen in elk geval beschikking over hun eigen culturele erfgoed.

Illustratie   kaartTitelpaginaWoordenboek

Open en online Onderwijs, de bibliotheek en de opslag van leermiddelen

Open en Online Onderwijs

Op 20 maart – in de Open Education Week, alweer een tijdje geleden – was ik aanwezig bij een Themamiddag over Bibliotheken en Open en Online onderwijs van SURFnet in samenwerking met de SHB en UKB. Daar werden o.a. de eerste resultaten van een verkenning naar de rol die bibliotheken voor zichzelf zien bij open en online onderwijs gepresenteerd. Deze verkenning werd in opdracht van Surf uitgevoerd door dr. Karianne Vermaas (WAU?!). Het rapport is verder aangevuld met de resultaten van de discussie tijdens de bijeenkomst, en op 19 mei 2015 gepresenteerd: De rol van de bibliotheek in open en online onderwijs: een verkenning.

Voor de verkenning heeft Vermaas ca. 30 Hoger Onderwijs-instellingen bevraagd. Daarbij stuitte zij op veel verwarring over de definitie van ‘open en online onderwijs’. Veel verwarring in de definitie. Want wat is eigenlijk Open? Dat het gratis is? Dat je het kunt volgen wanneer je wilt? Maar veel MOOCs – toch het voorbeeld bij uitstek van open en online onderwijs – hebben een vaste begin- en einddatum. Gaat het dan om vrije toegankelijkheid? Maar wederom bij MOOCs heb je vaak een account nodig om deel te nemen. Dat account kan dan wel weer iedereen aanmaken, er zijn geen ingangseisen. Maar is dat vrij, en open?
In de inventarisatie is gekozen voor de definitie dat het materiaal gepubliceerd met een open licentie, zodat hergebruik en aanpassing binnen een andere context mogelijk wordt. Een ietwat bijzondere keus naar mijn mening.

Open en online onderwijs staat in ieder geval bij de meeste instellingen nog in de kinderschoenen en bibliotheken oriënteren zich nog op hun rol. Deze hangt tevens af van de positie die zij in de organisatie innemen. Bij sommige instellingen zit de bibliotheek dicht op het onderwijs, bij andere staat zij er verder van weg.

Als meer traditionele rollen bij Open en online onderwijs worden advies over auteursrechten en licenties, opslag en ontsluiting van materiaal, en het bijbrengen van informatievaardigheden genoemd. Het eerstgenoemde is feitelijk al een vrij moderne rol, aangezien deze direct gekoppeld is aan het ‘digitale tijdperk’. De informatievaardighedenrol kan verschillende vormen aannemen, zoals het aanbieden van eigen open cursusmateriaal van de bibliotheek, maar ook het ondersteunen van faculteiten bij het aanbieden en vinden van open leermateriaal.

Andere rollen die in de inventarisatie ter sprake kwamen zijn content-creatie (ondersteuning bij het maken van onderwijsmateriaal, zoals video’s), content-curatie (selecteren en ordenen van online beschikbaar onderwijsmateriaal, in het verlengde van de klassieke taak van de bibliotheek) en het stimuleren en aanjagen van open en online onderwijs. Ook biedt de bibliotheek bij sommige instellingen een experimenteerruimte: een soort ICTO- of innovatielab met ‘open’ pc’s waarop docenten en studenten alles kunnen uitproberen wat (nog) niet centraal wordt ondersteund. Voorbeelden daarvan zijn EdLab Universiteit Maastricht, Digital Learning Lab Hogeschool Rotterdam, Explora Innovatielab Avans. Bij deze instellingen zit de bibliotheek dicht op het onderwijs. In Leiden is de ICTO-ondersteuning facultair georganiseerd en ontbeert daarom een centrale plek waar alle expertise bij elkaar komt. Wellicht kan de UBL een dergelijke ruimte bieden door de handen met de ICTO-ondersteuners, het ICLON en het ISSC ineen te slaan?

Over opslag van onderwijsmateriaal werd in de presentatie aanvankelijk vrij snel heen gegaan, maar hier werd later tijdens de bijeenkomst op teruggekomen. Waar dit in het gedrukte tijdperk over boekenplanken ging, gaat het nu om servers en repositories. Online beschikbaar materiaal is een randvoorwaarde voor de onderwijstrend van ‘flipped classroom’, die beoogt dat studenten de stof op eigen gelegenheid tot zich nemen zodat de contacturen kunnen worden gereserveerd voor interactie (en niet voor uitleg).

De UBL is tot nu toe terughoudend wat betreft de opslag van leermaterialen. Er hangen aan dit materiaal dan ook enkele ingewikkelde aspecten: De rechten van het gebruikte leermateriaal liggen vaak niet bij de eigen instelling, en het materiaal kan vele vormen aannemen (teksten, afbeeldingen, powerpoints, video, audio, interactief materiaal, etc.).
De UBL heeft nu 2 repositories, die eind 2015 in een gezamenlijke infrastructuur moeten zijn ondergebracht: Het Leiden Repository in DSpace met ‘Leidse’ wetenschappelijke publicaties en scripties (alleen zelfgeproduceerd materiaal dus), en Digital Special Collections in Digitool (veelal rechtenvrij). Het online beschikbaarstellen van (verzamelingen van) materiaal van anderen zonder de rechten goed te regelen is tricky, en dat geldt ook in een besloten systeem.

In de praktijk slaan docenten het onderwijsmateriaal bij een cursus (dat niet online of niet voor een Leidse doelgroep beschikbaar is) direct in Blackboard op, desnoods eigenhandig gedigitaliseerd. Maar dit is – ook voor zelf geproduceerd materiaal – geen geschikte opslagplek. Items zijn niet vindbaar en herbruikbaar door collega-docenten, en bij gebruik in meerdere cursussen (ook van dezelfde docent) moeten deze vaak dubbel worden ingevoerd. Videomateriaal neemt veel serverruimte in beslag, waardoor de licentiekosten van Blackboard (het opslaggedeelte) hoog oplopen. Dit is momenteel een serieus issue, waaraan de nieuwe Leidse streaming video dienst (opvolger van U-Stream) soelaas moet bieden.

Dit project heeft helaas inmiddels een flinke vertraging opgelopen, maar ook als de streaming dienst straks wordt gelanceerd, blijft de vraag wat je er precies in mag opslaan en onder welke voorwaarden. Alleen eigen materiaal? Ook materiaal van anderen, maar dan alleen met toestemming en wellicht besloten? Hoe regel je dat? Inhoudelijk gaat het sowieso om hybride materiaal: leermiddelen (kennisclips en andere educatieve video), (populair-)wetenschappelijke producties (zelf vervaardigde documentaires, presentaties voor vakgenoten of een breed publiek), wervingsmateriaal (PR-video’s), maar ook onderzoeksdata (opnamen van testpersonen, veldwerkopnamen, etc.).
Maar zou je er ook er ook een collectie gedownloade video’s in kunnen opslaan die je wilt ‘veiligstellen’ voor onderzoek, of een op internet gevonden video die jouw onderwijs goed illustreert?

Zo moet er in het kader van de nieuwe videodienst moet over veel zaken nagedacht gaan worden die ook op andere repositories toepasbaar zijn. Wellicht komen we zo tot randvoorwaarden, waaronder in het nieuwe Leidse repository (op termijn) ook leermiddelen ook opgeslagen zouden kunnen worden. Hand in hand!

Van GGC naar WorldShare

images

Het is zeker niet de belangrijkste vraag in bibliotheekland, maar wel al jaren de meest gestelde: is het nu dé GGC of hét GGC? GGC staat voor Gemeenschappelijk Geautomatiseerd Catalogiseersysteem en dus is ‘het’ correct, maar bij afkortingen wil de onzijdigheid nog wel eens verdwijnen. Datzelfde geldt voor de de/het-vraag, want in een paar stappen zullen we afscheid nemen van het GGC (laat ik het daar maar op houden). De UKB-bibliotheken stappen over op WorldShare (zonder lidwoord), ook van OCLC. WorldShare is, heel kort door de bocht, een internationale GGC. Overgang naar WorldShare betekent dat we aansluiten bij internationale standaarden en regels, dat we beter gebruik kunnen maken van metadata die door leveranciers wordt geleverd en dat we efficiënter kunnen werken. Bovendien is de verwerking van papier en elektronisch materiaal in WorldShare beter geïntegreerd dan in het GGC.

Voor de oppervlakkige beschouwer lijkt de overgang naar WorldShare misschien een fluitje van een cent. Onze gegevens zitten er immers al in. Maar zoals meestal in het leven is de werkelijkheid net iets genuanceerder. In de loop der jaren is het grootste deel van het Leidse bezit inderdaad overgezet naar WorldCat, maar de kwaliteit van de conversie was aanvankelijk nog niet optimaal en daarom moet er nog wel wat herstelwerkzaamheden verricht worden. Bovendien staan de exemplaargegevens nog niet in WorldCat. Die slag moet nog gemaakt.

Maar de overgang brengt meer wijzigingen met zich mee. Zo zullen we afscheid nemen van WinIBW. Hiervoor in de plaats komt de gloednieuwe editor Record Manager. Het Picaformaat wordt ingeruild voor het internationaal veel meer ingeburgerde Marc21. Ook het IBL-systeem zal op termijn vervangen worden door een WorldShare-variant. Omdat dit nieuwe systeem voorlopig nog even op zich laat wachten, zal ook na de overgang naar WorldShare het GGC nog in gebruik blijven om de interbibliothecaire verkeer in stand te houden.


Capture


OCLC biedt een totaaloplossing met naast WorldCat onder meer een backendsysteem, maar de overgang naar WorldCat betekent niet dat we automatisch ook de andere producten gaan afnemen. Over de toekomst van onze linkresolver (nu is dat SFX) is bijvoorbeeld nog geen beslissing genomen.

De grote vraag is nu natuurlijk wanneer de overgang naar WorldCat gaat plaatsvinden. UKB en OCLC werken samen in een landelijk project. De universiteiten zullen één voor één, of hooguit in groepjes van 2 of 3 overgaan. De TU Delft bijt het spits af. Volgens de huidige planning zullen zij in juli gaan catalogiseren in WorldShare. Leiden zal zoals het er nu naar uitziet in de zomer van 2016 overgaan. We hopen tegen die tijd meer duidelijkheid te hebben over ons backendsysteem. Blijft het Aleph? Wordt het de opvolger Alma? Of wordt het toch WMS? Omdat WorldShare en het backendsysteem voor een groot deel gebruik maken van dezelfde gegevens zijn dat belangrijke vragen. Bovendien staat ons begin 2016 een grote verhuizing van collecties te wachten. Het is beter om zo’n grote operatie te doen in een systeem waarin we helemaal thuis zijn. En natuurlijk betekent het achteraan aansluiten ook dat we minder geconfronteerd worden met kinderziektes (want die zijn er nu eenmaal altijd). Dat betekent overigens niet dat we tot die tijd achterover leunen. We kunnen nu al veel doen om ervoor te zorgen dat we straks geolied en zonder onnodig verlies aan kwaliteit de stap kunnen maken. Er is daarom nu al een projectgroep in het leven geroepen.

Maar we hoeven we niet tot de zomer van 2016 te wachten op nieuwe OCLC-producten, want eind dit jaar zal de vervanger van Picarta, WorldCat Discovery, in gebruik worden genomen. Overigens betekent dat niet we daarmee direct afscheid nemen van Picarta: dat blijft nog tot een niet nader genoemde datum beschikbaar.


ISIL code!? Welke ISIL code!?

mistakes-300px

Sinds 2004 beschikken we over een internationale standaard voor de unieke identificatie van organisaties die actief zijn op het gebied van bibliografische informatie, zoals bibliotheken, archieven en musea. Hiervoor wordt gebruik gemaakt van de zogenaamde ISIL code. Nationaal en ook internationaal richten we steeds meer gezamenlijke data- en infrastructuren in. Dit maakt het noodzakelijk om eenduidig te kunnen verwijzen naar de herkomst van de data, zoals een bibliografische beschrijving, of een gedigitaliseerd werk. Je moet dus in één oogopslag kunnen zien wat de herkomst van de beschrijving of de scans is en waar het originele, fysieke werk zich bevindt. Dat die eenduidige verwijzing minder vanzelfsprekend is dan het lijkt wordt duidelijk wanneer je een aantal portalen waaraan de UBL de afgelopen jaren scans en metadata heeft geleverd met elkaar vergelijkt :

  • In Delpher, waar gedigitaliseerde oude drukken in zijn opgenomen, zijn wij netjes te vinden als “Leiden, Universiteitsbibliotheek”;
  • Maar in de Daguerreobase – de collectieve catalogus voor daguerreotypieën – zitten onze collecties als “Collectie Prentenkabinet Leiden”;
  • En op de website van het Geheugen van Nederland zijn onze digitale collecties opgenomen als “Bijzondere Collecties Leiden”.

In de eerste plaats is dit verwarrend voor gebruikers die niet bekend zijn met de geschiedenis van de Leidse universiteitsbibliotheek. Zij kunnen denken dat het hier om drie verschillende collecties gaat. Maar je kunt je ook voorstellen dat dit ook zorgt voor problemen wanneer we de collecties via één gezamenlijke website willen gaan aanbieden. Ontdubbeling wordt dan bijvoorbeeld heel lastig. Daarom werkt ook Bureau Metamorfoze sinds kort met ISIL codes voor het administreren van instellingen, metadata en scans. Tijdens de aanvraag voor de digitalisering van het archief van Christiaan Snouck Hurgronje werd ook ons voor het eerst gevraagd om onze UBL ISIL code op te geven.
In elk land treed de nationale bibliotheek op als ISIL-beheerorganisatie. In Nederland is dit de KB, maar die heeft deze taak gedelegeerd aan een aantal andere Nederlandse organisaties. Voor archiefdiensten en historische verenigingen is de toekenning van identifiers gedelegeerd aan het Nationaal Archief. Voor de openbare bibliotheken is de Stichting Bibliotheek.nl verantwoordelijk en de ISIL codes voor wetenschappelijke en speciale bibliotheken worden toegekend door OCLC. Handig, want hierdoor is in WorldCat altijd direct te zien wie verantwoordelijk is voor een beschrijving in de catalogus.

Helaas is de onderlinge afstemming niet helemaal goed geregeld. We kwamen er namelijk al snel achter dat er verschillende codes circuleren.

  • Volgens de WorldCat registry van OCLC zijn aan UBL twee ISIL codes toegekend: NL-L2U en OCLC-L2U
  • Volgens OCLC PICA is onze ISIL code echter NL-0200050000

De verwarring is nog groter geworden doordat er ook bibliotheken met erfgoedcollecties zijn die een ISIL-code aanvragen bij het Nationaal Archief. De codes die het NA toekent zijn aantrekkelijker om in de bestandsnaam van scans en andere digitale documenten op te nemen dan de ISIL-code van OCLC-PICA. Voor Leiden zou de code moeten zijn: NL-LdnUBL. 

En mocht je denken: hé die ISIL codes van het Nationaal Archief  lijken wel wat op de Marc code for libraries…dat klopt! Deze code is namelijk NL-LeU. In onder meer België en Duitsland fungeert de ISIL-code tevens als MARC Organization Code en worden één en dezelfde code dus voor beide gebruikt.

De ISIL heeft dus geen vaste structuur, kan door meerdere instellingen los van elkaar worden toegekend, en er is overlap met de standaard coderingen van Marc. Snapt u het? Nou, wij ook niet!

Na onderzoek door de KB en OCLC is vast komen te staan dat de juiste ISIL code voor UB Leiden NL-0200050000 moet zijn. Wanneer je op deze lijst kijkt, dan zie je dat NL-0200050000 inderdaad de juiste code is en dat L2U een library symbol is (en dus geen code). Maar Bureau Metamorfoze had ons inmiddels al opgedragen om NL-L2U te gebruiken. Gelukkig konden we dat nog snel corrigeren.

Wel zijn we er zo achter gekomen dat we zelf ook niet altijd de juiste codes hebben gebruikt in  de EAD.xml van onze collectiebeschrijvingen. Hier hebben wij namelijk altijd (consequent, dat wel 😉 de Marc code NL-LeU genoteerd, in plaats van de verplichte ISIL code. Zoals Liesbeth van Wijk tijdens het laatste Broodje Kennis vertelde, hebben we onze collectiebeschrijvingen al in Archivegrid laten opnemen, en we hebben plannen met Apenet en Archieven.nl. Om echt goed voorbereid te zijn op de toekomst zullen we die nog moeten aanpassen. En we zullen op korte termijn contact op moeten nemen met WorldCat, zodat wij ook op de juiste manier in hun Registry vermeld worden.

Zo zie je maar, zelfs een bibliothecaris vergist zich wel eens….

SWIB14

Begin december 2014 werd SWIB14 gehouden in Bonn, Duitsland. Dit is een conferentie over het Semantisch Web in bibliotheken, die dit jaar over Linked Open Data ging.
Linked Open Data is een manier om gestructureerde data te publiceren op zo’n manier dat de data met elkaar verbonden is, vrij toegankelijk is (open) en op een betekenisvolle manier bevraagd kan worden. Linked Open Data maakt gebruik van technieken als HTTP, URI en RDF.
Wat bovenstaande precies inhoudt en ook hoe het toe te passen is, daar ging de conferentie over.
De conferentie zelf was 2 dagen, maar de dag ervoor werden er workshops gegeven. Ik ben naar de workshop “Introduction to Linked Open Data” geweest:
Het internet draaide eerst helemaal om computers (computers met elkaar verbonden), later om documenten (websites), maar binnen het semantische web draait eigenlijk alles om dingen. Tja, dingen, en wat zijn dat dan die dingen, vraag je je misschien af. Nou, dat kan van alles zijn; boeken, documenten (dus ook weer websites), personen, maar ook concepten of ideeën.
Over die dingen kan je dingen beweren, zoals die auto is rood of dat boek is geschreven door “Douglas Adams”. De dingen zijn dan “die auto” en “dat boek”, maar ook “rood” en “Douglas Adams”. Een bewering wordt gedaan in de vorm subject-predicate-object, ook wel triple genaamd. Bijvoorbeeld bij de bewering “die auto is rood” is “die auto” het subject, “is” is het predicaat en “rood” is het subject.
Als je uitspraken over dingen wilt doen en die met anderen wilt delen, moet je die dingen wel uniek kunnen identificeren. Dit doe je met behulp van URI’s. Maar ook de predicaten worden met URI’s aangeduid. Maar dat is niet voldoende; je moet ook afspraken maken wat wat betekent en dat een en hetzelfde ding of predicaat dezelfde URI heeft. Hiervoor is het nodig om een vocabulary (woordenschat) te gebruiken.
Er zijn verschillende vocabularies beschikbaar, zoals FOAF, DBpedia, DC terms. En voor bijna elk ding is wel een vocabulary te vinden, bijvoorbeeld via Linked Open Vocabularies.

Linked Open Data in de praktijk
Linked Open Data kan op verschillende manieren genoteerd worden, zoals Turt> le, N3, RDFa, RDF/XML en JSON-LD). Turtle is de meest simpele manier waar vrij duidelijk te zien is dat alles in triples (subject-predicate-object) beschreven kan worden:

<isbn:0330258648> <httpː//purl.org/dc/elements/1.1/creator> "Douglas Adams" .
<isbn:0330258648> <httpː//purl.org/dc/elements/1.1/title> "The Hitchhiker's Guide to the Galaxy" .

Hier zijn de drie delen goed te zien. Let op de punt op het eind.
Als meerdere statements over hetzelfde ding geschreven moeten worden, dan gaat het vervelen om steeds weer het subject in zijn geheel op te schrijven. Ook het gebruikte vocabulair kan korter (of eigenlijk eenmalig) opgeschreven worden:

@prefix dc: <httpː//purl.org/dc/elements/1.1/>
<isbn:0330258648> dc:creator "Douglas Adams" ;

dc:title "The Hitchhiker's Guide to the Galaxy" .
De titel van het boek is nu in het Engels, terwijl dat niet duidelijk gemaakt is. Bovendien willen we wellicht ook de Nederlandse titel kwijt:

@prefix dc: <httpː//purl.org/dc/elements/1.1/>
<isbn:0330258648> dc:creator "Douglas Adams" ;

dc:title "The Hitchhiker's Guide to the Galaxy"@en,
"Het Transgalactisch liftershandboek"@nl .

 

Wat is nu het grote voordeel van linked open data?

  • verbonden: het is linked open data. Als de dingen met een URI benoemd worden, kan de data makkelijk met elkaar verbonden worden omdat duidelijk is dat over hetzelfde ding gesproken wordt;
  • open: de data is vrij toegankelijk. Niet alleen omdat het niks (of in elk geval weinig) kost, maar ook omdat er geen restricties op het gebruik zitten;
  • eenduidig: doordat er gebruik wordt gemaakt van URI’s, kunnen de dingen eenduidig benoemd worden, ook als ze in praktijk dezelfde naam hebben. Bijvoorbeeld bij het woord “venus” kan de planeet, de godin, de plaats (in Florida, Roemenie of Texas), de film, het lied, de popgroep, het scheermes, het schip of de tennister bedoeld worden. Echter, elk van deze dingen heeft een eigen URI;
  • betekenisvol: door linked open data krijgt data betekenis, zelfs meer dan op het eerste gezicht lijkt. Linked open data maakt gebruik van vocabularies (een dataset die betekenis geeft aan bepaalde begrippen). Door deze vocabularies te gebruiken krijgt de data zelf al meer betekenis, niet alleen voor mensen maar ook voor computers die de data interpretteren. Bijv. als het Schema vocabulary gebruikt wordt om aan te geven dat Henk werkt bij de Universiteit Leiden, dan is niet alleen daarmee bekend dat Henk werkt bij de Universiteit Leiden, maar ook dat Henk blijkbaar een Persoon (een bepaalde klasse binnen Schema) is en dat “Universiteit Leiden” een Organisatie (een andere Klasse binnen Schema) is. Door dus dat vocabulary te gebruiken is er meer betekenis gegeven aan de data;
  • meerwaarde: doordat de data open, verbonden, eenduidig en betekenisvol is, krijgt de data meerwaarde. Niet alleen voor de producent van de data, maar ook voor de consument van de data. En daarbij kan de producent optreden als consument van andere Linked Open Data;
  • taalonafhankelijk: linked open data werkt met dingen in plaats van met woorden. Elk ding, of eigenlijk concept, kan in meerdere talen beschreven zijn. Zoeken op “Den Haag” levert dan ook resultaten voor “The Hague” en “’s Gravenhage” op omdat deze alle zijn gekoppeld aan dezelfde URI.

Natuurlijk werkt Linked Open Data alleen goed als gebruik gemaakt wordt van dezelfde vocabularies. Dit gebeurt voor een deel, maar er zijn ook wel weer een groot aantal vocabularies beschikbaar (zie LOV). Deels worden termen uit de verschillende vocabularies (impliciet of expliciet) weer met elkaar verbonden.

Er waren op SWIB14 diverse presentaties over het gebruik van Linked Open Data. Hieronder een verslag van de naar mijn mening interessantste:

Tom Grahame van de BBC sprak over hoe de BBC Linked Open Data gebruikt. Ze begonnen hiermee met het WK van 2010 en daarna de Olympische Spelen van 2012. Elke atleet was een entiteit (ding) en had een eigen pagina die geheel werd opgebouwd uit Linked Data. Hierdoor had ook een minder bekende atleet een eigen pagina, die qua opbouw gelijk was aan die van een zeer bekende atleet, gevuld met informatie. Hiervoor hoefde een redacteur niet de pagina te maken, maar werd alleen data toegevoegd (ook uit andere bronnen). Voor het nieuws zijn ze nu bezig, maar dat is een stuk lastiger omdat het veel diverser is. Voor de ontologies (een formeel gebruikt woord voor vocabularies) hebben ze een eigen website, evenals een website om alle dingen te beschrijven.
Ze gebruiken hun eigen ontologie omdat het lastig is (maar wel het beste!) om een bestaande ontologie te gebruiken.
Alle linked data wordt in een triplestore opgeslagen en daar liggen diverse lagen overheen zodat de data beschikbaar wordt gesteld aan hun eigen apps maar ook aan derde partijen.

De Pina Bausch Foundation heeft een digitaal archief gemaakt van de danseres/choreografe Pina Bausch. Deze danseres had tijdens haar leven al zelf een digitaal archief bijgehouden. De data is als Linked Data beschikbaar gemaakt en gebruikt verschillende vocabularies zoals purl.orgDC termsFOAF en SKOS. Op basis hiervan is ook een iPad app gemaakt.

Wikidata had ook een interessante presentatie. Wikidata valt onder Wikimedia, waar ook weer Wikipedia onder valt. Wikipedia bevat heel veel data, maar heeft ook een aantal uitdagingen: ze zijn afhankelijk van vrijwilligers en daardoor zijn er veel verschillen tussen talen. Je zou zeggen dat de meeste informatie beschikbaar is in het Engels. Maar dat is niet zo: slechts 50% van de data op Wikipedia is in het Engels beschikbaar. Helaas zijn andere talen slechter vertegenwoordigd. Wikipedia heeft wel heel veel data, maar is niet altijd toegankelijk. Sommige vragen zijn niet te beantwoorden, terwijl de data wel beschikbaar is op Wikipedia. Wikidata probeert dit probleem op te lossen door de data uit Wikipedia op een soort Linked Open Data manier te beschrijven. Deze data wordt weer binnen Wikipedia gebruikt in bijvoorbeeld de informatieboxen aan de rechterkant van een Wikipedia pagina (zie bijvoorbeeld hier). De data in WikiData is veel gestructureerder, meertalig en met vaste verwijzigingen (URI’s) naar andere bronnen. Ook probeert men voor alle data die toegevoegd wordt een bronvermelding te doen.

Europeana had een presentatie over problemen bij meertaligheid. Ze probeerden een deel van de problemen op te lossen met een nieuwe datamodel gebaseerd op SKOS. Ze hadden voor verschillende termen de vertalingen in verschillende talen en die onderling gerelateerd.

BIBFRAME is de MARC21 opvolger, of althans dat zou het moeten zijn volgens Eric Miller van het bedrijf Zepheira. Bibliotheken hebben veel goede data en zijn op veel punten ver vooruit (“libraries are credibility engines”), maar de data die ze hebben is niet zichtbaar op het internet. De data moet meer naar buiten gebracht worden, bijvoorbeeld via Libhub. We spreken nu niet op een manier die het web begrijpt, maar dat zouden we wel moeten doen. Schema.org is een nieuwe manier om op het web te komen, maar niet dé manier. Links zijn dat. We moeten de search engines gebruiken om gevonden te worden. Niet door te vragen aan de search engines of ze ons en onze data willen opnemen, maar door ze zelf te gebruiken. Met BIBFRAME zou dit mogelijk moeten worden, het is een sociaal data model. Helaas is BIBFRAME nog in de draft/test fase en wordt nog niet echt door bibliotheken gebruikt.

De eindpresentatie werd gedaan door Richard Wallis van OCLC. Hij herhaalde nogmaals dat de bibliotheek niet gelinkt was aan het web: “Why catalog? So we can find things. Why are we on the web? So todays users can find our resources”. Wat bibliotheken moeten doen volgens hem is gebruik gaan maken van linked data met Schema.org als vocabulair. Met Hadoop kan makkelijk data geconverteerd worden. We moeten niet meer denken in records, maar focussen op entiteiten. WorldCat loopt daar volgens hem in voorop.

Natuurlijk waren er nog veel andere interessante presentaties, zoals over alles annoteren, SKOS, KOS, Microtask Crowdsourcing, d:swarm (demo.dswarm.org), ElasticSearch en nog veel meer.

Preservation Metadata in de praktijk

Dit keer een gastblog van Liesbeth van Wijk. Zij bezocht op 19 juni samen met Niels Molenaar de workshop preservation metadata in de praktijk.

De workshop met lezingen en discussie op 19 juni in de KB was wegens grote belangstelling voor de tweede maal dit jaar georganiseerd door Beel d en Geluid en NCDD. Er waren ongeveer 70 mensen van zeer diverse instellingen.

Tijdens de hele dag kwamen diverse datamodellen voor duurzame opslag van digitaal materiaal voorbij: het SPOT-model, het OAIS-model en PREMIS. Eerst werd de algemene theorie uitgelegd door Titia van der Werf, programmamanager bij OCLC Research. In vier casussen kwam de praktijk aan de orde. Hierin kwamen de drie modellen ook steeds terug. Het zijn geen normatieve standaarden, die precies voorschrijven hoe je je systemen moet inrichten. Het zijn handige kapstokken waarmee je kunt nagaan of je aan alles gedacht hebt en die je bewust maken van alle keuzes die je moet maken.

Titia van der Werf begon metadata in te delen naar functie (bv. discovery, access, management) en typen (bv. beschrijvend, technisch, administratief). Duurzaam opslaan (“preservation”) is de verantwoordelijkheid van erfgoedinstellingen en kent een aantal uitdagingen: de hoeveelheid digitale informatie (risico van duplicatie), complexitieit, afhankelijkheid van hardware en software, snelle technologische veranderingen. Daar komt recent bij de uitdaging van duurzaam opslaan van digital born collecties. Vragen met het oog op de toekomst daarbij zijn: hoe blijft iets bewaard en raadpleegbaar, ook als de techniek verandert? En hoe bepaal je de authenticiteit van een digital born object?

SPOT-model

Het SPOT-model (Simple Property-Oriented Threat Model for Risk Assessment) beschrijft zes essentiële kenmerken van succesvolle digitale duurzaamheid (in het engels availability, identity, persistence, renderability, understandability, and authenticity) en voor elk kenmerk risico’s en bedreigingen (zie bijlage). Zie ook: https://www.dlib.org/dlib/september12/vermaaten/09vermaaten.html.

PM1

 

OAIS-model

Een conceptueel model voor beheeractiviteiten is het OAIS-model: het Open Archival Information System Reference Model (ISO-standaard sinds 2002). Zie deze pagina van NCDD: https://www.ncdd.nl/blog/?page_id=447. Het kan dienen als gids bij het ontwerpen van digital repositories en als benchmark voor het beoordelen van bestaande repositories. Het is een procesmodel, dat beschrijft hoe materialen beheerd worden in de verschillende stappen in het systeem.

PM2

 

Buiten het model in de omgeving zie je drie actoren: producer, consumer en management. In het model zijn de blauwe blokjes diverse activiteiten:

  • Ingest
  • Archival Storage.
  • Data Management.
  • Administration
  • Access
  • Preservation Planning.
  • Common Services

Een belangrijk begrip hierbij is Information Package (IP): een package is een bestand plus metadata. Daarvan zie je in het model drie varianten, in verschillende stadia (witte bolletjes) in het proces:

  • SIP = Submission Information Package

het bestand plus de metadata die de leverancier van de informatie meelevert aan het digitaal archief

  • AIP = Archivel Information Package

het digitaal archief voegt weer allerlei eigen metadata toe (bijv. catalogusinformatie) en slaat het geheel op als AIP

  • DIP = Dissemination Information Package.

als een gebruiker de informatie opvraagt, maakt het digitaal archief een ‘package’ met het bestand en alleen de metadata die de gebruiker nodig heeft.

Vooral in het AIP komen de preservation metadata om de hoek kijken. De verschillende soorten metadata zijn:

  • Reference metadata (unieke, persistent identifier)
  • Provenance Information: waar komt het object vandaan
  • Context information: relatie tot andere objecten, bv. in EAD of METS
  • Fixity information: bewijs van authenticiteit.

PM3

PREMIS Data Dictionary

PREMIS (Preservation Metadata: Implementation Strategies) bevat een ‘data dictionary’ met alle mogelijke preservation metadata is in digitale archiefsystemen. Rosetta (Ex Libris) implementeert PREMIS, evenals OCLC’s Digital Archive. PREMIS is gebaseerd op het OAIS-referentiemodel en bevat vijf entiteiten die elk hun eigen metadata hebben.

PM4

Intellectual entity

  • Het origineel, een intellectuele eenheid voor beheer en beschrijving (bv. een boek, een foto).
  • Heeft één of meer digitale representaties
  • Kan andere intellectuele entiteiten omvatten (een website bevat bv. meerdere webpagin’s)
  • wordt opgeslagen in de repository
  • kan één file bevatten, maar ook een aantal files die samen een intellectuele entiteit voorstellen, vgl een object in Digitool, een METS die een boek beschrijft.
  • Een handeling die het object betreft (bv. validering, ingest, conversie).
  • Bij een event horen ook metadata: wat gebeurde er, wanneer?
  • Een persoon, een organisatie of software programma/systeem verbonden met een event of een recht. Agents zijn alleen indirect aan objecten gelinkt via events of rights statements
  • Copyright, intellectuele rechten

Objects

  • wordt opgeslagen in de repository
  • kan één file bevatten, maar ook een aantal files die samen een intellectuele entiteit voorstellen, vgl een object in Digitool, een METS die een boek beschrijft.

Events

  • Een handeling die het object betreft (bv. validering, ingest, conversie).
  • Bij een event horen ook metadata: wat gebeurde er, wanneer?

Agents

  • Een persoon, een organisatie of software programma/systeem verbonden met een event of een recht. Agents zijn alleen indirect aan objecten gelinkt via events of rights statements

Rights statements

  • Copyright, intellectuele rechten

In het kader van PREMIS is “preservation metdata” informatie in een repository gebruikt tbv digitale duurzamheids en toekomstvaste documentatie van digitale objecten. De PREMIS data dicitionary is onafhankelijk van platform, technologie, hardware. Bij het ontwikkelen is gelet op uitvoerbaarheid, presenteerbaarheid, begrijpelijkheid, authenticiteit, identiteit in een duurzame context en technische neutraliteit. Er worden geen aannames gedaan over specifieke technologie, systeemarchitectuur, e.d.

Het is een richtlijn, een checklist, een gids voor locale implementatie, standaard voor uitwisseling tussen repositories. Het is NIET een out-of-the-box oplossing.

Nut voor de UB

Deze modellen kunnen we gebruiken om meer structuur aan te brengen in het denken over duurzaam opslaan van digitale collectie, de inrichting van een nieuwe repository, e-depot enz.

Met welke doelen doen we dat en welke metadata hebben we daarvoor nodig? Deze modellen kunnen helpen geen belangrijke aspecten over het hoofd te zien en goede keuzes te maken. Hebben we daarvoor alle drie modellen nodig of één of twee?

Dit sluit mooi aan bij het nu lopende project “Beleidsadvies Bijzondere Collecties” waarin wordt vastgelegd hoe we in de komende jaren met de Digitale Collecties zullen omgaan en welke prioriteiten en speerpunten aangepakt gaan worden.

Managing Open Access

Op 20 mei vond in de Royal Society in London een workshop plaats van de UKSG. De workshop is bijgewoond door vertegenwoordigers van universiteitsbibliotheken en van uitgevers, en vanuit beide perspectieven werd er ingegaan op de vele uitdagingen die het publiceren in open access publiceren met zich mee brengt.

2258365376_98b3817ecd

In de UK hebben op dit moment vrijwel alle wetenschappers te maken met de verplichting om hun publicaties openbaar beschikbaar te stellen. In het in 2012 verschenen rapport van Janet Finch werd een duidelijke voorkeur uitgesproken voor Gold OA, en deze aanbeveling is hierna overgenomen in het beleid van de RCUK, een organisatie die de werkzaamheden van Britse subsidieverstrekkers op een nationaal niveau coördineert. Een tweede belangrijke ontwikkeling is dat open access ook een belangrijk onderdeel is geworden van het in 2014 gelanceerde Research Excellence Framework (REF), een systeem voor de evaluatie van de kwaliteit van onderzoek aan Britse universiteiten. De uitkomsten van de REF bepalen voor een groot deel ook de toewijzing van onderzoeksgelden. Vanaf 2016 worden alleen de open access publicaties meegewogen in de evaluatie.

Britse universiteiten proberen hun auteurs momenteel zo goed mogelijk te ondersteunen bij het voldoen aan al deze verplichtingen, en deze ondersteunende werkzaamheden zijn vaak ondergebracht bij bibliotheken. Het ondersteunen van OA is echter voor veel bibliotheken een relatief nieuwe taak, en veel bibliotheken ondervinden dan ook problemen bij het uitwerken van goede procedures. Tijdens de workshops werden er ervaringen en best practices gedeeld van, onder meer, de Universiteit van Liverpool, Saint Andrews en Glasgow. Er zijn duidelijk een aantal problemen waar alle instellingen mee kampen. Vaak ontbreekt er een volledig overzicht van wat er daadwerkelijk wordt gepubliceerd. Wanneer er voor APCs moet worden betaald is vaak ook onduidelijk hoe deze kunnen worden gefinancierd. De RCUK en de Wellcome Trust hebben beide ‘block grants’ beschikbaar gesteld aan universiteiten, maar het is vaak lastig om te bepalen hoe dit geld moet worden verdeeld onder alle auteurs. Bij het ondersteunen van het publicatieproces moet er veel informatie worden beheerd over, onder meer, de artikelen zelf, de financierders, de licenties, de uitgeverijen, en de status van de financiele transacties. Er zijn momenteel nog geen goede systemen voor het beheer van deze gegevens, en veel universiteiten werken met omvangrijke Excel-bestanden.

Ook voor uitgevers levert OA ook veel uitdagingen op. Tijdens de workshop waren er presentaties van SAGE en IOP publishers. Voor internationale uitgevers is het vaak lastig om een uniform beleid op te stellen, omdat er in verschillende landen vaak specifieke regels met betrekking tot open access. OA levert ook veel meer administratie op. Terwijl er bij de afhandeling van abonnementen meestal één invoice per tijdschift was, moet er bij Gold OA vaak voor ieder individueel artikel een factuur worden opgesteld. Voor uitgevers is het vaak ook onduidelijk wie hun eerste aanspreekpunten zijn. Zij kunnen de besprekingen over artikelen voeren met de auteurs zelf, maar ook met bibliotheken of met Research Support Offices. In toenemende mate maken universiteiten ook gebruik van de diensten van tussenpartijen zoals Open Access Key, JISC APC, Swets en EbscoAdvantage.

Een van de meest inspirerende presentaties van de dag werd gehouden door Susan Ashworth van de Universiteit van Glasgow. In totaal werken er in Glasgow 3 fte aan het ondersteunen van Open Access. Door de bibliotheek is er een vast e-mail-adres aangemaakt waar auteurs informatie over hun geaccepteerde artikel naar toe kunnen sturen. De bibliotheek draagt hierna zorg voor het volledige publicatieproces. Er wordt beoordeeld of het artikel in Green of in Gold moet worden gepubliceerd, en of de betaling van APCs wel of niet nodig is. Glasgow heeft een verrijkt repositorium ingericht, waarin niet alleen informatie over publicaties, maar ook gegevens over subsidiverstrekkers en licenties wordt bewaard.

Binnen de UBL loopt er momenteel een project waarin wordt onderzocht hoe open access beste kan worden ondersteund binnen de Universiteit Leiden, en het bezoek aan deze workshop heeft dan ook veel inspiratie opgeleverd!

 

Over de KB, Metamorfoze en Delpher

Image

 

 

Vorige week bezocht ik een informatiebijeenkomst over de Metamorfoze digitaliseringsprojecten en Delpher.

Sinds 2013 werkt bureau Metamorfoze – financier en coördinator van conserveringsprojecten voor het behoud van papieren collecties en gevestigd in de Koninklijke Bibliotheek (KB) – volgens twee vaste trajecten: unieke werken in het traject Archieven en Bijzondere Collecties (ABC) en gedrukte materialen in Boeken, Kranten en Tijdschriften (BKT).  In het geval van ABC projecten zijn de instellingen zelf verantwoordelijk voor de meeste werkzaamheden, maar het BKT-traject wordt uitgevoerd in samenwerking met de KB. Dat houdt in dat instellingen hun materiaal naar de KB sturen, en dat deze bibliotheek verder verantwoordelijk is voor de planning en uitvoering van het digitaliseringstraject. Dat betekent ook dat de KB het grootste deel van de Metamorfoze subsidies incasseert – van vestzak naar broekzak – , maar daar staat tegenover dat het hele traject wel veel efficiënter georganiseerd is en dus ook een veel kortere doorloop heeft. De periode dat de boeken buiten de deur van de instelling verblijven is dus ook beperkt.  Er zijn bovendien ook financiële voordelen. De KB werkt voor het BKT traject met een aantal preferred suppliers, die tijdens een Europese aanbestedingsprocedure zijn geselecteerd.  Door de efficiënte workflow is het geselecteerde scanbedrijf verzekerd van een constante aanvoer van opdrachten, waardoor gunstigere afspraken kunnen worden gemaakt. Door dit alles wordt de gemiddelde prijs per scan ook lager.

Nieuw is dat de KB er ook voor gaat zorgen dat alle scans die in het BKT traject worden gemaakt worden ge-OCRd en online beschikbaar worden gesteld via Delpher. Slim, want op deze manier zorgt men voor een constante aanvoer van tekstueel bronmateriaal aan het portaal. Delpher wordt hiermee langzaam maar zeker hét startpunt voor online bronnen over Nederlandse cultuur en geschiedenis. Delpher bevat op dit moment meer dan 90.000 boeken, 1 miljoen kranten en  1,5 miljoen pagina’s uit Nederlandse tijdschriften uit de 17e tot 20e eeuw. Ook Leiden is in het portaal vertegenwoordigd. Enkele jaren heeft een consortium van UB Amsterdam, KB en UB Leiden 10.000 boeken uit het Nederlandse taalgebied uit de periode 1781-1800 gedigitaliseerd en beschikbaar gesteld via het portaal Early Dutch Books Online. De boeken uit dit portaal zijn inmiddels ook opgenomen in Delpher.

Maar het is de bedoeling dat de komende jaren het totale aanbod verdubbeld tot 50 miljoen pagina’s, mede dankzij de Metamorfoze projecten. Ook wordt het tekstuele materiaal uit het Geheugen van Nederland, zoals de Kinderboeken en de literaire nalatenschappen, hierheen overgebracht. Dit lijkt me een goed idee, want op deze plaats worden deze bronnen veel beter doorzoekbaar. Bovendien wordt ook de scope van beide sites dan duidelijker: Delpher voor teksten, het Geheugen voor beeldmateriaal. Het Geheugen van Nederland gaat vervolgens op dezelfde infrastructuur draaien als Delpher, maar behoudt wel een eigen identiteit en interface. Ook wordt nagedacht over integratie met het andere grote portaal voor bronmateriaal over de Nederlandse literatuur, taal en cultuurgeschiedenis, de DBNL.

Ook nieuw is dat digitale afbeeldingen, metadata en teksten niet alleen via het portaal beschikbaar worden gesteld, maar dat er ook dienstverlening op wordt ingericht.  Zo kun je tegenwoordig datasets uit het Delpher portaal ontvangen.  Op die manier kunnen de data worden (her-)gebruikt voor onderzoek, webtoepassingen en nieuwe diensten. Zo heeft men in het Translantis project, dat als doel heeft de invloed van de Verenigde Staten op Nederland  in kaart te brengen, gebruik gemaakt van de Databank Digitale Dagbladen, inmiddels ook onderdeel van Delpher. Maar je zou (op termijn) ook kunnen denken aan Distant Reading , een wetenschappelijke stroming waarbinnen onderzoekers literatuur niet willen leren begrijpen door het “close reading” bestuderen van bepaalde teksten, maar door het aggregeren en analyseren van grote hoeveelheden data.

Op dit moment ontvangen wij nog van alle Metamorfoze projecten harde schijven met scans,  zodat wij deze via onze eigen beeldbank beschikbaar kunnen stellen. Je kunt je echter afvragen of dat wel nodig is. Waarom zou je scans op twee plaatsen opslaan en onderhouden? Het is belangrijker dat de links vanuit onze catalogus naar de scans goed geregeld worden. Voor de EDBO scans zijn hier indertijd helaas geen goede afspraken voor gemaakt, waardoor de scans niet vanuit onze catalogus te vinden zijn. Maar het is de bedoeling dat dit onderdeel wordt van de hele dienstverlening rondom de BKT projecten. Kort geleden werd bovendien bekend dat de KB een overeenkomst heeft gesloten met Lira en Pictoright waardoor ook alle boeken tot 1940 online beschikbaar gesteld mogen worden. Dit maakt het natuurlijk wel heel aantrekkelijk om onze scans via Delpher beschikbaar te stellen! 

Een supersnel straatje

IMG_20140225_155649

Afgelopen woensdag hadden we een kleine delegatie van mijn alma mater op bezoek. 4 collega’s van de UB Groningen kwamen langs om onze scanstraat te bekijken en ons het hemd van het lijf te vragen over onze dienstverlening rondom digitalisering.

Hoewel wij zelf best trots zijn op de inrichting van onze “straat”, zijn onze mogelijkheden met slechts één scanner en een camera toch beperkt. Om ook een idee te krijgen van wat zich aan het andere einde van het digitaliseringsspectrum bevindt, bezochten wij ’s middags dan ook Naturalis. Dit museum ontving in 2009 dertig miljoen van de overheid voor de inrichting van een Nederlands Centrum voor Biodiversiteit. Als tegenprestatie moesten in 2015 twee doelstellingen gerealiseerd zijn: zeven miljoen gedigitaliseerde objecten én een permanente infrastructuur voor opslag en presentatie. Dat red je natuurlijk niet met één scanner, dus werd het digitaliseringsproces ingericht als een fabriek met productielijnen en werd er 80 man aan (tijdelijk) personeel ingehuurd om deze klus te klaren. Niet dat wij op korte termijn van plan zijn om de UB vol te zetten met scanners en het personeel in witte jassen achter een lopende band te zetten, maar toch valt er ook voor kleinere instellingen zeker wat te leren van een dergelijke grootschalige opzet.

Ze heeft men voor elke materiaalsoort of bewaarmethode een aparte lijn ingericht, elk met een gespecialiseerde apparatuur en eigen specificaties. Zo is er een aparte lijn voor het 2D materiaal (de notities en tijdschriften), de herbarium-collectie (gedroogde planten op papier), de zgn. natte collectie (dieren op alcohol), voor dieren die alleen met de microscoop zijn te bekijken en voor glaspreparaten. Op deze manier kunnen niet alleen meer scans tegelijk worden gemaakt, maar hoeven de instellingen en procedures tijdens het proces ook nauwelijks aangepast. En dat scheelt tijd. Zo ver als Naturalis kunnen we hierin natuurlijk niet gaan, maar een scanner erbij zou ook voor ons winst kunnen opleveren. Dan kunnen we bijvoorbeeld een scanner voor beeld- en een voor tekstmateriaal reserveren, of een voor losse materialen en een voor boeken en handschriften, of materialen die plat kunnen worden gelegd en boeken en handschriften die in een wieg dienen te worden gescand.

Ook zijn vooraf hele heldere keuzes gemaakt met betrekking tot de kwaliteit. Zo is de metadatering tot een minimum beperkt, wordt er nauwelijks aan beeldbewerking gedaan en worden de onbewerkte TIFs niet opgeslagen. Voor alle productielijnen wordt één en hetzelfde collectieregistratiesysteem gebruikt. Als een van de beschrijvers de handgeschreven beschrijving op een object niet kan lezen dan wordt dit niet uitgezocht, maar wordt eenvoudigweg de foto zelf bijgevoegd. Ook op dit vlak kunnen we nog wel wat van Naturalis leren. Wij doen namelijk heel veel aan beeldbewerking en slaan diverse varianten van de TIF op, voor ons eigen archief en voor levering aan de klanten. Dit hoeft natuurlijk helemaal niet erg te zijn als dit een bewuste en weldoordachte keuze is, maar het kan geen kwaad om ons proces een keer kritisch onder de loep te nemen om te bekijken welke stappen echt van belang zijn voor onszelf en de klant.

Daar waar mogelijk wordt samengewerkt met commerciële partners. Zo heeft het bedrijf Picturae geholpen bij de inrichting van het paradepaardje van Naturalis, de Herbariumstraat. Hier zijn in 9 maanden tijd zo’n 4 Miljoen scans gemaakt. De workfklow is geheel volgens de principes van Lean Six Sigma ingericht (hierover schreef ik al in een eerdere blog):
Poka Yoke – een proces wordt zodanig ingericht dat mensen geen fouten kunnen maken;
Jidoka – de volgende productiestap mag pas worden genomen wanneer het deelproduct defectvrij is. Hoe doen ze dat?

Zo is het proces opgedeeld in enkele helder gedefinieerde stappen: het herbariumvel wordt uit de doos gehaald, ontdaan van stof en chemische resten, op een vaste plek op de lopende band gelegd, van een unieke barcode voorzien, gefotografeerd en weer terug in de doos gestopt. Deze barcode functioneert tijdens het gehele proces als identifier, en is tegelijk gekoppeld aan de standplaats. Een fout wordt opgelost tijdens het proces en niet achteraf. Hiervoor is elke stap voorzien van geautomatiseerde software. Constateert deze een fout, dan wordt de band stopgezet, een stap teruggedraaid, de fout opgelost en de scan opnieuw gemaakt. De metadata-invoer vindt plaats aan de hand van de scans door een team dat in Suriname is gevestigd.
Aan het eind van elke dag worden de scans klaargezet op een harvesting-schijf. De TIFs worden naar het Instituut voor Beeld en Geluid gestuurd voor duurzame opslag, en er worden geautomatiseerd afgeleiden gemaakt voor eigen presentatie.

Dit lijkt heel simpel, en zo zou het ook moeten zijn. Naar mijn idee wordt er in ons proces nog iets te vaak geup- en download en van de ene naar de nadere PC geschreven. Dit kost niet alleen wachttijd, maar ook nadenktijd (uhhhh….wat was ik ook alweer aan het doen? Had ik die scans nou wel of niet….?). GOOBI heeft in dit opzicht al voor een grote verbetering gezorgd, maar van een naadloos proces is nog geen sprake. Ook daar moeten we de komende tijd over gaan nadenken. Deze activiteiten passen bovendien goed in enkele van de projecten en activiteiten die voor 2014 op de agenda staan, zoals de storage van digitale objecten en het oplossen van de uploadachterstanden van de scans in onze beeldbank.

Aan dus, die witte jas, en op naar een super snel en soepel straatje!

 

Een deel van de digitaliseringsactiviteiten vindt plaats op de zaal, te midden van bezoekers. De hond is opgezet, en maakt de drempel tot het stellen van vragen een stuk lager.

Een deel van de digitaliseringsactiviteiten vindt plaats op de zaal, te midden van bezoekers. De hond die vooraan op de verhoging ligt is opgezet, maar maakt de drempel tot het stellen van vragen een stuk lager.