Vorige week bezocht ik een informatiebijeenkomst over de Metamorfoze digitaliseringsprojecten en Delpher.
Sinds 2013 werkt bureau Metamorfoze – financier en coördinator van conserveringsprojecten voor het behoud van papieren collecties en gevestigd in de Koninklijke Bibliotheek (KB) – volgens twee vaste trajecten: unieke werken in het traject Archieven en Bijzondere Collecties (ABC) en gedrukte materialen in Boeken, Kranten en Tijdschriften (BKT). In het geval van ABC projecten zijn de instellingen zelf verantwoordelijk voor de meeste werkzaamheden, maar het BKT-traject wordt uitgevoerd in samenwerking met de KB. Dat houdt in dat instellingen hun materiaal naar de KB sturen, en dat deze bibliotheek verder verantwoordelijk is voor de planning en uitvoering van het digitaliseringstraject. Dat betekent ook dat de KB het grootste deel van de Metamorfoze subsidies incasseert – van vestzak naar broekzak – , maar daar staat tegenover dat het hele traject wel veel efficiënter georganiseerd is en dus ook een veel kortere doorloop heeft. De periode dat de boeken buiten de deur van de instelling verblijven is dus ook beperkt. Er zijn bovendien ook financiële voordelen. De KB werkt voor het BKT traject met een aantal preferred suppliers, die tijdens een Europese aanbestedingsprocedure zijn geselecteerd. Door de efficiënte workflow is het geselecteerde scanbedrijf verzekerd van een constante aanvoer van opdrachten, waardoor gunstigere afspraken kunnen worden gemaakt. Door dit alles wordt de gemiddelde prijs per scan ook lager.
Nieuw is dat de KB er ook voor gaat zorgen dat alle scans die in het BKT traject worden gemaakt worden ge-OCRd en online beschikbaar worden gesteld via Delpher. Slim, want op deze manier zorgt men voor een constante aanvoer van tekstueel bronmateriaal aan het portaal. Delpher wordt hiermee langzaam maar zeker hét startpunt voor online bronnen over Nederlandse cultuur en geschiedenis. Delpher bevat op dit moment meer dan 90.000 boeken, 1 miljoen kranten en 1,5 miljoen pagina’s uit Nederlandse tijdschriften uit de 17e tot 20e eeuw. Ook Leiden is in het portaal vertegenwoordigd. Enkele jaren heeft een consortium van UB Amsterdam, KB en UB Leiden 10.000 boeken uit het Nederlandse taalgebied uit de periode 1781-1800 gedigitaliseerd en beschikbaar gesteld via het portaal Early Dutch Books Online. De boeken uit dit portaal zijn inmiddels ook opgenomen in Delpher.
Maar het is de bedoeling dat de komende jaren het totale aanbod verdubbeld tot 50 miljoen pagina’s, mede dankzij de Metamorfoze projecten. Ook wordt het tekstuele materiaal uit het Geheugen van Nederland, zoals de Kinderboeken en de literaire nalatenschappen, hierheen overgebracht. Dit lijkt me een goed idee, want op deze plaats worden deze bronnen veel beter doorzoekbaar. Bovendien wordt ook de scope van beide sites dan duidelijker: Delpher voor teksten, het Geheugen voor beeldmateriaal. Het Geheugen van Nederland gaat vervolgens op dezelfde infrastructuur draaien als Delpher, maar behoudt wel een eigen identiteit en interface. Ook wordt nagedacht over integratie met het andere grote portaal voor bronmateriaal over de Nederlandse literatuur, taal en cultuurgeschiedenis, de DBNL.
Ook nieuw is dat digitale afbeeldingen, metadata en teksten niet alleen via het portaal beschikbaar worden gesteld, maar dat er ook dienstverlening op wordt ingericht. Zo kun je tegenwoordig datasets uit het Delpher portaal ontvangen. Op die manier kunnen de data worden (her-)gebruikt voor onderzoek, webtoepassingen en nieuwe diensten. Zo heeft men in het Translantis project, dat als doel heeft de invloed van de Verenigde Staten op Nederland in kaart te brengen, gebruik gemaakt van de Databank Digitale Dagbladen, inmiddels ook onderdeel van Delpher. Maar je zou (op termijn) ook kunnen denken aan Distant Reading , een wetenschappelijke stroming waarbinnen onderzoekers literatuur niet willen leren begrijpen door het “close reading” bestuderen van bepaalde teksten, maar door het aggregeren en analyseren van grote hoeveelheden data.
Op dit moment ontvangen wij nog van alle Metamorfoze projecten harde schijven met scans, zodat wij deze via onze eigen beeldbank beschikbaar kunnen stellen. Je kunt je echter afvragen of dat wel nodig is. Waarom zou je scans op twee plaatsen opslaan en onderhouden? Het is belangrijker dat de links vanuit onze catalogus naar de scans goed geregeld worden. Voor de EDBO scans zijn hier indertijd helaas geen goede afspraken voor gemaakt, waardoor de scans niet vanuit onze catalogus te vinden zijn. Maar het is de bedoeling dat dit onderdeel wordt van de hele dienstverlening rondom de BKT projecten. Kort geleden werd bovendien bekend dat de KB een overeenkomst heeft gesloten met Lira en Pictoright waardoor ook alle boeken tot 1940 online beschikbaar gesteld mogen worden. Dit maakt het natuurlijk wel heel aantrekkelijk om onze scans via Delpher beschikbaar te stellen!
‘Ook nieuw is dat digitale afbeeldingen, metadata en teksten niet alleen via het portaal beschikbaar worden gesteld, maar dat er ook dienstverlening op wordt ingericht. Zo kun je tegenwoordig datasets uit het Delpher portaal ontvangen. Op die manier kunnen de data worden (her-)gebruikt voor onderzoek, webtoepassingen en nieuwe diensten.’
Deze nieuwe dienstverlening stelt ook andere eisen aan de wijze waarop de bronnen beheerd worden. De KB heeft onder andere aan de UBL advies gevraagd hoe de KB om moet gaan met veranderingen, toevoegingen of verbetering van de aangeboden bronnen. Wetenschappelijk onderzoek moet verifieerbaar zijn. De gebruikte bronnen in Delpher moeten daarom betrouwbaar, identificeerbaar en refereerbaar zijn.
De dienstverlening aan wetenschappelijke onderzoekers kan aanzienlijk verschillen van de diensten die verleend worden aan het algemene publiek.
Een onderzoeker (onderzoekerA) die de veramerikanisering van het taalgebruik onderzoekt is bijvoorbeeld geïnteresseerd naar de frequentieverdeling van het woord YOLO in kranten, boeken en tijdschriften. OnderzoekerA maakt op basis van de zoekresultaten een frequentietabel en concludeert op basis van die gegevens dat het woord YOLO in 2009 voor het eerst gebruikt wordt. Vanaf 2011 komt YOLO met enige regelmaat in BKT’s voor en onderzoekerA hecht hier de conclusie aan dat in 2012 het woord YOLO integraal onderdeel uitmaakt van de Nederlandse taal. OnderzoekerA publiceert zijn resultaten aansluitend in een wetenschappelijk tijdschrift en verwijst naar Delpher als bron.
Naar aanleiding van deze publicatie wil een andere onderzoeker(onderzoekerB) bovenstaand onderzoek repliceren. De KB heeft ondertussen echter enkele tekstuele verbeteringen aan de bronnen doorgevoerd en een groot aantal bronnen aan Delpher toegevoegd. Bij replicatie van het onderzoek komen er nu heel andere resultaten naar voren. OndezoekerB komt dan ook tot een geheel andere conclusie dan onderzoekerA.
Bovenstaand voorbeeld laat zien dat het gebruik van Delpher als online bron voor onderzoekers nieuwe eisen voor het beheer van deze bron met zich meebrengt. Door middel van versiebeheer is het mogelijk om de status van Delpher op een bepaald tijdstip vast te leggen. Persistente Idenitfiers kunnen in een publicatie refereren naar de versie die voor een analyse gebruikt is.
Naast deze technische oplossingen zal de KB ook na moeten denken over hoe de werkprocessen georganiseerd worden. Veranderingen aan de teksten en toevoegingen moeten met beleid en op gezette tijden doorgevoerd worden zodat er geen onbeheersbare hoeveelheid versies en persistente identifiers voor de lange termijn beheerd moeten worden.
Nu het beheer van digitale content in toenemende mate uitbesteed wordt aan cloud of hosting services en bronnen onderdeel uit gaan maken van geaggregeerde collecties zijn de ontwikkelingen op dit terrein voor veel content leveranciers, waaronder de UBL, van belang.