De UBL wil in 2015 haar digitale collecties beter toegankelijk maken voor zowel mensen als machines. Het gaat hierbij bijvoorbeeld om kaartmateriaal, hoogleraarsportretten, onderzoeksdata en publicaties. Om digitale objecten beter toegankelijk te maken is het noodzakelijk dat objecten buiten het eigen systeem op een eenduidige manier te identificeren en te lokaliseren zijn.
Op 17 oktober 2014 was er in Utrecht een workshop over object identifiers, georganiseerd door U2Connect. U2Connnect is een samenwerking van enkele Nederlandse universiteiten waar geëxploreerd wordt hoe de diensten van het door de Europese Commissie gefinancierde EUDATproject ingezet kunnen worden met betrekking tot datamanagement.
Het EUDATproject ontwikkelt zogenaamde common services, gemeenschappelijke diensten die door veel andere diensten gebruikt kunnen worden. Te denken valt hierbij aan diensten om data te delen (B2SHARE), te vinden (B2FIND), repliceren (B2STORE) en beschikbaar te maken voor analyse (B2STAGE). Voor al deze diensten is het van belang om objecten op een eenduidige manier te kunnen identificeren en te lokaliseren.
URL’s kunnen gebruikt worden om objecten uniek te identificeren en lokaliseren. In de praktijk komt er echter regelmatig linkrot voor waardoor de URL’s niet meer verwijzen naar het object. Dit kan bijvoorbeeld het geval zijn als de objecten naar een andere server verplaatst zijn. Om identifiers en lokaties naar objecten goed te kunnen beheren zijn er identifiersystemen ontwikkeld. Er wordt ook wel gesproken van persistent identifiers om aan te geven dat de identifiers voor de lange termijn geldig zijn. Als er sprake is van persistente identifiers dan wordt er in het algemeen van uitgegaan dat zowel de identifier als het object voor de lange termijn geldig moeten zijn.
Er zijn verschillende oplossingen die gebruikt kunnen worden voor het identificeren en lokaliseren van objecten. Om een juiste keuze te maken is het van belang te kijken naar het beleid, de functionaliteit, de schaalbaarheid en het draagvlak van de aangeboden oplossingen.
Tijdens de workshop werden er presentaties gegeven van DataCite, URN:NBN en EPIC en werd er aangegeven hoe deze oplossingen door 3TU Datacentrum, DANS en SurfSara worden gebruikt.
Alle oplossingen hebben een aantal kenmerken met elkaar gemeen. Ze hebben een unieke alfanumerieke reeks nummers om een object te identificeren. Deze nummers zijn gekoppeld aan een locatie. Daarnaast is er een zogenaamde resolver waar je de locatie van een identifier kunt opvragen.
Een voorbeeld van een persistent identifier is:
https://hdl.handle.net/1887/13839 De identifier bestaat uit drie delen:
- handle.net: verwijst naar de resolver die de identifiers toewijst en die er voor zorgt dat de gebruiker naar de locatie van het object wordt geleid
- 1887; dit staat voor de databank, in dit geval het Leids Repositorium.
- 13839: dit verwijst naar het object
De resolver zorgt ervoor dat de gebruiker naar de juiste locatie wordt geleid. In dit geval is dat https://openaccess.leidenuniv.nl/handle/1887/13839. Wanneer dit object, in dit geval een masterscriptie, naar een andere plek zou worden verplaatst, bijvoorbeeld naar https://masterscripties/leiden/98423, zorgt de resolver ervoor dat u via de persistent identifier (die niet verandert) naar deze nieuwe locatie wordt geleid. Om een bepaalde vorm van persistent identifiers te mogen toekennen, registreert de instelling zich bij een zgn Registration Agency. Dit is een organisatie die de afspraken rondom de toekenning van persistent identifiers vastlegt en bewaakt. Een voorwaarde die een Registration Agency kan stellen aan een persistent identifier is dat het digitale object dat er aan gekoppeld is, moet zijn opgeslagen in een Long Term Preservation depot. Voor het Nederlandse subdomein van URN:NBN fungeert de KB bijvoorbeeld als Registration Agency. De Registration Agency, die een onderdeel is van de KB, bewaakt alle afspraken rondom het NBN en tussen de stakeholders en registreert instellingen die NBN’s toekennen.
De oplossingen verschillen van elkaar wat betreft het doel, bereik en tijdspad waarvoor ze gebruikt kunnen worden. DataCite wordt gebruikt voor het refereren naar onderzoeksdata. DataCite maakt gebruik van DOI’s. De DOI’s kunnen geresolved worden door middel van het handle systeem. DataCite delegeert het uitgeven van DOI’s aan registratie-organisaties.
Voorbeeld: https://dx.doi.org/10.1594/PANGAEA.726855
URN:NBN worden gebruikt voor het refereren aan publicaties en onderzoeksdata. Er wordt gebruik gemaakt van de syntax van URN’s. De URN:NBN maakt gebruik van in eigen beheer ontwikkelde resolvers. De nationale bibliotheken zijn de registratie-organisaties van de URN:NBN en kunnen de uitgifte van URN:NBN’s delegeren.
Voorbeeld: URN:NBN:NL:UI:13-2UYT-ZI
Deze identifier bestaat uit vier delen:
1 – URN: Identifier scheme
2 – NBN: Namespace voor zogeheten National Bibliographic Numbers
3 – NL:UI: Geeft aan dat het om identifiers gaat die in Nederland zijn uitgegeven.
4 – 13-2UYT-ZI: Een unieke code voor de dataset, in dit geval binnen DANS.
EPIC kan gebruikt worden voor verschillende doeleinden. EPIC maakt gebruik van handles. Het EPIC consortium fungeert als registratie-organisatie. De handles kunnen geresolved worden door middel van het handlesysteem.
Voorbeeld: https://hdl.handle.net/1839/00-4F7E67EB-3358-48DD-8EB8-158A8EA99AF0@format=imdi@view
Er is geen one size fits all-oplossing die voor alle doeleinden ingezet kan worden. Interessant is het daarom te horen op welke wijze 3TU datacentrum, DANS en SurfSara gebruik maken van persistent identifiers.
3TU datacentrum gebruikt DataCite voor het refereren aan datasets. Elke dataset die voor de lange termijn bewaard moet worden en niet meer verandert krijgt een DOI. Het betreft hier statische datasets. De DOI’s verwijzen naar de metadata van een dataset. Er moet verplicht een aantal Dublin Corevelden ingevuld worden. Een aantal velden is optioneel. Indien er voldoende metadatavelden zijn ingevuld worden deze records doorgegeven aan de Data Citation Index van Thomson Reuters.
DANS maakt uit het oogpunt van duurzaamheid gebruik van URN:NBN. DANS hanteert hierbij hetzelfde principe als de KB. Aan alle door DANS toegankelijke datasets wordt een URN:NBN toegekend. Omdat URN:NBN een standaard is en de resolver- en registration agency in eigen beheer zijn kan DANS op deze wijze duurzame toegang tot datasets garanderen.
URN:NBN is niet erg bekend onder onderzoekers als een middel om te citeren naar onderzoeksdata. DANS wil om deze reden eveneens gebruik maken van DataCite voor het citeren van datasets.
DANS biedt naast een voorziening voor het bewaren van onderzoeksdata voor de lange termijn (EASY) ook een voorziening voor het delen van onderzoeksdata gedurende het lopende onderzoek (DataVerse). DataVerse maakt gebruik van handles voor het refereren naar de datasets.
SurfSara maakt in haar suite van B2 diensten veelvuldig gebruik van handles die beheerd en geresolved worden door de EPIC-infrastructuur. De B2-diensten worden onder andere gebruikt door onderzoeksprojecten waar grote hoeveelheden data beheerd worden. Identifiers worden niet alleen gebruikt voor het refereren naar een gehele dataset maar eveneens om individuele objecten voor zowel mens als machine toegankelijk te maken. De EPIC-infrastructuur is zo schaalbaar en robuust dat deze grote hoeveelheid identifiers goed verwerkt kunnen worden.
Om de digitale collecties van de UBL beter toegankelijk te maken voor zowel mensen als machines moet er goed gekeken worden voor welk doel de UBL deze identifiers wil gebruiken en welke voorwaarden de PI registration agencies aan het gebruik stellen.
De UBL heeft een projectvoorstel in voorbereiding om het bovenstaande verder uit te zoeken en een keuze te maken voor een of enkele PI-oplossingen. Een onmisbare component voor het nog beter toegankelijk maken van de digitale collecties van de UBL.
Rob Feenstra en Laurents Sesink