ISIL code!? Welke ISIL code!?

mistakes-300px

Sinds 2004 beschikken we over een internationale standaard voor de unieke identificatie van organisaties die actief zijn op het gebied van bibliografische informatie, zoals bibliotheken, archieven en musea. Hiervoor wordt gebruik gemaakt van de zogenaamde ISIL code. Nationaal en ook internationaal richten we steeds meer gezamenlijke data- en infrastructuren in. Dit maakt het noodzakelijk om eenduidig te kunnen verwijzen naar de herkomst van de data, zoals een bibliografische beschrijving, of een gedigitaliseerd werk. Je moet dus in één oogopslag kunnen zien wat de herkomst van de beschrijving of de scans is en waar het originele, fysieke werk zich bevindt. Dat die eenduidige verwijzing minder vanzelfsprekend is dan het lijkt wordt duidelijk wanneer je een aantal portalen waaraan de UBL de afgelopen jaren scans en metadata heeft geleverd met elkaar vergelijkt :

  • In Delpher, waar gedigitaliseerde oude drukken in zijn opgenomen, zijn wij netjes te vinden als “Leiden, Universiteitsbibliotheek”;
  • Maar in de Daguerreobase – de collectieve catalogus voor daguerreotypieën – zitten onze collecties als “Collectie Prentenkabinet Leiden”;
  • En op de website van het Geheugen van Nederland zijn onze digitale collecties opgenomen als “Bijzondere Collecties Leiden”.

In de eerste plaats is dit verwarrend voor gebruikers die niet bekend zijn met de geschiedenis van de Leidse universiteitsbibliotheek. Zij kunnen denken dat het hier om drie verschillende collecties gaat. Maar je kunt je ook voorstellen dat dit ook zorgt voor problemen wanneer we de collecties via één gezamenlijke website willen gaan aanbieden. Ontdubbeling wordt dan bijvoorbeeld heel lastig. Daarom werkt ook Bureau Metamorfoze sinds kort met ISIL codes voor het administreren van instellingen, metadata en scans. Tijdens de aanvraag voor de digitalisering van het archief van Christiaan Snouck Hurgronje werd ook ons voor het eerst gevraagd om onze UBL ISIL code op te geven.
In elk land treed de nationale bibliotheek op als ISIL-beheerorganisatie. In Nederland is dit de KB, maar die heeft deze taak gedelegeerd aan een aantal andere Nederlandse organisaties. Voor archiefdiensten en historische verenigingen is de toekenning van identifiers gedelegeerd aan het Nationaal Archief. Voor de openbare bibliotheken is de Stichting Bibliotheek.nl verantwoordelijk en de ISIL codes voor wetenschappelijke en speciale bibliotheken worden toegekend door OCLC. Handig, want hierdoor is in WorldCat altijd direct te zien wie verantwoordelijk is voor een beschrijving in de catalogus.

Helaas is de onderlinge afstemming niet helemaal goed geregeld. We kwamen er namelijk al snel achter dat er verschillende codes circuleren.

  • Volgens de WorldCat registry van OCLC zijn aan UBL twee ISIL codes toegekend: NL-L2U en OCLC-L2U
  • Volgens OCLC PICA is onze ISIL code echter NL-0200050000

De verwarring is nog groter geworden doordat er ook bibliotheken met erfgoedcollecties zijn die een ISIL-code aanvragen bij het Nationaal Archief. De codes die het NA toekent zijn aantrekkelijker om in de bestandsnaam van scans en andere digitale documenten op te nemen dan de ISIL-code van OCLC-PICA. Voor Leiden zou de code moeten zijn: NL-LdnUBL. 

En mocht je denken: hé die ISIL codes van het Nationaal Archief  lijken wel wat op de Marc code for libraries…dat klopt! Deze code is namelijk NL-LeU. In onder meer België en Duitsland fungeert de ISIL-code tevens als MARC Organization Code en worden één en dezelfde code dus voor beide gebruikt.

De ISIL heeft dus geen vaste structuur, kan door meerdere instellingen los van elkaar worden toegekend, en er is overlap met de standaard coderingen van Marc. Snapt u het? Nou, wij ook niet!

Na onderzoek door de KB en OCLC is vast komen te staan dat de juiste ISIL code voor UB Leiden NL-0200050000 moet zijn. Wanneer je op deze lijst kijkt, dan zie je dat NL-0200050000 inderdaad de juiste code is en dat L2U een library symbol is (en dus geen code). Maar Bureau Metamorfoze had ons inmiddels al opgedragen om NL-L2U te gebruiken. Gelukkig konden we dat nog snel corrigeren.

Wel zijn we er zo achter gekomen dat we zelf ook niet altijd de juiste codes hebben gebruikt in  de EAD.xml van onze collectiebeschrijvingen. Hier hebben wij namelijk altijd (consequent, dat wel 😉 de Marc code NL-LeU genoteerd, in plaats van de verplichte ISIL code. Zoals Liesbeth van Wijk tijdens het laatste Broodje Kennis vertelde, hebben we onze collectiebeschrijvingen al in Archivegrid laten opnemen, en we hebben plannen met Apenet en Archieven.nl. Om echt goed voorbereid te zijn op de toekomst zullen we die nog moeten aanpassen. En we zullen op korte termijn contact op moeten nemen met WorldCat, zodat wij ook op de juiste manier in hun Registry vermeld worden.

Zo zie je maar, zelfs een bibliothecaris vergist zich wel eens….

SWIB14

Begin december 2014 werd SWIB14 gehouden in Bonn, Duitsland. Dit is een conferentie over het Semantisch Web in bibliotheken, die dit jaar over Linked Open Data ging.
Linked Open Data is een manier om gestructureerde data te publiceren op zo’n manier dat de data met elkaar verbonden is, vrij toegankelijk is (open) en op een betekenisvolle manier bevraagd kan worden. Linked Open Data maakt gebruik van technieken als HTTP, URI en RDF.
Wat bovenstaande precies inhoudt en ook hoe het toe te passen is, daar ging de conferentie over.
De conferentie zelf was 2 dagen, maar de dag ervoor werden er workshops gegeven. Ik ben naar de workshop “Introduction to Linked Open Data” geweest:
Het internet draaide eerst helemaal om computers (computers met elkaar verbonden), later om documenten (websites), maar binnen het semantische web draait eigenlijk alles om dingen. Tja, dingen, en wat zijn dat dan die dingen, vraag je je misschien af. Nou, dat kan van alles zijn; boeken, documenten (dus ook weer websites), personen, maar ook concepten of ideeën.
Over die dingen kan je dingen beweren, zoals die auto is rood of dat boek is geschreven door “Douglas Adams”. De dingen zijn dan “die auto” en “dat boek”, maar ook “rood” en “Douglas Adams”. Een bewering wordt gedaan in de vorm subject-predicate-object, ook wel triple genaamd. Bijvoorbeeld bij de bewering “die auto is rood” is “die auto” het subject, “is” is het predicaat en “rood” is het subject.
Als je uitspraken over dingen wilt doen en die met anderen wilt delen, moet je die dingen wel uniek kunnen identificeren. Dit doe je met behulp van URI’s. Maar ook de predicaten worden met URI’s aangeduid. Maar dat is niet voldoende; je moet ook afspraken maken wat wat betekent en dat een en hetzelfde ding of predicaat dezelfde URI heeft. Hiervoor is het nodig om een vocabulary (woordenschat) te gebruiken.
Er zijn verschillende vocabularies beschikbaar, zoals FOAF, DBpedia, DC terms. En voor bijna elk ding is wel een vocabulary te vinden, bijvoorbeeld via Linked Open Vocabularies.

Linked Open Data in de praktijk
Linked Open Data kan op verschillende manieren genoteerd worden, zoals Turt> le, N3, RDFa, RDF/XML en JSON-LD). Turtle is de meest simpele manier waar vrij duidelijk te zien is dat alles in triples (subject-predicate-object) beschreven kan worden:

<isbn:0330258648> <httpː//purl.org/dc/elements/1.1/creator> "Douglas Adams" .
<isbn:0330258648> <httpː//purl.org/dc/elements/1.1/title> "The Hitchhiker's Guide to the Galaxy" .

Hier zijn de drie delen goed te zien. Let op de punt op het eind.
Als meerdere statements over hetzelfde ding geschreven moeten worden, dan gaat het vervelen om steeds weer het subject in zijn geheel op te schrijven. Ook het gebruikte vocabulair kan korter (of eigenlijk eenmalig) opgeschreven worden:

@prefix dc: <httpː//purl.org/dc/elements/1.1/>
<isbn:0330258648> dc:creator "Douglas Adams" ;

dc:title "The Hitchhiker's Guide to the Galaxy" .
De titel van het boek is nu in het Engels, terwijl dat niet duidelijk gemaakt is. Bovendien willen we wellicht ook de Nederlandse titel kwijt:

@prefix dc: <httpː//purl.org/dc/elements/1.1/>
<isbn:0330258648> dc:creator "Douglas Adams" ;

dc:title "The Hitchhiker's Guide to the Galaxy"@en,
"Het Transgalactisch liftershandboek"@nl .

 

Wat is nu het grote voordeel van linked open data?

  • verbonden: het is linked open data. Als de dingen met een URI benoemd worden, kan de data makkelijk met elkaar verbonden worden omdat duidelijk is dat over hetzelfde ding gesproken wordt;
  • open: de data is vrij toegankelijk. Niet alleen omdat het niks (of in elk geval weinig) kost, maar ook omdat er geen restricties op het gebruik zitten;
  • eenduidig: doordat er gebruik wordt gemaakt van URI’s, kunnen de dingen eenduidig benoemd worden, ook als ze in praktijk dezelfde naam hebben. Bijvoorbeeld bij het woord “venus” kan de planeet, de godin, de plaats (in Florida, Roemenie of Texas), de film, het lied, de popgroep, het scheermes, het schip of de tennister bedoeld worden. Echter, elk van deze dingen heeft een eigen URI;
  • betekenisvol: door linked open data krijgt data betekenis, zelfs meer dan op het eerste gezicht lijkt. Linked open data maakt gebruik van vocabularies (een dataset die betekenis geeft aan bepaalde begrippen). Door deze vocabularies te gebruiken krijgt de data zelf al meer betekenis, niet alleen voor mensen maar ook voor computers die de data interpretteren. Bijv. als het Schema vocabulary gebruikt wordt om aan te geven dat Henk werkt bij de Universiteit Leiden, dan is niet alleen daarmee bekend dat Henk werkt bij de Universiteit Leiden, maar ook dat Henk blijkbaar een Persoon (een bepaalde klasse binnen Schema) is en dat “Universiteit Leiden” een Organisatie (een andere Klasse binnen Schema) is. Door dus dat vocabulary te gebruiken is er meer betekenis gegeven aan de data;
  • meerwaarde: doordat de data open, verbonden, eenduidig en betekenisvol is, krijgt de data meerwaarde. Niet alleen voor de producent van de data, maar ook voor de consument van de data. En daarbij kan de producent optreden als consument van andere Linked Open Data;
  • taalonafhankelijk: linked open data werkt met dingen in plaats van met woorden. Elk ding, of eigenlijk concept, kan in meerdere talen beschreven zijn. Zoeken op “Den Haag” levert dan ook resultaten voor “The Hague” en “’s Gravenhage” op omdat deze alle zijn gekoppeld aan dezelfde URI.

Natuurlijk werkt Linked Open Data alleen goed als gebruik gemaakt wordt van dezelfde vocabularies. Dit gebeurt voor een deel, maar er zijn ook wel weer een groot aantal vocabularies beschikbaar (zie LOV). Deels worden termen uit de verschillende vocabularies (impliciet of expliciet) weer met elkaar verbonden.

Er waren op SWIB14 diverse presentaties over het gebruik van Linked Open Data. Hieronder een verslag van de naar mijn mening interessantste:

Tom Grahame van de BBC sprak over hoe de BBC Linked Open Data gebruikt. Ze begonnen hiermee met het WK van 2010 en daarna de Olympische Spelen van 2012. Elke atleet was een entiteit (ding) en had een eigen pagina die geheel werd opgebouwd uit Linked Data. Hierdoor had ook een minder bekende atleet een eigen pagina, die qua opbouw gelijk was aan die van een zeer bekende atleet, gevuld met informatie. Hiervoor hoefde een redacteur niet de pagina te maken, maar werd alleen data toegevoegd (ook uit andere bronnen). Voor het nieuws zijn ze nu bezig, maar dat is een stuk lastiger omdat het veel diverser is. Voor de ontologies (een formeel gebruikt woord voor vocabularies) hebben ze een eigen website, evenals een website om alle dingen te beschrijven.
Ze gebruiken hun eigen ontologie omdat het lastig is (maar wel het beste!) om een bestaande ontologie te gebruiken.
Alle linked data wordt in een triplestore opgeslagen en daar liggen diverse lagen overheen zodat de data beschikbaar wordt gesteld aan hun eigen apps maar ook aan derde partijen.

De Pina Bausch Foundation heeft een digitaal archief gemaakt van de danseres/choreografe Pina Bausch. Deze danseres had tijdens haar leven al zelf een digitaal archief bijgehouden. De data is als Linked Data beschikbaar gemaakt en gebruikt verschillende vocabularies zoals purl.orgDC termsFOAF en SKOS. Op basis hiervan is ook een iPad app gemaakt.

Wikidata had ook een interessante presentatie. Wikidata valt onder Wikimedia, waar ook weer Wikipedia onder valt. Wikipedia bevat heel veel data, maar heeft ook een aantal uitdagingen: ze zijn afhankelijk van vrijwilligers en daardoor zijn er veel verschillen tussen talen. Je zou zeggen dat de meeste informatie beschikbaar is in het Engels. Maar dat is niet zo: slechts 50% van de data op Wikipedia is in het Engels beschikbaar. Helaas zijn andere talen slechter vertegenwoordigd. Wikipedia heeft wel heel veel data, maar is niet altijd toegankelijk. Sommige vragen zijn niet te beantwoorden, terwijl de data wel beschikbaar is op Wikipedia. Wikidata probeert dit probleem op te lossen door de data uit Wikipedia op een soort Linked Open Data manier te beschrijven. Deze data wordt weer binnen Wikipedia gebruikt in bijvoorbeeld de informatieboxen aan de rechterkant van een Wikipedia pagina (zie bijvoorbeeld hier). De data in WikiData is veel gestructureerder, meertalig en met vaste verwijzigingen (URI’s) naar andere bronnen. Ook probeert men voor alle data die toegevoegd wordt een bronvermelding te doen.

Europeana had een presentatie over problemen bij meertaligheid. Ze probeerden een deel van de problemen op te lossen met een nieuwe datamodel gebaseerd op SKOS. Ze hadden voor verschillende termen de vertalingen in verschillende talen en die onderling gerelateerd.

BIBFRAME is de MARC21 opvolger, of althans dat zou het moeten zijn volgens Eric Miller van het bedrijf Zepheira. Bibliotheken hebben veel goede data en zijn op veel punten ver vooruit (“libraries are credibility engines”), maar de data die ze hebben is niet zichtbaar op het internet. De data moet meer naar buiten gebracht worden, bijvoorbeeld via Libhub. We spreken nu niet op een manier die het web begrijpt, maar dat zouden we wel moeten doen. Schema.org is een nieuwe manier om op het web te komen, maar niet dé manier. Links zijn dat. We moeten de search engines gebruiken om gevonden te worden. Niet door te vragen aan de search engines of ze ons en onze data willen opnemen, maar door ze zelf te gebruiken. Met BIBFRAME zou dit mogelijk moeten worden, het is een sociaal data model. Helaas is BIBFRAME nog in de draft/test fase en wordt nog niet echt door bibliotheken gebruikt.

De eindpresentatie werd gedaan door Richard Wallis van OCLC. Hij herhaalde nogmaals dat de bibliotheek niet gelinkt was aan het web: “Why catalog? So we can find things. Why are we on the web? So todays users can find our resources”. Wat bibliotheken moeten doen volgens hem is gebruik gaan maken van linked data met Schema.org als vocabulair. Met Hadoop kan makkelijk data geconverteerd worden. We moeten niet meer denken in records, maar focussen op entiteiten. WorldCat loopt daar volgens hem in voorop.

Natuurlijk waren er nog veel andere interessante presentaties, zoals over alles annoteren, SKOS, KOS, Microtask Crowdsourcing, d:swarm (demo.dswarm.org), ElasticSearch en nog veel meer.