SWIB14

Begin december 2014 werd SWIB14 gehouden in Bonn, Duitsland. Dit is een conferentie over het Semantisch Web in bibliotheken, die dit jaar over Linked Open Data ging.
Linked Open Data is een manier om gestructureerde data te publiceren op zo’n manier dat de data met elkaar verbonden is, vrij toegankelijk is (open) en op een betekenisvolle manier bevraagd kan worden. Linked Open Data maakt gebruik van technieken als HTTP, URI en RDF.
Wat bovenstaande precies inhoudt en ook hoe het toe te passen is, daar ging de conferentie over.
De conferentie zelf was 2 dagen, maar de dag ervoor werden er workshops gegeven. Ik ben naar de workshop “Introduction to Linked Open Data” geweest:
Het internet draaide eerst helemaal om computers (computers met elkaar verbonden), later om documenten (websites), maar binnen het semantische web draait eigenlijk alles om dingen. Tja, dingen, en wat zijn dat dan die dingen, vraag je je misschien af. Nou, dat kan van alles zijn; boeken, documenten (dus ook weer websites), personen, maar ook concepten of ideeën.
Over die dingen kan je dingen beweren, zoals die auto is rood of dat boek is geschreven door “Douglas Adams”. De dingen zijn dan “die auto” en “dat boek”, maar ook “rood” en “Douglas Adams”. Een bewering wordt gedaan in de vorm subject-predicate-object, ook wel triple genaamd. Bijvoorbeeld bij de bewering “die auto is rood” is “die auto” het subject, “is” is het predicaat en “rood” is het subject.
Als je uitspraken over dingen wilt doen en die met anderen wilt delen, moet je die dingen wel uniek kunnen identificeren. Dit doe je met behulp van URI’s. Maar ook de predicaten worden met URI’s aangeduid. Maar dat is niet voldoende; je moet ook afspraken maken wat wat betekent en dat een en hetzelfde ding of predicaat dezelfde URI heeft. Hiervoor is het nodig om een vocabulary (woordenschat) te gebruiken.
Er zijn verschillende vocabularies beschikbaar, zoals FOAF, DBpedia, DC terms. En voor bijna elk ding is wel een vocabulary te vinden, bijvoorbeeld via Linked Open Vocabularies.

Linked Open Data in de praktijk
Linked Open Data kan op verschillende manieren genoteerd worden, zoals Turt> le, N3, RDFa, RDF/XML en JSON-LD). Turtle is de meest simpele manier waar vrij duidelijk te zien is dat alles in triples (subject-predicate-object) beschreven kan worden:

<isbn:0330258648> <httpː//purl.org/dc/elements/1.1/creator> "Douglas Adams" .
<isbn:0330258648> <httpː//purl.org/dc/elements/1.1/title> "The Hitchhiker's Guide to the Galaxy" .

Hier zijn de drie delen goed te zien. Let op de punt op het eind.
Als meerdere statements over hetzelfde ding geschreven moeten worden, dan gaat het vervelen om steeds weer het subject in zijn geheel op te schrijven. Ook het gebruikte vocabulair kan korter (of eigenlijk eenmalig) opgeschreven worden:

@prefix dc: <httpː//purl.org/dc/elements/1.1/>
<isbn:0330258648> dc:creator "Douglas Adams" ;

dc:title "The Hitchhiker's Guide to the Galaxy" .
De titel van het boek is nu in het Engels, terwijl dat niet duidelijk gemaakt is. Bovendien willen we wellicht ook de Nederlandse titel kwijt:

@prefix dc: <httpː//purl.org/dc/elements/1.1/>
<isbn:0330258648> dc:creator "Douglas Adams" ;

dc:title "The Hitchhiker's Guide to the Galaxy"@en,
"Het Transgalactisch liftershandboek"@nl .

 

Wat is nu het grote voordeel van linked open data?

  • verbonden: het is linked open data. Als de dingen met een URI benoemd worden, kan de data makkelijk met elkaar verbonden worden omdat duidelijk is dat over hetzelfde ding gesproken wordt;
  • open: de data is vrij toegankelijk. Niet alleen omdat het niks (of in elk geval weinig) kost, maar ook omdat er geen restricties op het gebruik zitten;
  • eenduidig: doordat er gebruik wordt gemaakt van URI’s, kunnen de dingen eenduidig benoemd worden, ook als ze in praktijk dezelfde naam hebben. Bijvoorbeeld bij het woord “venus” kan de planeet, de godin, de plaats (in Florida, Roemenie of Texas), de film, het lied, de popgroep, het scheermes, het schip of de tennister bedoeld worden. Echter, elk van deze dingen heeft een eigen URI;
  • betekenisvol: door linked open data krijgt data betekenis, zelfs meer dan op het eerste gezicht lijkt. Linked open data maakt gebruik van vocabularies (een dataset die betekenis geeft aan bepaalde begrippen). Door deze vocabularies te gebruiken krijgt de data zelf al meer betekenis, niet alleen voor mensen maar ook voor computers die de data interpretteren. Bijv. als het Schema vocabulary gebruikt wordt om aan te geven dat Henk werkt bij de Universiteit Leiden, dan is niet alleen daarmee bekend dat Henk werkt bij de Universiteit Leiden, maar ook dat Henk blijkbaar een Persoon (een bepaalde klasse binnen Schema) is en dat “Universiteit Leiden” een Organisatie (een andere Klasse binnen Schema) is. Door dus dat vocabulary te gebruiken is er meer betekenis gegeven aan de data;
  • meerwaarde: doordat de data open, verbonden, eenduidig en betekenisvol is, krijgt de data meerwaarde. Niet alleen voor de producent van de data, maar ook voor de consument van de data. En daarbij kan de producent optreden als consument van andere Linked Open Data;
  • taalonafhankelijk: linked open data werkt met dingen in plaats van met woorden. Elk ding, of eigenlijk concept, kan in meerdere talen beschreven zijn. Zoeken op “Den Haag” levert dan ook resultaten voor “The Hague” en “’s Gravenhage” op omdat deze alle zijn gekoppeld aan dezelfde URI.

Natuurlijk werkt Linked Open Data alleen goed als gebruik gemaakt wordt van dezelfde vocabularies. Dit gebeurt voor een deel, maar er zijn ook wel weer een groot aantal vocabularies beschikbaar (zie LOV). Deels worden termen uit de verschillende vocabularies (impliciet of expliciet) weer met elkaar verbonden.

Er waren op SWIB14 diverse presentaties over het gebruik van Linked Open Data. Hieronder een verslag van de naar mijn mening interessantste:

Tom Grahame van de BBC sprak over hoe de BBC Linked Open Data gebruikt. Ze begonnen hiermee met het WK van 2010 en daarna de Olympische Spelen van 2012. Elke atleet was een entiteit (ding) en had een eigen pagina die geheel werd opgebouwd uit Linked Data. Hierdoor had ook een minder bekende atleet een eigen pagina, die qua opbouw gelijk was aan die van een zeer bekende atleet, gevuld met informatie. Hiervoor hoefde een redacteur niet de pagina te maken, maar werd alleen data toegevoegd (ook uit andere bronnen). Voor het nieuws zijn ze nu bezig, maar dat is een stuk lastiger omdat het veel diverser is. Voor de ontologies (een formeel gebruikt woord voor vocabularies) hebben ze een eigen website, evenals een website om alle dingen te beschrijven.
Ze gebruiken hun eigen ontologie omdat het lastig is (maar wel het beste!) om een bestaande ontologie te gebruiken.
Alle linked data wordt in een triplestore opgeslagen en daar liggen diverse lagen overheen zodat de data beschikbaar wordt gesteld aan hun eigen apps maar ook aan derde partijen.

De Pina Bausch Foundation heeft een digitaal archief gemaakt van de danseres/choreografe Pina Bausch. Deze danseres had tijdens haar leven al zelf een digitaal archief bijgehouden. De data is als Linked Data beschikbaar gemaakt en gebruikt verschillende vocabularies zoals purl.orgDC termsFOAF en SKOS. Op basis hiervan is ook een iPad app gemaakt.

Wikidata had ook een interessante presentatie. Wikidata valt onder Wikimedia, waar ook weer Wikipedia onder valt. Wikipedia bevat heel veel data, maar heeft ook een aantal uitdagingen: ze zijn afhankelijk van vrijwilligers en daardoor zijn er veel verschillen tussen talen. Je zou zeggen dat de meeste informatie beschikbaar is in het Engels. Maar dat is niet zo: slechts 50% van de data op Wikipedia is in het Engels beschikbaar. Helaas zijn andere talen slechter vertegenwoordigd. Wikipedia heeft wel heel veel data, maar is niet altijd toegankelijk. Sommige vragen zijn niet te beantwoorden, terwijl de data wel beschikbaar is op Wikipedia. Wikidata probeert dit probleem op te lossen door de data uit Wikipedia op een soort Linked Open Data manier te beschrijven. Deze data wordt weer binnen Wikipedia gebruikt in bijvoorbeeld de informatieboxen aan de rechterkant van een Wikipedia pagina (zie bijvoorbeeld hier). De data in WikiData is veel gestructureerder, meertalig en met vaste verwijzigingen (URI’s) naar andere bronnen. Ook probeert men voor alle data die toegevoegd wordt een bronvermelding te doen.

Europeana had een presentatie over problemen bij meertaligheid. Ze probeerden een deel van de problemen op te lossen met een nieuwe datamodel gebaseerd op SKOS. Ze hadden voor verschillende termen de vertalingen in verschillende talen en die onderling gerelateerd.

BIBFRAME is de MARC21 opvolger, of althans dat zou het moeten zijn volgens Eric Miller van het bedrijf Zepheira. Bibliotheken hebben veel goede data en zijn op veel punten ver vooruit (“libraries are credibility engines”), maar de data die ze hebben is niet zichtbaar op het internet. De data moet meer naar buiten gebracht worden, bijvoorbeeld via Libhub. We spreken nu niet op een manier die het web begrijpt, maar dat zouden we wel moeten doen. Schema.org is een nieuwe manier om op het web te komen, maar niet dé manier. Links zijn dat. We moeten de search engines gebruiken om gevonden te worden. Niet door te vragen aan de search engines of ze ons en onze data willen opnemen, maar door ze zelf te gebruiken. Met BIBFRAME zou dit mogelijk moeten worden, het is een sociaal data model. Helaas is BIBFRAME nog in de draft/test fase en wordt nog niet echt door bibliotheken gebruikt.

De eindpresentatie werd gedaan door Richard Wallis van OCLC. Hij herhaalde nogmaals dat de bibliotheek niet gelinkt was aan het web: “Why catalog? So we can find things. Why are we on the web? So todays users can find our resources”. Wat bibliotheken moeten doen volgens hem is gebruik gaan maken van linked data met Schema.org als vocabulair. Met Hadoop kan makkelijk data geconverteerd worden. We moeten niet meer denken in records, maar focussen op entiteiten. WorldCat loopt daar volgens hem in voorop.

Natuurlijk waren er nog veel andere interessante presentaties, zoals over alles annoteren, SKOS, KOS, Microtask Crowdsourcing, d:swarm (demo.dswarm.org), ElasticSearch en nog veel meer.

Één reactie op “SWIB14

Laat een reactie achter op Hetty Verhagen Reactie annuleren

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.