Van DWDD naar FAIR Big Data

big-data-1084656_960_720Gepubliceerd in InformatieProfessional 2017/8

Op 12 maart 2015 vertelde Matthijs van Nieuwkerk in De Wereld Draait Door dat we zélf konden gaan bepalen waarmee de wetenschap zich bezig moest gaan houden. Twaalfduizend reacties kwamen er op zijn oproep om vragen in te sturen voor de Nationale Wetenschapsagenda (NWA). Of die vragen allemaal even serieus genomen zijn, valt te betwisten. Maar het beeld van samenwerking en openheid dat NWA-directeuren Alexander Rinnooy Kan en Beatrice de Graaf opriepen, was ook zichtbaar in het vervolg van het proces. De oproep resulteerde uiteindelijk in vijfentwintig onderzoeksprogramma, of ‘routes’ in het jargon van de NWA.

Door: Rob Feenstra

Een van die onderzoeksprogramma’s heet Verantwoorde Waardecreatie met Big Data (VWData). Die (meer)waarde moet de komende tien jaar tot stand komen door het verbeteren van de infrastructuur en door de ontwikkeling van nieuwe instrumenten en technieken. In de eerste periode is er met name aandacht voor multidisciplinair onderzoek en voor het opzetten van proeftuinen en projecten waarin overheid en privésector samenwerken.

Het Portfolio for Research and Innovation, dat de routes beschrijft, noemt Nederland bij uitstek geschikt om het voortouw te nemen in het onderzoek naar big data. Samenwerking tussen verschillende eigenaren en afnemers van data is in landen met datamonopolies veel minder goed mogelijk en juist aan die samenwerking wordt veel waarde gehecht. Het gaat daarbij niet alleen om universiteiten en andere kennisinstellingen, maar ook om bedrijven en maatschappelijke instellingen. Het portfolio verwijst zelfs naar het Nederlandse poldermodel, dat door zou werken in het ontsluiten van gegevensbestanden. Nederland als gidsland, we hebben het vaker gezien.

Verantwoord gebruik

VWData past ook in een internationale tendens, namelijk om beter en meer verantwoord gebruik te maken van (big) data. Een voorbeeld hiervan zijn de FAIR Principles, een set van richtlijnen om (onderzoeks)data beter vindbaar, toegankelijk, uitwisselbaar en herbruikbaar te maken (zie kader). De FAIR Principles zijn in korte tijd breed geaccepteerd en veel subsidieverstrekkers willen dat onderzoekers de FAIR-richtlijnen hanteren. In Nederland is dat, naast bijvoorbeeld de KNAW, de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO), die het grootste deel van VWData, 2,5 miljoen euro, financiert. Bij een aantal van de nu al gedefinieerde VWData-projecten is een ruime plaats ingeruimd voor FAIR, soms gekoppeld aan zaken als privacy, digitale weerbaarheid van burgers, transparantie en waardevrijheid van algoritmen.

Zo buigt het project Fair News: Nieuwsvoorziening in een Big Data tijdperk zich over de vraag hoe ver algoritmes kunnen en mogen gaan bij het filteren van data en waar de verantwoordelijkheid ligt als er op basis van algoritmen onjuiste beslissingen worden genomen. Bij dit project, een samenwerkingsverband tussen de Universiteit van Amsterdam en de TU Delft, is ook de Volkskrant betrokken.

Een ander project waarbij het FAIR gebruik van data een grote rol speelt, is Distributed FAIR information systems to enable federated learning and reasoning. Deelnemers aan dit project buigen zich bijvoorbeeld over de vraag hoe je een FAIR datadienst opzet, waarbij concurrerende organisaties data kunnen delen en gebruiken voor een gezamenlijk vastgesteld doel zonder dat het voor andere doeleinden wordt gebruikt. Naast een viertal universiteiten nemen ook bedrijven als KLM en KPMG deel.

Eigen invulling

De vijftien FAIR Principes zijn geformuleerd in algemene termen. Zo kom je tot een brede acceptatie, maar bied je aan de andere kant veel ruimte voor eigen interpretatie. Dat kan weer tot gevolg hebben dat landen, wetenschapsgebieden, instellingen en individuen hun eigen invulling geven aan FAIR, waardoor oorspronkelijke uitgangspunten als herbruikbaarheid van data juist uit het zicht verdwijnen. De eerste projecten van VWData bevinden zich nog in de opstartfase. Het komende decennium gaan we zien hoe de deelnemers omgaan met die schijnbare tegenstelling.

Er is een lange weg afgelegd van de twaalfduizend vragen van ‘gewone’ mensen naar dit onderzoeksprogramma en het is twijfelachtig of veel van die vragen hierin beantwoord worden, maar met de gekozen insteek kunnen er in ieder geval wél antwoorden gezocht worden op vragen die maatschappelijk en economisch van belang zijn.

Rob Feenstra is projectleider/consultant bij de Universitaire Bibliotheken Leiden en heeft als aandachtsgebied bibliotheeksystemen en de digitale bibliotheek.

FAIR Principles

Een internationale groep van belanghebbenden stelde in 2016 de FAIR Principles op vanuit de groeiende behoefte om de infrastructuur voor de publicatie en het (her)gebruik van data te verbeteren. Het doel is om data Findable, Accessible, Interoperable en Re-Usable te maken. Daarbij gaat het zowel om de mogelijkheid van computers om de data te gebruiken als om het (her)gebruik door personen.

Findable (vindbaar): om goed vindbaar te zijn voor mens en machine moet er een beschrijving zijn van de metadata

F1. (Meta)data beschikken over een wereldwijd unieke en eeuwig persistente identifier
F2. Data worden beschreven door uitgebreide metadata
F3. Metadata bevatten de identifier van de data die worden beschreven
F4. Metadata worden geregistreerd of geïndexeerd in een doorzoekbare bron

Accessible (toegankelijk): de mogelijkheden en beperkingen voor toegang tot de (meta)data worden expliciet gemaakt.

A1. (Meta)data zijn opvraagbaar via de identifier door het gebruik van een gestandaardiseerd communicatieprotocol
A1.1. Het protocol is open, gratis en onbeperkt implementeerbaar
A1.2. Het protocol maakt, indien nodig, authenticatie en autorisatie mogelijk
A2. Zelfs als de data niet langer beschikbaar zijn, moeten de metadata toegankelijk blijven

Interoperable (uitwisselbaar): data kunnen gekoppeld worden aan andere data door zowel mens als computer.

I1. (Meta)data gebruiken een formele, toegankelijke en breed toepasbare taal voor kennisweergave
I2. (Meta)data gebruiken vocabularies die voldoen aan de FAIR Principles
I3. De (meta)data bevatten gespecificeerde referenties naar andere (meta)data

Reusable (herbruikbaar): de beschrijving van de (meta)data is zodanig dat er ook in de toekomst gebruik van kan worden gemaakt, zowel door mens als computer.

R1. De (meta)data worden uitgebreid beschreven met een veelheid aan nauwkeurige en relevante kenmerkende eigenschappen
R1.1 (Meta)data worden toegankelijke gemaakt door een duidelijke en toegankelijke (data)gebruikslicentie

R1.2 Het is duidelijk wat de herkomst van de (meta)data is
R1.3 (Meta)data sluiten aan op specifieke standaarden voor bepaalde onderzoeksgebieden

Helemaal Poka Yoke!

Saskia van Bergen

Als medewerker van de afdeling Innovatie & Projecten houd ik mij vooral bezig met projectmanagement. Hierbij werk je binnen een beperkte periode en budget naar een concreet einddoel of eindproduct. De laatste tijd kom ik steeds vaker de term procesmanagement tegen. Hierbij gaat het om het ontwikkelen en verbeteren van doorlopende activiteiten. Denk bijvoorbeeld aan het inrichten van een productielijn in een fabriek of – om het wat dichter bij huis te houden – de gang van het boek in onze bibliotheek. In de praktijk komt het een meestal uit het ander voort. Zo wordt er vaak een project gestart om een onderdeel in een proces in te richten of te verbeteren. 

Het een-na-laatste nummer van Informatie Professional bevat een inspirerend artikel van de hand van Matthijs van Otegem over de toepassing van procesmanagement in de Koninklijke Bibliotheek. Als case-study gebruikt hij de verbetering van het digitaliseringstraject,  wat gezien de projecten met Google en ProQuest een belangrijke activiteit is voor de KB. Toen een oud-collega me vertelde dat de KB een workshop organiseerde over hetzelfde onderwerp, aarzelde ik geen moment en heb direct gevraagd of ik aan mocht sluiten. Gelukkig was ik van harte welkom!

Tijdens de workshop werd uitgebreid ingegaan op één van de bekendere procesmanagementmethodes Lean Six Sigma. Hierin staat het verbeteren van klanttevredenheid en het verhogen van efficiëntie centraal. “Door te focussen op datgene wat voor de klant écht belangrijk is en fouten in de uitvoering terug te dringen, wordt het aantal processtappen gereduceerd (Lean) en de uitkomst van de processen voorspelbaar gemaakt (Six Sigma) “. Doordat de methode van oorsprong Japans is, kwamen er flink wat exotische termen voorbij, zoals Poka Yoke – een proces wordt zodanig ingericht dat mensen geen fouten kunnen maken – en Jidoka – de volgende productiestap mag pas worden genomen wanneer het deelproduct defectvrij is. Ook wordt veel verantwoordelijkheid bij de medewerkers neergelegd; verbetering wordt niet van boven opgelegd, maar doe je samen. De deelnemers aan de workshop werden daarom ook zelf aan het werk gezet. De opdracht was om in groepjes te bedenken hoe de klanttevredenheid bij het aanvragen van boeken uit het Depot Nederlandse Publicaties verbeterd kon worden. Deze boeken mogen het gebouw niet verlaten, wat regelmatig tot misverstanden en ontevredenheid leidt bij klanten.

Na afloop realiseerde ik me dat we op de UB ook al tamelijk Lean werken. Dit is namelijk precies wat wij proberen te bereiken met de nieuwe dienst “Digitalisering op verzoek”. Ook hier vormde de klant het uitgangspunt voor de inrichting van een efficiëntere workflow. Door het proces te vereenvoudigen en te automatiseren kunnen de scans sneller aan de klant worden geleverd, en kost het ons tegelijk minder tijd en inzet. Hiervoor hebben we uiteenlopende deelproducten gerealiseerd, waaronder:
– Buttons in PRIMO waarmee klanten direct vanuit de catalogus scans kunnen bestellen
– Geautomatiseerde levering van scans door middel van FTP
– Een betaalmodule waarmee klanten snel en eenvoudig kunnen betalen

Ook de aanschaf van het softwarepakket GOOBI voor het inrichten en managen van de digitaliseringsworkflow helpt hierbij. Goobi deelt het productieproces op in deeltaken, en koppelt aan elke taak een rol, zoals ‘baliemedewerkers’, en ‘scanmedewerkers’. Taken worden na afronding automatisch naar de volgende in het proces doorgestuurd, of -wanneer een fout wordt geconstateerd- teruggestuurd naar de vorige. Ook is een aantal validaties ingebouwd, waarmee medewerkers gedwongen worden om bepaalde velden in de database in te vullen. Niet alleen helemaal Jidoka, maar ook echt Poka Yoke dus!

Toch maar wel weer bloggen

Tegen de stroom in hebben wij bedacht dat we (weer) willen gaan bloggen. Maar dan wel op een nieuwe plek en onder een nieuwe naam : UBL innovatie . Het moet een blog worden door de medewerkers van de afdeling Innovatie & Projecten van de Universitaire Bibliotheken leiden (UBL), geïnspireerd door ons dagelijks werk, maar op persoonlijke titel.

Google Reader is er net mee gestopt (1 juli!). Er is op diverse bekende bibliobblogs over geschreven met als titels “Is it the end of an era for librarian blogging?” , “Niet bloggen maar joggen?”, “Biblioblog(gers) in vrije val”  en “De bloggende bibliothecaris anno 2013” : bloggen is uit!

Ook op een recente interne UBL bijeenkomst werd geconstateerd dat Twitter wellicht veel belangrijker zou zijn dan bloggen. En dat RSS readers hun langste tijd wel gehad zouden hebben.

Vervolgens werd er heel veel getweet (en geblogd) over de beste vervanger voor Google Reader, met Feedly als winnaar. En komen er toch ook weer nieuwe blogs bij, zoals Skills for InformatieProfessionals van onze eigen divisiemanager Josje Calff.  Onze collega’s van de UB Utrecht zijn in staat om inspirerend gezamenlijk te bloggen met hun I&M / I&O 2.0 blog.

Als je dat samenvoegt met alle discussies over het bestaansrecht van universitaire bibliotheken en recente organisatorische veranderingen bij de UBL, met als resultaat een zelfstandige afdeling Innovatie & Projecten,  ontstaat toch het gevoel van “dat zouden wij toch ook moeten kunnen?” Dus: we gaan weer bloggen. Nu nog voldoende inspiratie.En lezers natuurlijk, met liefst inhoudelijke reacties. Wij denken dat we genoeg te vertellen hebben, voor ons geldt: bloggen is in!