UBL Innovatie

Medewerkers van de afdeling Innovatie & Projecten van de Universitaire Bibliotheken Leiden vertellen over innovaties

Van DWDD naar FAIR Big Data

big-data-1084656_960_720Gepubliceerd in InformatieProfessional 2017/8

Op 12 maart 2015 vertelde Matthijs van Nieuwkerk in De Wereld Draait Door dat we zélf konden gaan bepalen waarmee de wetenschap zich bezig moest gaan houden. Twaalfduizend reacties kwamen er op zijn oproep om vragen in te sturen voor de Nationale Wetenschapsagenda (NWA). Of die vragen allemaal even serieus genomen zijn, valt te betwisten. Maar het beeld van samenwerking en openheid dat NWA-directeuren Alexander Rinnooy Kan en Beatrice de Graaf opriepen, was ook zichtbaar in het vervolg van het proces. De oproep resulteerde uiteindelijk in vijfentwintig onderzoeksprogramma, of ‘routes’ in het jargon van de NWA.

Door: Rob Feenstra

Een van die onderzoeksprogramma’s heet Verantwoorde Waardecreatie met Big Data (VWData). Die (meer)waarde moet de komende tien jaar tot stand komen door het verbeteren van de infrastructuur en door de ontwikkeling van nieuwe instrumenten en technieken. In de eerste periode is er met name aandacht voor multidisciplinair onderzoek en voor het opzetten van proeftuinen en projecten waarin overheid en privésector samenwerken.

Het Portfolio for Research and Innovation, dat de routes beschrijft, noemt Nederland bij uitstek geschikt om het voortouw te nemen in het onderzoek naar big data. Samenwerking tussen verschillende eigenaren en afnemers van data is in landen met datamonopolies veel minder goed mogelijk en juist aan die samenwerking wordt veel waarde gehecht. Het gaat daarbij niet alleen om universiteiten en andere kennisinstellingen, maar ook om bedrijven en maatschappelijke instellingen. Het portfolio verwijst zelfs naar het Nederlandse poldermodel, dat door zou werken in het ontsluiten van gegevensbestanden. Nederland als gidsland, we hebben het vaker gezien.

Verantwoord gebruik

VWData past ook in een internationale tendens, namelijk om beter en meer verantwoord gebruik te maken van (big) data. Een voorbeeld hiervan zijn de FAIR Principles, een set van richtlijnen om (onderzoeks)data beter vindbaar, toegankelijk, uitwisselbaar en herbruikbaar te maken (zie kader). De FAIR Principles zijn in korte tijd breed geaccepteerd en veel subsidieverstrekkers willen dat onderzoekers de FAIR-richtlijnen hanteren. In Nederland is dat, naast bijvoorbeeld de KNAW, de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO), die het grootste deel van VWData, 2,5 miljoen euro, financiert. Bij een aantal van de nu al gedefinieerde VWData-projecten is een ruime plaats ingeruimd voor FAIR, soms gekoppeld aan zaken als privacy, digitale weerbaarheid van burgers, transparantie en waardevrijheid van algoritmen.

Zo buigt het project Fair News: Nieuwsvoorziening in een Big Data tijdperk zich over de vraag hoe ver algoritmes kunnen en mogen gaan bij het filteren van data en waar de verantwoordelijkheid ligt als er op basis van algoritmen onjuiste beslissingen worden genomen. Bij dit project, een samenwerkingsverband tussen de Universiteit van Amsterdam en de TU Delft, is ook de Volkskrant betrokken.

Een ander project waarbij het FAIR gebruik van data een grote rol speelt, is Distributed FAIR information systems to enable federated learning and reasoning. Deelnemers aan dit project buigen zich bijvoorbeeld over de vraag hoe je een FAIR datadienst opzet, waarbij concurrerende organisaties data kunnen delen en gebruiken voor een gezamenlijk vastgesteld doel zonder dat het voor andere doeleinden wordt gebruikt. Naast een viertal universiteiten nemen ook bedrijven als KLM en KPMG deel.

Eigen invulling

De vijftien FAIR Principes zijn geformuleerd in algemene termen. Zo kom je tot een brede acceptatie, maar bied je aan de andere kant veel ruimte voor eigen interpretatie. Dat kan weer tot gevolg hebben dat landen, wetenschapsgebieden, instellingen en individuen hun eigen invulling geven aan FAIR, waardoor oorspronkelijke uitgangspunten als herbruikbaarheid van data juist uit het zicht verdwijnen. De eerste projecten van VWData bevinden zich nog in de opstartfase. Het komende decennium gaan we zien hoe de deelnemers omgaan met die schijnbare tegenstelling.

Er is een lange weg afgelegd van de twaalfduizend vragen van ‘gewone’ mensen naar dit onderzoeksprogramma en het is twijfelachtig of veel van die vragen hierin beantwoord worden, maar met de gekozen insteek kunnen er in ieder geval wél antwoorden gezocht worden op vragen die maatschappelijk en economisch van belang zijn.

Rob Feenstra is projectleider/consultant bij de Universitaire Bibliotheken Leiden en heeft als aandachtsgebied bibliotheeksystemen en de digitale bibliotheek.

FAIR Principles

Een internationale groep van belanghebbenden stelde in 2016 de FAIR Principles op vanuit de groeiende behoefte om de infrastructuur voor de publicatie en het (her)gebruik van data te verbeteren. Het doel is om data Findable, Accessible, Interoperable en Re-Usable te maken. Daarbij gaat het zowel om de mogelijkheid van computers om de data te gebruiken als om het (her)gebruik door personen.

Findable (vindbaar): om goed vindbaar te zijn voor mens en machine moet er een beschrijving zijn van de metadata

F1. (Meta)data beschikken over een wereldwijd unieke en eeuwig persistente identifier
F2. Data worden beschreven door uitgebreide metadata
F3. Metadata bevatten de identifier van de data die worden beschreven
F4. Metadata worden geregistreerd of geïndexeerd in een doorzoekbare bron

Accessible (toegankelijk): de mogelijkheden en beperkingen voor toegang tot de (meta)data worden expliciet gemaakt.

A1. (Meta)data zijn opvraagbaar via de identifier door het gebruik van een gestandaardiseerd communicatieprotocol
A1.1. Het protocol is open, gratis en onbeperkt implementeerbaar
A1.2. Het protocol maakt, indien nodig, authenticatie en autorisatie mogelijk
A2. Zelfs als de data niet langer beschikbaar zijn, moeten de metadata toegankelijk blijven

Interoperable (uitwisselbaar): data kunnen gekoppeld worden aan andere data door zowel mens als computer.

I1. (Meta)data gebruiken een formele, toegankelijke en breed toepasbare taal voor kennisweergave
I2. (Meta)data gebruiken vocabularies die voldoen aan de FAIR Principles
I3. De (meta)data bevatten gespecificeerde referenties naar andere (meta)data

Reusable (herbruikbaar): de beschrijving van de (meta)data is zodanig dat er ook in de toekomst gebruik van kan worden gemaakt, zowel door mens als computer.

R1. De (meta)data worden uitgebreid beschreven met een veelheid aan nauwkeurige en relevante kenmerkende eigenschappen
R1.1 (Meta)data worden toegankelijke gemaakt door een duidelijke en toegankelijke (data)gebruikslicentie

R1.2 Het is duidelijk wat de herkomst van de (meta)data is
R1.3 (Meta)data sluiten aan op specifieke standaarden voor bepaalde onderzoeksgebieden

Wetenschappelijke neutronenkorrels

Mylovabletiger

Ach, dat waren nog eens mooie tijden. De onwetende student ging naar de informatiespecialist en die kon precies vertellen hoe en waar de gevraagde informatie te vinden was. Over de kwaliteit hoefde niemand zich zorgen te maken: Bij de poort van de bibliotheek zat immers een vakreferent die er voor zorgde dat alle niet wetenschappelijk verantwoorde literatuur geweerd werd. Tegenwoordig is dat wel anders. In de (om het afgrijselijke woord maar weer eens te gebruiken) tsunami aan informatie die we over ons heen krijgen moeten de bibliotheken hun uiterste best doen om een overzicht te houden op wat zich waar bevindt.

En dan zitten we ook nog in het tijdperk van het fake news. De wetenschappelijke wereld heeft te maken met het groeiende ongemak van de predatory publishers, uitgevers die het Open Access-model misbruiken door auteurs te lokken met snelle en vrijwel gegarandeerde plaatsing van hun artikelen in goed aangeschreven, peer reviewed journals en dat tegen lage publicatiekosten. Wie zijn Van Kooten en De Bie kent denkt direct aan neutronenkorrels, en inderdaad, vaak blijkt er nauwelijks of geen peer review te zijn, blijven ook de taalfouten gewoon staan en is het e-journal niet meer dan een slordig vormgegeven website, die vaak dan ook niet is geïndexeerd door degelijke databases als Thompson Reuters en EBSCO. Ondanks die geur van onbetrouwbaarheid zijn er genoeg auteurs die hun artikelen onderbrengen bij zo’n malafide uitgever. Gebrek aan geld en een grote publicatiedruk vergroten maar al te vaak de aantrekkingskracht en vertroebelen de kritische blik van de (vaak nog jonge) wetenschapper.

De afgelopen jaren is het aantal predatory publishers enorm gegroeid. De Amerikaanse bibliothecaris Jeffrey Beall begon in 2011 met een lijst waarop 18 potential, possible, or probable predatory publishers stonden. Toen Beall zijn lijst begin dit jaar onverwacht offline zette, stonden er bijna 1300 roofdieruitgevers op. Natuurlijk staan er genoeg goede artikelen in de journals die door predatory publishers worden uitgegeven worden, maar de rammelende acceptatiecriteria zorgen er voor dat er ook veel kaf tussen het koren zit, en dat is een kwalijke zaak (denk bijvoorbeeld aan artikelen in medische tijdschriften).
Het is lastig om dat kaf van het koren te scheiden. Vorig jaar heeft DOAJ (Directory of Open Access Journals, de meest bekende aanbieder van OA journals) veel tijdschriften verwijderd en werden de toelatingscriteria aanmerkelijk verscherpt. Niettemin bevat de DOAJ nog honderden journals die voorkomen in Beall’s lijst. Wat is waarheid? Wie heeft gelijk?

Het betekent in ieder geval dat de mensen aan de poort van onze informatiecentra een scherp oog moeten hebben voor deze (al dan niet) wetenschappelijke gelukszoekers. Er circuleren op internet al veel pagina’s waarop tips staan om predatory journals te kunnen identificeren. Het gaat dan om vragen als ‘Heeft het tijdschrift een formele editorial board?’ of ‘Is het copyright goed en duidelijk geregeld?’ Uitgebreide voorbeelden zijn ondermeer te vinden bij WAME (met de criteria van Beall, DOAJ), the MAP Newsletter en Think,Check,Submit (met daarachter o.a. PubMed Central en Springer.)

Het is goed om de werkelijk onbetrouwbare tijdschriften buiten de deur te houden, want eenmaal binnen worden ze door onze klanten, die vertrouwen in ons hebben, als betrouwbaar beschouwd en dus is Minder! Minder! Minder! in dit geval nu eens volkomen op zijn plaats.

 

Holland – Engeland. Uitslag: 158.000.000-3

Wie durft er nu nog te beweren dat het Nederlands wordt verdrongen door het Engels? De zoekvraag This is the best * on the internet levert 3 resultaten op, terwijl Dit is de beste * op het internet maar liefst 158.000.000 resultaten oplevert. Overigens is de uitslag bij andere zoekmachines aanmerkelijk minder schrijnend voor Engeland.

Waarschijnlijk heeft Google hier een probleem met stopwoorden.

ned

eng

 

 

 

 

 

Ga eens vreemd!

(Vagin en peni deel 2)

untitledGoogle is als een vaste partner: je bent er aan gewend, er treedt geleidelijk aan een zekere sleur op en je kent na verloop van tijd alle gebreken van de ander, maar toch blijf je trouw, al was het maar uit gewoonte. Daarom kan ik iedereen adviseren om af en toe eens vreemd te gaan. Met een zoekmachine uiteraard.

Met Microsoft’s Bing (www.bing.com) bijvoorbeeld, dat ooit de grote tegenhanger van Google moest worden. Dat is nooit helemaal gelukt, maar volgens de gebruiksstatistieken is het wel een goede tweede. Vagin en peni (zie mijn vorige blog) vult hij keurig aan. De autocompletefunctie is over de hele linie trouwens wat beter dan die van Google. Wanneer je op een bepaald bestandstype wil zoeken, ben je bij Bing aan het goede adres: als je filetype:docx opgeeft, vindt hij zowel de nieuwe *.docx als de oudere *.doc bestanden. Hetzelfde geldt voor Powerpoint- en Excelfiles.

Als je absoluut niet wilt dat een zoekmachine je gegevens bijhoudt zijn er talloze alternatieven voorhanden. Duckduckgo ( duckduckgo.com)  is bijvoorbeeld een heel aardige zoekmachine die je niet volgt. Een handige optie van Duckduckgo is dat je heel makkelijk van regio kunt veranderen. Als ik iets wil lezen over mijn neef,  die schrijver is, schakel ik over naar zijn geboorteland Nieuw-Zeeland en vind hem al in de eerste zoekresultaten, terwijl ik daarvoor bij andere zoekopties flink moet doorscrollen. Maar het handigste van Duckduckgo zijn de bangs. Via deze optie kun je je zoekactie beperken tot één bepaalde krant, database, catalogus, site enz.  Er zijn duizenden van die bangs en het aantal groeit.

Het Engelse Oscobo (https://oscobo.co.uk/) houdt evenmin persoons- of zoekgegevens bij. Je ziet wel advertenties, maar je krijgt niet tot in den treuren advertenties van boormachines te zien omdat je daar ooit een keer op hebt gezocht.

StartPage van IxQuick  (https://www.startpage.com/) geeft je zoekopdracht door aan Google zonder dat jouw gegevens meegaan, ook je ip-adres niet. Hiermee kun je dus via een omweggetje gebruik maken van Google, zonder dat Google gebruik maakt van jou. Op die manier kun je ook anoniem de websites bezoeken die je via de zoekmachine vindt.

Ook bij het Franse Qwant (https://www.qwant.com/) staat privacy hoog in het vaandel. Het leuke van deze zoekmachine is de vormgeving.  De zoekresultaten worden getoond in drie kolommen: internet, nieuws en sociaal. Een groot voordeel van Qwant is dan het  helemaal geen advertenties heeft. Het geld komt binnen doordat het bedrijf de techniek verkoopt aan ondernemingen.
qwant

Het Zwitserse Hulbee (https://hulbee.com/)  houdt evenmin persoonlijke gegevens vast. Er zijn wel op de persoon gerichte advertenties, maar die zijn gebaseerd op de huidige zoekactie. Hulbee heeft een mooie woordenwolk, waarmee je je zoekactie kunt verfijnen of verleggen. De machine wordt vooral geschikt bevonden voor publieke omgevingen omdat gewelddadige en pornografische content wordt geblokt.

Omnity (https://www.omnity.io/)  is een associatieve semantische zoekmachine met een grafische weergave. Het schijnt vooral bedoeld te zijn voor studenten en onderzoekers.  Je kunt gewoon een zoekterm invullen, maar ook een volledig document als zoekobject opgeven. Ik denk dat er nog heel wat valt te perfectioneren aan deze zoekmachine, maar als je een sneak preview wilt van de toekomst van het zoeken, moet je Omnity zeker bekijken.
omnity

Wil je de wereld een beetje beter maken dan kun je gebruik maken van Goodsearch (https://www.goodsearch.com/) of Ecosia (https://www.ecosia.org/).  Beide zoekmachines doneren een deel van de advertentie-inkomsten uit zoekacties aan goede doelen. Bij Goodsearch kun je zelfs je eigen goede doel benoemen. Hoe meer je zoekt, hoe meer je geeft.

Alltheinternet (http://www.alltheinternet.com/) heeft een uitgesproken ouderwetse uitstraling, maar het handige is dat je er kunt kiezen  uit een stuk of 40 zoekmachines. Ook kun je je zoekactie laten uitvoeren door alle zoekmachines tegelijk.  Het klinkt iets mooier dan het is, want de lijst bevat bijvoorbeeld ook de zoekmachine van Wallmart, maar er blijven genoeg mooie keuzes over.

Het Zwitserse etools.ch (https://www.etools.ch) benadert 16 zoekmachines tegelijk en laat bij ieder resultaat zien door welke machine het  is gevonden.

Yippy (http://www.yippy.com/) heeft een weinig serieus klinkende naam, het komt dan ook voort uit het al even koddig klinkende Clusty, maar het is wel een multisearch engine met een heel fijne feature:  hij geeft bij de zoekresultaten ook een verdeling in rubrieken en toont de websites die de meeste resultaten bevatten.
yippy

SEO-slimmeriken zorgen ervoor dat ‘hun’ sites bovenaan de zoekresultaten verschijnen. Wil jij ze op jouw beurt weer te slim af zijn, gebruik dan Millionshort (https://millionshort.com). Je kunt deze search engine de opdracht geven om de bovenste zoekresultaten (van 100 tot een miljoen) laten verwijderen. Ik vraag me af of het precies werkt zoals wordt gesuggereerd, maar het levert in ieder geval verrassende resultaten op. Een mooie functie is bovendien dat je sites met advertenties kunt uitsluiten

En tenslotte een geweldig leuke semantische zoekmachine die mij persoonlijk veel voldoening heeft gebracht. Whatismymovie (http://whatismymovie.com/) geeft antwoord op vervelende vragen als ‘hoe heet die film  ook alweer waarin die ene acteur  (hoe heet hij toch?) de rol van evangelist speelt die in een andere film ooit de rol van Cyrano de Bergerac vertolkte?’ Type in ‘Cyrano’ en ‘preacher’ en je vindt het antwoord (Leap of faith). Zo mooi kan zoeken zijn.

 

Vagin en peni

F

peniHet was een trip down memory lane, mijn bezoek aan de Internet Librarian International Conference 2016 in het Olympia Conference Center in Londen. In 1999 was ik in hetzelfde zalencomplex voor een bezoek aan de Online Conference. De enige aanpassing die het Olympia sindsdien aan de moderne tijd had gedaan was de tassencontrole, maar daar was het in Londen niet bepaald uniek in. Voor mijn werkgever moest ik destijds een verslag schrijven en ik weet nog dat ik de naam van die nieuwe zoekmachine nog even moest nazoeken in mijn aantekeningen. Oh ja, Google.

Tijdens de ILI was Google in een aantal presentaties prominent aanwezig, vaak in combinatie met meer moderne termen als Big Data en Artificial Intelligence. En waar Google toen werd geprezen als de toekomst van het zoeken, waren er nu meer kritische geluiden te horen. Is ons gebruikersprofiel van invloed op wat we voorgeschoteld krijgen? Is Google een Big Brother gevoed door Big Data? Moeten we een stel oncontroleerbare algoritmes laten bepalen welke zoekresultaten we te zien krijgen? Wie een tijdje geleden op “Top economist” zocht op Google, kreeg Trump als één van de eerste resultaten. Foutje in de algoritmes. Google geeft als je slokd of ende intikt automatisch de suggestie slokdarm en endeldarm, maar als je vagin of peni intikt, heeft het geen idee wat je bedoelt. Hoe fatsoensrakkerig mag een zoekmachine zijn? Als ik het Oudnederlandse woord bloken zoek, vind ik pas op de tweede pagina een resultaat, omdat Google voor mij bepaalt dat ik een tikfout heb gemaakt en alles over blokken wil weten. De onverholen weerzin die ik bij een aantal sprekers opmerkte over dit soort fouten/interpretaties/bedilzucht is eigenlijk best begrijpelijk. Informatieprofessionals willen  dat onze klanten een resultaat krijgen dat klopt en dat een zoekmachine bij voorkeur alle resultaten geeft die exact beantwoorden aan de zoekopdracht.

Google indexeert vele miljarden webpagina’s en het aantal groeit nog steeds. Infoglut, het verschijnsel dat de hoeveelheid data zo groot wordt dat er steeds minder zinvolle informatie aan te onttrekken valt, is een reëel risico. Op dit niveau zijn recht-toe-recht-aan zoekmachines met exacte zoekresultaten geen optie meer. We moeten leren leven met slecht controleerbare machinale interpretaties en met zoekresultaten waarvan Google dénkt dat we ze willen zien. De grote zoekmachines zullen steeds meer gestuurd worden door kunstmatige intelligentie. Tegenspartelen heeft evenveel zin als protesteren tegen slecht weer. Maar er ligt natuurlijk een mooie taak voor de informatieprofessional om zijn klanten te wijzen op de beperkingen van Google, maar ook Bing, Yahoo, Yandex enz., en om ze kritisch te leren omgaan met de zoekresultaten.

En het is natuurlijk niet allemaal kommer en kwel. Het zit er dik in dat de tendens richting machine learning als prettig bijeffect zal hebben dat de behoefte aan zoekmachines voor beperkte dataverzamelingen (ik noem maar iets: bibliotheekcatalogi!) groeit. Old school zoekmachines die, als je zoekt op Trump, niet als resultaat “Top economist” geven en ook niet “Presidentskandidaat”, maar gewoon “Trump”, omdat dat is wat je zoekt. Is dat geen troostrijke gedachte?