DH Benelux 2015

Leiden nieuwe ICT-technieken echt tot nieuwe vragen en methoden binnen het Geesteswetenschappelijk onderzoek?  Op wat manieren kunnen bibliotheken en andere aanbieders van digitale informatie dit nieuwe type van onderzoek het beste ondersteunen? Op 8 en 9 juni hebben ca. 150 Geesteswetenschappers, bibliotheekmedewerkers en IT-specialisten zich gebogen over deze vragen tijdens het Digital Humanities Benelux congres, dat dit jaar werd georganiseerd aan de Universiteit van Antwerpen.

De opening keynote werd verzorgd door Will Noel van de universiteit van Pennsylvania. Hij ging in op een project waarin hij een palimpsest met, in de onderste laag, een aantal teksten van Archimedes via digitale en chemische technieken heeft onderzocht. Hij pleitte in zijn lezing vooral voor het vrijelijk delen van onderzoeksdata, onder het motto “If you have sexy data, make them promiscuous”. Peter Robinson betoogde grotendeels hetzelfde in zijn lezing over de verschillende digitale edities die hij heeft verzorgd: “Your interface is everyone else’s enemy” en het werk dat voor een kritische editie is verzet wordt pas echt herbruikbaar wanneer afbeeldingen en gecodeerde teksten openlijk worden gedeeld.

Jesper Verhoef en Melvin Wevers, beiden van het onderzoeksproject Translantis, gaven een presentatie over The Digital Humanities Cycle. De onderzoekscyclus bestaan uit activiteiten als zoeken, analyseren, het leren werken met een tool, het voorbereiden van data en het kritisch evalueren van resultaten. Zij benadrukten dat er over het algemeen niet één onderzoekstool bestaat die een onderzoeksvraag kan beantwoorden. Iedere tool heeft zijn beperkingen. Vaak moeten er verschillende tools worden gecombineerd, of moeten bestaande tools worden aangepast.

Inger Mees van de Vrije Universiteit presenteerde over haar onderzoek naar de herkenning van emoties in teksten. Op basis van een nieuwe semantic tagger zijn binnen een corpus van ca. 300 Nederlandstalige toneelstukken de verschillende emoties die worden uitgedrukt beschreven. Tijdens een sessie over Digitization and Exogenesis liet Ronan Crowley (Universiteit van Passau) zien dat grote tekstverzamelingen (Large Scale Digitisation Inititiatives of LSDIs) zoals het Google Books corpus van groot belang kunnen zijn bij onderzoek naar intertextualiteit, allusies en citaten. Antal van den Bosch, ten slotte, heeft onderzoek gedaan naar teksten waarin dromen worden beschreven (ontleend aan Dreambank). Van den Bosch wilde weten wat de karakteristieke kenmerken zijn van deze teksten. Het onderzoek begon met het toepassen van vele verschillende technieken  (“shoot with many guns”), waaronder n-gram analysis, topic modeling, text classification en discourse coherence measures. Uiteindelijk bleek Topic Modelling de meest relevante resultaten op te leveren. Ik heb zelf een presentatie gegeven over de visualisatietechnieken die ik heb toegepast tijdens mijn onderzoek naar poëzie.

In een aantal andere verslagen van congres werd aangegeven dat het congres vooral ging over de methodologie en veel minder over de nieuwe geesteswetenschappelijke inzichten die deze methoden kunnen opleveren. Tijdens het congres werden, zoals wel vaker het geval is, vooral de positieve aspecten van onderzoeksprojecten gepresenteerd. Voor bibliotheekmedewerkers die dit type van onderzoek willen ondersteunen was het daarom lastig om vast te stellen waar nog uitdagingen liggen, en waar daadwerkelijk behoefte aan bestaat. Wat wel duidelijk werd is dat er heel veel wordt geëxperimenteerd met verschillende onderzoekstools. Onderzoekers moeten vaak veel tijd investeren in het leren werken met deze nieuwe technieken. Meer gerichte informatie over de mogelijkheden en de beperkingen van specifieke tools ontbreekt heel vaak, en veel onderzoekers kunnen gebaat zijn bij een betere ondersteuning bij het gebruik van de beschikbare tools.

Het DH Benelux congres zal volgend jaar plaatsvinden op 9 en 10 juni, in Belval in Luxemburg.

Managing Open Access

Op 20 mei vond in de Royal Society in London een workshop plaats van de UKSG. De workshop is bijgewoond door vertegenwoordigers van universiteitsbibliotheken en van uitgevers, en vanuit beide perspectieven werd er ingegaan op de vele uitdagingen die het publiceren in open access publiceren met zich mee brengt.

2258365376_98b3817ecd

In de UK hebben op dit moment vrijwel alle wetenschappers te maken met de verplichting om hun publicaties openbaar beschikbaar te stellen. In het in 2012 verschenen rapport van Janet Finch werd een duidelijke voorkeur uitgesproken voor Gold OA, en deze aanbeveling is hierna overgenomen in het beleid van de RCUK, een organisatie die de werkzaamheden van Britse subsidieverstrekkers op een nationaal niveau coördineert. Een tweede belangrijke ontwikkeling is dat open access ook een belangrijk onderdeel is geworden van het in 2014 gelanceerde Research Excellence Framework (REF), een systeem voor de evaluatie van de kwaliteit van onderzoek aan Britse universiteiten. De uitkomsten van de REF bepalen voor een groot deel ook de toewijzing van onderzoeksgelden. Vanaf 2016 worden alleen de open access publicaties meegewogen in de evaluatie.

Britse universiteiten proberen hun auteurs momenteel zo goed mogelijk te ondersteunen bij het voldoen aan al deze verplichtingen, en deze ondersteunende werkzaamheden zijn vaak ondergebracht bij bibliotheken. Het ondersteunen van OA is echter voor veel bibliotheken een relatief nieuwe taak, en veel bibliotheken ondervinden dan ook problemen bij het uitwerken van goede procedures. Tijdens de workshops werden er ervaringen en best practices gedeeld van, onder meer, de Universiteit van Liverpool, Saint Andrews en Glasgow. Er zijn duidelijk een aantal problemen waar alle instellingen mee kampen. Vaak ontbreekt er een volledig overzicht van wat er daadwerkelijk wordt gepubliceerd. Wanneer er voor APCs moet worden betaald is vaak ook onduidelijk hoe deze kunnen worden gefinancierd. De RCUK en de Wellcome Trust hebben beide ‘block grants’ beschikbaar gesteld aan universiteiten, maar het is vaak lastig om te bepalen hoe dit geld moet worden verdeeld onder alle auteurs. Bij het ondersteunen van het publicatieproces moet er veel informatie worden beheerd over, onder meer, de artikelen zelf, de financierders, de licenties, de uitgeverijen, en de status van de financiele transacties. Er zijn momenteel nog geen goede systemen voor het beheer van deze gegevens, en veel universiteiten werken met omvangrijke Excel-bestanden.

Ook voor uitgevers levert OA ook veel uitdagingen op. Tijdens de workshop waren er presentaties van SAGE en IOP publishers. Voor internationale uitgevers is het vaak lastig om een uniform beleid op te stellen, omdat er in verschillende landen vaak specifieke regels met betrekking tot open access. OA levert ook veel meer administratie op. Terwijl er bij de afhandeling van abonnementen meestal één invoice per tijdschift was, moet er bij Gold OA vaak voor ieder individueel artikel een factuur worden opgesteld. Voor uitgevers is het vaak ook onduidelijk wie hun eerste aanspreekpunten zijn. Zij kunnen de besprekingen over artikelen voeren met de auteurs zelf, maar ook met bibliotheken of met Research Support Offices. In toenemende mate maken universiteiten ook gebruik van de diensten van tussenpartijen zoals Open Access Key, JISC APC, Swets en EbscoAdvantage.

Een van de meest inspirerende presentaties van de dag werd gehouden door Susan Ashworth van de Universiteit van Glasgow. In totaal werken er in Glasgow 3 fte aan het ondersteunen van Open Access. Door de bibliotheek is er een vast e-mail-adres aangemaakt waar auteurs informatie over hun geaccepteerde artikel naar toe kunnen sturen. De bibliotheek draagt hierna zorg voor het volledige publicatieproces. Er wordt beoordeeld of het artikel in Green of in Gold moet worden gepubliceerd, en of de betaling van APCs wel of niet nodig is. Glasgow heeft een verrijkt repositorium ingericht, waarin niet alleen informatie over publicaties, maar ook gegevens over subsidiverstrekkers en licenties wordt bewaard.

Binnen de UBL loopt er momenteel een project waarin wordt onderzocht hoe open access beste kan worden ondersteund binnen de Universiteit Leiden, en het bezoek aan deze workshop heeft dan ook veel inspiratie opgeleverd!

 

Het meten van wetenschap

Het onderwerp “kwaliteit en impact van wetenschappelijke publicaties” staat de laatste tijd veel in de aandacht. De discussie richt zich vaak op de vraag of het uberhaupt wel mogelijk is om een abstract gegeven als wetenschappelijke kwaliteit in cijfers uit te drukken. Het CWTS in Leiden heeft in 2012 een interessant rapport over dit onderwerp geschreven. Ook tijdens het OAI8 congres, dat ik in juni heb bijgewoond, was er veel aandacht voor dit onderwerp.

In zijn presentatie “Scholarly Impact Measures: An Overview” benadrukte Johan Bollen van de Universiteit van Indiana (voorheen ook de Los Alamos National Library) dat wetenschappelijke impact in feite een heel ongrijpbaar fenomeen is. Wetenschappers produceren bepaalde ideeën en bepaalde nieuwe informatie. Niet alle ideeën zijn natuurlijk even waardevol. Is het op een of andere manier mogelijk om aan te geven wat de waarde of de relevantie is van een idee? Volgens Bollen komt de relevantie van een bepaald idee vooral tot uitdrukking via de status die een wetenschapper verwerft dankzij de publicatie van deze ideeën. De kwaliteit van meetinstrumenten hangt dus samen met hoe goed of hoe slecht deze reputatie onder vakgenoten in beeld wordt gebracht.

Traditioneel worden de wetenschappelijke kwaliteit en impact afgelezen aan de hand van citatiedata (met indicatoren zoals de Journal Impact Factor en de H-Index). Deze citatiegegevens hebben verschillende praktische nadelen. Als een publicatie verschijnt duurt het uiteraard enige tijd voordat er andere publicaties kunnen verschijnen die dit artikel weer citeren. De citaties worden meestal ontleend aan Web of Science of aan Scopus, maar het is bekend dat publicaties op het gebied van de geesteswetenschappen en de sociale wetenschappen, en teksten die niet in het Engels zijn geschreven, niet goed zijn vertegenwoordigd in deze databases. Het belangrijkste probleem is volgens Bollen echter dat de lijst met high impact journals vaak helemaal niet overeenkomt met wat wetenschappers zelf als belangrijke tijdschriften ervaren.

De wetenschappelijke communicatie verplaatst zich meer en meer naar het web, en wetenschappelijke ideeën worden tegenwoordig ook verspreid via weblogs, via repositories en via social media. Het is dus eigenlijk niet meer van deze tijd om impact alleen maar te beoordelen via traditionele publicaties. Een alternatieve methode is, bijvoorbeeld, om te kijken naar het aantal downloads van een digitale publicatie. Deze gegevens zijn over het algemeen gewoon beschikbaar, zowel bij de institutionele repositories als bij de uitgevers. De mogelijkheden van download-statistieken in deze context zijn onder meer onderzocht in het project MESUR, en ook in PIRUS en COUNTER (waarin de Journal Usage Factor is ontwikkeld, als tegenhanger van de Journal Impact Factor).

Hiernaast geeft ook de vertegenwoordiging in social media (“attention data”) een goed beeld van het gebruik en van de impact. Deze laatste categorie data wordt meestal aangeduid met de term ‘altmetrics’. Het kan dan gaan om twitterberichten over artikelen, of over blogposts met verwijzingen naar publicaties. Het bedrijf altmetrics.com, dat wordt gefinancierd door de Macmillan Group, heeft zich tot doel gesteld om zo veel mogelijk van dit soort gegevens uit social media posts in te zamelen. Het doel van Altmeric.com is in eerste instantie om de data te verzamelen. Het bouwen van applicaties rond deze data laten zij aan andere partijen over. Interessant voor de UBL is dat Ex Libris één van de partijen is die gebruik maakt van de gegevens van altmetrics.com. Er bestaat al een code extension voor Primo waarmee het mogelijk wordt om altmetrics-gegevens weer te geven bij de zoekresultaten in Primo. Zo kan bij ieder artikel worden weergegeven hoe vaak er over die publicatie is getweet, hoeveel mensen die titel in hun Mendeley-bibliotheek hebben opgenomen, en hoe vaak het artikel in een blogpost is genoemd. Dit geeft uiteraard ook een heel goed beeld van de impact van het artikel.

Bollen eindigde zijn lezing bij OAI8 met een interessante gedachte. Aangezien wetenschappers zelf over het algemeen het beste weten welke collega’s het beste werk produceren is het misschien beter om al het onderzoeksgeld dat beschikbaar is in gelijke mate te verdelen over de gehele onderzoekspopulatie en om de gemeenschap vervolgens zelf te laten besluiten waar subsidies naar toe gaan. Dan zijn er ook geen metrics meer nodig …

Open Annotation Collaboration

Dit is een tweede post in de serie over dingen die mij opvielen tijdens OAI8. In deze post ga ik in op Open Annotation Collaboration (OAC). Over deze standaard heb ik tijdens OAI8 een presentatie en een workshop bijgewoond. Beide werden gegeven door Rob Sanderson van de Los Alamos National Library.

OAC is eigenlijk al een aantal jaren oud. Het werk begon rond 2010, en is min of meer onstaan in de periode waarin Herbert Van de Sompel als visiting researcher verbleef bij DANS en bij het Huyghens Instituut. Veel onderzoekers op het gebied van de digital humanities houden zich bezig met het annoteren van bronnen, zoals digitale edities van literaire teksten, of reproducties van kunstwerken. Vaak worden er daarbij specifieke systemen gebruikt en kunnen die annotaties niet gemakkelijk worden hergebruikt. Maar het annoteren van bronnen is uiteraard een breder fenomeen. In systemen zoals Flickr of FaceBook kunnen er uiteraard ook opmerkingen bij bronnen worden geschreven. Ook hier speelt het probleem dat deze opmerkingen vastzitten aan die specifieke omgevingen. Het doel van OAC is om een manier van annoteren te ontwikkelen die generiek is en die los van het systeem waarin deze bronnen worden beheerd.

Open Annotation is gebaseerd op een simpel data model, en maakt ook volledig gebruik van de architectuur van het web. In de visie van W3C bestaat het web uit entiteiten die worden geïdentificeerd door een URI. In het data model van Open Annotation bestaan alle componenten van de annotatie dus uit ‘Web Resources’ met een eigen URI. De basisgedachte is dat een annotatie bestaat uit twee onderdelen. De eerste bron is de annotatie zelf is (de ‘Body’). De tweede bron is datgene is dat wordt geannoteerd (de ‘Target’). Deze eerste twee bronnen worden bij elkaar gebracht door een derde Web Resource, namelijk de ‘Annotation’. Een ‘Target’ kan bijvoorbeeld een scan zijn van een schilderij, en een “Body” is dan een tekst waarin wordt toegelicht wat er op het schilderij te zien is. Een annotatie kan natuurlijk ook gaan over specifieke details van het schilderij. OAC voorziet ook in technieken waarmee specifieke onderdelen van bronnen kunnen worden geaddresseerd (zogenaamde ‘selectors’).

intro_model

Recentelijk zijn er nog een aantal termen aan het data model toegevoegd. Het is nu ook mogelijk om het doel van de annotatie op te geven (gaat het om wetenschappelijk onderzoek? Of is het een soort ‘Bookmark’ of geheugensteun?). Er zijn ook termen toegevoegd waarmee de “provenance” kan worden vastgelegd (de persoon die verantwoordelijk is voor de annotatie). Hiernaast is ook de term “SemanticTag” gedefinieerd, zodat er bij het annoteren ook termen uit bestaande ontologieën kunnen worden gebruikt.

Open Annotation is voor de UBL een heel interessante techniek. Terwijl de technologie rond nanopublicaties (die ook is gebaseerd op  Semantic Web technologie) toch voornamelijk toepassingen lijkt te hebben binnen de natuurwetenschappen, kunnen onderzoeksgroepen binnen de Geesteswetenschappen via OAC ook een stap zetten naar Linked Data en naar herbruikbare en gestructureerde onderzoeksannotaties. Een goed voorbeeld van humaniora-onderzoek waarin OAC momenteel al wordt toegepast is het Emblemata-project, waar onder meer ook onderzoekers van de Universiteit Utrecht aan deelnemen. Er zijn inmiddels ook al een aantal open source applicaties beschikbaar waarmee vrij gemakkelijk Open Annotations kunnen worden aangemaakt, namelijk SharedCanvas en in Pund.It. Voor bijvoorbeeld kunsthistorici die heel gedetailleerd bepaalde uitsnedes van kunstwerken willen beschrijven, of voor literatuurcritici die commentaar geven op specifieke tekstfragmenten, kunnen dit heel nuttige tools zijn.

Repositories gelijkzetten

In juni bezocht ik het Open Archives Initiative congres in Genève. Dit congres richt op innovatieve technologie op het gebied van wetenschappelijke communicatie, en wordt om de twee jaar georganiseerd. OAI vond dit jaar al weer voor de achtste keer plaats. In verschillende blogposts bespreek ik een aantal interessante nieuwe ontwikkelingen die ik daar heb gehoord.

resourcesync_logo

Voorafgaand aan OAI8 waren er een aantal workshops, en de workshop die ik zelf heb bijgewoond ging over het nieuwe protocol ResourceSync. Het initiatief voor de ontwikkeling van deze techniek is genomen door de mensen van OAI (onder meer Herbert Van de Sompel, Simeon Warner en Carl Lagoze). Zij waren eerder ook verantwoordelijk voor belangrijke standaarden en protocollen zoals OAI-PMH, OAI-ORE en Memento. Aan de ontwikkeling van ResourceSync hebben inmiddels ook partijen als NISO, OCLC, de Library of Congress, Cottage Labs, Ex Libris en JISC bijgedragen.

ResourceSync is, simpel gezegd, een protocol waarmee de inhoud van verschillende repositories kan worden gesynchroniseerd. De site ArXiv.org, waarop veel publicaties in open access worden gepubliceerd, heeft een aantal mirror sites opgericht, onder meer vanuit de LOCKSS-gedachte (“Lots of copies keep stuff safe”). Arxiv ondervindt momenteel veel problemen bij het kopiëren van die bestanden naar de andere servers. Ook vanuit Europeana is interesse getoond voor ResourceSync. Voor de Europeana-portal worden op dit moment alleen nog de metadata van de verschillende aangesloten instellingen geharvest. Europeana wil op termijn ook graag de digitale objecten zelf gaan harvesten. ResourceSync probeert in dit soort situaties een oplossing te bieden.

Zoals bij de meeste standaarden is ResourceSync gebaseerd op een data model. Dit model is in eigenlijk heel simpel. Op de eerste plaats is er een “Destination” server. Deze server wil graag documenten of gegevens overnemen van een “Source”. Er wordt onderscheid gemaakt tussen een “baseline synchronisation” en een “incremental synchronisation”. Het eerste geval is in feite het begin van het synchronisatieproces. Alle aangemerkte bestanden worden daarbij direct overgebracht van de “Source” naar de “Destination”. Na deze initiële synchronsatie ontstaat er een situatie waarin de ontvangende server goed op de hoogte moet blijven van toevoegingen of wijzigingen op de bron-server. Hierbij kan gebruik worden gemaakt van een pull-mechanisme, waarbij de Destination server een verzoek om informatie verstuurt, of van een push-mechanisme, waarbij de Source een bericht naar de Destination stuurt op het moment dat er nieuwe of gewijzigde bestanden zijn. Wanneer een server met ResourceSync wil werken moet deze server er voor zorgen dat er altijd een actuele siteMap is waarop een volledige inventaris te vinden is van de bronnen op de site, samen met de datum van de laatste wijziging.

ResourceSync is op dit moment nog in de ontwikkelfase. Het theoretische model is al heel goed uitgedacht, maar de onderliggende techniek is nog niet volledig uitgewerkt. Er zijn ook nog geen concrete implementaties van ResourceSync. Er is op dit moment nog onduidelijkheid over hoe bestanden concreet moeten worden overgeheveld. Bestanden kunnen individueel worden gedownload, maar door de “Source” server kunnen er eventueel ook zip-mappen met gewijzigde files worden klaargezet.

Wat tijdens de workshop wel duidelijk werd benadrukt is dat met ResourceSync een aantal van de huidige nadelen van OAI-PMH kunnen worden opgelost. OAI-PMH gaat op de eerste plaats alleen over metadata. Er zijn wel pogingen geweest om ook digitale objecten over te dragen via OAI-PMH, maar dat bleek technisch heel complex. Bij OAI-PMH moeten alle metadata worden opgenomen als onderdeel van de response, en zijn er beperkingen aan het aantal records dat per response kan worden verstuurd. Hierdoor onstaan er vaak vertragingen. Belangrijk is ook dat er bij OAI-PMH geen push-mechanisme bestaat. Instellingen die willen harvesten moeten dus periodiek polsen of er nieuwe of aangepaste metadata zijn. OAI-PMH is al meer dan tien jaar oud en de web-technologie is inmiddels natuurlijk verder geëvolueerd. Gezien de huidige problemen rond OAI-PMH is het niet ondenkbaar dat instellingen die nu harvesten via dit protocol (een voorbeeld hiervan is natuurlijk de KNAW, die ons repository harvesten voor de NARCIS-portal) op termijn zullen overstappen naar ResourceSync. Het is daarom zeker een ontwikkeling om goed in de gaten te houden!

De presentatie die tijdens OAI8 is gegeven door Herbert Van de Sompel, Robert Sanderson en Stuart Lewis is hier te bekijken.