DH Benelux 2015

Leiden nieuwe ICT-technieken echt tot nieuwe vragen en methoden binnen het Geesteswetenschappelijk onderzoek?  Op wat manieren kunnen bibliotheken en andere aanbieders van digitale informatie dit nieuwe type van onderzoek het beste ondersteunen? Op 8 en 9 juni hebben ca. 150 Geesteswetenschappers, bibliotheekmedewerkers en IT-specialisten zich gebogen over deze vragen tijdens het Digital Humanities Benelux congres, dat dit jaar werd georganiseerd aan de Universiteit van Antwerpen.

De opening keynote werd verzorgd door Will Noel van de universiteit van Pennsylvania. Hij ging in op een project waarin hij een palimpsest met, in de onderste laag, een aantal teksten van Archimedes via digitale en chemische technieken heeft onderzocht. Hij pleitte in zijn lezing vooral voor het vrijelijk delen van onderzoeksdata, onder het motto “If you have sexy data, make them promiscuous”. Peter Robinson betoogde grotendeels hetzelfde in zijn lezing over de verschillende digitale edities die hij heeft verzorgd: “Your interface is everyone else’s enemy” en het werk dat voor een kritische editie is verzet wordt pas echt herbruikbaar wanneer afbeeldingen en gecodeerde teksten openlijk worden gedeeld.

Jesper Verhoef en Melvin Wevers, beiden van het onderzoeksproject Translantis, gaven een presentatie over The Digital Humanities Cycle. De onderzoekscyclus bestaan uit activiteiten als zoeken, analyseren, het leren werken met een tool, het voorbereiden van data en het kritisch evalueren van resultaten. Zij benadrukten dat er over het algemeen niet één onderzoekstool bestaat die een onderzoeksvraag kan beantwoorden. Iedere tool heeft zijn beperkingen. Vaak moeten er verschillende tools worden gecombineerd, of moeten bestaande tools worden aangepast.

Inger Mees van de Vrije Universiteit presenteerde over haar onderzoek naar de herkenning van emoties in teksten. Op basis van een nieuwe semantic tagger zijn binnen een corpus van ca. 300 Nederlandstalige toneelstukken de verschillende emoties die worden uitgedrukt beschreven. Tijdens een sessie over Digitization and Exogenesis liet Ronan Crowley (Universiteit van Passau) zien dat grote tekstverzamelingen (Large Scale Digitisation Inititiatives of LSDIs) zoals het Google Books corpus van groot belang kunnen zijn bij onderzoek naar intertextualiteit, allusies en citaten. Antal van den Bosch, ten slotte, heeft onderzoek gedaan naar teksten waarin dromen worden beschreven (ontleend aan Dreambank). Van den Bosch wilde weten wat de karakteristieke kenmerken zijn van deze teksten. Het onderzoek begon met het toepassen van vele verschillende technieken  (“shoot with many guns”), waaronder n-gram analysis, topic modeling, text classification en discourse coherence measures. Uiteindelijk bleek Topic Modelling de meest relevante resultaten op te leveren. Ik heb zelf een presentatie gegeven over de visualisatietechnieken die ik heb toegepast tijdens mijn onderzoek naar poëzie.

In een aantal andere verslagen van congres werd aangegeven dat het congres vooral ging over de methodologie en veel minder over de nieuwe geesteswetenschappelijke inzichten die deze methoden kunnen opleveren. Tijdens het congres werden, zoals wel vaker het geval is, vooral de positieve aspecten van onderzoeksprojecten gepresenteerd. Voor bibliotheekmedewerkers die dit type van onderzoek willen ondersteunen was het daarom lastig om vast te stellen waar nog uitdagingen liggen, en waar daadwerkelijk behoefte aan bestaat. Wat wel duidelijk werd is dat er heel veel wordt geëxperimenteerd met verschillende onderzoekstools. Onderzoekers moeten vaak veel tijd investeren in het leren werken met deze nieuwe technieken. Meer gerichte informatie over de mogelijkheden en de beperkingen van specifieke tools ontbreekt heel vaak, en veel onderzoekers kunnen gebaat zijn bij een betere ondersteuning bij het gebruik van de beschikbare tools.

Het DH Benelux congres zal volgend jaar plaatsvinden op 9 en 10 juni, in Belval in Luxemburg.

Zoekt en gij zult vinden, heel veel vinden

 

gleaners

Mijn vakantie is net achter de rug. Het is nog rustig op de UB. Een goed moment om even achterover te zitten en met geloken ogen te mijmeren over ‘het vak’. Ik ben zelf nog van de generatie die later aan zijn kleinkinderen vertelt over de tijd dat opa nog artikelen opzocht in een grote kast die ‘kaartenbak’ werd genoemd. Toen ik in 1999 begon als bibliotheekautomatiseerder hadden we een OPC, een paar databases en een heus torentje met cd-roms. In sneltreinvaart nam het aantal e-journals en databases toe, we kregen Metalib om het zoeken in de brij aan bronnen enigszins overzichtelijk te maken en inmiddels hebben we alweer een paar jaar de beschikking over Primo, waarmee onze gebruikers via één vakje ons gehele aanbod kunnen doorzoeken. Het is nog niet perfect, maar het komt in de buurt, toch? Of niet helemaal?

Een greep uit een aantal artikelen over zoekgedrag van studenten:
‘Our observations verified the findings of others, such as the lack of understanding of constructing search queries and employing advanced searching techniques’ [1].
‘ We identified… the lack of an overall understanding of the interrelationship among the library catalog, databases, the discovery tool , and scholarly publications.’[2]
‘We found that students had limited attention spans when confronted with myriad results.’[3]
 ‘Even though many of the students had had a course-integrated library instruction session before participating in the study, it did not seem to increase their evaluative skills’[4] .
‘Students in this study seemed to have little conceptual understanding of how information is structured and how searches work in either Google or the federated search tool (and by extension, all search tools), yet they all ranked themselves highly in terms of their own research skills. [5]

Wie zelf verder zoekt zal genoeg voorbeelden vinden van onderzoeken waaruit blijkt dat studenten (maar echt niet alleen studenten) bij hun zoekacties nauwelijks gebruik maken van quotes, weinig Booleaanse operatoren gebruiken, alleen naar de eerste paar zoekresultaten kijken, kortom, waaruit blijkt dat de functionaliteit van onze prachtige zoeksystemen maar voor een klein deel wordt benut. Toen ik een aantal jaren geleden zelf een onderzoekje deed naar zoekgedrag, zei een student het onomwonden: ‘ik wil gewoon Google’. Inmiddels zijn we zo ver dat we iets bieden dat aardig in de buurt komt, maar daarmee hebben we ook een Google-achtige manier van vinden binnengehaald: door de grote massa aan gegevens vind je altijd wel wat, maar de kans op een (gedeeltelijke) mismatch is groot, mede door het slordig gebruik van zoektermen, het ontbreken van kritisch vermogen als het gaat om het beoordelen van de bronnen en de onwil om verder dan de eerste paar zoekresultaten te kijken, om maar eens wat te noemen. Slordig zoeken is niet zo’n ramp als je op zoek bent naar een camping in Bretagne, maar voor wie zoekt naar wetenschappelijke informatie is het niet verstandig om het eerstgevonden strootje in een hooiberg als speld te behandelen. En voor alle duidelijkheid: ik doe niet aan Google-bashing, want net als Primo biedt Google allerlei mogelijkheden om precieze zoekacties uit te voeren. Alleen wordt daar maar mondjesmaat gebruik van gemaakt.

5726834411_e95a13dbb5_o

En dan is de grote vraag natuurlijk: hoe zorgen we ervoor dat er betere resultaten worden gevonden? Instructie is natuurlijk belangrijk, en daar doen we ook veel aan, maar in de waan van de dag  zijn veel zoekers geneigd om vooral aan het eindresultaat te denken en niet aan de weg daarnaartoe[6]. Misschien moeten we sommige geavanceerde zoekfuncties (zoeken op titel etc.) meer prominent aanbieden. Of misschien kunnen we de zoekvraag koppelen aan achtergrondinformatie die we hebben van de student. Welke studie volgt hij? In welk jaar zit hij? Als hij zoekt op ‘Parma’ en we weten dat hij geschiedenis studeert, hoeven we een boek over de economie van de stad Parma niet prominent aan te bieden en werken over de hertog van Parma wél. Maar is dat niet te bevoogdend? Houden we hem zo niet dom? Of moeten we er op gokken dat de ontwikkeling van de semantisch technologie ons naar een zorgeloos zoekwalhalla zal brengen? En zo buitelen de vragen over elkaar.

Ik open mijn ogen en realiseer me dat ik nog een paar mailtjes moet beantwoorden. Als iedereen weer terug is van vakantie gaan we dat zoeken eens goed aanpakken. Toch?

 

 

[1] Heather A. Dalal, Amy K. Kimura, Melissa A. Hoffman, “Searching in the wild: Observing Information-Seeking Behavior in a Discovery Tool”, Association of College & Research Libraries Proceedings, (2015):  668
[2] Ibid., 669
[3] Beth S. Bloom, Marta Deyrup, “The truth is out: how students REALLY search”, Proceedings of the Charleston Library Conference, (2012): 204
[4]  Lea Currie, Frances Devlin, Judith Emde and Kathryn Graves, “Undergraduate search strategies and evaluation criteria”, New Library World, Volume 111, Number 3/4, (2010):  113
[5] Helen Georgas, “Google vs. the library (part II): student search patterns and behaviors when using Google and a Federated Search Tool”,  Libraries and the Academy, Volume 14, Number 4 (2014): 527
[6] Melissa Gross and Don Latham, “Undergraduate Perceptions of Information Literacy: Defining, Attaining, and Self –Assessing Skills”, College & Research Libraries, Volume70, Number 4(2009): 345

Digitale Bibliotheek voor de Nederlandse Cariben

Sinds de bibliotheekcollecties van het KIT en KITLV worden beheerd door de UBL beschikken we over een aanzienlijke hoeveelheid bronnen over onze voormalige koloniën. Door onze plannen met betrekking tot de Asian Library staat het Oost-Indische deel (de Indonesische collectie) volop in de belangstelling, maar dat het West-Indische deel ook zeker de moeite waard is, dat is bij minder mensen bekend.

Sinds 2014 beheert de UBL de grootste collectie op het gebied van de cultuur en geschiedenis van de (voormalige) Nederlandse Cariben. Het gaat voor de periode tot en met 1954 in totaal om ca. 3000 boeken, tijdschriften en artikelen, rond de 1000 kaarten en enkele belangrijke archiefcollecties. Dankzij een subsidie van OCW kunnen we op dit moment de gehele collectie digitaliseren, voor onszelf en voor de universiteit van Curaçao. De bibliotheek van deze jonge universiteit is namelijk gestart met de bouw van een digitale bibliotheek, die dé toegang moet gaan worden voor onderwijs en onderzoek in en over deze regio.  De Leidse collectie zal hierbinnen toegankelijk worden gemaakt als Dutch Caribbean Heritage Collections.

De digitale bibliotheek in wording heeft de naam Dutch Caribbean Digital Platform gekregen. Deze site wordt zelf weer onderdeel van het grotere DLoC – Digital Library of the Caribbean. Hierin heeft zich inmiddels al een groot aantal bibliotheken verenigd, waaronder die van de universiteiten van Florida, Suriname,  Haïti en de Bahamas.  Het DLoC consortium omvat niet alleen een gedeeld repositorium, maar er is ook een opleidings- en trainingsprogramma aan verbonden, er worden handleidingen en best practices gedeeld en instellingen kunnen een beroep doen op subsidies.

De materialen die nu worden gedigitaliseerd zijn in fysieke vorm vaak niet meer aanwezig, of slecht toegankelijk voor de lokale bevolking. Met de digitalisering van deze collectie wordt dan ook een belangrijke bijdrage geleverd aan de toegankelijkheid van deze bronnen. Hierdoor kunnen (nieuwe) vragen worden gesteld over uiteenlopende onderwerpen, zoals de geschiedenis van de voormalige koloniën, Nederlands Caribische literatuur en kunst, slavernij, of de ontwikkeling van het Nederlands. De collectie is van groot belang voor de ontwikkeling van het onderwijs, niet alleen op Curaçao, maar ook op de overige eilanden (Bonaire, Sint Eustatius, Saba, Aruba en Sint Maarten). Op basis van de teksten en afbeeldingen die beschikbaar komen, kunnen reguliere colleges worden gegeven, maar ook afstudeerscripties worden geschreven en MOOCS worden vervaardigd. En voor lagere en middelbare scholen kan eindelijk lesmateriaal worden vervaardigd waarin ook de lokale geschiedenis, geografie en biologie aan bod komen. In het DLoC repositorium zijn hiervan al een aantal interessante voorbeelden te vinden. Dankzij het corpus worden ook nieuwe, innovatieve vormen van onderzoek mogelijk. Zo kunnen de gedrukte teksten worden gebruikt voor textmining, en de kaarten voor GIS projecten.

Mooie plannen dus. Maar om dit allemaal mogelijk te maken moet eerst een aantal praktische zaken worden geregeld. Er zijn inmiddels drie batches gedigitaliseerd (meer dan 100.000 scans) en batch 4 en 5 liggen al bij digitaliseringsbedrijf Microformat in Lisse en worden momenteel verwerkt. Als alles goed gaat worden de laatste scans in januari 2016 uitgeleverd.

Een groot deel van het materiaal kan niet zonder meer beschikbaar worden gesteld aan het grote publiek. De UB van Curaçao gaat vanaf september 2015 dan ook een start maken met clearen van copyright. Totdat dit is geregeld zijn de materialen in het repositorium alleen als een zogenaamde snippet of fragment te bekijken, vergelijkbaar met Google Books. En fysieke bezoekers krijgen de mogelijkheid om scans te printen in de bibliotheek. Op die manier krijgen bewoners van de Nederlandse Antillen in elk geval beschikking over hun eigen culturele erfgoed.

Illustratie   kaartTitelpaginaWoordenboek