Symposium Rediscovered: new technologies on historical artefacts

Opgeknipt-kwadranten_brightness-plus10

Liber Pontificalis. UBL VLQ 60, fol. 20r. Images made with various filters of the White Light Portable Light Dome, developed by KU Leuven. 

The materiality of historical artefacts and the development of new digital technologies might seem to contradict, however, quite the opposite is true. Increasingly digital technology is deployed to deepen our knowledge of cultural heritage in the broadest sense. On November 16. 2018 Leiden University Libraries invited a variety of speakers to discuss the rediscovery of historical artefacts through new technology, by focusing not only on the technology itself but also on the implications for historical research and our understanding of our material heritage.

The symposium is part of the program Beyond content, with which the UBL focuses on the materiality of text and images through a series of activities like workshops, presentations and an exhibition. Specific attention is paid to the forms in which historical texts and images have been handed down, but also to the digital techniques that have recently been developed to better study them. For more information on the programme see the website Beyond content.

The speakers introduced us to a range of methods, tools and algorithms often borrowed from the beta sciences and applied within the humanities. That these do not always need to be high end and expensive, was shown by the first keynote speaker Kate Rudy (University of St Andrews/NIAS). In her presentation Four technologies to spy on the past, she talked about the projects she will start as part of her upcoming Leverhulme Fellowship. As a medieval art historian she is interested in the production and use of illuminated manuscripts.  In an earlier project she studied the use of texts and miniatures in a manuscript by measuring the grime with a densitometer. The calliper she will use to measure parchment thickness costs only 100 EUR, but serves perfectly find out whether leaves or quires were added to a manuscript.

Rudy also stressed the importance of handheld amateur photography. When libraries digitise a manuscript, they often focus on lavishly decorated and untouched manuscripts. But many researchers like her are particularly interested in the ugly, worn and broken ones. And cleaning a manuscript as part of a conservation project will lead to loss of information on the use of a manuscript as well. When researchers visit our library, they take many pictures from unstudied and non-digitised manuscripts or from surprising angles. These pictures are sometimes shared on Twitter, but most of the time they are only kept on standalone computers, unavailable to others. Although a lot of researchers do use free cloud storage like Google Photos and Flickr, this is not a reliable solution; the platforms can change the terms and conditions (Flickr recently limited the possibilities for free accounts), and sometimes simply shut down (just think of Picasa). This led to an interesting public discussion: do research institutions have a responsibility to store and share the results of DIY digitization? As a service it turned out to be very much desired by researchers.

Hannah Busch (Huygens ING) participated in the eCodicology project, in which several tools were developed to analyse large amounts of data taken from medieval manuscripts. In her presentation Machines and Manuscripts: New technologies for the exploration of medieval libraries she explained the use of algorithms for the automatic identification of lay-out elements, like columns, initials and miniatures. These data are added to the information taken from the descriptions in traditional catalogues. When combined they form a rich source for data visualisations of libraries as a whole. This makes it possible to gain better insight in book historical aspects like the relationship between format and size, or the percentage of manuscripts with decorations or miniatures.

In her new project at Huygens KNAW called Digital forensics for historical documents. Cracking cold cases with new technology the goal is to build a tool for script analysis in manuscripts based on convolutional neural networks. This technique is also used in image- and face technology.[1]

Meanwhile Hannah Busch offered a very useful summary of the needs of researchers as well. What she wants is to:

  • Perform your own ingest with IIIF
  • Run different types of analysis
  • Share data
  • Search/export/visualize
  • Allow other people to annotate and correct

A prerequisite for this is of course to have the data FAIR: findable, accessible, interoperable and reusable.

Francien Bossema (Centrum Wiskunde en Informatica/Rijksmuseum/UvA) demonstrated the FlexRay Lab, a method for 3D visualisation using XRays and CT.[2] The non-invasive method can be used for medical imaging and food industry, but also for art historical research.

IMG_8265

With the CT scanner it is possible to look inside objects in 3D during the scanning process. Together with the Rijksmuseum a workflow was developed that can be used both for both research during a conservation process and to reconstruct a production process. Bossema explained the method by reconstructing the production of a so-called Chinese puzzle ball. These decorative balls were made in the mid-18th ct from one single piece of ivory, consisting of several concentric spheres each of which rotates freely. Using the CT scanner it became clear that the spheres were made with a set of “L” shaped tools with progressively lengthening cutters. Only the outermost balls were carved elaborately.[3] Currently, they are working on an in-house scanner for the Rijksmuseum, to make the transition from 2D to 3D scanning possible by providing a standardised process for art historical research. As a result of these activities the Rijksmuseum is collecting large amounts of data. The museum is thus entering a new field and cooperation with institutions with more experience in this field, such as research institutes and libraries, is necessary.

The last years libraries and archives are increasingly confronted with growing collections of born digital scholarly archives. Peter Verhaar is working both for the Centre for Digital Scholarship of Leiden University Libraries and for the master’s programme in Book and Digital Media Studies. In his presentation Durable Access to Book Historical Data he discussed the challenges he was faced with in the acquisition of the digital archive of Professor Paul Hoftijzer. Hoftijzer, who is working on the Leiden book trade in the early modern period, has produced a rich collection of Word documents and Excel spreadsheets that he wanted to donate to the library. As a first step, Verhaar cleaned the unstructured data and transposed them to a database in systematic format. This essentially resulted in a new archive. The question for the audience was whether both of the archives should be kept. Cleaning up the “data grime” will in either case lead to a loss of information, in the same way as cleaning a physical manuscript does.

The pilot is also set up to raise awareness among researchers. The university library offers courses in data management to ensure that researchers know how to make their data FAIR. But we are now in the middle of a transition, researchers who are retiring the next couple of years never received these instructions, and in case no measures are taken, this will lead to loss of research data. Paul Hoftijzer, who was also attending the symposium, stressed the importance of keeping both a personal and a professional archive. In his opinion, only the combination of both can ensure a correct interpretation of the data.

Martijn Storms (Leiden University Libraries) introduced the audience to the crowdsourcing project Maps in the crowd that is running for more than 3 years now and has been very successful. With the help of enthusiastic volunteers almost 10.000 maps have been georeferenced, which means that users can find and use maps in an intuitive, geographic way, by browsing on a map.  The maps can also be used in geographical data systems, e.g. to facilitate landscape analysis. The project attracted a lot of press, providing a large audience of map enthusiasts the opportunity to connect with the library and the collections.

In the afternoon the audience was invited to participate in an introductory workshop to IIIF. IIIF IMG_8300You can try it out yourself here: https://digitalscholarship.nl/workshop/

Additionally, a pop-up exhibition was set up showing a selection of materials from the collection.

The final keynote by Giles Bergel (University of Oxford) focused on the physical and material aspects of the digital. He started his paper called Beyond fixity: the printing press in the age of digital reproduction by telling the story of the Doves press, responsible for the famous Doves font. After the two partners Thomas James Cobden-Sanderson and Emery Walker got into a severe dispute about the rights on the matrices in 1913, Cobden-Sanderson threw all of them into the Thames river. Since 2013 the Doves Type has been revived digitally by the designer Robert Green. He managed to recover 150 pieces of the original type from the Thames, which helped him to reproduce the font, including the imperfections of the original matrices. This story shows that “digital”, although increasingly experienced as something immaterial or even imaginary, has a materiality in itself as well. This sense of materiality is essential for book historical research, even when this is performed with a laptop and a package of software.

Giles Bergel is part of the Visual Geometry Group in Oxford, where tools are developed for visual analysis in of image and video content in a variety of academic disciplines like Humanities, History and Zoology. He is also Digital Humanities Ambassador in the Seebibyte project. One of the open source products developed is VISE, an application that can be used to make a large collection of images searchable by using image regions as query. VIA is an image annotation tool that can be used to define regions in an image and create textual descriptions of them. The Traherne digital collator finally makes it easy to compare copies of the same text in order to identify variants between them. Thanks to this tool, researchers no longer have to follow the so-called “Wimbledon-method” to compare prints, which means that headaches are fortunately something from the past.

The presentations can be found here:

 

[1] For an introduction see: https://adeshpande3.github.io/A-Beginner%27s-Guide-To-Understanding-Convolutional-Neural-Networks/ or read this article by Dominique Stutzmann in which the same technology is applied: https://journal.digitalmedievalist.org/articles/10.16995/dm.61/

[2] For more information on the project: https://www.cwi.nl/research/groups/computational-imaging

[3] https://www.cwi.nl/events/cwi-scientific-meetings-1/cwiscientific.pdf  With images and extensive description.

 

107. Bibliothekartag 2018

DBT2018_Final_WEB_Low
Een kort overzicht:
De Bibliothekartag is het grootste Duitse (en Duitstalige) congres voor bibliothecarissen. Het is ieder jaar een drukte van belang en met 4 dagen lang de hele dag door 20 (!) parallelsessies is het soms lastig te bepalen waar je aandacht naartoe moet. Ik bezocht de Bibliothekartag als I&P’er, maar nog meer als lid van het Innovatieteam.

Sommige thema’s werden net als in 2017 weer veel besproken. Denk bijvoorbeeld aan de ‘bibliotheek der dingen’, MakerSpaces (bijv. iLab, virtual reality, etc), en er ging zoals ieder jaar weer veel aandacht naar bibliotheekopleidingen. Meer focus dan vorig jaar lag er op Gamification binnen bibliotheken.

Een speciaal thema dit jaar was populisme en omgang met extreemrechts in de huidige bibliotheekwereld. Dit thema werd ondersteund door een aantal lezingen over de geschiedenis van nationaal-socialisme en roofkunst ten tijde van de Tweede Wereldoorlog specifiek met betrekking op bibliotheken. Ook was er tijdens de conferentie een tentoonstelling te vinden over “Berliner Bibliotheken im NS”.

Lees verder

Islandora Camp Limerick 2018

Ook dit jaar ben ik weer naar Islandora Camp geweest. Dit keer was het in Limerick in Ierland. Ik zou met Jan Jouke en Mick van DD beheer gaan, maar Mick kon wegens ziekte helaas niet mee. Aangezien dit al mijn derde Islandora Camp was (na Delft en Madrid) en we inmiddels veel ervaring hebben met Islandora, was niet alles even interessant meer, maar het was wel goed om andere Islandora gebruikers te ontmoeten en te kunnen spreken.

Islandora Camp duurt 3 dagen en is altijd hetzelfde opgedeeld: de eerste dag gaat het om kennismaken met Islandora en met elkaar. De tweede dag wordt de diepte ingedoken met code (dev track) of beheer (admin track) en worden allerlei vragen beantwoord. De derde en laatste dag worden er presentaties gehouden door gebruikers van Islandora en wordt het camp afgesloten met zowel een prijsuitreiking als een “unconference”. Hieronder een verslag van het hele camp.

Jan Jouke en ik waren dinsdag al aangekomen en woensdag was de eerste dag van het Camp. Het werd gehouden in de Tierney building op de campus van de Universiteit van Limerick (“Ollscoil Luimnigh” in Iers). Na een korte opening en introductie kon iedereen zichzelf voorstellen. Aangezien er 22 mensen waren, was dit goed te doen. Hierna werd de architectuur van Islandora uitgelegd, inclusief hamburger. Je kan daar meer over lezen in mijn blog van vorig jaar.

De nieuwste versie van Islandora (versie 7.x-1.11) heeft de mogelijkheid om een andere Image Server te gebruiken, namelijk Cantaloupe. Dat is interessant omdat Cantaloupe de IIIF image API ondersteund. Voor wie niet bekend is met IIIF, ik heb er eerder over geschreven hier en hier. Dit betekent niet dat Islandora nu IIIF compliant is, maar het is wel een stap in de juiste richting.

Verder werd er veel gesproken over de CLAW, dit is een geheel nieuwe versie van Islandora die in ontwikkeling is. De onderliggende componenten van de huidige Islandora (zoals Fedora Commons, Drupal en SOLR) zijn inmiddels allemaal geüpgraded en zijn zodanig veranderd dat de huidige architectuur van Islandora niet meer geschikt is. Dit was de reden om aan een hele nieuwe versie van de Islandora architectuur te gaan bouwen, die dus bekend staat onder de naam CLAW (een recursief acroniem wat staat voor CLAW Linked Asset WebFramework). De architectuur can de CLAW heeft een hele andere opzet dan de huidige versie van Islandora. Nu is het zo dat Islandora tussen Fedora en Drupal staat en de communicatie tussen deze twee regelt. Fedora wordt gebruik voor de opslag van alle data en Drupal wordt gebruikt voor het afbeelden van deze data, maar binnen Drupal is eigenlijk niks bekend over een Islandora object. Dit heeft als nadeel dat veel Drupal modules (uitbreidingen op Drupal functionaliteit, waarvan er duizenden bestaan) gebruik maken van de data die in Drupal zit en dus niet gebruikmaken van Islandora data. Hier zijn vaak wel oplossingen voor te vinden, maar dat houdt in dat er een extra module geschreven moet worden om deze Drupal functionaliteit ook binnen Islandora mogelijk te maken.
Binnen de CLAW worden de objecten behandeld als Drupal objecten. De archiefkopieën worden nog steeds opgeslagen in Fedora, maar het object met de afgeleiden bestaat in zijn geheel in Drupal. Dit heeft als voordeel dat alle Drupal modules direct te gebruiken zijn, aangezien deze kunnen omgaan met Drupal objecten. Dit belooft dus een hechtere band met de grote Drupal community, waardoor het makkelijker wordt om functionaliteit aan de voorkant van het systeem toe te voegen.
Verder is de CLAW veel modulairder opgezet en is de koppeling tussen de verschillende onderdelen veel losser. Dit heeft als voordeel dat een onderdeel wat een bepaalde functionaliteit biedt, makkelijker uitgewisseld kan worden door een ander onderdeel wat dezelfde functionaliteit biedt.
De Drupal objecten kunnen relaties met elkaar hebben, bijvoorbeeld dat een object onderdeel uitmaakt van een ander object (boek-pagina of compound-child relatie) of een object wat op een andere manier aan een ander object gerelateerd is. Elk Drupal object heeft daarnaast tags, waarmee het op meerdere manieren geclassificeerd kan worden.
Alle acties die op een Drupal object uitgevoerd (kunnen) worden, worden bepaald aan de hand van de tags van het Drupal object. Acties zijn dus veel minder gebonden aan het content model van het object. Bijvoorbeeld bij het inladen van een object wordt aan de hand van de tags bepaald welke afgeleiden gemaakt gaan worden. Ook wordt aan de hand van de tags bepaald hoe het object afgebeeld gaat worden. Dit heeft als voordeel dat het geheel veel flexibeler wordt. Acties zijn zelf te definiëren binnen Drupal en te koppelen aan tags.

Aan de CLAW wordt op dit moment nog hard gewerkt en getest. Momenteel is het alleen mogelijk om plaatjes op te nemen; boeken, video, audio, compounds, tijdschriften zijn allemaal niet mogelijk. Er is een aantal kleine sites die op de CLAW draaien, maar dat is nog erg in de testfase. Er werd wel gevraagd of meer instituten interesse hadden om mee te testen en een collectie in de CLAW te zetten. Op dit moment hebben wij er geen tijd voor, maar mogelijk is dit iets voor de toekomst.

Dag 2 werd de diepte ingedoken. Na enige discussie werd besloten dat de ochtend werd gebruikt voor de huidige versie van Islandora en de middag voor de CLAW. In de ochtend ging het vooral over performance; hoe zorg je ervoor dat Islandora snel blijft aanvoelen. Verschillende performance improvements kwamen voorbij, waarvan wij er heel wat al hebben geïmplementeerd. Andere mogelijkheden zijn interessant om uit te zoeken, want wellicht is daar nog wat snelheid te halen. Helaas kost dit uitzoeken natuurlijk ook tijd (en geld), dus dat is iets voor de toekomst.
In de middag hebben we meer gehoord en gezien van de CLAW. Een groot deel van de tijd zijn we ook bezig geweest om de CLAW te installeren op onze eigen laptop, door gebruik te maken van ansible en vagrant. Hieruit bleek dat hoewel CLAW al best goed werkt, het nog bij lange na niet geschikt is als productie systeem.

De derde dag begon met de camp awards. Er worden elk jaar prijzen uitgereikt in diverse categorieën en dit jaar won Jan Jouke de “camp spirit” award.
Hierna werden diverse presentaties gehouden door gebruikers van Islandora:
Cillian Joy van NUI Galway vertelde over hun Maker Space, een ruimte met 3D printers, Raspberry pi’s, animatie software en Arduino boards. Hij vertelde ook een project over het vertellen van een verhaal met behulp van boeken. Hiervoor werd zowel Islandora, Omeka als Neatline gebruikt. Zie O’Shaughnessy Memoirs.
Ik had zelf ook een presentatie over onze module “conditional access rights”. Hiermee kan op basis van condities de toegangsrechten van objecten geregeld worden. Condities kunnen bijvoorbeeld gedefinieerd worden door bepaalde inhoud van metadata velden, locatie van de gebruiker of wel of niet ingelogd zijn. Aan de condities kan een actie gekoppeld worden, zoals toegang tot een object en/of de datastreams van het object, kunnen downloaden van deze datastreams en het zichtbaar maken van bepaalde copyright data. Ook vertelde ik iets over onze module om data te exporteren uit Islandora en over onze module om data in Islandora achteraf in batch te kunnen wijzigen.

De derde dag eindigde met de unconference, waarbij iedereen vragen kon stellen in een relaxte setting. Jan Jouke en ik hadden nog wel wat vragen en al snel waren 2 van de 3 instructeurs die het camp leidden, voor ons bezig met aanpassingen aan Islandora en het opstellen van change requests.

Zoals elk jaar heb ik weer een hoop nieuwe zaken gehoord, nieuwe ideeën gekregen, nog meer vragen die beantwoord moeten worden en vooral een berg zaken waar ik toch echt een keer nog naar moet kijken.

Verslag Open Repositories Conference Bozeman, Montana, juni 2018

De Open Repositories (OR) Conferentie wordt elk jaar in juni gehouden, telkens in een andere stad in de wereld. Als je op de hoogte wilt blijven van wat er zoal gebeurt in de wereld van de open source repository systemen, dan is dit wel the place to be. Er zijn vertegenwoordigers aanwezig van alle grote open source systemen, zoals DuraSpace (voor DSpace), Samvera (voor Hyrax – voorheen Hydra genoemd), Islandora, ePrints, Fedora, Dataverse en Invenio. Er wordt altijd voor een uitgebreid programma gezorgd, met niet alleen lezingen, maar ook workshops, presentaties in Pecha Kucha stijl, een ideas challenge en poster presentaties.

Hierdoor trekt de conferentie een gemêleerd publiek bestaande uit ontwikkelaars, project managers en data librarians afkomstig van alle continenten. Ook wordt er altijd voor een uitgebreid sociaal programma gezorgd, waardoor je met veel collega’s in contact komt. Ook dit jaar ben ik dan ook weer met veel inspiratie en een zee aan ideeën teruggekeerd.

42160559874_6eed954711_zDe locatie dit jaar was Bozeman, Montana in de VS, een staat die bekend is door Yellowstone Park, grizzly beren en vliegvissen. Bozeman zelf is een idyllisch groen universiteitsstadje met prachtige houten huizen, dat wordt omringd  door sappige groene velden en wit-besneeuwde bergtoppen. Iedereen lijkt er bovendien een pickup, een pet en een hond te hebben. Terwijl op de deur van de UB duidelijk stond aangegeven dat dieren niet welkom waren, trof ik ze regelmatig aan op de campus:

En hoewel de meeste Amerikaanse steden per voorkeur met de auto dienen te worden doorkruist, leent deze stad zich juist voor wandelen en fietsen. Op de campus van Montana State University trof ik zelfs deze fietsreparatie-paal aan. 

De studenten bleken er zelf om te hebben gevraagd en de plaatsing zelfs mede-gefinancierd te hebben. Wat een geweldige service, je vraagt je af waarom wij dit niet al lang hebben!

Montana is niet naast de deur en mogelijk maakte dit dat er maar weinig Nederlanders of Nederlands-sprekenden aanwezig waren. Naast mij waren alleen twee UBA collega’s en twee medewerkers van Atmire aanwezig, service provider van DSpace en de hoofdsponsor van de conferentie. Thema was “Sustaining Open”. Zoals ze zelf verklaren op hun website: “Submissions this year should focus on the how, why, and what it will take to make open sustainable.”

42160558704_9217227b77_z

De ‘binnenstad’ van Bozeman

De eerste dag van OR staat traditioneel in het teken van de workshops. Ik had me ingeschreven voor een sessie rondom Polaris OS, een nieuw systeem waar ik nog niet eerder van had gehoord. De Franse makers presenteren het als een Next Generation Open Repository, aansluitend bij de aanbevelingen van COAR (waar ik vorig jaar ook al wat over geschreven heb). Het is volgens hen data-georiënteerd, eenvoudig te installeren en interoperabel. Het valt al snel op dat er veel tijd en aandacht is besteed aan het meertalig maken van een repository (heel praktisch voor Franstaligen natuurlijk). Ook technisch ziet het er veelbelovend uit: er is een deposit module met embargo mogelijkheden en uitgebreid rechtenbeheer. Wel blijkt uit de uitgebreide demonstratie dat het systeem toch ingewikkelder in elkaar zit dan ik dacht. Het doet me denken aan Drupal, het CMS van Islandora waar zoveel opties in ‘verstopt’ zitten dat je door de bomen het bos niet meer ziet. Het is de vraag of je dit zomaar zonder uitgebreidere training kunt gaan gebruiken in je instelling. Bovendien staat Polaris nog in de kinderschoenen. Zo is het onduidelijk of er al wel echte gebruikers zijn en ooit de start-up fase voorbij zal komen. Is er bovendien nog wel ruimte voor nog een nieuw repository (zie ook de lijst bovenaan)? In elk geval betreft het een open source systeem om de komende jaren in de gaten te houden.

De opening keynote werd dit jaar verzorgd door Casey Fiesler. Haar presentatie met als titel “Growing Their Own: Building an Archive and a Community for Fanfiction” focuste op de rol van de gemeenschap in digitale duurzaamheid. De website Archiveofourown.org (AO3) is opgezet ter vervanging van Live Journal en FanLib, twee grote platformen voor fanfiction schrijvers. Om verschillende redenen voelden gebruikers zich hier niet meer welkom. Ze hadden behoefte aan een “Space of their own, met als resultaat AO3; met 1,5 miljoen gebruikers en 0,5 miljoen werken een substantiële community. AO3 heeft vooral een archief-functie, dus alle social media activiteiten vinden plaats buiten het archief, zoals in Tumblr. Bijzonder is dat de site bijna geheel bedacht, gebouwd en beheerd wordt door vrouwen. Fiesler onderzocht deze community en stelde vast dat AO3 voor een groot deel user-driven is:

42160558254_5f2f0b7c16_z

Iconen in AO3

  • Er is geen betaalde directeur, board of andere vorm van commerciële organisatie: alles wordt gedaan door en voor vrijwilligers. Samen beschermen ze de fanworks tegen commerciële exploitatie.
  • Een groep van vrijwilligers zorgt voor standaardisering van tags, zodat deze kunnen worden opgenomen in een folksonomy.
  • Gebruikers helpen elkaar ook om technische skills te ontwikkelen waarmee ze de site kunnen onderhouden “so they can contribute to the thing they love”
  • Ze hebben onder meer zelf bedacht dat er een content policy moest komen, met als gevolg een simpel systeem van icoontjes die onder meer aangeven of je een tekst mag gebruiken, aanpassen, vertalen, remixen; en waarmee tevens eventuele waarschuwingen worden aangegeven (taalgebruik, sex, geweld).
  • Er wordt daarbij rekening gehouden met specifieke wensen: gebruikers wilden onder meer bijdragen die ze in het verleden hadden gepost weg kunnen halen. Omdat dit vanuit preservation oogpunt onwenselijk is, hebben ze bedacht dat je het kunt ‘verwezen’: de tekst wordt wel bewaard, maar niet meer in relatie tot jouw persoon.
  • Onderzoek naar fandom wordt gestimuleerd door middel van een peer reviewed wetenschappelijk tijdschrift.

Belangrijkste advies van Fiesler: ook andere communities, zoals die van de open source repository systemen zouden zich op deze manier kunnen organiseren, om zo hun voortbestaan te garanderen.

De rol van de gemeenschap in het toekomstbestendig maken van een repository zou gedurende de week verschillende keren voorbij komen, er was onder meer een volledige sessie aan gewijd. Dit speelt vooral bij nationale, regionale en thematische repositories, waar meerdere instellingen aan bijdragen. Allen stelden vast dat het lastig is om financiering te krijgen voor het onderhoud, dit is nu eenmaal geen sexy onderwerp. De presentaties lieten zien dat er op verschillende manieren werd gezocht naar een duurzaam business model. Sommige repositories zoals het Digital Repository of Ireland zijn overgegaan op het bieden van extra diensten voor betalende leden. Anderen zoeken het vooral in de inrichting van de organisatie: door activiteiten te decentraliseren (“many people doing little jobs”), zoveel mogelijk taken te automatiseren, vrijwilligers te motiveren etc. En misschien het allerbelangrijkste: onder het mom ‘niemand is onmisbaar’ ervoor te zorgen dat er niet één persoon eindverantwoordelijk is, maar te vertrouwen op het zelforganiserende vermogen van de gemeenschap.

Opvallend was dat maar weinigen een commerciële partner in de arm hadden genomen, “van de community, voor de community”, was steeds het uitgangspunt en advertenties hebben een negatief effect op de gebruikerservaring, met name op de betrouwbaarheid van een repository.

Bij Cornell university bleek in de loop der jaren een lappendeken aan repositories te zijn ontstaan. Een werkgroep heeft voor repository managers, administratie en marketing het Cornell University Library Repository Principles and Strategies Handbook opgesteld.  Het beschrijft vooral wat er allemaal komt kijken bij het beheer van een repository, en wordt gebruikt wanneer onderzoekers zich melden met de vraag om een nieuw repository. Door hierover een beter bewustzijn te kweken hoopt men dat onderzoekers eerst kijken naar mogelijkheden om gebruik te maken van bestaande infrastructuren, en niet weer een nieuwe gaan bouwen. Het handboek is voor een veel grotere groep interessant. Het geeft bijvoorbeeld ook instructies voor een file directory in een dataset, filenaam conventies, software beschrijvingen en copyrights.

De Islandora Foundation heeft verschillende kanalen opgezet om de toekomst van het repository te garanderen. Dit alles onder vanuit de idee “The sustainability of software is rooted in the sustainability of a community.  Zo hebben ze een betaald lidmaatschap opgezet (wij zijn als UBL sinds dit jaar collaborator) die deelname mogelijk maakt in de Coordinating Committee en Technical Advisory Group, er zijn zelf-regulerende interest groups rondom specifieke onderwerpen en Google discussiegroep voor vragen en kennisuitwisseling. Ook wordt er enkele keren per jaar een Islandora Camp georganiseerd: het eerstvolgende is van 20-22 juni in Limerick en een delegatie van UBL zal hier heen gaan om kennis uit te wisselen.

42160559244_f9b7623a64_zTijdens de Repositories Rodeo presenteren vertegenwoordigers van alle groter open resource systemen kort de laatste ontwikkelingen, waarna er gelegenheid is tot vragen. Dit zorgde ook dit jaar weer voor een levendige discussie. Je kon hierbij goed merken dat veel platforms van project of start-up fase naar volwassenheid zijn gegroeid. Ze zijn beter georganiseerd als organisatie, en werken op verschillende manieren samen, onder meer in de overgang naar Linked Data en RDF. Ook hebben ze samen meegeschreven aan de Guidelines voor Next Generation Repositiories die in november 2017 zijn verschenen. De vraag naar waar we over 5 jaar staan leverde een aardige samenvatting op van de conferentie:

  • “Moving forward together”: de noodzaak van samenwerking  om de toekomst te garanderen. Samvera en Islandora maken al beide gebruik van het opslagsysteem Fedora. Maar zouden de beheerders niet op veel meer vlakken samen kunnen werken?
  • Over 5 jaar heeft iedereen die hier behoefte aan heeft een repository: wat voor consequenties heeft dit voor groeimogelijkheden en ontwikkeling, zowel in de breedte als de diepte?
  • Hoe bedien je de vele gebruikers met variëteit aan wensen? Ga je voor specialisatie, of groei in de breedte. De aanwezige vertegenwoordigers waren van mening dat ze alleen door zichzelf te concentreren op kerntaken het systeem beheersbaar konden houden.

Ook vanuit ons perspectief is dit laatste punt een actueel thema, want het heeft directe consequenties voor de inrichting van je infrastructuur.  Kies je er met het oog op beheersbaarheid voor het aantal systemen zoveel mogelijk te beperken? Of kies je juist voor flexibiliteit, en zijn het de koppelingen die voor beheersbaarheid zorgen? Met andere woorden: gaan we proberen om alle wensen van onze eigen gebruikers in Alma& Islandora te verwezenlijken, of gaan we gebruik maken van verschillende, verbonden systemen?

Hoewel ik geen technische achtergrond heb, bezocht ik toch enkele sessies in de zogenaamde Developers Track. Het is interessant om te zien welke tools er zoal worden ontwikkeld, sommigen kunnen namelijk met kleine aanpassingen namelijk door ons worden hergebruikt. Terence Brady van Georgetown University Library presenteerde allereerst DSpace REST Reporting Tools die hij heeft ontwikkeld voor Dspace 5 of 6. Hiermee kun je o.a. de consistentie controleren en update files maken om metadata te repareren. Denk aan records met ontbrekende metadata, of 0 bitstreams. Volgens eigen zeggen werkt dit beter dan de search box in DSpace, of een open source tool als Open Refine.

Diego Pino, een van de ontwikkelaars die het actiefste bijdraagt aan de Islandora code, presenteerde een tool waarmee de ingest in Islandora kan worden vereenvoudigd.  De Islandora Multi Importer (IMI), maakt gebruik van spreadsheets als input formaat gebruikt, waardoor iedereen ermee zou kunnen werken.
Links:

Hoewel publicatie repositories de overhand hebben op de OR conferentie, was er ook veel aandacht voor digitaal erfgoed. De UBs van Georgetown en Edinburgh voelden vorig jaar (net als wij) de behoefte om een start te maken met IIIF. Zij besloten om te beginnen met kleine aantrekkelijke collecties en zo ervaring op te doen. Interessante case study van Georgetown betrof een gedigitaliseerd archief uit de rechtenbibliotheek. In dit geval ontbraken de metadata op item niveau (die zitten namelijk alleen in de collectiebeschrijving). Door een inhoudsopgave in de viewer op te nemen hoefden ze niet met terugwerkende kracht metadata aan de items toe te voegen. Georgetown heeft een tutorial gemaakt voor het genereren van de manifesten.

Edinburg is nog een stap verder gegaan. Aansluitend op de digitalisering van de Scottish Session Papers hebben ze de catalogisering geautomatiseerd uitgevoerd op basis van de titelbladen. Zij hebben bovendien Alma en genereren de manifesten op basis van hun catalogiseersysteem. Hierna willen ze IIIF gebruiken voor de presentatie van de Mahabharata scroll, een laat 18de eeuwse rol van 75 meter lang, die in digitale vorm niet geschikt is voor traditionele viewers.

Dit riep in Edinburg wel de vraag op waar en hoe de manifesten beheerd moeten worden. Zijn dit ook objecten in het repository? En zo ja, wat voor identifiers krijgen ze dan? De UB van Toronto (Scarborough) kreeg eveneens met deze vraag te maken toen ze een manier zochten om annotaties te kunnen maken in Islandora. Omdat de standaard workflow van Islandora hiervoor niet voldeed hebben ze hiervoor een ‘web annotation utility module’ ontwikkeld, ook wel Annotorious genoemd. Hieraan zit een uitgebreid rechtensysteem gekoppeld, waarmee onder meer annotaties kunnen worden goedgekeurd. De annotaties worden als nieuwe objecten in het repository opgeslagen, met een eigen content model en metadata. Een dergelijke keuze betekent natuurlijk wel dat je erfgoed repository zich ontwikkelt tot data repository.

Ook interessant was de presentatie van Shanti Thompson over het Reuse project. Doel is het maken van een toolkit voor het meten van hergebruik van erfgoed data (d.w.z. al het gebruik buiten het kijken en downloaden in het repository om). Dit is ingewikkeld, omdat de metadata die bij een object horen tijdens hergebruik in bijvoorbeeld social media, vaak verdwijnen. Doordat erfgoedinstellingen niet weten hoe ze het hergebruik kunnen meten, of het personeel om dit te doen niet voorhanden is, zijn er maar weinig instellingen die dit doen. Een van de conclusies is dat vooral academische bibliotheken denken dat hun data alleen door academici worden gebruikt, in een wetenschappelijke context, maar dit blijkt een misvatting. Het indirecte gebruik is veel gevarieerder en door een groter publiek dan gedacht.

Er waren meer presentaties die het gebruik van het repository als onderwerp hadden. Zo onderzocht UNT Texas (een repository voor meerdere wetenschappelijke en erfgoedinstellingen in de regio) hoe gebruikers precies navigeren in hun repository. Dat bleek veel gevarieerder dan gedacht: wat wij als collectie beschouwen, hoeft niet altijd zo door gebruikers ervaren te worden. Zoeken en browsen wordt door elkaar gebruikt, over collecties en materiaal types heen. Interessant daarbij was dat tegelijk in het publicatie repository, naar scripties en naar erfgoed wordt gezocht. Gebruikers zijn blijkbaar in eerste instantie geïnteresseerd in een specifiek onderwerp. Wij hebben inmiddels al besloten om hiervoor twee verschillende “voorkanten” in te richten, maar misschien is toch nog iets om te heroverwegen?  Zo zag ik dat verschillende andere repositories, zoals dat van Texas en  Georgetown, eveneens een gezamenlijke ingang voor zowel erfgoed en publicaties heeft gebouwd. Tegelijk was de belangrijkste conclusie van het onderzoek van de Texanen : “Many people interact with our repository not through the front door (but through Google)”, dus je moet er vooral voor zorgen dat je hier vindbaar bent.

De stelling van Andrea Schuler, digital librarian van Tuffs university is dat je niet vroeg genoeg kunt beginnen met studenten te betrekken bij je repository. Zo creëer je bewustzijn voor open access, copyright, hergebruik en licenties in concrete alledaagse situaties. De meeste universiteiten nemen alleen scripties op, en zijn huiverig om de resultaten van bijvoorbeeld onderzoekscolleges als dataset op te nemen. Dit betekent niet dat alles de moeite van het bewaren waard is. Er is een workflow om de relevantie en kwaliteit van de data te garanderen. 42160559354_902742ca4a_zSchuler gaat zelf actief op zoek naar datasets die ze wil bewaren, zoals de resultaten van de Digital Design Studio, een ruimte voor digitale innovaties en projecten. Maar je kunt ook denken aan digitale tentoonstellingen van studenten kunstgeschiedenis. Ook blijft ze op de hoogte via de tips van vakreferenten.

In diverse sessies kwam het gebruik van Linked Open Data binnen het repository aan de orde. Nieuwe generatie systemen zoals Samvera ondersteunen dit standaard. Islandora biedt dit aan in de vorm van Claw, de opvolger van de huidige installatie. Een mooi voorbeeld hiervan is de site die is ingericht voor het onderzoek naar zogenaamde Dragomans (1550-1750), vertalers, tolken en gidsen die in dienst waren van het Ottomaanse Rijk. De projectsite ziet er prachtig uit, je kunt vrijuit linken tussen personen, documenten, vertalingen en transcripties. Wel blijken de sites die zijn gebaseerd op Claw ook nog grotendeels “boutique sites” te zijn. Ik voorzie nog niet dat wij op korte termijn al onze data naar Claw moeten gaan overzetten (gelukkig, want we hebben de huidige migratie nog niet eens af….).

Mijn sessie had als onderwerp digital preservation (ik zat dit keer eens niet in een erfgoed-blokje). Hierdoor was de samenstelling gemengd, wat zowel voor- als nadelen heeft. Ook dit keer heeft iemand keurig notities gemaakt en in Drive opgenomen. De eerste presentatie was vooral technisch van aard en beschreef een tool voor het stroomlijnen van OAIS protocollen. Evviva Weinraub leidt momenteel een onderzoek naar de integratie tussen lokale repositories en gedistribueerde diensten (denk aan de content in ons eigen repository versus Delpher). Vragen die aan bod kwamen waren: hoe worden objecten geselecteerd voor opname in een van beide systemen, wat wordt waar op genomen (of gedupliceerd), hoe gaat men om met versiebeheer en interoperabiliteit? In de meeste gevallen worden meerdere kopieën bewaard, maar los van elkaar. Hiervoor blijken bovendien allerlei systemen te worden gebruikt.

42160543104_54f21f4620_z

In Amerikaanse UBs worden nog opvallend veel Homegrown systems gebruikt.

Een volledig rapport vind je hier:

 https://arch.library.northwestern.edu/downloads/zk51vg841?locale=en

Mijn eigen presentatie ging over het duurzame beheer van een groeiend repository: hoe zorg je ervoor dat overstap naar grootschaliger en professioneel beheer soepel kan worden verlopen welke rol kan certificering hierbinnen spelen? Voor degenen die aanwezig waren bij de eindpresentatie van de stage van Federica Pugnali geen nieuw onderwerp, want tijdens deze gelegenheid hebben we hier ook al uitgebreid over gesproken.

De afsluitende Keynote was van Asaf Bartov, die zich zelf als open access activist profileert. Hij werkt voor de Wikimedia Foundation en hoewel hij dus geen bibliothecaris is, heeft hij tijdens de hele conferentie laten zien erg betrokken te zijn bij het onderwerp. Zo heeft hij op dag 1 een workshop gegeven over Wikipedia en was hij de gehele week aanwezig om te luisteren, discussiëren en ideeën op te doen. Tijdens zijn afsluitende keynote waande ik me even in Cuba: hij praatte met gemak 2 uur vol, en was zonder veel problemen ook de rest van de middag doorgegaan, maar dit liet ook wel wat zien over zijn betrokkenheid. Voor wie geïnteresseerd is, zijn gehele presentatie is hier te bekijken, of lees een samenvatting op papier. Zijn belangrijkste boodschap:

  • De open movement is mainstream geworden
  • De open movement en erfgoedinstellingen zijn natuurlijke partners. Zo doneren wij samen veel data aan Wikimedia, die ons vervolgens helpt om deze te verrijken en standaardiseren, bijvoorbeeld via Wikidata.

In veel instellingen zijn er al Wikipedians in residence en er wordt veel gebruik gemaakt van de kracht van crowdsourcing . Zo zijn met behulp van medisch specialisten de pathologie afbeeldingen van Calicut Medical college in India van metadata voorzien. Zoiets zouden wij natuurlijk ook kunnen doen met onze anatomische tekeningen.

42160558194_627c4555e3_z

Hebben bibliothecarissen meer problemen dan oplossingen? De Ideas Challenge leverde 100 user stories met problemen op, en maar 6 groepjes met een oplossing.

Elk jaar wordt er op OR ook een Ideas Challenge gehouden. Ik had nog niet eerder meegedaan, maar het leek me dit keer een mooie gelegenheid om met collega’s in contact te komen. Iedereen mag een probleem voorleggen in de vorm van een user story. In mijn geval heb ik beschreven dat de onderwerpstrefwoorden in ons repository vaak de lading niet dekken: onder meer doordat KIT KITLV en UBL een hele andere beschrijvingstraditie hebben, zijn vooral de foto’s van heel verschillende metadata voorzien. Dit zorgt voor een vertekend beeld bij gebruikers. Door op bv paard te zoeken denk je alle foto’s met een paard er op afgebeeld in je trefferslijst te krijgen, maar dat kan ook zomaar slechts een derde zijn, omdat KIT en KITLV dit trefwoord nooit hebben toegekend. Vervolgens mocht je met een zelf gekozen groepje een van de problemen kiezen en samen uitwerken tot een mogelijke oplossing. Aansluitend op de laatste keynote presenteerde elke groep de resultaten, en er waren natuurlijk coole (very nerdy) prijzen.

42160558134_78345432ea_z

Mijn groep was heel divers, met een Amerikaan, een Amerikaanse Indiër, een Australiër en ikzelf, een mix van ontwikkelaars en (data-) managers. Wij hadden als taak om GDPR – zoals de rest van de wereld de nieuwe privacy wetgeving noemt – aan de man te brengen, zodat data-managers begrijpen wat er van hen wordt verwacht wanneer ze een dataset opnemen.

Hoewel we met onze presentatie niet wonnen (volgende keer meer inzet op de fun-factor!) had ik heel veel plezier gehad en drie nieuwe vrienden gemaakt. Bovendien voelde ik me alsnog een winnaar. Want van de 100 ingezonden vragen werd die van mij gekozen door de winnende groep (zie voor de presentatie met live demo hier). Zij stellen voor om IIIF en beeldherkenning hiervoor in te zetten. Op basis van de trefwoorden die wel zijn toegekend kun je door middel van software laten zoeken naar alle overige foto’s die ook een paard tonen, ook als is dit trefwoord niet toegekend. Dit zou een leuke pilot zijn voor het ontwikkelen van innovatie in de bibliotheek.

Volgend jaar wordt het hele circus iets dichterbij georganiseerd, namelijk in Hamburg. Het zou toch mooi zijn wanneer we dan met een wat grotere groep UBL collega’s aanwezig konden zijn, want niet alleen de prachtige Fedora T-shirts maken het de reis de moeite waard.