Digital Curation Conference Dublin

Mart van Duijn bezocht van 17-20 februari 2020 de International Digital Curation Conference in Dublin. Hieronder volgt een beknopt verslag.

Op 17 t/m 20 februari vond in Dublin de International Digital Curation Conference (IDCC) plaats, georganiseerd door het Digital Curation Centre (DCC), een expertisecentrum voor digital curation dat is ondergebracht bij de University of Edinburgh. Het IDCC is een jaarlijks internationaal congres (vanaf 2005) dat volledig is gericht op het gebruik en beheer van digitale objecten door onderzoekers, organisaties en instellingen.

Op de keynote lezingen na, zijn de bijdragen tijdens deze editie van het IDCC grofweg in te delen in presentaties over research data management (RDM) en digital preservation (DP). Voor Bijzondere Collecties is vooral digital preservation van belang, research data management is bij het CDS in portefeuille. DP draait voornamelijk om het acquireren, duurzaam opslaan en beschikbaar stellen van zowel gedigitaliseerd als born digital materiaal. Lezingen op dit punt gingen in op verschillende rollen en verantwoordelijkheden, namelijk die van de onderzoekers die zich meer bewust zouden moeten zijn van de noodzaak van het duurzaam bewaren van digitale onderzoeksdata en -objecten, instellingen die de juiste infrastructuur moeten inrichten voor dergelijk materiaal en actief bij het aanmaken daarvan betrokken zouden moeten zijn, en gebruikers die bediend moeten worden zodat digitaal materiaal hergebruikt kan worden. Een rode draad door hele congres heen waren dan ook de FAIR principes: Findable, Accessible, Interoperable, Reusable. Meerdere malen werd tevens herhaald dat die principes alleen nagestreefd kunnen worden als er communicatie en samenwerking is tussen de verschillende betrokken partijen.

Voor de Bijzondere Collecties van de UBL waren meerdere sessies en presentaties relevant, vooral die die ingingen op de rol van instellingen in het gebruik en beheer van digitaal materiaal. In het bijzonder relevant was de presentatie van Katrina Fenlon (University of Maryland) waarin zij aangaf welke rol instellingen zouden moeten spelen in het beheer van Digital Humanities Collections. In veel gevallen is bij de totstandkoming daarvan geen beherende instelling betrokken, met grote gevolgen voor de duurzame opslag. Instellingen moeten zich daarbij niet opstellen als laatste rustplaats, maar als actieve deelnemer. Vanuit de National Library of Ireland werd een lezing gegeven door directeur Sandra Collins. Zij benaderde het beheer van digitaal materiaal vanuit een historisch perspectief en benadrukte de rol die de bibliotheek van oudsher heeft en die ook in digitale tijden voortgezet dient te worden. Daarbij ging ze voornamelijk in op gedigitaliseerd materiaal en bleef born digital helaas onderbelicht. Dat instellingen elders op dezelfde manier geconfronteerd worden met born digital materiaal en dezelfde ontwikkeling doorgaan als de UBL, werd goed duidelijk in de posterpresentatie van Emma Yan en Clare Paterson, getiteld University of Glasgow: Our Digital Transformation (https://zenodo.org/record/3664615#.XmDqQ6TvKUk).

Born digital zal een van de speerpunten zijn in het beleidsplan voor de periode 2021-2025. Dan moeten er grote stappen gezet worden in het acquireren en duurzaam beheren van dergelijk materiaal. De sessies en presentaties tijdens het IDCC in Dublin hebben duidelijk gemaakt dat de UBL kan aansluiten bij ontwikkelingen en expertise elders, maar dat zij geenszins tot de achterhoede behoort.

Mart van Duijn

Symposium Rediscovered: new technologies on historical artefacts

Opgeknipt-kwadranten_brightness-plus10

Liber Pontificalis. UBL VLQ 60, fol. 20r. Images made with various filters of the White Light Portable Light Dome, developed by KU Leuven. 

The materiality of historical artefacts and the development of new digital technologies might seem to contradict, however, quite the opposite is true. Increasingly digital technology is deployed to deepen our knowledge of cultural heritage in the broadest sense. On November 16. 2018 Leiden University Libraries invited a variety of speakers to discuss the rediscovery of historical artefacts through new technology, by focusing not only on the technology itself but also on the implications for historical research and our understanding of our material heritage.

The symposium is part of the program Beyond content, with which the UBL focuses on the materiality of text and images through a series of activities like workshops, presentations and an exhibition. Specific attention is paid to the forms in which historical texts and images have been handed down, but also to the digital techniques that have recently been developed to better study them. For more information on the programme see the website Beyond content.

The speakers introduced us to a range of methods, tools and algorithms often borrowed from the beta sciences and applied within the humanities. That these do not always need to be high end and expensive, was shown by the first keynote speaker Kate Rudy (University of St Andrews/NIAS). In her presentation Four technologies to spy on the past, she talked about the projects she will start as part of her upcoming Leverhulme Fellowship. As a medieval art historian she is interested in the production and use of illuminated manuscripts.  In an earlier project she studied the use of texts and miniatures in a manuscript by measuring the grime with a densitometer. The calliper she will use to measure parchment thickness costs only 100 EUR, but serves perfectly find out whether leaves or quires were added to a manuscript.

Rudy also stressed the importance of handheld amateur photography. When libraries digitise a manuscript, they often focus on lavishly decorated and untouched manuscripts. But many researchers like her are particularly interested in the ugly, worn and broken ones. And cleaning a manuscript as part of a conservation project will lead to loss of information on the use of a manuscript as well. When researchers visit our library, they take many pictures from unstudied and non-digitised manuscripts or from surprising angles. These pictures are sometimes shared on Twitter, but most of the time they are only kept on standalone computers, unavailable to others. Although a lot of researchers do use free cloud storage like Google Photos and Flickr, this is not a reliable solution; the platforms can change the terms and conditions (Flickr recently limited the possibilities for free accounts), and sometimes simply shut down (just think of Picasa). This led to an interesting public discussion: do research institutions have a responsibility to store and share the results of DIY digitization? As a service it turned out to be very much desired by researchers.

Hannah Busch (Huygens ING) participated in the eCodicology project, in which several tools were developed to analyse large amounts of data taken from medieval manuscripts. In her presentation Machines and Manuscripts: New technologies for the exploration of medieval libraries she explained the use of algorithms for the automatic identification of lay-out elements, like columns, initials and miniatures. These data are added to the information taken from the descriptions in traditional catalogues. When combined they form a rich source for data visualisations of libraries as a whole. This makes it possible to gain better insight in book historical aspects like the relationship between format and size, or the percentage of manuscripts with decorations or miniatures.

In her new project at Huygens KNAW called Digital forensics for historical documents. Cracking cold cases with new technology the goal is to build a tool for script analysis in manuscripts based on convolutional neural networks. This technique is also used in image- and face technology.[1]

Meanwhile Hannah Busch offered a very useful summary of the needs of researchers as well. What she wants is to:

  • Perform your own ingest with IIIF
  • Run different types of analysis
  • Share data
  • Search/export/visualize
  • Allow other people to annotate and correct

A prerequisite for this is of course to have the data FAIR: findable, accessible, interoperable and reusable.

Francien Bossema (Centrum Wiskunde en Informatica/Rijksmuseum/UvA) demonstrated the FlexRay Lab, a method for 3D visualisation using XRays and CT.[2] The non-invasive method can be used for medical imaging and food industry, but also for art historical research.

IMG_8265

With the CT scanner it is possible to look inside objects in 3D during the scanning process. Together with the Rijksmuseum a workflow was developed that can be used both for both research during a conservation process and to reconstruct a production process. Bossema explained the method by reconstructing the production of a so-called Chinese puzzle ball. These decorative balls were made in the mid-18th ct from one single piece of ivory, consisting of several concentric spheres each of which rotates freely. Using the CT scanner it became clear that the spheres were made with a set of “L” shaped tools with progressively lengthening cutters. Only the outermost balls were carved elaborately.[3] Currently, they are working on an in-house scanner for the Rijksmuseum, to make the transition from 2D to 3D scanning possible by providing a standardised process for art historical research. As a result of these activities the Rijksmuseum is collecting large amounts of data. The museum is thus entering a new field and cooperation with institutions with more experience in this field, such as research institutes and libraries, is necessary.

The last years libraries and archives are increasingly confronted with growing collections of born digital scholarly archives. Peter Verhaar is working both for the Centre for Digital Scholarship of Leiden University Libraries and for the master’s programme in Book and Digital Media Studies. In his presentation Durable Access to Book Historical Data he discussed the challenges he was faced with in the acquisition of the digital archive of Professor Paul Hoftijzer. Hoftijzer, who is working on the Leiden book trade in the early modern period, has produced a rich collection of Word documents and Excel spreadsheets that he wanted to donate to the library. As a first step, Verhaar cleaned the unstructured data and transposed them to a database in systematic format. This essentially resulted in a new archive. The question for the audience was whether both of the archives should be kept. Cleaning up the “data grime” will in either case lead to a loss of information, in the same way as cleaning a physical manuscript does.

The pilot is also set up to raise awareness among researchers. The university library offers courses in data management to ensure that researchers know how to make their data FAIR. But we are now in the middle of a transition, researchers who are retiring the next couple of years never received these instructions, and in case no measures are taken, this will lead to loss of research data. Paul Hoftijzer, who was also attending the symposium, stressed the importance of keeping both a personal and a professional archive. In his opinion, only the combination of both can ensure a correct interpretation of the data.

Martijn Storms (Leiden University Libraries) introduced the audience to the crowdsourcing project Maps in the crowd that is running for more than 3 years now and has been very successful. With the help of enthusiastic volunteers almost 10.000 maps have been georeferenced, which means that users can find and use maps in an intuitive, geographic way, by browsing on a map.  The maps can also be used in geographical data systems, e.g. to facilitate landscape analysis. The project attracted a lot of press, providing a large audience of map enthusiasts the opportunity to connect with the library and the collections.

In the afternoon the audience was invited to participate in an introductory workshop to IIIF. IIIF IMG_8300You can try it out yourself here: https://digitalscholarship.nl/workshop/

Additionally, a pop-up exhibition was set up showing a selection of materials from the collection.

The final keynote by Giles Bergel (University of Oxford) focused on the physical and material aspects of the digital. He started his paper called Beyond fixity: the printing press in the age of digital reproduction by telling the story of the Doves press, responsible for the famous Doves font. After the two partners Thomas James Cobden-Sanderson and Emery Walker got into a severe dispute about the rights on the matrices in 1913, Cobden-Sanderson threw all of them into the Thames river. Since 2013 the Doves Type has been revived digitally by the designer Robert Green. He managed to recover 150 pieces of the original type from the Thames, which helped him to reproduce the font, including the imperfections of the original matrices. This story shows that “digital”, although increasingly experienced as something immaterial or even imaginary, has a materiality in itself as well. This sense of materiality is essential for book historical research, even when this is performed with a laptop and a package of software.

Giles Bergel is part of the Visual Geometry Group in Oxford, where tools are developed for visual analysis in of image and video content in a variety of academic disciplines like Humanities, History and Zoology. He is also Digital Humanities Ambassador in the Seebibyte project. One of the open source products developed is VISE, an application that can be used to make a large collection of images searchable by using image regions as query. VIA is an image annotation tool that can be used to define regions in an image and create textual descriptions of them. The Traherne digital collator finally makes it easy to compare copies of the same text in order to identify variants between them. Thanks to this tool, researchers no longer have to follow the so-called “Wimbledon-method” to compare prints, which means that headaches are fortunately something from the past.

The presentations can be found here:

 

[1] For an introduction see: https://adeshpande3.github.io/A-Beginner%27s-Guide-To-Understanding-Convolutional-Neural-Networks/ or read this article by Dominique Stutzmann in which the same technology is applied: https://journal.digitalmedievalist.org/articles/10.16995/dm.61/

[2] For more information on the project: https://www.cwi.nl/research/groups/computational-imaging

[3] https://www.cwi.nl/events/cwi-scientific-meetings-1/cwiscientific.pdf  With images and extensive description.

 

Verslag Open Repositories Conference Bozeman, Montana, juni 2018

De Open Repositories (OR) Conferentie wordt elk jaar in juni gehouden, telkens in een andere stad in de wereld. Als je op de hoogte wilt blijven van wat er zoal gebeurt in de wereld van de open source repository systemen, dan is dit wel the place to be. Er zijn vertegenwoordigers aanwezig van alle grote open source systemen, zoals DuraSpace (voor DSpace), Samvera (voor Hyrax – voorheen Hydra genoemd), Islandora, ePrints, Fedora, Dataverse en Invenio. Er wordt altijd voor een uitgebreid programma gezorgd, met niet alleen lezingen, maar ook workshops, presentaties in Pecha Kucha stijl, een ideas challenge en poster presentaties.

Hierdoor trekt de conferentie een gemêleerd publiek bestaande uit ontwikkelaars, project managers en data librarians afkomstig van alle continenten. Ook wordt er altijd voor een uitgebreid sociaal programma gezorgd, waardoor je met veel collega’s in contact komt. Ook dit jaar ben ik dan ook weer met veel inspiratie en een zee aan ideeën teruggekeerd.

42160559874_6eed954711_zDe locatie dit jaar was Bozeman, Montana in de VS, een staat die bekend is door Yellowstone Park, grizzly beren en vliegvissen. Bozeman zelf is een idyllisch groen universiteitsstadje met prachtige houten huizen, dat wordt omringd  door sappige groene velden en wit-besneeuwde bergtoppen. Iedereen lijkt er bovendien een pickup, een pet en een hond te hebben. Terwijl op de deur van de UB duidelijk stond aangegeven dat dieren niet welkom waren, trof ik ze regelmatig aan op de campus:

En hoewel de meeste Amerikaanse steden per voorkeur met de auto dienen te worden doorkruist, leent deze stad zich juist voor wandelen en fietsen. Op de campus van Montana State University trof ik zelfs deze fietsreparatie-paal aan. 

De studenten bleken er zelf om te hebben gevraagd en de plaatsing zelfs mede-gefinancierd te hebben. Wat een geweldige service, je vraagt je af waarom wij dit niet al lang hebben!

Montana is niet naast de deur en mogelijk maakte dit dat er maar weinig Nederlanders of Nederlands-sprekenden aanwezig waren. Naast mij waren alleen twee UBA collega’s en twee medewerkers van Atmire aanwezig, service provider van DSpace en de hoofdsponsor van de conferentie. Thema was “Sustaining Open”. Zoals ze zelf verklaren op hun website: “Submissions this year should focus on the how, why, and what it will take to make open sustainable.”

42160558704_9217227b77_z

De ‘binnenstad’ van Bozeman

De eerste dag van OR staat traditioneel in het teken van de workshops. Ik had me ingeschreven voor een sessie rondom Polaris OS, een nieuw systeem waar ik nog niet eerder van had gehoord. De Franse makers presenteren het als een Next Generation Open Repository, aansluitend bij de aanbevelingen van COAR (waar ik vorig jaar ook al wat over geschreven heb). Het is volgens hen data-georiënteerd, eenvoudig te installeren en interoperabel. Het valt al snel op dat er veel tijd en aandacht is besteed aan het meertalig maken van een repository (heel praktisch voor Franstaligen natuurlijk). Ook technisch ziet het er veelbelovend uit: er is een deposit module met embargo mogelijkheden en uitgebreid rechtenbeheer. Wel blijkt uit de uitgebreide demonstratie dat het systeem toch ingewikkelder in elkaar zit dan ik dacht. Het doet me denken aan Drupal, het CMS van Islandora waar zoveel opties in ‘verstopt’ zitten dat je door de bomen het bos niet meer ziet. Het is de vraag of je dit zomaar zonder uitgebreidere training kunt gaan gebruiken in je instelling. Bovendien staat Polaris nog in de kinderschoenen. Zo is het onduidelijk of er al wel echte gebruikers zijn en ooit de start-up fase voorbij zal komen. Is er bovendien nog wel ruimte voor nog een nieuw repository (zie ook de lijst bovenaan)? In elk geval betreft het een open source systeem om de komende jaren in de gaten te houden.

De opening keynote werd dit jaar verzorgd door Casey Fiesler. Haar presentatie met als titel “Growing Their Own: Building an Archive and a Community for Fanfiction” focuste op de rol van de gemeenschap in digitale duurzaamheid. De website Archiveofourown.org (AO3) is opgezet ter vervanging van Live Journal en FanLib, twee grote platformen voor fanfiction schrijvers. Om verschillende redenen voelden gebruikers zich hier niet meer welkom. Ze hadden behoefte aan een “Space of their own, met als resultaat AO3; met 1,5 miljoen gebruikers en 0,5 miljoen werken een substantiële community. AO3 heeft vooral een archief-functie, dus alle social media activiteiten vinden plaats buiten het archief, zoals in Tumblr. Bijzonder is dat de site bijna geheel bedacht, gebouwd en beheerd wordt door vrouwen. Fiesler onderzocht deze community en stelde vast dat AO3 voor een groot deel user-driven is:

42160558254_5f2f0b7c16_z

Iconen in AO3

  • Er is geen betaalde directeur, board of andere vorm van commerciële organisatie: alles wordt gedaan door en voor vrijwilligers. Samen beschermen ze de fanworks tegen commerciële exploitatie.
  • Een groep van vrijwilligers zorgt voor standaardisering van tags, zodat deze kunnen worden opgenomen in een folksonomy.
  • Gebruikers helpen elkaar ook om technische skills te ontwikkelen waarmee ze de site kunnen onderhouden “so they can contribute to the thing they love”
  • Ze hebben onder meer zelf bedacht dat er een content policy moest komen, met als gevolg een simpel systeem van icoontjes die onder meer aangeven of je een tekst mag gebruiken, aanpassen, vertalen, remixen; en waarmee tevens eventuele waarschuwingen worden aangegeven (taalgebruik, sex, geweld).
  • Er wordt daarbij rekening gehouden met specifieke wensen: gebruikers wilden onder meer bijdragen die ze in het verleden hadden gepost weg kunnen halen. Omdat dit vanuit preservation oogpunt onwenselijk is, hebben ze bedacht dat je het kunt ‘verwezen’: de tekst wordt wel bewaard, maar niet meer in relatie tot jouw persoon.
  • Onderzoek naar fandom wordt gestimuleerd door middel van een peer reviewed wetenschappelijk tijdschrift.

Belangrijkste advies van Fiesler: ook andere communities, zoals die van de open source repository systemen zouden zich op deze manier kunnen organiseren, om zo hun voortbestaan te garanderen.

De rol van de gemeenschap in het toekomstbestendig maken van een repository zou gedurende de week verschillende keren voorbij komen, er was onder meer een volledige sessie aan gewijd. Dit speelt vooral bij nationale, regionale en thematische repositories, waar meerdere instellingen aan bijdragen. Allen stelden vast dat het lastig is om financiering te krijgen voor het onderhoud, dit is nu eenmaal geen sexy onderwerp. De presentaties lieten zien dat er op verschillende manieren werd gezocht naar een duurzaam business model. Sommige repositories zoals het Digital Repository of Ireland zijn overgegaan op het bieden van extra diensten voor betalende leden. Anderen zoeken het vooral in de inrichting van de organisatie: door activiteiten te decentraliseren (“many people doing little jobs”), zoveel mogelijk taken te automatiseren, vrijwilligers te motiveren etc. En misschien het allerbelangrijkste: onder het mom ‘niemand is onmisbaar’ ervoor te zorgen dat er niet één persoon eindverantwoordelijk is, maar te vertrouwen op het zelforganiserende vermogen van de gemeenschap.

Opvallend was dat maar weinigen een commerciële partner in de arm hadden genomen, “van de community, voor de community”, was steeds het uitgangspunt en advertenties hebben een negatief effect op de gebruikerservaring, met name op de betrouwbaarheid van een repository.

Bij Cornell university bleek in de loop der jaren een lappendeken aan repositories te zijn ontstaan. Een werkgroep heeft voor repository managers, administratie en marketing het Cornell University Library Repository Principles and Strategies Handbook opgesteld.  Het beschrijft vooral wat er allemaal komt kijken bij het beheer van een repository, en wordt gebruikt wanneer onderzoekers zich melden met de vraag om een nieuw repository. Door hierover een beter bewustzijn te kweken hoopt men dat onderzoekers eerst kijken naar mogelijkheden om gebruik te maken van bestaande infrastructuren, en niet weer een nieuwe gaan bouwen. Het handboek is voor een veel grotere groep interessant. Het geeft bijvoorbeeld ook instructies voor een file directory in een dataset, filenaam conventies, software beschrijvingen en copyrights.

De Islandora Foundation heeft verschillende kanalen opgezet om de toekomst van het repository te garanderen. Dit alles onder vanuit de idee “The sustainability of software is rooted in the sustainability of a community.  Zo hebben ze een betaald lidmaatschap opgezet (wij zijn als UBL sinds dit jaar collaborator) die deelname mogelijk maakt in de Coordinating Committee en Technical Advisory Group, er zijn zelf-regulerende interest groups rondom specifieke onderwerpen en Google discussiegroep voor vragen en kennisuitwisseling. Ook wordt er enkele keren per jaar een Islandora Camp georganiseerd: het eerstvolgende is van 20-22 juni in Limerick en een delegatie van UBL zal hier heen gaan om kennis uit te wisselen.

42160559244_f9b7623a64_zTijdens de Repositories Rodeo presenteren vertegenwoordigers van alle groter open resource systemen kort de laatste ontwikkelingen, waarna er gelegenheid is tot vragen. Dit zorgde ook dit jaar weer voor een levendige discussie. Je kon hierbij goed merken dat veel platforms van project of start-up fase naar volwassenheid zijn gegroeid. Ze zijn beter georganiseerd als organisatie, en werken op verschillende manieren samen, onder meer in de overgang naar Linked Data en RDF. Ook hebben ze samen meegeschreven aan de Guidelines voor Next Generation Repositiories die in november 2017 zijn verschenen. De vraag naar waar we over 5 jaar staan leverde een aardige samenvatting op van de conferentie:

  • “Moving forward together”: de noodzaak van samenwerking  om de toekomst te garanderen. Samvera en Islandora maken al beide gebruik van het opslagsysteem Fedora. Maar zouden de beheerders niet op veel meer vlakken samen kunnen werken?
  • Over 5 jaar heeft iedereen die hier behoefte aan heeft een repository: wat voor consequenties heeft dit voor groeimogelijkheden en ontwikkeling, zowel in de breedte als de diepte?
  • Hoe bedien je de vele gebruikers met variëteit aan wensen? Ga je voor specialisatie, of groei in de breedte. De aanwezige vertegenwoordigers waren van mening dat ze alleen door zichzelf te concentreren op kerntaken het systeem beheersbaar konden houden.

Ook vanuit ons perspectief is dit laatste punt een actueel thema, want het heeft directe consequenties voor de inrichting van je infrastructuur.  Kies je er met het oog op beheersbaarheid voor het aantal systemen zoveel mogelijk te beperken? Of kies je juist voor flexibiliteit, en zijn het de koppelingen die voor beheersbaarheid zorgen? Met andere woorden: gaan we proberen om alle wensen van onze eigen gebruikers in Alma& Islandora te verwezenlijken, of gaan we gebruik maken van verschillende, verbonden systemen?

Hoewel ik geen technische achtergrond heb, bezocht ik toch enkele sessies in de zogenaamde Developers Track. Het is interessant om te zien welke tools er zoal worden ontwikkeld, sommigen kunnen namelijk met kleine aanpassingen namelijk door ons worden hergebruikt. Terence Brady van Georgetown University Library presenteerde allereerst DSpace REST Reporting Tools die hij heeft ontwikkeld voor Dspace 5 of 6. Hiermee kun je o.a. de consistentie controleren en update files maken om metadata te repareren. Denk aan records met ontbrekende metadata, of 0 bitstreams. Volgens eigen zeggen werkt dit beter dan de search box in DSpace, of een open source tool als Open Refine.

Diego Pino, een van de ontwikkelaars die het actiefste bijdraagt aan de Islandora code, presenteerde een tool waarmee de ingest in Islandora kan worden vereenvoudigd.  De Islandora Multi Importer (IMI), maakt gebruik van spreadsheets als input formaat gebruikt, waardoor iedereen ermee zou kunnen werken.
Links:

Hoewel publicatie repositories de overhand hebben op de OR conferentie, was er ook veel aandacht voor digitaal erfgoed. De UBs van Georgetown en Edinburgh voelden vorig jaar (net als wij) de behoefte om een start te maken met IIIF. Zij besloten om te beginnen met kleine aantrekkelijke collecties en zo ervaring op te doen. Interessante case study van Georgetown betrof een gedigitaliseerd archief uit de rechtenbibliotheek. In dit geval ontbraken de metadata op item niveau (die zitten namelijk alleen in de collectiebeschrijving). Door een inhoudsopgave in de viewer op te nemen hoefden ze niet met terugwerkende kracht metadata aan de items toe te voegen. Georgetown heeft een tutorial gemaakt voor het genereren van de manifesten.

Edinburg is nog een stap verder gegaan. Aansluitend op de digitalisering van de Scottish Session Papers hebben ze de catalogisering geautomatiseerd uitgevoerd op basis van de titelbladen. Zij hebben bovendien Alma en genereren de manifesten op basis van hun catalogiseersysteem. Hierna willen ze IIIF gebruiken voor de presentatie van de Mahabharata scroll, een laat 18de eeuwse rol van 75 meter lang, die in digitale vorm niet geschikt is voor traditionele viewers.

Dit riep in Edinburg wel de vraag op waar en hoe de manifesten beheerd moeten worden. Zijn dit ook objecten in het repository? En zo ja, wat voor identifiers krijgen ze dan? De UB van Toronto (Scarborough) kreeg eveneens met deze vraag te maken toen ze een manier zochten om annotaties te kunnen maken in Islandora. Omdat de standaard workflow van Islandora hiervoor niet voldeed hebben ze hiervoor een ‘web annotation utility module’ ontwikkeld, ook wel Annotorious genoemd. Hieraan zit een uitgebreid rechtensysteem gekoppeld, waarmee onder meer annotaties kunnen worden goedgekeurd. De annotaties worden als nieuwe objecten in het repository opgeslagen, met een eigen content model en metadata. Een dergelijke keuze betekent natuurlijk wel dat je erfgoed repository zich ontwikkelt tot data repository.

Ook interessant was de presentatie van Shanti Thompson over het Reuse project. Doel is het maken van een toolkit voor het meten van hergebruik van erfgoed data (d.w.z. al het gebruik buiten het kijken en downloaden in het repository om). Dit is ingewikkeld, omdat de metadata die bij een object horen tijdens hergebruik in bijvoorbeeld social media, vaak verdwijnen. Doordat erfgoedinstellingen niet weten hoe ze het hergebruik kunnen meten, of het personeel om dit te doen niet voorhanden is, zijn er maar weinig instellingen die dit doen. Een van de conclusies is dat vooral academische bibliotheken denken dat hun data alleen door academici worden gebruikt, in een wetenschappelijke context, maar dit blijkt een misvatting. Het indirecte gebruik is veel gevarieerder en door een groter publiek dan gedacht.

Er waren meer presentaties die het gebruik van het repository als onderwerp hadden. Zo onderzocht UNT Texas (een repository voor meerdere wetenschappelijke en erfgoedinstellingen in de regio) hoe gebruikers precies navigeren in hun repository. Dat bleek veel gevarieerder dan gedacht: wat wij als collectie beschouwen, hoeft niet altijd zo door gebruikers ervaren te worden. Zoeken en browsen wordt door elkaar gebruikt, over collecties en materiaal types heen. Interessant daarbij was dat tegelijk in het publicatie repository, naar scripties en naar erfgoed wordt gezocht. Gebruikers zijn blijkbaar in eerste instantie geïnteresseerd in een specifiek onderwerp. Wij hebben inmiddels al besloten om hiervoor twee verschillende “voorkanten” in te richten, maar misschien is toch nog iets om te heroverwegen?  Zo zag ik dat verschillende andere repositories, zoals dat van Texas en  Georgetown, eveneens een gezamenlijke ingang voor zowel erfgoed en publicaties heeft gebouwd. Tegelijk was de belangrijkste conclusie van het onderzoek van de Texanen : “Many people interact with our repository not through the front door (but through Google)”, dus je moet er vooral voor zorgen dat je hier vindbaar bent.

De stelling van Andrea Schuler, digital librarian van Tuffs university is dat je niet vroeg genoeg kunt beginnen met studenten te betrekken bij je repository. Zo creëer je bewustzijn voor open access, copyright, hergebruik en licenties in concrete alledaagse situaties. De meeste universiteiten nemen alleen scripties op, en zijn huiverig om de resultaten van bijvoorbeeld onderzoekscolleges als dataset op te nemen. Dit betekent niet dat alles de moeite van het bewaren waard is. Er is een workflow om de relevantie en kwaliteit van de data te garanderen. 42160559354_902742ca4a_zSchuler gaat zelf actief op zoek naar datasets die ze wil bewaren, zoals de resultaten van de Digital Design Studio, een ruimte voor digitale innovaties en projecten. Maar je kunt ook denken aan digitale tentoonstellingen van studenten kunstgeschiedenis. Ook blijft ze op de hoogte via de tips van vakreferenten.

In diverse sessies kwam het gebruik van Linked Open Data binnen het repository aan de orde. Nieuwe generatie systemen zoals Samvera ondersteunen dit standaard. Islandora biedt dit aan in de vorm van Claw, de opvolger van de huidige installatie. Een mooi voorbeeld hiervan is de site die is ingericht voor het onderzoek naar zogenaamde Dragomans (1550-1750), vertalers, tolken en gidsen die in dienst waren van het Ottomaanse Rijk. De projectsite ziet er prachtig uit, je kunt vrijuit linken tussen personen, documenten, vertalingen en transcripties. Wel blijken de sites die zijn gebaseerd op Claw ook nog grotendeels “boutique sites” te zijn. Ik voorzie nog niet dat wij op korte termijn al onze data naar Claw moeten gaan overzetten (gelukkig, want we hebben de huidige migratie nog niet eens af….).

Mijn sessie had als onderwerp digital preservation (ik zat dit keer eens niet in een erfgoed-blokje). Hierdoor was de samenstelling gemengd, wat zowel voor- als nadelen heeft. Ook dit keer heeft iemand keurig notities gemaakt en in Drive opgenomen. De eerste presentatie was vooral technisch van aard en beschreef een tool voor het stroomlijnen van OAIS protocollen. Evviva Weinraub leidt momenteel een onderzoek naar de integratie tussen lokale repositories en gedistribueerde diensten (denk aan de content in ons eigen repository versus Delpher). Vragen die aan bod kwamen waren: hoe worden objecten geselecteerd voor opname in een van beide systemen, wat wordt waar op genomen (of gedupliceerd), hoe gaat men om met versiebeheer en interoperabiliteit? In de meeste gevallen worden meerdere kopieën bewaard, maar los van elkaar. Hiervoor blijken bovendien allerlei systemen te worden gebruikt.

42160543104_54f21f4620_z

In Amerikaanse UBs worden nog opvallend veel Homegrown systems gebruikt.

Een volledig rapport vind je hier:

 https://arch.library.northwestern.edu/downloads/zk51vg841?locale=en

Mijn eigen presentatie ging over het duurzame beheer van een groeiend repository: hoe zorg je ervoor dat overstap naar grootschaliger en professioneel beheer soepel kan worden verlopen welke rol kan certificering hierbinnen spelen? Voor degenen die aanwezig waren bij de eindpresentatie van de stage van Federica Pugnali geen nieuw onderwerp, want tijdens deze gelegenheid hebben we hier ook al uitgebreid over gesproken.

De afsluitende Keynote was van Asaf Bartov, die zich zelf als open access activist profileert. Hij werkt voor de Wikimedia Foundation en hoewel hij dus geen bibliothecaris is, heeft hij tijdens de hele conferentie laten zien erg betrokken te zijn bij het onderwerp. Zo heeft hij op dag 1 een workshop gegeven over Wikipedia en was hij de gehele week aanwezig om te luisteren, discussiëren en ideeën op te doen. Tijdens zijn afsluitende keynote waande ik me even in Cuba: hij praatte met gemak 2 uur vol, en was zonder veel problemen ook de rest van de middag doorgegaan, maar dit liet ook wel wat zien over zijn betrokkenheid. Voor wie geïnteresseerd is, zijn gehele presentatie is hier te bekijken, of lees een samenvatting op papier. Zijn belangrijkste boodschap:

  • De open movement is mainstream geworden
  • De open movement en erfgoedinstellingen zijn natuurlijke partners. Zo doneren wij samen veel data aan Wikimedia, die ons vervolgens helpt om deze te verrijken en standaardiseren, bijvoorbeeld via Wikidata.

In veel instellingen zijn er al Wikipedians in residence en er wordt veel gebruik gemaakt van de kracht van crowdsourcing . Zo zijn met behulp van medisch specialisten de pathologie afbeeldingen van Calicut Medical college in India van metadata voorzien. Zoiets zouden wij natuurlijk ook kunnen doen met onze anatomische tekeningen.

42160558194_627c4555e3_z

Hebben bibliothecarissen meer problemen dan oplossingen? De Ideas Challenge leverde 100 user stories met problemen op, en maar 6 groepjes met een oplossing.

Elk jaar wordt er op OR ook een Ideas Challenge gehouden. Ik had nog niet eerder meegedaan, maar het leek me dit keer een mooie gelegenheid om met collega’s in contact te komen. Iedereen mag een probleem voorleggen in de vorm van een user story. In mijn geval heb ik beschreven dat de onderwerpstrefwoorden in ons repository vaak de lading niet dekken: onder meer doordat KIT KITLV en UBL een hele andere beschrijvingstraditie hebben, zijn vooral de foto’s van heel verschillende metadata voorzien. Dit zorgt voor een vertekend beeld bij gebruikers. Door op bv paard te zoeken denk je alle foto’s met een paard er op afgebeeld in je trefferslijst te krijgen, maar dat kan ook zomaar slechts een derde zijn, omdat KIT en KITLV dit trefwoord nooit hebben toegekend. Vervolgens mocht je met een zelf gekozen groepje een van de problemen kiezen en samen uitwerken tot een mogelijke oplossing. Aansluitend op de laatste keynote presenteerde elke groep de resultaten, en er waren natuurlijk coole (very nerdy) prijzen.

42160558134_78345432ea_z

Mijn groep was heel divers, met een Amerikaan, een Amerikaanse Indiër, een Australiër en ikzelf, een mix van ontwikkelaars en (data-) managers. Wij hadden als taak om GDPR – zoals de rest van de wereld de nieuwe privacy wetgeving noemt – aan de man te brengen, zodat data-managers begrijpen wat er van hen wordt verwacht wanneer ze een dataset opnemen.

Hoewel we met onze presentatie niet wonnen (volgende keer meer inzet op de fun-factor!) had ik heel veel plezier gehad en drie nieuwe vrienden gemaakt. Bovendien voelde ik me alsnog een winnaar. Want van de 100 ingezonden vragen werd die van mij gekozen door de winnende groep (zie voor de presentatie met live demo hier). Zij stellen voor om IIIF en beeldherkenning hiervoor in te zetten. Op basis van de trefwoorden die wel zijn toegekend kun je door middel van software laten zoeken naar alle overige foto’s die ook een paard tonen, ook als is dit trefwoord niet toegekend. Dit zou een leuke pilot zijn voor het ontwikkelen van innovatie in de bibliotheek.

Volgend jaar wordt het hele circus iets dichterbij georganiseerd, namelijk in Hamburg. Het zou toch mooi zijn wanneer we dan met een wat grotere groep UBL collega’s aanwezig konden zijn, want niet alleen de prachtige Fedora T-shirts maken het de reis de moeite waard.

Open Repositories – Brisbane 26-30 juni 2017

Tijdens de jaarlijkse Open Repositories Conference worden de gebruikers en ontwikkelaars van open source digitale repository platforms wereldwijd samengebracht. De repositories worden voornamelijk gebruikt voor het bewaren, beheren en beschikbaar stellen van wetenschappelijke publicaties en gedigitaliseerd of digital born erfgoed. Dit kunnen instellingen zijn voor hoger onderwijs, maar ook overheid, bibliotheken, archieven en musea. Omdat we bij de UBL momenteel druk bezig zijn met het inrichten van een platform voor digitale bijzondere collecties, Digital Collections genoemd, is het voor ons extra belangrijk om hierbij aanwezig te zijn. Niet alleen om op de hoogte te blijven van wat er speelt, maar ook om te vertellen waar wij zelf staan. De conferentie wordt jaarlijks op een ander continent georganiseerd. Vorig jaar bezochten Laurents en ik de conferentie voor het eerst in Dublin. Dat was dus nog redelijk dicht bij huis. Maar dit keer reisden we naar de andere kant van de wereld, de 2017 editie was namelijk in Brisbane, Australië. Wij waren niet de enigen die ver hadden moeten reizen, want er waren 320 bezoekers uit 29 verschillende landen. Ook bijzonder: meer dan de helft presenteerde een paper of poster, of zat in een panel.

We arriveerden in de nacht van zondag op maandag en hoewel het in Brisbane momenteel winter is, was het naar onze maatstaven heerlijk weer. Dat hielp wel bij het verjagen van de jetlag. Maandag waren er nog geen sessies georganiseerd, maar konden we deelnemen aan een rondleiding langs diverse bibliotheekvestigingen van de University of QueenslandQueensland University of Technology, en Griffith University. Ik zag vooral veel experimenten met verschillende typen werkplekken en samenwerkruimtes, zowel binnen als buiten. Gedeelde ervaring: het is overal en altijd druk. En belangrijkste tip: zorg voor flexibele ruimtes en meubels op wielen die je makkelijk kunt verplaatsen, want de studenten zullen je voorzieningen zeker anders gaan gebruiken dan jij had bedacht.

Hoogtepunt was de recent verbouwde rechtenbibliotheek, oorspronkelijk een gebouw uit de jaren 30. Hier geen glas, metaal of heldere kleuren. De architect had bewust gekozen voor een sfeer die ergens lag tussen een herensociëteit uit de 19de eeuw en een Brits universiteitscollege. Een gebouw met een chique en tegelijk moderne uitstraling, met ruimtes die uitnodigden tot studeren. Het hele gebouw was 24/7 geopend, zonder dat dit problemen veroorzaakte. Blijkbaar is het zo dat wanneer je echt iets moois bouwt voor je studenten, ze ook bereid zijn om er zorgvuldig mee om te gaan. Omdat de studenten die deze week komen zeker nieuw zullen zijn stonden er drie behulpzame studenten bij de ingang met borden met “ask us” erop: zij helpen je op weg, wijzen de weg etc. Ook opvallend: er zijn overal waterpunten, en oplaadpunten voor laptops en telefoons.

Dinsdag stond in het teken van de pre-conference workshops. Het was Laurents gelukt om er zelfs aan twee mee te kunnen doen: in de ochtend Design thinking for open science innovation een methode waarmee aan verandering in organisaties vorm kan worden gegeven. In Noorwegen wordt deze methodiek door verschillende bibliotheken al volop gebruikt. Voorafgaand was de vraag gesteld om een complex vraagstuk aan te dragen. Bij datamanagement is een van de uitdagingen waar we voor staan op welke wijze gebruik gemaakt kan worden van commerciële dienstverleners zonder dat we de controle over de wetenschappelijke data verliezen, en zodoende niet terecht komen in eenzelfde situatie als het geval is met wetenschappelijke publicaties. Er is behoefte aan zogenaamde ‘rules of engagement’, d.w.z. regels waaraan commerciële partijen zich committeren zodat data voor wetenschappelijk onderzoek toegankelijk en bruikbaar blijven. Uit de inzendingen waren twee complexe vragen geselecteerd die door 5 groepen tijdens de workshop met behulp van Design Thinking methodieken werden aangepakt. De vraag van Laurents was er een van. Na een korte introductie over wat design thinking inhoudt (“Generally referred to as applying a designers’s sensibility and methods to problem solving, no matter what the problem is” (Lockwood, 2009)) werd er aan de hand van twee methodieken aan het werk gegaan. De eerste methodiek bestond uit het goed omschrijven van de vraagstelling met behulp van de stappen problem statement – participants – target users – scope – constraints – systems en goals. Vervolgens werden de drie belangrijkste elementen benoemd die cruciaal zijn voor een oplossing. Deze werden gevisualiseerd met afbeeldingen afkomstig uit papieren tijdschriften. De groep loste de vraagstelling niet op, maar de gestructureerde aanpak leidde wel snel tot inzicht over hoe de vraagstelling benaderd dient te worden.

In de middag vond workshop Hyku: Hydra in a box plaats, open source repository software voor instellingen die niet over een bataljon ontwikkelaars beschikken, maar toch van een flexibel repository systeem gebruik willen maken. Er zitten allerlei interessante API’s bij, zoals voor gebruik van IIIF, maar helaas is het nog (lang) niet af. Dit is overigens exemplarisch voor de stand van zaken voor veel open repository-systemen. Men worstelt om bij blijven. Dit bleek ook tijdens de update van de Islandora community. Hier wordt gewerkt aan de ontwikkeling van Islandora CLAW, waaraan tijdens Islandora Camp in Delft ook uitgebreid aandacht was besteed. Ook hier duurt het nog heel lang voordat er iets wordt opgeleverd waar instellingen mee aan de slag kunnen. En ondertussen moet er ook nog tijd, energie en aandacht worden besteed aan de “gewone” Islandora, want voor je het weet loop je hiermee weer hopeloos achter. Verder was er onder meer een presentatie door het repository-team van de Chinese University in Hong Kong. Zij gaan dit jaar nog over op Alma, en blijken te worstelen met de beschrijfregels voor Chinees en de synchronisatie met Islandora. Typisch een onderwerp waarin we samen op kunnen trekken. Zij beschikken over een vergelijkbaar (klein) team als wij in Leiden, en werken aan een repository van vergelijkbare omvang. Een hele geschikte partner om mee samen te werken dus en er zijn inmiddels al heel wat emails uitgewisseld met collega’s Jeff Liu en Louisa Lam. Hopelijk kunnen zij ons op hun beurt helpen om het inladen van de scans te versnellen, want zij hebben er inmiddels al meer dan 1 miljoen in zitten!

IMG_1125

IIIF Workshop

De workshop die rondom IIIF was georganiseerd was voor natuurlijk niet helemaal nieuw meer (zie eerdere blogs hierover van Lucas van Schaik), maar toch de moeite waard om een keer heel uitgebreid uitgelegd te krijgen hoe IIIF in elkaar zit, en hoe de verschillende API’s werken. Erg leuk was dat we allerlei opdrachten kregen aan de hand waarvan de theorie telkens werd toegelicht. Ik kon daardoor voor het eerst zeggen dat ik het (echt!) snapte. Naast de standaard Image en Presentation API wordt er ook gewerkt aan de verdere ontwikkeling van Fulltext zoeken en Authenticatie. De laatste is vooral van belang om afbeeldingen te kunnen delen waar toegangsrestricties op zitten. Dat is niet alleen voor digitaal erfgoed van belang, onderdeel van de middag was ook een korte demonstratie van de werking van deze API voor publicaties in DSpace.

En verder hebben we ons vergaapt aan de prachtige faciliteiten van Queens University Faculty of Technology. Zo beschikte men over een enorm scherm voor presentaties en visualisaties (ook de posters werden hiermee gepresenteerd), en er waren overal aangename werkplekken en samenwerkruimtes in verschillende vormen en maten. De campus lag heerlijk in het groen, aan de botanische tuin met bloeiende planten en exotische vogels. En we troffen zelfs een half-ondergronds Olympisch zwembad aan tussen de collegezalen. Jaloersmakend inderdaad….

De keynote op woensdag werd gegeven door Timoty Gowers, niet alleen bekend als wiskundige, maar ook actief in de open access beweging. Gowers verhaal genaamd Perverse incentives. How the reward structures of academia are getying in the way of scholalry communication and good science was vooral een persoonlijke schets over de ontwikkelingen in zijn eigen vakgebied op het gebied van open science (met name ArXiv.org en MathOverflow). Niet heel spannend of vernieuwend, wel plezierig om naar te luisteren.

IMG_1198Tijdens het bijwonen van de panel sessie van de Confederation of Open Access Repositories COAR Next Generation Repositories: Results and Recommendations kreeg je een helder overzicht gepresenteerd van de uitdagingen waar instellingen die een repository beheren mee te maken hebben.

Belangrijkste doel voor de toekomst is het creëren van repositories die interoperabel zijn, waarop vervolgens allerlei andere diensten kunnen worden gebouwd, zoals notificaties, global sign-on etc. Dit lijkt voor de hand liggend, maar is voor instellingen met kleine budgetten een grote uitdaging. Hiertegenover staan bovendien de commerciële partijen, waar de budgetten groot zijn en men dus consequent voorop loopt, en niet per se belang hierbij hebben. Om die reden worden de ontwikkelingen door gebruikers dan ook niet direct als een innovatie beschouwd, maar eerder als een noodzakelijkheid. Dit werd nog eens bevestigd door het verhaal van Chris Bourg, bibliothecaris van MIT. Waar COAR de internationale visie op repositories laat zien, toont Bourg in de Task Force on the Future of Libraries Preliminary Report de lokale visie.

Wat was er verder zoal te zien tijdens de reguliere sessies? In de sessie Discovery & Visualisation liet Tomasz Neugebauer aan de hand van e-Artexte, een repository voor contemporaine kunst, zien hoe netwerk visualisaties “serendipity discovery” kunnen stimuleren. Aan de hand van de metadata krijg je bijvoorbeeld een goed beeld van welke kunstenaars en curatoren met elkaar samenwerken. Een groep ontwikkelaars van CORE (een aggregator voor open access publicaties) ging dieper in op de zin en onzin van aanbevelingen in het repository. Het was grappig om te zien dat onderzoekers aanbevelingen niet altijd waardeerden, bijvoorbeeld omdat ze van een concurrent kwamen. Om deze reden hadden ze een knopje toegevoegd, waarmee onderzoekers konden aangeven dat de aanbeveling niet relevant was. Erg interessant in relatie tot digitale bijzondere collecties vond ik de presentatie van Northeastern University: Using WordPress to Contextualize and Publish Digital Repository Content. Hun Digital Scholarship Group werd (net als wij) steeds vaker geconfronteerd met de wens van onderzoekers om de resultaten van hun onderzoek via een webpresentatie te delen met de buitenwereld. Hiervoor ontwikkelden zij een gebruiksvriendelijke Exhibit Toolkit gebaseerd op WordPress. Deze plugin is gebouwd op het eigen Fedora/Hydra repository en werkt ook ook op DPLA. Ook de image API van IIIF is geïntegreerd. Onderzoekers kunnen hieruit objecten selecteren en zo heel eenvoudig webtentoonstellingen maken, terwijl tegelijk het duurzame beheer van de objecten kan worden gegarandeerd.

Wat duidelijk werd tijdens de conferentie, met name de sessie  Managing images is dat veel repositories zich bezighouden met de integratie van IIIF, maar dat in veel gevallen alleen de image API wordt gebruikt, en/of dat alles buiten het repository is gehouden.

1111

Scans vergelijken in het Sinai Palimpsest Project

Het is vooral nog een kwestie van experimenteren, net als bij ons in Leiden. Een erg mooi voorbeeld hiervan is het Sinai Palimpsests Project, een onderzoeks- en onderwijs omgeving voor 100 palimpsest handschriften uit de bibliotheek van het Sint-Catharinaklooster op het schiereiland Sinaï in Egypte.  Met behulp van het IIIF framework en de Mirador viewer is een onderzoeksomgeving ingericht voor de bestudering van het materiaal. Ze hebben hiervoor van elk fragment meerdere soorten scans gemaakt, waaronder met multispectrum imaging. Vervolgens kun je verschillende versies met elkaar vergelijken. Er zijn ook allerlei handige tools toegevoegd, waaronder een meeschalende centimeter.

In de sessie over Innovations in open science werd de interessantste paper gegeven door Heli Kautonen van de National Library of Finland. Zij was eveneens verantwoordelijk voor de Design Thinking for Open Innovation workshop op dinsdag. Zij heeft de design principes toegepast op het inrichten van de access restricties in Finna, de Finse digitale bibliotheek. Basis vormt de identificatie van de gebruiker en het ultieme doel, en het vaststellen van de design principes voor de betreffende case. Een van de resultaten is dat in de facetten een specifieke vorm van access kan worden gekozen (bijvoorbeeld helemaal open, of alleen na inlog): zie links de facetten van de zoekterm “trial”: https://www.finna.fi/Search/Results?lookfor=trial&type=AllFields&limit=20&sort=

Op donderdagmiddag waren wij zelf aan de beurt en gaf ik onze presentatie over modellen voor samenwerking tussen het CDS en I&P. De presentatie maakte deel uit van de sessie Cultural heritage. Walters Art Gallery is een van de voorlopers op het gebied van open access van digitaal erfgoed. Bij zijn overstap van de Walters naar de University of Pennsylvania nam William Noel ook dit gedachtengoed met zich mee. Resultaat is de OPenn filosofie, zoals spreker Doug Emery vertelde in zijn paper. De bibliotheek beschikt op dit moment nog niet over een fancy infrastructuur en discovery interface (hier wordt wel aan gewerkt- een Fedora/Samvera omgeving). Wat ze doen is eenvoudigweg de mappenstructuur zichtbaar maken, en toegang geven tot alle files, dus ook de TIF archiefkopieën. Ook kunnen gebruikers (zowel mens als machine) CSV files met metadata downloaden. Simpel en goedkoop dus. Jammer genoeg kunnen ze ook geen goede statistieken genereren, want ik zou heel graag willen weten wie de gebruikers zijn, wat ze downloaden en welk percentage de OPenn op de hoogte stelt van gebruik van de files voor publicaties. In elk geval een voorbeeld dat navolging verdient.

2222Ook interessant was de paper over Reverse Image Lookup, waarvoor aan de hand van de module “teaching with primary resources” van de Library of Congress het hergebruik van afbeeldingen werd onderzocht. Wat blijkt: de afbeeldingen (meest omslagen van boeken) werden helemaal niet exclusief gebruikt in het lager onderwijs. Slechts 10 % werd educatief hergebruikt, de rest bestond uit privé/persoonlijk hergebruik op social media en in blogs. Dat maakt dat je wel even gaat nadenken over wat nu echt je gebruikers zijn, en waar ze zich bevinden. Of is het zoals Open Knowledge oprichter Rufus Pollock schreef: “the best thing to do with your data will be thought of by someone else”

Op vrijdagochtend liet iedereen die zich bij Queensland University in Brisbane bezig houdt met research support zien hoe men onderzoeks-ondersteuning biedt door de gehele cyclus: van digitalisering, via Research Data Management en Scholarly Publishing tot aan Research Output & Impact. Een interessant voorbeeld van een keten-proces in de bibliotheek, een onderwerp dat ook bij ons in de UBL actueel is. Want hoewel de verantwoordelijken niet afkomstig zijn uit dezelfde afdeling, werd naar de gebruiker toe gestreefd naar een zogenaamde “seamless experience”. Basis voor de keten vormt het repository ESpace, waarin de digitale bijzondere collecties en de publicaties samen zijn opgeslagen. Dit is een bewuste keuze, en het maakt dat je gaat nadenken over het verschil tussen digitale (bijzondere) collecties en wetenschappelijke data (misschien is er wel geen verschil….)

Door de hele keten hieromheen op te bouwen, weet je al vanaf het begin waar de onderzoeker zich mee bezig gaat houden, je hebt hem als het ware al bij de hand genomen. Ook kan op die manier worden gestimuleerd dat onderzoekers hun data in het repository opnemen, en niet voor een externe voorziening kiezen. Want ze bieden aan het begin en eind van de cyclus ook metrics aan, onder meer voor het meten van de impact. Hiermee kunnen onderzoekers hun eigen meerwaarde aantonen. De identifier in ESpace is hiervoor essentieel. Relevant blijven is de belangrijkste uitdaging voor het team. Hoe zorg je ervoor dat je onderzoeker niet liever hetzelfde doet in een zelf gekozen repository? Dat kan alleen wanneer het voor onderzoekers makkelijker en plezieriger is om met de eigen bibliotheek samen te werken. De juiste mensen en voldoende budget zijn hiervoor essentiële factoren.

35308037360_de9505f435_z

Rondleiding door de bibliotheek van Queensland University

Op de laatste middag kregen wij samen met de collega’s uit Hong Kong een Behind the Scenes rondleiding door de bibliotheek van Queensland University, waaronder de digitaliseringsafdeling en het CDS. Deze was georganiseerd door Tina Macht, alumnus van Book & Digital Media Studies in Leiden (op de foto in het midden, vandaar de universiteit Leiden trui!) die drie jaar geleden naar Brisbane is geëmigreerd en nu werkt voor het digitaliseringscentrum. Omdat outsourcen van digitaliseringsactiviteiten in een land als Australië minder voor de hand ligt, beschikken ze over uitgebreide voorzieningen, zoals een eigen fotostudio, en twee mooie Treventus robotscanners.

35308050880_b87dff0584_zOok kregen we een uitgebreide tour langs de verschillende bibliotheeklocaties, waar we ons vergaapten aan de faciliteiten. Zo waren er overal fonteintjes en watertaps, en troffen we in elke bibliotheek een kitchenette aan, waar de studenten hun eigen eten in de koelkast konden bewaren, opwarmen in de magnetron en een kop thee konden zetten. En omdat veel vestigingen 24/7 open zijn, waren er zelfs relax fauteuils aanwezig, waar studenten even een power nap konden doen. En nee, er lag geen beschimmelde kaas in de koelkast (hebben we gecontroleerd) en de boeken waren niet besmeurd met spaghetti in tomatensaus. De baliemedewerkers bevestigden dat de studenten aan het begin van het semester altijd even moeten worden “opgevoed” en dat er hierna best wel eens een ongelukje kon gebeuren, maar dat het reuze meeviel met de rommel.

Achter de linkjes in de tekst vind je telkens de bijbehorende foto’s. Wil je de complete set bekijken? Kijk dan op Flickr: https://www.flickr.com/photos/saskiavanbergen/albums/72157682679715802

Saskia van Bergen

Mediaevistiek, moderne technologie en de “Tremulous hand of Worcester”

9a503e8d-be4f-4314-ac40-ce5ee04028ff

Regionaal Historisch Centrum Limburg in Maastricht, gevestigd in de oude Minderbroederskerk

Op 2 en 3 februari vond in het Regionaal Historisch Centrum Limburg in Maastricht de internationale conferentie Parchment, Paper and Pixels. Medieval Writing and Modern Technology plaats. De bijeenkomst werd georganiseerd door SSNM (Schrift en Schriftdragers in de Nederlanden in de Middeleeuwen), het Huygens Instituut voor Nederlandse Geschiedenis, het RHCL en het Henri Pirenne Instituut voor Middeleeuwse Studies te Gent. Hoewel de titel doet vermoeden dat de presentaties alleen paleografie en oorkondeleer als onderwerp hadden, was de scope breder dan dat. Het doel van de conferentie was om de relatie tussen de Middeleeuwse en digitale wetenschappen in het algemeen te analyseren. Mediëvisten die op geen enkele manier gebruik maken van digitale hulpmiddelen zullen dun zijn gezaaid, alleen al de aanwezigheid van gedigitaliseerd handschriftelijk materiaal op het web heeft het onderzoek de laatste decennia veel toegankelijker gemaakt. Maar voor Digital Humanities onderzoek is wel wat meer nodig. Tijdens het symposium werd een aantal succesvolle projecten gepresenteerd.

Opgeleid als Mediaevist ben ik uiteraard breed geïnteresseerd in de ontwikkelingen in mijn vakgebied. Maar vanuit mijn functie bij de UBL was het ook boeiend om te zien van welk type tools onderzoekers op dit moment gebruik maken bij hun onderzoek, welke behoeften spelen, en bij welke onderdelen van het onderzoeksproces de bibliotheek een rol kan spelen.

De keynote op de eerste dag werd verzorgd door Peter Stokes. Hij is de bedenker van DigiPal, een open source tool voor het vergelijken van schrift. De software stelt onderzoekers in staat om te zoeken naar lettervormen, en de karakteristieke kenmerken eenvoudig met elkaar te vergelijken. Je kunt bijvoorbeeld letters over elkaar schuiven, en ze op een tijdlijn zetten. Hoewel Stokes DigiPal oorspronkelijk ontwikkelde voor Engels elfde-eeuws schrift, wordt de software inmiddels breder toegepast, met als resultaat SephardiPal (Hebreeuws schrift van het iberisch schiereiland), ScandiPal (het schrift van Scandavische fragmenten) en BayeuxPal (lettervormen op het tapijt van Bayeux).

In het verleden werd er nog wel eens getwijfeld aan de status van paleografie en codicologie: was het niet eigenlijk een hulpwetenschap voor historici? De DigiPal tool maakt het werk van de onderzoeker makkelijker, maar neemt het niet uit handen. DigiPal vertelt je niet of handschrift A en B door dezelfde kopiist zijn geschreven of niet, de interpretatie moet nog altijd van de onderzoeker zelf komen. Toch bestaat de angst dat tools als DigiPal er op den duur voor zorgen dat de rol van de paleograaf helemaal verdwijnt, en op basis van kwantitatieve analyses ook de conclusies kunnen worden getrokken. Dit was precies het onderwerp van de paper van Mats Dahllöf, die zich bezighoudt met automatische toeschrijving. In zijn abstract claimt hij een nauwkeurigheid van 97,1 % te bereiken, maar helaas moest hij door ziekte afzeggen. Natuurlijk wordt pas door de juiste vragen, methode en analyses van de onderzoeker software een echte onderzoekstool. Tegelijk vereist het andere kwaliteiten van de onderzoeker. Is het ook nodig dat zij zich al deze nieuwe technieken eigen maken? Tot op welke hoogte? En hoe komen ze aan deze kennis?

Miriam Edlich-Muth houdt zich bezig met de verspreiding van Floris ende Blancefloer. Van deze tekst zijn vele versies en vertalingen gemaakt, en het verhaal is dan ook van Griekenland tot en met IJsland bekend. Zoals veel onderzoekers begon zij met het vastleggen van kwantitatieve gegevens in een spreadsheet, maar al snel realiseerde ze zich dat deze methode niet voldeed aan haar wensen. Met behulp van een ontwikkelaar op haar afdeling maakte ze enkele zogenaamde heatmaps en dendrogrammen (voor het maken van een hiërarchische cluster analyse), tools die veel worden gebruikt door statistici. Uit diverse papers bleek dat onderzoekers op verschillende niveaus hulp kunnen gebruiken bij Digital Humanities onderzoek. In de eerste plaats bij het kiezen van de juiste tool. Hiltmann & Gniffke wilden bijvoorbeeld TEI gebruiken om de ontwikkeling van de Franse tekst “Comment les obseques se doivent faire”, over de uitvaart van edelen, in kaart te brengen. Als snel kwamen ze erachter dat de standaard hiervoor voldeed. TEI is een xml standaard bedoeld voor het maken van digitale edities en te plat voor het visualiseren van relaties tussen teksten. Ook wilden ze allerlei zaken in de standaard stoppen die er eigenlijk helemaal niet in thuis horen, en waar waarschijnlijk veel betere tools beschikbaar voor zijn. Precies hierin kan een Centre for Digital Scholarship een belangrijke rol spelen. Hier beschikt men over een overzicht van de beschikbare tools en technieken in de diverse vakgebieden en de toepassingen tot dat moment. Software die binnen het ene vakgebied is ontwikkeld om taken te automatiseren, kan in het andere vakgebied geschikt zijn om nieuwe onderzoeksvragen te beantwoorden. Ook kan een dergelijk loket een rol spelen bij het samenbrengen van onderzoekers uit verschillende disciplines. Het onderzoek van Stephen Smith en Deborah Thorpe liet zien waar een dergelijke samenwerking toe kan leiden. Smith houdt zich bezig met de ontwikkeling van medische hulpmiddelen voor patiënten met neurologische aandoeningen, en Thorpe is paleograaf. Samen onderzochten zij neurologische aandoeningen in de middeleeuwen aan de hand van (handgeschreven) teksten. Een bekend voorbeeld hiervan zijn de teksten van de 13de eeuwse Tremulous hand of Worcester, herkenbaar aan zijn bevende schrift. Opvallend is dat veel kopiisten, waaronder de Tremulous hand, ondanks hun conditie nog heel lang door konden schrijven. De onderzoekers wilden achterhalen aan welke aandoening zij leden. Was het mogelijk de ziekte van Parkinson, of toch Alzheimer?

schermafbeelding-2017-02-12-om-9-40-17-am

Ook het magische woord IIIF kwam een aantal keer voorbij. Verschillende onderzoekers lieten weten dat ze staan te springen om de mogelijkheden van het protocol te gaan gebruiken. Ze willen bijvoorbeeld gedigitaliseerde handschriften over een specifiek onderwerp op één plek samenbrengen om ze beter te kunnen vergelijken, of gedigitaliseerde handschriften transcriberen en annoteren, zoals wordt gedaan in French Renaissance Paleography.

Agata Dierick vertelde over Itinera Nova, een voorbeeld van een succesvol crowdsourcings-project geïnitieerd door het stadsarchief van Leuven. Doel is het digitaliseren en ontsluiten van de registers van de Leuvsense schepenbank (1362-1795). Aangezien het bijna een half miljoen folia betreft, heeft men hiervoor de hulp van vrijwilligers ingeroepen. Hiervoor werd een online platform ingericht met handleidingen, filmpjes en mogelijkheden voor kennisuitwisseling. Ook werd een interactieve online tutorial paleografie ontwikkeld.

De keynote op de tweede dag werd gegeven door Georg Vogeler van de universiteit van Graz. Hij werkt hier als Digital Humanities specialist voor het ‘Zentrum für Informationsmodellierung in den Geisteswissenschaften’. Hij vertelde met name over de uitdagingen bij het integreren van twee charter databases: Regesta imperii en Monasterium.net. Regesta imperii heeft een tijd geleden de ruwe data vrij beschikbaar gesteld onder CC-BY licentie. Hierdoor was het mogelijk geworden om de dataset te integreren in Monasterium.net, een database platform dat zelf ook weer verschillende typen bronnen samenbrengt: gedigitaliseerde gedrukte edities, beschrijvingen en scans van charters en aanvullende data die alleen via de website beschikbaar wordt gesteld. Integratie levert niet alleen een betere vindbaarheid op, maar ook een verbetering van de functionaliteiten. Wat is hiervoor nodig?

  • Meer datasets zouden open access beschikbaar moeten worden gesteld;
  • Via een api met data in formats die uitwisseling bevorderen;
  • Als linked open data met semantic web technologies;
  • En door het gebruik van gedeelde conceptuele modellen

Allemaal zaken waar in Nederland dankzij de activiteiten van het NDE gelukkig al hard aan wordt gewerkt.

In zijn slotbeschouwing stelde Georg Vogeler vast dat onderzoek aan de ene kant steeds vaker interdisciplinair is, maar dat dit aan de andere kant ook weer eigen specialisaties aan het worden zijn. “ Hij vraagt zich dan ook af: are we narrowing down again?” Samenwerking en kennisdeling is noodzakelijk voor innovatie, dus de vraag is hoe dit kan worden voorkomen. Ook hierin kan volgens mij de bibliotheek (en met name een CDS) een rol spelen, doordat de kennis over tools en methodes hier niet alleen wordt verzameld en gedocumenteerd, maar ook weer wordt gedeeld. Dat kan door lezingen, conferenties en workshops, maar ook met een-op-een contact met onderzoekers. De bibliotheek kan op deze manier ook fungeren als motor voor innovatie.

Saskia

p.s. De tremulous hand bleek trouwens aan een essentiële tremor te lijden, d.w.z. zonder aanwijsbare oorzaak. Dat op sommige pagina’s het schrift een stuk minder bibberig is, komt volgens de onderzoekers doordat de kopiist ofwel heeft uitgerust, ofwel licht beschonken was. Een borrel was in de middeleeuwen dus niet alleen een beloning na het schrijven

Het UBL Repository & de inrichting van een Duurzaam Digitaal Depot

Het onderwerp Digitale duurzaamheid is de afgelopen jaren steeds meer in de belangstelling komen te staan, mede dankzij de in 2015 gepubliceerde Nationale Strategie Digitaal Erfgoed waarbinnen Digitaal Erfgoed Houdbaar een van de drie werkpakketten is. Verschillende erfgoedinstellingen, waaronder de Koninklijke Bibliotheek, hebben in hun beleidsplan laten opnemen dat ze binnen enkele jaren een repository willen dat beschikt over het Data Seal of Approval, een van de certificeringen voor een Trusted Digital Repository. Hiertoe heeft de KB ook de functie Digital Preservation Officer in het leven geroepen, waarvoor kort geleden is geworven. En het Nationaal Archief heeft voor het eerst een preservation policy gepubliceerd, waarin ook het ambitieniveau ten aanzien van de toegankelijkheid van de collecties op langere termijn wordt uitgelegd.

image.jpg

Met het inrichten van het UBL edepot hebben we in de UBL een goede eerste stap gezet op weg naar een duurzame opslag van onze digitale bijzondere collecties. Wanneer een collectie door een scanbedrijf wordt gedigitaliseerd, kunnen de ontvangen scans voortaan op één plaats worden opgeslagen, wat het overzicht bevordert. Aan medewerkers kunnen afzonderlijk kijk, upload en download rechten worden verleend ten bate van het beheer. Maar dit is slechts een eerste stap op weg naar de inrichting van een Trusted Digital Repository.

Om meer expertise te ontwikkelen over dit onderwerp heb ik eind 2015 bij de Archiefschool Amsterdam een vijfdaagse cursus gevolgd over de inrichting van een Digitaal Depot.  Het woord ‘depot’ moet hierbij vooral als een metafoor worden gezien en niet als één fysieke plek. Het gaat er vooral om dat de opslag van digitale collecties zodanig is ingericht dat de bestanden ook weer gemakkelijk tevoorschijn gehaald kunnen worden als een gebruiker daarom vraagt, niet alleen morgen of volgende week, maar ook over X aantal jaar.

De cursus van de Archiefschool had een praktische insteek. Zo werd er uitgebreid aandacht besteed aan het opstellen van plan van aanpak voor de eigen organisatie. De overige vijf deelnemers waren afkomstig uit de archief- en of DIV- wereld, en dat bood wat mij betreft meerwaarde. Ik vond het interessant om te zien met welke problematiek men zich in de archiefwereld bezighoudt en wat het verschil in aanpak is tussen bibliotheken en archieven. Onderdeel van de cursus was een bezoek aan het Stadsarchief Rotterdam. Hier is men sinds enkele jaren verantwoordelijk voor de gehele keten van gemeentelijke informatievoorziening, van het inladen van data en metadata tot en met beschikbaarstelling. Het archief beschikt over een gecertificeerde digitale archiefbewaarplaats voor alle documenten die door de gemeentelijke overheid worden geproduceerd. Deze documenten dienen niet alleen duurzaam te worden opgeslagen, maar burgers moeten ze ook (digitaal) kunnen inzien. Ze hebben hier een filmpje over gemaakt, een beetje saai, maar het hele proces en de functie van het edepot wordt wel heel helder uitgelegd.

550px-Resources.png

Theoretisch uitgangspunt bij de cursus was het Reference Model for an Open Archival Information System, of kort gezegd het OAIS-referentiemodel. Het is niet mijn bedoeling om op deze plaats OAIS uitgebreid te gaan beschrijven, daarvoor kun je beter het uitgebreide artikel lezen dat Barbara Sierman schreef over dit onderwerp. Maar kort samengevat is het een raamwerk dat de functies benoemd die je nodig hebt voor duurzaam beheer: ingest (inladen), storage (opslag), data management (beheer) en access (toegang). Om deze vier functies mogelijk te maken heb je daarnaast ook administratie en planning nodig. Het is dus een conceptueel model en het helpt je vooral om na te denken over het hele proces: wie gaat welke stap uitvoeren? En moeten die door een mens worden gedaan, of kan het ook geautomatiseerd? Op welke manier kunnen we garanderen dat de bestanden betrouwbaar en bruikbaar zijn én blijven?

Wat betekent dit alles nou voor de UBL? Op dit moment zijn we bezig met de inrichting van een nieuwe repository infrastructuur, waar (onder meer) onze digitale bijzondere collecties in beheerd en gepresenteerd zullen worden. Dat betekent dus dat we in potentie beschikken over twee opties voor de opslag en beheer van deze collecties, het UBL edepot en het repository, maar welke van de twee gaan we nu precies voor welke functies gebruiken? Aan deze vraag hebben we inmiddels al heel wat denkwerk besteed en op korte termijn wordt het eerste voorkeurscenario in overleg met ISSC getest.

Ook brengen we op dit moment precies in kaart hoe de workflow gaat verlopen voor het inladen, opslaan en beschikbaar stellen van scans. Welke onderdelen van de digitale objecten slaan we waar op, hoe vaak gaan we ze back-uppen, hoe zorgen we ervoor dat digitale objecten met copyright-restricties ook daadwerkelijk niet beschikbaar worden gesteld? En hoe kunnen we controleren dat alles volgens plan is verlopen? Het gaat daarbij niet alleen om techniek. Soms is het ook gewoon een kwestie van goede afspraken maken. Denk bijvoorbeeld aan een digitaliseringsproject. Als voorafgaand aan een project de projectmanager en/of inhoudelijk specialist hebben afgestemd in welk formaat en volgens welke structuur de scans en andere bestanden worden opgeleverd en wie verantwoordelijk is voor bijvoorbeeld de kwaliteitscontrole, dan is de kans groot dat het inladen van de scans in het nieuwe repository ook soepel verloopt. Samen met de collega’s van digitale diensten worden hiervoor op dit moment workflows ontwikkeld, tegelijk met hulpmiddelen zoals checklists waarin de afspraken kunnen worden vastgelegd.

13610569124_1b60a1c857_z.jpg

Dit alles laat ook duidelijk zien dat het bouwen van een nieuw repository een complex proces is dat uiteenlopende aspecten bevat. Het gaat niet alleen om het technisch realiseren van een digitale omgeving, of om het overzetten van scans en metadata, het gaat ook om het herinrichten van processen en het maken van goede afspraken om deze soepel te laten verlopen. Genoeg werk aan de winkel dus.

Het resultaat is dat we straks (minstens) twee vliegen in één klap kunnen slaan: een prachtige nieuwe repository voor de digitale bijzondere collecties, met alle zoek- en gebruiksmogelijkheden die maar mogelijk zijn voor onze klanten, en tegelijk kunnen we dezelfde klanten een duurzame opslag garanderen, niet alleen nu, maar ook voor de toekomst!

Digital Heritage Conference 2015

IMG_4882

Er vonden ook bijzondere ontmoetingen plaats tijdens de week…

Van 28 september tot en met 2 oktober vond in Granada de Digital Heritage Conference 2015 plaats. De conferentie werd dit jaar pas voor de tweede keer gehouden, maar toch lijkt het nu al een vaste waarde te zijn geworden in de wereld van het digitale erfgoed. Nergens komen er dan ook zoveel verschillende mensen bijeen die zich met één en hetzelfde onderwerp bezighouden. Je vindt er conservatoren, onderzoekers, beleidsmakers en ontwikkelaars uit de universitaire wereld, bibliotheken, musea, archeologische diensten en archieven uit meer dan 40 landen. Tegelijk met het congres vindt er ook een expo plaats, met stands van (non-)profit bedrijven die zich bezig houden met onderwerpen als augmented reality, serious gaming, digitale reconstucties en OCR. Wil je dus in een kleine week op de hoogte raken van de nieuwste ontwikkelingen in het veld, en in contact komen met collega’s uit de hele wereld, dan is dit de plek waar je moet zijn.

De conferentie vond dit keer plaats in het Parque de las Ciencias, net buiten het centrum van Granada en het programma richtte zich op 5 deelonderwerpen:

  • Digitisation and Acquisition
  • Computer Graphics and Interaction
  • Analysis and Interpretation
  • Theory, Methodologies, Preservation and Standards
  • Digital Heritage Projects and Applications.

IMG_1159

Het beursterrein

Dit betekent dat er veel hippe, grote projecten werden gepresenteerd die niet zozeer op de bibliotheek betrekking hebben, maar wel een goed overzicht bieden van waar onderzoekers op dit moment mee bezig zijn. Goed voorbeeld hiervan is het project Etruscan VR experience, waarvoor enkele hologrammen zijn ontwikkeld, maar er was bijvoorbeeld ook een presentatie over opblaasbare koepels waarmee bezoekers virtual reality reconstructies kunnen ervaren.
Ook was er veel te zien en te horen over de ontwikkelingen op het gebied van 3D scanning en -printing. Zo was de Leuvense hoogleraar Luc van Gool uitgenodigd voor een keynote over zijn bijdrage aan de ontwikkeling van 3D scanners. De door hem gebouwde portable light dome werd in eerste instantie vooral gebruikt voor wetenschappelijke analyse en presentatie van archeologische objecten, ivoren, munten en fossielen, maar kent inmiddels een veel bredere toepassing. Zo is de scanner met succes ingezet voor de digitalisering van de geborduurde boekbanden van de UB Amsterdam. Van Gool vertelde dat de prijs van de scanner inmiddels is gedaald tot 10.000 EUR, waardoor deze vorm van digitalisering ook voor kleinere instellingen betaalbaar is geworden, vooral als men bereid is om de scanner met meerdere instellingen te delen. Tatjana Dzambazova van het bedrijf Autodesk ging in haar keynote nog veel verder. Haar doel is het ontwikkelen van open source software waarmee instellingen zelf op basis van Fotogrammetrie 3D reconstructies kunnen maken.

Steeds vaker worden bij het digitaliseren van erfgoed technieken gebruikt uit andere disciplines, zoals de geneeskunde en scheikunde. Denk bijvoorbeeld aan de CT-scan die wordt gebruikt om de binnenkant van mummies te bekijken en vast te leggen. OCT (Optische coherentietomografie) , een onderzoeksmethode die kan worden beschouwd als optisch equivalent van de echografie, is ontwikkeld voor het onderzoeken van o.a. netvliezen en bloedvaten, maar wordt momenteel gebruikt om de vezels van papier en perkament te analyseren. Marc Walton liet in een helder gebrachte presentatie zien op welke manier digitalisering was gebruikt bij het onderzoek naar de prenten van Gauguin, die autodidact was als prentmaker. Als experimenterend ontwikkelde hij geheel een eigen, onconventionele werkwijze, die tot op heden kunsthistorici voor raadsels stelde. Hij schreef ook een mooie blog over het onderzoek en die is hier te lezen.

Een spectaculair voorbeeld van de toepassing van nieuwe technieken is het Venice Time Machine Project. Het Archivo di Stato in Venetië bevat 80 km aan archief, dat te fragiel is om te hanteren en daarom ongeschikt voor digitalisering op conventionele wijze. Daarom wordt er nu geëxperimenteerd met röntgentechnieken, waarmee een gehele plank in 1 keer wordt opgenomen. De boeken hoeven dus niet van de plank te worden gehaald. Vervolgens worden de banden, pagina’s en recto en versozijden virtueel van elkaar gescheiden, zodat de tekst weer kan worden gelezen.
Wanneer je trouwens meer wilt weten over de verschillende technieken voor 3D-Digitalisering, waaronder bovenbeschreven technieken, maar ook laserscanning en structured light scanning, kun je terecht bij het Kennisdossier van DEN over dit onderwerp.

Bij sommige presentaties bekroop me wel het idee dat het vooral onderzoek om het onderzoek betrof en dat een praktische toepassing nog ver te zoeken is. Zo was er een presentatie over het automatisch clusteren van kleuren in middeleeuwse handschriften wat tot dusver nog weinig concreet resultaat had opgeleverd (blijkbaar werkt het kunsthistorisch oog in dit opzicht toch beter). In een ander onderzoek werd onderzocht of de computer kleuren op schilderijen kon herkennen aan de hand van 3D-scans. De conclusie was dat op dit moment 65 % van de analyses klopte en dat er nog werd gewerkt aan de accuratesse. Tja..

IMG_1256

Vanuit de uitkijktoren op het congresterrein had je een prachtig uitzicht over de Sierra Nevada

.
Maar tegelijk laten deze presentaties goed zien waar het onderzoek naar toe gaat. Op dit moment is het technisch onderzoek al een onmisbaar onderdeel van de restauratie- en conserveringspraktijk geworden, en in de toekomst zullen ook steeds meer traditionele kunsthistorische technieken, zoals stilistische en iconografische analyse door de computer worden uitgevoerd.

De keynote van de voormalige directeur van het Alhambra Maria del Mar Villafranca Jimenez maakte duidelijk dat documentatie inherent is aan verantwoord restauratiebeleid. De technieken die we hiervoor gebruiken veranderen alleen voortdurend: van tekeningen, prenten en foto’s, tot digitale media. Tijdens de verschillende restauratiecampagnes voor het beroemde leeuwenhof heeft men telkens weer teruggegrepen op de foto’s, prenten en tekeningen die er door de eeuwen heen van de binnenplaats waren gemaakt. Voor de laatste campagne, die onder haar supervisie is uitgevoerd, heeft men zowel voor als na restauratie de leeuwenfontein 3D gedigitaliseerd. De scans waren niet alleen belangrijk tijdens het hele restauratietraject, maar zijn ook gemaakt als documentatie en ter verantwoording voor latere generaties.

Hoewel de presentaties over 3D-digitalisering en -printing, archeologie en architectuur het programma domineerden, kon je ook zonder problemen je dagen vullen met lezingen over 2D, archieven en bibliotheken. Zo schoof ik op de eerste dag aan bij een workshop over het UNESCO-PERSIST-project (Platform to Enhance the Sustainability of the Information Society Transglobally), mede georganiseerd door DEN directeur Marco de Niet. Het UNESCO-PERSIST project onderzoekt wereldwijde trends en ontwikkeling op het gebied van selectie van digitaal erfgoed collecties. In augustus 2015 zijn de Draft Guidelines for the selection of digital content for long-term digital preservation gepubliceerd. Doelstelling voor de langere termijn is het opzetten van pilots waarmee best practices kunnen worden verzameld voor zowel selectie als management van digital born bronnen. De workshop diende als een laatste check: zijn er nog zaken vergeten die zeker in de definitieve Guidelines moeten worden opgenomen?

IMG_1143

Aan het werk tijdens de PERSIST workshop

Belangrijk discussiepunt was wat er in deze tijd van informatie-overvloed de moeite waard is om te bewaren en wat niet. Uit de laatste Enumerate enquete bleek dat nog maar heel weinig instellingen actief beleid voeren op de acquisitie van digital born materialen. Wat voor de gebruikers van de toekomst van waarde is en wat als afval kan worden beschouwd en weggegooid, is niet zo eenvoudig te voorspellen. Zo blijken de vele -op het eerste gezicht identieke en daarom nutteloze- foto’s die we delen op social media inmiddels gebruikt te worden voor allerlei typen onderzoek, zoals bijvoorbeeld het ijsverlies van gletsjers en ontbossing. Er werd ook regelmatig een vergelijking gemaakt met archeologie, waar afval als een belangrijke bron voor onderzoek wordt beschouwd. Maar waar vinden de schatgravers van de toekomst hun digitale afvalberg/schatkamer?

DSC_0685

De lunchtent

Ook waren er verschillende presentaties over het interPARES Trust project. Vertrouwen, betrouwbaarheid en authenticiteit zijn belangrijke concepten in de digitale informatiewereld, denk aan issues rondom cybercrime, e-commerce, copyright en privacy. Adam Jansen presenteerde een conceptueel model (door hem object-oriented diplomatics genoemd) voor het behoud van de authenticiteit van digitale records, onafhankelijk van het systeem waarin ze zijn opgeslagen. Dit is onder andere toegepast in het open source programma Archivematica. Corinne Rogers presenteerde haar onderzoek naar de hulpmiddelen die archivarissen gebruikten om de authenticiteit van digitale records beoordeelden, en de manier waarop dit volgens henzelf eigenlijk gedaan zou moeten worden. Haar conclusie was dat authenticiteit en betrouwbaarheid meer wordt verondersteld, dan werkelijk technisch uitgevoerd. Doel van het InterPARES project is het ontwikkelen van beleid en procedures om dit te verbeteren.

Dankzij de parallelle sessies zat er altijd wel een lezing van je gading bij. Maar anders kon je natuurlijk altijd nog naar de beurs. De leukste stand was wat mij betreft die van Cultlab3D van het Fraunhofer institute in München. Zij ontwikkelden een 3D-digitaliseringsstraat voor het betaalbaar en op hoge snelheid verwerken van erfgoed. Deze video geeft een mooie indruk van het proces.

https://youtu.be/sRLyEuzuF2A

O ja, en natuurlijk werden we de hele week verwend met heerlijk eten, goede wijnen, Spaanse zon en leuke excursies, waaronder een rondleiding  by night door het Alhambra. Jammer dat we twee jaar moeten wachten op de volgende Digital Heritage Conference. Er gaan geluiden dat die in 2017 in Amsterdam zal worden gehouden….

Digitale Bibliotheek voor de Nederlandse Cariben

Sinds de bibliotheekcollecties van het KIT en KITLV worden beheerd door de UBL beschikken we over een aanzienlijke hoeveelheid bronnen over onze voormalige koloniën. Door onze plannen met betrekking tot de Asian Library staat het Oost-Indische deel (de Indonesische collectie) volop in de belangstelling, maar dat het West-Indische deel ook zeker de moeite waard is, dat is bij minder mensen bekend.

Sinds 2014 beheert de UBL de grootste collectie op het gebied van de cultuur en geschiedenis van de (voormalige) Nederlandse Cariben. Het gaat voor de periode tot en met 1954 in totaal om ca. 3000 boeken, tijdschriften en artikelen, rond de 1000 kaarten en enkele belangrijke archiefcollecties. Dankzij een subsidie van OCW kunnen we op dit moment de gehele collectie digitaliseren, voor onszelf en voor de universiteit van Curaçao. De bibliotheek van deze jonge universiteit is namelijk gestart met de bouw van een digitale bibliotheek, die dé toegang moet gaan worden voor onderwijs en onderzoek in en over deze regio.  De Leidse collectie zal hierbinnen toegankelijk worden gemaakt als Dutch Caribbean Heritage Collections.

De digitale bibliotheek in wording heeft de naam Dutch Caribbean Digital Platform gekregen. Deze site wordt zelf weer onderdeel van het grotere DLoC – Digital Library of the Caribbean. Hierin heeft zich inmiddels al een groot aantal bibliotheken verenigd, waaronder die van de universiteiten van Florida, Suriname,  Haïti en de Bahamas.  Het DLoC consortium omvat niet alleen een gedeeld repositorium, maar er is ook een opleidings- en trainingsprogramma aan verbonden, er worden handleidingen en best practices gedeeld en instellingen kunnen een beroep doen op subsidies.

De materialen die nu worden gedigitaliseerd zijn in fysieke vorm vaak niet meer aanwezig, of slecht toegankelijk voor de lokale bevolking. Met de digitalisering van deze collectie wordt dan ook een belangrijke bijdrage geleverd aan de toegankelijkheid van deze bronnen. Hierdoor kunnen (nieuwe) vragen worden gesteld over uiteenlopende onderwerpen, zoals de geschiedenis van de voormalige koloniën, Nederlands Caribische literatuur en kunst, slavernij, of de ontwikkeling van het Nederlands. De collectie is van groot belang voor de ontwikkeling van het onderwijs, niet alleen op Curaçao, maar ook op de overige eilanden (Bonaire, Sint Eustatius, Saba, Aruba en Sint Maarten). Op basis van de teksten en afbeeldingen die beschikbaar komen, kunnen reguliere colleges worden gegeven, maar ook afstudeerscripties worden geschreven en MOOCS worden vervaardigd. En voor lagere en middelbare scholen kan eindelijk lesmateriaal worden vervaardigd waarin ook de lokale geschiedenis, geografie en biologie aan bod komen. In het DLoC repositorium zijn hiervan al een aantal interessante voorbeelden te vinden. Dankzij het corpus worden ook nieuwe, innovatieve vormen van onderzoek mogelijk. Zo kunnen de gedrukte teksten worden gebruikt voor textmining, en de kaarten voor GIS projecten.

Mooie plannen dus. Maar om dit allemaal mogelijk te maken moet eerst een aantal praktische zaken worden geregeld. Er zijn inmiddels drie batches gedigitaliseerd (meer dan 100.000 scans) en batch 4 en 5 liggen al bij digitaliseringsbedrijf Microformat in Lisse en worden momenteel verwerkt. Als alles goed gaat worden de laatste scans in januari 2016 uitgeleverd.

Een groot deel van het materiaal kan niet zonder meer beschikbaar worden gesteld aan het grote publiek. De UB van Curaçao gaat vanaf september 2015 dan ook een start maken met clearen van copyright. Totdat dit is geregeld zijn de materialen in het repositorium alleen als een zogenaamde snippet of fragment te bekijken, vergelijkbaar met Google Books. En fysieke bezoekers krijgen de mogelijkheid om scans te printen in de bibliotheek. Op die manier krijgen bewoners van de Nederlandse Antillen in elk geval beschikking over hun eigen culturele erfgoed.

Illustratie   kaartTitelpaginaWoordenboek

ISIL code!? Welke ISIL code!?

mistakes-300px

Sinds 2004 beschikken we over een internationale standaard voor de unieke identificatie van organisaties die actief zijn op het gebied van bibliografische informatie, zoals bibliotheken, archieven en musea. Hiervoor wordt gebruik gemaakt van de zogenaamde ISIL code. Nationaal en ook internationaal richten we steeds meer gezamenlijke data- en infrastructuren in. Dit maakt het noodzakelijk om eenduidig te kunnen verwijzen naar de herkomst van de data, zoals een bibliografische beschrijving, of een gedigitaliseerd werk. Je moet dus in één oogopslag kunnen zien wat de herkomst van de beschrijving of de scans is en waar het originele, fysieke werk zich bevindt. Dat die eenduidige verwijzing minder vanzelfsprekend is dan het lijkt wordt duidelijk wanneer je een aantal portalen waaraan de UBL de afgelopen jaren scans en metadata heeft geleverd met elkaar vergelijkt :

  • In Delpher, waar gedigitaliseerde oude drukken in zijn opgenomen, zijn wij netjes te vinden als “Leiden, Universiteitsbibliotheek”;
  • Maar in de Daguerreobase – de collectieve catalogus voor daguerreotypieën – zitten onze collecties als “Collectie Prentenkabinet Leiden”;
  • En op de website van het Geheugen van Nederland zijn onze digitale collecties opgenomen als “Bijzondere Collecties Leiden”.

In de eerste plaats is dit verwarrend voor gebruikers die niet bekend zijn met de geschiedenis van de Leidse universiteitsbibliotheek. Zij kunnen denken dat het hier om drie verschillende collecties gaat. Maar je kunt je ook voorstellen dat dit ook zorgt voor problemen wanneer we de collecties via één gezamenlijke website willen gaan aanbieden. Ontdubbeling wordt dan bijvoorbeeld heel lastig. Daarom werkt ook Bureau Metamorfoze sinds kort met ISIL codes voor het administreren van instellingen, metadata en scans. Tijdens de aanvraag voor de digitalisering van het archief van Christiaan Snouck Hurgronje werd ook ons voor het eerst gevraagd om onze UBL ISIL code op te geven.
In elk land treed de nationale bibliotheek op als ISIL-beheerorganisatie. In Nederland is dit de KB, maar die heeft deze taak gedelegeerd aan een aantal andere Nederlandse organisaties. Voor archiefdiensten en historische verenigingen is de toekenning van identifiers gedelegeerd aan het Nationaal Archief. Voor de openbare bibliotheken is de Stichting Bibliotheek.nl verantwoordelijk en de ISIL codes voor wetenschappelijke en speciale bibliotheken worden toegekend door OCLC. Handig, want hierdoor is in WorldCat altijd direct te zien wie verantwoordelijk is voor een beschrijving in de catalogus.

Helaas is de onderlinge afstemming niet helemaal goed geregeld. We kwamen er namelijk al snel achter dat er verschillende codes circuleren.

  • Volgens de WorldCat registry van OCLC zijn aan UBL twee ISIL codes toegekend: NL-L2U en OCLC-L2U
  • Volgens OCLC PICA is onze ISIL code echter NL-0200050000

De verwarring is nog groter geworden doordat er ook bibliotheken met erfgoedcollecties zijn die een ISIL-code aanvragen bij het Nationaal Archief. De codes die het NA toekent zijn aantrekkelijker om in de bestandsnaam van scans en andere digitale documenten op te nemen dan de ISIL-code van OCLC-PICA. Voor Leiden zou de code moeten zijn: NL-LdnUBL. 

En mocht je denken: hé die ISIL codes van het Nationaal Archief  lijken wel wat op de Marc code for libraries…dat klopt! Deze code is namelijk NL-LeU. In onder meer België en Duitsland fungeert de ISIL-code tevens als MARC Organization Code en worden één en dezelfde code dus voor beide gebruikt.

De ISIL heeft dus geen vaste structuur, kan door meerdere instellingen los van elkaar worden toegekend, en er is overlap met de standaard coderingen van Marc. Snapt u het? Nou, wij ook niet!

Na onderzoek door de KB en OCLC is vast komen te staan dat de juiste ISIL code voor UB Leiden NL-0200050000 moet zijn. Wanneer je op deze lijst kijkt, dan zie je dat NL-0200050000 inderdaad de juiste code is en dat L2U een library symbol is (en dus geen code). Maar Bureau Metamorfoze had ons inmiddels al opgedragen om NL-L2U te gebruiken. Gelukkig konden we dat nog snel corrigeren.

Wel zijn we er zo achter gekomen dat we zelf ook niet altijd de juiste codes hebben gebruikt in  de EAD.xml van onze collectiebeschrijvingen. Hier hebben wij namelijk altijd (consequent, dat wel 😉 de Marc code NL-LeU genoteerd, in plaats van de verplichte ISIL code. Zoals Liesbeth van Wijk tijdens het laatste Broodje Kennis vertelde, hebben we onze collectiebeschrijvingen al in Archivegrid laten opnemen, en we hebben plannen met Apenet en Archieven.nl. Om echt goed voorbereid te zijn op de toekomst zullen we die nog moeten aanpassen. En we zullen op korte termijn contact op moeten nemen met WorldCat, zodat wij ook op de juiste manier in hun Registry vermeld worden.

Zo zie je maar, zelfs een bibliothecaris vergist zich wel eens….

Preservation Metadata in de praktijk

Dit keer een gastblog van Liesbeth van Wijk. Zij bezocht op 19 juni samen met Niels Molenaar de workshop preservation metadata in de praktijk.

De workshop met lezingen en discussie op 19 juni in de KB was wegens grote belangstelling voor de tweede maal dit jaar georganiseerd door Beel d en Geluid en NCDD. Er waren ongeveer 70 mensen van zeer diverse instellingen.

Tijdens de hele dag kwamen diverse datamodellen voor duurzame opslag van digitaal materiaal voorbij: het SPOT-model, het OAIS-model en PREMIS. Eerst werd de algemene theorie uitgelegd door Titia van der Werf, programmamanager bij OCLC Research. In vier casussen kwam de praktijk aan de orde. Hierin kwamen de drie modellen ook steeds terug. Het zijn geen normatieve standaarden, die precies voorschrijven hoe je je systemen moet inrichten. Het zijn handige kapstokken waarmee je kunt nagaan of je aan alles gedacht hebt en die je bewust maken van alle keuzes die je moet maken.

Titia van der Werf begon metadata in te delen naar functie (bv. discovery, access, management) en typen (bv. beschrijvend, technisch, administratief). Duurzaam opslaan (“preservation”) is de verantwoordelijkheid van erfgoedinstellingen en kent een aantal uitdagingen: de hoeveelheid digitale informatie (risico van duplicatie), complexitieit, afhankelijkheid van hardware en software, snelle technologische veranderingen. Daar komt recent bij de uitdaging van duurzaam opslaan van digital born collecties. Vragen met het oog op de toekomst daarbij zijn: hoe blijft iets bewaard en raadpleegbaar, ook als de techniek verandert? En hoe bepaal je de authenticiteit van een digital born object?

SPOT-model

Het SPOT-model (Simple Property-Oriented Threat Model for Risk Assessment) beschrijft zes essentiële kenmerken van succesvolle digitale duurzaamheid (in het engels availability, identity, persistence, renderability, understandability, and authenticity) en voor elk kenmerk risico’s en bedreigingen (zie bijlage). Zie ook: https://www.dlib.org/dlib/september12/vermaaten/09vermaaten.html.

PM1

 

OAIS-model

Een conceptueel model voor beheeractiviteiten is het OAIS-model: het Open Archival Information System Reference Model (ISO-standaard sinds 2002). Zie deze pagina van NCDD: https://www.ncdd.nl/blog/?page_id=447. Het kan dienen als gids bij het ontwerpen van digital repositories en als benchmark voor het beoordelen van bestaande repositories. Het is een procesmodel, dat beschrijft hoe materialen beheerd worden in de verschillende stappen in het systeem.

PM2

 

Buiten het model in de omgeving zie je drie actoren: producer, consumer en management. In het model zijn de blauwe blokjes diverse activiteiten:

  • Ingest
  • Archival Storage.
  • Data Management.
  • Administration
  • Access
  • Preservation Planning.
  • Common Services

Een belangrijk begrip hierbij is Information Package (IP): een package is een bestand plus metadata. Daarvan zie je in het model drie varianten, in verschillende stadia (witte bolletjes) in het proces:

  • SIP = Submission Information Package

het bestand plus de metadata die de leverancier van de informatie meelevert aan het digitaal archief

  • AIP = Archivel Information Package

het digitaal archief voegt weer allerlei eigen metadata toe (bijv. catalogusinformatie) en slaat het geheel op als AIP

  • DIP = Dissemination Information Package.

als een gebruiker de informatie opvraagt, maakt het digitaal archief een ‘package’ met het bestand en alleen de metadata die de gebruiker nodig heeft.

Vooral in het AIP komen de preservation metadata om de hoek kijken. De verschillende soorten metadata zijn:

  • Reference metadata (unieke, persistent identifier)
  • Provenance Information: waar komt het object vandaan
  • Context information: relatie tot andere objecten, bv. in EAD of METS
  • Fixity information: bewijs van authenticiteit.

PM3

PREMIS Data Dictionary

PREMIS (Preservation Metadata: Implementation Strategies) bevat een ‘data dictionary’ met alle mogelijke preservation metadata is in digitale archiefsystemen. Rosetta (Ex Libris) implementeert PREMIS, evenals OCLC’s Digital Archive. PREMIS is gebaseerd op het OAIS-referentiemodel en bevat vijf entiteiten die elk hun eigen metadata hebben.

PM4

Intellectual entity

  • Het origineel, een intellectuele eenheid voor beheer en beschrijving (bv. een boek, een foto).
  • Heeft één of meer digitale representaties
  • Kan andere intellectuele entiteiten omvatten (een website bevat bv. meerdere webpagin’s)
  • wordt opgeslagen in de repository
  • kan één file bevatten, maar ook een aantal files die samen een intellectuele entiteit voorstellen, vgl een object in Digitool, een METS die een boek beschrijft.
  • Een handeling die het object betreft (bv. validering, ingest, conversie).
  • Bij een event horen ook metadata: wat gebeurde er, wanneer?
  • Een persoon, een organisatie of software programma/systeem verbonden met een event of een recht. Agents zijn alleen indirect aan objecten gelinkt via events of rights statements
  • Copyright, intellectuele rechten

Objects

  • wordt opgeslagen in de repository
  • kan één file bevatten, maar ook een aantal files die samen een intellectuele entiteit voorstellen, vgl een object in Digitool, een METS die een boek beschrijft.

Events

  • Een handeling die het object betreft (bv. validering, ingest, conversie).
  • Bij een event horen ook metadata: wat gebeurde er, wanneer?

Agents

  • Een persoon, een organisatie of software programma/systeem verbonden met een event of een recht. Agents zijn alleen indirect aan objecten gelinkt via events of rights statements

Rights statements

  • Copyright, intellectuele rechten

In het kader van PREMIS is “preservation metdata” informatie in een repository gebruikt tbv digitale duurzamheids en toekomstvaste documentatie van digitale objecten. De PREMIS data dicitionary is onafhankelijk van platform, technologie, hardware. Bij het ontwikkelen is gelet op uitvoerbaarheid, presenteerbaarheid, begrijpelijkheid, authenticiteit, identiteit in een duurzame context en technische neutraliteit. Er worden geen aannames gedaan over specifieke technologie, systeemarchitectuur, e.d.

Het is een richtlijn, een checklist, een gids voor locale implementatie, standaard voor uitwisseling tussen repositories. Het is NIET een out-of-the-box oplossing.

Nut voor de UB

Deze modellen kunnen we gebruiken om meer structuur aan te brengen in het denken over duurzaam opslaan van digitale collectie, de inrichting van een nieuwe repository, e-depot enz.

Met welke doelen doen we dat en welke metadata hebben we daarvoor nodig? Deze modellen kunnen helpen geen belangrijke aspecten over het hoofd te zien en goede keuzes te maken. Hebben we daarvoor alle drie modellen nodig of één of twee?

Dit sluit mooi aan bij het nu lopende project “Beleidsadvies Bijzondere Collecties” waarin wordt vastgelegd hoe we in de komende jaren met de Digitale Collecties zullen omgaan en welke prioriteiten en speerpunten aangepakt gaan worden.