Sonntag, 31. Mai 2015

Digital(isiert)e Dokumente sind lebende Daten – Nachlese zum 104. Bibliothekartag


Quelle: openclipart, public domain

Digital ist anders


Auf dem Bibliothekartag in Nürnberg blieb mir ein Vortrag besonders im Gedächtnis, da er den Finger in die Wunde legte. Klaus Kempf von der Bayrischen Staatsbibliothek München stellte in seinem Vortrag "Data Curation oder (Retro)Digitalisierung ist mehr als die Produktion von Daten" die berechtigte Frage "Jetzt haben wir alles digitalisiert – und dann?".

Der Unterschied zwischen alten Büchern, die in den Regalen von Bibliotheken die Zeiten verschlummern und digital(isiert)en Dokumenten zeigt sich in zwei wesentlichen Punkten:

  1. digitale Objekte verschwinden schnell und dann vollständig, während Bücher nur ganz, ganz langsam zu Staub zerfallen
  2. digitale Objekte erlauben einen unvorstellbaren Mehrwert durch ihre digitale und damit verknüpfbare und reinterpretierbare Identität

Digital ist billiger


Durch die Loslösung des Inhalts vom Medium können Bücher in völlig neue Kontexte gesetzt werden. Wurde im ersten Schritt das Buch digitalisiert, sprich als Bilddatei zugänglich gemacht, so erreichte man eine Schonung des Originals durch die beliebig oft und in unveränderter Qualität ermöglichte digitale Kopie. 

Auch wenn die Digitalisierung und die damit verbundenen Aufwände der sicheren Speicherung anfangs kostenintensiver als die klassische Bestandsbewahrung von totem Baum ist, Kempf erwähnte Kostenfaktor von 1:8, so zeigen die Nutzungszahlen der Digitalisate, daß diese Kosten mehr als gerechtfertigt sind. Denn vorher war der Zugriff auf das gedruckte Exemplar schlicht nicht zu stemmen, von den Beschädigungen des Originals bei derart hohen Zugriffen nicht zu reden.

Wenn 2014 zB. knapp 3 Millionen Zugriffe auf die Digitalen Sammlungen der SLUB Dresden gezählt werden zeigt dies, wie sich der Zugriff auf die Digitalisate mittlerweile etabliert hat. Für Wissenschaftler und andere Interessierte ist es nicht mehr notwendig sich die Mühe zu machen monatelang in den Lesesälen von Archiven und Bibliotheken herumzutreiben. Sie können bequem über Internet recherchieren und direkt oder über Portale, wie die der Deutschen Digitalen Bibliothek oder Europeana auf zusammengehörige aber in Europa verstreute historische Materialien zugreifen.

Auch dies ein Vorteil, den Bibliotheken auf ihre Seite der Waagschale packen sollten.

Digital wird immer besser


Wie Kempf in seinem Vortrag gut dargestellt hat, sind digitale Medien als lebende Dokumente zu behandeln. Entweder man pflegt sie – oder sie sterben und dann dauerhaft und ohne Spuren zu hinterlassen.

Der Bereich der digitalen Langzeitarchivierung versucht, diese Daten so zu sichern, daß sie auf lange Sicht verfügbar gehalten werden können. Aber dies ist nur der eine Aspekt, vergleichbar mit modernen medizinischen Geräten, die zwar in der Lage sind, den menschlichen Körper warm zu halten und vor dem Verfall zu bewahren – nicht aber das Leben lebenswert machen (im eigentlichen Sinn)

Doch digitalen Dokumenten wohnt ein "Mehr" inne. Wie oben erwähnt, war der erste Schritt die Digitalisierung. Doch welche neuen Möglichkeiten ergeben sich, wenn man diese Scans weiter veredelt? Kommt anfangs eine OCR-Variante hinzu, kann man die Digitalisate nun volltext-durchsuchbar gestalten. Ist der Volltext vorhanden, kann man diesen Tiefenerschliessen. Aus dem Buch, welches über Jahrhunderte im Magazin schlummerte, wurde nun ein Bestseller, der die Geheimnisse seiner Zeit enthüllt. Von einem Buch zum anderen über die dort jeweils verknüpften Akteure, Orte oder Zeiten springen, oder breite statistische Untersuchungen über die Entwicklung der Sprache in bestimmten Regionen sind jetzt ganz neue Sachverhalte untersuchbar.

Data curation, aktives Managment des digitalen Bestandes und das Bewusstsein daß es sich um lebende Dokumente handelt, ist nach Kempf nunmehr vorrangige Aufgabe von (wissenschaftlichen) Bibliotheken.

Digital erfordert Qualität


Für mich bleibt daher als Fazit, es geht bei Digitalisierung nicht um Quantität, sondern um Qualität. Es nützt nichts *nur* zu Digitalisieren. Aus Digitalisierung folgt Langzeitarchivieren. Aus Langzeitarchivierung folgt Langzeitverfügbarkeit und aus Langzeitverfügbarkeit folgt Anreicherung. Und aus Anreicherung folgt Qualität. Und Qualität fängt bei der Quelle an.

Wenn ich schlecht scanne, reicht es nicht für gute OCR. Wenn ich keine gute OCR habe, reicht es nicht für gute Volltexte. Wenn ich keine guten Volltexte habe, reicht es nicht für eine Tiefenerschliessung. Wenn ich keine gute Tiefenerschliessung habe, kann ich Dokumente nicht gut anders verknüpfen…

Daher: Alles was wir aus der Digitalisierung bisher lernen konnten –  es gibt immer neue Nutzungsmöglichkeiten, die sich aber erst manifestieren, wenn man den Möglichkeitenraum öffnet.

Bibliotheken sind in dem Sinne nicht mehr nur Bücherbewahrer sondern Datenveredler und sollten sich auch dazu bekennen.

Samstag, 23. Mai 2015

Vertrauensfrage

Was ist Vertrauen?


CC-SA-3.0, von Dellex, Quelle: Wikimedia
In der Vorbereitung für einen Vortrag auf dem Bibtag2015 habe ich mich intensiv mit der Frage auseinandergesetzt, wie vertrauenswürdig unsere Technik und unsere Prozesse sind, wenn wir diesen wertvolle digital(isierte) Dokumente anvertrauen.

Immerhin, ein kleiner Fehler und ganze Bestände können vernichtet sein. Im digitalen geht das oft schneller, unbemerkter und mit deutlich fataleren Folgen, als in der materiellen Welt. Ein versehentliches "rm -Rf /" löscht dann in Sekunden mal gleich ein ganzes Dateisystem.



Vertrauen ist nicht wissen – und mehr als glauben


Wenn wir unseren Prozessen vertrauen, dann, weil unsere Erfahrung gezeigt hat, daß diese auch in Krisensituationen funktionieren. Wenn wir unserer Software vertrauen, dann weil sie sich so verhält, wie wir das erwarten.

Wenn wir anderen Personen vertrauen, dann umso mehr, je länger wir mit dem Anderen verläßlich zusammenarbeiten.

Wenn wir Neuem begegnen, dann schöpfen wir Zutrauen und mit der Zeit mehr Vertrauen durch dessen Offenheit.

Offene Personen, offene Prozesse und offene Technologie sind Katalysatoren Vertrauen schneller zu erreichen.

Aufbau von Vertrauen erfolgt also durch
  • Vorhersagbarkeit
  • Verlässlichkeit
  • langjährige Erfahrung
  • Offenheit
Im Bereich der digitalen Langzeitarchivierung spielt Vertrauen eine zentrale Rolle. Wir wollen ja gerade unsere wertvollen Dokumente für kommende Generationen nutzbar halten und sind auf vertrauenswürdige Archive angewiesen.

Vertrauenswürdige Software

Da ein digitales Langzeitarchiv mehrere Komponenten umfasst, müssen wir all diese Komponenten bezüglich ihrer Vertrauenseigenschaft untersuchen.

Eine zentrale Rolle in digitalen Langzeitarchiven nimmt das Thema Software ein. Dies reicht von Betriebssystem, über Zugriffskomponenten, Datenbanken bis hin zur Steuerungssoftware (Archivsoftware) für die Realisierung der OAIS-Funktionalitäten.

Auch hier gelten og. Punkte:

  • Verhält sich die Software konsistent?
  • Ist die Software sicher? Und tut sie, was sie soll?
  • Ist sie über die Jahre stabiler geworden?
  • Wird sie weiterentwickelt?
  • Können wir "hineinschauen"?

Freie Software hat hier den Charme, daß sie durch ihre Offenheit ermöglicht, daß wir die Arbeitsweise besser verstehen, Fehler finden und ggf. beseitigen können.

Doch reicht unser Blick? Ist es ausreichend auf unsere Erfahrung mit der Software zu vertrauen? Sollten wir es lieber auch mal prüfen, wenn die Software meldet, sie hätte erfolgreich etwas ins Archiv gesichert? Ist frei einsehbarer Quellcode genug?

Nach einiger Erfahrung hier im Team, müssen wir diese Fragen mit einem klaren Nein! beantworten (auch bei Verwendung freier Software nicht, dies hat ua. auch mit dem Stichwort Komplexität zu tun).

Es ist notwendig, über kleine Helferlein stichprobenartig nachzuprüfen, daß unsere Erwartungen an Software erfüllt sind.

Wir haben im Laufe der Zeit einige Hilfsprogramme entwickelt, die unabhängig von der Archivsoftware Prüfungen vornehmen, zB.:

  • Hat jedes Archivpaket auch alle Dateien?
  • Sind wirklich alle Kopien identisch?
  • Funktioniert die Web-Schnittstelle nach dem Update noch wie erwartet?
  • Landen alle Archivpakete tatsächlich auf Band?
  • Wurde die Prüfsumme korrekt berechnet? Oder ist das Programm fehlerhaft?

Vertrauenswürdige Hardware


Auch bei der Hardware ist es sinnvoll, unabhängige Pfade und Prüfungen einzubauen.
Wie schnell kann ein Treiberproblem Teile des Archivs gefährden? Was, wenn das Netzwerk ausfällt? Was wenn Puffer voll laufen?

Auch hier haben wir im Laufe der Zeit Helfer gebaut und uns notiert, was wir bei der nächsten Hardwareablösung anders konzipieren würden:
  • Mindestens ein Kopienpfad über alternative Hardware (Storage)
  • Stete Mitspeicherung spezieller Monitoringdateien parallel zu den Archivpaketen um frühzeitig Fehler zu entdecken
  • Anbindung an Monitoring-Systeme
  • Prüfung von Checksummen nach jedem Kopiervorgang

Vertrauenswürdige Archive

Ein Archiv ist dann umso vertrauenswürdiger, wenn es sich dem Prinzip Offenheit und Peer Review (durch andere LZA-Kundige) verpflichtet fühlt.

Die bestehenden Zertifizierungsangebote Data Seal of Approval und nestor-Siegel unterstützen dieses Prinzip, da sie über ihren Kriterienkatalog eine Offenlegung der Dokumentation über Organisation, Prozesse, Umgang mit den digitalen Objekten und Technologien des jeweiligen Archives verlangen und damit Archive vergleichbarer machen.