Schädlingsbekämpfung ist ein immerwährendes Problem in Bibliotheken und Archiven. Silberfischchen, Papierfischchen und andere Übeltäter laben sich an den Beständen und richten dabei beträchtliche Schäden an.
Da die Schädlingsbekämpfung nicht als explizite Aufgabe im OAIS-Referenzmodell aufgeführt ist, haben einige digitale Langzeitarchive hier bisher deutliche Defizite. Inzwischen spüren aber auch diese Einrichtungen immer deutlicher, dass die Schädlingsbekämpfung nicht vernachlässigt werden darf.
Angelockt von umfangreichen digitalen Beständen nisten sich Bitfischchen und Käfer (in der Fachsprache "Bugs" genannt) in Kabelhaufen ein und vermehren sich dort ungestört. Das Nahrungsangebot durch den reichlich vorhandenen Kabelsalat ist gut, und so wachsen die Populationen schnell an. Reste von Junk sowie Binärmüll-Krümel verschärfen das Problem zusätzlich.
Nicht nur die Anzahl der Fischchen, sondern auch ihre lange Lebensdauer ist ein Problem. Viele von Ihnen werden acht bis zehn Jahre alt, Microfichechen sogar noch deutlich älter.
Im moderigen Milieu vieler digitaler Archive fühlen sich auch Magnetbandwürmer wohl, die sich vor allem an den Daten auf WORM-Tapes laben. Daten, die nicht von den kleinen Plagegeistern zerstört werden, zerfallen in der fauligen Umgebung durch den Bitrot zu unlesbarem Datenkompost, der die Datenleitungen verstopft und so die Verarbeitung stört.
Eine gute Seite hat die neue Plage allerdings: findige Informatiker haben herausgefunden, dass Bitfischchen hervorragend zur Herstellung von Bitfett geeignet sind. Sie nutzen es, um Leitungsverbindungen zu schmieren und so die Reibung bei der Datenübertragung zu reduzieren, was wiederum positiv auf den Durchsatz auswirkt.
Posts mit dem Label Lesbarkeit werden angezeigt. Alle Posts anzeigen
Posts mit dem Label Lesbarkeit werden angezeigt. Alle Posts anzeigen
Montag, 1. April 2019
Freitag, 15. August 2014
Was vom Buche übrig blieb
Diese Frage stellt sich, wenn ein digital archiviertes Buch nach Jahrzehnten der Aufbewahrung hervorgeholt wird.

"Old book bindings" by Tom Murphy VII - Own work. Licensed under CC BY-SA 3.0 via Wikimedia Commons.
Vor einigen Jahren war es üblich, Scans aus Speicherplatzgründen ausschliesslich in s/w abzuspeichern. Als dann die Archive und Bibliotheken diese Digitalisate wieder hervorholten, um diese einer OCR-Erkennung zuzuführen, mussten sie feststellen, dass das pure Speichern als unbereinigte s/w-Grafik zwar noch reichte, damit ein Mensch den Text erkennen konnte. Doch die Qualität reichte nicht aus, um mit OCR-Programmen vernünftige Ergebnisse¹ zu erzielen.
Wer heutzutage digitalisiert, kann von diesen leidvollen Erfahrungen profitieren. Die Deutsche Forschungsgemeinschaft hat die best-practices gesammelt und Empfehlungen für die Digitalisierung herausgegeben.
¹(sh. http://www.landesarchiv-bw.de/sixcms/media.php/120/Werkheft_Staatl_Archiv.pdf, Artikel "Automatische Texterkennung bei digitalisiertem Archiv- und Bibliotheksgut", von Thomas Fricke und Gerald Maier, S.201ff.)
Um sicherzustellen, dass archivierte Dokumente tatsächlich für die Nutzer nutzbar sind, muss bereits vor dem ersten Einstellen der Dokumente ins Langzeitarchiv überlegt werden, welche möglichen Nutzungsszenarien für diese in Frage kommen könnten.
Aus dem einleitenden Beispiel wird klar, dass bestimmte Eigenschaften eines Dokumentes für bestimmte Nutzungsarten eine signifikante Rolle spielen. Für die Möglichkeit der OCR-Nutzung wären dies bei den Scans hinreichender Kontrast, ausreichende Auflösung (300-400dpi) und die Unterscheidbarkeit zwischen eigentlicher Schrift und irgendwelchen Flecken.
Wir haben bei der Bestimmung dieser notwendigen Eigenschaften erst durch den Blick aus der Nutzerperspektive auf ein bestimmtes Nutzungsszenario herausgefunden, dass wir die eine oder andere Eigenschaft beinahe übersehen hätten.
Für unsere Scans historischer Schriften haben wir im Moment folgende Nutzungsarten gefunden, die vielleicht für den Einen oder Anderen eine erste Anregung darstellen können:
Die visuelle Zuordnung zum Original meint, dass man irgendwie einschätzen kann: "Ah, das ist Fraktur, die Grafiken sind barocke Kupferstiche und das Wappen sieht irgendwie sächsisch aus." In dem Fall muß man nicht unbedingt die Schrift entziffern können. Man könnte sich ein Vorschaubildchen zu einem Buch vorstellen, welches einen ersten Eindruck vermittelt.
Die originalgetreue Reproduktion sollte das Buch bestmöglich wiederherstellbar machen. Für Drucke ist eine Auflösung von mindestens 600dpi notwendig, die Farben und die Abmessungen sollten dem Original entsprechen und Vergrößerungen eventuell möglich sein.
Für OCR wäre es dagegen sinnvoll, Auflösungen zwischen 300 und 400 dpi zu haben und eine Farbabbildung, die ein digitales Entfernen von Flecken und anderen Störungen ermöglicht.
Wenn man für die einzelnen Nutzungsszenarien die damit einhergehenden Eigenschaften bewertet, gegeneinander abwägt und nach den Punkten
Diese Eigenschaften sollten bei Erhaltungsmaßnahmen, wie zB. Formatmigration (zB. von TIFF nach JPEG2000) entsprechend berücksichtigt werden.

"Old book bindings" by Tom Murphy VII - Own work. Licensed under CC BY-SA 3.0 via Wikimedia Commons.
Leidvolle Erfahrung
Vor einigen Jahren war es üblich, Scans aus Speicherplatzgründen ausschliesslich in s/w abzuspeichern. Als dann die Archive und Bibliotheken diese Digitalisate wieder hervorholten, um diese einer OCR-Erkennung zuzuführen, mussten sie feststellen, dass das pure Speichern als unbereinigte s/w-Grafik zwar noch reichte, damit ein Mensch den Text erkennen konnte. Doch die Qualität reichte nicht aus, um mit OCR-Programmen vernünftige Ergebnisse¹ zu erzielen.
Wer heutzutage digitalisiert, kann von diesen leidvollen Erfahrungen profitieren. Die Deutsche Forschungsgemeinschaft hat die best-practices gesammelt und Empfehlungen für die Digitalisierung herausgegeben.
¹(sh. http://www.landesarchiv-bw.de/sixcms/media.php/120/Werkheft_Staatl_Archiv.pdf, Artikel "Automatische Texterkennung bei digitalisiertem Archiv- und Bibliotheksgut", von Thomas Fricke und Gerald Maier, S.201ff.)
Langzeitarchivierung, für wen eigentlich?
Langzeitarchivierung ist ebensowenig ein Selbstzweck, wie es die Digitalisierung von historischen Beständen ist. In beiden Fällen ist der Zweck, die historischen Beständen den Nutzern zur Verfügung zu stellen. Nicht umsonst wird zunehmend statt von Langzeitarchivierung eher von Langzeitverfügbarkeit gesprochen.Ein notwendiger Blick in die Glaskugel
Um sicherzustellen, dass archivierte Dokumente tatsächlich für die Nutzer nutzbar sind, muss bereits vor dem ersten Einstellen der Dokumente ins Langzeitarchiv überlegt werden, welche möglichen Nutzungsszenarien für diese in Frage kommen könnten.
Aus dem einleitenden Beispiel wird klar, dass bestimmte Eigenschaften eines Dokumentes für bestimmte Nutzungsarten eine signifikante Rolle spielen. Für die Möglichkeit der OCR-Nutzung wären dies bei den Scans hinreichender Kontrast, ausreichende Auflösung (300-400dpi) und die Unterscheidbarkeit zwischen eigentlicher Schrift und irgendwelchen Flecken.
Wir haben bei der Bestimmung dieser notwendigen Eigenschaften erst durch den Blick aus der Nutzerperspektive auf ein bestimmtes Nutzungsszenario herausgefunden, dass wir die eine oder andere Eigenschaft beinahe übersehen hätten.
Für unsere Scans historischer Schriften haben wir im Moment folgende Nutzungsarten gefunden, die vielleicht für den Einen oder Anderen eine erste Anregung darstellen können:
- (optische) Lesbarkeit
- visuelle Zuordnung zum Original
- originalgetreue Reproduktion
- (re-)OCR
Die visuelle Zuordnung zum Original meint, dass man irgendwie einschätzen kann: "Ah, das ist Fraktur, die Grafiken sind barocke Kupferstiche und das Wappen sieht irgendwie sächsisch aus." In dem Fall muß man nicht unbedingt die Schrift entziffern können. Man könnte sich ein Vorschaubildchen zu einem Buch vorstellen, welches einen ersten Eindruck vermittelt.
Die originalgetreue Reproduktion sollte das Buch bestmöglich wiederherstellbar machen. Für Drucke ist eine Auflösung von mindestens 600dpi notwendig, die Farben und die Abmessungen sollten dem Original entsprechen und Vergrößerungen eventuell möglich sein.
Für OCR wäre es dagegen sinnvoll, Auflösungen zwischen 300 und 400 dpi zu haben und eine Farbabbildung, die ein digitales Entfernen von Flecken und anderen Störungen ermöglicht.
Wenn man für die einzelnen Nutzungsszenarien die damit einhergehenden Eigenschaften bewertet, gegeneinander abwägt und nach den Punkten
- unbedingt zu erhalten,
- möglichst zu erhalten,
- nice to have,
- nicht erhaltenswert
Diese Eigenschaften sollten bei Erhaltungsmaßnahmen, wie zB. Formatmigration (zB. von TIFF nach JPEG2000) entsprechend berücksichtigt werden.
Labels:
Langzeitverfügbarkeit,
Lesbarkeit,
LZA,
Nutzungsszenarien,
OCR,
Reproduktion,
Signifikante Eigenschaften,
Zukunft,
Zuordnung
Abonnieren
Posts (Atom)