Donnerstag, 30. März 2017

Nestor - DIN - Workshop "Digitale Langzeitarchivierung", Nachlese

Gestern fand in den Räumen des DIN e.V. ein Workshop des Kompetenznetzwerkes digitale Langzeitarchivierung nestor und der DIN statt. Dies soll nur eine kleine Zusammenfassung für die Zuhausegebliebenen sein und erhebt keinen Anspruch auf ein objektives oder gar vollständiges Protokoll :)
Falls Fehler vorliegen bitten wir um eine Email mit Korrekturhinweisen ;)

Arbeiten des NID 15 Ausschuß


Im Kern ging es  im Workshop um die Frage, welchen Standard wollen wir in der digitalen Langzeitarchivierung in den nächsten 5-8 Jahren haben und wie kommen wir dahin?

Mit dieser Frage startete Prof. Keitel den Workshop und skizzierte nachfolgend die Ausgangslage von 2005.

  • abstraktes Thema "digitale Archivierung"
  • DIN 31646/31644/31645 aus Nestor "Dunstkreis"
  • DIN 31647 "Beweiserhaltung kryptograf. signierter Dokumente"
  • Rücklauf, ob Norm in Praxis verwendet werden ist schwierig zu erkennen
  • beziehen sich auf OAIS (ISO14721)
  • zeigen, ob man sich noch im Rahmen der digitalen LZA bewegt.

Aktuell ergänzen praktische Erfahrungen diese frühen theorethischen Überlegungen. Die Frage ist daher, ob es Bereiche gibt, wo sich die Ausgangsthesen mittlerweile überholt haben?

Es gilt, so Prof. Keitel,
  •  Schwerpunkte, die sich zur Standardisierung eignen, herauszukristallisieren
  •  Mitarbeitern zu finden, die sich in der Normierungsarbeit in den neuen Feldern einbringen wollen

Ob man für Normungsarbeit geeignet sei, läßt sich launisch an folgenden Kriterien festmachen (Zitat):
  • Lange auf Stuhl sitzen
  • Verbessere gern Geschriebenes anderer Leute
  • bei genauen terminologischen Definitionen verstehe ich keinen Spaß und mache keine Kompromisse
  • ich lese gerne Dokumente mit Titelen, wie...
Im Anschluss wurde die Schwierigkeit angesprochen, Feedback zu bestehenden DIN Normen zu erhalten.

PDF Standardisierung


Olaf Drümmer von der callas software GmbH skizzierte einführend die Geschichte von PDF und wies auf die neue Version 2 hin:

  • 1993-2006 Adobe PDF 1.0 -> 1.7
  • 2008 ISO: PDF 1.7 als ISO 32000-1
  • 2017 ISO: PDF 2.0 als ISO 32000-2 (im nächsten Quartal, >1000 Seiten)
    • neue kryptografische Verfahren
    • tagging überarbeitet
    • Problemfeld im Normungsprozess waren Farben
    • Namespaces wurden eingeführt, zB. um Tags aus HTML 5 einbinden
Er ging dann auf die PDF-Spezialisierungen ein:

  • 2001 PDF/X Übermittlung von Druckvorlagen
  • 2005 PDF/A Archivierung, ISO Reihe 19005
    • entstanden aus Notwendigkeiten der US Courts, Library of Congress
  • 2008 PDF/E ISO 24517, Engineering (CAD), noch nicht stark verbreitet, Ende des Jahres auch 3D Modelle
  • 2010 PDF/VT ISO 16612-2 + PDF/VCR ISO 16612-3, variabler Datendruck (großvolumige Rechnungen, Serienbriefe)
  • 2012 PDF/UA ISO 14289 Reihe, Barrierefreiheit
Die Bedeutung der Normung ergibt sich nach Drümmer allein schon aus der
Verbreitung von PDF Dokumenten:
  • Anzahl PDF Dokumente weltweit, mind. Billionen (10¹²), davon 6 Millionen allein beim US Court
  • Lebenserwartungen pro PDF: Stunden bis Jahre
Weiter ging er auf die Herausforderung Variantenvielfalt ein:
  • PDF/X, 8 Normteile, insgesamt 12 Konformitätsstufe
  • PDF/A Normenreihe, 3 Normteile, insgesamt 8 Konformitätsstufen
  • Unübersichtlich, mangelnde Trennschärfe?
  • Flexibilität bzw. Mächtigkeit
  • offener Charakter
  • breite Abdeckung
Wie es mit der Normierung ab 2017 weitergehen soll skizzierte er anschliessend:
  • PDF2.0 weitgehend rückwärtskompatibel, keine Validierung bei Veröffentlichungen vorgesehen
  • Projekt "Camelot2" soll klassische PDF-Dokumentenwelt und Open Web Platform zusammenbringen, mehr Infos zu PDF Days Europe 2017, Berlin, 15.-16. Mai 2017
  • PDF/A4 als Ziel: keine Konformitätsstufen
  • PDF/E erlaubt interaktive Elemente (JS), PDF/E-2 soll eher eine Archivausprägung weniger eine Arbeitsdokumentausprägung bekommen
  • XMP kann im PDF an *allen* Stellen angebracht werden, so dass man darin auch Quellen oder zB. UUIDs dafür hinterlegen kann
  • PDFA/3 kann auch alternative Verknüpfung zum Inhalt beliebiger Dateien hinterlegen, Problem: nicht verpflichtend und muss über Policy geregelt werden

nestor


Prof. Keitel skizzierte kurz die Arbeit von nestor:

  •  …ist auf jeden Fall Kooperationsnetzwerk
  • stellt AGs vor

Vertrauenswürdige Archive

  • * 2004-2008 Nestor Kriterienkatalog
  • * 2008-2012 DIN31644
  • * 2013-… nestor Siegel

Submission Information Packages - Überarbeitung der Ingest-Standards


Dr. Sina Westphal und Dr. Sebastian Gleixner (Dt. Bundesarchiv) regten in einem Impulsvortrag die Normierung des Ingestvorgangs und der SIPs an.

  • Bundesarchiv 4PB/Jahr Zuwachs
  • Anreiz zur allmählichen Angleichung der Systeme
  • vereinheitlichte Metadaten
  • verbesserter Datenaustausch
  • vereinheitlichte Schnittstellen
Konsequenzen:
  • Vereinheitlichung bestehender SIPs (ggf. auch AIPs/DIPs)
  • Vereinheitlichung bestehender digitaler Archivsysteme

Zwei Teilbereiche:
  • Standardisierung des SIP (konkret)
    • Struktur
    • Metadaten
    • Primärdaten
    • vgl. E-ARK, e-CH, EMEA
  • Standardisierung des Ingest-Prozesses (abstrakt)
    • Verbindung zum Erschliessungstool
    • Validierung
    • Ingest
    • Umgang mit Primärdaten

Fragen:
  • Vereinheitlichung möglich?
  • Ist Standardisierung AIPs/DIPs und der damit verbundenen Prozesse notwendig?

Im Anschluss erfolgte eine Diskussion über Abgrenzung und konkrete Austauschverfahren mit ff. Ergebnis:

  • Trend geht hin zu abstrakter Modulbeschreibung
  • konzeptioneller Rahmen erwünscht
  • Festlegung welche Module verpflichtend, welche optional sind
  • empfohlener Einstiegspunkt für Automatisierung

Videoarchivierung als neue Herausforderung, Langzeiterhaltung audiovisueller Medien jenseits von Film- und Fernsehen


In diesem Impulsvortrag von Alfred Werner, HUK Coburg wurde die Problematik der Langzeitarchivierung von Videos skizziert.

  • Bandbreite Außenstelle 5-15MBit/s
  • wandeln in Multipage-TIFF monochrom (kleine Dateien) und in JPG um,
  • Videos erwünscht,
    • 2011 5 Videos/Tag
    • 2016 20 Videos/Tag (im Gegensatz zu 10.000 Schadensfälle pro Tag)
    • 2021 100?/1000? Videos/Tag
  • Dashcam-Videos seit diesem Jahr erlaubt

Problem: unterschiedlichste Formate, Tendenz steigend, es wird nicht besser (3D, HDR, 4k, 2 Objektive, Spezialsensoren)

mögliche Lösung: Konvertierung in ein Langzeitarchivformat für Videos

Anforderungen:
  • Standard für die nächsten 50 Jahre
  • Lizenzfrei
  • bestmögliche Qualität
  • geringer Speicherplatz
  • gute Antwortzeiten auch bei geringer Bandbreite

dann noch Funktionen für Sachbearbeiter, wie:
Zoomen, Sprungmarken setzen, Extrahieren Einzelbilder, Schwärzen, Szenen extrahieren.

In der anschliessenden Diskussion wurde das Problem deutlich, dass man sich im Spannungsfeld zwischen Robustheit und originalgetreuer Wiedergabe einerseits und Ressourcenbedarf (Speicher, Bandbreite, Processingzeit) andererseits befindet.

Anmerkung: Dazu wurde auf der nestor-ML ein ergänzender Beitrag verfasst.


Digital Curation


Auch hier hielt Prof. Keitel ein Impulsreferat. Ich hoffe, ich kann den Inhalt korrekt wiedergeben:

Unterschied Data Curation zu Langzeitarchivierung nach OAIS: wir reden nicht mehr von Einrichtungen/Organisationen, sondern von Techniken. D.h., fehlen der organisatorischen Verantwortung.

OAIS goes Records Managment, dh. wie kann man Anforderungen der digitalen LZA an Produzenten bringen (durch digital curation), AIP liegt quasi beim Produzenten.
Wie harmonieren die von OAIS/PREMIS genannten Erhaltungsfunktionen mit den Rgelungen des Records Managment? Welche Elemente/Gruppen müssen wir aus Erhaltungsgründen unterscheiden?

Keitel: "Wir gingen bisher immer von einem Kümmerer aus, der Dinge auf Dauer bewahrt. Digital Curation setzt vorher beim Producer an"

Zusammenfassung


Aus unserer Sicht sollte der Ingest versucht werden besser zu standardisieren. Nur so wäre es möglich, dass man Produzenten Werkzeuge in die Hand geben kann, die nicht archivspezifisch sind. Der Weg dorthin ist steil, zumal allein schon die Wege die Archive und Bibliotheken einschlagen sehr unterschiedlich sind.

PDF ist und bleibt leider ein Minenfeld. Weder wurden mit PDF2 bestehende Ambiguitäten ausgeräumt, noch vereinfacht sich der Standard. Besonders nachteilich dürfte sich die fehlende offizielle Validierung erweisen. Hinzukommt dass der Formatzoo rund um PDF weiter anwächst und Mischformen von Dokumenten möglich sind, d.h. ein PDF kann sowohl PDF/E als auch PDF/A sein.

Der Bedarf nach langzeittauglichen Videoformaten ist vorhanden. Eine Normierung könnte helfen, die Unterstützung durch Hersteller zu forcieren. Am Thema Video wurde deutlich, dass die digitale Langzeitarchivierung Kosten verursacht, die nicht leicht zu vermitteln sind. Datenkompression, insbesondere die verlustbehaftete führt zu einem höheren Schadensrisiko bei Bitfehlern. Die Diskussion über das Spannungsfeld Robustheit/Qualität vs. Kosten muss in der Community geführt werden, ist aber außerhalb von Normungsbemühungen anzusiedeln.

Data Curation ist eine Aktie für sich. Es gibt Lücken, die entstehen, wenn Dokumente Lebenszyklen von mehreren Jahrzehnten aufweisen. Mein Bauchgefühl sagt mir, dass dies ebenfalls unter Langzeitverfügbarkeit subsummiert werden kann, da wir in der Langzeitarchivierung ja die Dokumente auf unbestimmte Zeiten nutzbar halten wollen. Data Curation scheint mir demnach nichts anderes als der Sonderfall zu sein, als das Produzent und Archiv als Rolle zusammenfallen.