Donnerstag, 9. Juni 2016

Formatidentifikation vs. Formatvalidierung - Wem glauben wir eigentlich?

Deutsch (english version below)


Wer in der Lage sein will, die Daten in seinem digitalen Langzeitarchiv auch in Zukunft noch durch Migrationen verfügbar zu halten, muss schon beim Ingest darauf achten, dass die eingelieferten Dateien auch den einschlägigen Standards und Spezifikationen entsprechen.

Bisher fährt man dafür einen zweistufigen Ansatz. Zuerst identifiziert man den Dateityp einer Datei (z. B. anhand der Dateiendung oder einer Signatur) mit einem Werkzeug wie DROID, dann prüft man sie mit einem Formatvalidator. Dieser Ansatz stellt den Anwender aber vor ein fundamentales Problem: was passiert, wenn eine Datei die Formatvalidierung nicht besteht? Wer hat Recht? Hat nicht gerade die Formatidentifizierung ergeben, dass man eine Datei eines bestimmten Formates vor sich hat? Warum widerspricht der Validator dann? Momentan speichert das Archivsystem das erkannte Format in den Metadaten ab, selbst wenn die Datei die Formatvalidierung nicht besteht.

Man kann also nur dann davon ausgehen, dass man z. B. eine TIFF-Datei vor sich hat, wenn der Aufbau der Datei auch der TIFF-Spezifikation entspricht. Ist das nicht der Fall, dann hat man auch kein TIFF vor sich, denn der innere Aufbau ist ja sehr eindeutig spezifiziert. Man hat also etwas vor sich, das nur ungefähr so aussieht wie eine TIFF-Datei, aber keine echte TIFF-Datei.

Eigentlich richtig wäre deshalb der restriktivere Ansatz. Die Formatidentifikation darf hier nur ein Hilfsmittel sein, um das richtige Validierungswerkzeug auszuwählen. Nur wenn die Validierung erfolgreich ist, darf auch das erkannte Dateiformat in den Metadaten festgehalten werden; die verbindliche Formatidentifikation findet also implizit bei der Formatvalidierung mit statt. Ist die Validierung nicht erfolgreich, dann könnte man noch das Formatidentifizierungswerkzeug befragen, ob evtl. eine ähnliche Signatur für einen anderen Dateityp hinterlegt ist, und dann die Validierung wiederholen. Ist das nicht der Fall, dann muss man von einem unbekannten Dateityp ausgehen und ggf. die Datei beim Ingest zurückweisen.

Zusatz für ganz Unerschrockene: viele Formate haben eingebettete Formate, Unterformate oder sind selbst Container für andere Formate. Genau genommen müsste man nicht nur das äußerste Format prüfen, sondern auch die korrekte Einbettung der Unterformate und deren eigene Validität. In das Langzeitarchiv dürften die Dateien nur dann aufgenommen werden, wenn auch alle ihre eingebetteten Dateien korrekt validiert werden können. Was das für TIFF (eingebettete ICC-Profile, XMP- & IPTC-Metadaten, ...), OpenOffice Dokumente (XML und Bilder in ZIP eingebettet), PDF (alle möglichen eingebetteten Dateiformate und Codeschnipsel, dazu Links zu externen Quellen), das Webarchivformat WARC (buchstäblich alle Formate, die auf Webseiten vorkommen können) und viele andere Formate bedeutet, mag sich jeder selbst in seinen Alpträumen von der Formathölle ausmalen. Klar ist: im Moment tun wir auch in Ermangelung geeigneter Werkzeuge viel zu wenig um sicherzustellen, dass nur valide Dateien in unsere Langzeitarchive gelangen.


Format identification vs. format validation - Who are we actually believing here?


English


If you want to be able to keep the data in your digital preservation repository available by future migrations, you have to take care during ingest that the ingested files comply with the respective standards and specifications.

Up until now, most institutions use a two step approach. In the first step, a file's type is identified (e. g. via it's file ending or a signature) using a tool like DROID, then it is validated using a file format validator. However, this approach imposes a fundamental problem on the user: what happens if a file doesn't validate successfully? Who's right then? Didn't the format identification just state that you have a certain file type in front of you? Then why does the validator object to that? At the moment, digital preservation systems just save the identified file format in their metadata, even if the file does not pass the format validation step.

In summary, you can assume that you have, for example, a TIF file in front of you, if and only if the file's internal structure resembles the definitions from the TIFF specification. If that's not the case, then you don't have a TIF file there, because it fails to comply with the expected internal structure. What you have instead is something the looks something like a TIF file, but isn't a real TIF file at all.

For that reason, institutions should prefer the more restrictive approach. Here, the format identification doesn't determine the final decision on the files' format and is only used as a means to choose the right validation tool. The identified file format may only be saved in the metadata if the validation step succeeds; the actual authorative format identification happens implicitely during the format validation. If the format validation does not succeed, then the format identification tool could be queried for file types with a similar signature that could be checked with another validation tool. If there is none, then you would have to assume that the file type is "unknown" und reject the file upon ingest.

Additional note for the fearless: many formats have embedded formats or subformats themselves, or act as containers for other formats. To be very exact, preservation systems and validation tools would not only have to validate the outermost format, but also the correct embedding and the validity of the embedded files. New files would only be allowed into the preservation system if their embedded files validated correctly as well. You might imagine what that means for TIFF (embedded ICC profiles, XMP- & IPTC-Metadata, ...), OpenOffice Dokuments (XML and images embedded in ZIP containers), PDF (all kinds of embedded file formats and code snippets, also links to external sources), the web archive format WARC (literally all formats that might be used in a web site) and many other formats in your personal nightmares about format hell all by yourself. However, one thing is very clear: at the moment, we're doing far too little to make sure that solely valid files are allowed into our digital preservation systems, partly because of the lack of suitable tools.

Keine Kommentare:

Kommentar veröffentlichen