Daten für die Ewigkeit

Langzeit-Archivierung

Die Formatfrage

© PC Magazin

Eine der Aufgaben der Bayerischen Staatsbibliothek ist die elektronische Archivierung historischer Bücher.

Mit dem Einlesen der Daten als TIFFs, um sie später per OCR lesbar zu machen, ist man auf der sicheren Seite. Dennoch ist es in der Praxis meist sinnvoll, Textdokumente in dafür geeigneten Formaten zu archivieren. Hier empfehlen Nestor und Institutionen wie das Bundesamt für Sicherheit in der Informationstechnik (BSI) die Beschränkung auf Standardformate.

Erste Wahl sind herstellerunabhängige Standards, die von anerkannten Organisationen wie der ISO oder dem W3C spezifiziert sind, zum Beispiel ASCII, Unicode, SVG und XSL.

Einige herstellerabhängige Formate haben sich als Quasi-Standards am Markt durchgesetzt, bestes Beispiel ist das PDF von Adobe. Die Spezifikation ist ebenfalls frei verfügbar, steht aber unter der alleinigen Kontrolle des Eigentümers.

PDF kommt eine besondere Bedeutung bei der Archivierung zu. 2005 hat die ISO das PDF/A-Format ("A" = Archive) als Standard für die Langzeit-Archivierung von Dokumenten zertifiziert. Das BSI empfiehlt dieses Format ebenfalls für die Langzeit-Archivierung.

© PC Magazin

Die Bandbibliotheken im Daten- und Archivraum des Leibniz Rechenzentrums

Seitdem wird dieses Format im Markt hoch gehandelt. Viele Hersteller sind bereits von den Vorteilen des PDF/A-Formates überzeugt und haben ihre Produktpalette entsprechend angepasst oder erweitert. Der Standard PDF/A (ISO Standard 19005-1) basiert auf PDF 1.4, schließt aber einige Funktionen davon aus, da sie eine langfristige Darstellbarkeit beeinträchtigen könnten.

So ist die Verwendung externer oder spezifischer Ressourcen wie eingebetteter Fonts nicht erlaubt. Durch diese und andere detaillierte Vorschriften soll eine langfristige Lesbarkeit der Dokumente garantiert sein - und zwar unabhängig davon, mit welcher Anwendungs-Software und auf welchem Betriebssystem sie ursprünglich erstellt wurden.

Beim BSI finden Sie eine Liste von Formaten, die für die langfristige Archivierung von Text-, Bild-, Audio-und Videodateien geeignet sind.

Tipps zur Langzeit-Archivierung

Die vorgestellten Projekte sind vor allem auf die wissenschaftliche Archivierung ausgelegt. Eine unmittelbare Übertragung auf andere Bereiche ist derzeit kaum möglich.

Dennoch schälen sich einige Strategien heraus, die auch im Unternehmen oder Privatbereich angewendet werden sollten.

Hier die wichtigsten Faustregeln:

  1. Verwenden Sie möglichst wenige Datenformate.
  2. Verwenden Sie möglichst offene und standardisierte Dateiformate. Also statt .DOC, XLS oder BMP besser das OpenDocument-Format ODF, PDF oder TIFF. Diese gelten auch als besonders langlebig.
  3. Sie sollten das Archiv regelmäßig aktualisieren und Archive mindestens doppelt anlegen.
  4. Halten Sie sich bei der Vergabe von Dateinamen an den 8.3-Standard: Acht für den Namen, drei für den Dateityp, etwa: beispiel.pdf
  5. Bewahren Sie das Backup räumlich getrennt vom Original auf.
  6. Alle drei bis fünf Jahre sollte das komplette Archiv plus Backup vom alten Datenträger auf einen neuen migrieren.
  7. Verwenden Sie keine CDs oder DVDs zur Archivierung, sondern statt dessen Festplatten oder, im Unternehmensbereich, Magnetbänder. Festplatten sollten staubdicht lagern und gelegentlich gestartet werden.
  8. Im professionellen Bereich bieten sich zur Verwaltung des Archivs Dokumentenmanagementsysteme an.Weitere konkrete Tipps finden Sie in der FAQ von langzeitarchivierung.de

LANGZEITARCHIVIERUNG IN WISSENSCHAFT UND KULTUR

Nestor-Projekt: www.langzeitarchivierung.de Nestor-Handbuch: http://nestor.sub.uni-goettingen.de/handbuch/index.php Kopal-Projekt: http://kopal.Langzeit-Archivierung.de DigitalPreservationEurope (EU-Projekt): www.digitalpreservationeurope.eu PDF/A Kompetenzcenter: www.pdfa.org/doku.php Auswahl geeigneter Datenformate: www.bsi.bund.de/ContentBSI/grundschutz/kataloge/m/m04/m04170.html Informationssammlung: www.uni-muenster.de/Forum-Bestandserhaltung/konversion/digi-langdat.html Langzeit-Archivierungs-Projekte am LRZ: www.lrz.de/projekte/langzeitarchivierung Google Projekt bei der Bayerischen Staatsbibliothek: www.bsb-muenchen.de/Massendigitalisierung_im_Rahme.1842.0.html

Mehr lesen

Chronologische Liste und Netflix-Links -

Neuerscheinungen in der Übersicht -

Vorschau auf Film- und Serien-Highlights -

Mehr zum Thema

Sicherheit

In den letzten Wochen erreichten uns Meldungen von Forscherteams, die nicht nur an entgegengesetzten Enden der Welt forschen, sondern auch, je nach…
Datenrettung

Schnell hat man aus Versehen eine Datei gelöscht oder eine DVD ist nicht mehr lesbar. Wir zeigen Ihnen, wie Sie Daten retten können und was Sie dazu…
Hardware-Hintertür für NSA?

Steve Blank glaubt, dass NSA, Prism & Co. via Sicherheitsupdates Zugriff auf Intel- und AMD-CPUs haben. So ließe sich der Großteil des Internet…
Hitachi Spitze bei HDD-Zuverlässigkeit

Der Online-Backup-Anbieter Backblaze hat eine Statistik darüber veröffentlicht, welche Festplatten besonders zuverlässig sind. HDD-Hersteller Hitachi…
Computer ohne Werbung

Wer unachtsam Programme installiert, kann sich schnell unerwünschte Software-Parasiten einfangen. Wir geben 5 Tipps, wie Sie Adware vermeiden.