webleads-tracker

Format, pérennité et archivage | Spark Archives

Format, pérennité et archivage

La question de la conservation à long terme des documents électroniques pose la question de la pérennité des documents au sens de la lisibilité de ceux-ci pour les générations à venir. Comme cela a déjà pu être longuement débattu, les stratégies de pérennisation oscillent ou se complètent entre émulation et migration de format. Si le monde idéal serait probablement celui de l’émulation, il reste difficilement atteignable et la migration de formats est aujourd’hui encore la solution la plus à même et la plus crédible à grande échelle pour peu que l’on se concentre sur les documents les plus courants : texte, image, son et vidéo. A ce titre, il faut d’ores et déjà envisager une politique d’archivage en entrée finalement assez restrictive de manière à s’assurer que les formats sélectionnés sont “contrôlables” afin de mieux garantir leur lisibilité sur le long terme.

En effet, dans le cas contraire la grande quantité de formats et leur entretien peut vite s’avérer complexe et onéreuse. A ce titre on citera par exemple les évaluations effectuées par les archives nationales d’Australie qui, si on reprend nos formats cibles, donnent :

Texte

Formats préférés

  1. Open document Text Format (ODT)
  2. Plain Text (TXT)
  3. Portable Document Format/Archival (PDF/A-1)
  4. Portable Document Format/Archival (PDF/A-2)

Formats acceptés

  1. Microsoft Word 97 Binary Document Format (DOC)
  2. Microsoft Word Office Open XML (DOCX)
  3. Portable Document Format (PDF 1.7)
  4. EPUB, Electronic Publication, version 3

Image

Formats préférés

  1. Portable Network Graphics (PNG)
  2. Tagged Image File Format (TIFF)
  3. JPEG 2000 (JP2), lossless
  4. JPEG File Interchange Format (JPEG/JFIF) with JPEG compression

Formats acceptés

  1. Exchangeable Image File Format (Exif)
  2. Graphics Interchange Format (GIF)
  3. Portable Document Format/Archival (PDF/A-1)
  4. Portable Document Format/Archival (PDF/A-2)

Son

Formats préférés

  1. Broadcast Wave (BWF)

Formats acceptés

  1. Free Lossless Audio Codec (FLAC)
  2. Audio Interchange Format (AIFF)
  3. Moving Pictures Expert Group Layer 3 / MPEG-1 Layer 3 / MPEG-2 Layer 3
  4. Moving Pictures Expert Group / MPEG-4 / Advanced Audio Coding (AAC)

Vidéo

Formats préférés

  1. Motion JPEG 2000(MJP2 or MJ2)

Formats acceptés

  1. Audio Video Interleaved Format (AVI)
  2. Material Exchange Format (MXF)
  3. Quicktime (MOV)
  4. MPEG-2 Video (MPEG2)
  5. MPEG-4
  6. Windows Media Video 9 File Format (WMV)

Un autre tableau correspondant aux formats supportés par les archives nationales britanniques montre quelques différences tout autant que le tableau de synthèse effectué par exemple par les archives de Zurich et l’étude comparative sur les formats de préservation numérique réalisé par le Canada.

Un enjeu important passe par la conservation des métadonnées de ces fichiers électroniques et à ce titre on aura à l’esprit que les métadonnées de pérennisation se décomposent en :

  • métadonnées descriptives avec comme exemple le Dublin Core. Ces métadonnées permettant “d’identifier, classifier, hiérarchiser l’information contenue dans l’objet numérique”. A ce titre le format de ces métadonnées est plutôt de type XML ou RDF selon les contextes.
  • métadonnées techniques qui décrivent “ce que peut contenir un format de représentation et comment l’exploiter. (...) elles permettent de définir comment restituer ou transformer par des moyens logiciels et/ou matériels l’information sous une forme intelligible.En ce sens on s'appuiera sur des outils tels que Fits, DROID, JHOVE, VeraPDF, Apache Tika... qui d’ailleurs peuvent mener à une approche combinatoire.  On notera tout particulièrement l’approche de l’Open Preservation Foundation et l’utilisation de différents logiciels pour mener à bien ce travail afin que tout un chacun puisse s’en inspirer.
  • métadonnées de structure qui “servent à connaître l'organisation de l’information contenue et celle des objets numériques”. A ce titre, on privilégiera les implémentations de type MTES, XFDU, MPEG-21,...
  • métadonnées administratives qui “servent à gérer la vie de l’objet numérique. Elles regroupent les métadonnées d’identification, de contexte, de provenance, d’intégrité et de gestion des droits”. On notera à ce titre l’exemple d’ARK pour les métadonnées d’identification et si on se réfère à OAIS avec l’exemple mis en place à la BNF, on notera l’importance de PREMIS en tant que dictionnaire de données.

On le voit, l’importance de la définition en entrée des formats susceptibles d’être pris en charge dans le cadre de la politique d'archivage doit s’appuyer en complément sur une réflexion approfondie sur les métadonnées à conserver qui permettront de pérenniser à la fois le fichier d’origine et les migrations de supports associées à ce format ainsi que les métadonnées correspondantes. Se pose ensuite ou en parallèle la question du timing de la migration de format. En effet, généralement, trois hypothèses préexistent :

  • La migration de formats en amont : la conversion vers le format pérenne du document électronique a été faite en amont du système d’archivage permettant d’utiliser les ressources mises en place et permettant en cela de se conformer strictement à la politique d’archivage,
  • la migration de format en entrée du système d’archivage électronique : dans ce cas la politique d’archivage détermine les formats préférés/acceptés et intègre un outil de conversion vers le format pérenne correspondant. L’exemple le plus simple étant la conversion vers le format PDF/A-1, PDF/A-2 après avoir évidemment déterminé quels sont les formats sources en entrée qui doivent être convertis vers l’un de ces deux formats. Il faudra déterminer pour les fichiers sources en entrées, les plans de classement qui doivent être convertis dans le format cible.
  • la migration de format au cours du temps : dans le cas où certains formats sources et dans le cas d’une reprise des données par exemple il n’est pas toujours possible, envisageable de convertir tous les fichiers. De même, la migration de format s’envisage avec une pointe de recul pour déterminer quels sont les formats nécessitant cette conversion vers un format cible tout en faisant attention par exemple à migrer les seuls documents électroniques devant être pérennisés. Il y a peu de chance qu’un document électronique à conserver sur une période courte fasse l’objet d’une migration de format.

Dès lors que l’ensemble de ces éléments sont réunis, la politique de migration de format peut être mise en œuvre s’appuyant en cela sur des convertisseurs ad hoc selon les formats texte, audio, vidéo, son cibles. Bien entendu, on fera en sorte de toujours conserver le format d’origine qui devra rester intègre tout au long du cycle de vie des archives.

A ce titre, il est important de noter les impératifs indiqués ci-dessus en lien avec les outils de validation de format tels que veraPDF pour le PDF, … et de déterminer quel est le degré attendu en terme de validation de format et vérifier que les outils de migration de format sont en capacité d’effectuer ces validations. 

En terme de conversion, il y a évidemment les logiciels propriétaires (adlib, adobe, aspose,... par exemple pour la conversion bureautique). Il y a également des outils en open-source comme ceux cités par exemple dans l’étude du CINES en 2014. On pourra également consulter les études sur les formats sur le site des Archives de France et quelques outils de conversion de formats tels que référencés sur le blog du site des Archives de France.

Ce qu’il faut retenir d’un point de vue pratique c’est que la migration de format est un challenge en soi et qu’il faut se donner le temps de pouvoir y répondre. Il faudra bien identifier les formats des documents électroniques sources devant être migrés et les outils de conversion et de validation associés. Spark Archives adresse parfaitement ces problématiques.

Herwann Perrin
Product and Consulting manager

 

Autres sources : 

  • L’archivage numérique à long terme. les débuts de la maturité ?, 2009, p.129 et suivantes.
  • Ibid

Nous contacter

Adresse :
La Boursidière
BP 159
92357 Le Plessis-Robinson Cedex
 
Téléphone :
+33 (0)1 46 29 25 25
e-mail icon
Twitter icon
Facebook icon
Google icon
LinkedIn icon

Spark Archives, une solution éditée par KLEE GROUP

Contact

Spark Archives
La Boursidière
92350 Le Plessis-Robinson

+33 (0)1 46 29 25 25

sparkarchives@kleegroup.com

Nous rejoindre

Découvrez nos offres de stages et nos offres d'emploi et postulez en ligne !

Nous suivre