IRCAM - Centre Pompidou

Serveur © IRCAM - CENTRE POMPIDOU 1996-2003.
Tous droits réservés pour tous pays. All rights reserved.

Peut-on conserver indéfiniment l'information ?

Michel Fingerhut
Liste BIBLIO-FR, 22 novembre 2002
Copyright © Ircam - Centre Pompidou 2002

Ceci est le titre provocateur de la Rencontre du café des techniques qui s'est tenue hier[1] au CNAM à Paris, avec la participation de Catherine Dhérent (chef du département innovation technologique et normalisation à la Direction des Archives de France), de Marie-Claude Delmas (conservateur général du département conservation au Centre historique des Archives nationales), Françoise Flieder (directeur de recherche émérite au CNRS, présidente de l'ARSAG) et de Serge Chambaud (responsable du département documentation et information de l'INPI).

Parmi les nombreuses questions posées par le public, l'une des plus récurrentes concernait l'information numérique, ce qui n'a pas empêché bien heureusement d'entendre des exposés fort intéressants sur la conservation des supports « traditionnels ». Pour résumer un peu brièvement les réponses de Mme Dhérent et de Mr Chambaud sur le numérique: à ce jour, on ne sait comment récolter cette information, ni comment la conserver à long terme pour une consultation/utilisation ultérieure.

Je ne parlerai pas ici de l'aspect conservation numérique (problématiques des supports passifs qui s'altèrent, des supports actifs - ordinateurs, périphériques, logiciels... -, des normes, des formats... qui changent de plus en plus rapidement), mais mentionnerai pour mémoire les informations passionnantes fournies notamment par Madame Flieder sur la conservation des documents (livres, papyrus...) anciens.

L'aspect récolte numérique a été abordé à titre expérimental dans de nombreux projets qui ont essentiellement mis en oeuvre des robots, ou processus automatisés de « survol » de l'internet et de recopie des pages (tel l'Internet Archive - www.archive.org qui fournit des archives - lacunaires et parfois épurées - remontant à 1996). Or, ces projets se heurtent, comme l'ont indiqué ces intervenants, sur la difficulté technique de parcourir un site dans son intégrité (plutôt que son intégralité), pour nombre de raisons: - le temps requis pour parcourir l'ensemble - les liens inaccessibles (pannes ou limites sécuritaires - e.g., intranet) - les bases de données (via formulaires), les objets hypermedia (e.g., animations avec liens) ...

La recopie des bases de données est elle-même une question difficile: il ne s'agit pas uniquement de conserver « toutes les données », mais (pour parler en termes généraux) tous les processus qui traitent ces données et les lient entre elles. Il en va de même pour d'autres « objets », telles que les animations, qui ne sont pas uniquement composées de données, mais aussi de programmes qui font « fonctionner » l'objet. Enfin, il est illusoire de vouloir séparer la notion d'objet de celui de procédé en disant qu'on garde les données et un modèle abstrait du procédé (il existe des langages informatiques dits fonctionnels où cette séparation n'existe pas vraiment). En d'autres termes, il ne suffit plus de recopier « ce qui est visible » pour en garder une image fonctionnelle, la partie visible pouvant n'être qu'une parmi une quasi infinité d'autres vues possibles du même objet.

Il me semble que l'approche utilisée dans ces expériences continuera à se heurter à cette problématique incontournable d'une façon qui ne fera que s'accroître, avec la mise en place de techniques de plus en plus dynamiques, avec l'accroîssement des volumes, etc. S'il paraît évident qu'il est illusoire de penser pouvoir préserver une copie à l'identique de « tout » le web à « chaque instant », il me semble que, contrairement à ce qui a été dit, on peut arriver à en donner des images instantanées et localisées beaucoup plus précises, fiables et complètes (dans le sens de sous ensemble) que ce qui se fait actuellement et qui pourra se faire si on ne change pas de méthode. Pour prendre une analogie, c'est comme si, pour tenter de préserver tous les livres imprimés, on allait chez les libraires pour tenter de les trouver; certains sont fermés, d'autres en rupture de stock...

Je me base pour cela sur un constat: il est rare qu'un organisme visible sur le web (avec ou sans pages dynamiques, avec ou sans bases de données) n'effectue pas des sauvegardes informatiques de toute son infrastructure, données et logiciels servant à cette visibilité y compris; en théorie du moins, cette sauvegarde peut permettre de réutiliser ultérieurement cette sauvegarde, pour peu que l'architecture informatique (le type d'ordinateur, l'environnement...) ne change pas.

Pour ce faire, il existe des logiciels de sauvegarde qui fonctionnent dans un mode appelé « client serveur »: tout poste informatique qui doit être sauvegardé est « interpellé » par le serveur de sauvegarde; à ce moment, ce poste envoie au serveur tout ce qui doit y être sauvegardé (et qui peut être sélectif, périodique et non pas forcément exhaustif et permanent - quoiqu'il existe des systèmes de journalisation qui peuvent garder des traces de tout).

Ne faudrait-il pas alors tenter d'inverser le modèle et utiliser celui (bien plus simple conceptuellement) du dépôt légal utiisé pour l'imprimé, où c'est à la charge du « producteur » de déposer les exemplaires? Ne devrait-on pas réfléchir à la mise en place d'un dispositif dans lequel des organismes auraient l'obligation légale de déposer, sous des formes et avec des moyens à définir, l'ensemble des éléments nécessaires à la réutilisation, à l'image d'un cédérom (on les dépose bien) qui comprend tout ce qui est nécessaire à son fonctionnent sur une architecture donnée? Ceci faciliterait l'abord de la problématique de la conservation de la « structure profonde » des sites (autant dans leur architecture que dans leurs contrôles d'accès -- ces éléments étant connus du producteur).

En réponse à la question posée au début de cette rencontre, les intervenants se sont accordés pour dire que tout a un début et tout a une fin... On ne pourra probablement jamais tout conserver pour toujours (et c'est peut-être salutaire), mais en tout cas, on peut probablement en améliorer certaines tentatives.