![]() | Serveur © IRCAM - CENTRE POMPIDOU 1996-2005. Tous droits réservés pour tous pays. All rights reserved. |
L’émergence du Web au cours des années 90 a été le moteur
principal de la prise de conscience par le grand public de l’existence de
l’Internet1 et de sa capacité à offrir une grande variété de modes de communication. Certains d’entre eux préexistaient au Web, tels le courrier électronique (mél.,
email…) ou les forums publics de discussion (Usenet, news…), mais
ceux-ci étaient surtout utilisés par des professionnels : ils
nécessitaient tout d’abord un accès au réseau, disponible presque exclusivement
dans les milieux universitaires et professionnels, ainsi qu’une familiarité,
voire une compétence technique certaine, avec les outils informatiques.
L’apparition de l’hypertexte comme point d’entrée vers cette
immensité d’ordinateurs reliés entre eux2
et comme interface masquant la multiplicité des protocoles3 et des formats4
a permis à des amateurs ou curieux, non-« initiés », d’accéder à ces
ressources variées : butineurs (ou navigateurs, browsers)
gratuits au départ (Mosaic, le père de tous), auquels se sont rajoutés au fil
du temps des extensions pour le traitement du courrier électronique, l’accès
aux forums publics, l’écoute en ligne de la musique, le visionnage de clips
vidéo, l’interactivité…
Durant les premières années qui ont suivi la naissance du
Web, l’accès s’y faisait principalement sur le lieu de travail, ou alors par
l’entremise de celui-ci (par modem, de chez soi vers son lieu de travail). Or,
l’intérêt accru du grand public et les intérêts économiques des fournisseurs
d’accès professionnels ont encouragé ces derniers à diversifier leur offre vers
les particuliers, leur permettant ainsi de dissocier leur connexion privée de
celle fournie par leur employeur.
À son tour, cet intérêt croissant a suscité le foisonnement
des fournisseurs d’accès, la concurrence et la baisse des tarifs, et donc une
connectivité accrue de la part de tous les publics, professionnel et
particuliers vers le courrier électronique et les sites Web, au départ surtout
institutionnels ou professionnels.
Puis, la banalisation des outils permettant de créer de plus
en plus facilement des pages Web (on peut le faire même avec des outils de
traitement de texte, tels Word de Microsoft), puis des services (bases de
données, catalogues…), toute personne ou entreprise de quelque taille que ce
soit ayant accès à l’Internet peut dorénavant créer son propre site, que ce
soit chez sur son lieu de travail (si l’employeur l’autorise ou le tolère), chez
des hébergeurs commerciaux ou gratuits5,
voire chez soi, pour peu que l’on y possède une liaison permanente (par câble,
Numeris, ADSL…).
L’internaute possède dorénavant sa propre adresse
électronique, qui n’est pas nécessairement celle qui lui est attribuée par le
fournisseur d’accès, mais souvent hébergée, elle aussi, chez un fournisseur de
boîtes à lettres gratuit6.
Il peut ainsi surfer d’un fournisseur à l’autre, sans avoir à changer à chaque
fois la domiciliation de sa boîte à lettres électronique. Enfin, pour éviter
d’avoir aussi à changer l’adresse de son site, il obtiendra un « nom de
domaine » indépendant et personnalisé (par exemple : www.michel-dupont.fr) qu’il
conservera tout en changeant de fournisseur d’accès ou d’hébergeur.
On le voit : la multiplication de l’offre de
connectivité a causé un accroissement très rapide de publication sur le Web par
des particuliers et des entreprises ; en ce qui nous concerne, des
bibliothèques de plus en plus nombreuses mettent leur catalogue en réseau, indépendamment
ou en commun avec d’autres bibliothèques7.
La corruption de
supports fragiles d’accès souvent restreint obligeant à procéder à des transferts sur des supports numériques, un
nombre croissant de bibliothèques dites numériques offrent un accès par réseau
à des collections de plus en plus importantes de documents, parfois intégrés à
leurs catalogues. La conservation numérique en ligne, commence à devenir
une réalité, avec, comme corollaire, une diffusion accrue.
En contrepartie et paradoxalement, la pérennité
décroît : les particuliers « bougent », les institutions
évoluent, les supports numériques se dégradent bien plus rapidement que le
papier, les normes de codage changent et varient d’une plate-forme à l’autre. La croissance de l’offre en ligne
s’accompagne trop souvent d’un raccourcissement de sa durée de vie (ou
d’accès) ; comme l’a dit Stewart Brand lors d’une conférence récente (dont
le lien sur l’Internet a disparu…) : « les archéologues du futur
retrouveront notre vaisselle mais pas nos courriers électroniques ».
Nous allons examiner en détail les conséquences de ces
tendances et les tentatives d’en réduire les effets pervers.
Une ressource (document textuel, sonore, composite… - ou un
service – base de données, catalogue, annuaire…) est accessible sur le Web au
moyen d’un lien hypertextuel : à une partie d’un texte (décrivant en
général cette ressource) est attaché un code, appelé url (Uniform Ressource Locator), servant à localiser
la ressource en question. Prenons, par exemple, celui de la recherche combinée
dans le catalogue BN-Opale Plus de la Bibliothèque nationale :
http://catalogue.bnf.fr/jsp/recherche_combinee.jsp
La partie précédant le signe « :// » indique le
protocole, ou mode de connexion, utilisé pour accéder à ce service. Dans la
plupart des cas qui nous concernent, ce sera le protocole http, mais l’on trouve
encore beaucoup de catalogues fonctionnant sous le protocole telnet (avec, par exemple, une adresse
de la forme TELNET://opale02.bnf.fr), ainsi que
des ressources documentaires utilisant des protocoles tout à fait différents
(voir note 3 ci-dessus).
La partie suivante de l’adresse, comprise entre le
« // » et le « / » suivant, catalogue.bnf.fr,
est le nom d’un serveur8
appelé catalogue dans le domaine9 bnf.fr. Comme on le voit, il
n’est pas nécessaire qu’il possède un nom commençant par www : c’était une
convention utilisée durant les premières années du Web mais avec la
multiplication des serveurs dans un même organisme, il a fallu diversifier les
noms. Il se peut aussi qu’un même ordinateur offre plusieurs types de
services, et donc plusieurs protocoles : http://un.exemple.fr
pour le Web, ftp://un.exemple.fr
pour le transfert de fichiers, etc.
La partie suivant le premier « / » isolé indique
le chemin dans l’ordinateur vers la ressource souhaitée. L’url est donc une adresse, un
moyen de la localiser sur l’Internet, puis sur un serveur. Or les adresses
pouvant changer, ce moyen d’identification n’est pas stable. C’est ainsi le cas
du lien hypertextuel indiqué dans la rubrique « Informations
professionnelles » du serveur de la BnF censé mener vers « la
conservation des documents » : lorsque l’on veut s’y rendre, il
renvoie un message d’erreur. Quelles en sont les causes possibles ?
Toutes les composantes de l’url sont sujettes à obsolescence. Les raisons les plus
communes en sont :
Le domaine peut tout simplement disparaître de l’Internet, phénomène plus courant lorsqu’il appartient à un particulier ou un petit organisme. Le butineur affichera alors une erreur indiquant qu’ « il ne peut trouver le serveur dans le DNS10 ».
L’ordinateur peut avoir disparu du domaine ; si ce dernier appartient, par
exemple, à un organisme important, il se peut qu’une réorganisation ait causé
la fermeture d’un département dont dépendait cet ordinateur, impliquant sa mise
hors-service.
Ce phénomène est bien plus commun encore que le précédent. Ainsi le Centre Pompidou possédait le domaine cnac-gp.fr (reflétant sa raison sociale complète, Centre National d’Art et de Culture Georges Pompidou), mais il vient de le changer en centrepompidou.fr (pour permettre de le trouver plus facilement).
Des ordinateurs peuvent changer de nom, ou des services peuvent migrer d’un
ordinateur à un autre. Ainsi, le catalogue de la Bibliothèque du Congrès, aux
Etats-Unis, se trouvait sur lcweb.loc.gov
mais est dorénavant (du moins au moment de la rédaction de ce texte) accessible
sur le serveur catalog.loc.gov.
Quant bien même l’ordinateur (et son domaine) peuvent rester stables, il se
peut qu’un service offert sur cet ordinateur change de protocole ou soit
supprimé : ainsi, gopher est
un protocole qui a presque tout à fait disparu au profit de Http, il est donc fort
probable qu’une adresse du type gopher://notre.exemple.fr
ne soit plus valable, sans que l’on puisse a priori déterminer si http://notre.exemple.fr l’est ou
non.
La partie qui suit le premier « / » isolé peut changer, suite à des
modifications ou réorganisations de fichiers ou d’applications sur le
serveur ; le document ou le service existe bien, mais il est ailleurs.
Dans ce cas, le butineur affichera un message d’erreur du genre « document
inexistant » (ou, plus succinctement, « 404 Not Found »),
indiquant qu’il a bien trouvé le serveur, mais pas le document ou le service
requis.
La disparition, intentionnelle ou non (un fichier effacé par mégarde, par
exemple), se manifeste par le même message d’erreur, « document
inexistant ».
Si l’url
ressemble, par certains aspects – le moyen de localiser un document – à la cote
d’un livre dans une bibliothèque, elle en diffère par une caractéristique très
importante : la même url
peut référencer un document qui change d’une consultation à l’autre, ce qui
n’est pas le cas pour un livre associé à une cote. En effet, le contenu du
document référencé peut être modifié sans que l’on ait à changer son url, notamment s’il s’agit d’un fichier
sur un ordinateur : on peut éditer le fichier sans en changer son nom.
De nombreuses raisons peuvent y contribuer : corrections
d’erreurs, mises à jour... En outre, un document référencé par une seule url peut être constitué de plusieurs
composantes : des images incluses, des sous-documents indépendants et
disposés les uns à côté des autres, appelés cadres (frames). Il peut
aussi n’être que l’adresse d’une table des matières d’un document conséquent,
dont les chapitres sont des ressources indépendantes, elles-même constituées de
texte, d’images, de cadres... Chaque image, chaque cadre, chaque chapitre, peut
faire l’objet de modifications de contenu ou d’adresse, sans que l’adresse du
document global en soit affectée.
Un autre type de modification est dû, par exemple, à
l’attribution d’une url fixe à la
page du numéro le plus récent d’un périodique en ligne, ou à la page
d’actualités d’un site Web. Il est évident alors que le contenu changera
souvent, sans que l’adresse ne change.
Une cause souvent oubliée des difficultés d’accès peut être
due, non pas à un changement quelconque à la source, sur le serveur, mais, au
contraire, à une non-adéquation entre la façon dont ces contenus ont été
numérisés ou codés pour leur mise en ligne et le butineur servant à les
consulter.
Ainsi, le langage html
a évolué depuis son émergence, et certains butineurs (plus anciens) ne peuvent
afficher des documents utilisant des normes plus récentes (par exemple :
les cadres). Inversement, des pages Web anciennes peuvent ne plus être
affichées correctement dans un butineur récent. Il en va d’ailleurs de même
avec d’autres applications encore plus répandues : un document écrit à
l’aide de Word n’est pas forcément lisible à l’aide de Word… si le document est
trop vieux, vient d’une autre plate-forme, ou, à l’inverse, si la version de
Word utilisé pour le lire est plus ancienne que le document…
D’autre part, et contrairement aux affirmations plutôt
hypocrites de certains éditeurs de logiciels, les normes ne permettent pas
toujours d’obtenir une interopérabilité11
œcuménique : des réalisations basées sur une même norme peuvent différer
d’un constructeur de matériel ou éditeur de logiciel à l’autre – en général
pour évincer l’outil du concurrent. Combien de fois n’arrive-t-il pas qu’une
page Web ne peut pas s’afficher dans un navigateur tandis qu’elle l’est avec un
autre, ou qu’elle s’affiche mieux dans l’un que dans l’autre ?
Il est aussi plus difficile, reconnaissons-le, de réaliser
des documents qui seront lisibles sans aucune différence sur un Macintosh, un
PC ou Unix, au vu de la variété des systèmes de codage des caractères d’une
plate-forme à l’autre et d’un pays à l’autre.
Il ne faut pas oublier que certaines des erreurs dont nous
avons parlé peuvent, en fait, n’être dues qu’à un problème de connectivité sur
l’Internet, de nature temporaire, en général. Ce type de problème peut
commencer au niveau même de l’ordinateur sur lequel on se trouve, ou affecter
le réseau du fournisseur ou de l’entreprise dans laquelle on travaille – et qui
est donc plus facile à identifier. Il peut, par contre, avoir lieu à un endroit
quelconque sur l’Internet, affectant la connectivité vers le serveur (par
exemple : panne sur le lien transatlantique, panne d’un routeur12…),
ou, plus insidieusement, entre l’ordinateur local et l’annuaire dns (voir note 10 ci-dessus) servant à identifier et localiser le
serveur.
Ce qu’il faut en retenir, c’est que l’impossibilité
temporaire de joindre une ressource n’indique pas forcément sa disparition
définitive. Celle-ci ne peut être avérée que statistiquement – après des échecs
répétés et durables - ou par une source externe d’information (par
exemple ; l’annonce de la cessation d’activité d’un organisme ou d’un
service).
Face à la prolifération des liens intéressants et à leur
manque de stabilité qui rend leur référencement à long terme problématique13,
quelles sont les possibilités ? Nous allons voir les solutions à long
terme et les stratégies palliatives dans le court terme.
Plusieurs propositions de normes de référencement de
ressources en réseau sont à l’étude. Elles ont pour but de permettre
d’identifier et de localiser une ressource à l’aide d’un identifiant invariable
pour autant que le contenu intellectuel de la ressource ne change pas, quand
bien même cette dernière pourrait migrer dans un ordinateur ou d’un ordinateur
à l’autre.
Les deux systèmes particulièrement intéressants pour les
bibliothèques sont les URNs (Universal Resource Name) et le Handle
System (handle = poignée, qui permet d’avoir prise sur). L’un comme
l’autre proposent une numérotation internationale et un système de localisation
des ressources. Ils en diffèrent dans les détails de la numérotation, du
répertoriage et des services additionnels qu’ils proposent.
Conçu par le groupe de travail de l’ingénierie de l’Internet (ietf – Internet Task Force), c’est un cadre permettant la définition de familles d’identifiants uniques (qui ne seront jamais réutilisés), persistants (bien au-delà de la durée de vie de la ressource, éventuellement), extensibles (pouvant prendre en compte quelque ressource que ce soit sur l’Internet dans un futur illimité) et pouvant intégrer des systèmes d’identification plus anciens (notamment les isbn, issn…).
En discussion depuis sa réémergence en 1996, ce cadre n’est pas encore répandu, et la plupart des exemples que l’on verra sont donc théoriques (mais réalisables). Toutefois, la bibliothèque universitaire d’Helsinki a mis en place un système expérimental utilisant le nbn14 dans le cadre du projet ambitieux Nordic Metadata, et l’a proposé au groupe de travail de l’ietf, ainsi qu’à la conférence des bibliothèques nationales européennes de 1998, qui a décidé de l’adopter. Faute de financement, les sites danois et suédois ont périclité, mais le site norvégien ([http://nwi.bibsys.no]) existe encore. issn International, l’organisme de référencement des publications en série, a aussi réalisé un prototype fonctionnel intéressant ([http://urn.issn.org]).
En voici quelques exemples possibles:
un livre : urn:ISBN:0-395-36341-1
un périodique : urn:SICI:1046-8188(199501)13:1<>1.0.TX;2-F
un article de
périodique : urn:SICI:1046-8188(199501)13:1<69:FTTHBI>2.0.TX;2-4
un document
répertorié à la bibliothèque nationale de Finlande : urn:NBN:fi-fe976238
Une urn comprend donc 3 champs, séparés par les deux premiers « : » :
Pour que les urns servent à localiser des documents, encore faut-il mettre en place un système de résolution universel, qui traduise une urn – l’identifiant du document – en une url – son adresse sur le réseau. Un tel système n’existe pas encore, mais les recommandations pour sa réalisation sont ambitieuses et intéressantes. Ainsi, au même urn (par exemple : dérivé de l’isbn d’un livre numérisé en ligne) pourraient être associées plusieurs urls (les adresses effectives de plusieurs exemplaires du même livre disponibles sur l’Internet, en un même ou différents formats, mais tous comprenant le même contenu intellectuel).
Proposé par le cnri (la Corporation for National Research Initiatives américaine ®www.handle.net), le Handle System propose, lui aussi, des identifiants « éternels » pour des objets numériques ou autres ressources de l’Internet, ainsi qu’un système de résolution (permettant de les localiser).
A la différence des urns, il est bien plus avancé dans la définition des principales composantes nécessaires à sa réalisation, est utilisé dans des systèmes pilotes américains (Bibliothèque du Congrès, Agence d’information américaine, Centre d’information technique de la défense…) et propose des logiciels libres pour son utilisation, étendant les capacités d’un navigateur Web lui permettant d’utiliser ce codage. Enfin, son dérivé, le doi (Digital Object Identifier, identificateur d’objet numérique) a été proposé par des éditeurs, plutôt que des bibliothèques, pour identifier leurs documents…
Voici des exemples d’identifiant dans ce système :
hdl:cnri.dlib/july95-arms
hdl:berkeley.cs/1994.12.05.23.42.12;7
hdl:10.1045/january99-bearman
hdl:4263537/4031
Ils comprenent trois champs, comme l’urn, séparés par un « : » pour les 2 premiers, et par un « / » pour les deux suivants:
Ce système de numérotation ressemble quelque peu à celui de l’isbn, dans lequel chaque éditeur est identifié par un préfixe unique, auquel il est libre de rajouter un suffixe qu’il choisit pour identifier ses publications, d’où son intérêt pour le domaine de l’édition. En sus, il permet d’associer à tout identifiant des métadonnées nécessaires pour accéder à l’objet : l’adresse de l’objet - sous forme d’une url, par exemple -, et/ou de services tels que le contrôle des droits d’accès et de propriété intellectuelle de l’objet en question. Enfin, il est dans un état plus concret et avancé que les urns ; il explicite la hiérarchie des autorités de nommage, et propose des logiciels pour gérer, non seulement l’interrogation, mais l’administration de ce système : comment y rajouter ou modifier un objet, comment rajouter une autorité déléguée, etc.
Le doi (Digital Object Identifier) est une organisation, regroupant des éditeurs (Academic Press, Blackwell, Elsevier, Silver Platter, Springer Verlag, Wiley…), des associations d’éditeurs, de producteurs de musique, isbn International, etc., qui propose un système basé sur les principes ci-dessus. Celui-ci ne vise pas à répertorier toutes les ressources de l’Internet, mais plutôt des « créations de l’esprit humain » pour lesquels il existerait des droits (de propriété intellectuelle) négociables, abstraites (comme une œuvre de musique) ou physique (comme un livre). Cet aspect se manifeste dans la définition des métadonnées. Ce système, comme les autres, n’existe encore que sous forme de prototype chez certains éditeurs (tels Academic Press, qui a annoncé numéroter ainsi toutes les publications électroniques de son système ideal).
L’évolution du doi n’a pas manqué d’intéresser cisac ([http://www.cisac.org/]), la confédération internationale des sociétés d’auteurs et de compositeurs, qui a pour vocation de défendre les droits et les intérêts des auteurs dans le monde entier. Elle développe un « Système d’information commun » (cis) destiné à permettre la gestion de ces droits, et comprenant des bases reliées entre elles, servant à identifier les œuvres de manière précise et unique ainsi que leurs ayants droit. Cette réflexion a produit une proposition pour la création de nouveaux identifiants, le iswc (International Standard Work Code) puis le isan (International Standard Audiovisual Number), qui se rajoutent à l’isrc (International Standard Recording Code)… Des rapprochements sont en cours entre ses travaux et ceux du doi.
Les méthodes d’identification présentées ci-dessus ont pour
ambition de permettre d’associer à des documents ou services de l’Internet
(voire à des objets plus abstraits) des identifiants permanents. Un
référencement externe au moyen de ces identifiants assurerait leur stabilité,
pour autant que l’autorité déléguée, chargée du référencement d’une famille
d’objets, mette à jour leurs adresses en cas de changement. Ce n’est pas le cas
dans le Web actuellement, où l’on référence directement l’adresse de l’objet,
celle-ci n’ayant en général aucune signification particulière et souffrant
d’impermanence. On est en droit d’espérer voir le référencement évoluer d’une url vers un identifiant plus
significatif (issn, isbn, iswc…) et donc plus stable, avec une gestion des droits
d’accès.
Pour le moment, il n’existe aucun système universellement reconnu qui permettrait le remplacement de l’utilisation des urls par des identifiants plus stables. Dans l’état des choses, il faut tenter d’adopter des méthodes de référencement visant à réduire, autant que faire se peut, l’incidence de la mouvance du Web.
Le choix même des liens que l’on veut signaler à son public comprend plusieurs éléments dont il faut s’assurer :
La pertinence des liens fournis aux lecteurs mérite que l’on en vérifie régulièrement le bon fonctionnement, de même que l’on fait un inventaire régulier des étagères d’une bibliothèque.
Lorsque l’on ne dispose pas d’un système automatique qui pourrait aider dans cette tâche, il est souhaitable de se fixer un calendrier régulier de vérification des liens (aussi bien internes qu’externes) fournis aux lecteurs. Elle ne consiste pas uniquement à cliquer sur le lien pour constater qu’il est encore fonctionnel, mais aussi à vérifier son adéquation avec le descriptif.
Cette tâche est particulièrement importante dans le cas de
référencement vers des serveurs gratuits tels que Geocities, qui offrent des
hébergements à des adresses en partie numériques ; une fois celles-ci
abandonnées par leur utilisateur, elles sont réassignées à un autre
utilisateur. Ainsi, l’url
http://www.geocities.com/Athens/Academy/7965
référence la bibliothèque publique Kimberley, qui pourrait décider
d’acquérir un nom de domaine personnalisé et d’abandonner cette adresse ;
celle-ci sera alors réaffectée au site Web d’un particulier ou d’un organisme
n’ayant rien à voir avec cette bibliothèque.
Le référencement, la vérification, l’actualisation et le desherbage des liens s’allourdit avec l’accroissement de leur nombre. De même que les bibliothèques ont automatisé la gestion de leurs catalogues, on en vient à automatiser la gestion des liens externes offerts sur les pages Web, avec des systèmes ad hoc ou professionnels, comprenant des descriptifs informels ou des métadonnées structurées, elles-mêmes encore en évolution.
Il existe toutefois des logiciels, disponibles en général gratuitement pour des utilisations internes ou pédagogiques, sur diverses plates-formes (Windows, Macintosh, Linux…), qui permettent de réaliser à peu de frais (quelques jours de programmation) un système relativement simple pour une telle gestion de liens :
- MySQL ([http://www.mysql.com]) sert à réaliser des bases de données accessibles en réseau, en association avec des outils tels php ou Perl pour la création de pages Web offrant l’accès à ces bases ;
- Perl ([http://www.perl.org]) est un langage de script comprenant aussi des fonctionnalités basiques pour la réalisation de bases de données simples indépendamment de MySQL. Il est fréquemment utilisé aux côtés de systèmes bibliothéconomiques ou documentaires16 et de serveurs Web pour pallier certains de leurs manques, étendre leurs fonctionnalités, convertir aisément des données d’un format à l’autre, etc.
Ces outils, indépendamment ou non, peuvent servir à créer et de gérer facilement des bases de données. On peut ainsi concevoir et réaliser un outil de gestion d’une collection de liens, qui permettrait, par exemple :
- l’ajout d’un nouveau lien à la base, lui associant un descriptif textuel, et éventuellement une classification hiérarchique ;
- la possibilité de modifier un lien, sa description ou sa classification ;
- la production de pages Web proposant des listes de liens, triés par classification ou par descriptif, affichant le lien, sa description et sa dernière date de vérification ;
- une recherche en texte intégral dans les descriptifs ;
- la vérification périodique et automatique de la possibilité de joindre les liens, avec production de message d’alerte (sous forme de courrier électronique) pour les liens inaccessibles de façon répétée au delà d’un certain seuil.
- la vérification périodique et automatique du changement éventuel du contenu des pages référencées (ce qui n’a évidemment de sens que pour les liens vers des textes, articles ou autres objets de nature « fixe »).
Peut-on pallier l’impermanence des adresses et des données en les conservant ? S’il est pratiquement impossible de recopier toute ressource « intéresssante » sur le réseau local – notamment lorsqu’il s’agit d’un catalogue, d’une base de données ou en général d’un service –, il est toutefois techniquement possible de recopier toute ou partie d’un site Web, et d’en préserver ainsi les textes, voire les images, les sons… Des logiciels adéquats, plus ou moins gratuits, plus ou moins techniquement intéressants, sont disponibles sur l’Internet17.
Toutefois, ce mode de conservation est plus théorique que pratique pour une petite structure, vu la quantité des sites « intéressants », et requiert des moyens de stockage importants et de gestion de l’information recopiée. En outre, il est nécessaire d’obtenir l’autorisation auprès de l’organisme ou du particulier dont on souhaiterait recopier la production intellectuelle pour en faire une rediffusion. Enfin, une telle recopie n’élimine pas le besoin de vérifier régulièrement les mises à jour des documents copiés sur le serveur d’origine (information qu’il faut donc aussi préserver), quand ceux-ci sont sujets à évolution.
Par contre, certains projets nationaux ou internationaux visent à mettre en place des archives de pages Web de leurs pays, tel un dépôt légal. Ainsi, la bibliothèque nationale de Finlande compte reprendre son travail sur les urns (voir ci-dessus) et l’étendre au développement d’un système d’archivage international dans le cadre du projet européen nedlib18: chaque bibliothèque nationale pourra archiver non seulement les sites Web de son pays mais aussi des ressources telles que les bases de données, des systèmes expert ou des jeux informatiques, en identifiant chacune d’elles par l’entremise d’un nbn (voir note 14 ci-dessus) accessible par le mécanisme des urns. Ce projet, aux ramifications aussi bien techniques que légales, est en cours (discussions sur les normes, sur le prototypage d’un tel système, sa validation…). Des rapports semestriels (dont le dernier remonte à mars 1999…) et ceux des réunions de travail (la dernière en date : mai 2000) sont disponibles sur leur site (voir note 18).
De son côté, ISO (Organisation internationale de normalisation, [http://www.iso.ch]) encourage le développement de normes pour la conservation à long terme d’informations numériques obtenues d’observations terrestres et spatiales ([http://ssdoo.gsfc.nasa.gov/nost/isoas/]). Malgré le domaine d’application restreint, leur proposition d’un modèle de référence pour la réalisation d’un système d’archivage ouvert (appelé oais, Open Archival Information System) vaut la peine d’être suivie, car elle tente de proposer un modèle conceptuel pour la conservation à long terme19, prenant en compte les évolutions technologiques, l’émergence de nouveaux supports et formats de données, les changements organisationnels (des producteurs des données, des propriétaires, des utilisateurs).
Il serait futile de tenter de prédire l’établissement de normes internationales ou nationales et de systèmes permettant de tout préserver à jamais (et de pouvoir alors s’en servir utilement). Il est probable que des solutions limitées dans le temps et l’espace seront (ou sont déjà) mises en œuvre, notamment au niveau d’organismes individuels. Il est à espérer qu’il sera possible de reprendre leurs archives et de les intégrer dans un nouveau système plus vaste, si un jour celui-ci voit le jour.
En complément des références fournies dans ce chapitre, les organismes ci-dessous proposent une réflexion intéressante sur les aspects que nous avons brièvement évoqués ci-dessus, en général sous forme d’articles, essais, manuels ou ressources Web :
-
clir (Council on
Library and Information Resources, [http://www.clir.org]),
organisme américain visant à encourager la réflexion sur la conservation dans
les bibliothèques traditionnelles et le développement de bibliothèques
numériques.
-
« Catherine Lupovici : Le Digital Object
Identifier. Le système du doi
» (Bulletin des bibliothèques de France, 1998 n° 3, [http://www.enssib.fr/bbf/bbf-98-3/10-lupovici.pdf]).
Cet article décrit en détail (et en français) un des systèmes mentionnés
ci-dessus.
-
epic (European Preservation
Information Center [http://www.knaw.nl/ecpa/]),
commission européenne sur la conservation et l’accès, est principalement
concernée par les livres et documents papier, propose aussi une réflexion sur
la conservation numérique.
-
CoOL (Conservation OnLine [http://palimpsest.stanford.edu/]) est une bibliothèque
en ligne de nombreuses ressources sur la conservation, établie par les
bibliothèques de l’Université de Stanford. La pérennité de documents numériques
y est discutée.
-
RLG Preservation Program (Research Libraries Group [http://www.rlg.org/preserv/])
propose une politique et pratique pour la conservation à long terme de
documents numériques.
Une liste de ressources connexes est fournie sur le site Web
de l’Initiative canadienne sur les bibliothèques numériques ([http://www.nlc-bnc.ca/cidl/inforesf.htm]).
____________________________
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le 20/06/1997 à 11h03m40s.