Serveur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

Les problèmes liés à l'instabilité du Web.
Comment conserver.

Michel Fingerhut
paru dans Intégrer les ressources d'Internet dans la collection,
collection La Boîte à outils, volume n° 11, Presses de l'enssib, décembre 2000
ISBN 2-910227-33-2 © Enssib 2000

Toute reproduction à des fins autres que strictement personnelles et notamment toute reproduction destinée à une publication électronique, papier ou audio, destinée à des tiers est strictement prohibée et constitutive du délit de contrefaçon.

Né, lui, il y a quelque 30 ans. Estimés à quelque 56 millions, en juillet 1999 (par MIDS), et pour quelque 201 millions dutilisateurs en septembre 1999 (selon Nua Internet Surveys), nombres qui saccroîssent quotidiennement et rapidement : selon Alexander Ntoko, de lITU (International Telecommunication Union), lInternet double de taille tous les 11 mois, et le Web tous les 53 jours http pour le Web, TELNET pour la connexion à des programmes distants, ftp pour le transfert de fichiers, GOPHER, wais, z30.50 pour la recherche documentaire, rtsp pour le multimédia en flux, smtp pour le courrier électronique, nfs pour le partage de fichiers en réseau ascii, postscript, pdf, rtf pour le texte, html pour lhypertexte, bmp, gif, jpeg, tiff pour limage, aiff, mid, mp3, ram, wav pour le son Parmi les hébergeurs de site les plus connus actuellement : altern.org, multimania.fr, geocities.com Parmi les fournisseurs gratuits de boîtes à lettres, on trouve tout dabord les hébergeurs (gratuits, voir ci-dessus), mais aussi des services tels que hotmail.com Le protocole z39.50 permet doffrir une consultation simultanée de catalogues distincts. Ordinateur fournissant un accès en réseau à un ou plusieurs services. Un domaine, dans ce contexte, est un ensemble dordinateurs appartenant en général à un organisme. Ainsi, dans le domaine bnf.fr, on peut trouver les ordinateurs www.bnf.fr, opale02.bnf.fr Toutes les composantes du nom du domaine comptent : elysee.fr nest pas le même domaine que elysee.org. Le DNS (Distributed Name Service) est un annuaire international, faisant partie intégrale de lInternet, et y répertoriant les noms des ordinateurs. Ceux-ci y sont associés à des identificateurs numériques, appelés numéros IP (IP = Internet Protocol), et permettant aux logiciels dy accéder (le numéro IP du serveur catalogue.bnf.fr est actuellement le 194.199.5.30. Lorsquun domaine est résilié de lInternet, tous les ordinateurs qui en faisaient partie ny sont plus répertoriés. Mot désignant un monde (informatique) idéal dans lequel on pourrait communiquer sur le Web à égalité, que lon utilise un Mac ou un PC, Netscape ou Internet Explorer Matériel reliant un segment du réseau à un ou plusieurs autres segments. Selon une étude de Brewster Kahle (1977), la demi-durée de vie dune url est de 44 jours. National Bibliography Numbers, identifiants définis par les bibliothèques nationales, en général pour les documents ne possédant pas disbn ou issn. Depuis 1998, cest IANA (Internet Assigned Numbers Authority [http://www.iana.org]) dont le statut est en évolution depuis le désengagement du gouvernement américain de la gestion des noms de domaine et protocoles de lInternet. Un forum de discussions (en anglais) dutilisateurs de Perl en bibliothèque existe dailleurs sur lInternet. Il sintitule perl4lib. Parmi les réalisations de ses utilisateurs, mises en accès libre : des outils pour le traitement du format marc, des passerelles Web Z39.30, etc. Pour en consulter les archives ou sy abonner [http://cwww.wims.edu/Perl4Lib/] Une liste de logiciels de ce type pour Windows 95/98 est disponible à ladresse [http://winfiles.cnet.com/apps/98/offline.html] Auquel participe la BnF. Pour plus de renseignements [http://www.konbib.nl/coop/nedlib/] Décrit dans un document datant de mai 1999 [http://ftp.ccsds.org/ccsds/documents/pdf/CCSDS-650.0-R-1.pdf]

1. Le monde changeant de lInternet

Lémergence du Web au cours des années 90 a été le moteur principal de la prise de conscience par le grand public de lexistence de lInternet¹ et de sa capacité à offrir une grande variété de modes de communication. Certains dentre eux préexistaient au Web, tels le courrier électronique (mél., email) ou les forums publics de discussion (Usenet, news), mais ceux-ci étaient surtout utilisés par des professionnels : ils nécessitaient tout dabord un accès au réseau, disponible presque exclusivement dans les milieux universitaires et professionnels, ainsi quune familiarité, voire une compétence technique certaine, avec les outils informatiques.

Lapparition de lhypertexte comme point dentrée vers cette immensité dordinateurs reliés entre eux² et comme interface masquant la multiplicité des protocoles³ et des formats⁴ a permis à des amateurs ou curieux, non-« initiés », daccéder à ces ressources variées : butineurs (ou navigateurs, browsers) gratuits au départ (Mosaic, le père de tous), auquels se sont rajoutés au fil du temps des extensions pour le traitement du courrier électronique, laccès aux forums publics, lécoute en ligne de la musique, le visionnage de clips vidéo, linteractivité

Durant les premières années qui ont suivi la naissance du Web, laccès sy faisait principalement sur le lieu de travail, ou alors par lentremise de celui-ci (par modem, de chez soi vers son lieu de travail). Or, lintérêt accru du grand public et les intérêts économiques des fournisseurs daccès professionnels ont encouragé ces derniers à diversifier leur offre vers les particuliers, leur permettant ainsi de dissocier leur connexion privée de celle fournie par leur employeur.

À son tour, cet intérêt croissant a suscité le foisonnement des fournisseurs daccès, la concurrence et la baisse des tarifs, et donc une connectivité accrue de la part de tous les publics, professionnel et particuliers vers le courrier électronique et les sites Web, au départ surtout institutionnels ou professionnels.

Puis, la banalisation des outils permettant de créer de plus en plus facilement des pages Web (on peut le faire même avec des outils de traitement de texte, tels Word de Microsoft), puis des services (bases de données, catalogues), toute personne ou entreprise de quelque taille que ce soit ayant accès à lInternet peut dorénavant créer son propre site, que ce soit chez sur son lieu de travail (si lemployeur lautorise ou le tolère), chez des hébergeurs commerciaux ou gratuits⁵, voire chez soi, pour peu que lon y possède une liaison permanente (par câble, Numeris, ADSL).

Linternaute possède dorénavant sa propre adresse électronique, qui nest pas nécessairement celle qui lui est attribuée par le fournisseur daccès, mais souvent hébergée, elle aussi, chez un fournisseur de boîtes à lettres gratuit⁶. Il peut ainsi surfer dun fournisseur à lautre, sans avoir à changer à chaque fois la domiciliation de sa boîte à lettres électronique. Enfin, pour éviter davoir aussi à changer ladresse de son site, il obtiendra un « nom de domaine » indépendant et personnalisé (par exemple : www.michel-dupont.fr) quil conservera tout en changeant de fournisseur daccès ou dhébergeur.

On le voit : la multiplication de loffre de connectivité a causé un accroissement très rapide de publication sur le Web par des particuliers et des entreprises ; en ce qui nous concerne, des bibliothèques de plus en plus nombreuses mettent leur catalogue en réseau, indépendamment ou en commun avec dautres bibliothèques⁷.

La corruption de supports fragiles daccès souvent restreint obligeant à procéder à des transferts sur des supports numériques, un nombre croissant de bibliothèques dites numériques offrent un accès par réseau à des collections de plus en plus importantes de documents, parfois intégrés à leurs catalogues. La conservation numérique en ligne, commence à devenir une réalité, avec, comme corollaire, une diffusion accrue.

En contrepartie et paradoxalement, la pérennité décroît : les particuliers « bougent », les institutions évoluent, les supports numériques se dégradent bien plus rapidement que le papier, les normes de codage changent et varient dune plate-forme à lautre. La croissance de loffre en ligne saccompagne trop souvent dun raccourcissement de sa durée de vie (ou daccès) ; comme la dit Stewart Brand lors dune conférence récente (dont le lien sur lInternet a disparu) : « les archéologues du futur retrouveront notre vaisselle mais pas nos courriers électroniques ».

Nous allons examiner en détail les conséquences de ces tendances et les tentatives den réduire les effets pervers.

2. Les instabilités du Web

Une ressource (document textuel, sonore, composite - ou un service base de données, catalogue, annuaire) est accessible sur le Web au moyen dun lien hypertextuel : à une partie dun texte (décrivant en général cette ressource) est attaché un code, appelé url (Uniform Ressource Locator), servant à localiser la ressource en question. Prenons, par exemple, celui de la recherche combinée dans le catalogue BN-Opale Plus de la Bibliothèque nationale :

http://catalogue.bnf.fr/jsp/recherche_combinee.jsp

La partie précédant le signe « :// » indique le protocole, ou mode de connexion, utilisé pour accéder à ce service. Dans la plupart des cas qui nous concernent, ce sera le protocole http, mais lon trouve encore beaucoup de catalogues fonctionnant sous le protocole telnet (avec, par exemple, une adresse de la forme TELNET://opale02.bnf.fr), ainsi que des ressources documentaires utilisant des protocoles tout à fait différents (voir note 3 ci-dessus).

La partie suivante de ladresse, comprise entre le « // » et le « / » suivant, catalogue.bnf.fr, est le nom dun serveur⁸ appelé catalogue dans le domaine⁹ bnf.fr. Comme on le voit, il nest pas nécessaire quil possède un nom commençant par www : cétait une convention utilisée durant les premières années du Web mais avec la multiplication des serveurs dans un même organisme, il a fallu diversifier les noms. Il se peut aussi quun même ordinateur offre plusieurs types de services, et donc plusieurs protocoles : http://un.exemple.fr pour le Web, ftp://un.exemple.fr pour le transfert de fichiers, etc.

La partie suivant le premier « / » isolé indique le chemin dans lordinateur vers la ressource souhaitée. Lurl est donc une adresse, un moyen de la localiser sur lInternet, puis sur un serveur. Or les adresses pouvant changer, ce moyen didentification nest pas stable. Cest ainsi le cas du lien hypertextuel indiqué dans la rubrique « Informations professionnelles » du serveur de la BnF censé mener vers « la conservation des documents » : lorsque lon veut sy rendre, il renvoie un message derreur. Quelles en sont les causes possibles ?

2.1. Les adresses qui changent

Toutes les composantes de lurl sont sujettes à obsolescence. Les raisons les plus communes en sont :

2.1.1. Disparitions de domaines ou dordinateurs

Le domaine peut tout simplement disparaître de lInternet, phénomène plus courant lorsquil appartient à un particulier ou un petit organisme. Le butineur affichera alors une erreur indiquant qu « il ne peut trouver le serveur dans le DNS¹⁰ ».

Lordinateur peut avoir disparu du domaine ; si ce dernier appartient, par exemple, à un organisme important, il se peut quune réorganisation ait causé la fermeture dun département dont dépendait cet ordinateur, impliquant sa mise hors-service.

2.1.2. Renommages de domaines ou dordinateurs

Ce phénomène est bien plus commun encore que le précédent. Ainsi le Centre Pompidou possédait le domaine cnac-gp.fr (reflétant sa raison sociale complète, Centre National dArt et de Culture Georges Pompidou), mais il vient de le changer en centrepompidou.fr (pour permettre de le trouver plus facilement).

Des ordinateurs peuvent changer de nom, ou des services peuvent migrer dun ordinateur à un autre. Ainsi, le catalogue de la Bibliothèque du Congrès, aux Etats-Unis, se trouvait sur lcweb.loc.gov mais est dorénavant (du moins au moment de la rédaction de ce texte) accessible sur le serveur catalog.loc.gov.

2.1.3. Disparition ou changement du protocole

Quant bien même lordinateur (et son domaine) peuvent rester stables, il se peut quun service offert sur cet ordinateur change de protocole ou soit supprimé : ainsi, gopher est un protocole qui a presque tout à fait disparu au profit de Http, il est donc fort probable quune adresse du type gopher://notre.exemple.fr ne soit plus valable, sans que lon puisse a priori déterminer si http://notre.exemple.fr lest ou non.

2.1.4. Modification de ladresse du document ou du service sur lordinateur

La partie qui suit le premier « / » isolé peut changer, suite à des modifications ou réorganisations de fichiers ou dapplications sur le serveur ; le document ou le service existe bien, mais il est ailleurs. Dans ce cas, le butineur affichera un message derreur du genre « document inexistant » (ou, plus succinctement, « 404 Not Found »), indiquant quil a bien trouvé le serveur, mais pas le document ou le service requis.

2.1.5. Disparition du document ou du service

La disparition, intentionnelle ou non (un fichier effacé par mégarde, par exemple), se manifeste par le même message derreur, « document inexistant ».

2.2. Les modifications des documents

Si lurl ressemble, par certains aspects le moyen de localiser un document à la cote dun livre dans une bibliothèque, elle en diffère par une caractéristique très importante : la même url peut référencer un document qui change dune consultation à lautre, ce qui nest pas le cas pour un livre associé à une cote. En effet, le contenu du document référencé peut être modifié sans que lon ait à changer son url, notamment sil sagit dun fichier sur un ordinateur : on peut éditer le fichier sans en changer son nom.

De nombreuses raisons peuvent y contribuer : corrections derreurs, mises à jour... En outre, un document référencé par une seule url peut être constitué de plusieurs composantes : des images incluses, des sous-documents indépendants et disposés les uns à côté des autres, appelés cadres (frames). Il peut aussi nêtre que ladresse dune table des matières dun document conséquent, dont les chapitres sont des ressources indépendantes, elles-même constituées de texte, dimages, de cadres... Chaque image, chaque cadre, chaque chapitre, peut faire lobjet de modifications de contenu ou dadresse, sans que ladresse du document global en soit affectée.

Un autre type de modification est dû, par exemple, à lattribution dune url fixe à la page du numéro le plus récent dun périodique en ligne, ou à la page dactualités dun site Web. Il est évident alors que le contenu changera souvent, sans que ladresse ne change.

2.3. Lévolution des normes

Une cause souvent oubliée des difficultés daccès peut être due, non pas à un changement quelconque à la source, sur le serveur, mais, au contraire, à une non-adéquation entre la façon dont ces contenus ont été numérisés ou codés pour leur mise en ligne et le butineur servant à les consulter.

Ainsi, le langage html a évolué depuis son émergence, et certains butineurs (plus anciens) ne peuvent afficher des documents utilisant des normes plus récentes (par exemple : les cadres). Inversement, des pages Web anciennes peuvent ne plus être affichées correctement dans un butineur récent. Il en va dailleurs de même avec dautres applications encore plus répandues : un document écrit à laide de Word nest pas forcément lisible à laide de Word si le document est trop vieux, vient dune autre plate-forme, ou, à linverse, si la version de Word utilisé pour le lire est plus ancienne que le document

Dautre part, et contrairement aux affirmations plutôt hypocrites de certains éditeurs de logiciels, les normes ne permettent pas toujours dobtenir une interopérabilité¹¹ cuménique : des réalisations basées sur une même norme peuvent différer dun constructeur de matériel ou éditeur de logiciel à lautre en général pour évincer loutil du concurrent. Combien de fois narrive-t-il pas quune page Web ne peut pas safficher dans un navigateur tandis quelle lest avec un autre, ou quelle saffiche mieux dans lun que dans lautre ?

Il est aussi plus difficile, reconnaissons-le, de réaliser des documents qui seront lisibles sans aucune différence sur un Macintosh, un PC ou Unix, au vu de la variété des systèmes de codage des caractères dune plate-forme à lautre et dun pays à lautre.

2.4. Les coupures daccès temporaires

Il ne faut pas oublier que certaines des erreurs dont nous avons parlé peuvent, en fait, nêtre dues quà un problème de connectivité sur lInternet, de nature temporaire, en général. Ce type de problème peut commencer au niveau même de lordinateur sur lequel on se trouve, ou affecter le réseau du fournisseur ou de lentreprise dans laquelle on travaille et qui est donc plus facile à identifier. Il peut, par contre, avoir lieu à un endroit quelconque sur lInternet, affectant la connectivité vers le serveur (par exemple : panne sur le lien transatlantique, panne dun routeur¹²), ou, plus insidieusement, entre lordinateur local et lannuaire dns (voir note 10 ci-dessus) servant à identifier et localiser le serveur.

Ce quil faut en retenir, cest que limpossibilité temporaire de joindre une ressource nindique pas forcément sa disparition définitive. Celle-ci ne peut être avérée que statistiquement après des échecs répétés et durables - ou par une source externe dinformation (par exemple ; lannonce de la cessation dactivité dun organisme ou dun service).

3. Les solutions

Face à la prolifération des liens intéressants et à leur manque de stabilité qui rend leur référencement à long terme problématique¹³, quelles sont les possibilités ? Nous allons voir les solutions à long terme et les stratégies palliatives dans le court terme.

3.1. Référencer indépendamment de ladresse de la ressource

Plusieurs propositions de normes de référencement de ressources en réseau sont à létude. Elles ont pour but de permettre didentifier et de localiser une ressource à laide dun identifiant invariable pour autant que le contenu intellectuel de la ressource ne change pas, quand bien même cette dernière pourrait migrer dans un ordinateur ou dun ordinateur à lautre.

Les deux systèmes particulièrement intéressants pour les bibliothèques sont les URNs (Universal Resource Name) et le Handle System (handle = poignée, qui permet davoir prise sur). Lun comme lautre proposent une numérotation internationale et un système de localisation des ressources. Ils en diffèrent dans les détails de la numérotation, du répertoriage et des services additionnels quils proposent.

3.1.1. Les urns

Conçu par le groupe de travail de lingénierie de lInternet (ietf Internet Task Force), cest un cadre permettant la définition de familles didentifiants uniques (qui ne seront jamais réutilisés), persistants (bien au-delà de la durée de vie de la ressource, éventuellement), extensibles (pouvant prendre en compte quelque ressource que ce soit sur lInternet dans un futur illimité) et pouvant intégrer des systèmes didentification plus anciens (notamment les isbn, issn).

En discussion depuis sa réémergence en 1996, ce cadre nest pas encore répandu, et la plupart des exemples que lon verra sont donc théoriques (mais réalisables). Toutefois, la bibliothèque universitaire dHelsinki a mis en place un système expérimental utilisant le nbn¹⁴ dans le cadre du projet ambitieux Nordic Metadata, et la proposé au groupe de travail de lietf, ainsi quà la conférence des bibliothèques nationales européennes de 1998, qui a décidé de ladopter. Faute de financement, les sites danois et suédois ont périclité, mais le site norvégien ([http://nwi.bibsys.no]) existe encore. issn International, lorganisme de référencement des publications en série, a aussi réalisé un prototype fonctionnel intéressant ([http://urn.issn.org]).

En voici quelques exemples possibles:
            un livre : urn:ISBN:0-395-36341-1
                un périodique : urn:SICI:1046-8188(199501)13:1<>1.0.TX;2-F
                un article de périodique : urn:SICI:1046-8188(199501)13:1<69:FTTHBI>2.0.TX;2-4
                un document répertorié à la bibliothèque nationale de Finlande : urn:NBN:fi-fe976238

Une urn comprend donc 3 champs, séparés par les deux premiers « : » :

Le mot-clé urn, qui sert à identifier cette entité.
Le nom du système didentification adopté (ce champ est appelé en anglais nid, ou Namespace Identifier); dans les exemples ci-dessus : ISBN, SICI, NBN
Ces noms sont attribués par une autorité centrale¹⁵.
Lidentifiant de la ressource. La syntaxe de cet élément dépend, bien évidemment, du système adopté. Ainsi, pour le système nbn, il est proposé dutiliser la désignation du pays (code de deux lettres), suivie dun tiret, suivie du numéro attribué par la bibliothèque nationale de ce pays. Toutefois, il ne peut comprendre nimporte quel symbole. Ainsi, pour en faciliter la lecture, on a utilisé les « < » et « > » dans les exemples ci-dessus ; or ceux-ci étant des caractères réservés, ils apparaîtront codés « %3C » et « %3E » respectivement.
Lidentifiant dune ressource selon un système choisi est attribué lui aussi par lautorité qui a déposé la demande dattribution du nom du système (ou par une autorité déléguée).

Pour que les urns servent à localiser des documents, encore faut-il mettre en place un système de résolution universel, qui traduise une urn lidentifiant du document en une url son adresse sur le réseau. Un tel système nexiste pas encore, mais les recommandations pour sa réalisation sont ambitieuses et intéressantes. Ainsi, au même urn (par exemple : dérivé de lisbn dun livre numérisé en ligne) pourraient être associées plusieurs urls (les adresses effectives de plusieurs exemplaires du même livre disponibles sur lInternet, en un même ou différents formats, mais tous comprenant le même contenu intellectuel).

3.1.2. Le Handle System et son dérivé, le doi

Proposé par le cnri (la Corporation for National Research Initiatives américaine ®www.handle.net), le Handle System propose, lui aussi, des identifiants « éternels » pour des objets numériques ou autres ressources de lInternet, ainsi quun système de résolution (permettant de les localiser).

A la différence des urns, il est bien plus avancé dans la définition des principales composantes nécessaires à sa réalisation, est utilisé dans des systèmes pilotes américains (Bibliothèque du Congrès, Agence dinformation américaine, Centre dinformation technique de la défense) et propose des logiciels libres pour son utilisation, étendant les capacités dun navigateur Web lui permettant dutiliser ce codage. Enfin, son dérivé, le doi (Digital Object Identifier, identificateur dobjet numérique) a été proposé par des éditeurs, plutôt que des bibliothèques, pour identifier leurs documents

Voici des exemples didentifiant dans ce système :
            hdl:cnri.dlib/july95-arms
            hdl:berkeley.cs/1994.12.05.23.42.12;7
                hdl:10.1045/january99-bearman
                hdl:4263537/4031

Ils comprenent trois champs, comme lurn, séparés par un « : » pour les 2 premiers, et par un « / » pour les deux suivants:

Le mot-clé hdl qui sert à identifier cette entité.
Le préfixe, ou autorité de nommage, identifie, de façon hiérarchique, lorganisme autorisé à attribuer des identifiants. Dans le premier exemple, lautorité « parente » est le CNRI, qui délègue à DLIB (le magazine D-Lib) la possibilité de nommer des objets. Dans le second, cest le département informatique de lUniversité de Berkeley. Dans le troisième exemple, lautorité « parente » est identifiée par « 10 », affecté au doi. Une seule autorité, parente de tous, peut attribuer les codes du premier niveau.
Les identifiants des objets sont, comme dans le cas des URNs, déterminés par lautorité adéquate.

Ce système de numérotation ressemble quelque peu à celui de lisbn, dans lequel chaque éditeur est identifié par un préfixe unique, auquel il est libre de rajouter un suffixe quil choisit pour identifier ses publications, doù son intérêt pour le domaine de lédition. En sus, il permet dassocier à tout identifiant des métadonnées nécessaires pour accéder à lobjet : ladresse de lobjet - sous forme dune url, par exemple -, et/ou de services tels que le contrôle des droits daccès et de propriété intellectuelle de lobjet en question. Enfin, il est dans un état plus concret et avancé que les urns ; il explicite la hiérarchie des autorités de nommage, et propose des logiciels pour gérer, non seulement linterrogation, mais ladministration de ce système : comment y rajouter ou modifier un objet, comment rajouter une autorité déléguée, etc.

Le doi (Digital Object Identifier) est une organisation, regroupant des éditeurs (Academic Press, Blackwell, Elsevier, Silver Platter, Springer Verlag, Wiley), des associations déditeurs, de producteurs de musique, isbn International, etc., qui propose un système basé sur les principes ci-dessus. Celui-ci ne vise pas à répertorier toutes les ressources de lInternet, mais plutôt des « créations de lesprit humain » pour lesquels il existerait des droits (de propriété intellectuelle) négociables, abstraites (comme une uvre de musique) ou physique (comme un livre). Cet aspect se manifeste dans la définition des métadonnées. Ce système, comme les autres, nexiste encore que sous forme de prototype chez certains éditeurs (tels Academic Press, qui a annoncé numéroter ainsi toutes les publications électroniques de son système ideal).

Lévolution du doi na pas manqué dintéresser cisac ([http://www.cisac.org/]), la confédération internationale des sociétés dauteurs et de compositeurs, qui a pour vocation de défendre les droits et les intérêts des auteurs dans le monde entier. Elle développe un « Système dinformation commun » (cis) destiné à permettre la gestion de ces droits, et comprenant des bases reliées entre elles, servant à identifier les uvres de manière précise et unique ainsi que leurs ayants droit. Cette réflexion a produit une proposition pour la création de nouveaux identifiants, le iswc (International Standard Work Code) puis le isan (International Standard Audiovisual Number), qui se rajoutent à lisrc (International Standard Recording Code) Des rapprochements sont en cours entre ses travaux et ceux du doi.

3.2. En résumé

Les méthodes didentification présentées ci-dessus ont pour ambition de permettre dassocier à des documents ou services de lInternet (voire à des objets plus abstraits) des identifiants permanents. Un référencement externe au moyen de ces identifiants assurerait leur stabilité, pour autant que lautorité déléguée, chargée du référencement dune famille dobjets, mette à jour leurs adresses en cas de changement. Ce nest pas le cas dans le Web actuellement, où lon référence directement ladresse de lobjet, celle-ci nayant en général aucune signification particulière et souffrant dimpermanence. On est en droit despérer voir le référencement évoluer dune url vers un identifiant plus significatif (issn, isbn, iswc) et donc plus stable, avec une gestion des droits daccès.

4. Le présent : faire avec

Pour le moment, il nexiste aucun système universellement reconnu qui permettrait le remplacement de lutilisation des urls par des identifiants plus stables. Dans létat des choses, il faut tenter dadopter des méthodes de référencement visant à réduire, autant que faire se peut, lincidence de la mouvance du Web.

4.1. Référencer prudemment

Le choix même des liens que lon veut signaler à son public comprend plusieurs éléments dont il faut sassurer :

4.1.1. Lurl

Plus elle est précise, plus elle est susceptible de changer dans le temps. Ainsi, dans lexemple ci-dessus du catalogage celui de lurl de la recherche combinée dans le catalogue BN-Opale Plus de la Bibliothèque nationale : http://catalogue.bnf.fr/jsp/recherche_combinee.jsp il est probable que la partie « locale » de lurl (celle suivant le premier « / » isolé) évolue avec les technologies mises en uvre à la BnF, tandis que le nom du serveur (catalogue.bnf.fr) restera probablement inchangé, puisquil est associé à une fonction plutôt quune technologie. Quand bien même on voudrait fournir au lecteur un accès plus rapide au catalogue en lui donnant ladresse directe pour lui éviter davoir à le retrouver sur le serveur de la BnF, il est plus prudent de fournir uniquement ladresse du serveur, dans ce cas :
http://catalogue.bnf.fr/

4.1.2. La description de lobjet référencé

Sans pour autant prescrire lutilisation de métadonnées, il est important dattacher à chaque lien référencé un descriptif clair de lorganisme et du service offert. Ceci facilite non seulement au lecteur la décision de suivre ou non le lien, mais de retrouver la ressource, à laide de moteurs de recherche, par exemple, si un changement durl a lieu. Ainsi, une liste de liens vers des catalogues en ligne, qui ne comporterait quun titre global (« Liens vers des bibliothèques ») et aucun descriptif pour chaque lien est à prescrire. Par exemple, le lien :
http://rodent.lib.rochester.edu/sib/ référençait la bibliothèque musicale Sibley du conservatoire de musique Eastman, ce qui nest pas du tout apparent dans lurl, qui nexiste plus. Une fois que lon aura constaté la disparition du lien, comment rechercher son remplacement, si lon ne sait plus ce que le lien indiquait ? Par contre, il suffit deffectuer une recherche sur le nom de la bibliothèque et du conservatoire dans un moteur tel quAltavista pour obtenir ladresse valide,
http://sibley.esm.rochester.edu

4.1.3. La date de référencement ou de la dernière vérification

En cas dinaccessibilité du site référencé, elle fournit un élément pour estimer si le site a disparu ou son adresse a changé (ce qui est improbable si le référencement est récent) ou si ce nest quune disparition temporaire ou une panne de réseau.

4.2. Vérifier et désherber régulièrement

La pertinence des liens fournis aux lecteurs mérite que lon en vérifie régulièrement le bon fonctionnement, de même que lon fait un inventaire régulier des étagères dune bibliothèque.

Lorsque lon ne dispose pas dun système automatique qui pourrait aider dans cette tâche, il est souhaitable de se fixer un calendrier régulier de vérification des liens (aussi bien internes quexternes) fournis aux lecteurs. Elle ne consiste pas uniquement à cliquer sur le lien pour constater quil est encore fonctionnel, mais aussi à vérifier son adéquation avec le descriptif.

Cette tâche est particulièrement importante dans le cas de référencement vers des serveurs gratuits tels que Geocities, qui offrent des hébergements à des adresses en partie numériques ; une fois celles-ci abandonnées par leur utilisateur, elles sont réassignées à un autre utilisateur. Ainsi, lurl
http://www.geocities.com/Athens/Academy/7965
référence la bibliothèque publique Kimberley, qui pourrait décider dacquérir un nom de domaine personnalisé et dabandonner cette adresse ; celle-ci sera alors réaffectée au site Web dun particulier ou dun organisme nayant rien à voir avec cette bibliothèque.

4.3. Automatiser ?

Le référencement, la vérification, lactualisation et le desherbage des liens sallourdit avec laccroissement de leur nombre. De même que les bibliothèques ont automatisé la gestion de leurs catalogues, on en vient à automatiser la gestion des liens externes offerts sur les pages Web, avec des systèmes ad hoc ou professionnels, comprenant des descriptifs informels ou des métadonnées structurées, elles-mêmes encore en évolution.

Il existe toutefois des logiciels, disponibles en général gratuitement pour des utilisations internes ou pédagogiques, sur diverses plates-formes (Windows, Macintosh, Linux), qui permettent de réaliser à peu de frais (quelques jours de programmation) un système relativement simple pour une telle gestion de liens :

- MySQL ([http://www.mysql.com]) sert à réaliser des bases de données accessibles en réseau, en association avec des outils tels php ou Perl pour la création de pages Web offrant laccès à ces bases ;

- Perl ([http://www.perl.org]) est un langage de script comprenant aussi des fonctionnalités basiques pour la réalisation de bases de données simples indépendamment de MySQL. Il est fréquemment utilisé aux côtés de systèmes bibliothéconomiques ou documentaires¹⁶ et de serveurs Web pour pallier certains de leurs manques, étendre leurs fonctionnalités, convertir aisément des données dun format à lautre, etc.

Ces outils, indépendamment ou non, peuvent servir à créer et de gérer facilement des bases de données. On peut ainsi concevoir et réaliser un outil de gestion dune collection de liens, qui permettrait, par exemple :

- lajout dun nouveau lien à la base, lui associant un descriptif textuel, et éventuellement une classification hiérarchique ;

- la possibilité de modifier un lien, sa description ou sa classification ;

- la production de pages Web proposant des listes de liens, triés par classification ou par descriptif, affichant le lien, sa description et sa dernière date de vérification ;

- une recherche en texte intégral dans les descriptifs ;

- la vérification périodique et automatique de la possibilité de joindre les liens, avec production de message dalerte (sous forme de courrier électronique) pour les liens inaccessibles de façon répétée au delà dun certain seuil.

- la vérification périodique et automatique du changement éventuel du contenu des pages référencées (ce qui na évidemment de sens que pour les liens vers des textes, articles ou autres objets de nature « fixe »).

4.4. Préserver les données

Peut-on pallier limpermanence des adresses et des données en les conservant ? Sil est pratiquement impossible de recopier toute ressource « intéresssante » sur le réseau local notamment lorsquil sagit dun catalogue, dune base de données ou en général dun service , il est toutefois techniquement possible de recopier toute ou partie dun site Web, et den préserver ainsi les textes, voire les images, les sons Des logiciels adéquats, plus ou moins gratuits, plus ou moins techniquement intéressants, sont disponibles sur lInternet¹⁷.

Toutefois, ce mode de conservation est plus théorique que pratique pour une petite structure, vu la quantité des sites « intéressants », et requiert des moyens de stockage importants et de gestion de linformation recopiée. En outre, il est nécessaire dobtenir lautorisation auprès de lorganisme ou du particulier dont on souhaiterait recopier la production intellectuelle pour en faire une rediffusion. Enfin, une telle recopie nélimine pas le besoin de vérifier régulièrement les mises à jour des documents copiés sur le serveur dorigine (information quil faut donc aussi préserver), quand ceux-ci sont sujets à évolution.

Par contre, certains projets nationaux ou internationaux visent à mettre en place des archives de pages Web de leurs pays, tel un dépôt légal. Ainsi, la bibliothèque nationale de Finlande compte reprendre son travail sur les urns (voir ci-dessus) et létendre au développement dun système darchivage international dans le cadre du projet européen nedlib¹⁸: chaque bibliothèque nationale pourra archiver non seulement les sites Web de son pays mais aussi des ressources telles que les bases de données, des systèmes expert ou des jeux informatiques, en identifiant chacune delles par lentremise dun nbn (voir note 14 ci-dessus) accessible par le mécanisme des urns. Ce projet, aux ramifications aussi bien techniques que légales, est en cours (discussions sur les normes, sur le prototypage dun tel système, sa validation). Des rapports semestriels (dont le dernier remonte à mars 1999) et ceux des réunions de travail (la dernière en date : mai 2000) sont disponibles sur leur site (voir note 18).

De son côté, ISO (Organisation internationale de normalisation, [http://www.iso.ch]) encourage le développement de normes pour la conservation à long terme dinformations numériques obtenues dobservations terrestres et spatiales ([http://ssdoo.gsfc.nasa.gov/nost/isoas/]). Malgré le domaine dapplication restreint, leur proposition dun modèle de référence pour la réalisation dun système darchivage ouvert (appelé oais, Open Archival Information System) vaut la peine dêtre suivie, car elle tente de proposer un modèle conceptuel pour la conservation à long terme¹⁹, prenant en compte les évolutions technologiques, lémergence de nouveaux supports et formats de données, les changements organisationnels (des producteurs des données, des propriétaires, des utilisateurs).

Il serait futile de tenter de prédire létablissement de normes internationales ou nationales et de systèmes permettant de tout préserver à jamais (et de pouvoir alors sen servir utilement). Il est probable que des solutions limitées dans le temps et lespace seront (ou sont déjà) mises en uvre, notamment au niveau dorganismes individuels. Il est à espérer quil sera possible de reprendre leurs archives et de les intégrer dans un nouveau système plus vaste, si un jour celui-ci voit le jour.

5. Références

En complément des références fournies dans ce chapitre, les organismes ci-dessous proposent une réflexion intéressante sur les aspects que nous avons brièvement évoqués ci-dessus, en général sous forme darticles, essais, manuels ou ressources Web :

- clir (Council on Library and Information Resources, [http://www.clir.org]), organisme américain visant à encourager la réflexion sur la conservation dans les bibliothèques traditionnelles et le développement de bibliothèques numériques.

- « Catherine Lupovici : Le Digital Object Identifier. Le système du doi » (Bulletin des bibliothèques de France, 1998 n° 3, [http://www.enssib.fr/bbf/bbf-98-3/10-lupovici.pdf]). Cet article décrit en détail (et en français) un des systèmes mentionnés ci-dessus.

- epic (European Preservation Information Center [http://www.knaw.nl/ecpa/]), commission européenne sur la conservation et laccès, est principalement concernée par les livres et documents papier, propose aussi une réflexion sur la conservation numérique.

- CoOL (Conservation OnLine [http://palimpsest.stanford.edu/]) est une bibliothèque en ligne de nombreuses ressources sur la conservation, établie par les bibliothèques de lUniversité de Stanford. La pérennité de documents numériques y est discutée.

- RLG Preservation Program (Research Libraries Group [http://www.rlg.org/preserv/]) propose une politique et pratique pour la conservation à long terme de documents numériques.

Une liste de ressources connexes est fournie sur le site Web de lInitiative canadienne sur les bibliothèques numériques ([http://www.nlc-bnc.ca/cidl/inforesf.htm]).

Les problèmes liés à l'instabilité du Web.Comment conserver.

1. Le monde changeant de lInternet