Vous êtes à la recherche d’une page consultée il y a quelques années ?

Mais le site a été modifié !

Vous cherchez à réaliser un travail sur une question précise et son traitement sur le Web depuis 20 ans ?

Voici une première découverte des archives du Web avec des pistes d’utilisation.

En effet, depuis plus de 30 ans, le Web produit des documents sur lesquels nous pouvons nous appuyer pour nos recherches, le Web est devenu matériau historique et produit des archives.

Les pages Web sont devenues objet d’histoire, et peuvent alimenter la réflexion en EMI, en langues, en SES, en histoire-géographie, en HGGSP, en lettres ou encore en philosophie, et en SNT.

Les archives du Web sont ainsi au cœur des humanités numériques en tant que « transdiscipline » puisque « les humanités numériques recouvrent un ensemble de pratiques de recherche à l’intersection des technologies numériques et des différentes disciplines des sciences humaines » (Dacos, Mounier). Depuis 1996, grâce à la Fondation Internet Archive, puis de grandes institutions mondiales et bibliothèques du monde entier, le Web est archivé. Cet archivage sans être exhaustif permet de retrouver certaines pages disparues, et Internet Archive vous permet aussi de faire une sauvegarde de pages utilisées pour assurer la pérennité de vos travaux.

L’intérêt international porté à l’archivage du Web s’est traduit en 2003 par l’adoption de la charte sur le patrimoine numérique par l’Unesco.

Cette charte considère tout site Web comme du « patrimoine nativement numérique » témoignant de l’élargissement de la notion de patrimoine au numérique (2003) complétant ainsi la notion de patrimoine immatériel avec la prise en compte des évolutions technologiques récentes.
Si certaines archives audiovisuelles numériques (INA, Europeana : https://www.europeana.eu/fr) sont désormais connues des enseignants, les archives du Web constituent un nouveau champ qui ouvre des perspectives pédagogiques et scientifiques. Il faut bien distinguer les sites des archives nationales, ou départementales dans le cas de la France, qui sont connus des enseignants, et du grand public de l’archivage du Web qui correspond à la patrimonialisation du Web, et questionne les choix, les méthodes utilisées mais aussi les législations de mises à disposition du public.

En France, après de premières expérimentations conduites au début des années 2000, la loi DADVSI a créé en 2006 le dépôt légal du Web : désormais la BNF et l’INA se partagent la mission de collecter, de conserver et de donner accès à ce patrimoine numérique national. Cette législation est unique car elle donne toute latitude aux institutions dépositaires pour conserver le Web français de façon automatisée, contrairement à Internet Archive qui est soumis au bon vouloir des créateurs de site Web.

En retour, les archives du Web de la BNF et de l’INA ne sont pas accessibles en ligne et nécessitent de se rendre dans les enceintes de ces institutions pour accéder aux postes de consultation. Cependant, pour faire connaître ce patrimoine, les listes des URLs collectées sont accessibles en ligne, la BNF propose des parcours guidés, et la liste des sites archivés permettant de vérifier si votre site préféré a été archivé.

L’archivage du Web ne doit donc pas être confondu avec la mise à disposition d’archives numérisées. Ainsi, la BNF administre la plateforme Gallica, mais ces collections sont distinctes des archives de l’internet (GEBEIL, Sophie. Quand l’historien rencontre les archives du Web. Revue de la BNF, 2016/2 n° 53, p.185-191. DOI : 10.3917/rbnf.053.0185)

Consulter les jeux de données et API proposés par la BNF sur son site.


Comprendre l’archivage du web

L’archivage du Web désigne le processus de collecte, de sauvegarde et de transmission de pages et de sites publiés sur le Web. Le moissonnage s’effectue principalement de façon automatisée à partir d’une liste d’URLs prédéfinies (“archivage par robot”), mais peut aussi se fonder sur l’utilisation d’API (Application Programming Interface) adaptées aux plateformes de réseaux sociaux. Lors de la consultation, la page est reconstituée à partir des éléments connectés sur la page, il est alors possible de naviguer dans le site archivé contrairement à une simple capture d’écran.


De la Wayback Machine aux listes des sites archivés par la BNF : des usages variés

Dans le cas de l’indisponibilité du site ou d’une adresse comme ci-dessus celle de la BNF, l’utilisation de la Wayback Machine d’Internet Archive permet de retrouver les informations recherchées en naviguant dans la page archivée en date du 24 décembre 2024, nous retrouvons la liste des collections crées dont la sauvegarde date de septembre 2024.

Retrouver un site pertinent et naviguer à l’intérieur de la page archivée permet d’accéder aux ressources d’autres sites aujourd’hui modifiées ou devenues inaccessibles comme le montrent les captures d’écran ci-dessous :

Comment retrouver une ancienne page Web devenue inaccessible ?
Exemple : la page utilisée dans une séquence de géographie présentée au FIG de Saint Dié en 2016 est désormais indisponible.


INTERNET ARCHIVE vous propose de multiples possibilités : soit en recherchant directement cette adresse dans les sauvegardes, soit en passant par la sauvegarde de la séquence publiée sur le site académique en 2016 et archivée en 2019.


En collant l’adresse de la page que vous souhaitez retrouver dans la WAYBACK MACHINE , celle-ci vous propose un calendrier de sauvegarde de la page.

En cliquant sur l’année de votre choix, vous pouvez accéder à la page archivée et retrouver les liens brisés à l’intérieur de cette page.

L’exemple de la page de la séquence proposée au FIG permet aussi de retrouver des liens présents sur le site académique en 2019 comme par exemple les conférences de C. Grataloup (publiées sur le site de l’Académie de Nantes).


L’actualisation des liens de la séquence peut alors se faire en copiant les adresses des pages proposées dans la barre d’adresse par Internet Archive :

Archivage du Web et ressources pédagogiques

Si les archives collectées par la BNF et l’INA ne sont consultables en ligne que dans certaines bibliothèques et sites accrédités pour communiquer le dépôt légal en région (par exemple la cinémathèque de Corse sur l’INAthèque), les listes des sites collectés sont ouvertes au public : vous pouvez les télécharger, sélectionner dans la liste ceux qui intéressent les programmes scolaires avant d’utiliser la Wayback Machine ou simplement visiter ces sites qui offrent l’avantage d’une sélection par la BNF. Ou encore comparer cette sélection à celle de la Bibliothèque du Congrès américain ou aux collections d’Internet Archive.
L’offre de la Bibliothèque du Congrès comprend depuis janvier 2025 une nouvelle version (version beta) pour la consultation des archives du web.

Le Web archivé est un gisement de sources indispensables pour étudier des évènements récents et les cultures numériques. A titre d’exemple, le sociologue Gérôme Truc a étudié les réactions des sociétés face aux attentats grâce aux collectes réalisées par l’INA sur Twitter. Le fait d’accéder au passé du web permet de mieux comprendre les transformations actuelles. La préoccupation croissante de conserver la mémoire du Web a aussi donné lieu à des projets collectifs regroupant des chercheurs, des archivistes et des membres de la société civile pour conserver la trace des événements récents. Par exemple, l’IIPC a lancé une collecte contributive lors de la pandémie de Covid-19 afin de conserver les traces produites par les sociétés confrontées à cette crise sanitaire transnationale. Ces dernières années, les journalistes ont également utilisé les archives du Web pour retrouver d’anciennes pages volontairement supprimées par des personnalités publiques. Ces exemples peuvent donner lieu à des utilisations pédagogiques en EMI.

La réflexion sur les archives du Web s’étend désormais aux usages pédagogiques que nous pouvons en avoir et souligne la nécessité de nous emparer des travaux de la recherche pour former les citoyens de demain à l’évolution des enjeux du numérique par une réflexion diachronique.

L’IIPC propose un exemple de travail d’archivage réalisé par des élèves : https://archive-it.org/blog/learn-more/k12-web-archiving-program-2/ .

Si les usages avancés de l’utilisation des archives de Web peuvent nourrir la réflexion dans les différentes disciplines en proposant des documents originaux aux enseignants tout en leur permettant de confronter les sources dans une démarche diachronique, et/ou d’offrir aux élèves la possibilité de les manipuler avec un regard critique, l’usage le plus simple pour les néophytes est la récupération de pages ayant disparue mais qui offrent toujours un intérêt.


La question de l’archivage du Web permet d’aborder des questions éthiques sur les corpus disponibles, avec le patrimoine numérique qui aujourd’hui, peut apparaître comme une nouvelle illustration de la fracture Nord- Sud même si quelques pays en développement commencent à s’inscrire dans cette démarche.


La réflexion sur les questions juridiques et les droits d’auteurs est essentielle car l’accessibilité des archives dans la Wayback Machine ne garantit pas le droit de reproduction et de réutilisation en raison des droits d’auteurs existants. Cependant, son utilisation peut permettre de sensibiliser les élèves à ces questions mais aussi à celles de la diffusion de données personnelles et du droit à l’oubli. Enfin, l’importance des archives du Web soulève la question des usages raisonnés du numérique et de son empreinte carbone.

Pour aller plus loin : https://webcorpora.hypotheses.org

Your browser doesn't support the HTML5 CANVAS tag.

Mme. Sarah Cornu - DRANE
Rectorat de Corse
sarah.cornu@ac-corse.fr

Mme Julie Albertini - DRANE adjointe - Projets
Rectorat de Corse
julie.albertini@ac-corse.fr

M. Gilles Cormi – DRANE adjoint - Pédagogie
Collège Montesoro
gilles.cormi@ac-corse.fr