Archiver (le web)

Publié le 15 avril 2010 par Veroniquer

Billet inspiré par des discussions sur FriendFeed (<oui, il y a encore du monde là-bas!) à l'annonce de la décision de la Librairie du Congrès américaine d'archiver tous les tweets - messages sur Twitter - publics depuis 2006.

Cette vénérable institution - pas Twitter, donc - bien connue des documentalistes, fait œuvre patrimoniale depuis 1800, et assemble des collections de documents de toute nature (livres, cartes, films etc).

Dans l'annonce qui est faite sur le blog, l'auteur rappelle que l'archivage de certains éléments issus du web date de 2000 et s'élève déjà à 167 terabytes.

Cette décision pointe un certain nombre de questions et - ceci étant dit en passant - souligne aussi l'avènement de cette ère numérique dans laquelle nous sommes entrés.

Et quand je vous disais que nous aurions de futurs archéologues numériques! Imaginez leur émoi questionnement devant les tweets suivants:

- "Suis dans le train at La Ferté/Oise" ou - "Aime les cèpes"...

Mais, détrompez-vous, cela donnera de précieuses indications sur les modes de vie du XXIè siècle... On peut même imaginer que, parmi les futures générations d'ethnologues, anthropologues et sociologues, certains s'attacheront par exemple à étudier le cas d'une personne uniquement via un compte Twitter. Et cela génèrera surement des analyses pertinentes sur une population donnée.

Quand à la Librairie du Congrès, elle souligne bien-sûr les tweets des hommes d'état, ceux qui font référence à des évènements historiques (ou encore, peut-être, le premier tweet envoyé récemment depuis l'espace).

Je ne sais pas si l'on peut vraiment imaginer - concevoir - la masse colossale des données qui s'accumulent jour après jour avec l'essor de la technologie numérique et sa simplicité d'utilisation grandissante!

Rien que pour Twitter, ce sont quelques 55 millions de tweets quotidiens - et un article du New York Times est mis en ligne chaque 4 secondes! (source Reuters).

Ou ceci - traduit dans les grandes lignes - issu d'une analyse d'IBM (2006) intitulées The Toxic Terabyte (à lire, pour les anglophones):

Les projections datées d'il y a quatre ans prévoyaient que l'ensemble des données mondiales allait doubler toutes les 11 heures. La croissance de ces données digitales mondiales est si rapide que le vocabulaire pour le désigner a du s'adapter et s'étendre. Il y a dix ou vingt ans les professionnels de l'informatique s'exprimaient en kilobytes et megabytes (...) Aujourd'hui ce sont les écoliers qui ont accès à des ordinateurs qui ont des capacités de mémoire de l'ordre de dizaines de gigabytes (...) Au-delà, ce sont maintenant des exabytes, zettabytes et yottabytes dont on parle, chacun étant une centaine de fois supérieur au précédent (...).

Cela pose - comme toujours - de nombreuses questions et, je ne sais pas vous, mais moi, j'y pense souvent:

- Comment indexer et archiver: passé la consultation immédiate - ou en 'temps réel' - l'important sera de savoir remonter/retrouver les informations et trier par pertinence.

- Les langages et les outils vont évoluer: pourrons-nous toujours lire/consulter ce qui a été stocké à un temps T? (souvenez-vous, les manges disques et les lecteurs VHS...). D'ailleurs, développeurs, pensez à laisser quelque part une possible pierre de Rosette pour le futur en plusieurs langages.

- Que sera-t-il pertinent de conserver - ou pas? Question ancienne mais, dont il me semble que la nouveauté est qu'elle concerne également aujourd'hui les individus dans leur dimension intime et sociale. Avant le numérique, seuls existaient les journaux intimes, correspondances, albums de famille ou documents notariés, etc - il paraît qu'aujourd'hui sur FaceBook la jeune génération accole les noms de famille des amis à son propre patronyme: votre nom + celui d'un ami, pour marquer l'affinité: imaginez le travail des généalogistes du futur!

- Dans la même veine, cela pose peut-être aussi la question de la trace - ou de l'illusion de: aujourd'hui chaque utilisateur en ligne peut avoir le sentiment d'exister de façon pérenne en laissant ces fameuses "traces". Cela change-t-il quelque chose dans notre rapport au temps, à la perception que nous avons de nous-même?

- Enfin, qui détient - ou va détenir - cette colossale mémoire? Celle qui est stockée pour partie par des entreprises privées, qui sont aussi celles qui acheminent l'information, construisent et vendent les outils et le matériel, les serveurs, les centres de données, les câbles sous-marins, les antennes et réseaux, satellites et moteurs de recherches...

Je ne veux pas aborder ici l'aspect paranoïa et vie privée, mais simplement souligner qu'il s'agit d'une question qui prend une dimension nouvelle, et qu'il ne s'agit pas d'organismes publics.

Contrairement à la Librairie du Congrès - qui fait œuvre patrimoniale - comme toutes les entités de cette nature, aujourd'hui les données privées étant de plus en plus numérisées - et donc, de moins en moins conservées sur d'autres supports - il faut bien se poser la question de leur conservation, de leur accès et de leur "place" dans un futur, pas si lointain.

A qui est/sera dévolu ce rôle?

Beaucoup de questions donc pour un samedi matin, invite à la réflexion plutôt qu'à la réponse immédiate et - surtout pas - définitive!

Illustration 1: Bram J. Meijer - copyright photoXpress.com - Illustration 2: Nikkis Noise.