Magazine High tech

WikiWash, un monitoring en temps réel pour Wikipedia

Publié le 26 janvier 2015 par Edeation @edeation

En avril 2012, Le CIR (Center for Investigative Reporting, i.e. Centre pour le journalisme d’investigation), une organisation journalistique à but non lucratif basée à Berkeley, et Google annonçaient leur association à travers l’événement « TechRaking » une conférence informelle réunissant des journalistes et des experts en technologie du numérique. En mars 2014, le projet TechRaking recevait une nouvelle impulsion suite au concours de l’agence The Working Group et du journal Metro News. De cette prometteuse association de compétences est né un remarquable outil de journalisme de données : WikiWash.

Wikipedia est, comme vous le savez, l’un des sites les plus visités au monde. La grande encyclopédie en ligne, créée en 2001 et modifiable par (presque) n’importe qui, est devenue avec le temps la première source d’information générale sur tout sujet. Cependant, pour les journalistes et plus généralement les personnes désirant suivre un sujet d’actualité, il est difficile de suivre les modifications afférentes au sujet en question. C’est ce à quoi répond WikiWash, qui permet à n’importe qui, doté d’un simple navigateur web, de surveiller l’histoire d’une page de Wikipedia et d’en voir toutes ses modifications en temps réel. Autrement dit, en langage savant, c’est un outil de monitoring et de versioning en temps réel pour Wikipedia. Ce type d’outil est très utile pour le journalisme et le travail d’investigation, puisqu’il permet de fouiller dans l’historique des pages pour y dénicher d’éventuelles informations refoulées (rumeurs, canulars, controverses…).

WikiWash est donc un outil de big data par excellence permettant de réaliser des requêtes sur l’immense base de données de Wikipedia. Afin de faciliter le travail des contributeurs open source au projet, l’équipe de WikiWash a choisi de développer l’outil en Javascript, l’un des langages de programmation les plus accessibles et flexibles d’aujourd’hui.

Pour extraire les données sur l’historique d’une page de Wikipedia, WikiWash s’appuie sur l’API de Wikipedia, qui offre un accès à la quasi totalité des données de la vaste base de données. En revanche, les données ne sont pas toujours disponibles rapidement. Si les informations relatives à la liste des contributeurs et les métadonnées des révisions sont quasi-instantanées, le contenu réel de chaque révision, pour chaque page de Wikipedia, est assez lent à générer. C’est peut-être sur cette relative faiblesse que devront porter les améliorations ultérieures (Wikiwash est encore en version beta), même si l’outil sera toujours, in fine, tributaire de l’architecture particulière de la base de données Wikipedia.

Pour accéder au service Wikiwash et extraire les données d’une page Wikipedia, rendez-vous sur la page de Wikiwash.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Edeation 25 partages Voir son profil
Voir son blog