Magazine Culture

Métadonnées Google books : Des milliers, des millions d'erreurs

Publié le 04 septembre 2009 par Actualitté
On pouvait déjà accuser les fichiers ePub proposés aux lecteurs, qui souhaitaient s'offrir une petite lecture d'oeuvre libre de droit, de ne pas vraiment être des plus efficaces. Maintenant, on va pouvoir incriminer directement les métadonnées, si l'on se fie aux informations données par le professeur Geoffrey Nunberg, à la School of Information at UC Berkeley. C'est avec une ironie désabusée qu'il note toutes les erreurs contenues dans les métadonnées.
Métadonnées Google books : Des milliers, des millions d'erreursLes archives recensées pour l'année 1899 sont par exemple complètement faussées, rendant la base de données de recherche du moteur caduque. Ainsi en fonction des recherches que l'on effectue, par exemple donné sur les livres publiés avant 1920 et contenant "candy bar", on tombe sur 66 réponses dont 46 à 70 % sont erronées.
La proportion des oeuvres contenant des erreurs dans les métadonnées augmente ainsi à mesure que l'on recule dans le temps. Chose tout à fait compréhensible, étant donné que les titres récents proviennent directement des éditeurs. Sur Language Log, Geoff multiplie ainsi les exemples de ce genre, relevant uniquement de recherches qu'il a pu effectuer.
Pour les étudiants ou les universitaires, ce genre de bévues devient non seulement problématique, mais surtout inconciliable avec des recherches sur certains thèmes, attendu que les ouvrages mentionnés ou les itérations de tel ou tel terme sont faux.
Google a cependant répondu à ce billet. « Geoff explique que nous avons des centaines de milliers d'erreurs. J'aimerais bien qu'il en soit ainsi. Nous en avons des millions. » Et bien plus encore selon leurs propres recherches. « Certaines d'entre elles sont évidemment évitables, d'autres persistent parce que nous sommes à la merci des données dont nous disposons. La qualité de nos métadonnées est bien meilleure qu'elle ne l'était voilà six mois et ce sera encore mieux dans six mois. Nous ne cesserons jamais de l'améliorer. »
Ayez confiance...
On pourra également consulter pour plus de détails l'article de Library Journal.

Retour à La Une de Logo Paperblog

A propos de l’auteur


Actualitté 3262 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte

Dossiers Paperblog

Magazine