Rendre l'information compréhensible par les machines

Dans les prochaines années, nous serons témoins d’une révolution dans la capacité des machines à accéder, retraiter et utiliser l’information. Cette révolution sera due essentiellement à 3 tendances liées au Web Sémantique : le Web des Données, le Web des Services et le Web des Identités. Ces Webs ont pour objectif de rendre disponibles, accessibles et utilisables le savoir sémantique concernant des données, les services sémantiques, et le savoir sémantique concernant des individus. Dans cet article, nous allons explorer le premier des ces 3 Webs, le Web des Données, et voir comment rendre l’information accessible par des machines transformera la manière de trouver l’information.

crédit photo : bjornmeansbear

La quantité d’informations et de services disponibles croit de manière exponentielle. Chaque jour, il devient de plus en plus difficile de trouver l’information que nous essayons de chercher. Le problème est que nous devons apprendre à dire aux machines ce que nous voulons. Pourquoi une machine ne peut pas comprendre quel site, quel tweet récent, quelle photo sur Flickr, quel message sur Facebook, ou quel restaurant nous cherchons sur Internet ?

Parce qu’elle ne peut pas. Elle ne le comprend pas et ne peut pas accéder à la plupart des sources. Il lui manque la compréhension sémantique et le sens commun pour construire des ponts entre l’information.

Il est essentiel que les machines accèdent à un niveau supérieur de compréhension. Au lieu de faire des analyses statistiques sur la concordance entre une recherche et un document, une machine doit littéralement être capable de comprendre. C’est pourquoi, des bases de données du savoir sont nécessaires pour s’assurer que nous parlons bien la même entité. Des exemples de ces bases de données sont :

Une encyclopédie contenant du savoir permettant de comprendre le sens et le contexte sémantique d’un terme en particulier. Par exemple, comprendre que Berlin est une ville, combien de personnes vivent dedans, et où elle est située.
Les pages jaunes ou un ensemble de services pour obtenir des informations plus complexes qui changent régulièrement. Par exemple, la route entre Berlin et Porto en voiture, la température actuelle de Porto en degrés Celsius.
Une base de donnée des personnes pour avoir accès, avec un jeu de règles de permissions, aux informations d’une personne qui pourrait permettre d’améliorer les systèmes de personnalisation et de recommandation.

Le Web de Données

L’idée du Web de Données tire son origine du Web sémantique. Des gens cherchaient à résoudre le problème de l’incapacité inhérente aux machines de comprendre une page web. Au début, le but du Web sémantique était d’annoter de manière invisible les pages web avec un ensemble de méta attributs et catégories pour permettre aux machines d’interpréter du texte et de le mettre en contexte. Cette approche n’a pas fonctionné parce qu’elle était trop compliquée à mettre en œuvre par les personnes sans savoir technique. Des approches similaires, comme les microformats, simplifient le processus de balisage et permettent de s’en sortir avec ce problème.

Ces approches ont en commun l’effort d’améliorer l’accessibilité des machines au savoir contenu dans des pages webs qui ont été conçues pour être consultées par des hommes. D’autre part, ces sites contiennent beaucoup d’informations qui ne sont pas pertinentes pour les machines et qui doivent être filtrées. Ce dont on a besoin est une base de données faite pour être consultable par des machines, c’est-à-dire dépouillée d’informations non pertinentes. Mais attention ! Qui a dit que les machines et nous les humains devions partager un seul web ?

L’idée du Web des Données est donc apparue pour contourner les problèmes dus à cette limitation et à l’existence de bases de données structurées colossales réparties dans le monde entier et contenant tous types d’information. Ces données sont la propriété d’entreprises qui les ouvrent de plus en plus. Généralement, une base données contient des informations a propos d’un domaine en particulier, comme les livres, la musique, les données encyclopédiques, les entreprises etc. Si ces données étaient interconnectées (c’est-à-dire pointaient entre elles comme les sites internet le font), une machine pourrait circuler dans ce web de données « sans bruit » contenant des informations structurées pour réunir du savoir sémantique concernant n’importe quels entité ou domaine. Le résultat d’une telle approche pourrait être une base de données gigantesque, totalement gratuite, qui pourrait être le fondement d’une nouvelle génération d’applications et de services.

Lier des données ouvertes

Les jeux de données offrent tous un accès à leur base de données et pointent vers des entrées contenues dans d’autres jeux de données. Le projet suit les principes élémentaires qui régissent le World Wide Web : simplicité, tolérance, conception modulaire et décentralisation. Le projet LOD comporte aujourd’hui plus de 2 milliards de triplets RDF, ce qui représente beaucoup d’information (un triplet est une brique d’information constituée d’un sujet, d’un prédicat et d’un objet et qui permet de représenter les propriétés d’un objet ou ses relations avec d’autres sujets). De plus, le nombre de jeux de données participant au projet croit très vite. On peut accéder aux jeux de données par différents moyens : par exemple, via un navigateur internet sémantique, ou en étant indexés par des moteurs de recherche sémantiques.

Magazine High tech

Rendre l'information compréhensible par les machines

Le Web de Données

Lier des données ouvertes

A propos de l’auteur

Dossiers Paperblog

Magazines

LA COMMUNAUTÉ HIGH TECH

LES JEUX SUR PAPERBLOG.FR