Magazine

Google est-il est le meilleur moteur de recherche en langue naturelle ?

Publié le 20 mars 2009 par Eogez
Pour le savoir, Jean-Noël Anderruthy de GoogleXXL a fait une sélection de 10 questions qu'il est possible de poser à un moteur de recherche en langage naturel, et les a testées sur plusieurs moteurs : Google donc, mais aussi Powerset, Live Search, Hakia, Yahoo, Ask et TrueKnowledge.
Les questions :
  • Show me a map of France
  • List some large cities in France
  • When was einstein born?
  • What movies has Alain Delon been in?
  • Give me the GDP of China
  • How many languages are spoken in Pakistan?
  • Who was the eighth president of the United States?
  • How many ethnic groups exist in cameroon?
  • What is TCP/IP?
  • How hot will it be in Paris tomorrow?
  • Résultat des courses : Google et Ask obtiennent la note de 10/10 et Powerset arrive en dernier avec juste la moyenne (5/10). Les autres moteurs se débrouillent plutôt bien : 8/10 ou 9/10.
    Pour une description des moteurs de recherche et l'analyse, c'est ici.
    Quelques questions :
    • Est-ce que la méthodologie est pertinente ?
    • Est-ce que le choix des moteurs l'est aussi ?
    Jérôme : Le billet est intéressant : étudier et comparer les réponses de différents moteurs à un ensemble de recherches exprimées en langage naturel (tout de même assez factuelles), pourquoi pas. La méthodologie un peu légère à mon goût : ne prendre que le premier résultat, reformuler les requêtes selon les moteurs, ne décider de la pertinence (facteur très subjectif) des réponses sans prendre ne serait-ce qu'un mini panel ne donne pas des résultats significatifs et exploitables. Il ne faut donc pas comme nous serions tenté de la faire prendre ce billet comme une étude détaillée, mais comme une expérimentation.
    Il y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des "recherches sémantiques" de Google. Ce sera donc aujourd'hui l'occasion d'en parler.
    ça semble magique. Vous recherchez "Quelle est la devise de la France" et Google vous retourne "France - Monnaie : Euro (EUR)". Pas mal, non ? Amusez-vous donc avec des recherches du style "qui est le président de la france" ou encore "quelle est la superficie de la france". Pour ceux qui ne connaissaient pas, vous êtes bluffés, non ?
    De là à parler de recherche en langage naturel, il ne faut tout de même pas aller trop vite. Essayez par exemple "quelle est la taille de la france", "qui est le chef d'état de la france" ou "j'aimerais connaitre la superficie de la france" et vous verrez que Google ne sait plus nous répondre (directement).
    D'autres vous dirons que Google devient un moteur de recherche sémantique. Soit, mais qu'est-ce que la sémantique et plus particulièrement l'analyse sémantique ? D'après la définition de Wikipedia, c'est une analyse qui établit la signification d'un message en utilisant le sens des éléments du texte. Pensez-vous sérieusement que Google face une telle analyse ? Non du tout.
    Voici comment se déroule très probablement ce processus à l'heure actuelle. Le moteur utilise une base de données structurée (comme dbpedia) ou pseudo-structurée (comme Wikipedia). Prenons l'exemple de Wikipedia. Allez sur la page France. Que remarquez-vous sur la droite ? Un tableau structuré de données factuelles sur la France (superficie, devise, etc). Google récupère donc ces données en conservant le triplet France/devise/euro. Ensuite lors d'une recherche, si Google retrouve le terme France associé au terme devise (ou superficie, etc) et que le reste des termes sont des termes vides ou peu discriminant alors il propose une réponse exacte issue de la base de données structurée.
    Nous pouvons au premier abord nous laisser tromper, mais non, Google n'est pas un moteur de recherche en langage naturel et ce n'est pas non plus un moteur de recherche sémantique. En revanche, ce genre de fonctionnalité est très intéressante et préfigure ce que seront les moteurs de demain : un accès encore plus précis et plus rapide à l'information recherchée.

    Retour à La Une de Logo Paperblog

    A propos de l’auteur


    Eogez 5328 partages Voir son profil
    Voir son blog

    l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte