Magazine

Search Engine for Dummies

Publié le 02 avril 2006 par Eogez
Prof-Aixtal avait eu la gentillesse de me mettre dans la confidence de sa dernière étude "Moteurs: Et le gagnant est..." , et je l'en remercie. Les résultats, qui remettent quelques pendules à l'heure me semblent très instructifs. Sans nul doute, cette étude va faire du bruit dans la blogosphère, et j'espère même qu'elle sera reprise abondamment par d'autres vecteurs d'information.


Search Engine for Dummies
Quels enseignements pouvons nous en tirer? Quelle analyse faire de ces résultats? Voici ce qui me frappe:

La médiocrité globale des résultats me réconforte pour deux raisons. Tout d'abord, elle reflète l'idée que je me faisais de la pertinence actuelle des moteurs de recherche. Ensuite, cela suggère qu'il y a incontestablement de la place pour de nouveaux challengers. Alors messieurs les investisseurs arrêtez s'il vous plait de considérer le marché de la recherche comme bouché et sans avenir. Car comme c'est le cas de Firefox, plus il y aura de challengers sérieux aux géants actuels, plus l'utilisateur aura le choix et plus les géants devront se réveiller.

Les piètres résultats d' Exalead confirment les quelques doutes que j'avais sur ce moteur. Alors de deux choses l'une, soit les enseignements de mon maître (Christian Fluhr) en matière de traitements linguistiques ne sont pas fondés et finalement ils n'apportent pas une réelle pertinence, soit François Bourdoncle utilise à tord les termes "linguistique statistique" et "sémantique statistique" pour qualifier les algorithmes utillisés par Exalead. Pour avoir longuement utilisé et trituré le système Spirit dont les algorithmes linguistiques apportent une réelle valeur ajoutée à la recherche d'information, je pencherais plus pour la solution "algos de comm et recherches de subvention" (pour citer quelqu'un que je ne nommerais pas) en lieu et place de "linguistique statistique". (Petite parenthèse à ce sujet: appliquer des algorithmes dits linguistiques nécessite tout d'abord d' identifier la langue des documents à traiter, puis ensuite d'utiliser un analyseur spécifique pour chaque langue. J'ai commencé à implémenter toute cette mécanique dans Nutch. Linguistes, développeurs et autres passionnés, récupérez donc le code de Nutch et apportez votre pierre à la communauté en nous fournissant de puissant analyseurs linguistiques).

Du côté de Dir.com, les résultats ne sont pas brillants non plus. Mais comme le mentionne Jean, Dir.com est plus une plateforme expérimentale qu'un moteur grand public. A ce sujet, j'en profite pour relancer Dir.com que j'avais contacté il y a quelques temps sans aucune réponse. Messieurs, seriez-vous intéressés pour monter une plateforme expérimentale sur Nutch?


Google et Yahoo! sont donc en tête. Rien de réellement surprenant. Mais quel en sont les raisons?

  • La taille de la base de données des deux géants joue certainement un rôle non négligeable: Disposant d'un plus grand nombre de documents, ils sont à même de disposer potentiellement de plus de réponses pertinentes (encore faut il les filtrer correctement).
  • Le plus grand nombre d'utilisateurs des deux géants représente également un feed-back important pour accroitre leur pertinence (les liens souvent cliqués par les utilisateurs auront un meilleur score).
  • Bien entendu, la puissance de calcul déployée par chaque moteur joue également un rôle très important: Google et Yahoo! peuvent mettre en place des algorithmes plus fins, mieux filtrer le spam, appliquer des algorithmes de type PageRank, très gourmand en ressources de calcul...)

Bref, avec dans le meilleur des cas, une pertinence légèrement au dessus de la moyenne, les moteurs de recherche n'en sont finalement encore que dans leurs tous premiers stades de développement, et beaucoup reste à faire. Certains parleront de moteurs sémantiques, de moteurs sociaux, et autres moteurs 2.0. Même si tous ces concepts sont très intéressants, même s'ils apportent un plus, ils n'apportent pas une réponse à la recherche d'information sur Internet qui est avant tout un problème de traitement automatique de la langue.

Retour à La Une de Logo Paperblog

A propos de l’auteur


Eogez 5328 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte