Searx, alternative sérieuse de Google?

Publié le 12 novembre 2014 par Edeation @edeation

Je vous parlais le mois dernier des services Framasoft, destinés à offrir des alternatives sérieuses aux différents poids lourds que sont Google, Facebook, Skype, Dropbox, Twitter… Pas moins de 28 services au total, dont le développement est planifié sur 5 ans, dans le cadre du vaste plan de dégooglisation de l’internet de Framasoft. Cette semaine j’ai voulu parler d’une pièce de choix : Framasearch, le moteur de recherche de Framasoft. Bon, ne vous emballez pas trop vite, il s’agit « seulement » d’un métamoteur de recherche, c’est-à-dire d’un moteur qui envoie ses requêtes à plusieurs moteurs de recherche et retourne les résultats de chacun d’eux, en faisant un tri au passage. Pour ce qui est de la véritable alternative à Google (et aux autres Bing ou Yahoo), comme moteur de recherche indépendant, c’est un autre sujet dont je reparlerai à coup sûr avant la fin de l’année. En attendant ce grand soir (que je souhaite d’initiative européenne), il n’est pas inutile de revenir sur ce que peuvent déjà nous apporter un métamoteur. Que peut-on attendre d’un métamoteur? Principalement deux choses déjà essentielles : l’amélioration des résultats et le respect de la vie privée. En d’autres termes, on attend plus de pertinence et plus de confidentialité.

Qu’est-ce que Searx?

À l’instar de DuckDuckGo ou Ixquick, c’est sur ce créneau que se situe Framasearch. Toutefois, à la différence des ces derniers, Framasearch n’est pas exactement un métamoteur. C’est une instance de Searx, un métamoteur libre développé en Python sous licence AGPLv3. Searx a été conçu (par Adam Tauber) dans le but de protéger votre vie privée, dans l’esprit du moteur Seeks. Searx ne stocke aucune information personnelle de ses utilisateurs. Non seulement il ne produit pas de profil de vous (via la personnalisation des recherches), mais il ne se soucie pas de ce que vous cherchez et n’envoie donc rien à votre insu à des tiers. Comment fait-il?

Pour garantir le respect de votre vie privée numérique, le principe est simple : votre IP est toujours masquée. Elle est masquée parce que vous passez par un serveur tiers, donc vous restez toujours anonyme. Comme vous restez continuellement un inconnu, caché derrière un serveur tiers, Google ne peut pas vous suggérer des résultats prétendument pertinents, ni vous arroser de publicité.

Le second intérêt de Searx réside dans le fait qu’il est entièrement configurable. Non seulement son code est ouvert (il ne tient qu’à vous de le récupérer sur github et de le modifier vous-même), mais il est livré avec un fichier spécial (settings.yml) permettant de paramétrer le moteur. C’est ainsi que l’on peut assez facilement en créer des instances, dont http://searx.framasoft.org est un représentant. Il existe déjà une bonne vingtaine d’instances Searx, dont la plupart ont un certificat CAcert SSL.

Le test

Justement, que donne l’instance Searx de Framasoft, aka Framasearch? On aborde là la seconde question : la pertinence des résultats. Très modestement, j’ai imaginé une recherche test pour comparer Google et searx.framasoft, en choisissant un sujet pointu pour mieux démarquer les moteurs. Comme je suis aussi théoricien et logicien, j’ai choisi d’effectuer une recherche sur les mots « espaces » + « cohérents » + « quantiques », une recherche volontairement piégeuse (car sémantiquement proche de sujets très différents).

Premier constat : les résultats ne sont pas pollués par les affichages publicitaires. Bon, j’enfonce une porte ouverte mais c’est toujours bien de rappeler qu’il existe encore des espaces vierges non souillés par l’esprit cupide de quelques racle-deniers. Mais analysons maintenant les 10 résultats de Google, et comparons leur pertinence avec les 10 résultats de searx.framasoft.

Sur les 10 premiers résultats, Google donne 5 résultats sur les « états cohérents », un sujet qui n’a strictement rien à voir avec les « espaces cohérents » (les états cohérents sont du domaine de la physique quantique, les espaces cohérents du domaine de la logique mathématique). Pire, 5 des 6 premiers résultats sont trustés par les états quantiques. Hors sujet. Seule la réponse #2 traite du sujet précis. Sur les 4 dernières réponses, deux traitent du bon sujet (#7 et #8), une traite vaguement du sujet (#9 : algorithmes quantiques), et une est hors sujet (#10 : électrodynamique quantique). En étant indulgent et en omettant l’ordre des réponses on peut donc mettre un 3,5/10 peu flatteur à Google.

Passons à searx.framasoft. Les trois premières réponses tapent déjà dans le mille. La quatrième, qui traite de la cryptographie quantique, rate à moitié la cible. La cinquième la manque totalement (chimie quantique). La sixième également (elle traite des états quantiques). La septième réussit le test ; la huitième échoue (électronique quantique) ; la neuvième réussit, et la dixième échoue (théorie des cordes). Résultat : 5,5/10. searx.framasoft se tire très honorablement de cet examen difficile, avec la moyenne.

Évidemment le verdict change radicalement en cherchant les résultats pour l’expression complète (« espaces cohérents quantiques »). Dans ce cas, on obtient sans surprise un 10/10 pour Google et searx.framasoft. Cela semble indiquer que searx.framasoft est d’une certaine manière plus « intelligent » que Google : on n’a pas besoin de lui tirer les vers du nez pour qu’il trouve les résultats pertinents.

Conclusion

Ce premier retour d’expérience semble attester que searx.framasoft améliore les résultats de Google. En d’autres termes, la couche searx.framasoft sur-interprète avantageusement l’algorithme de Google et des autres moteurs. Au fond, cette conclusion n’est pas un scoop : on sait depuis longtemps que Google n’est pas le moteur le plus pertinent. D’autres bancs d’essais beaucoup plus complets l’ont déjà démontré. Mais le sujet du billet était plutôt sa confrontation avec searx.framasoft et force est de constater que ce dernier prend l’avantage sur Google, à tous les points de vue. Mais, encore une fois, ce n’est qu’un très modeste retour d’expérience, qui a surtout pour vocation d’en susciter d’autres, c’est-à-dire de vous encourager à essayer searx par vous-même.