Magazine Blog

Blogdimension et les moteurs de recherche alternatifs

Publié le 01 octobre 2007 par Henrick Kac

Le Web en 2007 est un empilement de sources d’information plus ou moins reliées les unes aux autres. Mais, au fait, de quoi est fait le Web aujourd’hui ?

On peut dire que le Web n’est pas vraiment du contenu, mais le support qui tend à être universel d’une vaste variété de contenus de nature très diverse.

Avant tout, on y trouve du texte, la plupart du temps illustré d’images (photo et graphismes). Dans la catégorie “texte” on peut trouver aussi bien du contenu encyclopédique (informatif de type Wikipedia ou journalistique), d’actualités (informations et fils d’actus en ligne), commercial (fiches produits, analyses, comparatifs, liens publicitaires), opinions et humeurs d’utilisateurs (forums, blogs), messages rapides (Twitter, Jaiku, Tumblr…).

A cela, avec l’accroissement des débits de l’Internet, s’ajoutent des contenus animés : sons, fichiers audios, podcasts, vidéos en ligne et bien sûr toutes sortes d’animations en boucle ou interactives en “Flash”. Sans oublier les flux audio ou visuels (Webradio et WebTV).

Le lien entre toutes ces sources supportées par le web est le texte. Il représente l’ADN numérique de tout contenu qu’il soit textuel ou multimédia. Le texte sous la forme de phrases ou tags (étiquettes) donne du sens à des éléments Internet qui n’en ont a priori pas. Le texte permet d’indexer (c’est à dire reconnaitre et classer) les fichiers multimédia.

Ces différents contenus se retrouvent encapsulés dans la page web. On peut, par analogie, comparer le Web à un être vivant. La page web est le squelette, les fichiers sont les organes, le système nerveux et vasculaire sont les liens hypertexte et les tags représentent le code génétique d’une source web. Le  cerveau est décentralisé puisqu’il s’agit de celui du créateur du site associé à l’ingénierie de programmation développée pour rendre le site interactif et lui permettant de réagir en fonction d’un stimulus reçu (celui de l’internaute et des utilisateurs).

Contrairement à une idée reçue, le Web n’est pas unifié. Certes, il existe de nombreux sites reliés les uns aux autres qui forment de vastes réseaux souvent thématiques. Toutefois, on peut plutôt parler d’archipels de sites web.

Le meilleur moyen de trouver une source Web est d’utiliser des moteurs de recherche.

Les paradoxe du succès monopolistique des grands moteurs de recherche

Personne ne remet en cause le génie et l’opportunisme pragmatique de Google et autres Yahoo! Mais il y a quand même quelques inconvénients à l’utilisation exclusive d’un seul moteur liés au gigantisme même de ces systèmes. L’analyse qui suit est particulièrement vraie pour les contenus textuels.

Le paradoxe du mélange des genres

Les grands moteurs de recherche qui se disent universels, contrairement aux moteurs spécialisés, mélangent de nombreuses sources d’information et les affichent ensemble dans la page de résultat. Il y a bien une volonté de séparer certains contenus, par exemple, le web généraliste des actualités. Cependant cette séparation est assez grossière. Par exemple, le tri des différentes catégories de contenus gagne encore à être affiné :

  • web encyclopédique,
  • sites commerciaux ou sites plaquettes,
  • sites d’actualités (news search),
  • blogs (blog search),
  • forums,
  • micro-blogs,
  • produits et shopping (product search),
  • recherche de personnes (people search),
  • multimédia (image, podcast et video search).

Tous ces contenus se retrouvent mélangés au sein d’une page de résultat standard. Les fonctions de filtrage sont souvent absentes ou peu visibles. Il est ainsi difficile de trier ces résultats. Ceci dit certains utilisateurs apprécient le côté “farfouille” de moteurs de recherche généralistes. Cela permet une exposition accrue aux programmes publicitaires. On peut parler là d’un véritable merchandising du web.

Le paradoxe du choix de l’information

Google aussi bien que Yahoo et quelques autres moteurs de recherche aspirent pratiquement l’intégralité du web. Lorsqu’un utilisateur recherche une information il est assuré de trouver un choix quasiment infini de sources. Parfois, ce choix se mesure en centaines de millions de possibilités. Cela est d’autant plus vrai que la plupart des utilisateurs n’utilisent guère ni une combinaison de plusieurs mots, ni les opérateurs boléens ‘”ET”, “OU” et d’exclusion “SANS” ou “PAS”. De ce fait, l’utilisateur peut se trouver bombardé d’informations parasites appelées “bruit” et donc ne pas trouver “rapidement” la “bonne” information. Croyant avoir trouvé la “bonne” information dans les deux ou trois pages de résultats, il ne se doute peut-être pas qu’un résultat encore meilleur (”pertinent”) existe peut-être à la 4e ou 5e page.

Le paradoxe du classement de l’information

Le fait que les grands systèmes aient a gérer un index illimité d’informations sur un espace limité  (l’écran de l’utilisateur) contraint à faire des choix de classement et de mise à disposition de l’information. En principe, ces classements sont effectués de façon déterministe et automatique par une formule mathématique appelée algorithme. Chaque moteur de recherche met en oeuvre son propre algorithme. Or, certaines formules sont basées sur un concept de popularité (type “Page rank” de Google). A savoir, que sont affichés en premier non pas les sites qui sont les plus pertinents du point de vue de l’information et du contenu mais ceux qui sont les plus populaires (parfois populaire = pertinence selon le principe de la sagesse des foules ou folksonomie). Ceux notamment qui sont le plus plébiscités par les autres internautes. Ce genre de classement tend à générer en fait un système de castes au sein des sites web. Les plus populaires sont toujours en haut de la liste des résultat, et les autres toujours vers le bas. Par conséquent, la majeure partie des sites devient invisible puisque toujours située plus loin dans les résultats. Il y a peu de mobilité entre les sites peu populaires et très populaires.

Les moteurs dits de “niche”, pour une recherche alternative

Chez Blogdimension.com ainsi que chez d’autres moteurs de recherche dits “alternatifs” (voir AltSearchEngines), le parti pris est de dévoiler d’autres facettes du prisme Web aux utilisateurs. Ces moteurs proposent un angle différent. Non pas que nous prônions à nos utilisateurs d’abandonner Google ou Yahoo. Mais, nous leur disons ceci : “Pourquoi ne pas utiliser aussi d’autres moteurs de recherche et comparer les résultats ?”.

Des résultats plus ciblés

Chez Blogdimension.com, par exemple, nous ne proposons - délibérément - qu’une recherche de contenus dynamiques et syndiqués (ceux typiquement qui contiennent un fil RSS ou Atom). Ainsi, vous ne trouverez que des sources de type :

  • blogs,
  • microblogs,
  • forums,
  • actualités.

En un mot, uniquement le web qui bouge vite !

Des résultats différents

La formule de classement n’est pas basée par défaut sur la popularité mais sur la “fraicheur” (du plus récent au moins récent) d’une source. Donc, pour une même recherche, l’utilisateur est assuré de trouver des résultats à chaque fois différents d’où un meilleur brassage des sources.

Des options de classement permettent d’arranger sa page de résultats différemment : date, pertinence, pertinence+date et aussi popularité (prochainement) comme option additionnelle. L’utilisateur est garanti de trouver le résultat escompté et de plus rapidement !

Des résultats avec moins de “bruit”

Le fait de proposer une recherche ciblée, éloigne de facto les sources parasites par exemple excessivement commerciales ou le spam. Chez Blogdimension.com, dans l’onglet de recherche blogs, on ne trouve que des contenus syndiqués. Nous avons réglé notre technologie de sorte que le web généraliste et statique se retrouvent écartés de notre index.

On y trouve donc que des blogs, forums, actualités et micro-blogs.

Des résultats correspondant aux nouveaux usages Web 2.0

En organisant l’interface de recherche de façon simple, certains moteurs de recherche alternatifs parmi lesquels Blogdimension.com ont cherché à se rapprocher des nouveaux besoins Web 2.0 des utilisateurs. En effet, un utilisateur peut être amené à rechercher une même source d’information selon plusieurs angles :

Texte > Images > Audio & Podcast > Vidéos en ligne… On peut ainsi envisager un ciblage encore plus fin en introduisant des modules de recherche d’”Actualités“, “Personnes“, “Produits”, etc. C’est vers cette sorte de combinaison de recherche que s’oriente Blogdimension.com permettant à l’utilisateur un véritable parcours cohérent dans son expérience de recherche.

Un affichage rapide

Le fait que l’index soit plus concentré tend à rendre ces moteurs de recherche plus rapides, même si on peut admettre que Google est en général très rapide. En revanche, Yahoo ou Technorati le sont un peu moins. Il faut dire aussi que les moteurs de recherche alternatifs ont moins de trafic simultané et les serveurs sont donc moins sollicités.

Moins de résultats mais une diversité visible

En se spécialisant, les moteurs de recherche sont plus efficaces sur une dimension plus restreinte du web. L’utilisateur qui cherche du blog ne trouvera que du blog, celui qui cherchera des vidéos en ligne trouvera des vidéos issues de plusieurs plateformes de partage de vidéos (et pas seulement du YouTube ou du Dailymotion !), celui qui ne cherchera que des fichiers audios (MP3 ou podcasts) n’obtiendra que des résultats audios.

Les moteurs de recherche alternatifs proposent donc une vue différente et complémentaire du Web aux utilisateurs pour un accès en général plus rapide et direct aux sources du Web dynamique et multimédia !

Blogdimension.com est le moteur de recherche de ceux qui souhaitent varier leur sources d’information. Blogdimension.com fait partie des initiatives tendant à généraliser une utilisation multilatérale dans la recherche Web.

Blogdimension.com existe déjà en version Française, Anglaise et depuis peu Espagnole. D’autres grandes langues sont déjà en préparation.

Merci de votre soutien,

La Team


Retour à La Une de Logo Paperblog

A propos de l’auteur


Henrick Kac 3 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte