Duplicate Content : explications, dangers et subtilités

Publié le 08 mars 2011 par Ph3nol

Tout d’abord, commençons par une brève explication de ce qu’est le fameux duplicate content si souvent évoqué lorsque l’on parle de référencement.

On parle de duplicate content (ou duplication de contenu) lorsque qu’un moteur de recherche indexe plusieurs pages (2 ou plus) strictement ou relativement identiques concernant leur contenu. A ce fait peuvent s’appliquer deux possibilités :

  • une forte baisse du TrustRank (indice de confiance) du site concerné
  • une suppression des pages concernées par le duplicate content

L’existence de pages dupliquées peut ne pas être volontaire, voire même peut-être affecter votre site Internet sans que vous en soyez conscient(e).

Comment savoir si certaines pages de votre site sont en duplicate content ?

En effectuant une recherche avancée sur Google, vous pouvez lister les pages indexées de votre site Internet. Pour cela, il suffit d’effectuer la recherche suivante :

site:www.votresite.com

Rendez-vous sur la dernière page de cette recherche et regardez en bas de cette dernière. Google stipule qu’il a ignoré dans votre recherche les pages à contenu similaire. Vous pouvez les inclure dans votre recherche afin de les pister et rectifier ce problème au plus vite. 

Vous pouvez également passer par le service Google Webmaster Tools dédié, comme son nom l’indique, aux webmasters. Après vous être identifié(e), rendez-vous dans la rubrique Diagnostic/Suggestions HTML qui vous permettra de lister les pages dont les titres et meta descriptions peuvent contenir des similitudes.

Vous pourrez, grâce à ces deux vérifications, prendre connaissance d’une bonne partie du duplicate content de votre site Internet. La limite critique du taux de duplicate content est estimée entre 10% et 15%. Si vous atteignez ce seuil, il est urgent de rectifier ce problème sous peine de ne plus être indexé par les moteurs de recherches les plus utilisés.

Deux conséquences directes du duplicate content

Plusieurs conséquences, plus ou moins handicapantes, peuvent être directement liées à la présente deduplicate content sur votre site Internet.

La première est la perte de trafic directement liée au fait que les pages dupliquées ne soient pas affichées par les moteurs de recherches. Ces pages auront donc une visibilité réduite qui limitera les visites en provenance de moteurs de recherches.

La deuxième est sans aucun doute la perte de linking. En effet, il n’est pas rare de trouver une toile interne de liens au sein des pages d’un site Internet ou d’un blog, pointant vers d’autre pages de ce dernier et assurant unlinking déterminant. En ignorant les pages dupliquées, les moteurs de recherches ne suivront pas les liens qui les composent, ce qui handicapera considérablement le crawl (découverte/parcours par les robots des moteurs de recherches) de votre site.

Cas concrets de duplicate content

Selon la configuration de votre serveur (au niveau DNS et Apache/VirtualHosts), il se peut que votre site Internet soit accessible depuis deux adresses :

  • votresite.com
  • www.votresite.com

Si l’une (secondaire) ne redirige pas vers l’autre (principale), il y a de fortes chances que pour les moteurs de recherches, votre site soit disponible en deux exemplaires intégralement dupliqués. C’est clairement la pire des hypothèses possibles, qui pourra vous coûter la bannissement direct de ces derniers.

Autre cas courant, une page d’accueil accessible depuis plusieurs adresses/fichiers :

  • index.html
  • index.php
  • index.phtml
  • accueil.php
  • etc.

Cette page d’accueil sera bien entendu également repérée comme duplicate content avec les conséquences que nous connaissons.

Les balises title et meta sont également à prendre sérieusement en considération : gardez à l’esprit que chaque titre, description et mots clés liés à une page doivent être uniques et réservés à cette dernière. Les moteurs de recherches ont des filtres très rigoureux à ce sujet, pouvant impacter votre positionnement et votre TrustRank.

Notez que dans certains cas de duplicate content inévitables, il est préférable de protéger les pages concernées de l’indexation (que ce soit grâce au robots.txt ou autres).