Google et le duplicate content : problématiques de contenus dans son site et sur les réseaux sociaux

Publié le 23 septembre 2012 par Dreesens @dreesens

Mes clients, en formation ou en conseil, me demandent régulièrement comment rédiger du contenu et notamment comment le diffuser sur leurs profils sociaux pour éviter d'être taxé de Duplicate Content par Google. Donc voici ce qui ressort de la politique de Google et de ce que j'ai constaté sur le terrain.

Tout d'abord c'est quoi le Duplicate Content ?

Cette notion est apparue avec Google Panda en 2011. Pour rappel, ce filtre sert à retirer tous types de contenus jugés " pauvres " à savoir les pages de liens (comparateurs de prix, ferme de liens...), les agrégateurs (Wikio...) et tous les sites qui reproduisent tout ou partie d'un texte sur leur page. Pour Google un texte original est dit canonique. L'originalité se fait par rapport à la date du crawl du texte. C'est à dire la première fois que Google a détecté le texte et l'a référencé grâce à ses bots.

Les différentes formes de Duplicate Content

Les contenus Intrasite. C'est généralement le même contenu trouvé à partir des plusieurs URLs différentes (monsite.com/rubriques001/page.html et monsite.com/rubriques004/page.html ont le même contenu). Il s'agit de sites qui proposent différentes entrées sur un même contenu.

Les contenus Intersites. Là c'est clairement de la copie d'un contenu d'un site vers un autre site. Souvent le fait de petits malins qui pompent largement un contenu pour populariser leur site. Mais cela peut-être aussi dû à la méconnaissance des règles de Google. Par exemple, je me suis souvent amusé à faire la démo en clientèle de la reproduction de leur page " qui sommes-nous " sur une multitude de pages extérieures. En effet, les textes de présentations d'entreprises sont souvent copiées : soit en interne, par les RH, par exemple dans le cadre de publication d'annonces en ligne, soit à l'extérieur par des sociétés partenaires, des salons, des syndicats...

Le Duplicate Content dû aux balises Meta description et Title. Hé oui ! si vous ne modifiez pas vos titres et descriptions sur toutes vos pages, Google vous taxera de Duplicate Content. Vous devez faire un Titre et une description différents pour chaque page en relation avec le contenu de la dite page.

Je suis l'original !!!

Pour éviter tout forme de Duplicate Content voici quelques conseils :

  1. Bien écrire ses pages pour être bien référencé. Avoir notamment des titres et des meta descriptions originaux pour chacune de vos pages
  2. Pour être sûr d'être qualifié de texte original il faut donc tout faire pour que Google vous trouve en premier ! Outre le fait de bien écrire et codé ses pages il faut surtout avoir paramétré un fichier sitemap.xml dans les Google Webmaster Tools. Vous faciliterez ainsi le travail de Google et votre page sera très rapidement indexée.
  3. Configurer vos redirections de page avec les redirections 301. Vous permettrez ainsi à Google de supprimer de son index l'ancienne page et d'indexer correctement la nouvelle sans être taxé de Duplicate Content.
  4. Méthode complémentaire et fortement conseillée : Mettre un attribut " canonique " dans son code. Il suffit pour cela de mettre une balise <link> avec l'attribut rel= "canonical " dans la section <head> de la version non canonique de la page. Cela permet aux propriétaires des pages ayant plusieurs fois le même contenu de définir LA page à vraiment indexer et donc d'éviter tout problème de Duplicate Content Intrasite.

Ok J'ai compris, j'ai fait tout ce que souhaite Google mais pour le reste ?

Le reste ? Hé oui, hors pages de votre site, votre contenu peut être dupliqué sur d'autres supports :

Les documents downloadables comme les PDF par exemple. Je pense notamment à la version téléchargeable de la page HTML sur lequel on surfe et que l'on souhaite conserver en local. C'est du Duplicate Content.

Solution : Jouer la profondeur dans votre site. Ecrire un contenu synthétique (ne veut pas dire pauvre pour autant) et faire un document plus long et riche dans un pdf. Vous aurez ainsi deux documents traitant de la même problématique mais originaux.

Flux RSS. Hé oui, par définition un flux reprend votre contenu. Cela peut être pris par Google comme du Duplicate Content .

Solution : Là encore jouer la profondeur. Ne mettez que quelques éléments dans votre flux : Titre, première ligne ou chapo, voir image. Google semble prendre en compte la logique de diffusion des flux, et donc la nécessaire duplication. Faites sobre et synthétique dans votre flux et Google vous laissera tranquille.

Réseaux sociaux. Est-ce que vos messages peuvent être considérés comme du Duplicate Content si vous utilisez des outils qui systématisent l'envoi ? Oui et non. En fait, de ce que je vois, Google a l'air de prendre en compte l'environnement de la page. Je m'explique. S'il a identifié la source du contenu original comme appartenant à quelqu'un (et là je vous conseille fortement d'utiliser les rel= "author " sur votre site et d'avoir un compte Google + associé) et que cette personne publie sur d'autres supports lui appartenant, Google semble la laisser tranquille. Par contre, si vous agglomérez différents flux RSS, provenant de sources tiers, vers vos profils, là c'est plus que moyen.

Solution : Proscrire les flux RSS dans l'envoi automatique des messages vers les profils sociaux. Ecrire un message court pour Tweeter (brancher LinkedIn et Viadéo, ces profils étant privés aucune incidence sur Google) et un autre pour Facebook, Google +. Au final il y aura trois messages distincts.