Duplicate Content et stratégies SEO

Duplicate content, s’en protéger

Le duplicate content nuit à la qualité de votre site et engendre des pénalités d’indexation. Les moteurs de recherche, vont pour préserver la qualité de leurs résultats, pénaliser vos pages en mettant en avant des sites proposant un contenu non dupliqué. Il est donc important dans votre stratégie SEO de mettre en place des moyens de lutte contre le duplicate content.

Qu’est-ce que le duplicate content ?

Le contenu dupliqué, ou duplicate content, désigne un contenu présent en plusieurs exemplaires.
Il y a duplicate content lorsque 2 contenus identiques se trouvent sur 2 sites différents donc 2 URL différentes. Il existe différentes formes de duplicate content qui peuvent se retrouver sur un même nom de domaine (même site) ou sur un nom de domaine différent (différents sites).

Les causes :
le contenu a été copié par une tierce personne,
le site en question est accessible via différents noms de domaines,
une long extrait copié sur un site externe ou issu de l’un de vos sites pourrait être considéré comme une copie de la page originale.

Exemple : sur un blog, la page d’accueil liste vos différents articles ; si vous ne tronquez pas le texte affiché, votre page d’accueil, vos pages de tags, vos pages catégories et votre page d’articles seront considérées comme des copies.

Le near duplicate content décrit le fait d’avoir des pages réellement différentes mais se ressemblant to de même.
Environ 30% des pages sur le web sont des doublons.

Cas de duplicate content le plus fréquent

Les sites d’actualités où les actualités sont reprises par beaucoup de sites et donc démultipliées,
Les annuaires,
les sites reprenant vos articles, comme certains sites de réseaux sociaux ou blog tel que Paperblog ; en effet, ce dernier duplique l’intégralité d’un article avec l’autorisation du blogueur qui pense pouvoir attirer quelques nouveaux lecteurs, seulement en réalité, il se retrouve déréférencé par Google, tandis que Paperblog lui est en haut du classement dans les moteurs de recherche. Vous êtes donc désavantagé.

Les problèmes liés au duplicate content

L’indexation dans les moteurs de recherche : _ l’index des moteurs de recherche serait gigantesque et donc les recherches nécessiteraient de plus en plus de temps : la performance des moteurs de recherche en serait donc altérée.

Des résultats de recherche identiques :
le problème est lié à une mauvaise gestion du contenu par l’utilisateur.

Par exemple, pour une page dupliquée et indexée, la recherche d’un internaute pourra donner les 5 ou 10 premiers résultats identiques en terme de contenu : l’internaute n’y trouvera donc aucun intérêt.

Les problèmes liés au référencement.

Qu’elles sont les causes du duplicate content ?

Indexation d’un site avec et sans www,
Plusieurs URL pour la page d’accueil,
Conserver les anciennes URL sans redirection après mise en place de la réécriture d’URL,
Avoir plusieurs noms de domaine indexés pour un même site,
Les paramètres dans les URL, avec le point d’interrogation « ? »,
La copie de contenu,
Pour Google chaque URL correspond à une page différente, aussi, si plusieurs URLS pointent sur un même contenu il pensera que ces pages sont des copies,
Les balises « title » et « meta description « ; en effet, si plusieurs pages utilisent ces balises à l’identique, les moteurs de recherche penseront à une forme de contenu dupliqué, pensez donc à utiliser des titres de pages personnalisés pour chaque page de votre site.

Comment contourner les sanctions du duplicate content ?

Si Google détecte du Duplicate content sur 2 pages, la page ayant le plus fort PageRank est reconnue comme étant la page source. La deuxième page est alors retirée des résultats de recherche, et son PageRank est absorbé par la première. Cependant, la page « pénalisée » est toujours accessible via le bouton « relancer la recherche en incluant les résultats ignorés ». Son PageRank n’est pas supprimé, il n’est simplement pas pris en compte.

Une balise HTML a toutefois été validée par Google, la balise « canonical » qui permet d’éviter le duplicate content en indiquant à ses robots quelle page est la page d’origine en cas de contenu dupliqué.

Cette balise est à insérer dans la section <head> du code HMTL des pages qui dupliquent un contenu, de la façon suivante :

<link rel= »canonical » 

href= »http://www.votresite.com/pagedorigine.html » />

Ainsi, les pages de duplication ne sont plus indexées et indiquent aux moteurs de recherche quelle est la page d’origine qu’il faut indexer et à laquelle il faut attribuer tout le poids, ainsi que le PageRank. > Ceci ne fonctionne qu’à l’intérieur d’un même domaine y compris dans les sous-domaines. > Validée par Yahoo et Microsoft, la balise est prise en compte dans leurs moteurs de recherche.

Un plugin Wordpress est déjà disponible afin de simplifier l’implantation de cette balise.

Des informations détaillées à ce sujet sont disponibles sur le site de Google Webmaster Central : http://googlewebmastercentral.blogs...

Comment favoriser un contenu unique ?

Écrivez d’une façon concise, précise et unique dans les balises « title » et « meta description »,
Définir une URL par contenu,
Indiquez l’URL canonique,
Renseignez le fichier Robots.txt,
Ne pas publier intégralement vos articles sur votre page d’accueil,
Ne pas publier intégralement vos articles dans les flux RSS

Outils anti Duplicate content

Voici quelques outils pour vous permettre de vérifier ou trouver du contenu dupliqué "Duplicate Content", sur le Web. Il vous suffira simplement d’entrée l’URL de la page dont vous souhaitez vérifier que le contenu n’a pas été plagié.

positeo.com
copyscape.com
plagium.com
duplichecker.com/

Sources :

Astuces pour éviter le duplicate content
Duplication de contenu, problème, solutions et outils
La copie d’article, un question d’éthique