Magazine Gadgets

Comment et pourquoi empêcher les bots d’explorer votre site

Publié le 02 juin 2022 par Mycamer

Pour la plupart, les robots et les araignées sont relativement inoffensifs.

Vous voulez que le bot de Google, par exemple, explore et indexe votre site Web.

Cependant, les robots et les araignées peuvent parfois être un problème et fournir un trafic indésirable.

Ce type de trafic indésirable peut entraîner :

  • Obfuscation de la provenance du trafic.
  • Rapports confus et difficiles à comprendre.
  • Mauvaise attribution dans Google Analytics.
  • Augmentation des coûts de bande passante que vous payez.
  • Autres nuisances.

Il y a de bons bots et de mauvais bots.

Les bons robots fonctionnent en arrière-plan, attaquant rarement un autre utilisateur ou un site Web.

Les mauvais bots brisent la sécurité derrière un site Web ou sont utilisés comme un réseau de botnet à grande échelle pour lancer des attaques DDOS contre une grande organisation (quelque chose qu’une seule machine ne peut pas supprimer).

Voici ce que vous devez savoir sur les bots et comment empêcher les méchants d’explorer votre site.

Qu’est-ce qu’un bot ?

Regarder exactement ce qu’est un bot peut aider à identifier pourquoi nous devons le bloquer et l’empêcher d’explorer notre site.

Un bot, abréviation de “robot”, est une application logicielle conçue pour répéter une tâche spécifique à plusieurs reprises.

Pour de nombreux professionnels du référencement, l’utilisation de robots va de pair avec la mise à l’échelle d’une campagne de référencement.

La “mise à l’échelle” signifie que vous automatisez autant de travail que possible pour obtenir de meilleurs résultats plus rapidement.

Idées fausses courantes sur les bots

Vous vous êtes peut-être heurté à l’idée fausse que tous les bots sont mauvais et doivent être bannis sans équivoque de votre site.

Mais cela ne pouvait pas être plus éloigné de la vérité.

Google est un robot.

Si vous bloquez Google, pouvez-vous deviner ce qui arrivera à votre classement dans les moteurs de recherche ?

Certains robots peuvent être malveillants, conçus pour créer de faux contenus ou se faire passer pour des sites Web légitimes pour voler vos données.

Cependant, les bots ne sont pas toujours des scripts malveillants exécutés par de mauvais acteurs.

Certains peuvent être d’excellents outils qui facilitent le travail des professionnels du référencement, comme l’automatisation des tâches répétitives courantes ou la récupération d’informations utiles des moteurs de recherche.

Certains bots couramment utilisés par les professionnels du référencement sont Semrush et Ahrefs.

Ces robots extraient des données utiles des moteurs de recherche, aident les professionnels du référencement à automatiser et à effectuer des tâches, et peuvent vous faciliter la tâche en ce qui concerne les tâches de référencement.

Pourquoi auriez-vous besoin d’empêcher les bots d’explorer votre site ?

Bien qu’il existe de nombreux bons bots, il y a aussi de mauvais bots.

Les mauvais bots peuvent vous aider à voler vos données privées ou à supprimer un site Web qui fonctionne autrement.

Nous voulons bloquer tous les robots malveillants que nous pouvons découvrir.

Il n’est pas facile de découvrir tous les bots susceptibles d’explorer votre site, mais en creusant un peu, vous pouvez en trouver des malveillants que vous ne souhaitez plus visiter.

Alors, pourquoi auriez-vous besoin d’empêcher les bots d’explorer votre site Web ?

Voici quelques raisons courantes pour lesquelles vous pourriez vouloir empêcher les bots d’explorer votre site :

Protéger vos précieuses données

Vous avez peut-être découvert qu’un plugin attire un certain nombre de robots malveillants qui veulent voler vos précieuses données de consommation.

Ou, vous avez découvert qu’un bot a profité d’une faille de sécurité pour ajouter de mauvais liens sur tout votre site.

Ou, quelqu’un continue d’essayer de spammer votre formulaire de contact avec un bot.

C’est là que vous devez prendre certaines mesures pour protéger vos précieuses données contre la compromission d’un bot.

Dépassements de bande passante

Si vous obtenez un afflux de trafic de robots, il est probable que votre bande passante monte également en flèche, entraînant des dépassements imprévus et des frais que vous préféreriez ne pas avoir.

Vous voulez absolument empêcher les robots incriminés d’explorer votre site dans ces cas.

Vous ne voulez pas d’une situation où vous payez des milliers de dollars pour une bande passante pour laquelle vous ne méritez pas d’être facturé.

Qu’est-ce que la bande passante ?

La bande passante est le transfert de données de votre serveur vers le côté client (navigateur Web).

Chaque fois que des données sont envoyées via une tentative de connexion, vous utilisez de la bande passante.

Lorsque des bots accèdent à votre site et que vous gaspillez de la bande passante, vous pourriez encourir des frais de dépassement en cas de dépassement de votre bande passante mensuelle allouée.

Vous devriez avoir reçu au moins quelques informations détaillées de votre hôte lorsque vous vous êtes inscrit à votre pack d’hébergement.

Limiter les mauvais comportements

Si un bot malveillant commençait d’une manière ou d’une autre à cibler votre site, il serait approprié de prendre des mesures pour contrôler cela.

Par exemple, vous voudriez vous assurer que ce bot ne pourra pas accéder à vos formulaires de contact. Vous voulez vous assurer que le bot ne peut pas accéder à votre site.

Faites-le avant que le bot ne puisse compromettre vos fichiers les plus critiques.

En vous assurant que votre site est correctement verrouillé et sécurisé, il est possible de bloquer ces bots afin qu’ils ne causent pas trop de dégâts.

Comment bloquer efficacement les bots de votre site

Vous pouvez utiliser deux méthodes pour bloquer efficacement les bots de votre site.

La première est via robots.txt.

Il s’agit d’un fichier qui se trouve à la racine de votre serveur Web. Habituellement, vous n’en avez peut-être pas par défaut et vous devrez en créer un.

Voici quelques codes robots.txt très utiles que vous pouvez utiliser pour bloquer la plupart des spiders et bots de votre site :

Interdire Googlebot de votre serveur

Si, pour une raison quelconque, vous souhaitez empêcher Googlebot d’explorer votre serveur, le code suivant est celui que vous utiliserez :

Agent utilisateur : Googlebot
Interdire : /

Vous ne voulez utiliser ce code que pour empêcher votre site d’être indexé.

Ne l’utilisez pas sur un coup de tête !

Ayez une raison précise de vous assurer que vous ne voulez pas du tout que des bots explorent votre site.

Par exemple, un problème courant est de vouloir garder votre site de développement hors de l’index.

Vous ne voulez pas que Google explore le site intermédiaire et votre vrai site parce que vous doublez votre contenu et que vous créez problèmes de contenu dupliqué par conséquent.

Interdire tous les bots de votre serveur

Si vous voulez empêcher tous les bots d’explorer votre site, le code suivant est celui que vous voudrez utiliser :

Agent utilisateur: *
Interdire : /

C’est le code pour interdire tous les bots. Vous souvenez-vous de notre exemple de site de développement ci-dessus ?

Peut-être souhaitez-vous exclure le site intermédiaire de tous les bots avant de déployer entièrement votre site sur chacun d’eux.

Ou peut-être voulez-vous garder votre site privé pendant un certain temps avant de le lancer dans le monde.

Quoi qu’il en soit, cela gardera votre site à l’abri des regards indiscrets.

Empêcher les bots d’explorer un dossier spécifique

Si, pour une raison quelconque, vous souhaitez empêcher les bots d’explorer un dossier spécifique que vous souhaitez désigner, vous pouvez également le faire.

Voici le code que vous utiliseriez :

Agent utilisateur: *
Interdire : /nom-dossier/

Il existe de nombreuses raisons pour lesquelles quelqu’un voudrait exclure les bots d’un dossier. Vous souhaitez peut-être vous assurer que certains contenus de votre site ne sont pas indexés.

Ou peut-être que ce dossier particulier causera certains types de problèmes de contenu en double, et vous souhaitez l’exclure complètement de l’exploration.

Quoi qu’il en soit, cela vous aidera à le faire.

Erreurs courantes avec Robots.txt

Les professionnels du référencement font plusieurs erreurs avec robots.txt. Les principales erreurs courantes incluent :

  • Utiliser à la fois interdire dans robots.txt et noindex.
  • Utilisez la barre oblique / (tous les dossiers à partir de la racine), lorsque vous voulez vraiment dire une URL spécifique.
  • Non compris le chemin correct.
  • Ne pas tester votre fichier robots.txt.
  • Ne pas connaître le nom correct de l’agent utilisateur que vous souhaitez bloquer.

Utiliser à la fois Disallow dans Robots.txt et Noindex sur la page

John Mueller de Google a déclaré que vous ne devriez pas utiliser à la fois disallow dans robots.txt et noindex sur la page elle-même.

Si vous faites les deux, Google ne peut pas explorer la page pour voir le noindex, il pourrait donc toujours indexer la page de toute façon.

C’est pourquoi vous ne devez utiliser que l’un ou l’autre, et non les deux.

Utilisation de la barre oblique lorsque vous voulez vraiment dire une URL spécifique

La barre oblique après Disallow signifie “à partir de ce dossier racine vers le bas, complètement et entièrement pour l’éternité”.

Chaque page de votre site sera bloquée pour toujours jusqu’à ce que vous la changiez.

L’un des problèmes les plus courants que je rencontre dans les audits de sites Web est que quelqu’un a accidentellement ajouté une barre oblique à “Interdire :” et a empêché Google d’explorer l’intégralité de son site.

Ne pas inclure le chemin correct

Nous comprenons. Parfois, coder robots.txt peut être une tâche difficile.

Vous ne pouviez pas vous souvenir du chemin d’accès exact au départ, vous avez donc parcouru le fichier et l’avez volé.

Le problème est que ces chemins similaires entraînent tous des 404 car ils sont à un caractère de distance.

C’est pourquoi il est important de toujours vérifier les chemins que vous utilisez sur des URL spécifiques.

Vous ne voulez pas courir le risque d’ajouter une URL à robots.txt qui ne fonctionnera pas dans robots.txt.

Ne pas connaître le nom correct de l’agent utilisateur

Si vous souhaitez bloquer un agent utilisateur particulier mais que vous ne connaissez pas le nom de cet agent utilisateur, c’est un problème.

Plutôt que d’utiliser le nom dont vous pensez vous souvenir, faites des recherches et déterminez le nom exact de l’agent utilisateur dont vous avez besoin.

Si vous essayez de bloquer des bots spécifiques, ce nom devient extrêmement important dans vos efforts.

Sinon, pourquoi bloqueriez-vous les robots et les araignées ?

Il existe d’autres raisons pour lesquelles les professionnels du référencement voudraient empêcher les bots d’explorer leur site.

Peut-être qu’ils sont plongés dans les PBN à chapeau gris (ou à chapeau noir) et qu’ils veulent cacher leur réseau de blogs privés aux regards indiscrets (en particulier à leurs concurrents).

Ils peuvent le faire en utilisant robots.txt pour bloquer les bots courants que les professionnels du référencement utilisent pour évaluer leurs concurrents.

Par exemple Semrush et Ahrefs.

Si vous vouliez bloquer Ahrefs, voici le code pour le faire :

Agent utilisateur : AhrefsBot
Interdire : /

Cela empêchera AhrefsBot d’explorer l’intégralité de votre site.

Si vous voulez bloquer Semrush, voici le code pour le faire.

Il y a aussi d’autres instructions ici.

Il y a beaucoup de lignes de code à ajouter, alors soyez prudent lorsque vous ajoutez celles-ci :

Pour empêcher SemrushBot de crawler votre site pour différents problèmes SEO et techniques :

Agent utilisateur : SiteAuditBot
Interdire : /

Pour empêcher SemrushBot d’explorer votre site pour l’outil Backlink Audit :

Agent utilisateur : SemrushBot-BA
Interdire : /

Pour empêcher SemrushBot d’explorer votre site pour l’outil On Page SEO Checker et des outils similaires :

Agent utilisateur : SemrushBot-SI
Interdire : /

Pour empêcher SemrushBot de vérifier les URL de votre site pour l’outil SWA :

Agent utilisateur : SemrushBot-SWA
Interdire : /

Pour empêcher SemrushBot d’explorer votre site pour les outils Content Analyzer et Post Tracking :

Agent utilisateur : SemrushBot-CT
Interdire : /

Pour empêcher SemrushBot d’explorer votre site pour Brand Monitoring :

Agent utilisateur : SemrushBot-BM
Interdire : /

Pour empêcher SplitSignalBot d’explorer votre site pour l’outil SplitSignal :

Agent utilisateur : SplitSignalBot
Interdire : /

Pour empêcher SemrushBot-COUB d’explorer votre site pour l’outil Content Outline Builder :

Agent utilisateur : SemrushBot-COUB
Interdire : /

Utilisation de votre fichier HTACCESS pour bloquer les bots

Si vous êtes sur un serveur Web APACHE, vous pouvez utiliser le fichier htaccess de votre site pour bloquer des bots spécifiques.

Par exemple, voici comment utiliser le code dans htaccess pour bloquer ahrefsbot.

Attention : soyez prudent avec ce code.

Si vous ne savez pas ce que vous faites, vous pourriez faire tomber votre serveur.

Nous ne fournissons ce code ici qu’à titre d’exemple.

Assurez-vous de faire vos recherches et de vous entraîner par vous-même avant de l’ajouter à un serveur de production.

Commande Autoriser, Refuser
Refuser du 51.222.152.133
Refuser de 54.36.148.1
Refuser de 195.154.122
Autoriser de tous

Pour que cela fonctionne correctement, assurez-vous de bloquer toutes les plages IP répertoriées dans Cet article sur le blog Ahrefs.

Si vous voulez une introduction complète à .htaccess, ne cherchez pas plus loin que ce tutoriel sur apache.org.

Si vous avez besoin d’aide pour utiliser votre fichier htaccess pour bloquer des types spécifiques de bots, vous pouvez suivre les tutoriel ici.

Le blocage des robots et des araignées peut nécessiter du travail

Mais ça vaut bien le coup au final.

En vous assurant d’empêcher les robots et les araignées d’explorer votre site, vous ne tombez pas dans le même piège que les autres.

Vous pouvez être tranquille en sachant que votre site est immunisé contre certains processus automatisés.

Lorsque vous pouvez contrôler ces bots particuliers, cela rend les choses bien meilleures pour vous, le professionnel du référencement.

Si vous devez le faire, assurez-vous toujours d’empêcher les robots et les araignées requis d’explorer votre site.

Cela se traduira par une sécurité renforcée, une meilleure réputation globale en ligne et un bien meilleur site qui sera là dans les années à venir.

Davantage de ressources:


Image en vedette : Roman Samborskyi/Shutterstock



— to www.searchenginejournal.com


Retour à La Une de Logo Paperblog

A propos de l’auteur


Mycamer Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte

Magazines