Magazine Internet

Comment fonctionne les robots ?

Publié le 18 septembre 2008 par Johnsgraphisme

Comment fonctionne les robots ?//Lire la suite…

Vous l’aurez sans doute compris, je ne vais pas faire un billet sur les robots dans le sens propre du terme, mais sur les fichiers “robot.txt” qui servent pour le référencement. Je me suis dit, allez John, faisons un petit article la dessus.


A QUOI SERT IL ?
Ce fichier va vous permettre de laisser des informations au spiders. Il vous donne la possibilité, soit d’interdire l’exploration de votre site par certains spiders ou alors d’interdire l’exploration de certaines pages.

SYNTAXE
Ce qu’il en ressort, c’est que les robots offrent une souplesse très limité niveau syntaxique, les espaces sont facultatifs, et l’utilisation des majuscules et des minuscules est sans aucune importance.
Les lignes ne peuvent commercer que par ces 3 options :
- # : il s’agit d’un commentaire, tout ce qui va suivre derrière ce caractère sera ignoré par les robots
- User-Agent : cette option peut être suivi du caractère * ou du nom explicite du robot
- Disallow : cette option peut être suivi d’un seul nom de répertoire ou de dossier

La syntaxe la plus typique ressemble à ça :

User-Agent: robot1
Disallow: /includes
Disallow: /temp

User-Agent: robot2
Disallow: /includes
Disallow: /temp

etc…….

Si vous utilisez le caractère * à la place du nom d’un robot, cela veut dire tous les robots, et si vous utilisez le caractère / à la place du nom d’un fichier, aucun fichier ne sera indexé.

REGLES GENERALES
- il ne doit y avoir qu’une seul et unique robot.txt par site, et celui-ci doit impérativement être placé à la racine du dit site
- vous pouvez créer dans ce fichier plusieurs section User-Agent si vous souhaitez imposer des règles différentes à chaque moteur
- le nom du fichier robot.txt doit être écrit en minuscule pour être compris par les spiders.
- il faut inscrire un seul nom de fichier ou de répertoire derrière chaque Disallow
- il faut impérativement transférer votre fichier en mode ASCII, car si ce n’est pas fait de cette façon, cela peut générer des problèmes

REGLES STANDARDS
- l’astérisque n’est acceptée que dans le champ User-Agent
- attention, le champ Allow n’existe pas (on interdit des dossier, on ne peut pas en autoriser)

REGLES GOOGLE
L’utilisation de ces règles google ne fonctionne que pour les spiders de chez google, et ne fonctionne pas avec tous les autres moteurs.
- l’astérisque et le dollars peuvent être utiliser dans le champ Disallow. Ils permettent de masquer tous les fichiers d’un type particulier (Disallow: /*.html$)
- le champs Allow existe et permet de créer des exceptions

UTILE
Vous pouvez télécharger le freeware LinkSpirit ici, qui va vous permettre de vérifier la syntaxe de votre fichier robot.txt en tenant compte des règles strictes.

Voila, je pense ne rien avoir oublié, si vous avez des remarques ou des questions, n’hésitez pas.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Johnsgraphisme 140 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte