Le fichier robots.txt

 

Vous ne le connaissez peut-être pas encore, mais le fichier « robots.txt » est bien l'un des plus importants de votre site ! Et pour cause ! C'est en grande partie grâce à lui que vous pouvez référencer de manière adéquate votre site ! Tout de suite, découvrons ce qui se cache derrière ce nom si simple...

Suivez le guide !

La petite histoire du fichier robots.txt

Lors de l'apparition des premiers robots de référencement (vous savez, ces petits visiteurs souvent appelés « bot » ou « spyder » qui indexent, trient et mémorisent les informations d'une page web dans d'immenses bases de données) les techniques de crawl étaient encore à leurs début et nos petits robots qui inspectaient les sites causaient pas mal de désagréments.

Certains saturaient le serveur avec des requêtes très rapides, ou en demandant plusieurs fois le même fichier, d'autres exploraient des parties inintéressantes du site comme des bases de données virtuelles, dupliquaient l'information, indexaient les fichiers temporaires et parfois même activaient des scripts comme par exemple un vote... pas très encourageant...

C'est qu'alors qu'est apparut l'idée de bloquer certaines parties d'un site au robots. Cela permet d'éviter ces nombreux désagréments ainsi que des ressources sans intérêt public se retrouvent dans la page de résultats d'un moteur de recherche. Qui plus est, le fait que les robots n'accèdent pas à ces ressources allège le travail du serveur HTTP (le serveur qui héberge le site) et le trafic sur le réseau informatique.

L'invention du fichier « robots.txt » est attribuée à Martijn Koster qui travaillait alors pour WebCrawler en 1994 mais il a été réellement mis en oeuvre et accepté par un accord commun le 30 Juin de la même année par la plupart des auteurs de robots. Ce petit fichier a été ensuite popularisé en partie grâce au moteur de recherche AtlaVista de Yahoo (qui s'est progressivement incliné devant la montée de Google) puis a finalement été adopté par la plupart des moteurs de recherche.

Il n'existe pas de convention réelle de l'implémentation du fichier mais il existe assez de règles pour rendre celui-ci facilement utilisable et compréhensible par n'importe qui et surtout par les robots !

Attention, il est important de comprendre que le fichier n'est qu’une indication sur ce que doivent faire les robots bienveillants, ce n’est en aucun cas un élément de sécurité. En effet, certains robots ignorent ce fichier, soit délibérément parce qu’ils cherchent des informations privées comme par exemple des adresses électroniques pour y envoyer du courrier indésirable, soit parce que le robot est tout simplement trop simple pour gérer ce standard.

 

Suivez le guide !

Création du fichier robots.txt

Le fichier « robots.txt » est aujourd'hui la première chose que recherche un robot lorsqu'il commence à indexer un site web. Il se place à la racine de votre site (souvent dans le dossier « PUBLIC_HTML » ou « WWW » ). Typiquement, il ressemble à ceci :

Fichier source

C'est un fichier texte de base que vous pouvez créer avec un « clic-droit » , « Nouveau » , « Document texte » . Voici son contenu de base :

Fichier source
 

Le fichier consiste en une ou plusieurs entrées séparées par un retour à la ligne. Les mots clef cités ci-dessous permettent d'indiquer à un robot précis ou à tous les robots les ressources de votre site qui sont accessibles et celles qui ne le sont pas.

Si le fichier est vide, il sera traité comme s'il n'existait pas.

Voici la définition et l'usage des différents mots clefs :

User-agent

Il désigne le nom actuel du(es) robots de référencement que vous souhaitez configurer. Si vous entrez une étoile « * », cela signifie « tous les robots » ou tout ceux qui n'ont pas de règles spécifiques. Il est interdit d'avoir plusieurs fois l'enregistrement « User-agent: * »

S'il y a plus d'un « User-agent » présent dans le fichier, chaque « User-agent » doit alors être suivi de ses règles d'accès.

L'interprétation du fichier étant libre, il est conseillé d'écrire le nom du robot en minuscule sans autres information comme la version par exemple.

Disallow:

Cette entrée sert à spécifier les parties de votre site que vous ne souhaitez pas que le robot visite.

Vous pouvez y entrer un chemin relatif par rapport à votre site toujours précédé du caractère « / » afin d'éviter que d'autres fichiers/dossier possédant en partie le même nom ne soient eux aussi bloqués.

Par exemple : « Disallow: /help » bloquera le fichier « /help.html » mais aussi « /help.php » et « /help/foo.html ».

En revanche, « Disallow: /help/ » bloquera le fichier « /help/foo.html » mais autorisera « /help.html »

L'entrée « Disallow: / » bloquera quant à lui toutes les urls de votre site !

Allow:

Cette balise sert à spécifier un fichier ou un dossier que vous souhaitez que le robot visite. Celle-ci est optionnelle car elle n'est pas traitée par l'ensemble des robot.

Cette balise s'utilise par défaut pour indiquer tout le site. Puis si vous souhaitez autoriser l'accès à un fichier spécifique dans un dossier ou vous avez bloqué l'accès, vous devrez utiliser cette balise.

Sitemap:

Sert à indiquer l'emplacement d'un sitemap au robot (puisque que c'est lui qui en à l'utilité, il est assez utile de lui indiquer)

#

Permet d'entrer un commentaire dans votre fichier. Il doit être suivi d'un espace pour que la mise en commentaire soit correcte.

Une définition des différents mots clef n'étant pas très parlante, voici une série d'exemple qui permet d'illustrer son utilisation :

Dans ce premier exemple, le fichier « robots.txt » spécifie que n'importe quel robot ne doit pas visiter une URL commençant par :
« /virtuel/map/ » ou « /tmp/ » ou encore « /foo.html » :

Fichier source

Cet exemple spécifie que n'importe quel robot ne doit pas visiter toute URL commençant par :
« /virtuel/map/ » excepté le robot « cybermapper »

Fichier source

Cet exemple montre comment bloquer tous les robots et ainsi les empêcher de référencer le site !

Fichier source

Ici, nous bloquons toute les URLs commençant par : « /virtuel/map/ » exeptés celles commençant par « /virtuel/map/resultat/ » qui ont une réelle utilité.

Fichier source

Dans ce dernier exemple, nous montrons comment référencer son fichier sitemap à l'intérieur du fichier. Ici, notre fichier se trouve par rapport à la racine du site, ici : « /sitemap/mon_fichier_sitemap.xml »

Fichier source

Voici ci-dessous une petite liste des robots les plus populaires :

Nom du moteur User-Agent
Alta Vista Scooter
Excite ArchitextSpider
Google Googlebot
HotBot Slurp
InfoSeek InfoSeek Sidewinder
Lycos T-Rex
Voilà Echo

Une fois votre fichier « robots.txt » créé, il sera nécessaire de l'envoyer à la racine de votre site. Pour cela, vous devrez utiliser un logiciel de FTP. Vous pouvez lire ce tutoriel pour apprendre à transférer vos fichiers sur votre serveur d'hébergement.

Une fois envoyé, vous avez terminé ! Les robots commenceront à utiliser le fichier lors de leurs prochains passages sur votre site !

Suivez le guide !

Le fichier robots.txt avec Google

Que serait donc un tutoriel sur le référencement sans Google ? Et bien comme à son habitude, il vous propose dans ses très nombreux outils de webmaster plusieurs petits trucs très utiles à propos de ce fichier. Il vous propose de vérifier tout d'abord sa présence puis si vous n'en avez pas encore un, il propose de vous le générer avec vos spécifications. Enfin, vous pouvez même demander la suppression d'une URL web que les robots auraient référencé et que vous voudriez voir disparaitre des résultats de recherche...

Question Chouette ! Comment on accède à tout ça ?

Tout d'abord, il vous faut un compte Google (créez en un si ce n'est pas déjà le cas). Une fois connecté avec celui-ci, cliquer sur « paramètre de compte Google » en haut à droite de la page d'accueil de Google.

paramètre Google

Sur cette page de configuration, vous allez trouver l'outil pour les webmaster :

outil webmaster Google

Cliquez dessus pour accéder à la page de configuration de vos sites. Actuellement, vous n'avez pas de site lié à Google.(Si votre site est déjà lié, cliquez simplement dessus et sautez quelques lignes). Il va falloir l'ajouter pour d'une part, indiquer à Google qu'il faut explorer votre site et d'autre part, pour pouvoir soumettre votre Sitemap. Vous faites ainsi d'une pierre 2 coups ! Cliquez sur « Ajouter un site... » et entrez le nom de votre site comme dans l'exemple :

ajouter un site Google

Vous devrez alors justifier que vous êtes bien le propriétaire du site en ajoutant une balise, un fichier ou du texte à des endroits spécifiques ou seul le propriétaire du site peut aller. Vous devrez suivre les directives de Google pour confirmer et ajouter votre site (c'est une étape assez fastidieuse mais tout est bien expliqué avec de beaux exemples !)

Une fois cette étape terminé et votre site validé, vous arriverez sur le tableau de bord de votre site. Vous trouverez dans le menu à droite l'accès du robot d'exploration.

tableau de bord Google webmaster

Vous arriverez alors sur les différents services que propose le géant concernant le fichier. Voici ce que donne l'interface de base. Vous pouvez y retrouver les différents onglets cités plus haut.

tableau de bord Google webmaster

Utilisez les différents onglets pour naviguer. Suivez les instructions données si vous souhaitez utiliser ces services. Vous remarquerez qu'il ne propose rien de plus que vous n'avez pas appris en lisant ce tutoriel.

Vous êtes maintenant parfaitement en mesure d'écrire votre propre fichier « robots.txt » et de l'intégrer à votre site.

Félicitations ! Vous êtes arrivé à la fin de ce tutoriel ! Merci d'avoir pris le temps de nous lire !