
Un « robots.txt » est un fichier texte qui contient des instructions pour les crawlers des moteurs de recherche. Il définit les domaines d’un site web qui ne peuvent pas être explorés. Cette sélection évite que ce contenu apparaisse dans les résultats de recherche ou que votre serveur soit surchargé de recherches de crawlers inutiles. Le protocole Robots peut également être utilisé pour bloquer certains webspiders spécifiques.
Ce simple fichier texte exclut des domaines entiers, des dossiers complets ou des fichiers individuels du crawling d’un moteur de recherche. Dans la pratique, robots.txt peut être employé pour différents types de fichiers : images, fichiers sources accessoires, pages web générées dynamiquement (comme les pages de résultats d’une recherche interne) ou encore des actions de l’utilisateur (comme les paniers d’achats).
Robots.txt est stocké dans le répertoire racine d’un domaine. Il s’agit donc du premier document que les crawlers ouvrent lorsqu’ils explorent un site.
Ce fichier texte n’offre pas de protection contre l’accès non autorisé.