Le robots.txt est un fichier texte placé à la racine d'un domaine (`/robots.txt`) qui indique aux crawlers (Googlebot, Bingbot, GPTBot, ClaudeBot, etc.) quels chemins ils ont le droit de crawler ou non. Syntaxe : `User-agent: *` puis `Disallow: /chemin/` ou `Allow: /chemin-autorise/`. On y déclare aussi le sitemap (`Sitemap: https://exemple.fr/sitemap.xml`). Attention au piège majeur : robots.txt bloque le crawl, pas l'indexation. Une URL bloquée dans robots.txt mais avec des liens entrants peut quand même apparaître dans Google sans description.
Pour vraiment empêcher l'indexation, il faut une `meta robots noindex` dans le HTML — donc l'URL doit être crawlable. Conséquence pratique : ne jamais bloquer dans robots.txt une page qu'on veut désindexer. Cas d'usage légitimes du Disallow : zones admin (`/admin/`, `/wp-admin/`), facettes e-commerce qui explosent le crawl budget (`/?color=`, `/?size=`), recherche interne (`/?s=`), paramètres de tracking, espaces de checkout. Sur un site SEO programmatique avec 50 000 URLs, robots.txt sert à protéger le crawl budget de Googlebot.
Les pièges qui ont coulé des sites entiers : `Disallow: /` poussé en prod par accident (tout le site désindexé), bloquer `/wp-content/` ou `/static/` (Google ne charge plus le CSS, considère le site cassé sur mobile), confondre Allow/Disallow avec les directives noindex. Côté GEO : décider quels bots IA on laisse passer (`GPTBot`, `ClaudeBot`, `PerplexityBot`, `Google-Extended`) — bloquer GPTBot vous rend invisible dans ChatGPT search. On vérifie la cohérence robots / sitemap / canonical pendant un audit gratuit — c'est le check à 5 minutes qui sauve parfois un site.
Erreurs robots.txt qui plombent le SEO
- `Disallow: /` poussé en prod après une recette — tout le site désindexé, parfois pour des semaines.
- Bloquer les CSS/JS (`/static/`, `/_next/`) — Google ne rend plus la page, mobile-friendly KO.
- Bloquer une URL pour la « désindexer » — l'URL reste indexée sans description (effet inverse).
- Ne pas déclarer le sitemap — Google met plus de temps à découvrir les nouvelles pages.
