Le sitemap.xml est un fichier — généralement à la racine, déclaré dans le robots.txt et soumis dans la Search Console — qui liste les URLs que vous voulez voir indexer. Pour chaque URL, on peut indiquer la date de dernière modification (`lastmod`), la fréquence de mise à jour, et une priorité relative. Google ignore largement `priority` et `changefreq` aujourd'hui, mais lit attentivement `lastmod` pour prioriser le crawl. Un sitemap propre accélère l'indexation des nouvelles pages de plusieurs jours, voire semaines, sur les sites volumineux.
Le sitemap devient critique au-delà de quelques centaines de pages, et indispensable en SEO programmatique (10 000+ URLs). Limites du format : 50 000 URLs et 50 Mo par fichier — au-delà, on splitte en plusieurs sitemaps regroupés dans un sitemap index. On peut spécialiser : sitemap-pages.xml, sitemap-blog.xml, sitemap-products.xml, plus les sitemaps spécifiques (image, vidéo, news pour Google News). Sur un gros site, on génère le sitemap dynamiquement au build Next.js en SSG — une route `app/sitemap.ts` qui scanne la base de données et émet le XML.
Les pièges classiques : URLs avec canonical pointant ailleurs (Google ignore), URLs en noindex (contradiction), URLs renvoyant 404 ou 301 (Google se méfie de votre maintenance), `lastmod` jamais mis à jour, oubli de soumettre dans la Search Console. À surveiller dans le rapport « Pages » de la GSC : combien d'URLs déclarées vs combien indexées. Un écart > 30 % signale un problème de qualité ou de maillage interne. On audite votre sitemap et la couverture d'indexation pendant un audit SEO gratuit.
Bonnes pratiques sitemap
- Lister uniquement des URLs canoniques en 200, indexables, sans paramètres tracking (UTM).
- `lastmod` à jour automatiquement (ne pas mettre la date du jour partout — Google détecte la triche).
- Sitemap index si > 50 000 URLs, sitemaps spécialisés (image, vidéo, news) si pertinent.
- Soumis dans la Search Console et déclaré dans robots.txt (`Sitemap: https://...`).
