Retour au glossaire
IA & LLM

Tokens (LLM)

Unités de découpage du texte par un LLM — ni mots, ni caractères. En français, environ 4 caractères par token. La facturation et la fenêtre de contexte se comptent en tokens.

Un token est l'unité élémentaire qu'un LLM lit et génère. Un tokenizer découpe le texte en sous-mots fréquents : « bonjour » devient 1 token, « anticonstitutionnellement » en fait 5 ou 6, un emoji 1 à 3, un caractère chinois 1 à 2. En français, la règle pratique est 1 token ≈ 4 caractères ≈ 0,75 mot. 1000 tokens, c'est environ 750 mots. Un livre de 300 pages ≈ 100K-150K tokens. C'est l'unité de mesure de la fenêtre de contexte et de la facturation.

Les LLM facturent séparément les tokens d'input (ce que vous envoyez : prompt système, contexte, historique, RAG) et d'output (ce que le modèle génère). En 2026, les ordres de grandeur : Claude Sonnet ~3 €/M input, ~15 €/M output ; GPT-4o ~2,5 €/M input ; modèles plus petits (Haiku, Mini) 10 à 50 fois moins cher. L'output est typiquement 3 à 5 fois plus cher que l'input — ce qui change beaucoup quand on génère de longues réponses ou du code à grande échelle.

Optimiser les tokens en production fait une différence directe sur le P&L : compresser l'historique conversationnel, utiliser le prompt caching (Anthropic/OpenAI) pour ne pas re-facturer les instructions stables, choisir le bon modèle (un Haiku pour la classification, un Sonnet pour le raisonnement), tronquer les documents RAG au strict nécessaire via reranking. Sur un projet à 50K requêtes/mois, on divise typiquement la facture par 3 à 10 avec une bonne hygiène. Sur les volumes industriels, ce n'est plus négligeable — on en parle à l'occasion d'un audit IA.

Optimiser les coûts en tokens

  • Activer le prompt caching sur les instructions système et le contexte stable — gain 50 à 90 %.
  • Utiliser un modèle léger (Haiku, GPT-4o-mini) pour les tâches simples ; réserver les gros modèles au raisonnement.
  • Compresser l'historique conversationnel par résumé après N tours — évite l'inflation linéaire.
  • Reranker les chunks RAG pour ne garder que les 3-5 plus pertinents au lieu de 20.
Audit gratuit · 48h

Pas sûr d’où ça coince ?
On audite votre site. Gratuitement.

5 axes passés au crible — SEO, GEO, performance, conversion, tracking. Rapport PDF chiffré + restitution 30 min offerte. Sans engagement, sans carte bleue.

Réserver un audit gratuit

Rapport sous 48h · Restitution 30 min offerte

  • SEO Google
  • GEO · ChatGPT, Perplexity
  • Performance & Core Web Vitals
  • Conversion & UX
  • Tracking & analytics
Devis sous 48h

Pas envie d’appeler ?
Décrivez votre projet
en 5 min.

Un projet sur ce sujet ? Décrivez-le en 5 min, on vous renvoie une architecture, un chiffrage et un planning.

  • 1Vous décrivez votre besoin
  • 2On chiffre & argumente
  • 3Devis dans votre boîte
Décrire mon projet

Aucun engagement · Réponse sous 48h