Un token est l'unité élémentaire qu'un LLM lit et génère. Un tokenizer découpe le texte en sous-mots fréquents : « bonjour » devient 1 token, « anticonstitutionnellement » en fait 5 ou 6, un emoji 1 à 3, un caractère chinois 1 à 2. En français, la règle pratique est 1 token ≈ 4 caractères ≈ 0,75 mot. 1000 tokens, c'est environ 750 mots. Un livre de 300 pages ≈ 100K-150K tokens. C'est l'unité de mesure de la fenêtre de contexte et de la facturation.
Les LLM facturent séparément les tokens d'input (ce que vous envoyez : prompt système, contexte, historique, RAG) et d'output (ce que le modèle génère). En 2026, les ordres de grandeur : Claude Sonnet ~3 €/M input, ~15 €/M output ; GPT-4o ~2,5 €/M input ; modèles plus petits (Haiku, Mini) 10 à 50 fois moins cher. L'output est typiquement 3 à 5 fois plus cher que l'input — ce qui change beaucoup quand on génère de longues réponses ou du code à grande échelle.
Optimiser les tokens en production fait une différence directe sur le P&L : compresser l'historique conversationnel, utiliser le prompt caching (Anthropic/OpenAI) pour ne pas re-facturer les instructions stables, choisir le bon modèle (un Haiku pour la classification, un Sonnet pour le raisonnement), tronquer les documents RAG au strict nécessaire via reranking. Sur un projet à 50K requêtes/mois, on divise typiquement la facture par 3 à 10 avec une bonne hygiène. Sur les volumes industriels, ce n'est plus négligeable — on en parle à l'occasion d'un audit IA.
Optimiser les coûts en tokens
- Activer le prompt caching sur les instructions système et le contexte stable — gain 50 à 90 %.
- Utiliser un modèle léger (Haiku, GPT-4o-mini) pour les tâches simples ; réserver les gros modèles au raisonnement.
- Compresser l'historique conversationnel par résumé après N tours — évite l'inflation linéaire.
- Reranker les chunks RAG pour ne garder que les 3-5 plus pertinents au lieu de 20.
