La fenêtre de contexte est la mémoire de travail d'un LLM : le nombre maximal de tokens (≈ ¾ d'un mot en français) que le modèle peut lire en une seule fois — instructions système, historique de conversation, documents injectés, et réponse générée combinés. En 2026, les ordres de grandeur sont : Claude 200K à 1M tokens, GPT-4 turbo 128K, Gemini 1M-2M, modèles open-source 8K à 128K selon les versions. 200K tokens représentent environ 150 000 mots, soit un livre entier.
Ce que ça change concrètement : on peut injecter un contrat de 50 pages, un dossier juridique complet, le code source d'une petite app, ou plusieurs heures de transcription audio dans un seul prompt. Cela ne remplace pas le RAG pour autant — sur 1M de tokens, le coût explose (plusieurs euros par requête), la latence aussi (10-30 s), et la qualité de l'attention se dégrade au-delà d'un certain seuil. La règle : pour des corpus stables et répétés, on indexe via embeddings ; pour analyser un document unique en profondeur, on utilise la grande fenêtre de contexte directement.
Stratégies de gestion de contexte en production : compression (résumer l'historique conversationnel ancien), priorisation (garder les chunks pertinents en tête de prompt, l'attention décroît au milieu), prompt caching (Anthropic, OpenAI) pour ne pas re-facturer le contexte stable à chaque appel — économise typiquement 50 à 90 % du coût sur des prompts répétés. Pour un agent IA qui enchaîne des actions, la gestion de la fenêtre de contexte est un sujet de design à part entière, pas une évidence.
Tailles de fenêtre de contexte en 2026
- Claude (Anthropic) : 200K standard, jusqu'à 1M sur les versions enterprise — référence pour l'analyse longue.
- GPT-4o / GPT-5 (OpenAI) : 128K — suffisant pour 90 % des cas, sweet spot prix/perf.
- Gemini 1.5/2 (Google) : 1M-2M — le plus grand contexte du marché, utile pour vidéo et audio.
- Llama 3, Mistral : 8K à 128K selon versions — auto-hébergeable, plus limité.
