Retour au glossaire
IA & LLM

Fenêtre de contexte

Quantité maximale de tokens qu'un LLM peut traiter en entrée — typiquement 128K à 1M en 2026. Détermine la taille des documents qu'on peut analyser en un appel.

La fenêtre de contexte est la mémoire de travail d'un LLM : le nombre maximal de tokens (≈ ¾ d'un mot en français) que le modèle peut lire en une seule fois — instructions système, historique de conversation, documents injectés, et réponse générée combinés. En 2026, les ordres de grandeur sont : Claude 200K à 1M tokens, GPT-4 turbo 128K, Gemini 1M-2M, modèles open-source 8K à 128K selon les versions. 200K tokens représentent environ 150 000 mots, soit un livre entier.

Ce que ça change concrètement : on peut injecter un contrat de 50 pages, un dossier juridique complet, le code source d'une petite app, ou plusieurs heures de transcription audio dans un seul prompt. Cela ne remplace pas le RAG pour autant — sur 1M de tokens, le coût explose (plusieurs euros par requête), la latence aussi (10-30 s), et la qualité de l'attention se dégrade au-delà d'un certain seuil. La règle : pour des corpus stables et répétés, on indexe via embeddings ; pour analyser un document unique en profondeur, on utilise la grande fenêtre de contexte directement.

Stratégies de gestion de contexte en production : compression (résumer l'historique conversationnel ancien), priorisation (garder les chunks pertinents en tête de prompt, l'attention décroît au milieu), prompt caching (Anthropic, OpenAI) pour ne pas re-facturer le contexte stable à chaque appel — économise typiquement 50 à 90 % du coût sur des prompts répétés. Pour un agent IA qui enchaîne des actions, la gestion de la fenêtre de contexte est un sujet de design à part entière, pas une évidence.

Tailles de fenêtre de contexte en 2026

  • Claude (Anthropic) : 200K standard, jusqu'à 1M sur les versions enterprise — référence pour l'analyse longue.
  • GPT-4o / GPT-5 (OpenAI) : 128K — suffisant pour 90 % des cas, sweet spot prix/perf.
  • Gemini 1.5/2 (Google) : 1M-2M — le plus grand contexte du marché, utile pour vidéo et audio.
  • Llama 3, Mistral : 8K à 128K selon versions — auto-hébergeable, plus limité.
Audit gratuit · 48h

Pas sûr d’où ça coince ?
On audite votre site. Gratuitement.

5 axes passés au crible — SEO, GEO, performance, conversion, tracking. Rapport PDF chiffré + restitution 30 min offerte. Sans engagement, sans carte bleue.

Réserver un audit gratuit

Rapport sous 48h · Restitution 30 min offerte

  • SEO Google
  • GEO · ChatGPT, Perplexity
  • Performance & Core Web Vitals
  • Conversion & UX
  • Tracking & analytics
Devis sous 48h

Pas envie d’appeler ?
Décrivez votre projet
en 5 min.

Un projet sur ce sujet ? Décrivez-le en 5 min, on vous renvoie une architecture, un chiffrage et un planning.

  • 1Vous décrivez votre besoin
  • 2On chiffre & argumente
  • 3Devis dans votre boîte
Décrire mon projet

Aucun engagement · Réponse sous 48h