Okno kontekstu to pamięć robocza LLM: maksymalna liczba tokenów (≈ ¾ słowa), które model może odczytać jednorazowo — instrukcje systemowe, historia rozmowy, wstrzyknięte dokumenty i wygenerowana odpowiedź razem. W 2026 r. rzędy wielkości to: Claude 200K do 1M tokenów, GPT-4 turbo 128K, Gemini 1M–2M, modele open-source 8K do 128K zależnie od wersji. 200K tokenów to około 150 000 słów, czyli cała książka.
Co to konkretnie zmienia: można wstrzyknąć 50-stronicową umowę, kompletny dossier prawne, kod źródłowy niewielkiej aplikacji lub kilka godzin transkrypcji audio do jednego promptu. Nie zastępuje to jednak RAG — przy 1M tokenów koszt eksploduje (kilka euro za zapytanie), latencja też (10–30 s), a jakość uwagi degraduje się powyżej pewnego progu. Zasada: dla stabilnych, powtarzalnych korpusów indeksujemy przez embeddings; do dogłębnej analizy pojedynczego dokumentu wykorzystujemy bezpośrednio duże okno kontekstu.
Strategie zarządzania kontekstem w produkcji: kompresja (streszczanie starej historii konwersacji), priorytetyzacja (najistotniejsze chunki na początku promptu, uwaga spada w środku), prompt caching (Anthropic, OpenAI) — by nie naliczać ponownie stabilnego kontekstu przy każdym wywołaniu, oszczędza typowo 50–90% kosztów na powtarzalnych promptach. Dla agenta AI wykonującego sekwencję działań zarządzanie oknem kontekstu to osobny temat projektowy, a nie oczywistość.
Rozmiary okna kontekstu w 2026
- Claude (Anthropic): 200K standardowo, do 1M w wersjach enterprise — referencja w długiej analizie.
- GPT-4o / GPT-5 (OpenAI): 128K — wystarczające w 90% przypadków, sweet spot cena/wydajność.
- Gemini 1.5/2 (Google): 1M–2M — największy kontekst rynkowy, użyteczny dla wideo i audio.
- Llama 3, Mistral: 8K do 128K w zależności od wersji — możliwe do self-hostingu, ograniczone.
