Token to elementarna jednostka, którą LLM czyta i generuje. Tokenizer dzieli tekst na częste podsłowa: „dzień dobry” daje 2-3 tokeny, „antykonstytucjonalizm” 5 lub 6, emoji 1 do 3, znak chiński 1 do 2. W języku polskim praktyczna reguła to 1 token ≈ 3 znaki ≈ 0,5-0,75 słowa. 1000 tokenów to ok. 500-750 słów. Książka 300-stronicowa ≈ 100-150 tys. tokenów. To jednostka miary okna kontekstu i rozliczenia.
LLM-y rozliczają osobno tokeny input (to, co się wysyła: prompt systemowy, kontekst, historia, RAG) i output (to, co model generuje). W 2026 r. rzędy wielkości: Claude Sonnet ~3 €/M input, ~15 €/M output; GPT-4o ~2,5 €/M input; mniejsze modele (Haiku, Mini) 10 do 50 razy tańsze. Output jest typowo 3 do 5 razy droższy od inputu — to mocno zmienia rachunek, gdy generuje się długie odpowiedzi lub kod na dużą skalę.
Optymalizacja tokenów w produkcji ma bezpośredni wpływ na rachunek wyników: kompresja historii rozmowy, korzystanie z prompt caching (Anthropic/OpenAI), by nie płacić ponownie za stabilne instrukcje, dobór odpowiedniego modelu (Haiku do klasyfikacji, Sonnet do rozumowania), przycinanie dokumentów RAG do absolutnego minimum przez reranking. Na projekcie z 50 tys. zapytań/miesiąc typowo dzielimy rachunek przez 3 do 10 dzięki dobrej higienie. Na skali przemysłowej to już niebagatelna kwota — chętnie o tym porozmawiamy przy okazji audytu AI.
Optymalizacja kosztów w tokenach
- Włączyć prompt caching na instrukcjach systemowych i stabilnym kontekście — zysk 50 do 90 %.
- Użyć lekkiego modelu (Haiku, GPT-4o-mini) do prostych zadań; duże modele zarezerwować do rozumowania.
- Kompresować historię rozmowy przez streszczanie po N turach — unika liniowej inflacji.
- Rerankować chunki RAG, by zachować tylko 3-5 najbardziej trafnych zamiast 20.
