Retour au glossaire
IA & LLM

Tokeny (LLM)

Jednostki podziału tekstu przez LLM — nie słowa ani znaki. W języku polskim ok. 3 znaki na token. Rozliczenia i okno kontekstu liczone są w tokenach.

Token to elementarna jednostka, którą LLM czyta i generuje. Tokenizer dzieli tekst na częste podsłowa: „dzień dobry” daje 2-3 tokeny, „antykonstytucjonalizm” 5 lub 6, emoji 1 do 3, znak chiński 1 do 2. W języku polskim praktyczna reguła to 1 token ≈ 3 znaki ≈ 0,5-0,75 słowa. 1000 tokenów to ok. 500-750 słów. Książka 300-stronicowa ≈ 100-150 tys. tokenów. To jednostka miary okna kontekstu i rozliczenia.

LLM-y rozliczają osobno tokeny input (to, co się wysyła: prompt systemowy, kontekst, historia, RAG) i output (to, co model generuje). W 2026 r. rzędy wielkości: Claude Sonnet ~3 €/M input, ~15 €/M output; GPT-4o ~2,5 €/M input; mniejsze modele (Haiku, Mini) 10 do 50 razy tańsze. Output jest typowo 3 do 5 razy droższy od inputu — to mocno zmienia rachunek, gdy generuje się długie odpowiedzi lub kod na dużą skalę.

Optymalizacja tokenów w produkcji ma bezpośredni wpływ na rachunek wyników: kompresja historii rozmowy, korzystanie z prompt caching (Anthropic/OpenAI), by nie płacić ponownie za stabilne instrukcje, dobór odpowiedniego modelu (Haiku do klasyfikacji, Sonnet do rozumowania), przycinanie dokumentów RAG do absolutnego minimum przez reranking. Na projekcie z 50 tys. zapytań/miesiąc typowo dzielimy rachunek przez 3 do 10 dzięki dobrej higienie. Na skali przemysłowej to już niebagatelna kwota — chętnie o tym porozmawiamy przy okazji audytu AI.

Optymalizacja kosztów w tokenach

  • Włączyć prompt caching na instrukcjach systemowych i stabilnym kontekście — zysk 50 do 90 %.
  • Użyć lekkiego modelu (Haiku, GPT-4o-mini) do prostych zadań; duże modele zarezerwować do rozumowania.
  • Kompresować historię rozmowy przez streszczanie po N turach — unika liniowej inflacji.
  • Rerankować chunki RAG, by zachować tylko 3-5 najbardziej trafnych zamiast 20.
Bezpłatny audyt · 48 h

Nie wiesz, gdzie tkwi problem?
Zaudytujemy Twoją stronę. Bezpłatnie.

5 osi pod lupą — SEO, GEO, wydajność, konwersja, tracking. Wyceniony raport PDF + 30 min omówienia w prezencie. Bez zobowiązań, bez karty kredytowej.

Zamów bezpłatny audyt

Raport w 48 h · 30 min omówienia w prezencie

  • SEO Google
  • GEO · ChatGPT, Perplexity
  • Wydajność i Core Web Vitals
  • Konwersja i UX
  • Tracking i analityka
Devis sous 48h

Nie chcesz dzwonić?
Opisz swój projekt
w 5 minut.

Un projet sur ce sujet ? Décrivez-le en 5 min, on vous renvoie une architecture, un chiffrage et un planning.

  • 1Opisujesz swoją potrzebę
  • 2My wyceniamy i uzasadniamy
  • 3Wycena trafia do Twojej skrzynki
Décrire mon projet

Bez zobowiązań · Odpowiedź w 48 h