NLP (Natural Language Processing, czyli przetwarzanie języka naturalnego) obejmuje wszystkie techniki, dzięki którym maszyny przetwarzają ludzki język: tokenizacja, znakowanie morfosyntaktyczne, NER (Named Entity Recognition), klasyfikacja tekstu, analiza sentymentu, ekstrakcja informacji, tłumaczenie, streszczanie. Dziedzina dojrzała od 30 lat została zrewolucjonizowana przez transformery (BERT w 2018, a potem nowoczesne LLM-y), które wchłonęły większość podzadań w ramach ujednoliconego podejścia.
Dziś „klasyczne” NLP (ze spaCy, NLTK, transformers HuggingFace) wciąż ma sens w kilku kontekstach: ogromne wolumeny, gdzie koszt LLM byłby zaporowy (analiza milionów tweetów, klasyfikacja logów w czasie rzeczywistym), bardzo konkretne zadania, gdzie dedykowany model jest dokładniejszy (NER na encjach biznesowych po lekkim fine-tuningu), twarde wymagania latencji (< 50 ms, niemożliwe z LLM) lub ścisła suwerenność z self-hostingiem. W 80% nowych projektów i tak zaczynamy od LLM + prompt engineering, zanim rozważymy custom pipeline NLP.
Cegiełki NLP wciąż używane w produkcji: embeddingi (stały się standardem dzięki nowoczesnym embeddings), reranking (cross-encodery poprawiające RAG), klasyfikacja fine-tunowana na BERT/DistilBERT do powtarzalnych zadań o dużym wolumenie, ekstrakcja encji na własnym, oznaczonym zbiorze. Zasada Zaplo: LLM domyślnie, żeby szybko ruszyć, klasyczne NLP, gdy wymusza to wolumen, latencja lub koszt. Decyzję podejmujemy podczas bezpłatnego audytu IA.
Kiedy wybrać klasyczne NLP zamiast LLM
- Wolumen > 10 mln dokumentów/miesiąc, gdy koszt LLM staje się zaporowy — fine-tunowany klasyfikator wystarcza.
- Twarda latencja < 50 ms (wyszukiwanie w czasie rzeczywistym, moderacja live chatu) — LLM jest za wolny.
- Ścisła suwerenność bez zewnętrznej chmury — lekkie modele open-source, w pełni kontrolowane.
- Bardzo wąskie zadanie (np. wykrycie numeru NIP) — regex + spaCy bije LLM prostotą.
