RAG (Retrieval-Augmented Generation) to standardowa metoda, by LLM odpowiadał na bazie twoich danych — bazy prawnej, dokumentacji produktu, archiwów klienckich, umów — bez ponownego trenowania. Zasada: tniemy dokumenty na chunki, liczymy embedding (wektor semantyczny) dla każdego chunka, składujemy wszystko w bazie wektorowej. Przy zapytaniu wyciągamy 3-10 najistotniejszych chunków i wstrzykujemy je w prompt razem z pytaniem. Model odpowiada, opierając się na tych fragmentach.
Dlaczego prawie zawsze jest to lepsze od fine-tuningu: 10-100 razy taniej, błyskawiczna aktualizacja (reindeksujemy bez ponownego trenowania), śledzenie źródeł (każda odpowiedź cytuje swoje źródła), masowa redukcja halucynacji. Fine-tuning ma sens dla stylu lub bardzo specyficznego żargonu — nie do wstrzykiwania wiedzy faktualnej. Reguła Zaplo: najpierw RAG, fine-tuning dopiero wtedy, gdy naprawdę spróbowaliśmy i zmierzyliśmy.
Klasyczne pułapki w produkcji: zbyt zgrubne dzielenie dokumentów (chunki po 2000 tokenów topiące sygnał), wyłącznie wektorowe wyszukiwanie bez hybrydy BM25/keyword (gubi dokładne zapytania), brak rerankingu na top-50, prompt nieinstruujący modelu, by cytował albo mówił „nie wiem”. Dobrze zrobiony RAG zamienia generycznego chatbota w branżowego eksperta na twoim obszarze — szczególnie użyteczne w branży prawnej, medycznej czy przemysłowej.
Pipeline RAG w 5 krokach
- Ingestia: parsujemy dokumenty (PDF, DOCX, HTML), czyścimy, tniemy na chunki po 300-800 tokenów.
- Indeksacja: liczymy embeddingi, składujemy w bazie wektorowej (Pinecone, pgvector, Weaviate).
- Wyszukiwanie: hybrydowe wektorowe + BM25, top-50, potem reranking do top-5.
- Generacja: wstrzyknięcie istotnych chunków + pytania w prompt, generacja z cytatami.
- Ewaluacja: referencyjny zbiór Q/A, metryki precyzji, zmierzony wskaźnik halucynacji.
