Le RAG (Retrieval-Augmented Generation) est la méthode standard pour faire répondre un LLM à partir de vos données — base juridique, documentation produit, archives clients, contrats — sans le ré-entraîner. Le principe : on découpe les documents en chunks, on calcule un embedding (vecteur sémantique) pour chaque chunk, on stocke le tout dans une base vectorielle. À la requête, on récupère les 3-10 chunks les plus pertinents et on les injecte dans le prompt avec la question. Le modèle répond en s'appuyant sur ces extraits.
Pourquoi c'est presque toujours préférable au fine-tuning : 10 à 100 fois moins cher, mise à jour instantanée (on ré-indexe sans ré-entraîner), traçabilité (chaque réponse cite ses sources), et réduction massive des hallucinations. Le fine-tuning reste pertinent pour le style ou le jargon très spécifique — pas pour injecter de la connaissance factuelle. La règle Zaplo : RAG d'abord, fine-tuning seulement si on a vraiment essayé et mesuré.
Les pièges classiques en production : un découpage des documents trop grossier (chunks de 2000 tokens qui noient le signal), une recherche purement vectorielle sans hybridation BM25/keywords (rate les requêtes exactes), pas de reranking sur les top-50 résultats, et un prompt qui n'instruit pas le modèle à citer ou à dire « je ne sais pas ». Bien fait, le RAG transforme un chatbot générique en expert métier sur votre périmètre — particulièrement utile en secteur juridique, médical, ou industriel.
Pipeline RAG en 5 étapes
- Ingestion : parser les documents (PDF, DOCX, HTML), nettoyer, découper en chunks de 300-800 tokens.
- Indexation : calculer les embeddings, stocker dans une base vectorielle (Pinecone, pgvector, Weaviate).
- Recherche : recherche hybride vectorielle + BM25, top-50 puis reranking pour garder le top-5.
- Génération : injection des chunks pertinents + question dans le prompt, génération avec citations.
- Évaluation : dataset de Q/R de référence, métriques de précision, taux d'hallucination mesuré.
