Le fine-tuning consiste à ré-entraîner un LLM pré-existant sur un dataset spécifique pour adapter son comportement — style d'écriture, ton de marque, structure de sortie, jargon métier. Techniquement, on prend un modèle de base (Llama, Mistral, ou un fine-tune via API chez OpenAI), on lui montre quelques milliers d'exemples annotés, et on ajuste ses poids. Le modèle « apprend » à reproduire le pattern. C'est différent du RAG, qui injecte de la connaissance dans le prompt sans modifier le modèle.
Pourquoi on en parle moins en 2026 qu'en 2023 : la plupart des cas d'usage qu'on voulait résoudre par fine-tuning (Q&R sur base interne, support client) sont mieux servis par un système RAG bien construit. Le fine-tuning apporte vraiment de la valeur dans des cas étroits : reproduire un style éditorial très marqué, classifier des documents avec une taxonomie maison à fort volume, gérer un jargon métier que le modèle de base ne maîtrise pas (médical pointu, juridique sectoriel). Coût indicatif : 5 à 50K€ pour un projet sérieux, sans compter la maintenance.
Les inconvénients qu'on oublie souvent : un modèle fine-tuné fige la connaissance au jour J (il faut ré-entraîner pour mettre à jour), il est plus cher à servir, il peut « oublier » des capacités générales (catastrophic forgetting), et il rend le debug plus difficile. La règle Zaplo : avant de fine-tuner, on essaie sérieusement le prompt engineering, puis le RAG, puis l'agentique avec function calling. Si ça ne suffit toujours pas, alors on parle fine-tuning. Pour cadrer le bon choix, on commence par un audit IA gratuit.
Fine-tuning vs RAG : qui choisit quoi
- RAG si vous voulez injecter de la connaissance (faits, documents, procédures) — 90 % des cas.
- Fine-tuning si vous voulez injecter un comportement (style, format, ton de marque, classification spécialisée).
- RAG si vos données changent souvent — fine-tuning fige le modèle au jour de l'entraînement.
- Combiner les deux est possible mais rarement nécessaire avant un volume conséquent.
