Les embeddings sont des vecteurs numériques (typiquement 768 à 3072 dimensions) qui encodent le sens sémantique d'un texte, d'une image ou d'un audio. Deux textes qui parlent du même sujet auront des embeddings proches, mesurables par similarité cosinus. C'est la brique de base de la recherche sémantique moderne et du RAG : on transforme un corpus de documents en vecteurs, on stocke dans une base vectorielle, et à la requête on cherche les vecteurs les plus proches.
Concrètement, on appelle un modèle d'embedding (text-embedding-3 d'OpenAI, Voyage AI, Cohere, ou des modèles open-source comme bge-m3) qui prend du texte en entrée et renvoie un vecteur. Le modèle a été entraîné pour que la géométrie de cet espace reflète le sens : « contrat de travail » et « CDI » seront proches, même sans aucun mot en commun. Cela rend obsolète la recherche par mots-clés stricte pour beaucoup de cas — et active des usages comme la déduplication sémantique, la recommandation, le clustering automatique de tickets support.
Au-delà du RAG, les embeddings servent à : la classification (zero-shot ou few-shot via vecteurs de référence), la détection d'anomalies (un vecteur loin de tous les autres), le matching CV/offres en recrutement, la recommandation produit en e-commerce, l'analyse de feedback client à grande échelle. Coût indicatif : 0,02 à 0,15 € pour 1M de tokens encodés — négligeable comparé au LLM qui consomme derrière. Un projet bien conçu intègre les embeddings dès la phase de POC.
Choisir son modèle d'embeddings
- OpenAI text-embedding-3-large : robuste, multilingue, bon par défaut.
- Voyage AI / Cohere : meilleurs scores sur benchmarks récents, particulièrement en français.
- bge-m3, jina-embeddings : open-source, auto-hébergeables — pertinent pour le RGPD.
- Toujours tester sur vos données : un embedding générique peut sous-performer en domaine spécialisé.
