Embeddings to wektory numeryczne (typowo od 768 do 3072 wymiarów), które kodują semantyczne znaczenie tekstu, obrazu lub dźwięku. Dwa teksty mówiące o tym samym temacie będą miały bliskie embeddings, mierzalne podobieństwem kosinusowym. To podstawowy klocek współczesnego wyszukiwania semantycznego i RAG: przekształcamy korpus dokumentów w wektory, zapisujemy w bazie wektorowej, a przy zapytaniu szukamy najbliższych wektorów.
Konkretnie wywołujemy model embeddingowy (text-embedding-3 od OpenAI, Voyage AI, Cohere lub modele open-source jak bge-m3), który przyjmuje tekst i zwraca wektor. Model został wytrenowany tak, by geometria tej przestrzeni odzwierciedlała znaczenie: „umowa o pracę” i „etat” znajdą się blisko siebie, nawet bez wspólnych słów. To czyni klasyczne wyszukiwanie po słowach kluczowych przestarzałym w wielu przypadkach — i otwiera zastosowania takie jak deduplikacja semantyczna, rekomendacja, automatyczne klastrowanie ticketów supportu.
Poza RAG embeddings służą do: klasyfikacji (zero-shot lub few-shot przez wektory referencyjne), detekcji anomalii (wektor daleki od wszystkich innych), dopasowywania CV/ofert w rekrutacji, rekomendacji produktów w e-commerce, analizy feedbacku klientów na dużą skalę. Orientacyjny koszt: 0,02–0,15 € za 1 mln zakodowanych tokenów — pomijalny w porównaniu z LLM-em konsumującym dalej. Dobrze zaprojektowany projekt integruje embeddings już na etapie POC.
Jak wybrać model embeddingów
- OpenAI text-embedding-3-large: solidny, wielojęzyczny, dobry domyślny wybór.
- Voyage AI / Cohere: lepsze wyniki na najnowszych benchmarkach, zwłaszcza w językach europejskich.
- bge-m3, jina-embeddings: open-source, możliwe do self-hostingu — odpowiednie dla RODO.
- Zawsze testuj na swoich danych: generyczny embedding może słabo działać w specjalistycznej dziedzinie.
