Les embeddings sont la brique de base de tout système de recherche sémantique ou RAG. OpenAI a sorti text-embedding-3 en janvier 2024 : meilleure qualité, prix divisé par 5.
Défaut recommandé 2024 : text-embedding-3-small pour 90 % des usages. text-embedding-3-large uniquement si vous avez mesuré un vrai gain qualité.
Choisir la dimension
- text-embedding-3-small : 1536 dims, 0,02 $/M tokens
- text-embedding-3-large : 3072 dims, 0,13 $/M tokens
- Vous pouvez tronquer la dimension (256, 512, 1024) sans réentraîner
Le pipeline standard
- Chunking : 500-800 tokens par chunk avec overlap
- Embed chaque chunk
- Stocker dans pgvector / Pinecone / Qdrant
- À la recherche : embed la query, top-k cosine similarity
Les pièges classiques
- Chunks trop grands (recherche imprécise)
- Chunks trop petits (perte de contexte)
- Ne pas re-embedder après changement de modèle
- Ignorer la normalisation avant cosine similarity
Coût réel à volume
Indexer 10 000 documents de 2000 tokens en small : 40 cents. Requêtes : quasi gratuit. La ligne de coût réelle est le LLM d'augmentation, pas les embeddings.
Un système de recherche sémantique coûte moins de 5 € / mois à mettre en place jusqu'à 50 000 documents. Pas d'excuse.
On monte votre RAG ?
En 30 minutes on peut cadrer votre pipeline embeddings. Réservez un créneau. À lire : Choisir sa base vectorielle.