Embeddings OpenAI : comment les utiliser proprement dans un SaaS

Les embeddings sont la brique de base de tout système de recherche sémantique ou RAG. OpenAI a sorti text-embedding-3 en janvier 2024 : meilleure qualité, prix divisé par 5.

Défaut recommandé 2024 : text-embedding-3-small pour 90 % des usages. text-embedding-3-large uniquement si vous avez mesuré un vrai gain qualité.

Choisir la dimension

text-embedding-3-small : 1536 dims, 0,02 $/M tokens
text-embedding-3-large : 3072 dims, 0,13 $/M tokens
Vous pouvez tronquer la dimension (256, 512, 1024) sans réentraîner

Le pipeline standard

Chunking : 500-800 tokens par chunk avec overlap
Embed chaque chunk
Stocker dans pgvector / Pinecone / Qdrant
À la recherche : embed la query, top-k cosine similarity

Les pièges classiques

Chunks trop grands (recherche imprécise)
Chunks trop petits (perte de contexte)
Ne pas re-embedder après changement de modèle
Ignorer la normalisation avant cosine similarity

Coût réel à volume

Indexer 10 000 documents de 2000 tokens en small : 40 cents. Requêtes : quasi gratuit. La ligne de coût réelle est le LLM d'augmentation, pas les embeddings.

Un système de recherche sémantique coûte moins de 5 € / mois à mettre en place jusqu'à 50 000 documents. Pas d'excuse.

On monte votre RAG ?

En 30 minutes on peut cadrer votre pipeline embeddings. Réservez un créneau. À lire : Choisir sa base vectorielle.

Embeddings OpenAI : comment les utiliser proprement dans un SaaS

Choisir la dimension

Le pipeline standard

Les pièges classiques

Coût réel à volume

On monte votre RAG ?

A project to launch or to rescue?

Read next

Automatiser son entreprise avec l'IA : 7 cas d'usage à ROI immédiat

Intégrer OpenAI dans son SaaS : le guide pratique pour fondateurs (2026)

RAG ou fine-tuning : comment choisir pour votre projet IA (2026)