What makes up the cost of a RAG system?

Three parts. One-time: embedding all your documents into vectors. Ongoing monthly: the vector database that stores and searches those vectors, plus the per-query LLM cost — which includes the retrieved chunks you stuff into the prompt as context. For most RAG apps the per-query LLM cost dominates, because retrieved context can be far larger than the user's actual question.

Why is retrieved context the biggest RAG cost?

Every query sends the top-k retrieved chunks to the model as input tokens. Retrieve 5 chunks of 400 tokens and you are paying for 2,000 input tokens per query before the user has said much. Retrieving fewer or smaller chunks, or using a cheaper model, cuts the bill far more than changing embedding models does.

Calculateur de coûts RAG — Intégrations + Base de données vectorielle + LLM / Mois

Calculateur de coût RAG

✓ Dernière vérification : 2026-07-15· Source : page officielle des tarifs du fournisseur· Auto-surveillé - signaler un changement →

La génération augmentée par récupération comporte trois factures : l'intégration de vos documents une fois, la base de données vectorielle tous les mois et le LLM à chaque requête. Définissez vos numéros et consultez le coût unique, le coût mensuel et le coût par question.

Où va réellement l’argent de RAG

Les gens supposent que les intégrations sont la partie la plus coûteuse de RAG. Ce sont généralement les moins chers. Intégrer 10 000 documents courts coûte souvent quelques centimes, payés une seule fois. Le coût réel et récurrent est le LLM sur chaque requête - et plus particulièrement le contexte récupéré tu le nourris. Tirez 5 morceaux de 400 jetons et vous avez ajouté 2 000 jetons d'entrée à chaque question avant même que l'utilisateur ait fini de taper. Multipliez par votre volume de requêtes et vous obtenez votre facture.

Les gros leviers, dans l'ordre : récupérer moins/morceaux plus petits (top-k et taille du morceau), utilisez un modèle de réponse moins cher pour les requêtes de routine et limiter la longueur des réponses. La réintégration uniquement des documents modifiés (et non de l'ensemble du corpus) évite que le coût ponctuel ne se reproduise. Construire le reste de l'application ? Évaluez un bot de support avec le calculateur de coût de chatbot, toute une fonctionnalité avec le Estimateur du coût des applications d'IA, ou le backend complet avec le Calculateur du coût de la pile API. Il suffit de dimensionner la couche de stockage ? Voir le calculateur de coût de base de données vectorielle pour Pinecone contre Qdrant contre pgvector.

Questions fréquemment posées

Quel est le coût d'un système RAG ?

Trois parties. Unique : intégration de tous vos documents dans des vecteurs. En continu mensuellement : la base de données de vecteurs qui stocke et recherche ces vecteurs, plus le coût LLM par requête, qui inclut les morceaux récupérés que vous insérez dans l'invite en tant que contexte. Pour la plupart des applications RAG, le coût LLM par requête domine, car le contexte récupéré peut être bien plus vaste que la question réelle de l'utilisateur.

Pourquoi le contexte récupéré représente-t-il le coût RAG le plus important ?

Chaque requête envoie les k premiers morceaux récupérés au modèle en tant que jetons d'entrée. Récupérez 5 morceaux de 400 jetons et vous payez 2 000 jetons d'entrée par requête avant que l'utilisateur n'en ait dit grand-chose. Récupérer des morceaux moins nombreux ou plus petits, ou utiliser un modèle moins cher, réduit la facture bien plus que la modification des modèles d'intégration.

Calculateur de coût RAG

Modèle de réponse le moins cher pour ce RAG

Où va réellement l’argent de RAG

Comment fonctionne cette calculatrice

Questions fréquemment posées

Quel est le coût d'un système RAG ?

Pourquoi le contexte récupéré représente-t-il le coût RAG le plus important ?