What makes up the cost of a RAG system?

Three parts. One-time: embedding all your documents into vectors. Ongoing monthly: the vector database that stores and searches those vectors, plus the per-query LLM cost — which includes the retrieved chunks you stuff into the prompt as context. For most RAG apps the per-query LLM cost dominates, because retrieved context can be far larger than the user's actual question.

Why is retrieved context the biggest RAG cost?

Every query sends the top-k retrieved chunks to the model as input tokens. Retrieve 5 chunks of 400 tokens and you are paying for 2,000 input tokens per query before the user has said much. Retrieving fewer or smaller chunks, or using a cheaper model, cuts the bill far more than changing embedding models does.

Calculadora de costos RAG: incrustaciones + DB vectorial + LLM / mes

Calculadora de costos RAG

✓ Última verificación: 2026-07-15· Fuente: página oficial de precios del proveedor.· Supervisado automáticamente — reportar cambio →

La generación de recuperación aumentada tiene tres proyectos de ley: incrustar sus documentos una vez, la base de datos vectorial cada mes y el LLM en cada consulta. Establezca sus números y vea el costo único, el costo mensual y el costo por pregunta.

Adónde va realmente el dinero de RAG

La gente supone que las incrustaciones son la parte cara de RAG. Suelen ser los más baratos. Incrustar 10.000 documentos cortos suele costar unos pocos centavos y se paga una vez. El costo real y recurrente es el LLM en cada consulta - y específicamente el contexto recuperado lo alimentas. Extraiga 5 fragmentos de 400 tokens y habrá agregado 2000 tokens de entrada a cada pregunta antes de que el usuario termine de escribir. Multiplique por su volumen de consultas y esa será su factura.

Las grandes palancas, en orden: recuperar menos trozos/más pequeños (top-k y tamaño de fragmento), utilice un modelo de respuesta más barato para consultas de rutina y limitar la longitud de las respuestas. Volver a incrustar sólo los documentos modificados (no todo el corpus) evita que el costo único se repita. ¿Construyendo el resto de la aplicación? Ponle precio a un bot de soporte con el calculadora de costos de chatbot, toda una característica con el Estimador de costos de aplicaciones de IA, o el backend completo con el Calculadora de costos de pila de API. ¿Solo dimensionar la capa de almacenamiento? Ver el calculadora de costos de bases de datos vectoriales para Pinecone vs Qdrant vs pgvector.

Preguntas frecuentes

¿Qué constituye el costo de un sistema RAG?

Tres partes. Una sola vez: incrustar todos sus documentos en vectores. Mensualmente continuo: la base de datos de vectores que almacena y busca esos vectores, más el costo de LLM por consulta, que incluye los fragmentos recuperados que ingresa en el mensaje como contexto. Para la mayoría de las aplicaciones RAG, el costo LLM por consulta domina, porque el contexto recuperado puede ser mucho mayor que la pregunta real del usuario.

¿Por qué el contexto recuperado es el mayor coste de RAG?

Cada consulta envía los k fragmentos recuperados top al modelo como tokens de entrada. Recupere 5 fragmentos de 400 tokens y pagará 2000 tokens de entrada por consulta antes de que el usuario haya dicho mucho. Recuperar menos fragmentos o más pequeños, o utilizar un modelo más barato, reduce la factura mucho más que cambiar los modelos de incrustación.

Calculadora de costos RAG

Modelo de respuesta más barato para este RAG

Adónde va realmente el dinero de RAG

Cómo funciona esta calculadora

Preguntas frecuentes

¿Qué constituye el costo de un sistema RAG?

¿Por qué el contexto recuperado es el mayor coste de RAG?