What makes up the cost of a RAG system?

Three parts. One-time: embedding all your documents into vectors. Ongoing monthly: the vector database that stores and searches those vectors, plus the per-query LLM cost — which includes the retrieved chunks you stuff into the prompt as context. For most RAG apps the per-query LLM cost dominates, because retrieved context can be far larger than the user's actual question.

Why is retrieved context the biggest RAG cost?

Every query sends the top-k retrieved chunks to the model as input tokens. Retrieve 5 chunks of 400 tokens and you are paying for 2,000 input tokens per query before the user has said much. Retrieving fewer or smaller chunks, or using a cheaper model, cuts the bill far more than changing embedding models does.

Calculadora de custos RAG - Embeddings + Vector DB + LLM / Mês

Calculadora de custos RAG

✓ Última verificação: 15/07/2026· Fonte: página oficial de preços do fornecedor· Monitorado automaticamente — relatar alteração →

A geração de recuperação aumentada tem três projetos: incorporar seus documentos uma vez, o banco de dados vetorial todo mês e o LLM em cada consulta. Defina seus números e veja o custo único, o custo mensal e o custo por pergunta.

Para onde realmente vai o dinheiro do RAG

As pessoas presumem que os embeddings são a parte cara do RAG. Geralmente são os mais baratos. A incorporação de 10.000 documentos curtos geralmente custa alguns centavos, pagos uma vez. O custo real e recorrente é o LLM em todas as consultas - e especificamente o contexto recuperado você o alimenta. Extraia 5 pedaços de 400 tokens e você adicionará 2.000 tokens de entrada a cada pergunta antes mesmo de o usuário terminar de digitar. Multiplique pelo volume da sua consulta e essa será a sua conta.

As grandes alavancas, em ordem: recuperar menos/pedaços menores (top-k e tamanho do pedaço), use um modelo de resposta mais barato para consultas de rotina e limite de duração da resposta. A reincorporação apenas de documentos alterados (não de todo o corpus) evita a recorrência do custo único. Construindo o resto do aplicativo? Avalie um bot de suporte com o calculadora de custos do chatbot, um recurso completo com o Estimador de custos de aplicativos de IAou o back-end completo com o Calculadora de custos de pilha de API. Apenas dimensionando a camada de armazenamento? Veja o calculadora de custos de banco de dados vetorial para Pinha vs Qdrant vs pgvector.

Perguntas frequentes

Qual é o custo de um sistema RAG?

Três partes. Único: incorporando todos os seus documentos em vetores. Contínuo mensalmente: o banco de dados de vetores que armazena e pesquisa esses vetores, mais o custo do LLM por consulta – que inclui os pedaços recuperados que você coloca no prompt como contexto. Para a maioria dos aplicativos RAG, o custo do LLM por consulta domina, porque o contexto recuperado pode ser muito maior do que a pergunta real do usuário.

Por que o contexto recuperado é o maior custo do RAG?

Cada consulta envia os k principais pedaços recuperados para o modelo como tokens de entrada. Recupere 5 pedaços de 400 tokens e você estará pagando por 2.000 tokens de entrada por consulta antes que o usuário tenha dito muito. Recuperar pedaços menores ou em menor quantidade, ou usar um modelo mais barato, reduz muito mais a conta do que alterar os modelos de incorporação.

Calculadora de custos RAG

Modelo de resposta mais barato para este RAG

Para onde realmente vai o dinheiro do RAG

Como funciona esta calculadora

Perguntas frequentes

Qual é o custo de um sistema RAG?

Por que o contexto recuperado é o maior custo do RAG?