por mês (em andamento)
por consulta
indexação única
maior custo mensal

Modelo de resposta mais barato para este RAG

Mesma recuperação e tráfego, todos os modelos classificados por custo mensal.

ModeloCusto/mêsPor consulta
⚠️ Estimativa editável utilizando preços de referência (junho de 2026). O custo do Vector DB varia enormemente de acordo com o provedor e o plano – defina o seu próprio. As contas reais também mudam com a reclassificação, armazenamento em cache, filtragem de metadados e frequência de reindexação.

Para onde realmente vai o dinheiro do RAG

As pessoas presumem que os embeddings são a parte cara do RAG. Geralmente são os mais baratos. A incorporação de 10.000 documentos curtos geralmente custa alguns centavos, pagos uma vez. O custo real e recorrente é o LLM em todas as consultas - e especificamente o contexto recuperado você o alimenta. Extraia 5 pedaços de 400 tokens e você adicionará 2.000 tokens de entrada a cada pergunta antes mesmo de o usuário terminar de digitar. Multiplique pelo volume da sua consulta e essa será a sua conta.

As grandes alavancas, em ordem: recuperar menos/pedaços menores (top-k e tamanho do pedaço), use um modelo de resposta mais barato para consultas de rotina e limite de duração da resposta. A reincorporação apenas de documentos alterados (não de todo o corpus) evita a recorrência do custo único. Construindo o resto do aplicativo? Avalie um bot de suporte com o calculadora de custos do chatbot, um recurso completo com o Estimador de custos de aplicativos de IAou o back-end completo com o Calculadora de custos de pilha de API.