Modelo de resposta mais barato para este RAG
Mesma recuperação e tráfego, todos os modelos classificados por custo mensal.
| Modelo | Custo/mês | Por consulta |
|---|
Para onde realmente vai o dinheiro do RAG
As pessoas presumem que os embeddings são a parte cara do RAG. Geralmente são os mais baratos. A incorporação de 10.000 documentos curtos geralmente custa alguns centavos, pagos uma vez. O custo real e recorrente é o LLM em todas as consultas - e especificamente o contexto recuperado você o alimenta. Extraia 5 pedaços de 400 tokens e você adicionará 2.000 tokens de entrada a cada pergunta antes mesmo de o usuário terminar de digitar. Multiplique pelo volume da sua consulta e essa será a sua conta.
As grandes alavancas, em ordem: recuperar menos/pedaços menores (top-k e tamanho do pedaço), use um modelo de resposta mais barato para consultas de rotina e limite de duração da resposta. A reincorporação apenas de documentos alterados (não de todo o corpus) evita a recorrência do custo único. Construindo o resto do aplicativo? Avalie um bot de suporte com o calculadora de custos do chatbot, um recurso completo com o Estimador de custos de aplicativos de IAou o back-end completo com o Calculadora de custos de pilha de API.