Modelo de respuesta más barato para este RAG
Misma recuperación y tráfico, cada modelo clasificado por costo mensual.
| Modelo | Costo / mes | Por consulta |
|---|
Adónde va realmente el dinero de RAG
La gente supone que las incrustaciones son la parte cara de RAG. Suelen ser los más baratos. Incrustar 10.000 documentos cortos suele costar unos pocos centavos y se paga una vez. El costo real y recurrente es el LLM en cada consulta - y específicamente el contexto recuperado lo alimentas. Extraiga 5 fragmentos de 400 tokens y habrá agregado 2000 tokens de entrada a cada pregunta antes de que el usuario termine de escribir. Multiplique por su volumen de consultas y esa será su factura.
Las grandes palancas, en orden: recuperar menos trozos/más pequeños (top-k y tamaño de fragmento), utilice un modelo de respuesta más barato para consultas de rutina y limitar la longitud de las respuestas. Volver a incrustar sólo los documentos modificados (no todo el corpus) evita que el costo único se repita. ¿Construyendo el resto de la aplicación? Ponle precio a un bot de soporte con el calculadora de costos de chatbot, toda una característica con el Estimador de costos de aplicaciones de IA, o el backend completo con el Calculadora de costos de pila de API.