Modèle de réponse le moins cher pour ce RAG
Même récupération et même trafic, chaque modèle classé par coût mensuel.
| Modèle | Coût / mois | Par requête |
|---|
Où va réellement l’argent de RAG
Les gens supposent que les intégrations sont la partie la plus coûteuse de RAG. Ce sont généralement les moins chers. Intégrer 10 000 documents courts coûte souvent quelques centimes, payés une seule fois. Le coût réel et récurrent est le LLM sur chaque requête - et plus particulièrement le contexte récupéré tu le nourris. Tirez 5 morceaux de 400 jetons et vous avez ajouté 2 000 jetons d'entrée à chaque question avant même que l'utilisateur ait fini de taper. Multipliez par votre volume de requêtes et vous obtenez votre facture.
Les gros leviers, dans l'ordre : récupérer moins/morceaux plus petits (top-k et taille du morceau), utilisez un modèle de réponse moins cher pour les requêtes de routine et limiter la longueur des réponses. La réintégration uniquement des documents modifiés (et non de l'ensemble du corpus) évite que le coût ponctuel ne se reproduise. Construire le reste de l'application ? Évaluez un bot de support avec le calculateur de coût de chatbot, toute une fonctionnalité avec le Estimateur du coût des applications d'IA, ou le backend complet avec le Calculateur du coût de la pile API.