Günstigstes Antwortmodell für diesen RAG
Gleicher Abruf und gleicher Traffic, jedes Modell nach monatlichen Kosten sortiert.
| Modell | Kosten/Monat | Pro Anfrage |
|---|
Wohin das RAG-Geld tatsächlich fließt
Die Leute gehen davon aus, dass Einbettungen der teure Teil von RAG sind. Sie sind normalerweise die günstigsten. Das Einbetten von 10.000 Kurzdokumenten kostet oft ein paar Cent und wird einmalig bezahlt. Die tatsächlichen, wiederkehrenden Kosten sind die LLM bei jeder Anfrage – und insbesondere die abgerufenen Kontext Du fütterst es. Ziehen Sie 5 Blöcke mit je 400 Token und Sie haben jeder einzelnen Frage 2.000 Eingabe-Token hinzugefügt, bevor der Benutzer überhaupt mit der Eingabe fertig ist. Multiplizieren Sie es mit Ihrem Abfragevolumen und das ist Ihre Rechnung.
Die großen Hebel in der Reihenfolge: abrufen weniger/kleinere Stücke (Top-K und Chunk-Größe), verwenden Sie a günstigeres Antwortmodell für Routineanfragen und maximale Antwortlänge. Durch das erneute Einbetten nur geänderter Dokumente (nicht des gesamten Korpus) wird verhindert, dass die einmaligen Kosten erneut anfallen. Den Rest der App erstellen? Preis für einen Support-Bot mit dem Chatbot-Kostenrechner, eine ganze Funktion mit dem Kostenschätzer für KI-Apps, oder das vollständige Backend mit dem API-Stack-Kostenrechner.