pro Monat (laufend)
pro Anfrage
einmalige Indizierung
größte monatliche Kosten

Günstigstes Antwortmodell für diesen RAG

Gleicher Abruf und gleicher Traffic, jedes Modell nach monatlichen Kosten sortiert.

ModellKosten/MonatPro Anfrage
⚠️ Editierbare Schätzung anhand von Referenzpreisen (Juni 2026). Die Kosten für Vector DB variieren stark je nach Anbieter und Plan – legen Sie Ihren eigenen fest. Auch die tatsächlichen Rechnungen ändern sich mit der Häufigkeit von Reranking, Caching, Metadatenfilterung und Neuindizierung.

Wohin das RAG-Geld tatsächlich fließt

Die Leute gehen davon aus, dass Einbettungen der teure Teil von RAG sind. Sie sind normalerweise die günstigsten. Das Einbetten von 10.000 Kurzdokumenten kostet oft ein paar Cent und wird einmalig bezahlt. Die tatsächlichen, wiederkehrenden Kosten sind die LLM bei jeder Anfrage – und insbesondere die abgerufenen Kontext Du fütterst es. Ziehen Sie 5 Blöcke mit je 400 Token und Sie haben jeder einzelnen Frage 2.000 Eingabe-Token hinzugefügt, bevor der Benutzer überhaupt mit der Eingabe fertig ist. Multiplizieren Sie es mit Ihrem Abfragevolumen und das ist Ihre Rechnung.

Die großen Hebel in der Reihenfolge: abrufen weniger/kleinere Stücke (Top-K und Chunk-Größe), verwenden Sie a günstigeres Antwortmodell für Routineanfragen und maximale Antwortlänge. Durch das erneute Einbetten nur geänderter Dokumente (nicht des gesamten Korpus) wird verhindert, dass die einmaligen Kosten erneut anfallen. Den Rest der App erstellen? Preis für einen Support-Bot mit dem Chatbot-Kostenrechner, eine ganze Funktion mit dem Kostenschätzer für KI-Apps, oder das vollständige Backend mit dem API-Stack-Kostenrechner.