What makes up the cost of a RAG system?

Three parts. One-time: embedding all your documents into vectors. Ongoing monthly: the vector database that stores and searches those vectors, plus the per-query LLM cost — which includes the retrieved chunks you stuff into the prompt as context. For most RAG apps the per-query LLM cost dominates, because retrieved context can be far larger than the user's actual question.

Why is retrieved context the biggest RAG cost?

Every query sends the top-k retrieved chunks to the model as input tokens. Retrieve 5 chunks of 400 tokens and you are paying for 2,000 input tokens per query before the user has said much. Retrieving fewer or smaller chunks, or using a cheaper model, cuts the bill far more than changing embedding models does.

RAG-Kostenrechner – Einbettungen + Vektor-DB + LLM / Monat

RAG-Kostenrechner

✓ Zuletzt überprüft: 15.07.2026· Quelle: offizielle Preisseite des Anbieters· Automatisch überwacht – Änderung melden →

Die durch Abruf erweiterte Generierung umfasst drei Rechnungen: die einmalige Einbettung Ihrer Dokumente, die Vektor-DB jeden Monat und das LLM bei jeder Abfrage. Legen Sie Ihre Zahlen fest und sehen Sie sich die einmaligen Kosten, die monatlichen Kosten und die Kosten pro Frage an.

Wohin das RAG-Geld tatsächlich fließt

Die Leute gehen davon aus, dass Einbettungen der teure Teil von RAG sind. Sie sind normalerweise die günstigsten. Das Einbetten von 10.000 Kurzdokumenten kostet oft ein paar Cent und wird einmalig bezahlt. Die tatsächlichen, wiederkehrenden Kosten sind die LLM bei jeder Anfrage – und insbesondere die abgerufenen Kontext Du fütterst es. Ziehen Sie 5 Blöcke mit je 400 Token und Sie haben jeder einzelnen Frage 2.000 Eingabe-Token hinzugefügt, bevor der Benutzer überhaupt mit der Eingabe fertig ist. Multiplizieren Sie es mit Ihrem Abfragevolumen und das ist Ihre Rechnung.

Die großen Hebel in der Reihenfolge: abrufen weniger/kleinere Stücke (Top-K und Chunk-Größe), verwenden Sie a günstigeres Antwortmodell für Routineanfragen und maximale Antwortlänge. Durch das erneute Einbetten nur geänderter Dokumente (nicht des gesamten Korpus) wird verhindert, dass die einmaligen Kosten erneut anfallen. Den Rest der App erstellen? Preis für einen Support-Bot mit dem Chatbot-Kostenrechner, eine ganze Funktion mit dem Kostenschätzer für KI-Apps, oder das vollständige Backend mit dem API-Stack-Kostenrechner. Nur die Speicherschicht dimensionieren? Siehe die Kostenrechner für Vektordatenbanken für Pinecone vs. Qdrant vs. pgvector.

Häufig gestellte Fragen

Wie hoch sind die Kosten für ein RAG-System?

Drei Teile. Einmalig: Einbetten aller Ihrer Dokumente in Vektoren. Monatlich fortlaufend: die Vektordatenbank, die diese Vektoren speichert und durchsucht, zuzüglich der LLM-Kosten pro Abfrage – einschließlich der abgerufenen Teile, die Sie als Kontext in die Eingabeaufforderung einfügen. Bei den meisten RAG-Apps dominieren die LLM-Kosten pro Abfrage, da der abgerufene Kontext weitaus größer sein kann als die eigentliche Frage des Benutzers.

Warum ist der abgerufene Kontext der größte RAG-Kostenfaktor?

Jede Abfrage sendet die abgerufenen Top-k-Chunks als Eingabetoken an das Modell. Rufen Sie 5 Blöcke mit 400 Token ab und Sie zahlen für 2.000 Eingabe-Token pro Abfrage, bevor der Benutzer viel gesagt hat. Das Abrufen von weniger oder kleineren Blöcken oder die Verwendung eines günstigeren Modells senkt die Kosten weitaus mehr als der Wechsel von Einbettungsmodellen.

RAG-Kostenrechner

Günstigstes Antwortmodell für diesen RAG

Wohin das RAG-Geld tatsächlich fließt

So funktioniert dieser Rechner

Häufig gestellte Fragen

Wie hoch sind die Kosten für ein RAG-System?

Warum ist der abgerufene Kontext der größte RAG-Kostenfaktor?