What makes up the cost of a RAG system?

Three parts. One-time: embedding all your documents into vectors. Ongoing monthly: the vector database that stores and searches those vectors, plus the per-query LLM cost — which includes the retrieved chunks you stuff into the prompt as context. For most RAG apps the per-query LLM cost dominates, because retrieved context can be far larger than the user's actual question.

Why is retrieved context the biggest RAG cost?

Every query sends the top-k retrieved chunks to the model as input tokens. Retrieve 5 chunks of 400 tokens and you are paying for 2,000 input tokens per query before the user has said much. Retrieving fewer or smaller chunks, or using a cheaper model, cuts the bill far more than changing embedding models does.

RAG コスト計算ツール — エンベディング + ベクトル DB + LLM / 月

RAG コスト計算ツール

✓ 最終確認日: 2026-07-15· 出典: 公式プロバイダーの料金ページ· 自動監視 — 変更報告→

検索拡張生成には、ドキュメントを 1 回埋め込む、ベクトル DB を毎月埋め込む、およびクエリごとに LLM を埋め込むという 3 つの要件があります。数値を設定して、1 回限りのコスト、毎月のコスト、質問ごとのコストを確認します。

RAGのお金が実際にどこに行くのか

人々は、埋め込みが RAG の高価な部分であると考えています。通常はそれらが最も安いです。 10,000 の短いドキュメントの埋め込みは、多くの場合、数セントで、一度の支払いで済みます。実際の経常コストは、 すべてのクエリに対する LLM — そして具体的には 取得されたコンテキスト あなたはそれに餌を与えます。 400 トークンの 5 つのチャンクを取得すると、ユーザーが入力を終える前に、すべての質問に 2,000 の入力トークンが追加されたことになります。クエリ量を掛けると、それが請求額となります。

大きなレバーの順序: 取得 チャンクが少ない/小さい (top-k とチャンクサイズ)、 より安価な回答モデル 日常的なクエリの場合は、回答の長さに上限を設けます。 (コーパス全体ではなく) 変更されたドキュメントのみを再埋め込むことで、1 回限りのコストが再発することを防ぎます。残りのアプリを構築しますか?サポートボットの価格を設定するには、チャットボットのコスト計算ツール、機能全体が AI アプリのコスト見積りツール、または完全なバックエンド APIスタックコスト計算ツール。ストレージ層のサイズを調整するだけですか?を参照してください。ベクトルデータベースのコスト計算ツール松ぼっくり対Qdrant対pgvectorの場合。

よくある質問

RAG システムのコストは何が構成されていますか?

3つの部分。 1 回限り: すべてのドキュメントをベクターに埋め込みます。毎月継続: ベクターを保存および検索するベクターデータベースに加え、クエリごとの LLM コストがかかります。これには、プロンプトにコンテキストとして詰め込む取得したチャンクが含まれます。ほとんどの RAG アプリでは、取得されるコンテキストがユーザーの実際の質問よりもはるかに大きい可能性があるため、クエリごとの LLM コストが支配的になります。

取得されたコンテキストが最大の RAG コストとなるのはなぜですか?

すべてのクエリは、取得された上位 k 個のチャンクを入力トークンとしてモデルに送信します。 400 トークンの 5 つのチャンクを取得すると、ユーザーが何も言わないうちに、クエリごとに 2,000 の入力トークンの料金を支払うことになります。取得するチャンクの数を減らしたり、より小さいチャンクを取得したり、より安価なモデルを使用したりすると、埋め込みモデルを変更するよりもはるかに請求額が削減されます。

RAG コスト計算ツール

この RAG の最も安価な回答モデル

RAGのお金が実際にどこに行くのか

この計算機の仕組み

よくある質問

RAG システムのコストは何が構成されていますか?

取得されたコンテキストが最大の RAG コストとなるのはなぜですか?