What makes up the cost of a RAG system?

Three parts. One-time: embedding all your documents into vectors. Ongoing monthly: the vector database that stores and searches those vectors, plus the per-query LLM cost — which includes the retrieved chunks you stuff into the prompt as context. For most RAG apps the per-query LLM cost dominates, because retrieved context can be far larger than the user's actual question.

Why is retrieved context the biggest RAG cost?

Every query sends the top-k retrieved chunks to the model as input tokens. Retrieve 5 chunks of 400 tokens and you are paying for 2,000 input tokens per query before the user has said much. Retrieving fewer or smaller chunks, or using a cheaper model, cuts the bill far more than changing embedding models does.

Калькулятор стоимости RAG — Встраивания + Векторная БД + LLM / Месяц

Калькулятор стоимости Тряпки

✓ Последняя проверка: 15 июля 2026 г.· Источник: официальная страница цен поставщика.· Автоматический мониторинг — сообщить об изменении →

У генерации с расширенным поиском есть три счета: встраивание ваших документов один раз, векторная база данных каждый месяц и LLM для каждого запроса. Установите свои цифры и посмотрите единовременную стоимость, ежемесячную стоимость и стоимость за вопрос.

Куда на самом деле идут деньги RAG

Люди полагают, что встраивания — это дорогая часть RAG. Обычно они самые дешевые. Встраивание 10 000 коротких документов часто стоит несколько центов, оплачиваемых один раз. Реальные текущие затраты – это LLM по каждому запросу - и конкретно полученный контекст ты его кормишь. Возьмите 5 блоков по 400 токенов, и вы добавите 2000 токенов ввода к каждому вопросу еще до того, как пользователь закончит печатать. Умножьте на объем запроса и получите счет.

Большие рычаги по порядку: извлечение меньше/меньшие куски (top-k и размер фрагмента), используйте более дешевая модель ответа для обычных запросов и ограничения длины ответа. Повторное внедрение только измененных документов (а не всего корпуса) предотвращает повторение единовременных затрат. Создаете остальную часть приложения? Цена бота поддержки с калькулятор стоимости чат-бота, целая особенность с Оценщик стоимости приложения с искусственным интеллектомили полный бэкэнд с Калькулятор стоимости стека API. Просто определить размер слоя хранения? См. векторный калькулятор стоимости базы данных для шишки, Qdrant и pgvector.

Часто задаваемые вопросы

Из чего складывается стоимость системы RAG?

Три части. Единоразово: встраивание всех ваших документов в векторы. Постоянно ежемесячно: база данных векторов, в которой хранятся и выполняются поиск этих векторов, плюс стоимость LLM для каждого запроса, которая включает полученные фрагменты, которые вы помещаете в подсказку в качестве контекста. Для большинства приложений RAG стоимость LLM для каждого запроса доминирует, поскольку полученный контекст может быть намного больше, чем фактический вопрос пользователя.

Почему получение контекста является самой большой затратой на RAG?

Каждый запрос отправляет в модель первые k извлеченных фрагментов в качестве входных токенов. Получите 5 фрагментов по 400 токенов, и вы заплатите 2000 входных токенов за запрос, прежде чем пользователь что-то скажет. Получение меньшего количества или меньших фрагментов или использование более дешевой модели сокращает расходы гораздо больше, чем изменение моделей внедрения.

Калькулятор стоимости Тряпки

Самая дешевая модель ответа для этой Тряпки

Куда на самом деле идут деньги RAG

Как работает этот калькулятор

Часто задаваемые вопросы

Из чего складывается стоимость системы RAG?

Почему получение контекста является самой большой затратой на RAG?