Самая дешевая модель ответа для этой Тряпки
Тот же поиск и трафик, каждая модель ранжирована по ежемесячной стоимости.
| Модель | Стоимость / месяц | По запросу |
|---|
Куда на самом деле идут деньги RAG
Люди полагают, что встраивания — это дорогая часть RAG. Обычно они самые дешевые. Встраивание 10 000 коротких документов часто стоит несколько центов, оплачиваемых один раз. Реальные текущие затраты – это LLM по каждому запросу - и конкретно полученный контекст ты его кормишь. Возьмите 5 блоков по 400 токенов, и вы добавите 2000 токенов ввода к каждому вопросу еще до того, как пользователь закончит печатать. Умножьте на объем запроса и получите счет.
Большие рычаги по порядку: извлечение меньше/меньшие куски (top-k и размер фрагмента), используйте более дешевая модель ответа для обычных запросов и ограничения длины ответа. Повторное внедрение только измененных документов (а не всего корпуса) предотвращает повторение единовременных затрат. Создаете остальную часть приложения? Цена бота поддержки с калькулятор стоимости чат-бота, целая особенность с Оценщик стоимости приложения с искусственным интеллектомили полный бэкэнд с Калькулятор стоимости стека API.