Лимиты и квоты

Лимиты запросов (RPM)

Лимиты на количество запросов в минуту (RPM) определяют, как интенсивно вы можете использовать наш API. Система лимитов разработана так, чтобы вознаграждать активных пользователей: чем больше общая сумма ваших пополнений, тем выше ваш лимит.

Основные принципы

Лимит зависит от суммы пополнений: Ваш RPM напрямую связан с общей суммой, на которую вы пополняли баланс API ключа за всё время.
Лимит только растет: Ваш лимит RPM может только увеличиваться при достижении нового порога пополнений. Он никогда не будет снижен.
Лимиты привязаны к ключу: История пополнений и соответствующий лимит RPM учитываются для каждого API ключа отдельно. Если вы используете несколько ключей, их истории пополнений не суммируются.

Совет

Если вам нужны высокие лимиты RPM, рекомендуется пополнять один и тот же API ключ, а не создавать новые. Инструкция по пополнению.

Таблица лимитов

Общая сумма пополнений (за всё время)	Лимит запросов в минуту (RPM)
≥ 50 000 ₽	600
≥ 40 000 ₽	500
≥ 30 000 ₽	400
≥ 20 000 ₽	300
≥ 10 000 ₽	200
≥ 5 000 ₽	100
≥ 3 750 ₽	75
≥ 2 500 ₽	55
≥ 1 000 ₽	35
< 1 000 ₽	10

Что такое RPM коэффициент?

Что такое RPM (Requests Per Minute)?

RPM — это базовый лимит вашего аккаунта, который определяет доступное количество запросов к API за одну минуту.

Важно: Лимит RPM глобален. Он действует на весь аккаунт целиком и представляет собой единый «пул» (или корзину) слотов. Любой ваш запрос к любой модели расходует слоты из этого общего пула.

RPM-коэффициент (rpm_coefficient) — это система ограничения числа запросов, необходимая для эффективной балансировки нагрузки на инфраструктуру. Этот параметр указывает, сколько именно слотов из вашего общего RPM-лимита списывается за совершение одного фактического запроса к конкретной модели.

Таким образом, для поддержания стабильности работы сервиса и распределения нагрузки, обращения к разным моделям могут списывать разное количество слотов из вашего минутного лимита.

Принцип работы и примеры расчета

Итоговое количество запросов, которое вы можете сделать к конкретной модели, зависит от установленного для нее коэффициента потребления слотов.

Предположим, общий лимит вашего аккаунта составляет 100 RPM (100 слотов в минуту):

Модель с коэффициентом 1: За один фактический запрос к API списывается 1 слот. Пример: Если вы будете отправлять запросы только к этой модели, вы сможете совершить ровно 100 запросов за минуту.
Модель с коэффициентом 5: В целях балансировки нагрузки за один фактический запрос к API списывается сразу 5 слотов. Пример: Если вы будете обращаться только к этой модели, вашего полного пула в 100 RPM хватит на 20 фактических запросов (100 / 5 = 20).
Смешанная нагрузка (Все запросы идут в общий зачет): Вы сделали 10 запросов к модели с коэффициентом 1 (потратили 10 слотов) и 5 запросов к модели с коэффициентом 5 (потратили 5 × 5 = 25 слотов). Итого из вашего общего пула в 100 RPM за эту минуту будет израсходовано 35 слотов, и для любых других запросов до конца текущей минуты у вас останется 65 слотов.

Что происходит при превышении лимита?

Если вы отправите больше запросов, чем позволяет ваш текущий лимит RPM, API вернет ошибку с кодом состояния 429 Too Many Requests. В этом случае вам необходимо снизить частоту отправки запросов и повторить попытку позже.

Запросы в секунду (RPS)

В нашем API нет жесткого лимита на количество запросов в секунду (RPS). Однако частые и резкие пиковые нагрузки могут временно снизить приоритет обработки ваших запросов, чтобы обеспечить стабильность системы для всех пользователей. Рекомендуется распределять запросы равномерно внутри минуты.