Перейти к содержанию

Часто Задаваемые Вопросы (FAQ)

Поддерживается ли кэширование токенов?

Нет, кэширование токенов не поддерживается, и на это есть две важные причины:

  1. Особенности нашей архитектуры. Наш сервис работает через пул аккаунтов у нескольких провайдеров для обеспечения стабильности и низких цен. Из-за этого технически почти невозможно сопоставить ваши последовательные запросы с одним и тем же аккаунтом, что необходимо для корректной работы кэша.

  2. Снижение качества и отсутствие выгоды. Вопреки распространенному мнению, кэширование токенов неэффективно и может навредить качеству ответов:

    • Нарушение контекста: Нейросети генерируют каждый следующий токен на основе всей предыдущей последовательности. Попытка «подставить» кэшированные части из старых запросов нарушает эту логику, что ведет к несвязным, нелогичным или повторяющимся ответам.
    • Отсутствие экономии: Тарификация API-запросов учитывает общее количество токенов, обработанных моделью, включая как входящие (input), так и сгенерированные (output) токены. Важно понимать, что кэширование не уменьшает объем контекста, который анализируется моделью для генерации ответа. Его основная функция — оптимизация стоимости за счет повторного использования уже обработанных входящих токенов. Это снижает итоговую цену запроса, однако эффект может быть менее значительным, чем ожидается. Основной вклад в стоимость вносят сгенерированные токены, поскольку их тарификация, как правило, выше. Кроме того, следует учитывать, что за использование кэша может взиматься отдельная плата, а срок его хранения ограничен.
Пример расчета кэша

Основные переменные

Для начала определим переменные, которые будем использовать в расчетах:

  • N — общее количество запросов за период жизни кэша.
  • P_hit — процент вхождения токенов (коэффициент кэширования). Это доля токенов в повторных запросах, которые уже есть в кэше. Выражается как число от 0 до 1 (например, 70% = 0.7).
  • T — среднее количество токенов в одном запросе.
  • C — базовая стоимость одного токена (полная стоимость).
  • C_cached — стоимость одного кэшированного токена. По условию, C_cached = C / 2.

Итоговая формула расчета экономии в процентах

Это самая простая и главная формула, которая отвечает на ваш вопрос. Она не зависит от абсолютной стоимости и количества токенов, что делает ее универсальной.

Экономия (%) = ( (N - 1) / N ) * ( P_hit / 2 ) * 100%

Расшифровка формулы:

  • (N - 1) / N: Этот множитель учитывает, что первый запрос всегда оплачивается по полной стоимости и не дает экономии. Экономия возможна только на последующих N - 1 запросах. Чем больше общее количество запросов N, тем ближе этот множитель к 1, и тем меньше влияние первого "дорогого" запроса на общую экономию.
  • P_hit / 2: Эта часть показывает среднюю скидку на один повторный запрос.
    • P_hit — это доля токенов, которые мы удешевляем.
    • / 2 — это размер скидки (50%, так как цена в 2 раза ниже).

Детальный расчет (Как мы пришли к этой формуле)

Чтобы понять логику, давайте рассчитаем полную стоимость в двух сценариях: с кэшем и без него.

  1. Стоимость без кэширования (Baseline)

Здесь все просто: каждый из N запросов оплачивается по полной стоимости.

Стоимость_без_кэша = N * T * C

  1. Стоимость с кэшированием

Здесь мы разделяем стоимость на две части:

  • Стоимость первого запроса (он всегда по полной цене).
  • Стоимость последующих N - 1 запросов (они используют кэш).

Стоимость 1-го запроса = T * C

Стоимость одного последующего запроса:

  • Часть токенов берется из кэша: T * P_hit. Их стоимость: (T * P_hit) * (C / 2).
  • Часть токенов новые (не из кэша): T * (1 - P_hit). Их стоимость: (T * (1 - P_hit)) * C.
  • Итого за один повторный запрос: (T * P_hit * C / 2) + (T * (1 - P_hit) * C)

Общая стоимость с кэшем: Стоимость_с_кэшем = (Стоимость 1-го запроса) + (N - 1) * (Стоимость одного последующего запроса) Стоимость_с_кэшем = (T * C) + (N - 1) * [ (T * P_hit * C / 2) + (T * (1 - P_hit) * C) ]

  1. Расчет экономии

Абсолютная экономия (в деньгах): Экономия_абс = Стоимость_без_кэша - Стоимость_с_кэшем

Если упростить это выражение, мы получим элегантную формулу: Экономия_абс = (N - 1) * T * C * (P_hit / 2)

Процентная экономия: Экономия_% = (Экономия_абс / Стоимость_без_кэша) * 100% Экономия_% = ( (N - 1) * T * C * (P_hit / 2) ) / ( N * T * C ) * 100%

Сокращаем T и C: Экономия (%) = ( (N - 1) / N ) * ( P_hit / 2 ) * 100% Мы вернулись к нашей итоговой формуле.


Пример расчета

Предположим, у нас есть следующие данные:

  • Период жизни кэша: 1 час.
  • Количество запросов за этот час (N): 20 запросов.
  • Процент вхождения токенов (P_hit): 80% или 0.8.
  • Среднее кол-во токенов в запросе (T): 1500 токенов.
  • Базовая стоимость токена (C): $0.001.

1. Рассчитаем процент экономии (быстрый способ):

Экономия (%) = ( (20 - 1) / 20 ) * ( 0.8 / 2 ) * 100%
Экономия (%) = ( 19 / 20 ) * 0.4 * 100% Экономия (%) = 0.95 * 0.4 * 100% Экономия (%) = 38%

2. Проверим расчет через абсолютные значения (длинный способ):

  • Стоимость без кэша: 20 * 1500 * 0.001 = 30

  • Стоимость с кэшем:

    • Цена 1-го запроса: 1500 * 0.001 = 1.50
    • Цена одного из 19-ти последующих запросов:
      • Кэшированные токены: (1500 * 0.8) * (0.001/2) = $0.60
      • Новые токены: (1500 * 0.2) * 0.001 = $0.30
      • Итого за повторный запрос: 0.60+0.30 = $0.90
    • Общая стоимость с кэшем: 1.5+19*0.90 = 1.5+17.10 = $18.60
  • Абсолютная экономия: 30 - 18.60 = $11.40

  • Процентная экономия: (11.4/30) * 100% = 38%

Как видите, оба способа дают одинаковый результат.

Ключевые выводы

  1. Количество запросов (N): Экономия тем выше, чем больше запросов вы делаете в течение жизни кэша. При N=2 экономия будет небольшой, а при N=100 она приблизится к своему максимуму.
  2. Коэффициент кэширования (P_hit): Это самый мощный рычаг. Увеличение доли кэшируемых токенов напрямую и линейно увеличивает вашу экономию.
  3. Период жизни кэша: Сам по себе он не влияет на формулу, но он определяет, сколько запросов (N) вы успеете в него "уместить". Короткий кэш с большим количеством однотипных запросов может быть выгоднее, чем долгий кэш с редкими и разнородными запросами.

Вместо кэширования мы рекомендуем управлять историей диалога и формировать каждый новый запрос с учетом актуального контекста.


Могут ли заблокировать мой API ключ?

Только в случае злоупотреблений (DDoS, спам, попытки взлома) или систематического превышения лимитов без реакции на предупреждения. Для защиты от случайных ошибок мы сначала временно приостанавливаем доступ.


Я получаю ошибки при запросах. Что делать?

  1. Проверьте страницу статуса API, чтобы убедиться в отсутствии глобальных сбоев.
  2. Убедитесь, что ваш запрос полностью соответствует документации (метод, параметры, формат данных).
  3. Если проблема сохраняется, свяжитесь с нами в Telegram, предоставив как можно больше деталей: сам запрос (без секретных данных), полученный ответ с ошибкой и ID запроса.

Нужна модель, которой нет в списке. Добавите?

Да, мы постоянно расширяем список доступных моделей. Напишите нам в Telegram, укажите точное название модели и примерный объем запросов, который вам нужен. Мы рассмотрим вашу заявку. Приоритет отдается популярным моделям и запросам от активных пользователей.


Как обеспечивается низкая цена? Это легально?

Абсолютно легально. Мы не используем взломанные аккаунты или какие-либо обходные пути. Низкие цены — результат нашей работы:

  • Официальные партнерства с разработчиками AI.
  • Участие в программах поддержки и получение грантов.
  • Оптовые скидки за большие объемы запросов, которые мы агрегируем.

Будет ли веб-интерфейс (личный кабинет)?

Да, разработка личного кабинета находится в наших планах. Через него можно будет управлять ключами, просматривать статистику использования и пополнять баланс. Мы приступим к его созданию после полной стабилизации основного ядра API.


Как обеспечивается анонимность?

Анонимность и конфиденциальность ваших данных являются для нас приоритетом. Подробнее об этом можно прочитать в разделе нашей документации: Анонимность и конфиденциальность данных