Часто Задаваемые Вопросы (FAQ)
Поддерживается ли кэширование токенов?
Нет, кэширование токенов не поддерживается, и на это есть две важные причины:
-
Особенности нашей архитектуры. Наш сервис работает через пул аккаунтов у нескольких провайдеров для обеспечения стабильности и низких цен. Из-за этого технически почти невозможно сопоставить ваши последовательные запросы с одним и тем же аккаунтом, что необходимо для корректной работы кэша.
-
Снижение качества и отсутствие выгоды. Вопреки распространенному мнению, кэширование токенов неэффективно и может навредить качеству ответов:
- Нарушение контекста: Нейросети генерируют каждый следующий токен на основе всей предыдущей последовательности. Попытка «подставить» кэшированные части из старых запросов нарушает эту логику, что ведет к несвязным, нелогичным или повторяющимся ответам.
- Отсутствие экономии: Тарификация API-запросов учитывает общее количество токенов, обработанных моделью, включая как входящие (input), так и сгенерированные (output) токены. Важно понимать, что кэширование не уменьшает объем контекста, который анализируется моделью для генерации ответа. Его основная функция — оптимизация стоимости за счет повторного использования уже обработанных входящих токенов. Это снижает итоговую цену запроса, однако эффект может быть менее значительным, чем ожидается. Основной вклад в стоимость вносят сгенерированные токены, поскольку их тарификация, как правило, выше. Кроме того, следует учитывать, что за использование кэша может взиматься отдельная плата, а срок его хранения ограничен.
Пример расчета кэша
Основные переменные
Для начала определим переменные, которые будем использовать в расчетах:
- N — общее количество запросов за период жизни кэша.
- P_hit — процент вхождения токенов (коэффициент кэширования). Это доля токенов в повторных запросах, которые уже есть в кэше. Выражается как число от 0 до 1 (например, 70% = 0.7).
- T — среднее количество токенов в одном запросе.
- C — базовая стоимость одного токена (полная стоимость).
- C_cached — стоимость одного кэшированного токена. По условию,
C_cached = C / 2
.
Итоговая формула расчета экономии в процентах
Это самая простая и главная формула, которая отвечает на ваш вопрос. Она не зависит от абсолютной стоимости и количества токенов, что делает ее универсальной.
Экономия (%) = ( (N - 1) / N ) * ( P_hit / 2 ) * 100%
Расшифровка формулы:
- (N - 1) / N: Этот множитель учитывает, что первый запрос всегда оплачивается по полной стоимости и не дает экономии. Экономия возможна только на последующих
N - 1
запросах. Чем больше общее количество запросовN
, тем ближе этот множитель к 1, и тем меньше влияние первого "дорогого" запроса на общую экономию. - P_hit / 2: Эта часть показывает среднюю скидку на один повторный запрос.
P_hit
— это доля токенов, которые мы удешевляем./ 2
— это размер скидки (50%, так как цена в 2 раза ниже).
Детальный расчет (Как мы пришли к этой формуле)
Чтобы понять логику, давайте рассчитаем полную стоимость в двух сценариях: с кэшем и без него.
- Стоимость без кэширования (Baseline)
Здесь все просто: каждый из N запросов оплачивается по полной стоимости.
Стоимость_без_кэша = N * T * C
- Стоимость с кэшированием
Здесь мы разделяем стоимость на две части:
- Стоимость первого запроса (он всегда по полной цене).
- Стоимость последующих
N - 1
запросов (они используют кэш).
Стоимость 1-го запроса = T * C
Стоимость одного последующего запроса:
- Часть токенов берется из кэша:
T * P_hit
. Их стоимость:(T * P_hit) * (C / 2)
. - Часть токенов новые (не из кэша):
T * (1 - P_hit)
. Их стоимость:(T * (1 - P_hit)) * C
. - Итого за один повторный запрос:
(T * P_hit * C / 2) + (T * (1 - P_hit) * C)
Общая стоимость с кэшем: Стоимость_с_кэшем = (Стоимость 1-го запроса) + (N - 1) * (Стоимость одного последующего запроса) Стоимость_с_кэшем = (T * C) + (N - 1) * [ (T * P_hit * C / 2) + (T * (1 - P_hit) * C) ]
- Расчет экономии
Абсолютная экономия (в деньгах): Экономия_абс = Стоимость_без_кэша - Стоимость_с_кэшем
Если упростить это выражение, мы получим элегантную формулу: Экономия_абс = (N - 1) * T * C * (P_hit / 2)
Процентная экономия: Экономия_% = (Экономия_абс / Стоимость_без_кэша) * 100% Экономия_% = ( (N - 1) * T * C * (P_hit / 2) ) / ( N * T * C ) * 100%
Сокращаем T
и C
: Экономия (%) = ( (N - 1) / N ) * ( P_hit / 2 ) * 100%
Мы вернулись к нашей итоговой формуле.
Пример расчета
Предположим, у нас есть следующие данные:
- Период жизни кэша: 1 час.
- Количество запросов за этот час (N): 20 запросов.
- Процент вхождения токенов (P_hit): 80% или 0.8.
- Среднее кол-во токенов в запросе (T): 1500 токенов.
- Базовая стоимость токена (C): $0.001.
1. Рассчитаем процент экономии (быстрый способ):
Экономия (%) = ( (20 - 1) / 20 ) * ( 0.8 / 2 ) * 100%
Экономия (%) = ( 19 / 20 ) * 0.4 * 100%
Экономия (%) = 0.95 * 0.4 * 100% Экономия (%) = 38%
2. Проверим расчет через абсолютные значения (длинный способ):
-
Стоимость без кэша: 20 * 1500 * 0.001 = 30
-
Стоимость с кэшем:
- Цена 1-го запроса: 1500 * 0.001 = 1.50
- Цена одного из 19-ти последующих запросов:
- Кэшированные токены: (1500 * 0.8) * (0.001/2) = $0.60
- Новые токены: (1500 * 0.2) * 0.001 = $0.30
- Итого за повторный запрос: 0.60+0.30 = $0.90
- Общая стоимость с кэшем: 1.5+19*0.90 = 1.5+17.10 = $18.60
-
Абсолютная экономия: 30 - 18.60 = $11.40
-
Процентная экономия: (11.4/30) * 100% = 38%
Как видите, оба способа дают одинаковый результат.
Ключевые выводы
- Количество запросов (N): Экономия тем выше, чем больше запросов вы делаете в течение жизни кэша. При
N=2
экономия будет небольшой, а приN=100
она приблизится к своему максимуму. - Коэффициент кэширования (P_hit): Это самый мощный рычаг. Увеличение доли кэшируемых токенов напрямую и линейно увеличивает вашу экономию.
- Период жизни кэша: Сам по себе он не влияет на формулу, но он определяет, сколько запросов (
N
) вы успеете в него "уместить". Короткий кэш с большим количеством однотипных запросов может быть выгоднее, чем долгий кэш с редкими и разнородными запросами.
Вместо кэширования мы рекомендуем управлять историей диалога и формировать каждый новый запрос с учетом актуального контекста.
Могут ли заблокировать мой API ключ?
Только в случае злоупотреблений (DDoS, спам, попытки взлома) или систематического превышения лимитов без реакции на предупреждения. Для защиты от случайных ошибок мы сначала временно приостанавливаем доступ.
Я получаю ошибки при запросах. Что делать?
- Проверьте страницу статуса API, чтобы убедиться в отсутствии глобальных сбоев.
- Убедитесь, что ваш запрос полностью соответствует документации (метод, параметры, формат данных).
- Если проблема сохраняется, свяжитесь с нами в Telegram, предоставив как можно больше деталей: сам запрос (без секретных данных), полученный ответ с ошибкой и ID запроса.
Нужна модель, которой нет в списке. Добавите?
Да, мы постоянно расширяем список доступных моделей. Напишите нам в Telegram, укажите точное название модели и примерный объем запросов, который вам нужен. Мы рассмотрим вашу заявку. Приоритет отдается популярным моделям и запросам от активных пользователей.
Как обеспечивается низкая цена? Это легально?
Абсолютно легально. Мы не используем взломанные аккаунты или какие-либо обходные пути. Низкие цены — результат нашей работы:
- Официальные партнерства с разработчиками AI.
- Участие в программах поддержки и получение грантов.
- Оптовые скидки за большие объемы запросов, которые мы агрегируем.
Будет ли веб-интерфейс (личный кабинет)?
Да, разработка личного кабинета находится в наших планах. Через него можно будет управлять ключами, просматривать статистику использования и пополнять баланс. Мы приступим к его созданию после полной стабилизации основного ядра API.
Как обеспечивается анонимность?
Анонимность и конфиденциальность ваших данных являются для нас приоритетом. Подробнее об этом можно прочитать в разделе нашей документации: Анонимность и конфиденциальность данных