Руководство по работе с моделями Nana Banana (Gemini Image)

В нашем API доступны специализированные модели семейства Nana Banana, которые позволяют генерировать изображения непосредственно в чате. Это решение объединяет мощь текстовых моделей и генеративных визуальных нейросетей.

Доступные модели

Для генерации изображений используйте следующие идентификаторы моделей (Model ID):

hydra-banana-pro - Hydra Banana Pro (на базе Gemini 3 Pro Image)
gemini-3-pro-image - Nano Banana Pro (на базе Gemini 3 Pro Image)
gemini-2.5-flash-image - Gemini 2.5 Flash Image (Nano Banana)

Как это работает

Работа с моделями генерации изображений происходит через стандартную конечную точку чата (/chat/completions). Вы отправляете текстовое описание желаемого изображения, а модель возвращает готовый результат.

Пример запроса

Отправьте POST-запрос к /chat/completions со следующим телом:

Пример запроса

{
  "model": "hydra-banana-pro",
  "messages": [
    {
      "role": "user",
      "content": "Фото неба, высокое качество. Соотношение сторон: 16:6"
    }
  ]
}

Формат ответа

В отличие от стандартных генераторов, возвращающих ссылки, наши модели возвращают изображение прямо в текстовом поле ответа, упакованное в Markdown-разметку с использованием Base64.

Пример ответа

{
  "id": "chat-id-007d4b20-7841-4a39-81b7-b70e10a10e70",
  "object": "chat.completion",
  "created": 1764077144,
  "model": "hydra-banana-pro",
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "![image](data:image/png;base64,iVBORw0KG...[сокращено]...FTkSuQmCC)"
      },
      "finish_reason": "stop",
      "index": 0
    }
  ],
  "usage": {
    "prompt_tokens": 23,
    "completion_tokens": 1172,
    "total_tokens": 1195,
    "total_time": 31.224,
    "cost_request": 2.5,
    "free_request": false
  }
}

Почему используется Base64 в Markdown?

Мы используем формат ![image](data:image/png;base64,...) в поле content для максимальной совместимости.

Универсальность: Большинство современных чат-клиентов и библиотек (например, Cherry Studio и другие) автоматически рендерят Markdown-изображения. Пользователь сразу видит картинку в чате без необходимости переходить по ссылкам.
Автономность: Изображение передается целиком внутри JSON, что исключает проблемы с "битыми" ссылками или доступом к внешним хранилищам.

Редактирование и контекст (Smart History)

Наше решение обладает встроенной интеллектуальной обработкой истории диалога. Это позволяет вам легко просить нейросеть изменить или отредактировать сгенерированное изображение.

Вам не нужно вручную парсить картинку.

Когда вы отправляете историю диалога обратно в API для следующего запроса (например: "Сделай небо более синим"), просто передайте полученный ранее ответ assistant с Base64-строкой как есть.

Как это работает под капотом: Наша система автоматически обнаруживает Markdown-изображения в истории сообщений. Перед отправкой в нейросеть мы на лету преобразуем строку ![image](data:image/... в нативный мультимодальный формат, понятный модели.

Благодаря этому модель "видит" то, что она нарисовала ранее, и может вносить правки на основе вашего нового текстового промта.

Мультимодальные запросы (Редактирование своих изображений)

Модели Nano Banana поддерживают полноценные мультимодальные запросы. Это означает, что вы можете не только генерировать картинки с нуля, но и загружать свои собственные изображения для редактирования или стилизации.

Вы можете отправить изображение (URL или Base64) вместе с текстовой инструкцией, используя стандартный формат image_url (совместимый с OpenAI Vision).

Сценарии использования:

Смена стиля (например, "Преврати это фото в аниме").
Замена деталей ("Добавь очки коту").
Описание изображения ("Добавь описание элементам в стиле инфографики").

Пример запроса на редактирование

Запрос с картинкой (Image-to-Image)

{
  "model": "hydra-banana-pro",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Сделай эту комнату в стиле киберпанк, добавь неоновое освещение."
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://example.com/my-room-photo.jpg"
          }
        }
      ]
    }
  ]
}

В ответ вы получите новое, измененное изображение в том же формате Markdown Base64.

Рекомендации по составлению промтов

Для получения наилучших результатов следуйте этим советам:

1. Управление соотношением сторон

Модели Hydra Banana Pro и Nano Banana Pro поддерживают прямое указание соотношения сторон в тексте запроса.

Просто добавьте желаемый формат в конец промта:

Соотношение сторон: 16:9
Aspect ratio: 1:1 (квадрат)
Format: 4:3
9:16 (для сторис)

Примечание: Модель Gemini 2.5 Flash Image может игнорировать этот параметр или поддерживать его менее стабильно.

2. Детализация

Чем подробнее описание, тем точнее результат.

Плохо: "Кот"
Хорошо: "Пушистый рыжий кот сидит на подоконнике, за окном идет дождь, уютная атмосфера, мягкий свет."

3. Стилистика

Указывайте стиль изображения:

Photorealistic, 4k (Фотореализм)
Oil painting style (Масло)
Cyberpunk, neon lights (Киберпанк)
Anime style (Аниме)

Примеры запросов

Пример 1 (Пейзаж):

Промт

Футуристический город на воде, закат, фиолетовые и оранжевые тона, высокая детализация. Соотношение сторон: 21:9

Пример 2 (Персонаж):

Промт

Портрет девушки в стиле киберпанк, неоновые очки, светящаяся куртка, темный фон, кинематографичное освещение. 9:16

Пример 3 (Логотип/Вектор):

Промт

Минималистичный логотип для кофейни, изображение кофейного зерна в виде сердца, векторный стиль, белый фон. 1:1