В последние месяцы мы наблюдаем рывок в развитии закрытых моделей генерации изображений благодаря появлению Google Nano Banana и моделей генерации изображений от OpenAI. Сегодня мы рады сообщить, что на арену возвращается новый открытый претендент с запуском FLUX.2 [dev] от Black Forest Lab, который уже доступен для запуска на платформе инференса Cloudflare, Workers AI. Подробнее об этой новой модели можно прочитать в блоге BFL, посвящённом её запуску, здесь.
Мы были большими поклонниками моделей генерации изображений FLUX от Black Forest Lab ещё с самых ранних версий. Наша размещённая версия FLUX.1 [schnell] — одна из самых популярных моделей в нашем каталоге благодаря фотографически реалистичным результатам и высококачественной генерации. Когда появилась возможность разместить лицензионную версию их новой модели, мы с радостью её ухватились. Модель FLUX.2 берёт все лучшие черты FLUX.1 и усиливает их, создавая ещё более реалистичные, правдоподобные изображения с дополнительной поддержкой кастомизации, такой как JSON-промпты.
Наша размещённая в Workers AI версия FLUX.2 имеет определённые особенности, например, использование multipart form-data для поддержки входных изображений (до 4 изображений размером 512x512) и вывод изображений до 4 мегапикселей. Формат multipart form-data позволяет пользователям отправлять несколько входных изображений вместе с типичными параметрами модели. Ознакомьтесь с нашим анонсом в логе изменений для разработчиков, чтобы понять, как использовать модель FLUX.2.
Что делает FLUX.2 особенной? Понимание физического мира, цифровые ассеты и поддержка нескольких языков
Модель FLUX.2 обладает более глубоким пониманием физического мира, позволяя превращать абстрактные концепции в фотографическую реальность. Она преуспевает в генерации реалистичных деталей изображения и стабильно создаёт точные руки, лица, ткани, логотипы и мелкие объекты, которые часто упускаются другими моделями. Её знание физического мира также позволяет создавать естественное освещение, углы и восприятие глубины.
Рисунок 1. Изображение, сгенерированное с помощью FLUX.2, с точной передачей освещения, теней, отражений и восприятия глубины в кафе в Париже.
Такой высококачественный результат делает её идеальной для приложений, требующих превосходного качества изображения, таких как креативная фотография, съёмка товаров для электронной коммерции, маркетинговые визуалы и дизайн интерьеров. Поскольку модель понимает контекст, тон и тренды, она позволяет создавать увлекательные цифровые активы редакционного уровня из коротких промптов.
Помимо физического мира, модель также способна генерировать высококачественные цифровые активы, такие как дизайн посадочных страниц или детализированные инфографики (пример ниже). Она также естественным образом понимает несколько языков, поэтому, объединяя эти две функции, мы можем получить красивую посадочную страницу на французском по французскому промпту.
Générer une page web visuellement immersive pour un service de promenade de chiens. L'image principale doit dominer l'écran, montrant un chien exubérant courant dans un parc ensoleillé, avec des touches de vert vif (#2ECC71) intégrées subtilement dans le feuillage ou les accessoires du chien. Minimiser le texte pour un impact visuel maximal.
Согласованность персонажей — решение проблемы стохастического дрейфа
FLUX.2 предлагает многовариантное редактирование с передовой согласованностью персонажей, гарантируя, что идентичности, продукты и стили остаются неизменными для задач. В мире генеративного ИИ получить изображение высокого качества легко. Однако получить одного и того же персонажа или продукт дважды всегда было сложной задачей. Это явление известно как «стохастический дрейф» («stochastic drift»), когда сгенерированные изображения отклоняются от исходного материала.
Рисунок 2. Инфографика о стохастическом дрейфе (сгенерирована на FLUX.2)
Одним из прорывов FLUX.2 является поддержка нескольких референсных изображений, призванная решить эту проблему согласованности. У вас появится возможность изменить фон, освещение или позу на изображении, случайно не меняя лицо модели или дизайн вашего продукта. Вы также можете ссылаться на другие изображения или комбинировать несколько изображений для создания чего-то нового.
В коде Workers AI поддерживает несколько референсных изображений (до 4) с загрузкой через multipart form-data. Входные изображения представляют собой двоичные данные, а выходное изображение кодируется в base64:
curl --request POST
--url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT}/ai/run/@cf/black-forest-labs/flux-2-dev'
--header 'Authorization: Bearer {TOKEN}'
--header 'Content-Type: multipart/form-data'
--form 'prompt=take the subject of image 2 and style it like image 1'
--form input_image_0=@/Users/johndoe/Desktop/icedoutkeanu.png
--form input_image_1=@/Users/johndoe/Desktop/me.png
--form steps=25
--form width=1024
--form height=1024
Мы также поддерживаем это через привязку Workers AI Binding:
const image = await fetch("http://image-url");
const form = new FormData();
const image_blob = await streamToBlob(image.body, "image/png");
form.append('input_image_0', image_blob)
form.append('prompt', 'a sunset with the dog in the original image')
const resp = await env.AI.run("@cf/black-forest-labs/flux-2-dev", {
multipart: {
body: form,
contentType: "multipart/form-data"
}
})
Создана для реальных сценариев использования
Новейшая модель генерации изображений знаменует сдвиг в сторону функциональных бизнес-кейсов, выходящих за рамки простого улучшения качества картинки. FLUX.2 позволяет вам:
-
Создавать вариации рекламы: Генерировать 50 различных рекламных объявлений с одним и тем же актёром, не допуская искажения его лица между кадрами.
-
Доверять снимкам продукта: Разместите ваш продукт на модели, на фоне пляжа, городской улицы или студийного стола. Окружение меняется, но ваш продукт остаётся точным.
-
Создавать динамичные редакционные материалы: Произвести полную фэшн-съёмку, где модель выглядит идентично на каждом кадре, независимо от ракурса.
Рисунок 3. Объединение рекламного фото с оверсайз-худи и спортивными штанами (сгенерированного с помощью FLUX.2) с логотипом Cloudflare для создания визуализаций продукта с согласованными лицами, тканями и сценами. **Примечание: мы также запросили белый шрифт Cloudflare вместо исходного чёрного.
Детальный контроль — JSON-промпты, HEX-коды и многое другое!
Модель FLUX.2 делает ещё один шаг вперёд, позволяя пользователям контролировать мелкие детали на изображениях с помощью таких инструментов, как JSON-промпты и указание конкретных hex-кодов.
Например, вы можете отправить этот JSON как промпт (как часть multipart form-запроса), и итоговое изображение будет точно следовать инструкциям:
{
"scene": "A bustling, neon-lit futuristic street market on an alien planet, rain slicking the metal ground",
"subjects": [
{
"type": "Cyberpunk bounty hunter",
"description": "Female, wearing black matte armor with glowing blue trim, holding a deactivated energy rifle, helmet under her arm, rain dripping off her synthetic hair",
"pose": "Standing with a casual but watchful stance, leaning slightly against a glowing vendor stall",
"position": "foreground"
},
{
"type": "Merchant bot",
"description": "Small, rusted, three-legged drone with multiple blinking red optical sensors, selling glowing synthetic fruit from a tray attached to its chassis",
"pose": "Hovering slightly, offering an item to the viewer",
"position": "midground"
}
],
"style": "noir sci-fi digital painting",
"color_palette": [
"deep indigo",
"electric blue",
"acid green"
],
"lighting": "Low-key, dramatic, with primary light sources coming from neon signs and street lamps reflecting off wet surfaces",
"mood": "Gritty, tense, and atmospheric",
"background": "Towering, dark skyscrapers disappearing into the fog, with advertisements scrolling across their surfaces, flying vehicles (spinners) visible in the distance",
"composition": "dynamic off-center",
"camera": {
"angle": "eye level",
"distance": "medium close-up",
"focus": "sharp on subject",
"lens": "35mm",
"f-number": "f/1.4",
"ISO": 400
},
"effects": [
"heavy rain effect",
"subtle film grain",
"neon light reflections",
"mild chromatic aberration"
]
}
Чтобы продвинуться дальше, мы можем попросить модель перекрасить акцентное освещение в оранжевый цвет Cloudflare, указав конкретный hex-код, например #F48120.
Попробуйте уже сегодня!
Новейшая модель FLUX.2 [dev] теперь доступна в Workers AI — вы можете начать работать с моделью через нашу документацию для разработчиков или протестировать её в нашем мультимодальном playground.