Введение: Что такое FLUX.1 и почему это важно

Black Forest Labs, основанная бывшими сотрудниками Stability AI, официально представила модель FLUX.1 1 августа 2024 года. Это событие стало поворотным моментом в индустрии генеративного искусственного интеллекта, так как модель предлагает открытый исходный код без ограничений коммерческой лицензии для версии [schnell]. В отличие от многих конкурентов, которые скрывают архитектуру, FLUX.1 позволяет сообществу разработчиков изучать и улучшать модель.

Эта модель важна для инженеров, так как она демонстрирует, что open-source решения могут конкурировать с закрытыми продуктами вроде Midjourney или DALL-E 3. Качество изображений, генерируемых FLUX.1, уже показало превосходство в бенчмарках, особенно в области точного следования промптам и рендеринга текста на картинках.

Ключевым фактором успеха стала стратегия компании по привлечению инвестиций и открытости. Стартап собрал 300 миллионов долларов на Series B, что подтверждает интерес рынка к их технологиям.

Основатели: Бывшие сотрудники Stability AI
Дата релиза: 01.08.2024
Открытый исходный код: Да (Apache 2.0 для [schnell])

Ключевые особенности и архитектура

FLUX.1 использует архитектуру rectified flow transformer с 12 миллиардами параметров. Это обеспечивает высокую вычислительную мощность при генерации детализированных изображений. Компания внедрила новую технику Self-Flow, которая позволяет обучать мультимодальные модели на 2.8 раза более эффективно по сравнению с традиционными диффузионными подходами.

Модель разделена на две основные версии: FLUX.1 [schnell] и FLUX.1 [dev]. Версия [schnell] доступна под лицензией Apache 2.0, что делает её полностью коммерчески безопасной для использования в продуктах. Версия [dev] предназначена для разработчиков и имеет ограничения на коммерческое использование.

Архитектура оптимизирована для контекста и точности. В отличие от моделей, зависящих от внешних энкодеров типа CLIP, FLUX.1 использует внутренние механизмы для понимания промптов, что снижает задержки и улучшает согласованность.

Параметры: 12B (Rectified Flow)
Технология: Self-Flow Technique
Лицензия: Apache 2.0 ([schnell])

Производительность и бенчмарки

В тестах FLUX.1 продемонстрировал способность превосходить закрытые аналоги в генерации изображений высокого разрешения. По сравнению с Midjourney v6, модель показывает лучшую точность в следовании сложным инструкциям и рендеринг текста внутри изображения. Это критически важно для дизайнерских приложений и креативной индустрии.

FLUX.1: Новая эра генерации изображений от Black Forest Labs

Введение: Что такое FLUX.1 и почему это важно

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование и доступность

Сравнительная таблица моделей

Сценарии использования

Начало работы с FLUX.1

Comparison

Sources