Introducción

Black Forest Labs ha revolucionado el ecosistema de IA generativa con el lanzamiento de FLUX.1 el 1 de agosto de 2024. Fundado por ex-miembros de Stability AI, este nuevo modelo busca democratizar la creación de imágenes de alta fidelidad sin depender de servicios cerrados. La industria ha estado esperando un competidor abierto que pueda rivalizar con la calidad artística de Midjourney y la precisión de DALL-E 3, y FLUX.1 responde a esa necesidad con una arquitectura robusta y una licencia flexible.

La importancia de este modelo radica en su capacidad para interpretar instrucciones complejas y generar texturas realistas, lo cual es crucial para desarrolladores que construyen aplicaciones creativas. A diferencia de modelos anteriores que requerían hardware especializado para inferencia, FLUX.1 está optimizado para ser desplegado en entornos estándar, permitiendo a las empresas mantener el control sobre sus datos y costos de infraestructura.

Lanzado el 2024-08-01 por Black Forest Labs.
Desarrollado por ex-fundadores de Stability AI.
Enfoque en open source y transparencia de pesos.
Arquitectura Transformer con flujo rectificado.

Características Clave y Arquitectura

FLUX.1 se basa en una arquitectura de Transformer de 12 mil millones de parámetros, utilizando una técnica de flujo rectificado (Rectified Flow) que mejora significativamente la coherencia espacial. Esta estructura permite que el modelo genere imágenes con una mayor consistencia en los detalles finos, superando las limitaciones de los modelos de difusión tradicionales que dependen de codificadores externos como CLIP. La eficiencia en el entrenamiento ha sido mejorada mediante la técnica Self-Flow, logrando una eficiencia 2.8 veces mayor en modelos multimodales.

El modelo se divide en variantes específicas para diferentes necesidades de licencia y velocidad. FLUX.1 [schnell] está disponible bajo la licencia Apache 2.0, permitiendo uso comercial sin restricciones, mientras que FLUX.1 [dev] está restringido a uso no comercial. Esta distinción es vital para los ingenieros que deciden entre integración comercial y experimentación privada. Además, el modelo soporta ventanas de contexto extensas para prompts de texto largos, facilitando la descripción de escenas complejas.

12B parámetros (12,000,000,000).
Arquitectura: Transformer con Rectified Flow.
FLUX.1 [schnell]: Licencia Apache 2.0.
FLUX.1 [dev]: Uso no comercial.
Ventana de contexto optimizada para prompts largos.

FLUX.1: El Nuevo Estándar de Generación de Imágenes Abiertas

Introducción

Características Clave y Arquitectura

Rendimiento y Benchmarks

Precios y API

Tabla de Comparación

Casos de Uso

Cómo Empezar

Comparison

Sources