MindLab Research redefine el paradigma de los modelos de lenguaje con Macaron-V1-Preview-749B, un modelo MoL de 749B parámetros diseñado para la era de la autonomía de agentes.

El 7 de junio de 2026 marca un antes y un después en la democratización de la IA de escala masiva. MindLab Research ha lanzado Macaron-V1-Preview-749B, un modelo que no solo compite en capacidad bruta, sino que introduce una arquitectura radicalmente nueva: Mixture-of-LoRA (MoL). A diferencia de los modelos Mixture-of-Experts (MoE) tradicionales, Macaron utiliza una estructura de adaptadores especializados que permiten una versatilidad sin precedentes.
Este lanzamiento no es solo un nuevo modelo; es un ecosistema completo. Al ser un modelo 'model-and-harness', Macaron viene diseñado para trabajar en perfecta sincronía con protocolos de agentes, permitiendo que la transición entre tareas generales y tareas altamente especializadas (como el código o la generación de UI) sea fluida, determinista y, sobre todo, ejecutable en entornos de producción reales.
La arquitectura de Macaron-V1-Preview-749B es una obra maestra de la ingeniería de parámetros. Se basa en un núcleo masivo de 744B parámetros (el modelo GLM-5.1 congelado) al que se le integran 5 adaptadores LoRA especializados de aproximadamente 1B de parámetros cada uno. Esta configuración permite que el modelo mantenga un conocimiento base vasto mientras activa capacidades ultra-específicas mediante un enrutador inteligente.
El sistema de enrutamiento no es una caja negra. A través de la herramienta `change_model`, el modelo puede exponer su propia selección de experto como una llamada a herramienta (tool call) estándar. Esto significa que los desarrolladores pueden depurar exactamente por qué el modelo decidió cambiar de un modo de chat general a un modo de programación, garantizando una observabilidad total compatible con servidores vLLM en modo OpenAI.
La verdadera magia de Macaron reside en la especialización de sus adaptadores. Cada uno ha sido entrenado para dominar un dominio específico, evitando la degradación de capacidades que suele ocurrir cuando un único modelo intenta ser bueno en todo.
Desde la gestión de la vida personal hasta la generación de interfaces de usuario dinámicas, la segmentación de tareas permite una eficiencia computacional y una precisión lógica que los modelos monolíticos simplemente no pueden alcanzar.
Para evaluar un modelo de agentes, los benchmarks tradicionales como MMLU son insuficientes. MindLab ha introducido el 'Macaron LivingBench', un benchmark dinámico que simula entornos con ruido, cambios en el entorno y simulación de usuarios reales. Esto permite medir la resiliencia del agente en situaciones de la vida real, no solo en exámenes estáticos.
En el ámbito de la interfaz de usuario, el modelo destaca con una latencia de primer token (TPOT) de apenas 3ms en escenarios interactivos gracias a la colaboración con TileRT. Además, el protocolo A2UI asegura que la construcción de tareas y la experiencia de usuario sean consistentes, validado por el benchmark A2UI-Bench.
Macaron no es un modelo estático; posee capacidades de auto-evolución. Mediante un bucle de 'AutoResearch + Context Learning', el modelo es capaz de mejorar sus propios prompts y scaffolds, para luego destilar esas trayectorias mejoradas de nuevo en sus parámetros. Es un ciclo de aprendizaje continuo que reduce la intervención humana en el refinamiento de prompts.
Todo esto es posible gracias a MindForge, el framework de entrenamiento de RL (Aprendizaje por Refuerzo) que integra el 'harness' de producción directamente en el bucle de entrenamiento. Esto garantiza que lo que se entrena sea exactamente lo que se ejecuta en producción, eliminando el gap de entrenamiento-despliegue.
Debido a su arquitectura de agentes, Macaron es ideal para aplicaciones que requieren autonomía y cambio de contexto constante. No es solo un chatbot; es un motor de ejecución de tareas.
Los desarrolladores pueden utilizarlo para construir asistentes personales que gestionen calendarios (L1), ingenieros de software autónomos que escriban y prueben código (L2), o interfaces de software que se reconfiguran visualmente en tiempo real según la necesidad del usuario (L3).
El modelo ya está disponible para la comunidad a través de Hugging Face bajo una licencia MIT. Se puede encontrar en un único repositorio donde la base reside en la raíz y los adaptadores se encuentran organizados en carpetas l0/ a l4/.
Para aquellos que prefieren una experiencia de prueba rápida, MindLab ofrece una preview en vivo en su sitio oficial. Además, se espera que pronto lleguen la gestión de inferencia y el post-entrenamiento gestionado a través de la plataforma MinT.