MiniMax lanza M3, el primer modelo de pesos abiertos que combina capacidades de codificación de frontera, ventana de contexto de un millón de tokens y soporte multimodal nativo.

El 1 de junio de 2026 marca un antes y un después en la historia de la inteligencia artificial. Con el lanzamiento de MiniMax-M3, la frontera entre los modelos cerrados de élite y los modelos de pesos abiertos (open-weights) se ha difuminado de manera definitiva. No estamos ante una actualización incremental, sino ante un modelo que redefine lo que la comunidad de desarrolladores puede esperar de una arquitectura abierta.
MiniMax ha logrado lo que muchos consideraban imposible: integrar razonamiento agéntico avanzado, una ventana de contexto masiva y capacidades multimodales nativas en un solo paquete accesible. Para los ingenieros de IA, esto significa que la soberanía tecnológica y el rendimiento de nivel 'frontier' finalmente pueden coexistir, permitiendo despliegues locales y personalizados sin sacrificar la potencia bruta.
El corazón de MiniMax-M3 es su arquitectura propietaria MiniMax Sparse Attention (MSA). Esta innovación técnica permite al modelo gestionar una ventana de contexto de hasta 1 millón de tokens, garantizando un mínimo de 512k tokens de alta fidelidad. A diferencia de las arquitecturas densas tradicionales, la MSA optimiza el pre-rellenado (prefilling), lo que reduce drásticamente la latencia en ciclos de agentes complejos.
Además, M3 es un modelo nativamente multimodal. Esto no significa que utilice adaptadores externos para procesar imágenes o audio, sino que su arquitectura ha sido entrenada desde el inicio para comprender diferentes modalidades de forma integrada. Esto resulta en una comprensión semántica mucho más profunda cuando se trabaja con datos mixtos, algo vital para la próxima generación de aplicaciones de IA.
Los datos de rendimiento de MiniMax-M3 son contundentes. En el benchmark BrowseComp, que evalúa la capacidad de navegación y razonamiento en entornos web, M3 alcanzó una puntuación de 83.5, superando significativamente al modelo Opus 4.7, que registró 79.3. Este logro posiciona a M3 en la cima de la jerarquía de modelos actuales.
En el ámbito de la programación y el razonamiento agéntico, el modelo brilla gracias a su capacidad de descomposición autónoma de tareas. M3 no solo escribe código, sino que puede utilizar herramientas, razonar a través de múltiples pasos y corregir errores de forma autónoma. Es, de hecho, el primer modelo abierto en alcanzar simultáneamente capacidades de codificación de frontera, contexto de un millón de tokens y soporte multimodal.
Para aquellos desarrolladores que prefieran utilizar la infraestructura de MiniMax a través de su API en lugar de un despliegue local, la estructura de precios es altamente competitiva y está diseñada para escalar con el volumen de tokens. El modelo aplica una escala de precios basada en el tamaño del contexto procesado, lo que permite optimizar costes en tareas de corto y largo alcance.
Un aspecto destacado es el sistema de 'Prompt Caching', que reduce significativamente los costes para aplicaciones que requieren contextos repetitivos, como agentes de RAG o asistentes de codificación que mantienen un repositorio entero en memoria. Esto hace que el uso de ventanas de contexto largas sea económicamente viable para entornos de producción.
Debido a su arquitectura, M3 es ideal para el desarrollo de Agentes Autónomos. Su capacidad para descomponer tareas complejas y utilizar herramientas externas lo convierte en el motor perfecto para flujos de trabajo que requieren autonomía, como la investigación automatizada o la gestión de sistemas operativos.
Otro caso de uso crítico es el RAG (Retrieval-Augmented Generation) de ultra-largo contexto. Con su ventana de 1M de tokens, los desarrolladores pueden cargar libros enteros, bases de código completas o documentación técnica extensa directamente en el prompt, eliminando la necesidad de fragmentación (chunking) agresiva y mejorando la precisión de las respuestas.
El acceso a MiniMax-M3 es inmediato tanto para usuarios de API como para aquellos que deseen experimentar con los pesos del modelo. Los desarrolladores pueden comenzar integrando el SDK oficial de MiniMax en sus aplicaciones o mediante llamadas directas a los endpoints de la API.
Para despliegues locales, se recomienda contar con hardware optimizado para aprovechar la arquitectura Sparse Attention, lo que permitirá maximizar la velocidad de inferencia y reducir la latencia en aplicaciones de tiempo real.
API Pricing — Input: $0.60 / M tokens (≤ 512k), $1.20 / M tokens (> 512k) / Output: $2.40 / M tokens (≤ 512k), $4.80 / M tokens (> 512k) / Context: 1M tokens