NVIDIA redefine el panorama de la IA con Nemotron 3 Ultra, un modelo de 550B parámetros que combina arquitectura híbrida Mamba-Attention para un rendimiento sin precedentes.

El 4 de junio de 2026 marcará un antes y un después en la historia de la inteligencia artificial generativa. NVIDIA ha lanzado Nemotron 3 Ultra, un modelo de pesos abiertos que no solo busca competir con los gigantes cerrados, sino que establece un nuevo estándar de eficiencia y capacidad para la comunidad de desarrolladores.
Este lanzamiento no es simplemente una actualización incremental; es un hito histórico. Al liberar no solo los pesos, sino también los datos de entrenamiento (incluyendo 173B de tokens de código y datos legales especializados) y las recetas de entrenamiento, NVIDIA está democratizando el acceso a la tecnología de frontera, permitiendo que ingenieros de todo el mundo construyan sobre una base de confianza y transparencia absoluta.
Lo que hace que Nemotron 3 Ultra sea verdaderamente excepcional es su arquitectura híbrida. A diferencia de los modelos tradicionales basados únicamente en Transformer, NVIDIA ha implementado una combinación de Mamba y Attention. Esta estructura permite gestionar secuencias extremadamente largas con una eficiencia computacional que los modelos puramente autoregresivos no pueden alcanzar.
El modelo utiliza una arquitectura Mixture-of-Experts (MoE) con un total de 550 mil millones de parámetros, de los cuales solo 55 mil millones están activos durante la inferencia. Para optimizar este proceso, se ha introducido LatentMoE, un mecanismo de enrutamiento de expertos mejorado que asegura que cada token sea procesado por la subred más capacitada, minimizando la latencia y maximizando la precisión.
Los números hablan por sí solos. En términos de throughput (rendimiento de inferencia), Nemotron 3 Ultra ha demostrado una superioridad aplastante. En configuraciones de 8k y 64k tokens, el modelo supera a competidores clave como GLM-5.1 (5.9x más rápido), Kimi-K2.6 (4.8x más rápido) y Qwen-3.5 (1.6x más rápido).
Además, su capacidad de contexto es masiva. Con soporte para hasta 1 millón de tokens, el modelo ha superado el estado del arte en el benchmark RULER para contextos de 1M. Esta capacidad permite procesar libros enteros, bases de código completas o extensos documentos legales en una sola ventana de contexto sin perder la coherencia o la atención.
NVIDIA ha diseñado este modelo para maximizar el retorno de inversión en su propio ecosistema de hardware. Nemotron 3 Ultra ha sido preentrenado en precisión NVFP4, lo que permite un despliegue extremadamente eficiente en GPUs Hopper, Blackwell y Ampere con un único checkpoint.
Esta optimización no solo reduce la huella de memoria, sino que también permite que las tareas de agentes complejos sean hasta un 30% más económicas. El modelo está disponible en múltiples formatos (NVFP4, BF16, Base BF16 y GenRM) para adaptarse a cualquier necesidad de despliegue, desde el edge hasta la nube.
Gracias a su entrenamiento especializado con 173B de tokens de código y datos legales, Nemotron 3 Ultra es una herramienta de primer nivel para el desarrollo de software avanzado y el análisis jurídico. Su capacidad de razonamiento lógico lo posiciona como el motor ideal para sistemas de RAG (Retrieval-Augmented Generation) de gran escala.
Otro campo de aplicación crítico es el de los agentes autónomos. La arquitectura MTP (Multi-Token Prediction) permite una planificación más rápida y precisa, lo que facilita la creación de 'claws' o agentes de larga duración que pueden ejecutar tareas complejas de planificación sin degradar el rendimiento.
El modelo ofrece una relación rendimiento-precio altamente competitiva, diseñada para escalar en entornos empresariales. Con un coste de entrada significativamente bajo, permite a las empresas integrar capacidades de nivel frontier sin los presupuestos prohibitivos de los modelos cerrados.
Actualmente, el modelo ya cuenta con soporte en plataformas como Glean y puede desplegarse localmente utilizando NVIDIA NIM, ofreciendo una flexibilidad total sobre la soberanía de los datos.
Para los desarrolladores listos para implementar Nemotron 3 Ultra, el acceso es inmediato a través de NVIDIA NIM. Pueden descargar los checkpoints directamente o utilizar los endpoints de API disponibles en los principales proveedores de nube que ya han integrado el modelo.
Se recomienda comenzar con los checkpoints en formato NVFP4 si cuentan con hardware Blackwell o Hopper para obtener el máximo rendimiento de inferencia y la menor latencia posible.
API Pricing — Input: $0.37 / Output: $1.08 / Context: 1M tokens