Introducción: Un cambio de paradigma en el Open-Source

El 4 de junio de 2026 marcará un antes y un después en la historia de la inteligencia artificial generativa. NVIDIA ha lanzado Nemotron 3 Ultra, un modelo de pesos abiertos que no solo busca competir con los gigantes cerrados, sino que establece un nuevo estándar de eficiencia y capacidad para la comunidad de desarrolladores.

Este lanzamiento no es simplemente una actualización incremental; es un hito histórico. Al liberar no solo los pesos, sino también los datos de entrenamiento (incluyendo 173B de tokens de código y datos legales especializados) y las recetas de entrenamiento, NVIDIA está democratizando el acceso a la tecnología de frontera, permitiendo que ingenieros de todo el mundo construyan sobre una base de confianza y transparencia absoluta.

Lanzamiento oficial: 4 de junio de 2026
Naturaleza: Modelo Open-Source bajo licencia OpenMDW 1.1
Impacto: El modelo de pesos abiertos más inteligente de EE. UU.

Arquitectura de Vanguardia: Mamba, MoE y LatentMoE

Lo que hace que Nemotron 3 Ultra sea verdaderamente excepcional es su arquitectura híbrida. A diferencia de los modelos tradicionales basados únicamente en Transformer, NVIDIA ha implementado una combinación de Mamba y Attention. Esta estructura permite gestionar secuencias extremadamente largas con una eficiencia computacional que los modelos puramente autoregresivos no pueden alcanzar.

El modelo utiliza una arquitectura Mixture-of-Experts (MoE) con un total de 550 mil millones de parámetros, de los cuales solo 55 mil millones están activos durante la inferencia. Para optimizar este proceso, se ha introducido LatentMoE, un mecanismo de enrutamiento de expertos mejorado que asegura que cada token sea procesado por la subred más capacitada, minimizando la latencia y maximizando la precisión.

Parámetros totales: 550B (MoE)
Parámetros activos: 55B
Arquitectura: Híbrida Mamba-Attention con LatentMoE
Capas de Multi-Token Prediction (MTP) para speculative decoding nativo

Rendimiento y Benchmarks: Superando la Frontera

Los números hablan por sí solos. En términos de throughput (rendimiento de inferencia), Nemotron 3 Ultra ha demostrado una superioridad aplastante. En configuraciones de 8k y 64k tokens, el modelo supera a competidores clave como GLM-5.1 (5.9x más rápido), Kimi-K2.6 (4.8x más rápido) y Qwen-3.5 (1.6x más rápido).

Además, su capacidad de contexto es masiva. Con soporte para hasta 1 millón de tokens, el modelo ha superado el estado del arte en el benchmark RULER para contextos de 1M. Esta capacidad permite procesar libros enteros, bases de código completas o extensos documentos legales en una sola ventana de contexto sin perder la coherencia o la atención.

Nemotron 3 Ultra: El Nuevo Hito de NVIDIA en la Era de los Modelos Open-Source

Introducción: Un cambio de paradigma en el Open-Source

Arquitectura de Vanguardia: Mamba, MoE y LatentMoE

Rendimiento y Benchmarks: Superando la Frontera

Optimización de Hardware y Precisión NVFP4

Casos de Uso: De la Programación a los Agentes Autónomos

Precios de la API y Disponibilidad

Cómo empezar

Sources