Découvrez Nemotron 3 Ultra, le nouveau modèle MoE de NVIDIA qui combine une architecture hybride Mamba-Attention et des performances inégalées pour les agents complexes.

Le 4 juin 2026 marque un tournant décisif dans l'histoire de l'intelligence artificielle. Avec la sortie de Nemotron 3 Ultra, NVIDIA ne se contente pas de publier un nouveau modèle ; l'entreprise redéfinit les limites de ce qu'un modèle en poids ouverts (open-weights) peut accomplir face aux systèmes propriétaires les plus fermés du marché.
Ce modèle massif, conçu pour l'ère des agents autonomes, arrive à un moment où la communauté des développeurs exige à la fois une précision de niveau 'frontier' et une efficacité opérationnelle drastique. Nemotron 3 Ultra n'est pas seulement une prouesse d'ingénierie, c'est un manifeste technologique qui place la puissance de calcul de NVIDIA au service de l'écosystème open-source via la licence permissive OpenMDW 1.1.
Sous le capot, Nemotron 3 Ultra repose sur une architecture Mixture-of-Experts (MoE) sophistiquée. Avec un total de 550 milliards de paramètres, le modèle optimise ses ressources en n'activant que 55 milliards de paramètres par jeton, garantissant une efficacité de calcul exceptionnelle sans sacrifier la profondeur de connaissance.
L'innovation majeure réside dans son architecture hybride Mamba-Attention. En combinant la gestion linéaire des séquences longue durée propre à Mamba avec la précision de l'Attention classique, NVIDIA a résolu le goulot d'étranglement de la mémoire sur les contextes étendus. L'intégration de 'LatentMoE' permet un routage des experts bien plus fin, assurant que chaque tâche est traitée par le sous-réseau le plus compétent.
Les chiffres parlent d'eux-mêmes. Nemotron 3 Ultra surpasse ses concurrents directs sur des mesures de débit d'inférence critiques. En configuration de contexte de 8k et 64k jetons, il affiche un débit 5,9x supérieur à GLM-5.1, 4,8x supérieur à Kimi-K2.6, et 1,6x supérieur à Qwen-3.5.
La gestion du contexte est également un point fort majeur. Capable de supporter jusqu'à 1 million de jetons, le modèle domine les benchmarks RULER à cette échelle, surpassant tous les autres LLM open-source actuels. Cette capacité permet des analyses documentaires massives et une mémoire de travail quasi illimitée pour les agents.
NVIDIA propose un modèle économique extrêmement compétitif, conçu pour réduire les coûts des tâches agentiques complexes de près de 30 %. L'accès est facilité par une structure de prix claire, permettant aux entreprises de scaler leurs déploiements sans craindre une explosion des coûts de jetons.
Le modèle est disponible sous plusieurs formats de checkpoints (NVFP4, BF16, Base BF16, et GenRM), offrant une flexibilité totale selon que vous déployiez sur du cloud haut de gamme ou sur des infrastructures on-premise via NVIDIA NIM.
Grâce à son entraînement spécialisé incluant 173 milliards de jetons de code et des données juridiques massives, Nemotron 3 Ultra est un outil de premier plan pour le développement logiciel et l'analyse de conformité. Sa capacité de raisonnement logique en fait un moteur idéal pour les systèmes RAG (Retrieval-Augmented Generation) de nouvelle génération.
Le véritable terrain de jeu de ce modèle est l'IA Agentique. Sa fenêtre de contexte de 1M de jetons et sa vitesse d'inférence via MTP permettent de maintenir des boucles de raisonnement longues et complexes, essentielles pour les agents qui doivent planifier, exécuter et corriger des actions de manière autonome.
Pour les ingénieurs, l'accès est immédiat. Vous pouvez tester le modèle via les endpoints API officiels ou le déployer directement sur vos clusters GPU grâce aux recettes d'entraînement et aux poids complets libérés par NVIDIA. L'intégration avec NVIDIA NIM permet une mise en production en quelques minutes.
Nous recommandons de commencer par le checkpoint NVFP4 si vous utilisez des architectures Blackwell ou Hopper pour maximiser le débit, ou le format BF16 pour une compatibilité maximale avec les architectures Ampere.
API Pricing — Input: $0.37 / Output: $1.08 / Context: 1M tokens