Introduction : Un tournant historique pour l'Open Source

Le 4 juin 2026 marque un tournant décisif dans l'histoire de l'intelligence artificielle. Avec la sortie de Nemotron 3 Ultra, NVIDIA ne se contente pas de publier un nouveau modèle ; l'entreprise redéfinit les limites de ce qu'un modèle en poids ouverts (open-weights) peut accomplir face aux systèmes propriétaires les plus fermés du marché.

Ce modèle massif, conçu pour l'ère des agents autonomes, arrive à un moment où la communauté des développeurs exige à la fois une précision de niveau 'frontier' et une efficacité opérationnelle drastique. Nemotron 3 Ultra n'est pas seulement une prouesse d'ingénierie, c'est un manifeste technologique qui place la puissance de calcul de NVIDIA au service de l'écosystème open-source via la licence permissive OpenMDW 1.1.

Date de sortie : 4 juin 2026
Statut : Open-weights (Poids ouverts)
Licence : OpenMDW 1.1 (Linux Foundation)
Objectif : Performance de pointe et réduction des coûts agentiques

Architecture : L'alliance de Mamba et de l'Attention

Sous le capot, Nemotron 3 Ultra repose sur une architecture Mixture-of-Experts (MoE) sophistiquée. Avec un total de 550 milliards de paramètres, le modèle optimise ses ressources en n'activant que 55 milliards de paramètres par jeton, garantissant une efficacité de calcul exceptionnelle sans sacrifier la profondeur de connaissance.

L'innovation majeure réside dans son architecture hybride Mamba-Attention. En combinant la gestion linéaire des séquences longue durée propre à Mamba avec la précision de l'Attention classique, NVIDIA a résolu le goulot d'étranglement de la mémoire sur les contextes étendus. L'intégration de 'LatentMoE' permet un routage des experts bien plus fin, assurant que chaque tâche est traitée par le sous-réseau le plus compétent.

Architecture : Hybride Mamba-Attention avec LatentMoE
Paramètres : 550B total / 55B actifs (MoE)
Multi-Token Prediction (MTP) : Décodage spéculatif natif pour une inférence ultra-rapide
Précision : Entraîné en NVFP4 pour une compatibilité optimale sur GPU Hopper, Blackwell et Ampere

Performances et Benchmarks : Une domination technique

Les chiffres parlent d'eux-mêmes. Nemotron 3 Ultra surpasse ses concurrents directs sur des mesures de débit d'inférence critiques. En configuration de contexte de 8k et 64k jetons, il affiche un débit 5,9x supérieur à GLM-5.1, 4,8x supérieur à Kimi-K2.6, et 1,6x supérieur à Qwen-3.5.

Nemotron 3 Ultra : La Révolution Open-Source de NVIDIA qui Redéfinit l'IA de Pointe

Introduction : Un tournant historique pour l'Open Source

Architecture : L'alliance de Mamba et de l'Attention

Performances et Benchmarks : Une domination technique

Tarification API et Accessibilité

Cas d'utilisation : Du Code à l'Agentique Avancé

Comment démarrer avec Nemotron 3 Ultra

Sources