NVIDIA Nemotron 3 Ultra: Новая эра открытых LLM и архитектурный прорыв

NVIDIA выпускает Nemotron 3 Ultra — флагманскую open-source модель с 550B параметрами, которая меняет правила игры в области агентских задач и производительности.

4 июня 2026 г.

Model ReleaseNemotron 3 Ultra

Введение: Исторический момент для Open Source AI

4 июня 2026 года NVIDIA совершила то, что многие считали невозможным: компания выпустила Nemotron 3 Ultra, модель, которая не просто догоняет проприетарные системы, а устанавливает новый стандарт для открытых весов. Это не просто очередное обновление линейки Nemotron; это знаковый релиз, который стирает грань между закрытыми SOTA-моделями и открытым сообществом.

С выходом Nemotron 3 Ultra NVIDIA демонстрирует свою стратегию доминирования не только в железе, но и в программном стеке. Модель представляет собой мощнейший инструмент для разработчиков, предлагая беспрецедентную точность в сложных рассуждениях и агентских сценариях, при этом оставаясь доступной для развертывания on-premise или в облаке через NVIDIA NIM.

Дата релиза: 4 июня 2026 года
Тип: Open-source (лицензия OpenMDW 1.1)
Статус: Исторический веха в развитии открытых моделей

Архитектура: Гибрид Mamba-Attention и LatentMoE

В основе Nemotron 3 Ultra лежит революционная архитектура, сочетающая в себе лучшее от двух миров: механизмы внимания (Attention) и линейные рекуррентные модели (Mamba). Эта гибридная структура позволяет модели эффективно обрабатывать сверхдлинные контексты, не страдая от квадратичной сложности классического трансформера.

Для оптимизации маршрутизации экспертов используется инновационный механизм LatentMoE. В то время как общая архитектура насчитывает 550 миллиардов параметров, благодаря Mixture-of-Experts (MoE) в каждый момент времени активны только 55 миллиардов. Это обеспечивает колоссальную мощь при сохранении высокой скорости вычислений.

Дополнительным ускорителем выступают слои Multi-Token Prediction (MTP). Они позволяют реализовать нативную спекулятивную дешифровку (speculative decoding), что радикально увеличивает скорость инференса, предсказывая несколько токенов за один проход.

Общее количество параметров: 550B
Активные параметры: 55B (MoE)
Архитектура: Hybrid Mamba-Attention с LatentMoE
Технология ускорения: Multi-Token Prediction (MTP)

Производительность и бенчмарки: Превосходство в цифрах

Nemotron 3 Ultra демонстрирует невероятную эффективность инференса. По сравнению с конкурентами, модель показывает колоссальный отрыв в пропускной способности на различных настройках контекста. В тестах на 8k и 64k токенов Nemotron 3 Ultra превосходит GLM-5.1 в 5.9 раза, Kimi-K2.6 — в 4.8 раза, а Qwen-3.5 — в 1.6 раза.

NVIDIA Nemotron 3 Ultra: Новая эра открытых LLM и архитектурный прорыв

Введение: Исторический момент для Open Source AI

Архитектура: Гибрид Mamba-Attention и LatentMoE

Производительность и бенчмарки: Превосходство в цифрах

Экономическая эффективность и развертывание

API Pricing

Сферы применения: От кодинга до автономных агентов

Как начать работу

Sources