NVIDIA выпускает Nemotron 3 Ultra — флагманскую open-source модель с 550B параметрами, которая меняет правила игры в области агентских задач и производительности.

4 июня 2026 года NVIDIA совершила то, что многие считали невозможным: компания выпустила Nemotron 3 Ultra, модель, которая не просто догоняет проприетарные системы, а устанавливает новый стандарт для открытых весов. Это не просто очередное обновление линейки Nemotron; это знаковый релиз, который стирает грань между закрытыми SOTA-моделями и открытым сообществом.
С выходом Nemotron 3 Ultra NVIDIA демонстрирует свою стратегию доминирования не только в железе, но и в программном стеке. Модель представляет собой мощнейший инструмент для разработчиков, предлагая беспрецедентную точность в сложных рассуждениях и агентских сценариях, при этом оставаясь доступной для развертывания on-premise или в облаке через NVIDIA NIM.
В основе Nemotron 3 Ultra лежит революционная архитектура, сочетающая в себе лучшее от двух миров: механизмы внимания (Attention) и линейные рекуррентные модели (Mamba). Эта гибридная структура позволяет модели эффективно обрабатывать сверхдлинные контексты, не страдая от квадратичной сложности классического трансформера.
Для оптимизации маршрутизации экспертов используется инновационный механизм LatentMoE. В то время как общая архитектура насчитывает 550 миллиардов параметров, благодаря Mixture-of-Experts (MoE) в каждый момент времени активны только 55 миллиардов. Это обеспечивает колоссальную мощь при сохранении высокой скорости вычислений.
Дополнительным ускорителем выступают слои Multi-Token Prediction (MTP). Они позволяют реализовать нативную спекулятивную дешифровку (speculative decoding), что радикально увеличивает скорость инференса, предсказывая несколько токенов за один проход.
Nemotron 3 Ultra демонстрирует невероятную эффективность инференса. По сравнению с конкурентами, модель показывает колоссальный отрыв в пропускной способности на различных настройках контекста. В тестах на 8k и 64k токенов Nemotron 3 Ultra превосходит GLM-5.1 в 5.9 раза, Kimi-K2.6 — в 4.8 раза, а Qwen-3.5 — в 1.6 раза.
Особого внимания заслуживает работа с длинным контекстом. Модель поддерживает до 1 миллиона токенов и превосходит современные open-source LLM в тестах RULER на данном окне. Это делает её идеальным кандидатом для глубокого анализа документации, юридических архивов и огромных репозиториев кода.
Обучение модели включало в себя не только стандартное SFT и RL, но и уникальный метод Multi-Teacher On-Policy Distillation (MOPD), где использовалось более 10 специализированных моделей-учителей, что позволило достичь уровня точности, сопоставимого с закрытыми флагманами.
Для корпоративного сектора ключевым фактором является стоимость. Nemotron 3 Ultra снижает затраты на выполнение сложных агентских задач на 30% по сравнению с предыдущими поколениями и конкурентами. Это достигается за счет оптимизации весов и использования формата NVFP4.
Модель была предварительно обучена в точности NVFP4, что позволяет ей бесшовно работать на GPU архитектур Hopper, Blackwell и Ampere с использованием одного и того же чекпоинта. Это значительно упрощает жизненный цикл разработки и деплоя.
NVIDIA предоставляет гибкость в выборе чекпоинтов: от NVFP4 и BF16 до специализированных Base BF16 и GenRM. Развертывание возможно через NVIDIA NIM, что позволяет интегрировать модель в существующую инфраструктуру — будь то локальный сервер, облако или edge-устройства.
NVIDIA предлагает прозрачную и конкурентоспособную модель ценообразования для использования Nemotron 3 Ultra через API. Благодаря высокой пропускной способности, стоимость одного миллиона токенов остается крайне выгодной для масштабных проектов.
Ниже приведены актуальные тарифы для разработчиков. Обратите внимание на соотношение цены ввода и вывода, которое оптимизировано для сценариев с большим объемом контекста (RAG) и последующей генерацией ответов.
Благодаря огромному объему обучающих данных (включая 173 миллиарда токенов кода и специализированные юридические датасеты), модель является эталоном для задач программирования и сложного логического вывода. Она способна не просто писать код, но и понимать архитектурные паттерны.
В области AI-агентов Nemotron 3 Ultra показывает 'frontier-class' планирование. Это позволяет создавать автономных помощников, способных выполнять многошаговые задачи в корпоративных средах, таких как Glean, где модель используется для обеспечения эффективной работы с данными предприятия.
Также модель идеально подходит для задач RAG (Retrieval-Augmented Generation) благодаря поддержке миллионного контекста, что позволяет загружать целые библиотеки знаний без потери точности.
Разработчики могут получить доступ к Nemotron 3 Ultra немедленно. NVIDIA предоставляет несколько путей интеграции: через облачные платформы, локальное развертывание с помощью NVIDIA NIM или через API провайдеров, поддерживающих стандарт OpenMDW 1.1.
Для получения весов и рецептов обучения (training recipes) рекомендуется посетить официальный репозиторий NVIDIA на GitHub или использовать NVIDIA NGC. Модель полностью открыта: от весов до данных, что позволяет проводить глубокую донастройку (fine-tuning) под специфические нужды вашего бизнеса.
API Pricing — Input: $0.37 / Output: $1.08 / Context: 1M tokens