NVIDIA Nemotron Ultra: Открытый MoE-модель для сложных задач
NVIDIA представила Nemotron Ultra — мощный открытый MoE-модель на базе Llama с 253B параметрами. Разбираем архитектуру, бенчмарки и цены API.

Введение: Почему Nemotron Ultra меняет индустрию
18 марта 2025 года NVIDIA официально анонсировала выход Nemotron Ultra — нового лидера в категории reasoning models. Это не просто очередное обновление, а фундаментальный сдвиг в подходе к открытым моделям. В отличие от закрытых аналогов, Nemotron Ultra предоставляет полный доступ к весам модели, что позволяет исследователям и инженерам самостоятельно настраивать и улучшать алгоритмы.
Модель построена на базе архитектуры Llama, но с кардинально увеличенным масштабом. Ключевая особенность заключается в использовании Mixture of Experts (MoE) с 253 миллиардами параметров, что обеспечивает высокую вычислительную мощность без пропорционального роста задержек при инференсе. Для разработчиков это означает возможность решения задач, ранее недоступных для локальных систем, включая сложное математическое доказательство и генерацию многошагового кода.
- Дата выпуска: 18 марта 2025 года
- Лицензия: Open Source
- Базовая архитектура: Llama-derivatives
- Тип: Reasoning Model
Архитектура и ключевые особенности
Nemotron Ultra использует гибридную MoE-архитектуру, где активация экспертов происходит динамически в зависимости от запроса. Это позволяет модели обрабатывать контекст объемом до 256k токенов с высокой эффективностью. Несмотря на общий размер 253B параметров, активная подсеть оптимизирована для быстрого вывода, что критично для enterprise-приложений.
Модель поддерживает нативную работу с мультимодальными данными, хотя основной фокус сделан на текстовом reasoning. NVIDIA применила передовые методы пост-обучения (post-training), которые были открыты вместе с весами модели. Это позволяет инженерам репродуцировать результаты на своих GPU кластерах, используя стандартные библиотеки NVIDIA AI Enterprise.
- Параметры: 253B (MoE)
- Контекстное окно: 256k токенов
- Активные параметры: ~30B (динамически)
- Поддержка: NVIDIA Blackwell GPU
Производительность и бенчмарки
На тестировании Nemotron Ultra продемонстрировал результаты, превосходящие предыдущие версии Nemotron-Cascade 2. На бенчмарке MMLU модель набрала 89.2%, что ставит её в топ-5 среди открытых моделей. В задачах HumanEval по генерации кода результат составил 92.5%, а на SWE-bench — 85.7%. Эти цифры подтверждают гипотезу о том, что MoE-архитектура эффективнее плотных моделей для задач логического вывода.
Сравнение с конкурентами показывает явное преимущество в сложных цепочках рассуждений. Если стандартные LLM часто ошибаются на 3-5 шагах, Nemotron Ultra сохраняет точность до 15 шагов. Это критически важно для агентных систем, требующих автономного выполнения многоэтапных задач.
- MMLU: 89.2%
- HumanEval: 92.5%
- SWE-bench: 85.7%
- GSM8K: 94.1%
Стоимость API и тарифы
Для интеграции в продакшн NVIDIA предоставляет облачный API с гибким ценообразованием. Стоимость ввода составляет $0.50 за миллион токенов, что делает модель доступной для больших объемов данных. Вывод обрабатывается по ставке $1.50 за миллион токенов. При этом для разработчиков доступен бесплатный tier с лимитом 1000 запросов в день для тестирования.
Сравнивая с закрытыми аналогами, Nemotron Ultra предлагает лучшее соотношение цены и качества. Для enterprise-клиентов доступны корпоративные скидки при использовании инфраструктуры NVIDIA Blackwell. Это снижает TCO (Total Cost of Ownership) по сравнению с арендой эксклюзивных инстансов у других провайдеров.
- Ввод: $0.50 / 1M токенов
- Вывод: $1.50 / 1M токенов
- Бесплатный лимит: 1000 req/day
- Enterprise: Custom Pricing
Сравнение с конкурентами
Nemotron Ultra конкурирует с такими гигантами, как Llama 3.1 405B и Claude 3.5 Sonnet. Хотя Llama 3.1 имеет больше параметров, Nemotron Ultra превосходит её в задачах, требующих глубокого логического анализа. Claude 3.5 Sonnet остается лидером в креативном письме, но Nemotron Ultra быстрее в математических вычислениях благодаря оптимизированной MoE-структуре.
Таблица ниже демонстрирует ключевые различия. Важно отметить, что Nemotron Ultra предлагает самый большой контекст среди открытых моделей, что позволяет загружать целые репозитории кода для анализа без потери качества.
- Лучший баланс цены и качества
- Открытая архитектура для исследований
- Оптимизация для Blackwell GPU
Сценарии использования
Основное назначение модели — автоматизация сложных инженерных задач. Она идеально подходит для автоматического ревью кода, где требуется не только синтаксическая проверка, но и понимание архитектуры системы. Инженеры могут использовать модель для генерации тестовых кейсов на основе спецификаций.
В сфере образования и науки модель применяется для решения олимпиадных задач по математике и физике. Благодаря открытому исходному коду, исследователи могут использовать Nemotron Ultra для обучения специализированных агентов, которые работают в закрытых корпоративных сетях.
- Автоматическое ревью кода
- Решение математических задач (IMO, IOI)
- Генерация документации
- RAG-системы с большим контекстом
Как начать работу
Доступ к модели осуществляется через API или загрузку весов на Hugging Face. Для локального запуска рекомендуется использовать Docker-образы NVIDIA NGC. В SDK предоставляются готовые примеры для Python, включая интеграцию с LangChain и LlamaIndex.
Регистрация в облачном аккаунте NVIDIA Cloud займет не более 5 минут. После получения API ключа можно сразу начать тестирование. Документация содержит подробные руководства по оптимизации инференса на GPU Blackwell.
- Платформа: NVIDIA Cloud / Hugging Face
- SDK: Python, JavaScript
- Документация: docs.nvidia.com
- Контейнеры: NVIDIA NGC
Comparison
Model: Nemotron Ultra | Context: 256k | Max Output: 128k | Input $/M: $0.50 | Output $/M: $1.50 | Strength: Reasoning & Math
Model: Llama 3.1 405B | Context: 128k | Max Output: 64k | Input $/M: $0.30 | Output $/M: $0.90 | Strength: General Purpose
Model: Claude 3.5 Sonnet | Context: 200k | Max Output: 128k | Input $/M: $3.00 | Output $/M: $15.00 | Strength: Coding & Agents
Model: Gemini 2.0 Pro | Context: 2M | Max Output: 2M | Input $/M: $0.25 | Output $/M: $1.00 | Strength: Multimodal
API Pricing — Input: $0.50 / Output: $1.50 / Context: 256k