Введение: Почему Nemotron Ultra меняет индустрию

18 марта 2025 года NVIDIA официально анонсировала выход Nemotron Ultra — нового лидера в категории reasoning models. Это не просто очередное обновление, а фундаментальный сдвиг в подходе к открытым моделям. В отличие от закрытых аналогов, Nemotron Ultra предоставляет полный доступ к весам модели, что позволяет исследователям и инженерам самостоятельно настраивать и улучшать алгоритмы.

Модель построена на базе архитектуры Llama, но с кардинально увеличенным масштабом. Ключевая особенность заключается в использовании Mixture of Experts (MoE) с 253 миллиардами параметров, что обеспечивает высокую вычислительную мощность без пропорционального роста задержек при инференсе. Для разработчиков это означает возможность решения задач, ранее недоступных для локальных систем, включая сложное математическое доказательство и генерацию многошагового кода.

Дата выпуска: 18 марта 2025 года
Лицензия: Open Source
Базовая архитектура: Llama-derivatives
Тип: Reasoning Model

Архитектура и ключевые особенности

Nemotron Ultra использует гибридную MoE-архитектуру, где активация экспертов происходит динамически в зависимости от запроса. Это позволяет модели обрабатывать контекст объемом до 256k токенов с высокой эффективностью. Несмотря на общий размер 253B параметров, активная подсеть оптимизирована для быстрого вывода, что критично для enterprise-приложений.

Модель поддерживает нативную работу с мультимодальными данными, хотя основной фокус сделан на текстовом reasoning. NVIDIA применила передовые методы пост-обучения (post-training), которые были открыты вместе с весами модели. Это позволяет инженерам репродуцировать результаты на своих GPU кластерах, используя стандартные библиотеки NVIDIA AI Enterprise.

Параметры: 253B (MoE)
Контекстное окно: 256k токенов
Активные параметры: ~30B (динамически)
Поддержка: NVIDIA Blackwell GPU

Производительность и бенчмарки

На тестировании Nemotron Ultra продемонстрировал результаты, превосходящие предыдущие версии Nemotron-Cascade 2. На бенчмарке MMLU модель набрала 89.2%, что ставит её в топ-5 среди открытых моделей. В задачах HumanEval по генерации кода результат составил 92.5%, а на SWE-bench — 85.7%. Эти цифры подтверждают гипотезу о том, что MoE-архитектура эффективнее плотных моделей для задач логического вывода.

Сравнение с конкурентами показывает явное преимущество в сложных цепочках рассуждений. Если стандартные LLM часто ошибаются на 3-5 шагах, Nemotron Ultra сохраняет точность до 15 шагов. Это критически важно для агентных систем, требующих автономного выполнения многоэтапных задач.

NVIDIA Nemotron Ultra: Открытый MoE-модель для сложных задач

Введение: Почему Nemotron Ultra меняет индустрию

Архитектура и ключевые особенности

Производительность и бенчмарки

Стоимость API и тарифы

Сравнение с конкурентами

Сценарии использования

Как начать работу

Comparison

Sources