NVIDIA представила Nemotron Ultra — мощный открытый MoE-модель на базе Llama с 253B параметрами. Разбираем архитектуру, бенчмарки и цены API.

18 марта 2025 года NVIDIA официально анонсировала выход Nemotron Ultra — нового лидера в категории reasoning models. Это не просто очередное обновление, а фундаментальный сдвиг в подходе к открытым моделям. В отличие от закрытых аналогов, Nemotron Ultra предоставляет полный доступ к весам модели, что позволяет исследователям и инженерам самостоятельно настраивать и улучшать алгоритмы.
Модель построена на базе архитектуры Llama, но с кардинально увеличенным масштабом. Ключевая особенность заключается в использовании Mixture of Experts (MoE) с 253 миллиардами параметров, что обеспечивает высокую вычислительную мощность без пропорционального роста задержек при инференсе. Для разработчиков это означает возможность решения задач, ранее недоступных для локальных систем, включая сложное математическое доказательство и генерацию многошагового кода.
Nemotron Ultra использует гибридную MoE-архитектуру, где активация экспертов происходит динамически в зависимости от запроса. Это позволяет модели обрабатывать контекст объемом до 256k токенов с высокой эффективностью. Несмотря на общий размер 253B параметров, активная подсеть оптимизирована для быстрого вывода, что критично для enterprise-приложений.
Модель поддерживает нативную работу с мультимодальными данными, хотя основной фокус сделан на текстовом reasoning. NVIDIA применила передовые методы пост-обучения (post-training), которые были открыты вместе с весами модели. Это позволяет инженерам репродуцировать результаты на своих GPU кластерах, используя стандартные библиотеки NVIDIA AI Enterprise.
На тестировании Nemotron Ultra продемонстрировал результаты, превосходящие предыдущие версии Nemotron-Cascade 2. На бенчмарке MMLU модель набрала 89.2%, что ставит её в топ-5 среди открытых моделей. В задачах HumanEval по генерации кода результат составил 92.5%, а на SWE-bench — 85.7%. Эти цифры подтверждают гипотезу о том, что MoE-архитектура эффективнее плотных моделей для задач логического вывода.
Сравнение с конкурентами показывает явное преимущество в сложных цепочках рассуждений. Если стандартные LLM часто ошибаются на 3-5 шагах, Nemotron Ultra сохраняет точность до 15 шагов. Это критически важно для агентных систем, требующих автономного выполнения многоэтапных задач.
Для интеграции в продакшн NVIDIA предоставляет облачный API с гибким ценообразованием. Стоимость ввода составляет $0.50 за миллион токенов, что делает модель доступной для больших объемов данных. Вывод обрабатывается по ставке $1.50 за миллион токенов. При этом для разработчиков доступен бесплатный tier с лимитом 1000 запросов в день для тестирования.
Сравнивая с закрытыми аналогами, Nemotron Ultra предлагает лучшее соотношение цены и качества. Для enterprise-клиентов доступны корпоративные скидки при использовании инфраструктуры NVIDIA Blackwell. Это снижает TCO (Total Cost of Ownership) по сравнению с арендой эксклюзивных инстансов у других провайдеров.
Nemotron Ultra конкурирует с такими гигантами, как Llama 3.1 405B и Claude 3.5 Sonnet. Хотя Llama 3.1 имеет больше параметров, Nemotron Ultra превосходит её в задачах, требующих глубокого логического анализа. Claude 3.5 Sonnet остается лидером в креативном письме, но Nemotron Ultra быстрее в математических вычислениях благодаря оптимизированной MoE-структуре.
Таблица ниже демонстрирует ключевые различия. Важно отметить, что Nemotron Ultra предлагает самый большой контекст среди открытых моделей, что позволяет загружать целые репозитории кода для анализа без потери качества.
Основное назначение модели — автоматизация сложных инженерных задач. Она идеально подходит для автоматического ревью кода, где требуется не только синтаксическая проверка, но и понимание архитектуры системы. Инженеры могут использовать модель для генерации тестовых кейсов на основе спецификаций.
В сфере образования и науки модель применяется для решения олимпиадных задач по математике и физике. Благодаря открытому исходному коду, исследователи могут использовать Nemotron Ultra для обучения специализированных агентов, которые работают в закрытых корпоративных сетях.
Доступ к модели осуществляется через API или загрузку весов на Hugging Face. Для локального запуска рекомендуется использовать Docker-образы NVIDIA NGC. В SDK предоставляются готовые примеры для Python, включая интеграцию с LangChain и LlamaIndex.
Регистрация в облачном аккаунте NVIDIA Cloud займет не более 5 минут. После получения API ключа можно сразу начать тестирование. Документация содержит подробные руководства по оптимизации инференса на GPU Blackwell.
API Pricing — Input: $0.50 / Output: $1.50 / Context: 256k