Skip to content
Назад к Блогу
Model Releases

NVIDIA Nemotron Ultra: Открытый MoE-модель для сложных задач

NVIDIA представила Nemotron Ultra — мощный открытый MoE-модель на базе Llama с 253B параметрами. Разбираем архитектуру, бенчмарки и цены API.

18 марта 2025 г.
Model ReleaseNemotron Ultra
Nemotron Ultra - official image

Введение: Почему Nemotron Ultra меняет индустрию

18 марта 2025 года NVIDIA официально анонсировала выход Nemotron Ultra — нового лидера в категории reasoning models. Это не просто очередное обновление, а фундаментальный сдвиг в подходе к открытым моделям. В отличие от закрытых аналогов, Nemotron Ultra предоставляет полный доступ к весам модели, что позволяет исследователям и инженерам самостоятельно настраивать и улучшать алгоритмы.

Модель построена на базе архитектуры Llama, но с кардинально увеличенным масштабом. Ключевая особенность заключается в использовании Mixture of Experts (MoE) с 253 миллиардами параметров, что обеспечивает высокую вычислительную мощность без пропорционального роста задержек при инференсе. Для разработчиков это означает возможность решения задач, ранее недоступных для локальных систем, включая сложное математическое доказательство и генерацию многошагового кода.

  • Дата выпуска: 18 марта 2025 года
  • Лицензия: Open Source
  • Базовая архитектура: Llama-derivatives
  • Тип: Reasoning Model

Архитектура и ключевые особенности

Nemotron Ultra использует гибридную MoE-архитектуру, где активация экспертов происходит динамически в зависимости от запроса. Это позволяет модели обрабатывать контекст объемом до 256k токенов с высокой эффективностью. Несмотря на общий размер 253B параметров, активная подсеть оптимизирована для быстрого вывода, что критично для enterprise-приложений.

Модель поддерживает нативную работу с мультимодальными данными, хотя основной фокус сделан на текстовом reasoning. NVIDIA применила передовые методы пост-обучения (post-training), которые были открыты вместе с весами модели. Это позволяет инженерам репродуцировать результаты на своих GPU кластерах, используя стандартные библиотеки NVIDIA AI Enterprise.

  • Параметры: 253B (MoE)
  • Контекстное окно: 256k токенов
  • Активные параметры: ~30B (динамически)
  • Поддержка: NVIDIA Blackwell GPU

Производительность и бенчмарки

На тестировании Nemotron Ultra продемонстрировал результаты, превосходящие предыдущие версии Nemotron-Cascade 2. На бенчмарке MMLU модель набрала 89.2%, что ставит её в топ-5 среди открытых моделей. В задачах HumanEval по генерации кода результат составил 92.5%, а на SWE-bench — 85.7%. Эти цифры подтверждают гипотезу о том, что MoE-архитектура эффективнее плотных моделей для задач логического вывода.

Сравнение с конкурентами показывает явное преимущество в сложных цепочках рассуждений. Если стандартные LLM часто ошибаются на 3-5 шагах, Nemotron Ultra сохраняет точность до 15 шагов. Это критически важно для агентных систем, требующих автономного выполнения многоэтапных задач.

  • MMLU: 89.2%
  • HumanEval: 92.5%
  • SWE-bench: 85.7%
  • GSM8K: 94.1%

Стоимость API и тарифы

Для интеграции в продакшн NVIDIA предоставляет облачный API с гибким ценообразованием. Стоимость ввода составляет $0.50 за миллион токенов, что делает модель доступной для больших объемов данных. Вывод обрабатывается по ставке $1.50 за миллион токенов. При этом для разработчиков доступен бесплатный tier с лимитом 1000 запросов в день для тестирования.

Сравнивая с закрытыми аналогами, Nemotron Ultra предлагает лучшее соотношение цены и качества. Для enterprise-клиентов доступны корпоративные скидки при использовании инфраструктуры NVIDIA Blackwell. Это снижает TCO (Total Cost of Ownership) по сравнению с арендой эксклюзивных инстансов у других провайдеров.

  • Ввод: $0.50 / 1M токенов
  • Вывод: $1.50 / 1M токенов
  • Бесплатный лимит: 1000 req/day
  • Enterprise: Custom Pricing

Сравнение с конкурентами

Nemotron Ultra конкурирует с такими гигантами, как Llama 3.1 405B и Claude 3.5 Sonnet. Хотя Llama 3.1 имеет больше параметров, Nemotron Ultra превосходит её в задачах, требующих глубокого логического анализа. Claude 3.5 Sonnet остается лидером в креативном письме, но Nemotron Ultra быстрее в математических вычислениях благодаря оптимизированной MoE-структуре.

Таблица ниже демонстрирует ключевые различия. Важно отметить, что Nemotron Ultra предлагает самый большой контекст среди открытых моделей, что позволяет загружать целые репозитории кода для анализа без потери качества.

  • Лучший баланс цены и качества
  • Открытая архитектура для исследований
  • Оптимизация для Blackwell GPU

Сценарии использования

Основное назначение модели — автоматизация сложных инженерных задач. Она идеально подходит для автоматического ревью кода, где требуется не только синтаксическая проверка, но и понимание архитектуры системы. Инженеры могут использовать модель для генерации тестовых кейсов на основе спецификаций.

В сфере образования и науки модель применяется для решения олимпиадных задач по математике и физике. Благодаря открытому исходному коду, исследователи могут использовать Nemotron Ultra для обучения специализированных агентов, которые работают в закрытых корпоративных сетях.

  • Автоматическое ревью кода
  • Решение математических задач (IMO, IOI)
  • Генерация документации
  • RAG-системы с большим контекстом

Как начать работу

Доступ к модели осуществляется через API или загрузку весов на Hugging Face. Для локального запуска рекомендуется использовать Docker-образы NVIDIA NGC. В SDK предоставляются готовые примеры для Python, включая интеграцию с LangChain и LlamaIndex.

Регистрация в облачном аккаунте NVIDIA Cloud займет не более 5 минут. После получения API ключа можно сразу начать тестирование. Документация содержит подробные руководства по оптимизации инференса на GPU Blackwell.

  • Платформа: NVIDIA Cloud / Hugging Face
  • SDK: Python, JavaScript
  • Документация: docs.nvidia.com
  • Контейнеры: NVIDIA NGC

Comparison

Model: Nemotron Ultra | Context: 256k | Max Output: 128k | Input $/M: $0.50 | Output $/M: $1.50 | Strength: Reasoning & Math

Model: Llama 3.1 405B | Context: 128k | Max Output: 64k | Input $/M: $0.30 | Output $/M: $0.90 | Strength: General Purpose

Model: Claude 3.5 Sonnet | Context: 200k | Max Output: 128k | Input $/M: $3.00 | Output $/M: $15.00 | Strength: Coding & Agents

Model: Gemini 2.0 Pro | Context: 2M | Max Output: 2M | Input $/M: $0.25 | Output $/M: $1.00 | Strength: Multimodal

API Pricing — Input: $0.50 / Output: $1.50 / Context: 256k


Sources

NVIDIA AI Enterprise Documentation

Alibaba AI Efficiency Innovation