Skip to content
Назад к Блогу
Model Releases

NousResearch Hermes 4 405B: Новый стандарт открытых моделей с контекстом 131K

Обзор новейшей модели Hermes 4 405B от NousResearch. Узнайте о возможностях функции вызова, контексте и производительности на бенчмарках.

28 августа 2025 г.
Model ReleaseHermes 4
Hermes 4 - official image

Введение: Что такое Hermes 4 и почему это важно

Компания NousResearch официально представила Hermes 4, флагманскую модель семейства Hermes, выпущенную 28 августа 2025 года. Эта модель представляет собой значительный шаг вперед в области open-weight AI, предлагая гибридные возможности логического мышления, недоступные предыдущим версиям. Hermes 4 405B базируется на архитектуре Llama 3.1, но с существенными модификациями, направленными на улучшение агентских возможностей и работы со структурированными данными.

Для разработчиков и инженеров это означает появление мощного инструмента, способного обрабатывать сложные задачи без необходимости тонкой настройки с нуля. Модель демонстрирует уникальное поведение в качественных исследованиях, включая принятие персон и последовательность ответов. Это делает Hermes 4 идеальным выбором для корпоративных приложений, где надежность и точность критичны, а также для исследований в области автономных агентов.

  • Дата выпуска: 28 августа 2025 года
  • База: Llama 3.1 405B
  • Тип: Open-Weight
  • Фокус: Reasoning и Function Calling

Ключевые особенности и архитектура

Архитектура Hermes 4 405B оптимизирована для обработки огромных объемов информации. Модель поддерживает контекстное окно размером 131 000 токенов, что позволяет загружать и анализировать целые репозитории кода или длинные юридические документы за один проход. Важнейшим обновлением стала интеграция продвинутого вызова функций (function calling) и генерации структурированного вывода.

В отличие от стандартных LLM, Hermes 4 лучше справляется с многоступенчатыми логическими задачами. Технические отчеты показывают, что модель демонстрирует улучшенную согласованность ответов и способность к принятию сложных персон. Это достигается за счет модификаций в механизме внимания и пост-обработке токенов, что позволяет модели лучше понимать инструкции по формату вывода.

  • Параметры: 405 миллиардов
  • Контекст: 131K токенов
  • Функции: Advanced Function Calling
  • Лицензия: Open Weight

Производительность и бенчмарки

На независимых платформах, таких как Benchable.ai, Hermes 4 показывает результаты, превосходящие многие закрытые аналоги. На тесте MMLU модель достигает 88.5% точности, что является эталонным показателем для 405B класса. В задачах программирования на HumanEval Hermes 4 демонстрирует 94% успеха, что критически важно для автоматизации разработки.

Особое внимание стоит уделить RefusalBench, где модель доминирует, показывая минимальное количество отказов в выполнении сложных запросов. Качественные пробы также подтверждают, что модель меньше склонна к галлюцинациям при работе с фактами. Это делает её предпочтительной для RAG-систем, где точность извлечения информации является приоритетом.

  • MMLU: 88.5%
  • HumanEval: 94%
  • RefusalBench: Top 1%
  • GSM8K: 91.2%

Тарифы API и стоимость использования

Для интеграции Hermes 4 в ваши приложения доступны тарифы через платформу Nous Portal. Стоимость вызова API для 405B версии составляет 0.15 доллара за миллион входных токенов и 0.60 доллара за миллион выходных токенов. Это конкурентоспособная цена для модели такого масштаба, особенно учитывая качество ответов.

Помимо API, модель доступна для локального развертывания. Для запуска Hermes 4 405B на GPU потребуется около 141.9 ГБ видеопамяти при использовании квантования 4-бит. Это делает модель доступной для крупных кластеров, но требующей значительных ресурсов по сравнению с 70B или 36B версиями семейства Hermes.

  • Input Price: $0.15 / M tokens
  • Output Price: $0.60 / M tokens
  • VRAM (4-bit): ~142 GB
  • Free Tier: Доступен через Nous Portal

Сравнительная таблица моделей

Hermes 4 405B не стоит рассматривать в вакууме. Сравнение с прямыми конкурентами показывает её сильные стороны. По сравнению с базовой Llama 3.1 405B, Hermes 4 предлагает лучшие результаты в логике и сниженную стоимость вывода. По сравнению с более легкими моделями, такими как Qwen 2.5 72B, Hermes 4 выигрывает в контексте и сложности задач, хотя и стоит дороже.

  • Лучшее соотношение цена/качество для сложных задач
  • Превосходство в логике над конкурентами
  • Гибкость контекстного окна

Сценарии использования (Use Cases)

Hermes 4 идеально подходит для создания автономных агентов, способных выполнять многошаговые операции. Благодаря улучшенному вызову функций, модель может эффективно взаимодействовать с внешними API и базами данных. Это открывает возможности для автоматизации бизнес-процессов, где требуется строгое соблюдение структуры данных.

В области разработки Hermes 4 используется для генерации сложного кода с учетом архитектурных ограничений. Для RAG-систем модель позволяет обрабатывать длинные контексты документации, извлекая точные ответы. Также она эффективна в чат-ботах, требующих высокой эмпатии и понимания тонкостей пользовательского намерения.

  • Автономные AI агенты
  • Генерация кода и рефакторинг
  • RAG с длинными контекстами
  • Аналитика данных и отчеты

Начало работы: Как получить доступ

Получить доступ к Hermes 4 можно через официальные репозитории GitHub и Hugging Face. Для использования API необходимо зарегистрироваться на портале NousResearch. Для локального запуска требуется установка Ollama или использование SDK, поддерживающего модели на базе Llama 3.1.

В документации подробно описаны требования к оборудованию и примеры конфигурации. Рекомендуется начать с демо-версии на портале, чтобы оценить качество ответов перед развертыванием в продакшене. Следите за обновлениями, так как модель получает регулярные патчи для улучшения безопасности и производительности.

  • GitHub: NousResearch/hermes-agent
  • Hugging Face: NousResearch/Hermes-4-405B
  • API: Nous Portal
  • SDK: Python и Node.js

Comparison

Model: Hermes 4 405B | Context: 131K | Max Output: 8192 | Input $/M: 0.15 | Output $/M: 0.60 | Strength: Reasoning & Agents

Model: Llama 3.1 405B | Context: 128K | Max Output: 8192 | Input $/M: 0.20 | Output $/M: 0.70 | Strength: Base Architecture

Model: Qwen 2.5 72B | Context: 128K | Max Output: 32768 | Input $/M: 0.05 | Output $/M: 0.15 | Strength: Cost Efficiency

API Pricing — Input: 0.15 / Output: 0.60 / Context: 131000


Sources

Hermes 4 Technical Report

GitHub Releases Hermes Agent

Benchable.ai Hermes 4 405B