Разбираем новую модель Step-3.7-Flash: невероятная скорость 400 токенов/сек, архитектура MoE и лидерство в бенчмарках визуального поиска и агентских задач.

29 мая 2026 года компания StepFun совершила настоящий прорыв в области эффективных мультимодальных моделей, представив Step-3.7-Flash. В мире, где разработчики постоянно ищут баланс между мощностью «тяжелых» моделей и скоростью легковесных решений, Step-3.7-Flash предлагает уникальный компромисс, который кажется почти невозможным.
Это не просто очередное обновление линейки Flash. Это нативная мультимодальная система, спроектированная для работы в реальном мире — от анализа сложных пользовательских интерфейсов (UI) до написания кода на основе визуальных схем. Модель нацелена на создание автономных агентов, способных не просто «видеть», но и действовать, используя инструменты и веб-поиск с беспрецедентной точностью.
В основе Step-3.7-Flash лежит продвинутая архитектура Sparse Mixture of Experts (MoE). При общем объеме параметров в 198 миллиардов, модель активирует лишь около 11 миллиардов параметров на каждый токен. Такая «плотность интеллекта» позволяет достичь производительности уровня флагманских моделей при значительно меньших вычислительных затратах.
Одной из ключевых особенностей является контекстное окно объемом 256K токенов, дополненное тремя уровнями рассуждений (reasoning levels). Это позволяет модели глубоко анализировать огромные массивы данных, будь то длинные технические документы или сложные цепочки визуальных данных, сохраняя при этом высокую скорость генерации — до 400 токенов в секунду.
Результаты тестирования Step-3.7-Flash подтверждают её доминирование в ряде критически важных категорий. Модель заняла первое место в ClawEval-1.1 с результатом 67.1 и продемонстрировала выдающиеся способности в визуальном поиске, заняв #1 на SimpleVQA Search со счетом 79.2. Это делает её идеальным инструментом для задач, требующих понимания графиков, диаграмм и сложных документов.
Для разработчиков программного обеспечения особенно важен показатель V* Python benchmark, где модель набрала впечатляющие 95.3. Также модель показала высокую надежность в использовании инструментов (tool use), набрав более 98% на τ²-bench на всех уровнях сложности. Несмотря на то, что в SWE-PRO она заняла второе место (56.3), её общая эффективность в агентских сценариях ставит её в один ряд с лучшими закрытыми моделями рынка.
Step-3.7-Flash — это не просто чат-бот. Это нативный мультимодальный агент. Она способна понимать структуру UI, интерпретировать сложные чарты и документы, а затем немедленно переходить к написанию кода или вызову внешних инструментов для решения задачи. Это делает её незаменимой для автоматизации тестирования ПО и создания интеллектуальных ассистентов.
Функция веб-визуального поиска также была значительно улучшена. Модель использует больше источников и проводит более глубокий анализ последующих запросов (follow-up), что позволяет получать ответы на вопросы, требующие синтеза информации из множества визуальных и текстовых источников в реальном времени.
Для разработчиков, внедряющих Step-3.7-Flash в свои продакшн-решения, StepFun предлагает крайне конкурентоспособную модель ценообразования. Особое внимание стоит уделить механизму кэширования: при повторном использовании контекста стоимость входных токенов снижается в 5 раз, что делает модель идеальной для RAG-систем и длинных диалогов.
Модель доступна через различные форматы весов, включая BF16, FP8, NVFP4 и GGUF, что позволяет запускать её как через облачные API, так и локально на оптимизированном оборудовании.
Благодаря своей архитектуре, Step-3.7-Flash лучше всего подходит для трех основных сценариев: создания автономных агентов, интеллектуального RAG и автоматизации разработки. В RAG-системах она может обрабатывать не только текст, но и PDF-отчеты с таблицами и диаграммами, извлекая данные с точностью человека.
В сфере кодинга модель может выступать в роли 'Vision-to-Code' ассистента, превращая скриншоты макетов в рабочий код. А для компаний, строящих сложные системы автоматизации, её показатель 98%+ на τ²-bench гарантирует, что агент не «галлюцинирует» при вызове API или работе с базами данных.
Начать работу с Step-3.7-Flash можно прямо сейчас. Модель уже доступна через API на платформе OpenRouter, что позволяет легко интегрировать её в существующие рабочие процессы без необходимости настройки собственной инфраструктуры. Для тех, кто предпочитает полный контроль, веса модели доступны на Hugging Face.
Если вы планируете локальный деплой, рекомендуем использовать квантованные версии (GGUF или FP8) для оптимизации потребления видеопамяти без существенной потери качества рассуждений.
API Pricing — Input: $0.20 / 1M tokens / Output: $1.15 / 1M tokens / Context: 256K