Введение: Новая эра эффективного ИИ

29 мая 2026 года компания StepFun совершила настоящий прорыв в области эффективных мультимодальных моделей, представив Step-3.7-Flash. В мире, где разработчики постоянно ищут баланс между мощностью «тяжелых» моделей и скоростью легковесных решений, Step-3.7-Flash предлагает уникальный компромисс, который кажется почти невозможным.

Это не просто очередное обновление линейки Flash. Это нативная мультимодальная система, спроектированная для работы в реальном мире — от анализа сложных пользовательских интерфейсов (UI) до написания кода на основе визуальных схем. Модель нацелена на создание автономных агентов, способных не просто «видеть», но и действовать, используя инструменты и веб-поиск с беспрецедентной точностью.

Дата релиза: 29 мая 2026 года
Тип: Нативная мультимодальная модель (Vision-Language)
Основная специализация: Агентские задачи, визуальный поиск и кодинг

Архитектура и технические характеристики

В основе Step-3.7-Flash лежит продвинутая архитектура Sparse Mixture of Experts (MoE). При общем объеме параметров в 198 миллиардов, модель активирует лишь около 11 миллиардов параметров на каждый токен. Такая «плотность интеллекта» позволяет достичь производительности уровня флагманских моделей при значительно меньших вычислительных затратах.

Одной из ключевых особенностей является контекстное окно объемом 256K токенов, дополненное тремя уровнями рассуждений (reasoning levels). Это позволяет модели глубоко анализировать огромные массивы данных, будь то длинные технические документы или сложные цепочки визуальных данных, сохраняя при этом высокую скорость генерации — до 400 токенов в секунду.

Общее количество параметров: 198B
Активные параметры (MoE): ~11B
Контекстное окно: 256K токенов
Пропускная способность: 400 токенов/сек
Лицензия: Open Weights (Apache 2.0)

Производительность: Разрыв шаблонов в бенчмарках

Результаты тестирования Step-3.7-Flash подтверждают её доминирование в ряде критически важных категорий. Модель заняла первое место в ClawEval-1.1 с результатом 67.1 и продемонстрировала выдающиеся способности в визуальном поиске, заняв #1 на SimpleVQA Search со счетом 79.2. Это делает её идеальным инструментом для задач, требующих понимания графиков, диаграмм и сложных документов.

Для разработчиков программного обеспечения особенно важен показатель V* Python benchmark, где модель набрала впечатляющие 95.3. Также модель показала высокую надежность в использовании инструментов (tool use), набрав более 98% на τ²-bench на всех уровнях сложности. Несмотря на то, что в SWE-PRO она заняла второе место (56.3), её общая эффективность в агентских сценариях ставит её в один ряд с лучшими закрытыми моделями рынка.

Революция в мультимодальности: Обзор Step-3.7-Flash от StepFun

Введение: Новая эра эффективного ИИ

Архитектура и технические характеристики

Производительность: Разрыв шаблонов в бенчмарках

Возможности: От зрения к действию

API Pricing и доступность

Кейсы использования: Где применять?

Как начать работу

Sources