Découvrez Step-3.7-Flash, le nouveau modèle MoE de StepFun qui redéfinit l'efficacité multimodale et l'agentivité avec des performances dépassant les leaders du marché.

Le paysage de l'intelligence artificielle franchit une nouvelle étape majeure ce 29 mai 2026 avec la sortie de Step-3.7-Flash par StepFun. Alors que le marché est saturé de modèles textuels, StepFun propose une approche radicalement différente : un modèle nativement multimodal conçu pour l'action et le raisonnement complexe.
Ce n'est pas simplement une mise à jour incrémentale. Step-3.7-Flash est une réponse directe aux besoins des développeurs d'agents autonomes qui exigent une compréhension visuelle profonde, une capacité de recherche web fluide et une exécution de code sans faille. En combinant une architecture MoE (Mixture of Experts) ultra-efficace avec des poids ouverts sous licence Apache 2.0, StepFun démocratise l'accès à une intelligence de niveau frontal (frontier-level).
Au cœur de Step-3.7-Flash se trouve une architecture MoE sophistiquée. Avec un total de 198 milliards de paramètres, le modèle ne mobilise que ~11 milliards de paramètres actifs par token. Cette 'densité d'intelligence' permet d'obtenir des performances de modèle géant tout en maintenant une latence extrêmement faible, idéale pour les applications en temps réel.
La gestion du contexte est l'un des points forts de cette release. Le modèle supporte une fenêtre de contexte de 256K tokens, accompagnée de trois niveaux de raisonnement distincts pour adapter la profondeur de réflexion à la complexité de la tâche. Sa capacité multimodale n'est pas une couche ajoutée a posteriori, mais une compréhension native des interfaces utilisateur (UI), des graphiques, des documents complexes et des images, lui permettant de passer de la perception à l'action (code ou appels d'outils) de manière fluide.
Les chiffres parlent d'eux-mêmes. Step-3.7-Flash surclasse ses prédécesseurs et ses concurrents directs sur des benchmarks critiques de vision et de raisonnement. Sur ClawEval-1.1, il décroche la première place avec un score de 67.1, prouvant sa supériorité dans l'évaluation de la compréhension contextuelle.
Pour les développeurs orientés vision et recherche, le score de 79.2 sur SimpleVQA Search et le score exceptionnel de 95.3 sur le benchmark V* Python démontrent une capacité unique à interpréter des éléments visuels pour générer du code fonctionnel. Enfin, sur le benchmark τ²-bench, le modèle atteint plus de 98% de réussite sur tous les niveaux de difficulté, garantissant une fiabilité quasi absolue dans l'utilisation d'outils (tool use), un prérequis indispensable pour les agents IA modernes.
L'un des plus grands atouts de Step-3.7-Flash est son rapport performance/prix. StepFun a optimisé sa structure de coûts pour permettre un déploiement à grande échelle, notamment grâce à une gestion intelligente du cache.
Le coût d'entrée est extrêmement bas, ce qui permet aux startups et aux ingénieurs de prototyper des agents complexes sans se ruiner. L'introduction d'un tarif réduit pour les 'Cache Hits' est un avantage compétitif majeur pour les applications RAG (Retrieval-Augmented Generation) où les mêmes contextes sont souvent réutilisés.
Grâce à sa nature nativement multimodale, Step-3.7-Flash excelle dans des scénarios où les modèles purement textuels échouent. Il est idéal pour l'automatisation de processus métier impliquant la lecture de tableaux de bord, l'analyse de graphiques financiers ou la navigation dans des interfaces web complexes.
Les développeurs peuvent l'utiliser pour créer des agents de recherche web avancés capables de croiser des sources visuelles et textuelles avec un suivi profond. Dans le domaine du développement logiciel, sa capacité à comprendre des captures d'écran d'UI pour générer du code frontend en fait un compagnon de pair programming de premier ordre.
L'accès à Step-3.7-Flash est immédiat. Pour les développeurs souhaitant une intégration rapide, le modèle est disponible via l'API d'OpenRouter, facilitant l'insertion dans les pipelines existants. Pour ceux qui privilégient l'auto-hébergement, les poids sont disponibles sur Hugging Face dans plusieurs formats (BF16, FP8, GGUF) pour s'adapter à différentes capacités matérielles.
Que vous utilisiez NVIDIA NIM pour un déploiement optimisé ou que vous téléchargiez les versions quantifiées pour du local LLM, l'écosystème StepFun est conçu pour la flexibilité.
API Pricing — Input: $0.20 / 1M tokens / Output: $1.15 / 1M tokens / Context: 256K