Introduction : Un nouveau paradigme pour l'IA agentique

Le paysage de l'intelligence artificielle franchit une nouvelle étape majeure ce 29 mai 2026 avec la sortie de Step-3.7-Flash par StepFun. Alors que le marché est saturé de modèles textuels, StepFun propose une approche radicalement différente : un modèle nativement multimodal conçu pour l'action et le raisonnement complexe.

Ce n'est pas simplement une mise à jour incrémentale. Step-3.7-Flash est une réponse directe aux besoins des développeurs d'agents autonomes qui exigent une compréhension visuelle profonde, une capacité de recherche web fluide et une exécution de code sans faille. En combinant une architecture MoE (Mixture of Experts) ultra-efficace avec des poids ouverts sous licence Apache 2.0, StepFun démocratise l'accès à une intelligence de niveau frontal (frontier-level).

Sortie officielle : 29 mai 2026
Architecture : Sparse Mixture of Experts (MoE)
Licence : Apache 2.0 (Open Weights)
Focus : Multimodalité native et Agentivité

Architecture et Spécifications Techniques

Au cœur de Step-3.7-Flash se trouve une architecture MoE sophistiquée. Avec un total de 198 milliards de paramètres, le modèle ne mobilise que ~11 milliards de paramètres actifs par token. Cette 'densité d'intelligence' permet d'obtenir des performances de modèle géant tout en maintenant une latence extrêmement faible, idéale pour les applications en temps réel.

La gestion du contexte est l'un des points forts de cette release. Le modèle supporte une fenêtre de contexte de 256K tokens, accompagnée de trois niveaux de raisonnement distincts pour adapter la profondeur de réflexion à la complexité de la tâche. Sa capacité multimodale n'est pas une couche ajoutée a posteriori, mais une compréhension native des interfaces utilisateur (UI), des graphiques, des documents complexes et des images, lui permettant de passer de la perception à l'action (code ou appels d'outils) de manière fluide.

Paramètres totaux : 198B
Paramètres actifs : ~11B (Sparse MoE)
Fenêtre de contexte : 256K tokens
Débit : 400 tokens par seconde
Niveaux de raisonnement : 3 modes configurables

Benchmarks : La domination des performances

Les chiffres parlent d'eux-mêmes. Step-3.7-Flash surclasse ses prédécesseurs et ses concurrents directs sur des benchmarks critiques de vision et de raisonnement. Sur ClawEval-1.1, il décroche la première place avec un score de 67.1, prouvant sa supériorité dans l'évaluation de la compréhension contextuelle.

Step-3.7-Flash : La révolution multimodale Open Weights de StepFun est là

Introduction : Un nouveau paradigme pour l'IA agentique

Architecture et Spécifications Techniques

Benchmarks : La domination des performances

Pricing : Une efficacité économique sans précédent

Cas d'utilisation : Du RAG aux Agents Autonomes

Comment démarrer ?

Sources