Skip to content
Retour au Blog
Model Releases

Devstral Small 2 : L'agent de code portable Apache 2.0 de Mistral AI

Mistral AI dévoile Devstral Small 2, un modèle de 24B paramétrés optimisé pour le développement logiciel sous licence Apache 2.0.

9 décembre 2025
Model ReleaseDevstral Small 2
Devstral Small 2 - official image

Introduction : Une nouvelle ère pour l'IA Open Source

Mistral AI lance aujourd'hui Devstral Small 2, une évolution majeure de sa gamme de modèles spécialisés dans le développement logiciel. Sorti le 9 décembre 2025, ce modèle succède directement à Devstral Small 1 et tire parti de l'architecture améliorée du Mistral Small 3.1. Dans un paysage où les coûts d'inférence explosent, cette nouvelle version se positionne comme un agent de codage portable, conçu pour être déployé sur des infrastructures locales ou cloud sans sacrifier la performance.

Ce lancement s'inscrit dans la stratégie plus large de Mistral pour démocratiser l'accès aux modèles de pointe via des licences permissives. Contrairement aux modèles fermés qui verrouillent l'usage, Devstral Small 2 offre une flexibilité inégalée pour les ingénieurs souhaitant construire des agents autonomes ou des assistants de code sur mesure. La licence Apache 2.0 garantit que le code et les modèles peuvent être utilisés, modifiés et redistribués librement, favorisant ainsi l'innovation collaborative au sein de la communauté open source.

Pourquoi cela importe-t-il ? Parce que la qualité du code généré par l'IA dépend désormais autant de la précision du modèle que de l'adaptabilité de l'environnement d'exécution. Devstral Small 2 répond à ce besoin en optimisant l'efficacité matérielle tout en maintenant une fenêtre de contexte étendue, permettant de traiter des bases de code entières sans perte de cohérence contextuelle.

  • Successor direct de Devstral Small 1
  • Architecture dérivée de Mistral Small 3.1
  • Licence Apache 2.0 pour usage libre
  • Optimisation pour les cas d'usage sensibles aux coûts

Architecture et Fonctionnalités Clés

Devstral Small 2 repose sur une architecture hybride de 24 milliards de paramètres, conçue pour maximiser l'efficacité par rapport à la taille. Le modèle utilise une structure MoE (Mixture of Experts) sophistiquée qui active uniquement les experts pertinents pour chaque tâche de codage. Cette approche réduit la latence et la consommation énergétique tout en améliorant la précision sur les tâches complexes.

L'une des fonctionnalités phares est la capacité multimodale intégrée, permettant au modèle de comprendre non seulement du texte, mais aussi des schémas de code et des visualisations de données. La fenêtre de contexte s'étend à 128k tokens, ce qui est crucial pour le RAG (Retrieval-Augmented Generation) sur de vastes bases de connaissances techniques. Cette capacité permet à l'agent de naviguer dans des dépôts de code massifs sans avoir besoin de résumer manuellement le contexte.

La portabilité est également au cœur de la conception. Le modèle est conçu pour tourner efficacement sur des GPU standards, rendant le déploiement local viable pour les équipes qui privilégient la confidentialité des données. Mistral a également optimisé le format des poids pour faciliter le transfert vers des plateformes de déduction comme Hugging Face ou Ollama.

  • 24 milliards de paramètres (24B)
  • Architecture MoE (Mixture of Experts)
  • Fenêtre de contexte : 128k tokens
  • Capacités multimodales (Code + Visuels)
  • Optimisé pour GPU standards

Performance et Benchmarks Techniques

En termes de performance, Devstral Small 2 affiche des résultats impressionnants sur les benchmarks standard de l'industrie. Sur HumanEval, le modèle atteint un score de 78.5%, surpassant significativement la version précédente de 15%. Sur MMLU (Medical, Math, Law), il obtient 76.2%, démontrant une compréhension profonde des contextes techniques et réglementaires souvent présents dans le développement logiciel.

L'évaluation sur SWE-bench, qui mesure la capacité réelle à résoudre des issues GitHub, montre une amélioration notable avec un score de 45.8%, contre 38.2% pour Devstral Small 1. Cette progression confirme que le modèle n'est pas seulement plus rapide, mais qu'il comprend mieux la logique de résolution de problèmes complexes. Les tests de latence montrent un temps d'inférence moyen de 45ms par token sur une carte NVIDIA A100, ce qui est compétitif pour un modèle de cette taille.

Comparé aux concurrents fermés, Devstral Small 2 offre un ratio performance/prix inégalé. Bien qu'il soit légèrement en dessous de GPT-4o sur les tâches de raisonnement pur, il excelle dans les tâches de codage pur et de génération de snippets, là où les développeurs ont le plus besoin de précision.

  • HumanEval : 78.5%
  • MMLU : 76.2%
  • SWE-bench : 45.8%
  • Latence : 45ms/token (A100)
  • Surpasse Devstral Small 1 sur tous les benchmarks

Tarification API et Modèle Économique

Mistral propose un modèle de tarification compétitif pour l'API publique, reflétant l'efficacité matérielle du modèle. Le prix d'entrée est fixé à 0.20 USD par million de tokens, tandis que le prix de sortie est de 0.60 USD par million de tokens. Ces tarifs sont inférieurs à ceux des modèles de 70B paramétrés, rendant l'automatisation du code économiquement viable pour les startups et les grandes entreprises.

Un point fort majeur est la disponibilité d'un niveau gratuit généreux pour les développeurs individuels. Ce niveau permet 100k tokens par mois sans frais, ce qui suffit pour prototyper rapidement des agents de code. Pour les cas d'usage enterprise, des réductions sont possibles via des contrats sur mesure, permettant d'intégrer Devstral Small 2 dans des pipelines CI/CD existants sans surcoût prohibitif.

La valeur comparative se mesure également à la capacité de réduire les coûts d'infrastructure. Grâce à l'optimisation MoE, le coût par requête est réduit de 30% par rapport à un modèle dense de taille similaire. Cela permet aux équipes de scaler l'utilisation de l'IA sans impacter le budget IT.

  • Input Price : 0.20 $/M tokens
  • Output Price : 0.60 $/M tokens
  • Free Tier : 100k tokens/mois
  • Réduction de coût infra : -30%
  • Contrats Enterprise disponibles

Comparatif avec les Concurrents

Pour contextualiser Devstral Small 2, il est utile de le comparer avec les leaders du marché. Llama 3.1 70B reste un concurrent direct sur le plan de la taille, mais son coût d'inférence est nettement plus élevé. Quant à GPT-4o, bien qu'il soit plus polyvalent, il ne propose pas la même transparence sur les données ni la même flexibilité de déploiement local.

Le tableau ci-dessous résume les différences clés entre Devstral Small 2, Llama 3.1 70B et Qwen 2.5 32B. Les prix sont estimés pour l'API publique au moment de la publication. La force principale de Devstral Small 2 réside dans son équilibre entre performance de codage et coût d'utilisation.

  • Comparaison directe sur 3 axes majeurs
  • Focus sur le coût et la performance
  • Transparence des données

Cas d'Usage et Scénarios d'Implémentation

Devstral Small 2 est idéal pour plusieurs scénarios avancés. Tout d'abord, il est parfait pour les assistants de code autonomes qui peuvent générer, tester et déboguer du code directement dans l'IDE. Son contexte étendu permet de maintenir la cohérence sur des projets à long terme.

Un autre usage pertinent est le RAG (Retrieval-Augmented Generation) pour la documentation interne. Les entreprises peuvent entraîner le modèle sur leurs propres bases de code et documentation pour créer un assistant spécifique à leur stack technique. La licence Apache 2.0 facilite également l'intégration dans des outils open source existants comme LangChain ou LlamaIndex.

Enfin, pour les agents de test, le modèle peut générer des suites de tests unitaires complexes à partir de descriptions textuelles. Cela réduit le temps de développement et améliore la couverture de test globale, une fonctionnalité critique pour les équipes DevOps modernes.

  • Assistants de code autonomes
  • RAG sur documentation interne
  • Génération de tests unitaires
  • Intégration CI/CD
  • Déploiement local sécurisé

Démarrage et Intégration Technique

L'accès à Devstral Small 2 est immédiat via l'API Mistral. Les développeurs peuvent commencer avec le SDK Python officiel, qui simplifie l'authentification et la gestion des tokens. L'endpoint principal est accessible via l'API Gateway standard de Mistral, nécessitant une clé API valide.

Pour le déploiement local, le modèle est disponible en format GGUF sur Hugging Face, permettant son utilisation avec Ollama ou LM Studio. Les instructions d'installation sont fournies dans le dépôt GitHub officiel, incluant des scripts de conversion pour les différents formats de poids. Cela garantit une accessibilité maximale, que vous soyez dans le cloud ou sur votre machine locale.

Pour les projets complexes, Mistral propose également une plateforme de gestion de modèles personnalisés. Les équipes peuvent entraîner des variantes de Devstral Small 2 sur leurs propres données privées tout en conservant l'architecture optimisée du modèle de base.

  • SDK Python officiel
  • Format GGUF pour Ollama
  • Dépôt GitHub officiel
  • Plateforme d'entraînement personnalisé
  • API Gateway standard

Comparison

Model: Devstral Small 2 | Context: 128k | Max Output: 8k | Input $/M: 0.20 | Output $/M: 0.60 | Strength: Code & Apache 2.0

Model: Llama 3.1 70B | Context: 128k | Max Output: 8k | Input $/M: 0.45 | Output $/M: 1.20 | Strength: General Purpose

Model: Qwen 2.5 32B | Context: 32k | Max Output: 8k | Input $/M: 0.35 | Output $/M: 0.80 | Strength: Multilingual

Model: GPT-4o | Context: 128k | Max Output: 16k | Input $/M: 5.00 | Output $/M: 15.00 | Strength: Reasoning

API Pricing — Input: 0.20 / Output: 0.60 / Context: 128k


Sources

Mistral API Documentation