Introduction

Le paysage du machine learning vient d'être bouleversé par la sortie de Mixtral 8x22B, un modèle ouvert massif de 176 milliards de paramètres déployé sous une architecture Mixture of Experts (MoE) par Mistral AI. Publié le 17 avril 2024, ce modèle représente une avancée significative dans les capacités de traitement multilingue et de génération de code, tout en restant accessible via des poids ouverts.

Avec son architecture innovante basée sur 8 experts de 22 milliards de paramètres chacun, Mixtral 8x22B combine la puissance computationnelle d'un modèle géant à l'efficacité énergétique d'un modèle plus léger. Cette approche permet d'activer seulement une fraction des paramètres pour chaque requête, rendant le modèle extrêmement performant sans sacrifier l'efficacité.

Ce modèle s'inscrit dans la stratégie de transparence de Mistral AI qui continue à publier des modèles open-source de qualité industrielle, permettant aux développeurs, chercheurs et entreprises d'accéder à des technologies d'intelligence artificielle de pointe sans dépendance propriétaire.

La disponibilité immédiate des poids ouverts signifie que les équipes techniques peuvent déployer ce modèle localement, l'adapter à leurs besoins spécifiques et même contribuer à son développement futur.

Caractéristiques Clés et Architecture

L'architecture MoE (Mixture of Experts) de Mixtral 8x22B se compose de 9 experts actifs par token, avec un total de 8 experts distincts de 22 milliards de paramètres chacun. Seuls 2 experts sont activés pour chaque token, ce qui optimise considérablement les performances tout en maintenant une capacité de 176 milliards de paramètres effectifs.

Le modèle dispose d'une fenêtre de contexte étendue de 64K tokens, permettant de traiter des documents longs et complexes comme des rapports techniques, des livres entiers ou des conversations historiques détaillées. La longueur maximale de sortie atteint 8K tokens, idéale pour des tâches nécessitant des réponses détaillées.

Les capacités multimodales ne sont pas incluses dans cette version initiale, mais le modèle excelle dans le traitement du texte brut avec des compétences avancées en compréhension et génération linguistique. L'architecture supporte nativement plusieurs langages de programmation et des formats de données structurés.

La taille totale du modèle est de 141 Go pour les poids quantifiés, permettant un déploiement raisonnable sur des infrastructures GPU modernes avec au moins 80 Go de mémoire VRAM.

Architecture MoE : 8 experts × 22B paramètres

Mixtral 8x22B : Le nouveau modèle ouvert de Mistral AI révolutionne le traitement multilingue et le codage

Introduction

Caractéristiques Clés et Architecture

Performances et Benchmarks

Tarification API

Tableau Comparatif

Cas d'Utilisation

Premiers Pas

Comparison

Sources