Introduction

Le paysage de l'intelligence artificielle open-source vient d'être bouleversé par la sortie de DBRX, un modèle massif de 132 milliards de paramètres conçu par Databricks et publié le 27 mars 2024. Ce modèle représente une percée significative dans le domaine des architectures Mixture of Experts (MoE), offrant des performances exceptionnelles tout en restant accessible à la communauté open-source.

Avec son approche innovante de MoE combinant 132 milliards de paramètres totaux mais n'activant que 36 milliards de paramètres par inférence, DBRX démontre qu'il est possible d'obtenir des performances de premier plan sans les coûts énergétiques et computationnels typiques des modèles denses entièrement activés.

Ce modèle s'inscrit dans la stratégie de Databricks visant à démocratiser l'accès aux grands modèles linguistiques tout en fournissant une alternative crédible aux modèles propriétaires du marché.

La licence Apache 2.0 permet une utilisation commerciale libre, ce qui en fait une option particulièrement attractive pour les entreprises souhaitant intégrer des capacités IA puissantes sans contraintes de propriété intellectuelle.

Caractéristiques clés et architecture

DBRX exploite une architecture Mixture of Experts (MoE) sophistiquée qui permet d'optimiser l'utilisation des ressources computationnelles. Avec 132 milliards de paramètres au total, le modèle active seulement 36 milliards de paramètres lors de chaque inférence, ce qui réduit considérablement les besoins en mémoire et en calcul.

Cette approche permet de bénéficier des avantages d'un modèle très large tout en maintenant des temps d'inférence raisonnables et des coûts maîtrisés. L'architecture est spécialement optimisée pour les charges de travail variées, allant de la génération de texte à la compréhension complexe de documents.

Le modèle prend en charge des contextes longs, rendant possible la gestion de conversations étendues et de documents techniques complexes. La structure MoE permet également une spécialisation fine selon les types de tâches, améliorant les performances sur des domaines spécifiques.

Les développeurs peuvent tirer parti de cette architecture pour créer des applications plus efficaces, notamment dans les environnements à ressources limitées ou nécessitant des performances en temps réel.

132 milliards de paramètres totaux
36 milliards de paramètres actifs par inférence
Architecture Mixture of Experts (MoE)
Licence Apache 2.0

DBRX : Le nouveau modèle open-source de Databricks avec 132B de paramètres MoE

Introduction

Caractéristiques clés et architecture

Performances et benchmarks

Tarification API

Tableau comparatif

Cas d'utilisation

Premiers pas avec DBRX

Comparison

Sources