Introduction

Le 27 octobre 2023, Zhipu AI, en collaboration avec le laboratoire Tsinghua KEG, a annoncé la sortie de ChatGLM3-6B, une nouvelle génération de modèles de dialogue pré-entraînés ouverts au public. Ce modèle de 6 milliards de paramètres représente une avancée significative dans l'écosystème open-source des grands modèles linguistiques, offrant des capacités avancées qui rivalisent avec des modèles propriétaires plus volumineux.

ChatGLM3-6B est particulièrement remarquable pour ses fonctionnalités d'agent intelligent, ses capacités d'interprétation de code et son système d'appel de fonctions sophistiqué. Ces caractéristiques en font un choix idéal pour les développeurs cherchant à intégrer des systèmes d'intelligence artificielle conversationnelle dans leurs applications sans compromettre sur les performances ou la flexibilité.

Ce modèle s'inscrit dans la continuité des efforts de Zhipu AI pour démocratiser l'accès aux technologies d'intelligence artificielle de pointe. En rendant disponible un modèle aussi performant sous licence open-source, l'entreprise permet aux chercheurs, développeurs et startups d'expérimenter et d'innover sans les contraintes liées aux coûts élevés des solutions propriétaires.

L'ouverture du code source de ChatGLM3-6B favorise également la transparence et la reproductibilité dans la recherche en IA, permettant à la communauté scientifique de mieux comprendre, améliorer et adapter ces technologies à des cas d'usage spécifiques.

Caractéristiques clés et architecture

ChatGLM3-6B dispose d'une architecture optimisée basée sur 6 milliards de paramètres, conçue pour équilibrer performance et efficacité de déploiement. Contrairement aux modèles MoE (Mixture of Experts) très volumineux, ce modèle dense offre une latence réduite tout en maintenant des capacités de traitement de pointe.

Le modèle intègre des fonctionnalités avancées telles que l'appel de fonctions natives, permettant à l'IA de déclencher des actions externes en réponse à des requêtes utilisateur. Cette capacité ouvre la voie à des agents intelligents capables d'interagir avec des APIs, de manipuler des données et d'exécuter des tâches complexes.

L'architecture de ChatGLM3-6B supporte un contexte étendu de 8192 tokens, permettant des conversations plus longues et des tâches nécessitant une mémoire contextuelle importante. La structure transformer optimisée assure une génération fluide et cohérente des réponses.

En termes de multimodalité, bien que principalement textuel, le modèle peut être adapté pour traiter des entrées supplémentaires via des systèmes d'extension, conformément aux développements futurs de l'écosystème GLM.

ChatGLM3-6B : Le modèle open-source de nouvelle génération avec capacités d'agent

Introduction

Caractéristiques clés et architecture

Performances et benchmarks

Tarification API

Tableau comparatif

Cas d'usage

Démarrage rapide

Comparison

Sources