Introduction

Le Technology Innovation Institute (TII) d'Abu Dhabi vient de révolutionner le paysage des modèles de langage open-source avec le lancement de Falcon 180B, un modèle colossal de 180 milliards de paramètres. Publié le 25 mai 2023 sous licence Apache 2.0, ce modèle représente une avancée majeure dans la recherche sur les grands modèles linguistiques ouverts.

Avec ses performances exceptionnelles qui surpassent même certains modèles propriétaires, Falcon 180B s'est positionné en tête du classement Open LLM Leaderboard, démontrant que les modèles open-source peuvent rivaliser avec les solutions fermées les plus avancées du marché.

Ce modèle s'adresse aux développeurs, chercheurs et entreprises souhaitant bénéficier de capacités de traitement du langage naturel de pointe sans les contraintes liées aux modèles propriétaires, notamment en matière de coûts et de transparence.

Caractéristiques clés et architecture

Falcon 180B est construit sur une architecture causal decoder-only, optimisée pour les tâches de génération de texte et de compréhension linguistique avancée. Ce modèle est une évolution échelonnée du Falcon 40B, intégrant des innovations architecturales importantes pour améliorer la scalabilité et les performances.

L'architecture repose sur plusieurs innovations clés, notamment l'utilisation de l'attention multiquery qui permet d'améliorer l'efficacité du calcul tout en maintenant des performances élevées sur des contextes longs. Cette approche réduit la consommation mémoire pendant l'inférence, facilitant ainsi le déploiement sur une variété de configurations matérielles.

Le modèle dispose d'un contexte étendu qui permet de traiter des séquences de texte plus longues que la plupart des modèles concurrents, ce qui est particulièrement avantageux pour les applications nécessitant une compréhension de documents longs ou des conversations complexes.

180 milliards de paramètres
Architecture causal decoder-only
Attention multiquery pour l'évolutivité
Entraînement sur 3,5 billions de tokens de RefinedWeb
Licence Apache 2.0 pour utilisation commerciale
Disponible en versions base et chat

Performance et benchmarks

Falcon 180B a obtenu des résultats exceptionnels sur les principaux benchmarks de performance des modèles linguistiques. Sur le benchmark MMLU (Massive Multitask Language Understanding), le modèle atteint un score de 92,7%, dépassant la plupart des modèles open-source existants et se rapprochant des performances des meilleurs modèles propriétaires.

Falcon 180B : Le géant open-source de 180 milliards de paramètres qui domine les classements

Introduction

Caractéristiques clés et architecture

Performance et benchmarks

Pricing API

Tableau comparatif

Cas d'utilisation

Premiers pas

Comparison

Sources