Introduction

Le Switch Transformer, introduit par Google Research en janvier 2021, représente une avancée majeure dans le domaine du traitement du langage naturel (NLP). Ce modèle de 1,6 trillion de paramètres est basé sur l'architecture T5 mais implémente une approche novatrice appelée Mixture-of-Experts (MoE) qui permet un passage à l'échelle plus efficace que les modèles traditionnels densément connectés.

Alors que la course aux paramètres devient de plus en plus coûteuse et énergivore, le Switch Transformer démontre qu'il est possible d'atteindre des performances exceptionnelles tout en optimisant l'utilisation des ressources computationnelles. Cette innovation ouvre la voie à des modèles encore plus grands et plus performants dans le futur.

Le modèle a été conçu pour résoudre les limitations d'échelle des architectures précédentes en combinant des techniques de routage intelligent avec des experts spécialisés, permettant ainsi à chaque token d'être traité par les parties les plus pertinentes du modèle.

La publication de ce modèle open source a permis à la communauté de chercheurs et développeurs d'explorer de nouvelles approches pour l'échelle efficace du NLP.

Caractéristiques clés et architecture

Le Switch Transformer se distingue par son architecture MoE (Mixture-of-Experts) qui active seulement une fraction des paramètres pour chaque token d'entrée. Contrairement aux modèles traditionnels où tous les paramètres sont utilisés pour chaque entrée, cette approche permet de maintenir des modèles extrêmement volumineux tout en gardant une complexité computationnelle gérable.

Avec 1,6 trillion de paramètres, il s'agit de l'un des modèles les plus volumineux jamais créés à l'époque de sa sortie. L'architecture repose sur un mécanisme de routage qui détermine quels experts doivent être activés pour chaque token, permettant ainsi une spécialisation fine des connaissances.

Le modèle est construit sur l'architecture T5 de base, ce qui signifie qu'il bénéficie des avantages de l'encodage-décodage tout en ajoutant la flexibilité du routage expert. Chaque expert est essentiellement un sous-réseau qui traite des aspects spécifiques des données d'entrée.

Les modèles Switch sont disponibles dans différentes tailles, allant de 8 à 256 experts, permettant aux développeurs de choisir le bon compromis entre performance et coût computationnel selon leurs besoins spécifiques.

Architecture MoE (Mixture-of-Experts) avec routage expert
1,6 trillion de paramètres au total

Switch Transformer : Le modèle MoE de 1,6 trillion de paramètres qui révolutionne l'échelle du NLP

Introduction

Caractéristiques clés et architecture

Performances et benchmarques

Tarification API

Tableau comparatif

Cas d'utilisation

Commencer à utiliser le modèle

Comparison

Sources