Introduction

GShard, publié par Google en juin 2020, représente une avancée majeure dans le domaine des modèles linguistiques à grande échelle. Ce modèle de type Mixture of Experts (MoE) avec 600 milliards de paramètres a été spécifiquement conçu pour la traduction automatique et a ouvert la voie à l'utilisation de modèles extrêmement volumineux tout en maintenant une efficacité computationnelle raisonnable.

En tant que premier modèle MoE à cette échelle, GShard a démontré qu'il était possible d'entraîner et d'utiliser des modèles de très grande taille sans multiplier les coûts de calcul de manière exponentielle. Cette innovation a eu un impact profond sur le développement ultérieur des grands modèles de langage et a influencé les recherches futures sur l'efficacité des modèles linguistiques.

Le modèle a été développé par Google Research et a été principalement utilisé pour améliorer les performances des systèmes de traduction automatique multilingue. Il a introduit des techniques d'activation conditionnelle qui permettent de n'utiliser qu'une fraction des paramètres pour chaque exemple de traitement, rendant ainsi possible l'utilisation de modèles massifs sur des infrastructures existantes.

Bien que GShard ne soit pas commercialisé comme un service accessible au public, son architecture et ses principes sous-jacents ont été intégrés dans les systèmes internes de Google et ont influencé de nombreux modèles ultérieurs de la gamme Google AI.

Caractéristiques clés et architecture

L'architecture de GShard repose sur le concept de Mixture of Experts, où plusieurs sous-réseaux experts spécialisés sont activés sélectivement selon le contenu du texte traité. Cela permet d'avoir un grand nombre total de paramètres tout en n'utilisant qu'une petite fraction de ces paramètres pour chaque exemple spécifique.

Avec 600 milliards de paramètres, GShard est l'un des plus grands modèles jamais créés à l'époque de sa sortie. L'architecture MoE permet d'atteindre des performances similaires à celles des modèles denses beaucoup plus petits tout en offrant une capacité de représentation significativement supérieure.

Le modèle utilise une technique d'experts conditionnels qui active dynamiquement différentes parties du réseau selon les besoins du contexte. Chaque 'expert' est un sous-réseau spécialisé dans certains types de tâches ou de contenus, ce qui permet une adaptation fine aux différents domaines de traduction.

La structure MoE de GShard inclut également des mécanismes sophistiqués de routage qui déterminent quels experts doivent être activés pour chaque token d'entrée, optimisant ainsi l'utilisation des ressources computationnelles.

GShard : Le modèle MoE révolutionnaire de Google avec 600 milliards de paramètres

Introduction

Caractéristiques clés et architecture

Performances et benchmarks

Prix API

Tableau comparatif

Cas d'utilisation

Premiers pas

Comparison

Sources