Introduction

Le 12 juin 2017, Google a publié un article de recherche intitulé 'Attention Is All You Need', qui allait révolutionner le paysage du traitement du langage naturel. Ce papier introduisait l'architecture Transformer, une innovation architecturale qui a jeté les bases de tous les grands modèles linguistiques modernes que nous connaissons aujourd'hui.

À une époque où les réseaux de neurones récurrents (RNN) dominaient le domaine, cette architecture entièrement basée sur le mécanisme d'attention a bouleversé les approches traditionnelles. Le modèle Transformer a non seulement amélioré considérablement les performances sur diverses tâches de NLP, mais il a également permis un parallélisme beaucoup plus efficace pendant l'entraînement.

Cette publication marque un tournant historique dans le développement des modèles de langage, influençant directement des architectures comme BERT, GPT, T5 et tous les grands modèles actuels. Sans Transformer, il n'y aurait pas eu de ChatGPT, de Gemini ou de Claude.

L'impact de cette architecture continue de se faire sentir aujourd'hui, plus de six ans après sa publication initiale, démontrant la vision prophétique des chercheurs de Google Brain qui ont développé ce modèle.

Caractéristiques clés et architecture

L'architecture Transformer repose entièrement sur le mécanisme d'attention multi-têtes, abandonnant complètement les récurrences et les convolutions utilisées dans les modèles précédents. Cette conception permet un parallélisme massif pendant l'entraînement, ce qui a été crucial pour l'échelle des modèles modernes.

Le modèle est composé d'un encodeur et d'un décodeur, chacun contenant plusieurs couches identiques. Chaque couche d'encodeur comprend un sous-couche d'attention multi-têtes et un sous-couche feed-forward entièrement connectée, avec des connexions résiduelles et une normalisation par lots.

L'attention multi-têtes permet au modèle de se concentrer simultanément sur différentes parties de la séquence d'entrée, capturant ainsi des relations complexes entre les mots distants. Les embeddings positionnels sont ajoutés aux embeddings de mot pour conserver l'information de position.

Bien que le modèle original ait été entraîné avec environ 65 millions de paramètres, l'architecture a prouvé qu'elle pouvait être mise à l'échelle à des milliards de paramètres, comme le montrent les modèles modernes.

Architecture entièrement basée sur l'attention multi-têtes
Encodeur-décodeur avec connexions résiduelles

Transformer de Google : L'architecture révolutionnaire qui a tout changé

Introduction

Caractéristiques clés et architecture

Performance et benchmarks

Prix API

Comparaison avec les concurrents

Cas d'utilisation

Commencer à utiliser

Comparison

Sources