Skip to content
Retour au Blog
Model Releases

Transformer de Google : L'architecture révolutionnaire qui a tout changé

Découvrez comment l'architecture Transformer de Google, introduite en 2017, est devenue la fondation de tous les grands modèles linguistiques modernes.

12 juin 2017
Model ReleaseTransformer
Transformer - official image

Introduction

Le 12 juin 2017, Google a publié un article de recherche intitulé 'Attention Is All You Need', qui allait révolutionner le paysage du traitement du langage naturel. Ce papier introduisait l'architecture Transformer, une innovation architecturale qui a jeté les bases de tous les grands modèles linguistiques modernes que nous connaissons aujourd'hui.

À une époque où les réseaux de neurones récurrents (RNN) dominaient le domaine, cette architecture entièrement basée sur le mécanisme d'attention a bouleversé les approches traditionnelles. Le modèle Transformer a non seulement amélioré considérablement les performances sur diverses tâches de NLP, mais il a également permis un parallélisme beaucoup plus efficace pendant l'entraînement.

Cette publication marque un tournant historique dans le développement des modèles de langage, influençant directement des architectures comme BERT, GPT, T5 et tous les grands modèles actuels. Sans Transformer, il n'y aurait pas eu de ChatGPT, de Gemini ou de Claude.

L'impact de cette architecture continue de se faire sentir aujourd'hui, plus de six ans après sa publication initiale, démontrant la vision prophétique des chercheurs de Google Brain qui ont développé ce modèle.

Caractéristiques clés et architecture

L'architecture Transformer repose entièrement sur le mécanisme d'attention multi-têtes, abandonnant complètement les récurrences et les convolutions utilisées dans les modèles précédents. Cette conception permet un parallélisme massif pendant l'entraînement, ce qui a été crucial pour l'échelle des modèles modernes.

Le modèle est composé d'un encodeur et d'un décodeur, chacun contenant plusieurs couches identiques. Chaque couche d'encodeur comprend un sous-couche d'attention multi-têtes et un sous-couche feed-forward entièrement connectée, avec des connexions résiduelles et une normalisation par lots.

L'attention multi-têtes permet au modèle de se concentrer simultanément sur différentes parties de la séquence d'entrée, capturant ainsi des relations complexes entre les mots distants. Les embeddings positionnels sont ajoutés aux embeddings de mot pour conserver l'information de position.

Bien que le modèle original ait été entraîné avec environ 65 millions de paramètres, l'architecture a prouvé qu'elle pouvait être mise à l'échelle à des milliards de paramètres, comme le montrent les modèles modernes.

  • Architecture entièrement basée sur l'attention multi-têtes
  • Encodeur-décodeur avec connexions résiduelles
  • Embeddings positionnels pour conserver l'ordre des séquences
  • Parallélisme massif pendant l'entraînement
  • Mécanisme d'attention auto-encodante et encodante-décodante

Performance et benchmarks

Le modèle Transformer a établi de nouvelles références sur plusieurs benchmarks de traitement du langage naturel. Sur la tâche de traduction WMT 2014 English-to-German, le modèle a atteint un BLEU de 28.4, surpassant les résultats précédents. Pour la tâche WMT 2014 English-to-French, il a obtenu un score de BLEU de 41.8.

Ces résultats étaient particulièrement impressionnants compte tenu du fait que le modèle n'utilisait aucune convolution ni récurrence. La vitesse d'entraînement était également nettement supérieure à celle des modèles RNN, grâce au parallélisme inhérent à l'architecture.

Le modèle a montré une capacité exceptionnelle à capturer des dépendances à longue distance, ce qui était un défi majeur pour les RNN. Cette capacité s'est avérée cruciale pour les applications modernes de génération de texte et de compréhension du langage.

Les performances sur les tâches de classification de texte, de réponse aux questions et de résumé automatique ont également été améliorées, établissant des bases solides pour les recherches futures.

Prix API

Le modèle Transformer original n'était pas commercialisé comme un service API payant, mais plutôt publié comme une contribution de recherche open-source. Cependant, les modèles dérivés modernes basés sur cette architecture sont disponibles via des services cloud.

Aujourd'hui, les modèles basés sur l'architecture Transformer sont accessibles via diverses plateformes avec des structures de prix variables selon le fournisseur. Les coûts varient typiquement entre 0,10 $ et 2,00 $ par million de jetons d'entrée, et entre 0,20 $ et 4,00 $ par million de jetons de sortie.

De nombreux fournisseurs offrent des niveaux gratuits limités pour permettre aux développeurs de tester les modèles. Ces structures tarifaires reflètent la complexité et les capacités des modèles dérivés modernes.

La gratuité de l'architecture originale a permis une adoption massive par la communauté de recherche, conduisant à des avancées rapides dans le domaine.

Comparaison avec les concurrents

Le tableau ci-dessous présente une comparaison entre l'architecture Transformer originale et ses successeurs modernes qui en ont hérité les principes fondamentaux.

Tous les modèles contemporains, qu'ils soient de Google, OpenAI, Anthropic ou Meta, reposent sur les principes établis par l'architecture Transformer originale, bien qu'ils y aient apporté des améliorations et des variations spécifiques.

Cas d'utilisation

L'architecture Transformer s'est révélée extrêmement polyvalente, conviant à une large gamme d'applications de traitement du langage naturel. La traduction automatique a été l'une des premières applications réussies, avec des performances exceptionnelles sur plusieurs paires de langues.

Les modèles dérivés sont excellents pour la génération de texte créatif, la synthèse de documents, la réponse aux questions et la classification de texte. L'attention multi-têtes permet de capturer des relations sémantiques complexes nécessaires pour ces tâches.

Dans le domaine de la programmation, les modèles basés sur Transformer excellent dans les tâches de complétion de code, de génération de tests unitaires et même de correction de bogues. La capacité à comprendre le contexte à long terme est particulièrement précieuse ici.

Les systèmes de récupération augmentée générative (RAG) exploitent également les forces de l'architecture Transformer pour améliorer la pertinence des réponses en combinant la recherche d'informations avec la génération de texte.

Commencer à utiliser

L'architecture Transformer originale est disponible gratuitement via le code open-source publié par Google. Les développeurs peuvent implémenter leur propre version en utilisant TensorFlow ou PyTorch en suivant les spécifications détaillées dans le papier original.

Pour les applications modernes, des bibliothèques comme Hugging Face Transformers fournissent des implémentations prêtes à l'emploi de modèles basés sur l'architecture Transformer. Ces bibliothèques offrent des interfaces simples pour charger, entraîner et déployer des modèles.

Google Cloud Platform propose également des services de modèles pré-entraînés via Vertex AI, permettant aux développeurs d'accéder à des modèles basés sur Transformer sans avoir à construire des modèles à partir de zéro.

La documentation officielle et les exemples de code sont largement disponibles, facilitant l'adoption par les développeurs débutants comme expérimentés.


Comparison

Model: Transformer Original | Context: 4096 tokens | Max Output: 4096 tokens | Input $/M: N/A (Research) | Output $/M: N/A (Research) | Strength: Foundation architecture

Model: BERT | Context: 512 tokens | Max Output: 512 tokens | Input $/M: N/A (Free) | Output $/M: N/A (Free) | Strength: Bidirectional understanding

Model: GPT-3 | Context: 2048-4096 tokens | Max Output: 2048 tokens | Input $/M: $0.0015-$0.02 | Output $/M: $0.002-$0.02 | Strength: Text generation

Model: T5 | Context: 512-1024 tokens | Max Output: 512 tokens | Input $/M: N/A (Free) | Output $/M: N/A (Free) | Strength: Text-to-text framework

API Pricing — Input: N/A - Research Model / Output: N/A - Research Model / Context: 4096 token sequence length


Sources

Attention Is All You Need Paper

TensorFlow Transformer Tutorial

Hugging Face Transformers Documentation

Google Research Blog Post