Introduction

En mai 2022, Meta AI a lancé un pavé dans la mare de l'intelligence artificielle avec la publication de son modèle OPT (Open Pre-trained Transformer), un géant de 175 milliards de paramètres entièrement open source. Conçu comme une réponse directe à GPT-3 d'OpenAI, OPT représente un tournant majeur dans l'écosystème de l'IA générative, offrant aux chercheurs et développeurs un accès complet aux poids du modèle - une première dans cette catégorie de modèles de grande échelle.

Cette initiative ambitieuse de Meta vise à démocratiser l'accès aux grands modèles linguistiques tout en favorisant la transparence et la reproductibilité dans la recherche en IA. Contrairement à d'autres modèles propriétaires, OPT permet aux communautés académiques et industrielles d'étudier, modifier et améliorer librement l'architecture du modèle.

Le timing du lancement est stratégique, intervenant alors que les débats sur l'éthique, la sécurité et l'accessibilité des grands modèles linguistiques battent leur plein dans la communauté scientifique.

Avec OPT, Meta positionne clairement ses ambitions dans la course à l'IA ouverte et transparente.

Caractéristiques Clés et Architecture

OPT se distingue par son architecture transformer classique optimisée pour l'échelle. Le modèle compte exactement 175 milliards de paramètres, plaçant OPT au même niveau que GPT-3 en termes de capacité de traitement du langage. Cette taille massive lui permet de capturer des relations complexes entre les mots et de générer du texte cohérent sur de longues séquences.

L'architecture repose sur une approche causal masking, ce qui signifie que le modèle prédit chaque token basé uniquement sur les tokens précédents dans la séquence. Cette conception est particulièrement efficace pour les tâches de génération de texte et de complétion.

Meta a également publié plusieurs variantes d'OPT avec différentes tailles de paramètres, allant de 125 millions à 175 milliards, permettant ainsi aux chercheurs de comparer les performances selon l'échelle du modèle.

La structure inclut des couches attention multi-têtes avec 96 têtes d'attention et des dimensions cachées de 12288 pour la version 175B.

175 milliards de paramètres
Architecture transformer causale
Variantes disponibles : 125M, 350M, 1.3B, 2.7B, 6.7B, 13B, 30B, 66B, 175B
Contexte maximal : 2048 tokens
Poids complets publiés pour recherche

OPT 175B : Le Modèle Open Source de Meta qui Défie GPT-3

Introduction

Caractéristiques Clés et Architecture

Performances et Benchmarks

Tarification API

Tableau Comparatif

Cas d'Utilisation

Premiers Pas

Comparison

Sources