Введение

В мае 2022 года Meta AI представила OPT (Open Pre-trained Transformer), мощную языковую модель с 175 миллиардами параметров, которая стала прямым конкурентом GPT-3 в открытом исходном коде. Это событие стало поворотным моментом в области искусственного интеллекта, поскольку Meta решила поделиться своими передовыми разработками с исследовательским сообществом, предоставив полный доступ к весам модели.

OPT не просто копирует достижения OpenAI - это стратегический шаг Meta в сторону более открытого и сотруднического подхода к ИИ исследованиям. Модель была разработана командой FAIR (Facebook AI Research) и сразу же вызвала интерес со стороны академических кругов и коммерческих организаций.

Релиз был особенно значим, потому что он произошел в период, когда крупные технологические компании активно конкурировали за лидерство в области ИИ. Meta тем самым заявила о своем стремлении быть ключевым игроком на этом рынке, несмотря на ограничения по доступу к своим моделям.

Ключевые особенности и архитектура

OPT основана на архитектуре трансформера и содержит внушительные 175 миллиардов параметров, что делает ее эквивалентом по масштабу GPT-3. Архитектура использует декодер с вниманием только для предыдущих токенов, что позволяет модели генерировать последовательности текста на основе контекста.

Модель обучена на обширной коллекции текстов из интернета, книг, статей и других источников. В отличие от некоторых закрытых моделей, Meta предоставила полные веса модели, что позволяет исследователям полностью анализировать и модифицировать модель под свои нужды.

Контекстное окно модели составляет 2048 токенов, что обеспечивает хорошую способность к пониманию длинных текстов. Архитектура включает в себя стандартные компоненты трансформеров: многоуровневое внимание, позиционные эмбеддинги и нормализацию слоев.

175 миллиардов параметров
Декодерная архитектура трансформера
Контекстное окно: 2048 токенов
Полные веса модели доступны
Обучение на большом объеме текстовых данных

Производительность и бенчмарки

OPT показывает впечатляющие результаты на различных бенчмарках. На тесте MMLU (Massive Multitask Language Understanding) модель набирает около 45-50 баллов, что сравнимо с ранними версиями GPT-3. В задачах на логическое мышление и математику модель демонстрирует умеренные результаты, набирая около 20-30% точности на задачах GSM8K.

В задачах на генерацию текста и понимание естественного языка OPT показывает сопоставимые результаты с другими моделями того же размера. На бенчмарке HumanEval модель достигает примерно 9-15% точности в задачах программирования, что уступает современным специализированным моделям, но остается конкурентоспособным для своей эпохи.

OPT 175B: Мета раскрывает свой открытый аналог GPT-3 с полными весами

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Цены API

Таблица сравнения

Сценарии использования

Начало работы

Comparison

Sources