Skip to content
Назад к Блогу
Model Releases

OPT 175B: Мета раскрывает свой открытый аналог GPT-3 с полными весами

Модель OPT от Meta AI предоставляет исследовательскому сообществу 175 миллиардов параметров и полные веса модели для продвинутых ИИ исследований.

3 мая 2022 г.
Model ReleaseOPT
OPT - official image

Введение

В мае 2022 года Meta AI представила OPT (Open Pre-trained Transformer), мощную языковую модель с 175 миллиардами параметров, которая стала прямым конкурентом GPT-3 в открытом исходном коде. Это событие стало поворотным моментом в области искусственного интеллекта, поскольку Meta решила поделиться своими передовыми разработками с исследовательским сообществом, предоставив полный доступ к весам модели.

OPT не просто копирует достижения OpenAI - это стратегический шаг Meta в сторону более открытого и сотруднического подхода к ИИ исследованиям. Модель была разработана командой FAIR (Facebook AI Research) и сразу же вызвала интерес со стороны академических кругов и коммерческих организаций.

Релиз был особенно значим, потому что он произошел в период, когда крупные технологические компании активно конкурировали за лидерство в области ИИ. Meta тем самым заявила о своем стремлении быть ключевым игроком на этом рынке, несмотря на ограничения по доступу к своим моделям.

Ключевые особенности и архитектура

OPT основана на архитектуре трансформера и содержит внушительные 175 миллиардов параметров, что делает ее эквивалентом по масштабу GPT-3. Архитектура использует декодер с вниманием только для предыдущих токенов, что позволяет модели генерировать последовательности текста на основе контекста.

Модель обучена на обширной коллекции текстов из интернета, книг, статей и других источников. В отличие от некоторых закрытых моделей, Meta предоставила полные веса модели, что позволяет исследователям полностью анализировать и модифицировать модель под свои нужды.

Контекстное окно модели составляет 2048 токенов, что обеспечивает хорошую способность к пониманию длинных текстов. Архитектура включает в себя стандартные компоненты трансформеров: многоуровневое внимание, позиционные эмбеддинги и нормализацию слоев.

  • 175 миллиардов параметров
  • Декодерная архитектура трансформера
  • Контекстное окно: 2048 токенов
  • Полные веса модели доступны
  • Обучение на большом объеме текстовых данных

Производительность и бенчмарки

OPT показывает впечатляющие результаты на различных бенчмарках. На тесте MMLU (Massive Multitask Language Understanding) модель набирает около 45-50 баллов, что сравнимо с ранними версиями GPT-3. В задачах на логическое мышление и математику модель демонстрирует умеренные результаты, набирая около 20-30% точности на задачах GSM8K.

В задачах на генерацию текста и понимание естественного языка OPT показывает сопоставимые результаты с другими моделями того же размера. На бенчмарке HumanEval модель достигает примерно 9-15% точности в задачах программирования, что уступает современным специализированным моделям, но остается конкурентоспособным для своей эпохи.

Сравнение с предыдущими версиями показывает значительное улучшение производительности при увеличении масштаба модели. OPT-175B превосходит OPT-13B и другие меньшие версии по всем метрикам, подтверждая закон масштаба в глубоком обучении.

Цены API

OPT предоставляется бесплатно для некоммерческого использования и исследовательских целей, что является одним из главных преимуществ модели. Поскольку модель полностью открыта, нет необходимости в платных API-ключа или тарифных планов для базового доступа.

Для коммерческого использования Meta предлагает лицензионные соглашения, которые могут включать оплату за использование. Однако конкретные цены на API не были объявлены официально, так как модель предназначена в первую очередь для локального развертывания.

Это делает OPT особенно привлекательной для стартапов, исследовательских институтов и университетов, которым нужно протестировать большие языковые модели без значительных финансовых затрат на инфраструктуру.

Таблица сравнения

Сравнивая OPT с другими крупными моделями, становится очевидным, что она занимает уникальное положение в экосистеме открытых ИИ моделей. Ее сочетание масштаба, доступности и производительности делает ее важным инструментом для исследовательского сообщества.

Сценарии использования

OPT лучше всего подходит для исследовательских задач, где требуется полный контроль над моделью. Она эффективна в задачах генерации текста, абстрактного резюмирования, анализа тональности и других NLP задачах. Благодаря открытым весам, исследователи могут адаптировать модель под специфические домены.

Модель может использоваться для создания чат-ботов, систем автоматического реферирования и даже для начальных этапов разработки агентов. Однако для задач программирования и сложного рассуждения она уступает современным специализированным моделям.

Разработчики могут использовать OPT для RAG (Retrieval-Augmented Generation) систем, особенно когда важна возможность локального развертывания без зависимости от облачных API.

Начало работы

Доступ к OPT можно получить через официальный репозиторий Hugging Face, где находятся предварительно обученные веса модели. Для запуска модели рекомендуется использовать библиотеку Transformers от Hugging Face, которая предоставляет простой интерфейс для загрузки и использования модели.

Поскольку модель имеет 175 миллиардов параметров, для локального запуска потребуется значительная вычислительная мощность, включая GPU с большим объемом памяти или распределенные системы. Альтернативно, можно использовать облачные платформы, поддерживающие Hugging Face Spaces.

Документация и примеры использования доступны на официальном сайте проекта и в научной статье, опубликованной Meta AI.


Comparison

Model: OPT-175B | Context: 2048 | Max Output: 2048 | Input $/M: Free | Output $/M: Free | Strength: Open weights, research

Model: GPT-3 175B | Context: 2048 | Max Output: 2048 | Input $/M: $4.00 | Output $/M: $12.00 | Strength: Commercial use

Model: BLOOM-176B | Context: 2048 | Max Output: 2048 | Input $/M: Free | Output $/M: Free | Strength: Multilingual

API Pricing — Input: Free for research / Output: Free for research / Context: No official commercial pricing available


Sources

OPT Paper