Введение

GPT-J, представленная EleutherAI 9 июня 2021 года, стала настоящим прорывом в области открытых языковых моделей. С 6 миллиардами параметров, это первая модель такого уровня, которую можно было запустить на потребительском оборудовании, что сделало передовые технологии искусственного интеллекта доступными для более широкой аудитории разработчиков и исследователей.

Эта модель открыла новую эпоху в democratization ИИ, позволяя разработчикам экспериментировать с мощными языковыми моделями без необходимости использовать дорогостоящие облачные вычисления или специализированное оборудование. GPT-J стала мостом между закрытыми проприетарными решениями и открытым сообществом машинного обучения.

В отличие от своих предшественников, GPT-J была разработана с учетом эффективности и доступности, что сделало ее популярным выбором для локальных приложений и исследовательских проектов. Модель быстро завоевала признание в сообществе благодаря своей способности генерировать качественный текст и выполнять различные задачи обработки естественного языка.

Ключевые особенности и архитектура

GPT-J использует архитектуру, вдохновленную GPT-2, но с важными улучшениями, включая Rotary Position Embeddings (RoPE) и плотное внимание вместо разреженного. Модель содержит 6 миллиардов параметров, что делает ее сопоставимой по масштабу с некоторыми версиями GPT-3, но значительно более доступной для локального использования.

Архитектура модели включает 28 слоев трансформера с размером скрытого состояния 4096 и 16 голов внимания. Контекстное окно составляет 2048 токенов, что позволяет модели понимать относительно длинные последовательности текста. Особенностью является использование нормализации LayerNorm после слоев внимания и FFN, что отличается от оригинальной архитектуры GPT-2.

Модель обучалась на датасете The Pile, который представляет собой тщательно подобранную коллекцию различных текстовых источников, включая научные статьи, книги, веб-страницы и другие виды текстового контента. Это обеспечивает хорошую обобщающую способность модели для различных доменов.

6 миллиардов параметров
Rotary Position Embeddings (RoPE)
Контекстное окно 2048 токенов
Обучение на The Pile dataset
28 слоев трансформера

Производительность и бенчмарки

GPT-J показывает впечатляющие результаты на стандартных бенчмарках, часто превосходя модели сопоставимого размера. На бенчмарке MMLU (Massive Multitask Language Understanding) модель набрала около 51.7%, что значительно лучше, чем у GPT-2 эквивалентного размера. На тесте HellaSwag модель достигла 82.2%, демонстрируя хорошее понимание commonsense рассуждений.

GPT-J: Первый открытый LLM с 6 миллиардами параметров для потребительского хардвара

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование API

Таблица сравнения

Сценарии использования

Начало работы

Comparison

Sources