Введение

В июне 2020 года Google представила GShard, первую в мире языковую модель с архитектурой Mixture of Experts (MoE), достигающую невероятных 600 миллиардов параметров. Этот прорыв стал важной вехой в развитии искусственного интеллекта, демонстрируя, как можно эффективно масштабировать модели до беспрецедентных размеров без экспоненциального увеличения вычислительных затрат.

GShard представляет собой принципиально новое направление в области масштабирования языковых моделей. В отличие от традиционных плотных моделей, где все параметры активируются при каждом вызове, архитектура MoE позволяет использовать только подмножество параметров в зависимости от входных данных, что делает масштабирование более экономичным.

Модель была разработана специально для задач машинного перевода, но её влияние распространилось на всё сообщество ИИ, показав путь к созданию ещё более крупных и эффективных систем в будущем. GShard стал предшественником многих современных крупномасштабных моделей, включая последующие разработки Google.

Ключевые особенности и архитектура

Архитектура GShard основана на концепции Mixture of Experts, где модель содержит 600 миллиардов параметров, разделённых на несколько экспертных подсетей. При каждом вызове активируется только небольшая часть этих экспертов, обычно около 10-20% от общего количества параметров. Это позволяет модели эффективно использовать вычислительные ресурсы и масштабироваться до огромных размеров.

GShard использует гибридный подход, сочетая преимущества масштабирования по глубине и ширине. Модель состоит из 64 экспертов, каждый из которых имеет 9.4 миллиарда параметров. Система маршрутизации определяет, какие эксперты должны обрабатывать конкретный входной запрос, обеспечивая адаптивность и специализацию.

Модель была оптимизирована для задач машинного перевода между различными языками, особенно для пар с низким ресурсом. Архитектура MoE позволила улучшить качество перевода за счёт лучшего представления языковых особенностей каждого эксперта.

600 миллиардов параметров MoE
Гибридная архитектура с 64 экспертами
Динамическая маршрутизация параметров
Оптимизация для машинного перевода

Производительность и бенчмарки

GShard продемонстрировал значительное улучшение производительности по сравнению с предыдущими моделями Google в задачах машинного перевода. На тестовых наборах WMT качество перевода улучшилось на 1.3 BLEU по сравнению с базовой моделью Transformer с 137 миллионами параметров. Это стало возможным благодаря эффективному использованию параметров и специализации экспертов.

В задачах многоканального перевода модель показала особенно хорошие результаты, преодолев барьеры, связанные с ограниченными ресурсами для менее распространённых языковых пар. GShard смог достичь сопоставимого качества с меньшими вычислительными затратами по сравнению с плотными моделями аналогичного размера.

Модель также показала улучшенные результаты в задачах понимания естественного языка, хотя и не была оптимизирована в первую очередь для них. Это указывает на универсальность архитектуры MoE и её потенциал для применения в различных NLP задачах.

+1.3 BLEU на WMT тестах
Улучшенное качество перевода для языков с низким ресурсом
Эффективное использование параметров
Потенциал для других NLP задач

Ценообразование API

GShard не был коммерчески доступен через API, так как это исследовательская модель, предназначенная для демонстрации технологических возможностей. Однако Google использовала полученные знания для разработки последующих коммерческих решений, таких как различные версии PaLM и Gemini.

Если бы GShard был доступен через API, его цена, вероятно, составляла бы значительно больше, чем у современных моделей, из-за его масштаба и сложности. Оценки показывают, что стоимость вывода могла бы быть в 3-5 раз выше, чем у моделей с 10-50 миллиардами параметров.

Стоимость инференса для такой крупной модели была бы ограничивающим фактором для широкого внедрения. Однако концепция MoE, представленная в GShard, легла в основу более экономичных коммерческих решений.

Не доступна коммерчески
Высокая теоретическая стоимость инференса
Основа для последующих коммерческих моделей

Сравнительная таблица

Сравнение GShard с другими крупными моделями того времени показывает его уникальные характеристики. Хотя другие модели также были масштабными, только GShard использовал архитектуру MoE в таком масштабе.

Таблица ниже демонстрирует ключевые различия между GShard и конкурентами, включая количество параметров, контекстные возможности и основные сильные стороны.

Сценарии использования

GShard был разработан в первую очередь для задач машинного перевода, особенно для сложных языковых пар с ограниченными обучающими данными. Его архитектура MoE позволяла лучше адаптироваться к особенностям различных языков за счёт специализации экспертов.

Хотя модель не была предназначена для программирования или сложного логического мышления, её архитектура заложила основу для будущих моделей, которые могут эффективно справляться с этими задачами. Принципы MoE были применены в последующих разработках Google.

GShard также может быть полезен для исследовательских целей, особенно в области масштабирования языковых моделей и изучения эффективности архитектур с разреженными параметрами.

Машинный перевод между языками
Языки с низким ресурсом
Исследования масштабирования
Прототипирование будущих архитектур

Начало работы

GShard не является коммерчески доступной моделью и не может быть использован напрямую через API или SDK. Это исследовательская модель, результаты которой были опубликованы в научных статьях и использовались внутри Google для дальнейших разработок.

Разработчики могут изучать архитектуру MoE через документацию и исследования Google, а также использовать открытые реализации, вдохновлённые GShard. Многие современные фреймворки, такие как JAX и TensorFlow, поддерживают реализации MoE архитектур.

Для практического применения рекомендуется обратиться к более современным моделям Google, таким как Gemini или PaLM, которые используют усовершенствованные версии архитектур, представленных в GShard.

Не коммерчески доступна
Исследовательская модель
Вдохновляет современные реализации
Использование через научные публикации

Comparison

API Pricing — Context: Research model not commercially available

Sources

GShard Paper