Switch Transformer от Google: Прорыв в масштабировании языковых моделей с 1.6 триллионами параметров

Google представила Switch Transformer - инновационную модель с 1.6 триллионами параметров, использующую архитектуру Mixture of Experts для эффективного масштабирования.

11 января 2021 г.

Model ReleaseSwitch Transformer

Введение

Switch Transformer, представленный Google Research в январе 2021 года, представляет собой революционный подход к созданию крупномасштабных языковых моделей. С 1.6 триллионами параметров, это была одна из самых больших моделей на момент своего выпуска, которая использовала инновационную архитектуру Mixture of Experts (MoE) для достижения высокой эффективности при масштабировании. Модель стала важным шагом вперед в области NLP, доказав, что можно значительно увеличить количество параметров без пропорционального увеличения вычислительных затрат.

Ключевая инновация Switch Transformer заключается в использовании спарсной архитектуры, где только подмножество параметров активируется для каждого входного токена. Это позволяет модели обрабатывать гораздо больше параметров по сравнению с традиционными плотными моделями, при этом сохраняя вычислительную эффективность. Модель основана на архитектуре T5 и демонстрирует значительные улучшения в различных задачах обработки естественного языка.

Выпуск Switch Transformer стал важным событием в сообществе ИИ, поскольку он показал новый путь для масштабирования языковых моделей. Модель не только установила новые рекорды по количеству параметров, но и доказала, что.sparse модели могут быть более эффективными, чем их плотные аналоги при сопоставимой производительности.

Open-source характера проекта также сыграл важную роль в его влиянии на научное сообщество, позволив исследователям и разработчикам по всему миру экспериментировать с новой архитектурой и строить на ее основе свои собственные решения.

Ключевые особенности и архитектура

Switch Transformer - это 1.6-триллионная параметрическая модель, использующая архитектуру Mixture of Experts (MoE), где каждый токен маршрутизируется к определенному эксперту в сети. В отличие от традиционных плотных трансформеров, где все параметры активируются для каждого входа, Switch Transformer активирует только небольшое подмножество параметров на основе механизма маршрутизации. Это позволяет модели эффективно масштабироваться до огромного количества параметров без пропорционального увеличения вычислительных затрат.

Архитектура модели основана на T5, но с ключевыми инновациями, включая Switch Layer, который заменяет стандартные Feed-Forward сети. Механизм маршрутизации использует гаттинг сеть, чтобы определить, какие эксперты должны обработать конкретный токен. Каждый эксперт - это независимая Feed-Forward сеть, обученная специализироваться на определенных аспектах данных или задач.

Модель доступна в нескольких конфигурациях, варьирующихся от 8 до 256 экспертов, что позволяет пользователям выбирать между производительностью и вычислительной эффективностью. Размер контекста модели составляет 1024 токена, что позволяет обрабатывать относительно длинные последовательности текста. Архитектура также включает улучшенные методы стабилизации обучения, такие как Switch-Balance loss, для предотвращения дисбаланса между экспертами.

Switch Transformer от Google: Прорыв в масштабировании языковых моделей с 1.6 триллионами параметров

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование API

Сравнительная таблица

Сценарии использования

Начало работы

Comparison

Sources