BLOOM: Исторический прорыв в открытой науке ИИ с первым 176B-параметрическим многоязычным LLM

BLOOM от BigScience представляет собой первый 176-миллиардный параметрический открытый многоязычный языковой модель, созданный более чем 1000 исследователей из 70+ стран.

6 июля 2022 г.

Model ReleaseBLOOM

Введение: Революция в открытой науке ИИ

Когда в июле 2022 года была представлена BLOOM (BigScience Large Open-science Open-access Multilingual Language Model), мир искусственного интеллекта пережил историческое событие. Это был не просто еще один крупный языковой движок - это был первый в истории 176-миллиардный параметрический открытый многоязычный языковой модель, доступный для исследовательского сообщества и разработчиков по всему миру.

Выход BLOOM ознаменовал важнейший момент в democratization искусственного интеллекта. До этого крупные языковые модели были закрыты в лабораториях крупных технологических компаний, что ограничивало доступ к передовым возможностям ИИ только узким кругом специалистов. BLOOM стал символом открытой науки и международного сотрудничества в области ИИ.

Модель была разработана в рамках инициативы BigScience - годового исследовательского проекта, объединившего более 1000 исследователей из более чем 70 стран. Этот масштаб сотрудничества без прецедента в истории ИИ стал возможным благодаря философии открытой науки и стремления к демократизации доступа к передовым технологиям.

Значение BLOOM выходит за рамки просто технических характеристик. Модель стала доказательством того, что международное сотрудничество может создать мощный инструмент ИИ, который будет доступен всем, а не только крупным корпорациям. Это открыло новые возможности для исследований в области обработки естественного языка и прикладного машинного обучения.

Ключевые особенности и архитектура

BLOOM основана на архитектуре трансформеров с 176 миллиардами параметров, что делает ее одной из самых крупных открытых языковых моделей своего времени. Архитектура модели включает в себя 70 слоев декодера с 144 головами внимания, каждый из которых имеет размер 2560. Общее количество параметров распределено между эмбеддингами, слоями внимания и промежуточными проекциями.

Одной из ключевых особенностей BLOOM является ее многоязычность - модель поддерживает 46 различных языков, включая английский, французский, испанский, немецкий, русский, китайский, арабский, хинди и многие другие. Это делает модель особенно ценной для международных приложений и исследований в области межкультурной коммуникации.

Контекстное окно BLOOM составляет 2048 токенов, что позволяет модели обрабатывать относительно длинные последовательности текста. Модель использует байтовое кодирование с обучением слов (BPE) для токенизации входных данных, что обеспечивает эффективную обработку как частотных, так и редких слов в различных языках.

Архитектурные особенности включают в себя Layer Normalization, GELU активации и маскирование будущих позиций для задач генерации. Модель также включает в себя механизмы адаптивного обучения скорости и различные методы регуляризации для предотвращения переобучения во время тренировки.

BLOOM: Исторический прорыв в открытой науке ИИ с первым 176B-параметрическим многоязычным LLM

Введение: Революция в открытой науке ИИ

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование API

Сравнительная таблица

Сценарии использования

Начало работы

Comparison

Sources