Введение

Databricks радикально изменила ландшафт открытых языковых моделей с релизом DBRX, мощной модели с 132 миллиардами параметров, разработанной по архитектуре Mixture of Experts (MoE). Выпущенная 27 марта 2024 года, DBRX устанавливает новые стандарты производительности среди открытых моделей, обеспечивая превосходные результаты в задачах программирования, рассуждения и понимания естественного языка.

Эта модель особенно важна для разработчиков и инженеров ИИ, поскольку она сочетает в себе масштаб и производительность с полной открытостью и лицензией Apache 2.0, что позволяет использовать её в коммерческих приложениях без ограничений. DBRX представляет собой значительный шаг вперед в democratization искусственного интеллекта, предлагая корпоративный уровень возможностей с открытым исходным кодом.

С активными 36 миллиардами параметров из общего объема 132 миллиардов, DBRX демонстрирует эффективность архитектуры MoE, позволяя достичь высокой производительности при относительно низком энергопотреблении. Это делает её идеальной для развертывания в различных сценариях, от локальных сред до облачных платформ.

Модель сразу же получила признание за превосходство над Llama 2 70B и Mixtral, что свидетельствует о её потенциале стать новым эталоном среди открытых языковых моделей.

Ключевые особенности и архитектура

DBRX основана на архитектуре Mixture of Experts (MoE), которая использует 132 миллиарда общих параметров, но активирует только 36 миллиардов параметров за один прямой проход. Эта архитектура позволяет модели эффективно масштабироваться, не увеличивая пропорционально вычислительные затраты.

Основные технические характеристики включают контекстное окно 32K токенов, что значительно превышает многие современные модели и позволяет обрабатывать более длинные последовательности текста. Модель также поддерживает максимальный выходной размер 8K токенов, что делает её подходящей для генерации сложного содержимого.

Архитектура MoE позволяет DBRX динамически выбирать наиболее подходящие эксперты для конкретной задачи, что повышает точность и эффективность. Это особенно важно для разнообразных рабочих нагрузок, где различные части модели могут специализироваться на разных аспектах обработки языка.

Модель была обучена на тщательно подобранном наборе данных, включающем широкий спектр текстов, кода и диалоговых данных, что делает её универсальной для различных применений.

132B общих параметров, 36B активных параметров (MoE)
Контекстное окно: 32K токенов
Максимальный выход: 8K токенов

DBRX от Databricks: Открытая модель с 132B параметрами превосходит конкурентов

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Цены на API

Таблица сравнения

Применения

Начало работы

Comparison

Sources