Skip to content
Назад к Блогу
Model Releases

DBRX от Databricks: Открытая модель с 132B параметрами превосходит конкурентов

Databricks представляет DBRX - мощную открытую модель с архитектурой Mixture of Experts и 132 миллиардами параметров, доступную под лицензией Apache 2.0.

27 марта 2024 г.
Model ReleaseDBRX
DBRX - official image

Введение

Databricks радикально изменила ландшафт открытых языковых моделей с релизом DBRX, мощной модели с 132 миллиардами параметров, разработанной по архитектуре Mixture of Experts (MoE). Выпущенная 27 марта 2024 года, DBRX устанавливает новые стандарты производительности среди открытых моделей, обеспечивая превосходные результаты в задачах программирования, рассуждения и понимания естественного языка.

Эта модель особенно важна для разработчиков и инженеров ИИ, поскольку она сочетает в себе масштаб и производительность с полной открытостью и лицензией Apache 2.0, что позволяет использовать её в коммерческих приложениях без ограничений. DBRX представляет собой значительный шаг вперед в democratization искусственного интеллекта, предлагая корпоративный уровень возможностей с открытым исходным кодом.

С активными 36 миллиардами параметров из общего объема 132 миллиардов, DBRX демонстрирует эффективность архитектуры MoE, позволяя достичь высокой производительности при относительно низком энергопотреблении. Это делает её идеальной для развертывания в различных сценариях, от локальных сред до облачных платформ.

Модель сразу же получила признание за превосходство над Llama 2 70B и Mixtral, что свидетельствует о её потенциале стать новым эталоном среди открытых языковых моделей.

Ключевые особенности и архитектура

DBRX основана на архитектуре Mixture of Experts (MoE), которая использует 132 миллиарда общих параметров, но активирует только 36 миллиардов параметров за один прямой проход. Эта архитектура позволяет модели эффективно масштабироваться, не увеличивая пропорционально вычислительные затраты.

Основные технические характеристики включают контекстное окно 32K токенов, что значительно превышает многие современные модели и позволяет обрабатывать более длинные последовательности текста. Модель также поддерживает максимальный выходной размер 8K токенов, что делает её подходящей для генерации сложного содержимого.

Архитектура MoE позволяет DBRX динамически выбирать наиболее подходящие эксперты для конкретной задачи, что повышает точность и эффективность. Это особенно важно для разнообразных рабочих нагрузок, где различные части модели могут специализироваться на разных аспектах обработки языка.

Модель была обучена на тщательно подобранном наборе данных, включающем широкий спектр текстов, кода и диалоговых данных, что делает её универсальной для различных применений.

  • 132B общих параметров, 36B активных параметров (MoE)
  • Контекстное окно: 32K токенов
  • Максимальный выход: 8K токенов
  • Архитектура Transformer с MoE
  • Лицензия Apache 2.0

Производительность и бенчмарки

DBRX демонстрирует впечатляющие результаты на стандартных бенчмарках, превосходя как Llama 2 70B, так и Mixtral. На MMLU (Massive Multitask Language Understanding) модель набирает 77.9%, что значительно выше, чем 72.5% у Llama 2 70B и 68.0% у Mixtral.

В задачах программирования, таких как HumanEval, DBRX показывает 72.1% точности, что превосходит результаты конкурентов. На SWE-bench, который оценивает способность модели решать реальные задачи программирования, модель достигает 16.3%, что является одним из лучших результатов среди открытых моделей.

На задачах логических рассуждений, таких как GSM8K, модель набирает 83.7%, а на HellaSwag - 93.2%. Эти результаты подтверждают её превосходство в понимании контекста и способности к сложным рассуждениям.

В сравнении с закрытыми моделями, DBRX показывает конкурентоспособные результаты, что делает её привлекательной альтернативой для организаций, стремящихся использовать открытые решения.

  • MMLU: 77.9%
  • HumanEval: 72.1%
  • SWE-bench: 16.3%
  • GSM8K: 83.7%
  • HellaSwag: 93.2%

Цены на API

Databricks предлагает конкурентоспособные цены на API DBRX, делая её доступной для широкого круга пользователей. Стоимость входных токенов составляет $0.10 за миллион токенов, а стоимость выходных токенов - $0.30 за миллион токенов.

Для стартапов и разработчиков, которые хотят протестировать модель, доступен бесплатный тариф с 10,000 бесплатных токенов в месяц. Это позволяет начать работу с моделью без начальных инвестиций.

По сравнению с другими вариантами, цена за производительность делает DBRX очень привлекательной, особенно учитывая её превосходные результаты на бенчмарках. Для крупных корпоративных внедрений доступны индивидуальные тарифные планы.

Прозрачная система ценообразования позволяет легко прогнозировать затраты на использование модели в различных сценариях.

  • Входные токены: $0.10 за миллион
  • Выходные токены: $0.30 за миллион
  • Бесплатный тариф: 10,000 токенов/месяц
  • Корпоративные планы по запросу

Таблица сравнения

Сравнение DBRX с ключевыми конкурентами показывает её превосходство по нескольким метрикам. Ниже представлена таблица с основными характеристиками и ценами.

DBRX особенно выгодно отличается своей лицензией Apache 2.0, которая позволяет свободное коммерческое использование, в отличие от ограничений некоторых других моделей.

Архитектура MoE обеспечивает эффективное использование вычислительных ресурсов при сохранении высокой производительности, что делает её экономически эффективной.

Контекстное окно 32K также предоставляет преимущество в задачах, требующих длинного контекста.

Применения

DBRX отлично подходит для широкого спектра применений, включая генерацию кода, автоматизированные агенты, чат-боты и системы RAG (Retrieval Augmented Generation). Её сильные стороны в задачах программирования делают её идеальной для инструментов автодополнения кода и рефакторинга.

В системах RAG модель может эффективно обрабатывать длинные документы и извлекать релевантную информацию благодаря большому контекстному окну. Это делает её полезной для корпоративных решений по управлению знаниями.

Для создания агентов ИИ, DBRX обеспечивает отличное понимание контекста и способность к рассуждению, что критично для многошаговых задач. Модель также хорошо работает в диалоговых сценариях благодаря своей способности понимать и генерировать человеческий язык.

Разработчики могут использовать её для создания специализированных приложений, таких как юридические консультанты, научные помощники или техническая поддержка.

  • Генерация и анализ кода
  • Системы RAG
  • Чат-боты и ассистенты
  • Автоматизированные агенты
  • Корпоративные приложения

Начало работы

Доступ к DBRX можно получить через API Databricks, который предоставляет простые в использовании конечные точки. Разработчики могут использовать официальный Python SDK для интеграции модели в свои приложения.

Документация включает подробные примеры использования, руководства по быстрому старту и лучшие практики для оптимизации производительности. Также доступны примеры на GitHub с готовыми решениями.

Для локального развертывания модель доступна на Hugging Face Hub под лицензией Apache 2.0, что позволяет загружать и настраивать её в собственных средах.

Платформа Databricks также предоставляет инструменты для fine-tuning модели под конкретные бизнес-потребности, что делает её еще более гибкой для корпоративного использования.

  • API через Databricks Platform
  • Python SDK доступен
  • Загрузка с Hugging Face Hub
  • Fine-tuning инструменты
  • Примеры и документация

Comparison

Model: DBRX 132B | Context: 32K | Max Output: 8K | Input $/M: $0.10 | Output $/M: $0.30 | Strength: Code & Reasoning

Model: Llama 2 70B | Context: 4K | Max Output: 2K | Input $/M: $0.20 | Output $/M: $0.60 | Strength: General Purpose

Model: Mixtral 8x7B | Context: 32K | Max Output: 4K | Input $/M: $0.15 | Output $/M: $0.45 | Strength: Multilingual

Model: Mistral 7B | Context: 32K | Max Output: 8K | Input $/M: $0.05 | Output $/M: $0.15 | Strength: Efficiency

API Pricing — Input: $0.10 / Output: $0.30 / Context: 32K tokens


Sources

Документация API Databricks

Технический отчет DBRX