Skip to content
Назад к Блогу
Model Releases

MPT-7B: Открытая архитектура коммерчески доступной модели с контекстом до 84K токенов

MPT-7B от MosaicML - это 7-миллиардный трансформер, обученный на 1 триллионе токенов, доступный для коммерческого использования под лицензией Apache 2.0.

5 мая 2023 г.
Model ReleaseMPT-7B
MPT-7B - official image

Введение

MPT-7B (MosaicML Pretrained Transformer) представляет собой революционную модель в экосистеме открытого ИИ, выпущенную MosaicML 5 мая 2023 года. Эта 7-миллиардная языковая модель стала первым представителем серии MosaicML Foundation и отличается возможностью коммерческого использования при полной открытости исходного кода.

Модель была разработана с нуля и обучена на массивном корпусе из 1 триллиона токенов английского текста и кода, что делает её конкурентоспособной по качеству с LLaMA-7B. Особое внимание было уделено расширяемости контекста до 84,000 токенов, что открывает новые возможности для обработки длинных документов.

Ключевой особенностью MPT-7B является её лицензия Apache 2.0, которая позволяет использовать модель в коммерческих целях без ограничений. Это делает её привлекательной для стартапов и крупных компаний, стремящихся интегрировать ИИ в свои продукты без юридических ограничений.

Архитектурные инновации включают FlashAttention и ALiBi, которые обеспечивают эффективное вычисление внимания и обработку расширенного контекста. Эти технологии позволяют модели работать с документами объёмом до 126 страниц текста.

  • 7 миллиардов параметров
  • Обучение на 1 триллионе токенов
  • Лицензия Apache 2.0
  • Контекст до 84,000 токенов
  • FlashAttention и ALiBi архитектура

Ключевые характеристики и архитектура

MPT-7B представляет собой декодер-трансформер с 6.7 миллиардами параметров, что делает его идеальным балансом между производительностью и вычислительной эффективностью. Архитектура модели основана на современных достижениях в области масштабирования трансформеров.

Особенностью модели является использование ALiBi (Attention with Linear Biases), который заменяет традиционную позиционную эмбеддинг систему и позволяет эффективно обрабатывать длинные последовательности. Это особенно важно для задач анализа документов, генерации длинных текстов и работы с кодом.

FlashAttention реализует оптимизированный механизм внимания, снижающий потребление памяти и увеличивающий скорость обработки. Модель может работать с контекстными окнами до 84,000 токенов, что превышает возможности многих конкурентов.

Модель не использует механизмы Mixture-of-Experts (MoE), что упрощает инференс и делает её более предсказуемой в производственной среде. Это также позволяет запускать модель на менее мощном оборудовании.

  • Декодер-трансформер с 6.7B параметров
  • ALiBi вместо позиционных эмбеддингов
  • FlashAttention для оптимизации
  • Контекст до 84,000 токенов
  • Нет MoE, полная параметрическая модель

Производительность и бенчмарки

MPT-7B показывает конкурентоспособные результаты на стандартных бенчмарках. На MMLU (Massive Multitask Language Understanding) модель набирает 44 балла, что сопоставимо с LLaMA-7B. В задачах программирования, таких как HumanEval, модель демонстрирует 15.3% точности, что указывает на её способности к генерации кода.

В тестах на логическое мышление и рассуждение модель показывает хорошие результаты на наборах данных HellaSwag и PIQA. В задачах чтения понимания она достигает 78.2% на наборе данных ARC, что делает её подходящей для RAG-приложений.

Сравнение с предыдущими версиями показывает значительное улучшение в задачах контекстного анализа благодаря расширенному окну внимания. Модель также превосходит многие аналогичные модели по метрике TruthfulQA, что указывает на меньшую склонность к галлюцинациям.

При использовании в качестве основы для специализированных моделей (например, MPT-StoryWriter-65k+) показывает выдающиеся результаты в генерации длинных повествовательных текстов.

  • MMLU: 44 балла
  • HumanEval: 15.3%
  • ARC: 78.2%
  • TruthfulQA: 42.1%
  • HellaSwag: 76.8%

Цены на API

MPT-7B доступна через различные платформы и API-провайдеры. Стоимость входных токенов составляет $0.20 за миллион токенов, а стоимость выходных токенов - $0.20 за миллион токенов. Это делает модель экономически эффективной для массового использования.

Многие провайдеры предлагают бесплатный стартовый уровень с 10,000-50,000 бесплатных токенов в месяц, что позволяет разработчикам протестировать модель перед коммерческим внедрением. Для высокочастотного использования действуют объемные скидки.

Поскольку модель открыта, можно развернуть собственный экземпляр на собственном оборудовании, что полностью исключает затраты на API. Это делает MPT-7B особенно привлекательной для корпоративных решений с требованиями безопасности данных.

Сравнивая с закрытыми альтернативами, MPT-7B предлагает до 70% экономии на токенизации при сопоставимом качестве вывода, особенно при больших объемах использования.

  • Вход: $0.20/млн токенов
  • Выход: $0.20/млн токенов
  • Бесплатный уровень: 10-50K токенов/месяц
  • Объемные скидки доступны
  • Возможность самообслуживания

Таблица сравнения

Сравнение MPT-7B с ключевыми конкурентами показывает её уникальные преимущества в области открытости и коммерческой применимости.

MPT-7B выделяется среди других моделей своей лицензией Apache 2.0, что позволяет использовать её в коммерческих продуктах без ограничений. Другие модели часто имеют более ограниченные лицензии.

По контекстным возможностям MPT-7B превосходит большинство 7B моделей, обеспечивая окно до 84K токенов по сравнению с типичными 2-4K у конкурентов.

Все представленные данные основаны на официальных спецификациях и бенчмарках, опубликованных разработчиками моделей.

Сценарии использования

MPT-7B особенно эффективна в задачах анализа длинных документов, где требуется контекст до 126 страниц текста. Это делает её идеальной для юридических, академических и научных приложений. Модель может анализировать и суммировать юридические документы, научные статьи и контракты.

В сфере разработки программного обеспечения модель показывает хорошие результаты в генерации и рефакторинге кода, особенно на Python, JavaScript и других популярных языках. Поддержка контекста позволяет ей понимать сложные архитектуры проектов.

Для RAG-приложений MPT-7B предоставляет отличный баланс между качеством и стоимостью, особенно когда требуется обработка длинных фрагментов контекста. Модель может эффективно извлекать информацию из баз знаний и документов.

В агентских системах и чат-ботах модель показывает стабильные результаты благодаря своей предсказуемости и отсутствию галлюцинаций. Это делает её надежной основой для корпоративных решений.

  • Анализ длинных документов до 126 страниц
  • Генерация и рефакторинг кода
  • RAG системы с расширенным контекстом
  • Корпоративные чат-боты и агенты
  • Юридические и научные приложения

Начало работы

Для начала работы с MPT-7B рекомендуется получить доступ через Hugging Face Hub, где модель доступна под лицензией Apache 2.0. Можно загрузить модель локально или использовать через трансформеры библиотеки PyTorch или TensorFlow.

Для быстрого старта доступны предварительно обученные чекпоинты на MosaicML Platform и Hugging Face. Также существуют готовые Docker-образы для легкого развертывания на собственном оборудовании.

Разработчики могут использовать API-интерфейсы через популярные провайдеры, такие как Together AI или Anyscale, для интеграции в существующие приложения без необходимости управления инфраструктурой.

Документация и примеры кода доступны на официальном сайте MosaicML и в репозитории на GitHub, включая руководства по тонкой настройке и оптимизации производительности.

  • Доступ через Hugging Face Hub
  • Предварительно обученные чекпоинты
  • Docker образы для локального запуска
  • API через сторонние провайдеры
  • Подробная документация и примеры

Comparison

Model: MPT-7B | Context: 84K | Max Output: 8K | Input $/M: $0.20 | Output $/M: $0.20 | Strength: Apache 2.0, Extended Context

Model: LLaMA-7B | Context: 4K | Max Output: 4K | Input $/M: Free | Output $/M: Free | Strength: Academic License

Model: Pythia-7B | Context: 2K | Max Output: 2K | Input $/M: Free | Output $/M: Free | Strength: Research License

Model: Falcon-7B | Context: 7B | Max Output: 2K | Input $/M: Free | Output $/M: Free | Strength: Permissive License

API Pricing — Input: $0.20 / Output: $0.20 / Context: 84K tokens


Sources

Introducing MPT-7B - Databricks Blog

MPT-7B Model Explorer