Введение

MPT-7B (MosaicML Pretrained Transformer) представляет собой революционную модель в экосистеме открытого ИИ, выпущенную MosaicML 5 мая 2023 года. Эта 7-миллиардная языковая модель стала первым представителем серии MosaicML Foundation и отличается возможностью коммерческого использования при полной открытости исходного кода.

Модель была разработана с нуля и обучена на массивном корпусе из 1 триллиона токенов английского текста и кода, что делает её конкурентоспособной по качеству с LLaMA-7B. Особое внимание было уделено расширяемости контекста до 84,000 токенов, что открывает новые возможности для обработки длинных документов.

Ключевой особенностью MPT-7B является её лицензия Apache 2.0, которая позволяет использовать модель в коммерческих целях без ограничений. Это делает её привлекательной для стартапов и крупных компаний, стремящихся интегрировать ИИ в свои продукты без юридических ограничений.

Архитектурные инновации включают FlashAttention и ALiBi, которые обеспечивают эффективное вычисление внимания и обработку расширенного контекста. Эти технологии позволяют модели работать с документами объёмом до 126 страниц текста.

7 миллиардов параметров
Обучение на 1 триллионе токенов
Лицензия Apache 2.0
Контекст до 84,000 токенов
FlashAttention и ALiBi архитектура

Ключевые характеристики и архитектура

MPT-7B представляет собой декодер-трансформер с 6.7 миллиардами параметров, что делает его идеальным балансом между производительностью и вычислительной эффективностью. Архитектура модели основана на современных достижениях в области масштабирования трансформеров.

Особенностью модели является использование ALiBi (Attention with Linear Biases), который заменяет традиционную позиционную эмбеддинг систему и позволяет эффективно обрабатывать длинные последовательности. Это особенно важно для задач анализа документов, генерации длинных текстов и работы с кодом.

FlashAttention реализует оптимизированный механизм внимания, снижающий потребление памяти и увеличивающий скорость обработки. Модель может работать с контекстными окнами до 84,000 токенов, что превышает возможности многих конкурентов.

Модель не использует механизмы Mixture-of-Experts (MoE), что упрощает инференс и делает её более предсказуемой в производственной среде. Это также позволяет запускать модель на менее мощном оборудовании.

Декодер-трансформер с 6.7B параметров

MPT-7B: Открытая архитектура коммерчески доступной модели с контекстом до 84K токенов

Введение

Ключевые характеристики и архитектура

Производительность и бенчмарки

Цены на API

Таблица сравнения

Сценарии использования

Начало работы

Comparison

Sources