Mixtral 8x7B: Революционная модель с открытым исходным кодом от Mistral AI

Открытая модель Mixtral 8x7B от французского стартапа Mistral AI достигает качества GPT-3.5 при активных 12.9B параметрах благодаря архитектуре Mixture of Experts.

11 декабря 2023 г.

Model ReleaseMixtral 8x7B

Введение

11 декабря 2023 года французский стартап Mistral AI представил революционную модель Mixtral 8x7B — первую в мире открытую модель с архитектурой Mixture of Experts (MoE), которая по качеству соответствует GPT-3.5, но использует всего 12.9 миллиардов активных параметров во время вывода. Это событие стало настоящим прорывом в индустрии открытого ИИ, демонстрируя, как эффективные архитектуры могут значительно сократить вычислительные затраты без потери производительности.

Модель создана на волне успеха предыдущего релиза Mistral 7B и представляет собой следующий этап развития в области эффективных языковых моделей. С лицензией Apache 2.0, Mixtral 8x7B открывает новые возможности для коммерческого использования и модификации, что делает его доступным для широкого круга разработчиков и исследователей.

Релиз произвел фурор в сообществе ИИ-разработчиков, поскольку сочетает в себе высокую производительность, экономическую эффективность и открытость — три ключевых фактора, необходимых для устойчивого развития экосистемы открытого искусственного интеллекта.

Это не просто еще одна модель с открытым исходным кодом, а важный шаг к democratization of AI, где мощные технологии становятся доступны для всех.

Ключевые особенности и архитектура

Mixtral 8x7B основана на архитектуре Mixture of Experts (MoE), где общее количество параметров составляет 46.7 миллиардов, но активными являются только 12.9 миллиардов во время каждого запроса. Это позволяет достичь сопоставимой производительности с гораздо более крупными моделями при значительно меньших вычислительных затратах.

Архитектура включает восемь экспертов по 7 миллиардов параметров каждый, из которых два эксперта активируются для каждого токена. Такой подход обеспечивает баланс между специализацией и обобщением, позволяя модели эффективно обрабатывать разнообразные задачи.

Модель поддерживает контекстное окно 32,768 токенов, что делает ее идеальной для задач, требующих анализа длинных документов или сложных цепочек рассуждений. Это вдвое больше, чем у многих конкурентов.

Кроме того, Mixtral 8x7B оптимизирована для высокой скорости вывода и низкой задержки, что критично для реальных приложений.

Общие параметры: 46.7B MoE
Активные параметры: 12.9B
Контекстное окно: 32,768 токенов
Архитектура: Mixture of Experts (8 экспертов по 7B)
Лицензия: Apache 2.0

Производительность и бенчмарки

Mixtral 8x7B демонстрирует впечатляющие результаты в стандартных бенчмарках, часто превосходя модели в несколько раз больших по размеру. На бенчмарке MMLU модель набирает 82.2%, что сопоставимо с GPT-3.5 и превосходит Llama 2 70B (73.6%).

Mixtral 8x7B: Революционная модель с открытым исходным кодом от Mistral AI

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование API

Сравнение с конкурентами

Примеры использования

Начало работы

Comparison

Sources