Введение

Mistral AI снова делает громкий шаг на рынке больших языковых моделей, представив Mixtral 8x22B - новую архитектуру с открытыми весами, которая обещает установить новые стандарты производительности для моделей с открытым исходным кодом. Этот релиз особенно важен, поскольку он сочетает в себе масштабные параметры с открытой лицензией, что позволяет разработчикам использовать, модифицировать и внедрять модель в своих собственных приложениях без ограничений.

Выпущенная 17 апреля 2024 года, Mixtral 8x22B представляет собой 176-миллиардную смешанную модель экспертов (MoE), которая демонстрирует значительные улучшения по сравнению с предыдущими версиями компании. Это первый случай, когда модель с открытыми весами достигает уровня производительности, сопоставимого с закрытыми конкурентами, что делает её потенциально революционной силой в области открытого ИИ.

Ключевым преимуществом этой модели является её архитектура MoE, которая позволяет эффективно использовать вычислительные ресурсы, активируя только необходимые компоненты сети для каждого конкретного запроса. Это делает Mixtral 8x22B не только мощной, но и относительно экономичной в использовании.

Модель поддерживает лицензию Apache 2.0, что позволяет коммерческое использование, модификацию, распространение и патентование на основе модели. Это открывает широкие возможности для корпоративных решений, стартапов и исследовательских институтов.

Ключевые особенности и архитектура

Mixtral 8x22B основана на архитектуре Mixture of Experts (MoE) с 8 экспертами по 22 миллиарда параметров каждый, что в сумме дает 176 миллиардов параметров. Однако благодаря архитектуре MoE одновременно активируется только часть параметров - примерно 90 миллиардов для каждого токена, что обеспечивает высокую эффективность вычислений. Каждый слой модели содержит 8 экспертов, из которых 2 активируются для обработки каждого входного токена.

Модель имеет контекстное окно 64,000 токенов, что значительно превышает большинство современных моделей и позволяет обрабатывать очень длинные документы, книги или цепочки рассуждений. Максимальная длина вывода составляет 8,192 токенов, что идеально подходит для генерации длинных текстов, технической документации и аналитических отчетов.

Архитектура включает улучшенный механизм внимания с RoPE (Rotary Position Embedding), нормализацию RMSNorm и активационную функцию SwiGLU. Модель обучалась на смешанном наборе данных, включающем текст на более чем 30 языках, кодовые базы, научные статьи и техническую документацию.

Поддерживается несколько вариантов квантования, включая 4-битный GPTQ и AWQ, что позволяет запускать модель даже на потребительском оборудовании с ограниченными ресурсами.

Mixtral 8x22B: Новейшая модель с открытыми весами от Mistral AI с 176B параметрами

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Цены на API

Сравнительная таблица

Сценарии использования

Начало работы

Comparison

Sources