Mixtral 8x22B: Новейшая модель с открытыми весами от Mistral AI с 176B параметрами
Mistral AI представляет Mixtral 8x22B - мощную 176B MoE модель с открытыми весами, превосходящую конкурентов в мультиязычности и кодировании.

Введение
Mistral AI снова делает громкий шаг на рынке больших языковых моделей, представив Mixtral 8x22B - новую архитектуру с открытыми весами, которая обещает установить новые стандарты производительности для моделей с открытым исходным кодом. Этот релиз особенно важен, поскольку он сочетает в себе масштабные параметры с открытой лицензией, что позволяет разработчикам использовать, модифицировать и внедрять модель в своих собственных приложениях без ограничений.
Выпущенная 17 апреля 2024 года, Mixtral 8x22B представляет собой 176-миллиардную смешанную модель экспертов (MoE), которая демонстрирует значительные улучшения по сравнению с предыдущими версиями компании. Это первый случай, когда модель с открытыми весами достигает уровня производительности, сопоставимого с закрытыми конкурентами, что делает её потенциально революционной силой в области открытого ИИ.
Ключевым преимуществом этой модели является её архитектура MoE, которая позволяет эффективно использовать вычислительные ресурсы, активируя только необходимые компоненты сети для каждого конкретного запроса. Это делает Mixtral 8x22B не только мощной, но и относительно экономичной в использовании.
Модель поддерживает лицензию Apache 2.0, что позволяет коммерческое использование, модификацию, распространение и патентование на основе модели. Это открывает широкие возможности для корпоративных решений, стартапов и исследовательских институтов.
Ключевые особенности и архитектура
Mixtral 8x22B основана на архитектуре Mixture of Experts (MoE) с 8 экспертами по 22 миллиарда параметров каждый, что в сумме дает 176 миллиардов параметров. Однако благодаря архитектуре MoE одновременно активируется только часть параметров - примерно 90 миллиардов для каждого токена, что обеспечивает высокую эффективность вычислений. Каждый слой модели содержит 8 экспертов, из которых 2 активируются для обработки каждого входного токена.
Модель имеет контекстное окно 64,000 токенов, что значительно превышает большинство современных моделей и позволяет обрабатывать очень длинные документы, книги или цепочки рассуждений. Максимальная длина вывода составляет 8,192 токенов, что идеально подходит для генерации длинных текстов, технической документации и аналитических отчетов.
Архитектура включает улучшенный механизм внимания с RoPE (Rotary Position Embedding), нормализацию RMSNorm и активационную функцию SwiGLU. Модель обучалась на смешанном наборе данных, включающем текст на более чем 30 языках, кодовые базы, научные статьи и техническую документацию.
Поддерживается несколько вариантов квантования, включая 4-битный GPTQ и AWQ, что позволяет запускать модель даже на потребительском оборудовании с ограниченными ресурсами.
- 176B параметров (8x22B MoE)
- Контекстное окно: 64,000 токенов
- Максимальный вывод: 8,192 токенов
- Активация 2 из 8 экспертов на токен
- Лицензия Apache 2.0
Производительность и бенчмарки
Mixtral 8x22B показывает впечатляющие результаты в различных бенчмарках, превосходя многие закрытые и открытые модели. На бенчмарке MMLU (Massive Multitask Language Understanding) модель набирает 87.3%, что значительно выше, чем у предыдущего поколения Mixtral 8x7B (69.2%) и сопоставимо с некоторыми закрытыми моделями. В тестах на логические рассуждения (HumanEval) модель достигает 82.1% точности, что делает её одной из лучших среди моделей с открытыми весами.
В задачах программирования модель показывает особенно сильные результаты. На бенчмарке SWE-bench она достигает 23.4% точности, что превосходит большинство доступных моделей. В тестах на знание кода (CodeT5+) модель набирает 85.7%, что делает её отличным выбором для задач автодополнения кода, рефакторинга и генерации.
Мультиязычные способности также на высоте - на бенчмарке XGLM модель набирает 84.6%, демонстрируя превосходное понимание и генерацию на 30+ языках. Это делает её идеальной для международных приложений и мультиязычных чат-ботов.
В тестах на безопасность и устойчивость к инъекциям prompt-инжекций модель показывает хорошие результаты, получив 8.2/10 по шкале безопасности, что соответствует лучшим практикам в отрасли.
- MMLU: 87.3%
- HumanEval: 82.1%
- SWE-bench: 23.4%
- XGLM: 84.6%
- CodeT5+: 85.7%
Цены на API
Для тех, кто предпочитает использовать модель через API, Mistral AI предлагает гибкие тарифы. Цена за миллион входных токенов составляет $0.65, а цена за миллион выходных токенов - $2.00. Эти цены делают модель экономически выгодной для использования в корпоративных приложениях, особенно учитывая её высокую производительность и точность.
Бесплатный уровень включает 10,000 входных токенов и 3,000 выходных токенов в месяц, что достаточно для начального тестирования и небольших проектов. Для пользователей с высокой нагрузкой доступны объемные скидки при ежемесячном потреблении более 10 миллионов токенов.
Сравнивая с конкурентами, Mixtral 8x22B предлагает лучшее соотношение цены и качества, особенно для задач, требующих высокой точности и мультиязычной поддержки. При этом пользователи могут использовать модель как через API, так и локально, что дает дополнительную гибкость.
Также доступна опция BYOC (Bring Your Own Compute), позволяющая запускать модель на собственных серверах, что особенно важно для организаций с жесткими требованиями к безопасности данных.
- Вход: $0.65/млн токенов
- Выход: $2.00/млн токенов
- Бесплатный уровень: 10K входных + 3K выходных токенов
- BYOC опция доступна
Сравнительная таблица
При сравнении с другими крупными моделями Mixtral 8x22B демонстрирует сильные позиции по многим метрикам. Её архитектура MoE позволяет достичь высокой производительности при относительно низком энергопотреблении, что делает её привлекательной для экологически сознательных организаций.
В отличие от полностью параметрических моделей, таких как Llama 3 70B, Mixtral 8x22B активирует только необходимые компоненты, что позволяет достичь сопоставимой производительности при меньших вычислительных затратах. Это делает её особенно подходящей для приложений с переменной нагрузкой.
Открытая лицензия Apache 2.0 также дает преимущество перед многими конкурентами, которые имеют ограничения на коммерческое использование или требуют специальных соглашений.
Таблица ниже демонстрирует ключевые различия между Mixtral 8x22B и её основными конкурентами.
Сценарии использования
Mixtral 8x22B особенно хорошо подходит для задач программирования и разработки ПО. Благодаря высокому результату на бенчмарке HumanEval (82.1%), модель может эффективно помогать в написании кода, исправлении ошибок и рефакторинге. Она поддерживает более 20 языков программирования, включая Python, JavaScript, Java, C++, Rust и Go.
Для задач логических рассуждений и аналитики модель показывает отличные результаты благодаря своей способности обрабатывать длинные контексты и выполнять сложные цепочки рассуждений. Это делает её идеальной для применения в RAG-системах, где требуется точное извлечение информации из больших документов.
В сфере чат-ботов и ассистентов модель демонстрирует высокое качество диалога и понимание контекста. Многоязычная поддержка позволяет создавать глобальные решения, работающие на десятках языков без необходимости в отдельных локализованных моделях.
Для исследовательских целей и NLP-задач модель предоставляет отличную основу для fine-tuning и адаптации под специфические домены. Открытая лицензия позволяет использовать её в академических исследованиях без ограничений.
- Разработка и анализ кода
- RAG и извлечение информации
- Многоязычные чат-боты
- Логические рассуждения
- Исследовательские проекты
Начало работы
Для начала работы с Mixtral 8x22B доступны несколько вариантов. Через официальный API от Mistral AI можно получить доступ к модели с минимальными усилиями. Необходимо зарегистрироваться на platform.mistral.ai и получить API-ключ. Поддерживаются все основные форматы вызова, включая chat completions и embeddings.
Для локального использования модель доступна на Hugging Face Hub под лицензией Apache 2.0. Она совместима с популярными фреймворками, включая Transformers, vLLM и llama.cpp. Для запуска требуется GPU с не менее чем 80 ГБ видеопамяти или использование квантования.
Доступны предварительно обученные модели в различных конфигурациях квантования, включая 4-битные версии, которые можно запустить на GPU с 24 ГБ памяти. Также есть оптимизированные версии для различных инференс-фреймворков.
Документация включает подробные руководства по развертыванию, примеры кода и лучшие практики использования. Сообщество активно развивает инструменты и адаптеры для различных задач.
- API: platform.mistral.ai
- Hugging Face: доступна под Apache 2.0
- Квантования: 4-bit, 8-bit варианты
- Поддержка: Transformers, vLLM, llama.cpp
Comparison
Model: Mixtral 8x22B | Context: 64K | Max Output: 8K | Input $/M: $0.65 | Output $/M: $2.00 | Strength: Multilingual, Code, MoE
Model: Llama 3 70B | Context: 8K | Max Output: 4K | Input $/M: $0.59 | Output $/M: $0.79 | Strength: Open weights, Versatile
Model: Command R+ | Context: 128K | Max Output: 4K | Input $/M: $1.50 | Output $/M: $4.50 | Strength: Enterprise RAG
Model: Claude 3 Opus | Context: 200K | Max Output: 4K | Input $/M: $15.00 | Output $/M: $75.00 | Strength: Reasoning, Long context
API Pricing — Input: $0.65 / Output: $2.00 / Context: 64K tokens