Введение

Когда в сентябре 2023 года французская компания Mistral AI представила свою первую открытую модель Mistral 7B, мало кто ожидал, что она произведет такую сенсацию в мире искусственного интеллекта. Эта 7-миллиардная параметрическая модель не только установила новые стандарты для малых моделей, но и дала серьезный отпор гораздо более крупным конкурентам, включая Llama 2 70B.

Mistral 7B стала важной вехой в развитии открытого ИИ, доказав, что размер не всегда определяет качество. Модель получила лицензию Apache 2.0, что делает ее полностью доступной для коммерческого использования без ограничений.

Релиз стал сигналом о том, что европейские стартапы могут конкурировать с крупнейшими американскими корпорациями в сфере ИИ. Это событие ознаменовало начало новой эпохи, где эффективность и инновации важнее просто масштаба.

С тех пор как Mistral 7B была выпущена 27 сентября 2023 года, она стала основой для множества приложений и исследовательских проектов по всему миру, особенно на мобильных устройствах и в ресурсоограниченных средах.

Ключевые особенности и архитектура

Mistral 7B представляет собой трансформерную архитектуру с рядом инновационных решений, направленных на повышение эффективности и производительности. Основной особенностью является использование скользящего окна внимания (sliding window attention), которое позволяет модели обрабатывать более длинные контексты без значительного увеличения вычислительных затрат.

Модель имеет 7 миллиардов параметров, что значительно меньше, чем у многих конкурентов, таких как Llama 2 70B или GPT-3.5. Однако благодаря оптимизированной архитектуре, она использует всего около 13.1 ГБ памяти для хранения, что делает возможным запуск на относительно слабом оборудовании.

Архитектура модели включает в себя оптимизированные механизмы внимания, которые позволяют ей эффективно обрабатывать контексты длиной до 32768 токенов. Это делает Mistral 7B особенно подходящей для задач, требующих анализа больших объемов текста.

Модель не является многомодальной - она специализируется исключительно на текстовых задачах. Однако сфокусированность на одном модальном типе позволила достичь высокого качества в текстовой генерации и понимании.

7 миллиардов параметров
Скользящее окно внимания (sliding window attention)
Контекстное окно до 32768 токенов
Только текстовая модель (немультимодальная)
Apache 2.0 лицензия

Mistral 7B: Революционная модель ИИ с открытым исходным кодом, превзошедшая Llama 2 70B

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Цены на API

Сравнительная таблица

Сценарии использования

Начало работы

Comparison

Sources