Skip to content
Назад к Блогу
Model Releases

Vicuna от LMSYS: Открытая альтернатива ChatGPT с 90% производительности

Открытая языковая модель Vicuna от LMSYS достигает 90% качества ChatGPT по цене менее 1% стоимости использования.

30 марта 2023 г.
Model ReleaseVicuna
Vicuna - official image

Введение

Vicuna, разработанная организацией Large Model Systems Organization (LMSYS), представляет собой революционную открытую языковую модель, которая доказывает, что высококачественные чатботы могут быть доступны для всех. Выпущенная 30 марта 2023 года, Vicuna-13B стала результатом тонкой настройки модели LLaMA на пользовательских беседах из ShareGPT, что позволило достичь почти 90% качества ChatGPT при значительно более низкой стоимости.

Этот проект стал важным шагом в democratization крупных языковых моделей, предоставляя разработчикам и исследователям доступ к мощному инструменту без лицензионных ограничений коммерческих решений. Vicuna быстро завоевала популярность в сообществе ИИ благодаря своей производительности и открытому исходному коду.

Релиз Vicuna также совпал с запуском Chatbot Arena - уникальной платформы для сравнения языковых моделей, где пользователи могут проводить слепые сравнения различных чат-ботов. Это создало объективную среду для оценки производительности различных моделей, включая Vicuna.

С тех пор как Vicuna была представлена, она продолжает развиваться, с версиями v1.5, построенными поверх Llama 2, которые улучшают контекстные возможности и общую производительность модели.

Ключевые особенности и архитектура

Vicuna-13B основана на архитектуре LLaMA (Large Language Model Meta AI) и использует процесс тонкой настройки для адаптации модели к диалоговым сценариям. Модель имеет 13 миллиардов параметров, что делает ее достаточно компактной для локального развертывания, но мощной для сложных задач обработки естественного языка.

Одним из ключевых аспектов архитектуры является использование данных из ShareGPT, которые содержат многопроходные беседы между пользователями и ассистентами. Эти данные позволили модели научиться вести естественные диалоги и следовать инструкциям пользователя.

Vicuna поддерживает расширенное контекстное окно до 4096 токенов в версии 1.5, что позволяет обрабатывать более длинные входные последовательности по сравнению с базовыми версиями. Это особенно полезно для задач, требующих понимания длинных документов или ведения продолжительных бесед.

Архитектура модели также включает оптимизации для эффективного вывода, что позволяет использовать Vicuna на оборудовании с ограниченными ресурсами, включая потребительские GPU.

  • 13 миллиардов параметров
  • Основана на LLaMA/Llama 2 архитектуре
  • Контекстное окно до 4096 токенов (v1.5)
  • Тонкая настройка на данных ShareGPT

Производительность и бенчмарки

По предварительной оценке с использованием GPT-4 в качестве судьи, Vicuna-13B достигает примерно 90% качества ChatGPT. В бенчмарке MT-Bench (многопроходные вопросы), Vicuna набирает 8.6 из 10, превосходя Llama2, который набирает 8.1. Эти результаты демонстрируют, что открытые модели могут конкурировать с закрытыми решениями ведущих технологических компаний.

В системе оценки Chatbot Arena Vicuna-13B показывает 1210 очков Эло по сравнению с 1250 у GPT-4, что свидетельствует о высоком уровне производительности при значительно более низкой стоимости. На основе 1000 слепых голосов пользователей, Vicuna доказывает свою способность вести естественные и полезные беседы.

Модель особенно хорошо справляется с задачами, связанными с пониманием инструкций, генерацией текста и ведением диалогов. В тестах на понимание и рассуждение Vicuna показывает конкурентоспособные результаты по сравнению с другими открытыми моделями того же размера.

Версия Vicuna-7B также демонстрирует впечатляющие результаты, хотя и с немного меньшей производительностью по сравнению с 13-миллиардной версией, что делает выбор между ними компромиссом между производительностью и вычислительными требованиями.

  • 90% качества ChatGPT
  • 1210 очков Эло в Chatbot Arena
  • 8.6/10 в MT-Bench
  • Превосходит Llama2 в многопроходных задачах

Ценообразование API

Поскольку Vicuna - это открытая модель, она не имеет традиционного ценообразования API от разработчиков. Однако пользователи могут бесплатно загрузить и использовать модель, что делает стоимость владения равной нулю для локального развертывания.

Для облачных сервисов, предлагающих Vicuna через API, цена может варьироваться в зависимости от провайдера. Некоторые хостинговые платформы предлагают использование Vicuna по цене около $0.001 за миллион входных токенов и $0.002 за миллион выходных токенов, что значительно дешевле коммерческих альтернатив.

Стоимость локального использования ограничивается только расходами на оборудование, что для Vicuna-13B составляет примерно 26 ГБ оперативной памяти для полной точности и меньше для квантованных версий. Это делает Vicuna экономически выгодной альтернативой для команд с ограниченным бюджетом.

Сравнивая с GPT-4, цена использования Vicuna составляет менее 1% от стоимости использования коммерческих моделей, при этом сохраняя около 90% их функциональности.

Сравнительная таблица

Сравнение Vicuna с другими открытыми моделями показывает её конкурентоспособность по соотношению производительности и стоимости. Vicuna выделяется своей способностью вести диалоги и следовать инструкциям, что делает её отличным выбором для чат-приложений.

Сценарии использования

Vicuna особенно хорошо подходит для приложений, требующих качественного ведения диалогов и понимания инструкций. Она идеально подходит для создания чат-ботов поддержки, образовательных ассистентов и персональных помощников.

Модель также эффективна в задачах извлечения информации, суммаризации документов и генерации контента. Благодаря расширенному контекстному окну, Vicuna может обрабатывать длинные документы, что делает её полезной для RAG (Retrieval-Augmented Generation) приложений.

В области программирования Vicuna показывает хорошие результаты в генерации кода и ответах на технические вопросы, хотя и не достигает уровня специализированных моделей программирования. Тем не менее, для общих задач программирования она остается эффективной.

Для исследовательских целей Vicuna предоставляет отличную основу для дальнейшей тонкой настройки под конкретные домены или задачи, благодаря своей открытой природе и хорошей документации.

  • Чат-боты и ассистенты
  • Образовательные приложения
  • RAG системы
  • Генерация контента
  • Поддержка программирования

Начало работы

Чтобы начать работу с Vicuna, разработчики могут получить доступ к модели через Hugging Face Hub, где доступны версии Vicuna-7B и Vicuna-13B. Модель лицензирована под условиями Llama 2, что позволяет использовать её в коммерческих проектах при соблюдении условий лицензии.

Для локального запуска Vicuna можно использовать различные фреймворки, такие как transformers от Hugging Face, vLLM для ускоренного вывода, или llama.cpp для легких развертываний. Для 13-миллиардной версии требуется около 26 ГБ ОЗУ для полной точности.

LMSYS также предоставляет официальный репозиторий с инструкциями по запуску и оценке модели. Сообщество разработчиков создало множество инструментов и скриптов для облегчения процесса развертывания и настройки Vicuna.

Для быстрого тестирования модели доступен онлайн-интерфейс через различные демонстрационные сайты, позволяя протестировать возможности Vicuna без необходимости в установке локальной инфраструктуры.

  • Доступна через Hugging Face Hub
  • Требует 26 ГБ ОЗУ для 13B версии
  • Поддержка через vLLM и других фреймворков
  • Лицензия Llama 2 для коммерческого использования

Comparison

Model: Vicuna-13B | Context: 4096 | Max Output: 2048 | Input $/M: Free | Output $/M: Free | Strength: Conversational quality

Model: Llama2-13B | Context: 4096 | Max Output: 2048 | Input $/M: $0.10 | Output $/M: $0.10 | Strength: General purpose

Model: Mistral-7B | Context: 8192 | Max Output: 2048 | Input $/M: $0.05 | Output $/M: $0.05 | Strength: Efficiency

API Pricing — Input: Free / Output: Free / Context: Open source model


Sources

Официальный блог LMSYS о Vicuna

Hugging Face модели Vicuna