Введение

В быстро развивающемся мире больших языковых моделей появилась новая значимая фигура, способная изменить ландшафт открытого ИИ. Yi 34B, разработанная китайской компанией 01.AI, основателем которой является легендарный Кай-Фу Ли, представляет собой революционный шаг вперед в области билингвальных моделей. Эта 34-миллиардная параметрическая модель не только поддерживает английский и китайский языки на высоком уровне, но и демонстрирует конкурентоспособную производительность по сравнению с гораздо более крупными моделями, такими как Llama 2 70B.

Релиз модели 2 ноября 2023 года ознаменовал важный момент в развитии открытого ИИ в Азии. Yi 34B стала первой моделью в семействе Yi, которое включает как языковые, так и мультимодальные возможности. С момента своего запуска она получила признание за свои выдающиеся результаты в различных бенчмарках, особенно в задачах, требующих понимания как английского, так и китайского языков.

Модель была обучена на 3 триллионах токенов и предлагает контекстное окно 4096 токенов, что делает ее подходящей для широкого спектра приложений, от простых чат-ботом до сложных систем анализа данных. Архитектура трансформера, лежащая в основе Yi 34B, обеспечивает эффективную обработку последовательностей и качественное понимание контекста.

Для разработчиков и инженеров ИИ Yi 34B предлагает привлекательную комбинацию производительности, доступности и лицензионной гибкости. Модель доступна под лицензией Apache 2.0, что позволяет использовать её как в академических, так и в коммерческих проектах без серьезных ограничений.

Ключевые особенности и архитектура

Yi 34B основана на современной архитектуре трансформера с рядом оптимизаций, специально разработанных для билингвального понимания. Модель использует 34 миллиарда параметров, что значительно меньше, чем у некоторых конкурентов, но компенсирует это эффективным дизайном и тщательной предварительной подготовкой данных. Основные характеристики включают контекстное окно 4096 токенов и поддержку как английского, так и китайского языков на равных уровнях.

Семейство Yi также включает варианты с увеличенным контекстом (до 200K), модели для чатов и мультимодальные версии (Yi-VL). Это свидетельствует о гибком подходе к дизайну архитектуры, позволяющем адаптировать базовую модель под различные сценарии использования. Модель была обучена на диверсифицированном наборе данных объемом 3 триллиона токенов, что обеспечивает хорошее покрытие различных тем и стилей написания.

Особое внимание было уделено билингвальному пониманию, что делает Yi 34B особенно ценной для приложений, работающих с китайско-язычной аудиторией или требующих мультиязычной поддержки. Модель показывает сопоставимую производительность на английских и китайских бенчмарках, что не всегда характерно для других моделей.

Yi 34B: Открытая билингвальная модель от 01.AI, конкурирующая с Llama 2 70B

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Цены на API

Таблица сравнения

Сценарии использования

Начало работы

Comparison

Sources