Skip to content
Назад к Блогу
Model Releases

ChatGLM2: Второе поколение мощной модели Zhipu AI с улучшенной производительностью и контекстом 32K

Открытая модель ChatGLM2 от Zhipu AI предлагает впечатляющий контекстный размер 32K и на 42% более быстрый вывод по сравнению с предыдущей версией.

25 июня 2023 г.
Model ReleaseChatGLM2

Введение

ChatGLM2 представляет собой значительное обновление в семействе моделей GLM от Zhipu AI, выпущенное 25 июня 2023 года. Это второе поколение архитектуры GLM, которое демонстрирует значительные улучшения в скорости обработки, контекстном окне и специализированных задачах, таких как математика и программирование.

Модель с параметрами 6 миллиардов (6B) была разработана как открытый проект, что делает её доступной для исследовательского сообщества и разработчиков. Она особенно привлекательна для тех, кто ищет эффективную модель для задач, требующих длинного контекста и высокой вычислительной производительности.

ChatGLM2 продолжает традицию Zhipu AI создавать передовые языковые модели, но при этом остается энергоэффективным решением благодаря оптимизированной архитектуре.

Выпуск этой модели стал важным шагом в развитии открытых ИИ-моделей, особенно в китайскоязычном сегменте.

Ключевые особенности и архитектура

ChatGLM2 основана на архитектуре Transformer с 6 миллиардами параметров. Основной особенностью является увеличенное контекстное окно до 32 768 токенов (32K), что позволяет модели обрабатывать значительно большие объемы текста за один проход.

Архитектура включает в себя оптимизации для ускорения инференса, такие как эффективная реализация внимания (attention mechanism) и оптимизация вычислений. Это позволило достичь на 42% более быстрой обработки по сравнению с первой версией GLM.

Модель не использует архитектуру Mixture-of-Experts (MoE), вместо этого полагаясь на плотную сеть для обеспечения стабильной производительности.

Также стоит отметить поддержку различных форматов ввода и вывода, что делает её гибкой для различных приложений.

  • Параметры: 6B
  • Контекстное окно: 32K токенов
  • Увеличенная скорость инференса на 42%
  • Оптимизированная архитектура Transformer

Производительность и бенчмарки

ChatGLM2 показывает улучшенные результаты в задачах, связанных с математикой и программированием. На бенчмарках, таких как MMLU и HumanEval, модель превосходит свои предыдущие версии, демонстрируя более глубокое понимание логических и вычислительных задач.

На бенчмарке MMLU модель набрала ~65%, что является значительным улучшением по сравнению с оригинальным ChatGLM. В задачах кодирования (HumanEval) точность также повысилась примерно до 35%, что делает её конкурентоспособной среди других моделей среднего размера.

Сравнение с конкурентами показывает, что ChatGLM2 может конкурировать с моделями, имеющими больше параметров, благодаря своей оптимизации и качеству обучения.

Особенно выделяется производительность в китайском языке, где модель достигает результатов, сравнимых с крупнейшими закрытыми моделями.

Ценообразование API

Поскольку ChatGLM2 является открытой моделью, доступ к ней возможен через различные платформы без лицензионных сборов. Однако использование через облачные API может варьироваться в зависимости от провайдера.

Zhipu AI предоставляет бесплатный доступ к модели через ModelScope и другие репозитории. Для коммерческого использования рекомендуется проверить лицензию THUDM или Zhipu AI.

В отличие от крупных закрытых моделей, использование ChatGLM2 в собственной инфраструктуре не связано с оплатой за токены.

Это делает её экономически выгодной для стартапов и исследовательских проектов.

Сравнительная таблица

Ниже представлена таблица сравнения ChatGLM2 с другими популярными моделями того же класса.

Примеры использования

ChatGLM2 идеально подходит для задач, требующих длинного контекста, таких как анализ документов, summarization и RAG (Retrieval-Augmented Generation). Благодаря увеличенному окну контекста, модель может обрабатывать целые статьи или книги за раз.

В области программирования модель показывает хорошие результаты в генерации кода и исправлении ошибок. Также она может использоваться для создания агентов, способных выполнять сложные задачи с цепочками рассуждений.

Для чат-бота и диалоговых систем ChatGLM2 обеспечивает естественные и последовательные ответы благодаря долгосрочной памяти.

Поддержка китайского языка делает её особенно ценной для приложений в Китае и других китайскоязычных регионах.

Начало работы

Модель доступна на платформе Hugging Face и ModelScope. Вы можете загрузить веса напрямую или использовать через API.

Для запуска локально рекомендуется использовать библиотеку transformers от Hugging Face или официальный репозиторий Zhipu AI на GitHub.

Также существуют предварительно обученные чекпоинты и примеры инференса на Python.

Документация и примеры кода помогут быстро начать интеграцию модели в ваш проект.


Comparison

Model: ChatGLM2-6B | Context: 32K | Max Output: 2K | Input $/M: Free | Output $/M: Free | Strength: Long context, fast inference

Model: LLaMA-2-7B | Context: 4K | Max Output: 2K | Input $/M: Free | Output $/M: Free | Strength: General purpose

Model: Falcon-7B | Context: 16K | Max Output: 2K | Input $/M: Free | Output $/M: Free | Strength: High throughput

API Pricing — Input: Free / Output: Free / Context: 32K tokens


Sources

Official ChatGLM Repository

ModelScope Page