Введение

ChatGLM3-6B представляет собой третью генерацию диалоговых моделей от Zhipu AI, совместно разработанных с лабораторией Tsinghua KEG. Эта 6-миллиардная параметрическая модель стала важным шагом в развитии открытых языковых моделей с расширенными возможностями.

Выпущенная 27 октября 2023 года, модель отличается поддержкой вызова функций (function calling), интерпретатора кода и возможностей агента, что делает ее особенно привлекательной для разработчиков, создающих сложные приложения на основе ИИ.

ChatGLM3-6B сохраняет лучшие характеристики предыдущих поколений, включая плавные диалоги и низкий порог развертывания, при этом добавляя новые возможности для интеграции с внешними системами.

Открытый исходный код делает эту модель доступной для исследователей и разработчиков по всему миру, способствуя дальнейшему развитию экосистемы открытого ИИ.

Ключевые особенности и архитектура

ChatGLM3-6B основана на архитектуре GLM (General Language Model) с 6 миллиардами параметров, что обеспечивает баланс между производительностью и требованиями к вычислительным ресурсам.

Модель поддерживает вызов функций (function calling), позволяя интегрировать внешние API и инструменты в процесс генерации ответов. Это особенно полезно для построения агентских систем и приложений, требующих взаимодействия с реальными данными.

Возможности интерпретатора кода позволяют модели выполнять фрагменты Python-кода, что значительно расширяет ее применимость в задачах анализа данных, математических вычислений и программирования.

Агентские возможности включают планирование, вызов инструментов и управление диалогами, что делает модель подходящей для создания сложных интерактивных систем.

6 миллиардов параметров
Поддержка вызова функций (function calling)
Интерпретатор кода
Агентские возможности
Низкий порог развертывания

Производительность и бенчмарки

ChatGLM3-6B показывает улучшенные результаты по сравнению со своими предшественниками, демонстрируя более высокую точность в задачах понимания естественного языка и генерации текста.

На бенчмарке MMLU модель набирает значительные очки, превышая предыдущие версии ChatGLM благодаря более оптимизированной стратегии обучения и разнообразным обучающим наборам данных.

В задачах программирования модель показывает конкурентоспособные результаты, особенно в сравнении с другими открытыми моделями аналогичного размера.

ChatGLM3-6B: Открытая модель от Zhipu AI с функциональными вызовами и агентскими возможностями

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование API

Таблица сравнения

Применение

Начало работы

Comparison

Sources