Skip to content
Назад к Блогу
Model Releases

GLM-4.5 Air: Легковесный гигант от Zhipu AI для разработчиков

Обзор новой модели GLM-4.5 Air от Zhipu AI. 106B MoE, инференс на H20, бенчмарки и API цены для разработчиков.

28 июля 2025 г.
Model ReleaseGLM-4.5 Air
GLM-4.5 Air - official image

Введение: Почему GLM-4.5 Air важен для индустрии

Компания Zhipu AI продолжает расширять границы возможностей своих языковых моделей, представив на рынке новую версию под названием GLM-4.5 Air. Эта модель была официально выпущена 28 июля 2025 года и позиционируется как легковесная вариация флагманского GLM-4.5. Для разработчиков это означает возможность использования мощных языковых моделей без необходимости развертывания огромных вычислительных ресурсов, что ранее было барьером для внедрения в продакшн.

Главная ценность модели заключается в балансе между производительностью и эффективностью. В то время как полные версии моделей требуют сотен гигабайт памяти и мощных кластеров, GLM-4.5 Air оптимизирована для работы на более доступном оборудовании. Это делает её идеальным выбором для стартапов и средних компаний, стремящихся внедрить передовые AI-решения в свои продукты, не расходуя бюджет на экстремальное железо.

Модель поддерживает открытую лицензию MIT, что позволяет использовать её в коммерческих проектах без ограничений. Это редкое качество для моделей такого класса, которые часто закрыты проприетарными соглашениями. Разработчики могут свободно интегрировать GLM-4.5 Air в свои приложения, обучать на своих данных или использовать как основу для дообучения.

  • Дата релиза: 28 июля 2025 года
  • Лицензия: MIT (Open Source)
  • Позиционирование: Легковесная версия GLM-4.5

Ключевые особенности и архитектура

Архитектура GLM-4.5 Air основана на технологии Mixture of Experts (MoE) с общим количеством параметров 106 миллиардов. Это позволяет модели эффективно переключаться между специализированными экспертами в зависимости от задачи, сохраняя высокую точность при снижении вычислительных затрат. Такая структура критически важна для ускорения инференса, особенно при обработке длинных контекстов.

Особое внимание Zhipu AI уделила оптимизации для аппаратного обеспечения NVIDIA H20. Модель способна эффективно работать на кластерах из 8 GPU H20, что значительно дешевле, чем аналогичные конфигурации для более тяжелых моделей. Это открывает путь для локального развертывания в корпоративных дата-центрах с использованием китайских чипов и западных решений.

Модель поддерживает гибридный режим мышления, предлагая режим "thinking mode" для сложных логических задач и "non-thinking mode" для мгновенных ответов. Контекстное окно достигает 128 000 токенов, что позволяет обрабатывать длинные документы, код и диалоги без потери информации.

  • Параметры: 106B MoE
  • Контекстное окно: 128k токенов
  • Режимы: Thinking / Non-thinking
  • Оптимизация: 8x NVIDIA H20 GPUs

Производительность и бенчмарки

На независимых платформах, таких как llm-stats.com, GLM-4.5 Air демонстрирует впечатляющий результат в 59.8 баллов по 12 отраслевым бенчмаркам. Это позволяет модели занять 6-е место в рейтинге, что является выдающимся результатом для модели такого размера. Сравнение с более тяжелыми версиями показывает, что Air сохраняет 90% точности при значительно меньших затратах ресурсов.

В тестах кодирования и логического вывода модель показывает результаты, сопоставимые с топ-конкурентами. Например, в HumanEval модель достигает 78% точности, а в MMLU — 85%. Это подтверждает, что MoE-архитектура позволяет эффективно распределять вычислительную нагрузку без потери интеллектуальных способностей.

Скорость генерации токенов составляет около 50 токенов в секунду на одном GPU H20. Это обеспечивает низкую задержку для интерактивных приложений, таких как чат-боты или IDE-дополнения, что критично для пользовательского опыта.

  • Общий балл: 59.8 (12 бенчмарков)
  • HumanEval: 78%
  • MMLU: 85%
  • Скорость: 50 tokens/sec (1x H20)

Стоимость API и тарифы

Для разработчиков, использующих облачный API Zhipu, стоимость токенов является конкурентной. Входные токены стоят 0.5 доллара за миллион, а выходные — 1.5 доллара за миллион. Это значительно дешевле, чем цены на аналогичные модели от западных вендоров, что делает GLM-4.5 Air экономически выгодным выбором для масштабных проектов.

Существует бесплатный тарифный план, который позволяет тестировать модель с лимитом 100 000 токенов в день. Это идеально подходит для обучения и прототипирования. Для коммерческого использования доступна подписка с повышенными лимитами и приоритетной обработкой запросов.

  • Вход: $0.5 / 1M токенов
  • Выход: $1.5 / 1M токенов
  • Бесплатный лимит: 100k токенов/день

Сравнительная таблица моделей

Чтобы лучше понять место GLM-4.5 Air в экосистеме, необходимо сравнить её с другими популярными моделями. Ниже приведена таблица ключевых характеристик, включая контекст, стоимость и основные преимущества каждой модели. Это поможет разработчикам выбрать оптимальное решение для их задач.

Сценарии использования

GLM-4.5 Air идеально подходит для задач автоматизации разработки программного обеспечения. Её встроенные агенты могут работать автономно в течение нескольких часов, выполняя рутинные задачи по написанию кода, тестированию и рефакторингу. Это снижает нагрузку на команды разработчиков и ускоряет цикл доставки продуктов.

В области RAG (Retrieval-Augmented Generation) модель демонстрирует высокую точность при работе с большими базами знаний. Её способность обрабатывать контекст до 128k токенов позволяет загружать целые базы документации и получать точные ответы на вопросы, основанные на внутренних данных компании.

Также модель эффективна для создания чат-ботов и виртуальных ассистентов, где требуется баланс между скоростью ответа и качеством диалога. Гибридный режим мышления позволяет переключаться между быстрыми ответами и глубокой аналитикой в зависимости от сложности запроса пользователя.

  • Автоматизация кодинга
  • RAG системы с большими данными
  • Виртуальные ассистенты
  • Агенты для выполнения задач

Начало работы и доступ

Получить доступ к GLM-4.5 Air можно через официальный API Zhipu AI или скачав веса модели с HuggingFace. Для интеграции в свои проекты разработчикам доступны SDK для Python и JavaScript. Регистрация на платформе занимает несколько минут и позволяет сразу начать тестирование.

В документации подробно описаны примеры использования, включая настройку контекстного окна и оптимизацию параметров для конкретных задач. Поддержка сообщества активна, что позволяет быстро решать возникающие вопросы при внедрении модели.

  • Платформа: Zhipu AI API
  • Веса: HuggingFace
  • SDK: Python, JavaScript
  • Документация: glm45.org

Comparison

Model: GLM-4.5 Air | Context: 128k | Max Output: 8k | Input $/M: $0.5 | Output $/M: $1.5 | Strength: Эффективность MoE

Model: GLM-4.5 (355B) | Context: 128k | Max Output: 8k | Input $/M: $2.0 | Output $/M: $6.0 | Strength: Максимальная точность

Model: Llama 3.1 70B | Context: 128k | Max Output: 4k | Input $/M: $0.2 | Output $/M: $0.6 | Strength: Открытость и скорость

API Pricing — Input: $0.5 / Output: $1.5 / Context: 128k


Sources

Официальный сайт GLM-4.5

Бенчмарки GLM-4.5 Air

Новости Zhipu AI