Обзор новой модели GLM-4.5 Air от Zhipu AI. 106B MoE, инференс на H20, бенчмарки и API цены для разработчиков.

Компания Zhipu AI продолжает расширять границы возможностей своих языковых моделей, представив на рынке новую версию под названием GLM-4.5 Air. Эта модель была официально выпущена 28 июля 2025 года и позиционируется как легковесная вариация флагманского GLM-4.5. Для разработчиков это означает возможность использования мощных языковых моделей без необходимости развертывания огромных вычислительных ресурсов, что ранее было барьером для внедрения в продакшн.
Главная ценность модели заключается в балансе между производительностью и эффективностью. В то время как полные версии моделей требуют сотен гигабайт памяти и мощных кластеров, GLM-4.5 Air оптимизирована для работы на более доступном оборудовании. Это делает её идеальным выбором для стартапов и средних компаний, стремящихся внедрить передовые AI-решения в свои продукты, не расходуя бюджет на экстремальное железо.
Модель поддерживает открытую лицензию MIT, что позволяет использовать её в коммерческих проектах без ограничений. Это редкое качество для моделей такого класса, которые часто закрыты проприетарными соглашениями. Разработчики могут свободно интегрировать GLM-4.5 Air в свои приложения, обучать на своих данных или использовать как основу для дообучения.
Архитектура GLM-4.5 Air основана на технологии Mixture of Experts (MoE) с общим количеством параметров 106 миллиардов. Это позволяет модели эффективно переключаться между специализированными экспертами в зависимости от задачи, сохраняя высокую точность при снижении вычислительных затрат. Такая структура критически важна для ускорения инференса, особенно при обработке длинных контекстов.
Особое внимание Zhipu AI уделила оптимизации для аппаратного обеспечения NVIDIA H20. Модель способна эффективно работать на кластерах из 8 GPU H20, что значительно дешевле, чем аналогичные конфигурации для более тяжелых моделей. Это открывает путь для локального развертывания в корпоративных дата-центрах с использованием китайских чипов и западных решений.
Модель поддерживает гибридный режим мышления, предлагая режим "thinking mode" для сложных логических задач и "non-thinking mode" для мгновенных ответов. Контекстное окно достигает 128 000 токенов, что позволяет обрабатывать длинные документы, код и диалоги без потери информации.
На независимых платформах, таких как llm-stats.com, GLM-4.5 Air демонстрирует впечатляющий результат в 59.8 баллов по 12 отраслевым бенчмаркам. Это позволяет модели занять 6-е место в рейтинге, что является выдающимся результатом для модели такого размера. Сравнение с более тяжелыми версиями показывает, что Air сохраняет 90% точности при значительно меньших затратах ресурсов.
В тестах кодирования и логического вывода модель показывает результаты, сопоставимые с топ-конкурентами. Например, в HumanEval модель достигает 78% точности, а в MMLU — 85%. Это подтверждает, что MoE-архитектура позволяет эффективно распределять вычислительную нагрузку без потери интеллектуальных способностей.
Скорость генерации токенов составляет около 50 токенов в секунду на одном GPU H20. Это обеспечивает низкую задержку для интерактивных приложений, таких как чат-боты или IDE-дополнения, что критично для пользовательского опыта.
Для разработчиков, использующих облачный API Zhipu, стоимость токенов является конкурентной. Входные токены стоят 0.5 доллара за миллион, а выходные — 1.5 доллара за миллион. Это значительно дешевле, чем цены на аналогичные модели от западных вендоров, что делает GLM-4.5 Air экономически выгодным выбором для масштабных проектов.
Существует бесплатный тарифный план, который позволяет тестировать модель с лимитом 100 000 токенов в день. Это идеально подходит для обучения и прототипирования. Для коммерческого использования доступна подписка с повышенными лимитами и приоритетной обработкой запросов.
Чтобы лучше понять место GLM-4.5 Air в экосистеме, необходимо сравнить её с другими популярными моделями. Ниже приведена таблица ключевых характеристик, включая контекст, стоимость и основные преимущества каждой модели. Это поможет разработчикам выбрать оптимальное решение для их задач.
GLM-4.5 Air идеально подходит для задач автоматизации разработки программного обеспечения. Её встроенные агенты могут работать автономно в течение нескольких часов, выполняя рутинные задачи по написанию кода, тестированию и рефакторингу. Это снижает нагрузку на команды разработчиков и ускоряет цикл доставки продуктов.
В области RAG (Retrieval-Augmented Generation) модель демонстрирует высокую точность при работе с большими базами знаний. Её способность обрабатывать контекст до 128k токенов позволяет загружать целые базы документации и получать точные ответы на вопросы, основанные на внутренних данных компании.
Также модель эффективна для создания чат-ботов и виртуальных ассистентов, где требуется баланс между скоростью ответа и качеством диалога. Гибридный режим мышления позволяет переключаться между быстрыми ответами и глубокой аналитикой в зависимости от сложности запроса пользователя.
Получить доступ к GLM-4.5 Air можно через официальный API Zhipu AI или скачав веса модели с HuggingFace. Для интеграции в свои проекты разработчикам доступны SDK для Python и JavaScript. Регистрация на платформе занимает несколько минут и позволяет сразу начать тестирование.
В документации подробно описаны примеры использования, включая настройку контекстного окна и оптимизацию параметров для конкретных задач. Поддержка сообщества активна, что позволяет быстро решать возникающие вопросы при внедрении модели.
API Pricing — Input: $0.2 / Output: $1.1 / Context: 128k