GLM-5.2: исторический open-source LLM с 1M контекстом для инженерии

Zhipu AI выпустила GLM-5.2 — открытую языковую модель с реально применимым контекстом в 1 миллион токенов, выводом до 128K и лидерством среди open-source моделей в инженерных бенчмарках.

16 июня 2026 г.

Model ReleaseGLM-5.2

Введение

16 июня 2026 года Zhipu AI, также известная как Z.AI, представила GLM-5.2 — флагманскую языковую модель, которую уже можно назвать историческим рубежом для open-source AI. Это не просто очередное обновление линейки GLM: модель выводит в открытый доступ масштабный контекст, ориентированный на реальные инженерные задачи, и делает 1M-token context window не маркетинговым лозунгом, а практическим инструментом для анализа больших кодовых баз, монорепозиториев, документации и агентных рабочих процессов.

Историческая значимость GLM-5.2 в том, что она объединяет три редко встречающихся одновременно свойства: открытые веса под лицензией MIT, usable long-context на уровне миллиона токенов и качество, сопоставимое с ведущими закрытыми frontier-моделями. Для разработчиков и AI-инженеров это означает возможность локально исследовать архитектуру, встраивать модель в собственные пайплайны, строить long-context RAG и агентные системы без полной зависимости от закрытого API.

Модель: GLM-5.2.
Провайдер: Zhipu AI / Z.AI.
Дата релиза: 2026-06-16.
Категория: языковая модель / foundation model.
Open-source: да, веса доступны под лицензией MIT.
Ключевой рубеж: реально применимый контекст 1 000 000 токенов для project-scale engineering.
Максимальный вывод: 128 000 токенов для длинных отчетов, миграций и генерации документации.

Ключевые особенности и архитектура

Главная архитектурная новость GLM-5.2 — IndexShare. По данным релиза, этот механизм снижает per-token FLOPs в 2.9 раза при длине контекста 1M, что критически важно: без оптимизаций такой контекст был бы слишком дорогим и медленным для ежедневной разработки. Инженерный смысл IndexShare в том, что модель не просто принимает огромный prompt, а делает работу с ним экономически и технически осмысленной.

Дополнительно GLM-5.2 использует улучшенный speculative decoding: комбинация MTP, IndexShare и KVShare увеличивает acceptance length на 20%. Для разработчиков это напрямую влияет на latency и стоимость генерации, особенно в agent loops, где модель многократно читает большой контекст, вызывает инструменты и возвращает структурированные результаты. Точные параметры, детали MoE и мультимодальные возможности в предоставленных релизных фактах не подтверждены, поэтому их стоит считать N/A до официальной публикации спецификации.

Контекстное окно: 1M токенов, ориентированное на проектный масштаб.
Вывод: до 128K токенов.
Архитектура: IndexShare, снижающий per-token FLOPs в 2.9 раза на 1M контексте.
Speculative decoding: acceptance length увеличен на 20% благодаря MTP с IndexShare и KVShare.

GLM-5.2: исторический open-source LLM с 1M контекстом для инженерии

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

API pricing и стоимость токенов

Use Cases

Как начать работу с GLM-5.2

Итог

Заключение для разработчиков

Sources