Moonshot AI выпустила kimi-k2.7-code — open-weights код-модель с 256k контекстом, мультимодальностью, ToolCalls и заметным скачком против K2.6.

12 июня 2026 года Moonshot AI выпустила kimi-k2.7-code — специализированную coding model из семейства Kimi. Для разработчиков и AI-инженеров это не просто очередная модель для автодополнения: релиз делает ставку на длинные агентные сценарии, глубокое рассуждение, работу с большими репозиториями и нативную обработку текста, изображений и видео. Модель распространяется как open-weights и доступна через HuggingFace, API и Kimi Code IDE, что расширяет выбор между self-hosting, управляемым API и IDE-интеграцией.
Почему это важно: K2.6 уже задавал высокую планку для open-моделей в автономной разработке, а kimi-k2.7-code заявляет существенные улучшения именно на кодинговых бенчмарках. Главный практический сигнал — модель стала не только сильнее, но и эффективнее: по данным релиза, внутреннее рассуждение требует на 30% меньше токенов, чем у K2.6. В агентных рабочих процессах, где одна задача может порождать десятки промптов, это напрямую влияет на latency, стабильность контекста и стоимость orchestration.
По публичным материалам точное число параметров kimi-k2.7-code не раскрыто, поэтому корректно говорить о модели как open-weights, а не задавать неподтвержденный 1T, 7B или 32B. Это важно для engineering-оценки: при выборе железа ориентируйтесь на фактический размер весов, требования к VRAM, quantization и inference backend, а не только на название поколения. Для сравнения, K2.6 в публичных обзорах описывалась как модель с 1T параметров, но это не переносится автоматически на K2.7.
Архитектурно модель поддерживает long thinking и deep reasoning при 256k контекстном окне. В API pricing указан контекст 262,144 tokens — технически это и есть 256K в двоичной нотации. Нативная мультимодальная архитектура принимает text, image и video input, что полезно для генерации кода по макетам, разбора UI-видео, инспекции логов и объяснения ошибок по скриншотам. Поддерживаются ToolCalls, JSON Mode, Partial Mode и automatic context caching.
Самые сильные цифры релиза — относительный прирост к K2.6. На Kimi Code Bench v2 kimi-k2.7-code показывает +21.8% к K2.6, на Program Bench — +11%, на MLS Bench Lite — +31.5%. Эти метрики более релевантны для coding model, чем общий knowledge benchmark, потому что они ближе к задачам: планирование изменений, генерация патчей, работа с программами и многошаговыми инженерными запросами.
По MMLU, HumanEval и SWE-bench в доступных релизных материалах подтвержденные абсолютные баллы не указаны, поэтому их не следует выдумывать. Для production-оценки лучше прогнать собственный eval: 20–50 задач из вашего репозитория, с ToolCalls, JSON Mode, Partial Mode и реальным контекстом. Для сравнения с конкурентами можно ориентироваться на публичные обзоры K2.6, где модель описывалась как соперник GPT-5.4 и Claude Opus 4.6 на ряде AI benchmarks, но kimi-k2.7-code нужно проверять отдельно.
API pricing для kimi-k2.7-code использует ставку за миллион токенов. Input стоит $0.95 per 1M tokens, output — $4.00 per 1M tokens, а context window составляет 262,144 tokens. Cache hit input оценивается в $0.19 per 1M tokens, то есть дает скидку 80% относительно стандартного input. Free tier availability: N/A в подтвержденных материалах.
Важно: кэширование контекста может радикально менять экономику RAG и агентных IDE. Если вы передаете один и тот же репозиторий, документацию или набор логов, automatic context caching позволяет повторно использовать уже обработанный контекст. Для long-running agents это особенно полезно: меньше дублирования токенов, ниже пиковая нагрузка и проще держать стабильный системный промпт.
Лучшие сценарии для kimi-k2.7-code — кодинг, агентная разработка, анализ больших контекстов и мультимодальная диагностика. В IDE модель может работать как ассистент для рефакторинга, генерации тестов, поиска причин падения CI и объяснения чужого кода. 256k контекст позволяет загружать крупные файлы, документацию, migration guides и цепочки ошибок без агрессивного chunking.
Для AI engineers интересны ToolCalls и JSON Mode: модель можно встроить в pipeline, где она вызывает search, tests, linters, static analyzers или deployment tools. Partial Mode полезен для потоковых агентных интерфейсов, где пользователю нужно видеть промежуточный план до финального ответа. Видео-ввод открывает сценарии QA: модель может анализировать запись воспроизведения бага, UI-прототип или демо пользовательского сценария.
Начать можно тремя путями. Первый — загрузить open-weights с HuggingFace и запускать модель в собственном inference stack, подбирая quantization, tensor parallelism и KV-cache под доступную VRAM. Второй — использовать API с model id kimi-k2.7-code и включить context caching для повторяющихся контекстов. Третий — попробовать Kimi Code IDE, если нужен готовый developer workflow без самостоятельной оркестрации.
В доступных материалах подтвержденный API endpoint и SDK не указаны, поэтому безопаснее не копировать endpoint из неофициальных постов: используйте консоль Moonshot AI или официальную документацию, когда она станет доступна. Для beta-доступа к будущим обновлениям можно присоединиться к beta program; для production внедрения обязательно проведите собственный eval по вашим репозиториям, latency SLO и бюджету на output tokens.
API Pricing — Input: $0.95 / Output: $4.00 / Context: 262,144 tokens