Введение: Новый Эпоха Локального Интеллекта

8 февраля 2026 года OpenBMB официально анонсировал релиз MiniCPM-o 4.5, который представляет собой прорыв в области мультимодальных больших языковых моделей (MLLM). В отличие от предыдущих версий, эта модель спроектирована специально для работы на периферийных устройствах, сохраняя при этом производительность, сопоставимую с гигантами индустрии. Это означает, что разработчики могут теперь развернуть мощную AI-систему на смартфонах или ноутбуках без необходимости подключения к облаку.

Главная ценность MiniCPM-o 4.5 заключается в его способности обрабатывать видеопоток, изображения и аудио одновременно в режиме полного дуплекса. Это открывает новые горизонты для создания умных камер видеонаблюдения, голосовых ассистентов нового поколения и систем компьютерного зрения, работающих автономно. Модель демонстрирует, что качество не всегда зависит от количества параметров, а от архитектуры и эффективности обучения.

Дата релиза: 2026-02-08
Тип: Open Source MLLM
Основная цель: Edge AI и реальное время

Архитектура и Ключевые Особенности

Техническая основа MiniCPM-o 4.5 базируется на архитектуре Qwen3-8B, что обеспечивает высокую эффективность генерации текста. Модель построена end-to-end с использованием компонентов SigLip2 для визуального восприятия, Whisper-medium для обработки аудио и CosyVoice2 для синтеза речи. Общее количество параметров составляет 9 миллиардов, что делает её одной из самых компактных моделей с таким функционалом.

Ключевым отличием является поддержка полнодуплексной передачи данных. Это позволяет модели слушать и говорить одновременно, а также анализировать видеопоток без задержек. Такая архитектура критически важна для приложений, где задержка (latency) недопустима, например, в автономных роботах или системах безопасности.

Параметры: 9B
Визуальный блок: SigLip2
Аудио: Whisper-medium
Голос: CosyVoice2
Поддержка: Full-duplex streaming

Производительность и Бенчмарки

В тестах MiniCPM-o 4.5 показывает выдающиеся результаты, достигая среднего балла 78.2 на платформе OpenCompass. Это сопоставимо с показателями значительно более тяжелых моделей. В частности, производительность в задачах понимания изображений и видео приближается к уровню Gemini 2.5 Flash, несмотря на меньшее потребление ресурсов.

Модель успешно прошла тестирование в категориях MMLU, HumanEval и SWE-bench. Результаты подтверждают, что оптимизация архитектуры позволяет компенсировать меньшее количество параметров. Это делает модель конкурентоспособной в задачах сложного логического вывода и программирования.

MiniCPM-o 4.5: Революция в Edge AI и Мультимодальность

Введение: Новый Эпоха Локального Интеллекта

Архитектура и Ключевые Особенности

Производительность и Бенчмарки

Ценообразование API и Доступность

Сравнение с Конкурентами

Сценарии Использования

Как Начать Работать

Comparison

Sources