OpenBMB представил MiniCPM-o 4.5 — компактную 9B модель с полнодуплексной обработкой видео и аудио в реальном времени. Идеально для мобильных устройств.

8 февраля 2026 года OpenBMB официально анонсировал релиз MiniCPM-o 4.5, который представляет собой прорыв в области мультимодальных больших языковых моделей (MLLM). В отличие от предыдущих версий, эта модель спроектирована специально для работы на периферийных устройствах, сохраняя при этом производительность, сопоставимую с гигантами индустрии. Это означает, что разработчики могут теперь развернуть мощную AI-систему на смартфонах или ноутбуках без необходимости подключения к облаку.
Главная ценность MiniCPM-o 4.5 заключается в его способности обрабатывать видеопоток, изображения и аудио одновременно в режиме полного дуплекса. Это открывает новые горизонты для создания умных камер видеонаблюдения, голосовых ассистентов нового поколения и систем компьютерного зрения, работающих автономно. Модель демонстрирует, что качество не всегда зависит от количества параметров, а от архитектуры и эффективности обучения.
Техническая основа MiniCPM-o 4.5 базируется на архитектуре Qwen3-8B, что обеспечивает высокую эффективность генерации текста. Модель построена end-to-end с использованием компонентов SigLip2 для визуального восприятия, Whisper-medium для обработки аудио и CosyVoice2 для синтеза речи. Общее количество параметров составляет 9 миллиардов, что делает её одной из самых компактных моделей с таким функционалом.
Ключевым отличием является поддержка полнодуплексной передачи данных. Это позволяет модели слушать и говорить одновременно, а также анализировать видеопоток без задержек. Такая архитектура критически важна для приложений, где задержка (latency) недопустима, например, в автономных роботах или системах безопасности.
В тестах MiniCPM-o 4.5 показывает выдающиеся результаты, достигая среднего балла 78.2 на платформе OpenCompass. Это сопоставимо с показателями значительно более тяжелых моделей. В частности, производительность в задачах понимания изображений и видео приближается к уровню Gemini 2.5 Flash, несмотря на меньшее потребление ресурсов.
Модель успешно прошла тестирование в категориях MMLU, HumanEval и SWE-bench. Результаты подтверждают, что оптимизация архитектуры позволяет компенсировать меньшее количество параметров. Это делает модель конкурентоспособной в задачах сложного логического вывода и программирования.
Так как модель является Open Source, её можно бесплатно загрузить на Hugging Face и запустить локально. Однако для разработчиков, использующих облачные API, доступны тарифные планы. Стоимость обработки входных данных составляет около 0.05 долларов за миллион токенов, а выходных — 0.10 долларов. Это делает модель экономически выгодной для коммерческих проектов.
Существует бесплатный слой для тестирования через веб-демо, что позволяет оценить возможности перед интеграцией. Для энтузиастов доступна версия с квантованием AWQ для ускорения работы на потребительском железе.
МиниCPM-o 4.5 напрямую конкурирует с такими моделями, как Gemini 2.5 Flash и Qwen3-VL-8B. Главным преимуществом является баланс между размером модели и функциональностью. В то время как конкуренты требуют значительных вычислительных мощностей, MiniCPM-o 4.5 оптимизирована для мобильных процессоров.
В таблице ниже представлены ключевые метрики для сравнения. Обратите внимание на стоимость вывода и возможности контекстного окна. Эти данные помогут выбрать подходящее решение для вашего проекта.
Модель идеально подходит для задач, требующих обработки мультимодальных данных в реальном времени. Например, создание умных очков дополненной реальности, которые анализируют окружение и голосовые команды пользователя одновременно. Также модель эффективна для систем безопасности, где необходимо мгновенное распознавание лиц и звуковых сигналов.
В разработке программного обеспечения MiniCPM-o 4.5 может использоваться как агент для автоматизации тестирования кода или для создания RAG-систем с поддержкой визуальных документов. Её компактность позволяет внедрять её в устройства с ограниченным питанием.
Для доступа к модели используйте официальное хранилище Hugging Face или репозиторий GitHub. Установка через Ollama упрощает локальный запуск командой 'ollama run minicpm-o4.5'. Для API доступа необходимо зарегистрироваться на платформе OpenBMB и получить ключ.
Документация содержит подробные примеры кода на Python. Рекомендуется начать с демо-интерфейса, чтобы проверить работу полнодуплексного режима перед интеграцией в продакшн.
API Pricing — Input: 0.05 / Output: 0.10 / Context: 128k