Skip to content
Назад к Блогу
Model Releases

MiniCPM-o 4.5: Революция в Edge AI и Мультимодальность

OpenBMB представил MiniCPM-o 4.5 — компактную 9B модель с полнодуплексной обработкой видео и аудио в реальном времени. Идеально для мобильных устройств.

8 февраля 2026 г.
Model ReleaseMiniCPM-o 4.5
MiniCPM-o 4.5 - official image

Введение: Новый Эпоха Локального Интеллекта

8 февраля 2026 года OpenBMB официально анонсировал релиз MiniCPM-o 4.5, который представляет собой прорыв в области мультимодальных больших языковых моделей (MLLM). В отличие от предыдущих версий, эта модель спроектирована специально для работы на периферийных устройствах, сохраняя при этом производительность, сопоставимую с гигантами индустрии. Это означает, что разработчики могут теперь развернуть мощную AI-систему на смартфонах или ноутбуках без необходимости подключения к облаку.

Главная ценность MiniCPM-o 4.5 заключается в его способности обрабатывать видеопоток, изображения и аудио одновременно в режиме полного дуплекса. Это открывает новые горизонты для создания умных камер видеонаблюдения, голосовых ассистентов нового поколения и систем компьютерного зрения, работающих автономно. Модель демонстрирует, что качество не всегда зависит от количества параметров, а от архитектуры и эффективности обучения.

  • Дата релиза: 2026-02-08
  • Тип: Open Source MLLM
  • Основная цель: Edge AI и реальное время

Архитектура и Ключевые Особенности

Техническая основа MiniCPM-o 4.5 базируется на архитектуре Qwen3-8B, что обеспечивает высокую эффективность генерации текста. Модель построена end-to-end с использованием компонентов SigLip2 для визуального восприятия, Whisper-medium для обработки аудио и CosyVoice2 для синтеза речи. Общее количество параметров составляет 9 миллиардов, что делает её одной из самых компактных моделей с таким функционалом.

Ключевым отличием является поддержка полнодуплексной передачи данных. Это позволяет модели слушать и говорить одновременно, а также анализировать видеопоток без задержек. Такая архитектура критически важна для приложений, где задержка (latency) недопустима, например, в автономных роботах или системах безопасности.

  • Параметры: 9B
  • Визуальный блок: SigLip2
  • Аудио: Whisper-medium
  • Голос: CosyVoice2
  • Поддержка: Full-duplex streaming

Производительность и Бенчмарки

В тестах MiniCPM-o 4.5 показывает выдающиеся результаты, достигая среднего балла 78.2 на платформе OpenCompass. Это сопоставимо с показателями значительно более тяжелых моделей. В частности, производительность в задачах понимания изображений и видео приближается к уровню Gemini 2.5 Flash, несмотря на меньшее потребление ресурсов.

Модель успешно прошла тестирование в категориях MMLU, HumanEval и SWE-bench. Результаты подтверждают, что оптимизация архитектуры позволяет компенсировать меньшее количество параметров. Это делает модель конкурентоспособной в задачах сложного логического вывода и программирования.

  • OpenCompass Score: 78.2
  • Сравнение: Gemini 2.5 Flash Level
  • Эффективность: Высокая на 9B параметров
  • Поддержка: 128k контекст

Ценообразование API и Доступность

Так как модель является Open Source, её можно бесплатно загрузить на Hugging Face и запустить локально. Однако для разработчиков, использующих облачные API, доступны тарифные планы. Стоимость обработки входных данных составляет около 0.05 долларов за миллион токенов, а выходных — 0.10 долларов. Это делает модель экономически выгодной для коммерческих проектов.

Существует бесплатный слой для тестирования через веб-демо, что позволяет оценить возможности перед интеграцией. Для энтузиастов доступна версия с квантованием AWQ для ускорения работы на потребительском железе.

  • Open Source: Да
  • API Input: 0.05 $/M
  • API Output: 0.10 $/M
  • Квантование: AWQ 4-bit

Сравнение с Конкурентами

МиниCPM-o 4.5 напрямую конкурирует с такими моделями, как Gemini 2.5 Flash и Qwen3-VL-8B. Главным преимуществом является баланс между размером модели и функциональностью. В то время как конкуренты требуют значительных вычислительных мощностей, MiniCPM-o 4.5 оптимизирована для мобильных процессоров.

В таблице ниже представлены ключевые метрики для сравнения. Обратите внимание на стоимость вывода и возможности контекстного окна. Эти данные помогут выбрать подходящее решение для вашего проекта.

  • Контекст: 128k
  • Вывод: 8192 токена
  • Язык: Мультиязычный

Сценарии Использования

Модель идеально подходит для задач, требующих обработки мультимодальных данных в реальном времени. Например, создание умных очков дополненной реальности, которые анализируют окружение и голосовые команды пользователя одновременно. Также модель эффективна для систем безопасности, где необходимо мгновенное распознавание лиц и звуковых сигналов.

В разработке программного обеспечения MiniCPM-o 4.5 может использоваться как агент для автоматизации тестирования кода или для создания RAG-систем с поддержкой визуальных документов. Её компактность позволяет внедрять её в устройства с ограниченным питанием.

  • Edge AI и IoT
  • Голосовые помощники
  • Автоматизация кода
  • РAG системы

Как Начать Работать

Для доступа к модели используйте официальное хранилище Hugging Face или репозиторий GitHub. Установка через Ollama упрощает локальный запуск командой 'ollama run minicpm-o4.5'. Для API доступа необходимо зарегистрироваться на платформе OpenBMB и получить ключ.

Документация содержит подробные примеры кода на Python. Рекомендуется начать с демо-интерфейса, чтобы проверить работу полнодуплексного режима перед интеграцией в продакшн.

  • GitHub: openbmb/MiniCPM-o
  • Hugging Face: openbmb/MiniCPM-o-4_5-awq
  • Ollama: minicpm-o4.5
  • Demo: openbmb.github.io

Comparison

Model: MiniCPM-o 4.5 | Context: 128k | Max Output: 8192 | Input $/M: 0.05 | Output $/M: 0.10 | Strength: Edge AI, Full-duplex

Model: Gemini 2.5 Flash | Context: 1M | Max Output: 8192 | Input $/M: 0.07 | Output $/M: 0.14 | Strength: High Multimodal

Model: Qwen3-VL-8B | Context: 32k | Max Output: 4096 | Input $/M: 0.06 | Output $/M: 0.12 | Strength: Vision Focus

API Pricing — Input: 0.05 / Output: 0.10 / Context: 128k


Sources

GitHub Repository OpenBMB/MiniCPM-o

Hugging Face Model Page

OpenBMB Web Demo

AIGazine Release Article