Introduction : Une Révolution pour l'IA sur Périphérique

Le 8 février 2026, OpenBMB a officiellement dévoilé MiniCPM-o 4.5, la version la plus capable de la série MiniCPM-o. Ce modèle marque un tournant significatif dans l'évolution des grands modèles de langage multimodaux (MLLM), en particulier pour les scénarios nécessitant une efficacité énergétique et une latence minimale. Contrairement aux géants de l'IA qui dépendent de l'infrastructure cloud massive, MiniCPM-o 4.5 est conçu pour fonctionner de manière native sur des appareils locaux, ouvrant la voie à une véritable intelligence artificielle distribuée.

L'importance de cette release réside dans sa capacité à combiner une performance de pointe avec une compacité extrême. En atteignant des niveaux de performance comparables à Gemini 2.5 Flash avec seulement 9 milliards de paramètres, OpenBMB démontre que l'optimisation architecturale peut surpasser le simple scaling brut. Pour les développeurs cherchant à intégrer des capacités multimodales complexes sans les coûts prohibitifs des API cloud, ce modèle représente une opportunité stratégique majeure pour 2026.

Date de sortie : 8 février 2026
Fournisseur : OpenBMB
Licence : Open Source
Catégorie : Multimodal LLM

Fonctionnalités Clés et Architecture

L'architecture de MiniCPM-o 4.5 est construite de manière end-to-end, intégrant plusieurs composants spécialisés pour une gestion fluide des flux multimodaux. Le modèle s'appuie sur la base Qwen3-8B pour le traitement linguistique, tout en incorporant SigLip2 pour la vision, Whisper-medium pour la reconnaissance audio et CosyVoice2 pour la synthèse vocale. Cette fusion permet un traitement unifié des données sans nécessiter de pipelines de post-traitement complexes.

La fonctionnalité phare de cette version est le support du multimodal en duplex complet (full-duplex). Cela signifie que le modèle peut traiter des entrées audio, vidéo et visuelles en temps réel tout en générant des réponses simultanément, une capacité essentielle pour les assistants virtuels interactifs. Cette approche contraste avec les modèles traditionnels qui traitent souvent les modalités de manière séquentielle, augmentant ainsi la latence perçue par l'utilisateur final.

Paramètres : 9B (9 milliards)
Architecture de base : Qwen3-8B
Vision : SigLip2
Audio : Whisper-medium + CosyVoice2
Fonctionnalité unique : Full-duplex streaming multimodal

Performance et Benchmarks

En termes de performance brute, MiniCPM-o 4.5 affiche des résultats impressionnants sur les benchmarks standardisés. Sur OpenCompass, le modèle obtient un score moyen de 78,2, surpassant de nombreux concurrents dans les catégories de compréhension d'image et de vidéo. Cette performance est particulièrement notable étant donné la taille réduite du modèle, qui est souvent associée à des capacités cognitives limitées.

MiniCPM-o 4.5 : Le Modèle Multimodal 9B qui Défie les Géants

Introduction : Une Révolution pour l'IA sur Périphérique

Fonctionnalités Clés et Architecture

Performance et Benchmarks

API Pricing et Coûts

Tableau de Comparaison

Cas d'Usage Recommandés

Démarrage Rapide

Comparison

Sources