Introduction

Google DeepMind a officiellement annoncé le 12 mars 2025 la sortie de Gemma 3, marquant un tournant majeur pour les développeurs cherchant un modèle open source performant. Cette nouvelle génération de modèles s'inscrit dans la continuité de la famille Gemma, mais avec des capacités étendues pour le traitement multimodal. Il s'agit d'une évolution stratégique pour permettre l'exécution de tâches complexes sur des infrastructures locales ou en edge computing.

L'importance de ce lancement réside dans sa capacité à combiner une puissance de raisonnement avancée avec une accessibilité technique inédite. Contrairement à ses concurrents fermés, Gemma 3 est conçu pour être intégré directement dans les pipelines de production sans restrictions de licence onéreuses. Les ingénieurs peuvent ainsi exploiter pleinement les capacités de vision et de texte pour des applications critiques.

Date de sortie : 12 mars 2025
Fournisseur : Google DeepMind
Licence : Apache 2.0

Fonctionnalités Clés et Architecture

Gemma 3 se distingue par une architecture optimisée pour l'efficacité matérielle et la polyvalence. La famille de modèles comprend quatre variantes principales : 1B, 4B, 12B et 27B paramètres. Cette diversité permet aux équipes de choisir le bon équilibre entre précision et coût de déploiement selon leurs besoins spécifiques.

Un point fort technique majeur est la fenêtre de contexte étendue à 128K tokens, permettant de traiter des documents longs ou des flux vidéo complets. Le modèle intègre également des capacités natives de vision, combinant le texte et les images dans un seul passage avant. Cette architecture est conçue pour fonctionner sur une seule GPU, réduisant considérablement les besoins en infrastructure par rapport aux modèles précédents.

Variantes : 1B, 4B, 12B, 27B
Contexte : 128K tokens
Capacité : Multimodal (Texte + Vision)
Matériel : Single GPU capable

Performances et Benchmarks

Les tests de benchmark ont révélé des performances compétitives face aux modèles propriétaires. Sur MMLU, Gemma 3 atteint un score de 85,4%, surpassant les modèles open source précédents de plus de 5 points. Ces résultats démontrent une amélioration significative dans la compréhension du raisonnement logique et des connaissances générales.

Pour les tâches de codage, le modèle obtient un score de 92% sur HumanEval, facilitant l'intégration dans les IDE modernes. Sur SWE-bench, il résout 45% des problèmes de développement logiciel, prouvant son utilité pour l'automatisation des tâches techniques. Ces chiffres confirment que Gemma 3 est prêt pour des déploiements en production exigeants.

Google DeepMind lance Gemma 3 : Le futur du multimodal open source

Introduction

Fonctionnalités Clés et Architecture

Performances et Benchmarks

Tarification API et Modèle Gratuit

Tableau Comparatif

Cas d'Usage

Comment Commencer

Comparison

Sources