Skip to content
Retour au Blog
Model Releases

Google DeepMind lance Gemma 3 : Le futur du multimodal open source

Découvrez Gemma 3, le nouveau modèle multimodal de Google DeepMind avec 128K context et support vision, disponible en open source.

12 mars 2025
Model ReleaseGemma 3
Gemma 3 - official image

Introduction

Google DeepMind a officiellement annoncé le 12 mars 2025 la sortie de Gemma 3, marquant un tournant majeur pour les développeurs cherchant un modèle open source performant. Cette nouvelle génération de modèles s'inscrit dans la continuité de la famille Gemma, mais avec des capacités étendues pour le traitement multimodal. Il s'agit d'une évolution stratégique pour permettre l'exécution de tâches complexes sur des infrastructures locales ou en edge computing.

L'importance de ce lancement réside dans sa capacité à combiner une puissance de raisonnement avancée avec une accessibilité technique inédite. Contrairement à ses concurrents fermés, Gemma 3 est conçu pour être intégré directement dans les pipelines de production sans restrictions de licence onéreuses. Les ingénieurs peuvent ainsi exploiter pleinement les capacités de vision et de texte pour des applications critiques.

  • Date de sortie : 12 mars 2025
  • Fournisseur : Google DeepMind
  • Licence : Apache 2.0

Fonctionnalités Clés et Architecture

Gemma 3 se distingue par une architecture optimisée pour l'efficacité matérielle et la polyvalence. La famille de modèles comprend quatre variantes principales : 1B, 4B, 12B et 27B paramètres. Cette diversité permet aux équipes de choisir le bon équilibre entre précision et coût de déploiement selon leurs besoins spécifiques.

Un point fort technique majeur est la fenêtre de contexte étendue à 128K tokens, permettant de traiter des documents longs ou des flux vidéo complets. Le modèle intègre également des capacités natives de vision, combinant le texte et les images dans un seul passage avant. Cette architecture est conçue pour fonctionner sur une seule GPU, réduisant considérablement les besoins en infrastructure par rapport aux modèles précédents.

  • Variantes : 1B, 4B, 12B, 27B
  • Contexte : 128K tokens
  • Capacité : Multimodal (Texte + Vision)
  • Matériel : Single GPU capable

Performances et Benchmarks

Les tests de benchmark ont révélé des performances compétitives face aux modèles propriétaires. Sur MMLU, Gemma 3 atteint un score de 85,4%, surpassant les modèles open source précédents de plus de 5 points. Ces résultats démontrent une amélioration significative dans la compréhension du raisonnement logique et des connaissances générales.

Pour les tâches de codage, le modèle obtient un score de 92% sur HumanEval, facilitant l'intégration dans les IDE modernes. Sur SWE-bench, il résout 45% des problèmes de développement logiciel, prouvant son utilité pour l'automatisation des tâches techniques. Ces chiffres confirment que Gemma 3 est prêt pour des déploiements en production exigeants.

  • MMLU Score : 85,4%
  • HumanEval : 92%
  • SWE-bench : 45%

Tarification API et Modèle Gratuit

La stratégie de tarification de Google pour Gemma 3 est conçue pour encourager l'adoption massive. Une version API gratuite est disponible pour les développeurs individuels et les projets open source, avec des limites mensuelles généreuses. Pour les entreprises, un accès premium est proposé via Vertex AI avec des tarifs compétitifs par million de tokens.

Cette approche hybride permet aux startups de tester les capacités du modèle sans investissement initial, tout en offrant une scalabilité pour les grands déploiements. La transparence sur les coûts d'inférence aide les ingénieurs à budgétiser leurs projets d'IA avec précision.

  • Free Tier : Illimité pour usage non commercial
  • API Pro : Tarification à la demande
  • Coût estimé : 0,12 $ / M tokens input

Tableau Comparatif

Pour contextualiser la position de Gemma 3 sur le marché, voici une comparaison directe avec ses principaux concurrents actuels. Cette analyse met en lumière les avantages spécifiques de la fenêtre de contexte et de la licence open source de Google.

Les données montrent que Gemma 3 offre un meilleur rapport performance/prix pour les tâches multimodales. Les modèles fermés restent parfois en avance sur le raisonnement pur, mais Gemma 3 comble cet écart grâce à son architecture MoE optimisée.

  • Comparaison avec Llama 3.1 et Qwen 2.5
  • Focus sur le coût et la licence

Cas d'Usage

Gemma 3 est particulièrement adapté aux applications nécessitant une analyse visuelle approfondie couplée à une génération de texte. Les cas d'usage idéaux incluent l'analyse de code avec compréhension visuelle des schémas, la création de chatbots capables d'interpréter des interfaces graphiques, et la génération de rapports à partir de documents volumineux.

Dans le domaine du RAG (Retrieval Augmented Generation), la fenêtre de 128K tokens permet d'indexer des bases de connaissances entières sans compression excessive. Les agents autonomes peuvent également bénéficier des capacités de raisonnement pour exécuter des workflows complexes sur plusieurs étapes.

  • Coding Assistants
  • RAG sur documents longs
  • Agents autonomes multimodaux

Comment Commencer

L'accès à Gemma 3 est immédiat via plusieurs canaux officiels. Les développeurs peuvent télécharger les poids directement depuis Hugging Face sous licence Apache 2.0. Pour une intégration cloud, l'utilisation de Vertex AI est recommandée pour une gestion simplifiée des ressources.

Les SDK Python et TensorFlow sont disponibles pour faciliter le déploiement local. La documentation technique fournit des exemples de code pour l'inférence multimodale, permettant une montée en compétence rapide pour les équipes techniques.

  • Plateforme : Hugging Face / Vertex AI
  • Langages : Python, TensorFlow
  • Licence : Apache 2.0

Comparison

Model: Gemma 3 27B | Context: 128K | Max Output: 8K | Input $/M: 0.12 | Output $/M: 0.50 | Strength: Multimodal Open Source

Model: Llama 3.1 70B | Context: 128K | Max Output: 8K | Input $/M: 0.50 | Output $/M: 1.50 | Strength: Raisonnement pur

Model: Qwen 2.5 72B | Context: 128K | Max Output: 32K | Input $/M: 0.45 | Output $/M: 1.20 | Strength: Vision avancée

API Pricing — Input: 0.12 / Output: 0.50 / Context: 128K


Sources

Gemma 3 Technical Report

Alphabet Inc. Q1 2024 Earnings