Skip to content
Volver al Blog
Model Releases

Google DeepMind lanza Gemma 3: El estándar multimodal abierto

Gemma 3 redefine el estándar de modelos abiertos con capacidades visuales nativas, un contexto de 128K y rendimiento de frontera en una sola GPU.

12 de marzo de 2025
Model ReleaseGemma 3
Gemma 3 - official image

Introducción: La nueva era de la IA multimodal

El 12 de marzo de 2025, Google DeepMind anunció oficialmente el lanzamiento de Gemma 3, una familia de modelos de lenguaje y visión que marca un punto de inflexión en el desarrollo de IA de código abierto. Esta nueva generación no solo hereda la eficiencia de sus predecesores, sino que introduce capacidades multimodales nativas, permitiendo a los desarrolladores integrar comprensión visual y textual en una sola arquitectura. Para la industria tecnológica, Gemma 3 representa un desafío directo a los modelos propietarios cerrados, ofreciendo transparencia y licencia Apache 2.0 que facilita la adopción empresarial.

Lo que distingue a Gemma 3 es su enfoque en la accesibilidad sin sacrificar rendimiento. A diferencia de modelos anteriores que requerían infraestructura masiva, Gemma 3 está diseñado para ejecutarse en hardware accesible, desde estaciones de trabajo hasta servidores en la nube. La empresa enfatiza que este modelo es el resultado de años de investigación en el proyecto Gemini, ahora liberado bajo términos que priorizan la innovación comunitaria y la seguridad. Para los ingenieros de IA, esto significa una herramienta más potente para construir agentes autónomos y aplicaciones de razonamiento complejo.

  • Fecha de lanzamiento: 12 de marzo de 2025.
  • Licencia: Apache 2.0 (Comercialmente libre).
  • Capacidad: Text + Visión (Multimodal).
  • Objetivo: Competir con modelos cerrados en rendimiento y costo.

Características Clave y Arquitectura

Gemma 3 introduce una arquitectura optimizada que reduce significativamente el consumo de memoria KV-cache, permitiendo ventanas de contexto extensas sin degradar el rendimiento. La familia de modelos incluye cuatro variantes principales: 1B, 4B, 12B y 27B parámetros. La variante de 27B es la más potente, capaz de ejecutar tareas de razonamiento de frontera en una sola GPU NVIDIA moderna. Además, la capacidad multimodal es nativa, lo que elimina la necesidad de modelos separados para visión y lenguaje, simplificando el pipeline de inferencia.

El soporte para un contexto de 128K tokens es una característica crítica para aplicaciones RAG (Retrieval-Augmented Generation) y análisis de documentos largos. La arquitectura utiliza mecanismos de enrutamiento expertos (MoE) en las versiones más grandes, activando solo los parámetros necesarios durante cada paso hacia adelante. Esto permite que la inteligencia de un modelo de 27B funcione con la velocidad de un modelo mucho más pequeño, optimizando el costo computacional para despliegues en tiempo real.

  • Variantes: 1B, 4B, 12B, 27B parámetros.
  • Ventana de contexto: 128K tokens.
  • Capacidad: Multimodal (Texto + Visión).
  • Hardware: Ejecución en una sola GPU.
  • Tecnología: MoE con enrutamiento top-8.

Rendimiento y Benchmarks

En pruebas de evaluación estándar, Gemma 3 muestra mejoras sustanciales sobre la versión anterior. En el benchmark MMLU (Massive Multitask Language Understanding), el modelo de 27B alcanza un puntaje de 85.2%, superando a modelos de 7B de la competencia. En HumanEval, una prueba de generación de código, obtiene un 80.5% de precisión, lo que lo hace viable para asistentes de programación en producción. La evaluación en SWE-bench también muestra un rendimiento competitivo, indicando que el modelo puede resolver problemas de ingeniería de software reales.

La capacidad multimodal fue evaluada en benchmarks de detección de objetos y comprensión de diagramas. Gemma 3 logra una precisión del 92% en tareas de visión, comparable a modelos propietarios de gran escala. La mejora en el razonamiento matemático es notable, con un aumento del 15% en problemas de lógica compleja en comparación con Gemma 2. Estos números confirman que la liberación de Gemma 3 bajo Apache 2.0 ofrece un valor técnico superior al de los modelos de pesos cerrados de la misma época.

  • MMLU: 85.2% (Modelo 27B).
  • HumanEval: 80.5% de precisión.
  • SWE-bench: 45% de resolución.
  • Visión: 92% de precisión en detección.
  • Razonamiento matemático: +15% vs Gemma 2.

API y Precios

Aunque Gemma 3 es de código abierto, Google ofrece una API para facilitar la integración sin necesidad de auto-hospedaje. Los precios están diseñados para ser competitivos con los modelos de Google Cloud y Azure. Para el uso comercial a través de la API, el costo de entrada se sitúa en $0.0005 por millón de tokens, mientras que la salida se cobra a $0.001 por millón. Esta estructura de precios es aproximadamente un 40% más baja que la de los modelos líderes del mercado en su categoría de rendimiento.

Para desarrolladores que prefieren la privacidad y el control total, los pesos del modelo están disponibles en Hugging Face y GitHub bajo licencia Apache 2.0. Esto permite un despliegue local gratuito en servidores propios, eliminando costos de API por completo. Sin embargo, la versión de la API incluye soporte para agentic workflows y funciones de seguridad mejoradas, lo que la hace ideal para empresas que no tienen recursos de infraestructura masiva para mantener sus propios clústeres de inferencia.

  • Costo Input API: $0.0005 / M tokens.
  • Costo Output API: $0.001 / M tokens.
  • Tier Gratuito: Auto-hospedaje (Gratis).
  • API: Soporte para agentic workflows.
  • Licencia: Apache 2.0 (Comercialmente libre).

Tabla de Comparación

Para contextualizar el rendimiento de Gemma 3 frente a sus competidores directos, hemos preparado una tabla que resume las capacidades clave. Gemma 3 se posiciona como el equilibrio ideal entre potencia y eficiencia, especialmente en la variante de 27B. Mientras que Llama 3.1 ofrece un contexto más largo en su versión base, Gemma 3 gana en eficiencia de inferencia multimodal. Qwen 2.5 mantiene una fuerte competencia en matemáticas, pero Gemma 3 supera en integración de visión nativa.

Esta comparación es crucial para arquitectos de sistemas que deciden entre modelos. Gemma 3 destaca por su licencia abierta y soporte de hardware único, mientras que Llama 3.1 sigue siendo líder en comunidad y Qwen 2.5 en rendimiento matemático puro. La decisión final dependerá de los requisitos específicos de la aplicación, como la necesidad de visión o el presupuesto de infraestructura.

  • Análisis comparativo de Gemma 3 vs Llama 3.1 vs Qwen 2.5.
  • Enfoque en eficiencia de inferencia y costos.
  • Consideración de licencias y comunidad.
  • Evaluación de capacidades multimodales.

Casos de Uso

Gemma 3 está optimizado para una variedad de aplicaciones de alto nivel. En desarrollo de software, los modelos de 12B y 27B pueden actuar como copilotos de código que entienden no solo el texto, sino también capturas de pantalla de interfaces de usuario o diagramas de arquitectura. En el ámbito de RAG, la ventana de 128K permite analizar contratos legales o documentación técnica extensa sin truncar información crítica.

Para agentes autónomos, la capacidad de razonamiento mejorada permite que los agentes planifiquen tareas complejas que requieren múltiples pasos de lógica. Además, en el sector de atención al cliente, la multimodalidad permite analizar correos electrónicos junto con adjuntos visuales para generar respuestas más precisas. Estas aplicaciones demuestran la versatilidad de Gemma 3 más allá del chat básico.

  • Copilotos de código con visión de UI.
  • RAG con documentos de 128K tokens.
  • Agentes autónomos de planificación.
  • Análisis de documentos legales y técnicos.
  • Chatbots multimodales para soporte.

Cómo Empezar

Acceder a Gemma 3 es sencillo para la mayoría de los desarrolladores. Los pesos del modelo están disponibles en Hugging Face y pueden descargarse directamente para entrenamiento o inferencia local. Para usar la API, los desarrolladores pueden registrarse en Google Cloud Vertex AI y acceder a los endpoints oficiales. El SDK oficial para Python está documentado en el repositorio de GitHub de DeepMind, proporcionando ejemplos de uso para visión y texto.

Para despliegues en producción, Google recomienda utilizar las herramientas de cuantización integradas para reducir el tamaño del modelo en un 50% sin pérdida significativa de precisión. Esto permite ejecutar la variante de 27B en GPUs de consumo en lugar de servidores de datos. La documentación técnica detallada incluye guías de optimización para TensorFlow y PyTorch, asegurando una curva de aprendizaje suave para ingenieros experimentados.

  • Descarga: Hugging Face y GitHub.
  • API: Google Cloud Vertex AI.
  • SDK: Python oficial (DeepMind).
  • Optimización: Cuantización integrada.
  • Frameworks: TensorFlow y PyTorch.

Comparison

Model: Gemma 3 (27B) | Context: 128K | Max Output: 8K | Input $/M: $0.0005 | Output $/M: $0.001 | Strength: Multimodal Nativo

Model: Llama 3.1 (70B) | Context: 128K | Max Output: 8K | Input $/M: $0.001 | Output $/M: $0.002 | Strength: Comunidad Grande

Model: Qwen 2.5 (72B) | Context: 128K | Max Output: 8K | Input $/M: $0.0008 | Output $/M: $0.0015 | Strength: Razonamiento Math

API Pricing — Input: $0.0005 / Output: $0.001 / Context: 128K tokens


Sources

Gemma 3 Technical Report

Gemma 3 GitHub Repository