Introducción: La nueva era de la IA multimodal

El 12 de marzo de 2025, Google DeepMind anunció oficialmente el lanzamiento de Gemma 3, una familia de modelos de lenguaje y visión que marca un punto de inflexión en el desarrollo de IA de código abierto. Esta nueva generación no solo hereda la eficiencia de sus predecesores, sino que introduce capacidades multimodales nativas, permitiendo a los desarrolladores integrar comprensión visual y textual en una sola arquitectura. Para la industria tecnológica, Gemma 3 representa un desafío directo a los modelos propietarios cerrados, ofreciendo transparencia y licencia Apache 2.0 que facilita la adopción empresarial.

Lo que distingue a Gemma 3 es su enfoque en la accesibilidad sin sacrificar rendimiento. A diferencia de modelos anteriores que requerían infraestructura masiva, Gemma 3 está diseñado para ejecutarse en hardware accesible, desde estaciones de trabajo hasta servidores en la nube. La empresa enfatiza que este modelo es el resultado de años de investigación en el proyecto Gemini, ahora liberado bajo términos que priorizan la innovación comunitaria y la seguridad. Para los ingenieros de IA, esto significa una herramienta más potente para construir agentes autónomos y aplicaciones de razonamiento complejo.

Fecha de lanzamiento: 12 de marzo de 2025.
Licencia: Apache 2.0 (Comercialmente libre).
Capacidad: Text + Visión (Multimodal).
Objetivo: Competir con modelos cerrados en rendimiento y costo.

Características Clave y Arquitectura

Gemma 3 introduce una arquitectura optimizada que reduce significativamente el consumo de memoria KV-cache, permitiendo ventanas de contexto extensas sin degradar el rendimiento. La familia de modelos incluye cuatro variantes principales: 1B, 4B, 12B y 27B parámetros. La variante de 27B es la más potente, capaz de ejecutar tareas de razonamiento de frontera en una sola GPU NVIDIA moderna. Además, la capacidad multimodal es nativa, lo que elimina la necesidad de modelos separados para visión y lenguaje, simplificando el pipeline de inferencia.

El soporte para un contexto de 128K tokens es una característica crítica para aplicaciones RAG (Retrieval-Augmented Generation) y análisis de documentos largos. La arquitectura utiliza mecanismos de enrutamiento expertos (MoE) en las versiones más grandes, activando solo los parámetros necesarios durante cada paso hacia adelante. Esto permite que la inteligencia de un modelo de 27B funcione con la velocidad de un modelo mucho más pequeño, optimizando el costo computacional para despliegues en tiempo real.

Variantes: 1B, 4B, 12B, 27B parámetros.

Google DeepMind lanza Gemma 3: El estándar multimodal abierto

Introducción: La nueva era de la IA multimodal

Características Clave y Arquitectura

Rendimiento y Benchmarks

API y Precios

Tabla de Comparación

Casos de Uso

Cómo Empezar

Comparison

Sources