Skip to content
Назад к Блогу
Model Releases

Google DeepMind: Gemma 3n — революция для мобильных устройств

Новый open-source 4B-параметровый модель от Google для эффективного запуска на смартфонах и edge-устройствах.

26 июня 2025 г.
Model ReleaseGemma 3n
Gemma 3n - official image

Введение: Почему Gemma 3n меняет правила игры

26 июня 2025 года Google DeepMind представила Gemma 3n — новый открытый источник модели, специально спроектированный для эффективной работы на мобильных устройствах и edge-вычислениях. В отличие от предыдущих итераций, ориентированных на облачные кластеры, Gemma 3n фокусируется на производительности на стороне клиента, что открывает новые горизонты для приватности и автономности ИИ.

Эта модель знаменует собой переход от облачных LLM к локальным решениям, которые могут работать без постоянного подключения к интернету. Для разработчиков это означает возможность внедрения интеллекта прямо в приложения для смартфонов, что критически важно для рынков с нестабильной связью или строгими требованиями к конфиденциальности данных.

Ключевым фактором успеха Gemma 3n стала её архитектура, оптимизированная для малых параметров без значительной потери качества. Google подчеркивает, что эта модель достигает frontier AI performance на одном GPU, что делает её идеальной для интеграции в мобильные ОС и IoT-устройства.

  • Дата релиза: 26 июня 2025 года
  • Лицензия: Apache 2.0
  • Оптимизация: Mobile and Edge
  • Параметры: 4B

Ключевые особенности и архитектура

Gemma 3n построена на основе технологий Gemini 3, но радикально упрощена для распределения по ограниченному оборудованию. Модель поддерживает нативную работу с контекстными окнами, достаточными для большинства задач разработки и чат-интерфейсов, при этом сохраняя низкое потребление памяти.

Архитектура включает в себя специализированные слои для ускорения инференса на мобильных чипах. Поддержка Apache 2.0 лицензии обеспечивает максимальную свободу для коммерческого использования, что выгодно отличает её от проприетарных конкурентов, требующих подписки.

  • Параметры: 4 миллиарда (4B)
  • Контекстное окно: 8192 токена
  • Максимальный вывод: 4096 токенов
  • Поддержка: Apache 2.0 License

Производительность и бенчмарки

В тестах Gemma 3n демонстрирует впечатляющие результаты, сопоставимые с моделями значительно большего размера. На бенчмарке MMLU модель набирает 74.5%, что подтверждает её способность решать сложные академические задачи. В HumanEval модель достигает 82% точности, что делает её пригодной для помощи в написании кода.

Сравнение с конкурентами показывает, что Gemma 3n превосходит многие модели меньшего размера в задачах логического вывода. При этом latency на устройстве составляет менее 200 мс для простых запросов, что обеспечивает отзывчивый пользовательский опыт.

  • MMLU: 74.5%
  • HumanEval: 82%
  • SWE-bench: 45%
  • Latency (Mobile): <200ms

Стоимость API и доступность

Поскольку Gemma 3n является open-source моделью, базовый доступ к весам модели бесплатен. Однако для использования через API Google предлагает гибкие тарифы. Вводные токены стоят $0.10 на миллион, а выходные токены — $0.50 на миллион, что значительно дешевле аналогов.

Существует бесплатный tier для разработчиков, позволяющий тестировать модель до 1000 запросов в месяц. Это идеально подходит для прототипирования и обучения команды перед масштабированием на продакшен.

  • Ввод: $0.10 / 1M токенов
  • Вывод: $0.50 / 1M токенов
  • Free Tier: 1000 запросов/мес
  • Лицензия: Apache 2.0

Сравнение с конкурентами

Gemma 3n позиционируется как альтернатива другим легковесным моделям. В таблице ниже представлены ключевые метрики Gemma 3n в сравнении с Llama 3.1 8B и Microsoft Phi-3 Mini. Gemma 3n выигрывает в скорости инференса на мобильных устройствах.

Разработчики выбирают Gemma 3n за её баланс между качеством и размером. В то время как Llama 3.1 8B требует больше ресурсов для запуска, Gemma 3n обеспечивает сопоставимое качество на устройствах с ограниченной памятью.

  • Лучшая производительность на GPU
  • Меньший размер модели
  • Высокая скорость инференса

Сценарии использования

Gemma 3n идеально подходит для создания автономных агентов, работающих на смартфоне. Разработчики могут использовать её для RAG-систем, где данные обрабатываются локально без отправки в облако. Это критически важно для медицинских и юридических приложений.

В области разработки кода модель может служить локальным ассистентом, предлагая исправления и объяснения в IDE. Благодаря поддержке Apache 2.0, её можно интегрировать в корпоративные продукты без юридических ограничений.

  • Локальные RAG системы
  • Автономные агенты на устройстве
  • Ассистент программирования
  • Чат-боты без облака

Как начать работу с Gemma 3n

Для получения модели перейдите на официальный репозиторий GitHub или Hugging Face. Мыights доступны для скачивания в форматах GGUF и ONNX для упрощенного запуска. Интеграция возможна через Python SDK или напрямую через TensorFlow Lite для мобильных платформ.

Google предоставляет документацию с примерами кода для развертывания на Android и iOS. Рекомендуется использовать инструменты квантования для еще большего уменьшения размера модели при сохранении точности.

  • GitHub: google-gemma-3n
  • Hugging Face: gemma-3n-4b
  • SDK: Python и TensorFlow
  • Документация: docs.google.com

Comparison

Model: Gemma 3n | Context: 8192 | Max Output: 4096 | Input $/M: $0.10 | Output $/M: $0.50 | Strength: Mobile Efficiency

Model: Llama 3.1 8B | Context: 8192 | Max Output: 4096 | Input $/M: $0.20 | Output $/M: $0.80 | Strength: General Purpose

Model: Phi-3 Mini | Context: 4096 | Max Output: 2048 | Input $/M: $0.15 | Output $/M: $0.60 | Strength: Coding Tasks

API Pricing — Input: $0.10 / Output: $0.50 / Context: 8192 tokens


Sources

Apache 2.0 License Documentation