Введение: Эра открытых мультимодальных моделей

Компания Google DeepMind представила новую версию своей открытой модели искусственного интеллекта — Gemma 3. Эта релизная дата 12 марта 2025 года знаменует собой значительный шаг вперед в области доступных и эффективных нейросетей. В отличие от предыдущих поколений, Gemma 3 предлагает уникальное сочетание высокой производительности и экономии ресурсов, что делает её идеальным выбором для локального развертывания и облачных приложений.

Главная особенность модели заключается в её универсальности. Она поддерживает мультимодальный ввод, объединяя текстовые данные с визуальной информацией. Это открывает новые горизонты для приложений, требующих понимания контекста изображений и текста одновременно, сохраняя при этом низкие требования к вычислительной мощности.

Для разработчиков это означает возможность внедрения передовых AI-решений без необходимости использовать мощные кластеры. Gemma 3 создана для того, чтобы демократизировать доступ к frontier AI, предоставляя инструменты, которые ранее были доступны только корпорациям с огромными бюджетами.

Дата релиза: 12 марта 2025 года
Лицензия: Apache 2.0
Статус: Open Source

Архитектура и ключевые возможности

Семейство Gemma 3 представлено четырьмя основными вариантами, что позволяет выбрать оптимальную конфигурацию под конкретную задачу. Доступны модели с параметрами 1B, 4B, 12B и 27B. Версия 27B является флагманской и способна выполнять сложные логические задачи, в то время как версии 1B и 4B идеально подходят для мобильных устройств и edge-вычислений.

Техническая архитектура модели оптимизирована для работы на одном графическом процессоре. Это достигается за счет улучшенной структуры KV-cache, которая снижает потребление памяти при обработке длинных последовательностей. Поддержка контекстного окна в 128K токенов позволяет модели анализировать огромные объемы документации или кода без потери качества.

Мультимодальные способности Gemma 3 включают в себя нативное понимание изображений и диаграмм. Модель способна генерировать текстовые описания визуального контента и отвечать на вопросы, основанные на анализе графиков или интерфейсов пользователя. Это делает её мощным инструментом для RAG-систем и систем автоматизации.

Варианты: 1B, 4B, 12B, 27B
Контекст: 128K токенов
Вход: Текст + Визуальные данные
Выход: Текст

Производительность и бенчмарки

В тестовых бенчмарках Gemma 3 демонстрирует результаты, сопоставимые с закрытыми моделями значительно большего размера. В тесте MMLU модель показывает точность 82.5%, что является показателем для моделей класса 27B. В задачах программирования на HumanEval Gemma 3 достигает 85% точности, что подтверждает её эффективность для разработчиков.

Google DeepMind Gemma 3: Мультимодальная модель 2025 года

Введение: Эра открытых мультимодальных моделей

Архитектура и ключевые возможности

Производительность и бенчмарки

Ценообразование и доступность API

Сравнение с конкурентами

Сценарии использования

Начало работы

Comparison

Sources