Google DeepMind выпускает Gemini 3.1 Flash Lite Preview: Обзор для разработчиков
Новый легкий вариант модели оптимизирован для высокой пропускной способности и низкой стоимости при сохранении многомодальности.

Введение
Google DeepMind официально представила модель Gemini 3.1 Flash Lite Preview 3 марта 2026 года, что стало значимым событием для индустрии искусственного интеллекта и машинного обучения. Это критически важное обновление для разработчиков, ориентированных на масштабирование своих высоконагруженных приложений в облаке и корпоративных средах. Модель создана специально для сценариев высокой пропускной способности, где баланс между низкой латентностью и стоимостью является решающим фактором для бизнеса. В отличие от более тяжелых версий, Flash Lite сохраняет ключевые мультимодальные возможности, но радикально оптимизирует вычислительные затраты для облачных сред и API.
- Дата релиза: 3 марта 2026 года
- Статус: Preview
- Целевая аудитория: Enterprise и DevOps
Ключевые особенности и архитектура
Основная особенность архитектуры — окно контекста на 1 миллион токенов, что позволяет обрабатывать длинные юридические документы и технические отчеты без разбивки. Максимальный вывод ограничен 65.5K токенов для предотвращения перегрузки памяти клиента и сервера. Поддерживается кэширование промптов для снижения стоимости повторных запросов в рамках одной сессии и улучшения пользовательского опыта. Есть нативные вызовы инструментов и встроенные возможности компьютерного зрения для анализа изображений и графиков.
Модель использует эффективную структуру MoE для распределения нагрузки. Это обеспечивает высокую скорость ответа при минимальных затратах на вычислительные мощности GPU.
- Контекст: 1M токенов
- Вывод: 65.5K токенов
- Кэширование промптов: Да
- Vision: Native
- Tool Calling: Native
Производительность и бенчмарки
По сравнению с предыдущими версиями, скорость обработки запросов значительно выросла за счет оптимизации MoE структуры и распределения нагрузки. Стоимость вычислений составляет одну восьмую от модели Pro, что подтверждается официальными заявлениями компании и бенчмарками. Benchmarks показывают высокую эффективность для простых задач логического вывода и генерации кода в реальных условиях. Модель ARC-AGI-2 подтверждает надежность в базовых сценариях использования для автономных агентов и чат-ботов.
В сценариях RAG модель демонстрирует стабильную работу с большими контекстами без деградации качества ответов.
- Скорость: Высокая
- Стоимость: 1/8 от Pro
- Benchmarks: ARC-AGI-2
- Результат: Высокая эффективность
Цены API
Вводная цена составляет $0.000025 за миллион токенов, что делает её самой дешевой в серии Gemini 3 и конкурентоспособной по сравнению с аналогами. Выводная цена составляет $0.000075 за миллион токенов, что остается конкурентоспособным предложением для стартапов и малого бизнеса. Контекстное окно позволяет экономить на кэшировании и снижает стоимость длинных диалогов с пользователями. Доступен бесплатный тариф для тестирования в рамках Google AI Studio для новых разработчиков и исследователей.
Оплата производится только за фактически использованные токены, что позволяет точно прогнозировать бюджет проекта.
- Ввод: $0.000025 / 1M
- Вывод: $0.000075 / 1M
- Бесплатный тариф: Есть
- Платежи: За токены
Сравнение с конкурентами
Модель напрямую конкурирует с другими легковесными вариантами на рынке и предлагает лучшее соотношение цены и качества для задач, где точность Pro не критична. Разработчики могут выбрать её для микросервисов, требующих высокой доступности и низкой стоимости обработки. Она выигрывает у более старых версий в скорости ответа и экономии ресурсов. Также она превосходит конкурентов в поддержке кэширования промптов.
Для задач, требующих максимальной точности, рекомендуется использовать Pro версию.
- Конкурент: Gemini 3.1 Pro
- Конкурент: Flash Standard
- Преимущество: Цена
- Преимущество: Скорость
Сценарии использования
Идеально подходит для автоматизации рутинных задач в разработке программного обеспечения и тестировании гипотез в CI/CD пайплайнах. Отлично работает в системах RAG для обработки больших баз знаний без потери производительности и качества ответов. Агенты могут использовать её для выполнения параллельных вызовов инструментов без задержек и сбоев в работе системы.
Подходит для чат-ботов с большим объемом истории переписки.
- Код: Генерация
- RAG: Обработка
- Агенты: Параллельные
- Чат: История
Запуск и доступ
Доступен через стандартный API endpoint с использованием SDK Python или JavaScript для быстрого интеграции в проекты. Регистрация ключа API обязательна для использования в продакшене и коммерческих проектах с юридической ответственностью. Документация обновлена для поддержки новых параметров кэширования и бюджета размышлений для более сложных задач. Поддержка сообщества и обновления выходят регулярно.
API поддерживает асинхронные вызовы для повышения производительности.
- SDK: Python, JS
- API: REST
- Документация: Google AI
- Статус: Preview
Comparison
Model: Gemini 3.1 Flash Lite | Context: 1M | Max Output: 65.5K | Input $/M: $0.000025 | Output $/M: $0.000075 | Strength: Скорость/Цена
Model: Gemini 3.1 Flash | Context: 2M | Max Output: 8K | Input $/M: $0.0002 | Output $/M: $0.0006 | Strength: Баланс
Model: Gemini 3.1 Pro | Context: 2M | Max Output: 32K | Input $/M: $0.002 | Output $/M: $0.006 | Strength: Разум/Точность
API Pricing — Input: $0.000025 / Output: $0.000075 / Context: 1M tokens