Новый легкий вариант модели оптимизирован для высокой пропускной способности и низкой стоимости при сохранении многомодальности.

Google DeepMind официально представила модель Gemini 3.1 Flash Lite Preview 3 марта 2026 года, что стало значимым событием для индустрии искусственного интеллекта и машинного обучения. Это критически важное обновление для разработчиков, ориентированных на масштабирование своих высоконагруженных приложений в облаке и корпоративных средах. Модель создана специально для сценариев высокой пропускной способности, где баланс между низкой латентностью и стоимостью является решающим фактором для бизнеса. В отличие от более тяжелых версий, Flash Lite сохраняет ключевые мультимодальные возможности, но радикально оптимизирует вычислительные затраты для облачных сред и API.
Основная особенность архитектуры — окно контекста на 1 миллион токенов, что позволяет обрабатывать длинные юридические документы и технические отчеты без разбивки. Максимальный вывод ограничен 65.5K токенов для предотвращения перегрузки памяти клиента и сервера. Поддерживается кэширование промптов для снижения стоимости повторных запросов в рамках одной сессии и улучшения пользовательского опыта. Есть нативные вызовы инструментов и встроенные возможности компьютерного зрения для анализа изображений и графиков.
Модель использует эффективную структуру MoE для распределения нагрузки. Это обеспечивает высокую скорость ответа при минимальных затратах на вычислительные мощности GPU.
По сравнению с предыдущими версиями, скорость обработки запросов значительно выросла за счет оптимизации MoE структуры и распределения нагрузки. Стоимость вычислений составляет одну восьмую от модели Pro, что подтверждается официальными заявлениями компании и бенчмарками. Benchmarks показывают высокую эффективность для простых задач логического вывода и генерации кода в реальных условиях. Модель ARC-AGI-2 подтверждает надежность в базовых сценариях использования для автономных агентов и чат-ботов.
В сценариях RAG модель демонстрирует стабильную работу с большими контекстами без деградации качества ответов.
Вводная цена составляет $0.000025 за миллион токенов, что делает её самой дешевой в серии Gemini 3 и конкурентоспособной по сравнению с аналогами. Выводная цена составляет $0.000075 за миллион токенов, что остается конкурентоспособным предложением для стартапов и малого бизнеса. Контекстное окно позволяет экономить на кэшировании и снижает стоимость длинных диалогов с пользователями. Доступен бесплатный тариф для тестирования в рамках Google AI Studio для новых разработчиков и исследователей.
Оплата производится только за фактически использованные токены, что позволяет точно прогнозировать бюджет проекта.
Модель напрямую конкурирует с другими легковесными вариантами на рынке и предлагает лучшее соотношение цены и качества для задач, где точность Pro не критична. Разработчики могут выбрать её для микросервисов, требующих высокой доступности и низкой стоимости обработки. Она выигрывает у более старых версий в скорости ответа и экономии ресурсов. Также она превосходит конкурентов в поддержке кэширования промптов.
Для задач, требующих максимальной точности, рекомендуется использовать Pro версию.
Идеально подходит для автоматизации рутинных задач в разработке программного обеспечения и тестировании гипотез в CI/CD пайплайнах. Отлично работает в системах RAG для обработки больших баз знаний без потери производительности и качества ответов. Агенты могут использовать её для выполнения параллельных вызовов инструментов без задержек и сбоев в работе системы.
Подходит для чат-ботов с большим объемом истории переписки.
Доступен через стандартный API endpoint с использованием SDK Python или JavaScript для быстрого интеграции в проекты. Регистрация ключа API обязательна для использования в продакшене и коммерческих проектах с юридической ответственностью. Документация обновлена для поддержки новых параметров кэширования и бюджета размышлений для более сложных задач. Поддержка сообщества и обновления выходят регулярно.
API поддерживает асинхронные вызовы для повышения производительности.
API Pricing — Input: $0.25 / Output: $1.5 / Context: 1M tokens