Введение

Google DeepMind официально представила модель Gemini 3.1 Flash Lite Preview 3 марта 2026 года, что стало значимым событием для индустрии искусственного интеллекта и машинного обучения. Это критически важное обновление для разработчиков, ориентированных на масштабирование своих высоконагруженных приложений в облаке и корпоративных средах. Модель создана специально для сценариев высокой пропускной способности, где баланс между низкой латентностью и стоимостью является решающим фактором для бизнеса. В отличие от более тяжелых версий, Flash Lite сохраняет ключевые мультимодальные возможности, но радикально оптимизирует вычислительные затраты для облачных сред и API.

Дата релиза: 3 марта 2026 года
Статус: Preview
Целевая аудитория: Enterprise и DevOps

Ключевые особенности и архитектура

Основная особенность архитектуры — окно контекста на 1 миллион токенов, что позволяет обрабатывать длинные юридические документы и технические отчеты без разбивки. Максимальный вывод ограничен 65.5K токенов для предотвращения перегрузки памяти клиента и сервера. Поддерживается кэширование промптов для снижения стоимости повторных запросов в рамках одной сессии и улучшения пользовательского опыта. Есть нативные вызовы инструментов и встроенные возможности компьютерного зрения для анализа изображений и графиков.

Модель использует эффективную структуру MoE для распределения нагрузки. Это обеспечивает высокую скорость ответа при минимальных затратах на вычислительные мощности GPU.

Контекст: 1M токенов
Вывод: 65.5K токенов
Кэширование промптов: Да
Vision: Native
Tool Calling: Native

Производительность и бенчмарки

По сравнению с предыдущими версиями, скорость обработки запросов значительно выросла за счет оптимизации MoE структуры и распределения нагрузки. Стоимость вычислений составляет одну восьмую от модели Pro, что подтверждается официальными заявлениями компании и бенчмарками. Benchmarks показывают высокую эффективность для простых задач логического вывода и генерации кода в реальных условиях. Модель ARC-AGI-2 подтверждает надежность в базовых сценариях использования для автономных агентов и чат-ботов.

В сценариях RAG модель демонстрирует стабильную работу с большими контекстами без деградации качества ответов.

Скорость: Высокая
Стоимость: 1/8 от Pro
Benchmarks: ARC-AGI-2

Google DeepMind выпускает Gemini 3.1 Flash Lite Preview: Обзор для разработчиков

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Цены API

Сравнение с конкурентами

Сценарии использования

Запуск и доступ

Comparison

Sources