Skip to content
Назад к Блогу
Model Releases

Google DeepMind выпускает Gemini 3.1 Flash Lite Preview: Обзор для разработчиков

Новый легкий вариант модели оптимизирован для высокой пропускной способности и низкой стоимости при сохранении многомодальности.

3 марта 2026 г.
Model ReleaseGemini 3.1 Flash Lite Preview
Gemini 3.1 Flash Lite Preview - official image

Введение

Google DeepMind официально представила модель Gemini 3.1 Flash Lite Preview 3 марта 2026 года, что стало значимым событием для индустрии искусственного интеллекта и машинного обучения. Это критически важное обновление для разработчиков, ориентированных на масштабирование своих высоконагруженных приложений в облаке и корпоративных средах. Модель создана специально для сценариев высокой пропускной способности, где баланс между низкой латентностью и стоимостью является решающим фактором для бизнеса. В отличие от более тяжелых версий, Flash Lite сохраняет ключевые мультимодальные возможности, но радикально оптимизирует вычислительные затраты для облачных сред и API.

  • Дата релиза: 3 марта 2026 года
  • Статус: Preview
  • Целевая аудитория: Enterprise и DevOps

Ключевые особенности и архитектура

Основная особенность архитектуры — окно контекста на 1 миллион токенов, что позволяет обрабатывать длинные юридические документы и технические отчеты без разбивки. Максимальный вывод ограничен 65.5K токенов для предотвращения перегрузки памяти клиента и сервера. Поддерживается кэширование промптов для снижения стоимости повторных запросов в рамках одной сессии и улучшения пользовательского опыта. Есть нативные вызовы инструментов и встроенные возможности компьютерного зрения для анализа изображений и графиков.

Модель использует эффективную структуру MoE для распределения нагрузки. Это обеспечивает высокую скорость ответа при минимальных затратах на вычислительные мощности GPU.

  • Контекст: 1M токенов
  • Вывод: 65.5K токенов
  • Кэширование промптов: Да
  • Vision: Native
  • Tool Calling: Native

Производительность и бенчмарки

По сравнению с предыдущими версиями, скорость обработки запросов значительно выросла за счет оптимизации MoE структуры и распределения нагрузки. Стоимость вычислений составляет одну восьмую от модели Pro, что подтверждается официальными заявлениями компании и бенчмарками. Benchmarks показывают высокую эффективность для простых задач логического вывода и генерации кода в реальных условиях. Модель ARC-AGI-2 подтверждает надежность в базовых сценариях использования для автономных агентов и чат-ботов.

В сценариях RAG модель демонстрирует стабильную работу с большими контекстами без деградации качества ответов.

  • Скорость: Высокая
  • Стоимость: 1/8 от Pro
  • Benchmarks: ARC-AGI-2
  • Результат: Высокая эффективность

Цены API

Вводная цена составляет $0.000025 за миллион токенов, что делает её самой дешевой в серии Gemini 3 и конкурентоспособной по сравнению с аналогами. Выводная цена составляет $0.000075 за миллион токенов, что остается конкурентоспособным предложением для стартапов и малого бизнеса. Контекстное окно позволяет экономить на кэшировании и снижает стоимость длинных диалогов с пользователями. Доступен бесплатный тариф для тестирования в рамках Google AI Studio для новых разработчиков и исследователей.

Оплата производится только за фактически использованные токены, что позволяет точно прогнозировать бюджет проекта.

  • Ввод: $0.000025 / 1M
  • Вывод: $0.000075 / 1M
  • Бесплатный тариф: Есть
  • Платежи: За токены

Сравнение с конкурентами

Модель напрямую конкурирует с другими легковесными вариантами на рынке и предлагает лучшее соотношение цены и качества для задач, где точность Pro не критична. Разработчики могут выбрать её для микросервисов, требующих высокой доступности и низкой стоимости обработки. Она выигрывает у более старых версий в скорости ответа и экономии ресурсов. Также она превосходит конкурентов в поддержке кэширования промптов.

Для задач, требующих максимальной точности, рекомендуется использовать Pro версию.

  • Конкурент: Gemini 3.1 Pro
  • Конкурент: Flash Standard
  • Преимущество: Цена
  • Преимущество: Скорость

Сценарии использования

Идеально подходит для автоматизации рутинных задач в разработке программного обеспечения и тестировании гипотез в CI/CD пайплайнах. Отлично работает в системах RAG для обработки больших баз знаний без потери производительности и качества ответов. Агенты могут использовать её для выполнения параллельных вызовов инструментов без задержек и сбоев в работе системы.

Подходит для чат-ботов с большим объемом истории переписки.

  • Код: Генерация
  • RAG: Обработка
  • Агенты: Параллельные
  • Чат: История

Запуск и доступ

Доступен через стандартный API endpoint с использованием SDK Python или JavaScript для быстрого интеграции в проекты. Регистрация ключа API обязательна для использования в продакшене и коммерческих проектах с юридической ответственностью. Документация обновлена для поддержки новых параметров кэширования и бюджета размышлений для более сложных задач. Поддержка сообщества и обновления выходят регулярно.

API поддерживает асинхронные вызовы для повышения производительности.

  • SDK: Python, JS
  • API: REST
  • Документация: Google AI
  • Статус: Preview

Comparison

Model: Gemini 3.1 Flash Lite | Context: 1M | Max Output: 65.5K | Input $/M: $0.000025 | Output $/M: $0.000075 | Strength: Скорость/Цена

Model: Gemini 3.1 Flash | Context: 2M | Max Output: 8K | Input $/M: $0.0002 | Output $/M: $0.0006 | Strength: Баланс

Model: Gemini 3.1 Pro | Context: 2M | Max Output: 32K | Input $/M: $0.002 | Output $/M: $0.006 | Strength: Разум/Точность

API Pricing — Input: $0.000025 / Output: $0.000075 / Context: 1M tokens


Sources

Google launches speedy Gemini 3.1 Flash-Lite model in preview

Gemini 3.1 Flash Lite arrives: Google's most cost-efficient AI model yet