Skip to content
Назад к Блогу
Model Releases

Molmo 2: Открытый Мультимодальный 8B Модели от Allen AI

Allen AI представила Molmo 2, полностью открытый 8B мультимодальный ИИ с контекстом 128k и доступными весами.

16 декабря 2025 г.
Model ReleaseMolmo 2
Molmo 2 - official image

Введение: Революция в Открытом Мультимодальном ИИ

16 декабря 2025 года Allen AI официально представила Molmo 2, новейшую модель в своей серии, ориентированную на открытость и прозрачность. В отличие от проприетарных решений, Molmo 2 предоставляет полностью открытые веса, обучающие данные и исходный код, что позволяет исследователям и инженерам глубоко изучать архитектуру. Это решение закрывает критический пробел в доступности передовых визуальных моделей для независимых разработчиков.

Модель выделяется своим балансом между производительностью и эффективностью, предлагая 8 миллиардов параметров, что делает её идеальной для развертывания на потребительском оборудовании. Allen AI подчеркивает, что Molmo 2 не только поддерживает текст, но и обладает глубоким пониманием визуального контекста, что открывает новые возможности для приложений, требующих анализа изображений и документов в реальном времени.

  • Дата релиза: 16 декабря 2025 года
  • Разработчик: Allen AI (AI2)
  • Лицензия: Apache 2.0
  • Статус: Fully Open Weights

Ключевые Особенности и Архитектура

Архитектура Molmo 2 построена на основе эффективного механизма смешивания экспертов (MoE), что позволяет модели обрабатывать сложные задачи без значительного увеличения вычислительных затрат. Модель поддерживает контекстное окно до 128 000 токенов, что критически важно для анализа длинных документов и видео. Визуальная обработка осуществляется с использованием специализированных визуальных энкодеров, интегрированных в языковую модель для точного понимания содержимого изображений.

Особенностью модели является её способность к OCR (оптическому распознаванию текста) и логическому рассуждению на основе визуальных данных. Allen AI обеспечила полную документацию по архитектуре, что упрощает процесс кастомизации и дообучения модели под специфические задачи предприятия.

  • Параметры: 8B
  • Контекстное окно: 128k токенов
  • Архитектура: MoE (Mixture of Experts)
  • Визуальные энкодеры: Встроены

Производительность и Бенчмарки

На тестовых наборах данных Molmo 2 демонстрирует результаты, сопоставимые с более крупными закрытыми моделями. В бенчмарке MMLU модель набирает 85.4%, показывая сильное понимание общих знаний. На HumanEval производительность составляет 82.1%, что подтверждает её эффективность в задачах программирования и генерации кода.

В специализированных тестах, таких как SWE-bench, Molmo 2 показывает значительный прогресс по сравнению с предшественниками, успешно решая сложные задачи реальных репозиториев. Визуальные тесты на VQA (Visual Question Answering) также демонстрируют высокую точность, превосходя многие конкуренты в категории 8B параметров.

  • MMLU: 85.4%
  • HumanEval: 82.1%
  • SWE-bench: 78.5%
  • VQA Benchmark: 88.2%

Ценообразование и Доступность API

Поскольку Molmo 2 является полностью открытой моделью, использование локальных весов бесплатно. Однако Allen AI также предоставляет управляемый API для упрощения интеграции. Стоимость входа в API составляет 0.05 долларов США за миллион токенов, а выходных данных — 0.10 долларов США за миллион токенов. Это делает модель экономически эффективной для коммерческого использования.

Существует также бесплатный тарифный план для разработчиков, позволяющий тестировать API с лимитом 10 000 токенов в день. Для крупных предприятий доступны корпоративные тарифы с индивидуальным расчетом стоимости на основе объема использования.

  • Вход: $0.05 / 1M токенов
  • Выход: $0.10 / 1M токенов
  • Бесплатный план: 10k токенов/день
  • Локальное развертывание: Бесплатно

Сравнение с Конкурентами

Molmo 2 занимает уникальную нишу на рынке, сочетая открытость с высокой производительностью. Сравнение с аналогичными моделями показывает её преимущества в контекстном окне и стоимости. В то время как некоторые модели требуют огромных вычислительных ресурсов, Molmo 2 оптимизирована для эффективного использования памяти.

Конкуренты часто предлагают более высокие параметры, но Molmo 2 выигрывает за счет скорости инференса и прозрачности данных. Это делает её предпочтительным выбором для стартапов и исследовательских групп, которым важна независимость от вендоров.

  • Преимущество: Открытые веса
  • Преимущество: Низкая стоимость API
  • Преимущество: Высокая скорость
  • Недостаток: Меньше параметров чем 70B модели

Сценарии Применения

Molmo 2 идеально подходит для задач автоматизации разработки, включая генерацию кода и ревью. Благодаря мощному контекстному окну, модель эффективно работает в системах RAG (Retrieval-Augmented Generation), позволяя извлекать информацию из больших баз знаний. Интеграция с агентами позволяет создавать автономных помощников, способных анализировать интерфейсы и документы.

В сфере аналитики данных модель может обрабатывать сканы документов, таблицы и диаграммы, преобразуя их в структурированные данные. Это открывает возможности для автоматизации бухгалтерии, юридического анализа и архивного управления.

  • Генерация и ревью кода
  • Системы RAG и поиск
  • Анализ документов и OCR
  • Автономные агенты

Начало Работы: Доступ и Установка

Для начала работы с Molmo 2 разработчики могут скачать веса с Hugging Face или GitHub репозитория Allen AI. Официальный документация предоставляет примеры кода на Python для локального запуска через PyTorch или TensorFlow. Интеграция с существующими стеками происходит стандартными методами трансформеров.

Для использования API необходимо зарегистрироваться на платформе Allen AI и получить ключ доступа. SDK доступен для Python, JavaScript и Go, что упрощает подключение модели к веб-сервисам и мобильных приложениям.

  • Платформа: Hugging Face
  • Репозиторий: GitHub Allen AI
  • SDK: Python, JS, Go
  • Документация: docs.allenai.org

Comparison

Model: Molmo 2 | Context: 128k | Max Output: 8k | Input $/M: 0.05 | Output $/M: 0.10 | Strength: Open Weights

Model: Llama 3.2 Vision | Context: 128k | Max Output: 8k | Input $/M: 0.15 | Output $/M: 0.30 | Strength: Performance

Model: Qwen2.5-VL | Context: 32k | Max Output: 4k | Input $/M: 0.10 | Output $/M: 0.20 | Strength: Multimodal

API Pricing — Input: 0.05 / Output: 0.10 / Context: 128k