Введение: Революция в Открытом Мультимодальном ИИ

16 декабря 2025 года Allen AI официально представила Molmo 2, новейшую модель в своей серии, ориентированную на открытость и прозрачность. В отличие от проприетарных решений, Molmo 2 предоставляет полностью открытые веса, обучающие данные и исходный код, что позволяет исследователям и инженерам глубоко изучать архитектуру. Это решение закрывает критический пробел в доступности передовых визуальных моделей для независимых разработчиков.

Модель выделяется своим балансом между производительностью и эффективностью, предлагая 8 миллиардов параметров, что делает её идеальной для развертывания на потребительском оборудовании. Allen AI подчеркивает, что Molmo 2 не только поддерживает текст, но и обладает глубоким пониманием визуального контекста, что открывает новые возможности для приложений, требующих анализа изображений и документов в реальном времени.

Дата релиза: 16 декабря 2025 года
Разработчик: Allen AI (AI2)
Лицензия: Apache 2.0
Статус: Fully Open Weights

Ключевые Особенности и Архитектура

Архитектура Molmo 2 построена на основе эффективного механизма смешивания экспертов (MoE), что позволяет модели обрабатывать сложные задачи без значительного увеличения вычислительных затрат. Модель поддерживает контекстное окно до 128 000 токенов, что критически важно для анализа длинных документов и видео. Визуальная обработка осуществляется с использованием специализированных визуальных энкодеров, интегрированных в языковую модель для точного понимания содержимого изображений.

Особенностью модели является её способность к OCR (оптическому распознаванию текста) и логическому рассуждению на основе визуальных данных. Allen AI обеспечила полную документацию по архитектуре, что упрощает процесс кастомизации и дообучения модели под специфические задачи предприятия.

Параметры: 8B
Контекстное окно: 128k токенов
Архитектура: MoE (Mixture of Experts)
Визуальные энкодеры: Встроены

Производительность и Бенчмарки

На тестовых наборах данных Molmo 2 демонстрирует результаты, сопоставимые с более крупными закрытыми моделями. В бенчмарке MMLU модель набирает 85.4%, показывая сильное понимание общих знаний. На HumanEval производительность составляет 82.1%, что подтверждает её эффективность в задачах программирования и генерации кода.

В специализированных тестах, таких как SWE-bench, Molmo 2 показывает значительный прогресс по сравнению с предшественниками, успешно решая сложные задачи реальных репозиториев. Визуальные тесты на VQA (Visual Question Answering) также демонстрируют высокую точность, превосходя многие конкуренты в категории 8B параметров.

Molmo 2: Открытый Мультимодальный 8B Модели от Allen AI

Введение: Революция в Открытом Мультимодальном ИИ

Ключевые Особенности и Архитектура

Производительность и Бенчмарки

Ценообразование и Доступность API

Сравнение с Конкурентами

Сценарии Применения

Начало Работы: Доступ и Установка

Comparison