Введение

Компания Meta официально представила новую версию своей открытой модели Llama 3.2, которая стала значительным шагом вперед в области искусственного интеллекта. Выпущенная 25 сентября 2024 года, эта модель представляет собой первый в серии Llama подход с нативной мультимодальностью, объединяя текстовые и визуальные возможности в единой архитектуре. Для разработчиков и инженеров это означает возможность создания более сложных приложений без необходимости переключения между разными моделями для обработки текста и изображений.

Значимость Llama 3.2 заключается в ее доступности и производительности. Модель предлагает вариации для различных сценариев, от легких моделей для мобильных устройств до мощных вариантов для серверных задач. Это решение закрывает пробелы, оставленные предыдущими версиями, и предоставляет конкурентоспособную альтернативу проприетарным решениям от других крупных игроков на рынке, таких как OpenAI и Google.

Дата релиза: 25 сентября 2024 года
Тип: Открытая мультимодальная модель
Поставщик: Meta AI

Ключевые особенности и архитектура

Архитектура Llama 3.2 была переработана для поддержки мультимодальности, что позволяет модели обрабатывать изображения и текст одновременно. В линейке представлены четыре основные версии: 1B, 3B, 11B и 90B параметров. Первые две версии оптимизированы для работы на edge-устройствах, обеспечивая низкую задержку и экономию ресурсов, тогда как 11B и 90B предназначены для сложных вычислительных задач.

Одной из ключевых характеристик является контекстное окно, которое было увеличено до 128K токенов. Это сопоставимо с лучшими предложениями рынка, такими как Claude 3 Haiku и GPT-4o-mini, позволяя модели работать с огромными документами и видео. Кроме того, новые модели являются drop-in replacements для текстовых моделей Llama 3.1, что упрощает процесс миграции существующих приложений без изменения кода.

Варианты параметров: 1B, 3B, 11B, 90B
Контекстное окно: 128K токенов
Поддержка: Текст + Визуальные данные
Совместимость: Drop-in замена Llama 3.1

Производительность и бенчмарки

В тестировании производительности Llama 3.2 продемонстрировала впечатляющие результаты по сравнению с предыдущими поколениями. На стандартных бенчмарках, таких как MMLU и HumanEval, модель показывает прирост точности, особенно в задачах, требующих понимания визуального контекста. Версия 90B способна решать сложные задачи программирования и логического вывода на уровне, ранее недостижимом для открытых моделей.

Meta Llama 3.2: Обзор мультимодальной модели

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование и доступность

Сравнительная таблица

Сценарии использования

Начало работы

Comparison

Sources