Введение: Историческая значимость LLaMA 1

LLaMA 1, представленная Meta AI 24 февраля 2023 года, стала одной из самых влиятельных открытых языковых моделей в истории машинного обучения. Эта 65-миллиардная модель не просто добавила еще одну опцию в экосистему - она фактически зажгла революцию в области open-source больших языковых моделей.

Модель была создана как альтернатива закрытым решениям от OpenAI и других компаний, предоставив исследовательскому сообществу доступ к высококачественной архитектуре для экспериментов и улучшений. Хотя Meta изначально ограничила доступ к весам модели, утечка весов в интернете привела к невероятному всплеску интереса к open-source ИИ.

LLaMA 1 доказала, что небольшие исследовательские команды могут конкурировать с крупными корпорациями в области разработки ИИ, став отправной точкой для сотен производных моделей, таких как Alpaca, Vicuna и другие.

Ключевые характеристики и архитектуектура

LLaMA 1 была представлена в нескольких версиях параметров: 7B, 13B, 33B и 65B. Версия с 65 миллиардами параметров стала флагманской моделью, способной конкурировать с GPT-3 по производительности при значительно меньшем количестве параметров.

Архитектура модели основана на улучшенной версии трансформера с RoPE (Rotary Position Embeddings), RMSNorm и SwiGLU активациями. В отличие от многих современных моделей, LLaMA 1 не использует Mixture-of-Experts (MoE), что делает её более предсказуемой в плане вычислительных требований.

Модель поддерживает контекстное окно до 2048 токенов, что было стандартом для того времени. Архитектура включает улучшенную нормализацию и более эффективные механизмы внимания, что позволяет лучше обрабатывать длинные последовательности текста.

Параметры: 7B, 13B, 33B, 65B
Контекстное окно: 2048 токенов
RoPE (Rotary Position Embeddings)
RMSNorm вместо LayerNorm
SwiGLU активации

Производительность и бенчмарки

LLaMA 1 показала впечатляющие результаты на стандартных бенчмарках. Модель с 65B параметрами достигла 78.6% на тесте MMLU, что сопоставимо с GPT-3 с 175B параметрами. На бенчмарке HumanEval модель набрала 52.5%, что было удивительно высоким результатом для своего времени.

На наборе задач BIG-bench LLaMA 1 продемонстрировала 68.9% точности, превосходя многие предыдущие модели. При этом модель работала на 13% меньше параметров по сравнению с GPT-3, что свидетельствовало о более эффективной архитектуре.

В тестах на рассуждение (GSM8K) модель достигла 58.1%, а на задачах кодирования (HumanEval-Python) - 52.5%. Эти результаты сделали LLaMA 1 серьезным конкурентом коммерческим моделям.

LLaMA 1: Как 65B-модель от Meta зажгла революцию в open-source ИИ

Введение: Историческая значимость LLaMA 1

Ключевые характеристики и архитектуектура

Производительность и бенчмарки

Ценообразование API

Сравнительная таблица

Сценарии использования

Начало работы

Comparison

Sources