Falcon 180B: Прорывной 180-миллиардный открытый LLM от TII

Технологический институт инноваций (TII) представил Falcon 180B — самый мощный открытый языковой модель с 180 миллиардами параметров, обученную на 3,5 триллионах токенов.

25 мая 2023 г.

Model ReleaseFalcon 180B

Введение

Falcon 180B представляет собой революционное достижение в области открытых языковых моделей, выпущенное Технологическим институтом инноваций (TII) 25 мая 2023 года. С 180 миллиардами параметров эта модель устанавливает новые стандарты для открытого искусственного интеллекта, превосходя многие закрытые конкуренты по производительности и функциональности.

Модель стала кульминацией усилий TII по созданию доступных, но мощных решений ИИ для исследовательского сообщества и коммерческого использования. Falcon 180B не только побила рекорды на Open LLM Leaderboard, но и продемонстрировала, что открытые модели могут конкурировать с самыми передовыми закрытыми системами.

Выпущенная под лицензией Apache 2.0, Falcon 180B предоставляет разработчикам беспрецедентную свободу для экспериментов, адаптации и коммерческого использования. Это делает модель особенно привлекательной для организаций, стремящихся внедрить ИИ с полным контролем над архитектурой и данными.

С точки зрения масштаба, Falcon 180B обучена на 3,5 триллионах токенов из улучшенного корпуса RefinedWeb, что делает ее одной из наиболее хорошо обученных открытых моделей на рынке.

Ключевые особенности и архитектура

Falcon 180B основана на архитектуре causal decoder-only с 180 миллиардами параметров. Это масштабное увеличение по сравнению с предыдущими версиями серии Falcon, включая Falcon 40B. Архитектура представляет собой масштабированную версию более ранних моделей с улучшениями в эффективности обучения и вывода.

Особенностью модели является использование multiquery attention, что позволяет значительно улучшить масштабируемость и уменьшить вычислительные затраты при сохранении высокой точности. Модель также использует продвинутую технику параллельного внимания, что улучшает обработку длинных последовательностей.

Falcon 180B имеет контекстное окно 2048 токенов, что позволяет ей обрабатывать довольно длинные входные последовательности. Архитектура оптимизирована для как для inference, так и для fine-tuning на специфических задачах.

Модель не использует механизмы Mixture of Experts (MoE) в своей базовой версии, вместо этого полагаясь на плотную архитектуру, что упрощает развертывание и снижает сложность управления ресурсами.

180 миллиардов параметров (плотная архитектура)
Multiquery attention для улучшенной масштабируемости
Контекстное окно 2048 токенов
Causal decoder-only архитектура
Обучена на 3,5 триллионах токенов RefinedWeb

Falcon 180B: Прорывной 180-миллиардный открытый LLM от TII

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование API

Сравнительная таблица

Применения

Начало работы

Comparison

Sources