Введение

XLNet, представленная в июне 2019 года командой из Google Brain и Карнеги-Меллонского университета, представляет собой революционный шаг вперед в области обработки естественного языка. Эта языковая модель с 340 миллиардами параметров основана на принципах обобщенного автогрессивного предобучения, что делает ее одной из самых мощных моделей своего времени.

XLNet была разработана как ответ на ограничения существующих моделей, таких как BERT и GPT. В отличие от BERT, который использует маскировку слов, XLNet применяет перестановочный подход, позволяющий модели учитывать контекст в обоих направлениях без искусственных ограничений.

Релиз стал значимым событием в мире ИИ, так как XLNet смог превзойти результаты BERT на 20 различных задачах NLP, включая ответы на вопросы, логический вывод и анализ тональности. Это достижение продемонстрировало потенциал нового подхода к предобучению языковых моделей.

Ключевые особенности и архитектура

XLNet основана на архитектуре Transformer-XL, которая была адаптирована для автогрессивного предобучения. Модель содержит 340 миллиардов параметров, что делает ее одной из самых крупных языковых моделей своего времени. Архитектура включает в себя механизмы относительного позиционирования и рекуррентное обучение, заимствованные из Transformer-XL.

Основной инновацией является концепция обобщенного автогрессивного предобучения. Вместо традиционного подхода слева направо, XLNet рассматривает все возможные перестановки порядка слов в последовательности, что позволяет модели учитывать двунаправленный контекст при сохранении автогрессивной природы обучения.

Ключевые технические особенности включают использование перестановочного языкового моделирования, интеграцию идей из Transformer-XL, и способность моделировать длинные зависимости благодаря эффективному механизму внимания.

340 миллиардов параметров
Архитектура на основе Transformer-XL
Перестановочное языковое моделирование
Обобщенное автогрессивное предобучение

Производительность и бенчмарки

XLNet продемонстрировала выдающиеся результаты на 20 задачах NLP, превзойдя BERT во всех них. На задаче SQuAD 2.0 модель достигла F1-меры 95.5%, что значительно выше результатов BERT. В задачах анализа тональности, таких как IMDB и Yelp, XLNet также показала лучшие результаты на 2-4% по сравнению с конкурентами.

На задаче GLUE (General Language Understanding Evaluation) XLNet набрала 89.8 баллов, что составляет +4.5 по сравнению с BERT. В задачах логического вывода, таких как MultiNLI, модель показала точность 87.3%, превышая предыдущие результаты на 2.1 балла.

XLNet: Революционная языковая модель от Google и CMU с 340 млрд параметров

Введение

Ключевые особенности и архитектура

Производительность и бенчмарки

Ценообразование API

Таблица сравнения

Сценарии использования

Начало работы

Comparison

Sources