Введение: Революция в области малых моделей

18 февраля 2025 года Microsoft представила Phi-4-Mini, новую открытую модель, которая ставит новые стандарты эффективности в индустрии искусственного интеллекта. Это не просто очередное обновление, а качественный скачок в производительности плотных моделей (dense models). Phi-4-Mini демонстрирует способность превосходить модели в два раза большего размера, такие как Phi-3.5-mini и Llama 3.2 3B, при этом сохраняя низкие затраты на вычисления.

Для разработчиков и инженеров это означает возможность внедрения мощных AI-решений на локальных устройствах или с ограниченным бюджетом облачных ресурсов. Модель оптимизирована для сложных задач, включая логическое рассуждение и работу с кодом, что делает её идеальной для интеграции в автономных агентов и RAG-системы.

Ключевым моментом является использование MIT лицензии, что позволяет свободно использовать, модифицировать и распространять модель в коммерческих и личных проектах без ограничений.

Дата выхода: 18 февраля 2025 года
Лицензия: MIT (Open Source)
Разработчик: Microsoft

Архитектура и ключевые возможности

Phi-4-Mini построена на базе 3.8 миллиардов параметров плотной архитектуры. Несмотря на компактность, модель оснащена окном контекста на 128K токенов, что позволяет обрабатывать огромные объемы текста, включая длинные технические документацию и код. Это критически важно для современных задач обработки естественного языка, где потеря информации в начале длинного документа часто приводит к ошибкам.

Обучение модели проходило на 5 триллионах токенов, включая синтетические данные, отфильтрованные публичные данные и специализированные наборы кода. Такой микс данных позволил модели научиться распознавать сложные паттерны программирования и логические зависимости лучше, чем более крупные модели.

Поддержка 22 языков и встроенные возможности вызова функций (function calling) делают Phi-4-Mini универсальным инструментом. Она способна взаимодействовать с внешними API, выполняя инструменты и выполняя действия, необходимые для автоматизации рабочих процессов.

Параметры: 3.8B (Dense)
Контекст: 128K токенов
Языки: 22 поддерживаемых языка
Объем данных: 5T токенов

Производительность и бенчмарки

В тестах Phi-4-Mini показала результаты, сопоставимые с моделями значительно большего размера. На бенчмарке MMLU модель набрала 72.5 балла, что выше, чем у Llama 3.2 3B. Это свидетельствует о высокой эффективности архитектуры в решении академических задач и тестов на общие знания.

Microsoft Phi-4-Mini: Открытая модель 2025 года

Введение: Революция в области малых моделей

Архитектура и ключевые возможности

Производительность и бенчмарки

Стоимость и доступ через API

Сравнение с конкурентами

Сценарии использования

Начало работы с моделью

Comparison

Sources