Top.Mail.Ru
Miles: новый корпоративный фреймворк для RL-обучения ИИ | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Из-за нестабильности цен RAM фактическая стоимость может отличаться. Цена подтверждается после оформления заказа, работаем над обновлением цен!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Miles: новый корпоративный фреймворк для RL-обучения ИИ

~ 2 мин
117
Простой
Новости
Miles: новый корпоративный фреймворк для RL-обучения ИИ

Введение

Разработчики из исследовательской группы LMSYS представили Miles — новый ИИ-фреймворк для обучения с подкреплением, ориентированный на самые требовательные экспериментальные и корпоративные ИИ-нагрузки. Miles является следующей ступенью в эволюции slime — легкой и гибкой системы RL, которая уже зарекомендовала себя в качестве основы многих современных ИИ-систем, включая GLM-4.6. Теперь возможности slime перерастают в полноценную платформу корпоративного уровня, обеспечивающую стабильность, гибкость и масштабируемость.

Подробнее о Miles

Фреймворк Miles сохранил все ключевые преимущества slime, включая легкость, модульность и открытый исходный код для исследовательских модификаций. При этом, в Miles делается акцент на возможности использования нового, современного оборудования, поддержке масштабного моделирования методом Монте-Карло и стабильности при реальном развертывании в продакшене. Обновленная структура фреймворка обеспечивает согласованность между обучением и инференсом, поддерживает детерминированность результатов, а также добавляет новые функции, необходимые для крупных производственных конвейеров RL. Применение Flash Attention 3, DeepGEMM, invariant batched kernels и torch.compile позволяет достичь высокой эффективности в обучении и логическом выводе, синхронизируя поведение моделей в разных режимах.

Эффективность фреймворка Miles
Прирост эффективности генерации токенов в секунду при использовании фреймворка Miles. Источник: LMSYS.

Существенные улучшения коснулись оптимизации памяти. Добавление резервов, механизмов частичной выгрузки и обработки ошибок OOM делает обучение устойчивым даже в условиях интенсивного использования системных ресурсов. Одновременно была устранена чрезмерная нагрузка на память в FSDP и оптимизировано поведение NCCL, что повышает надежность системы. Отдельного внимания заслуживает обновленное спекулятивное декодирование. Теперь базовая модель обучается в режиме реального времени, что сокращает задержку принятия решений и ускоряет обучение на поздних стадиях более чем на 25% по сравнению с использовавшимся ранее замороженным MTP. Дополнительно обеспечена поддержка механизмов упаковки последовательностей, корректного маскирования слоев и синхронизации весов, что делает процесс более стабильным и точным. Дополнительно разработчики усовершенствовали инструменты отладки, расширили профилировщики и добавили автономные варианты развертывания подсистем, что позволяет исследователям быстрее адаптировать Miles под собственные задачи.

Выводы

Miles стал логическим продолжением slime, превратив и так эффективный фреймворк в улучшенную, полноценную платформу для корпоративного обучения с подкреплением. Благодаря улучшенной архитектуре, поддержке современного аппаратного обеспечения, устойчивости к нагрузкам и богатому набору инструментов для разработки больших языковых моделей, Miles готов к использованию не только исследователями и ИИ-энтузиастами, но и крупными командами, которым необходима стабильность и масштабируемость для вывода ИИ в продакшен. Разработчики LMSYS продолжают активно развивать новый фреймворк, планируя внедрение мультимодальных возможностей, поддержку новых ИИ-ускорителей, расширенные механизмы декодирования и оптимизированное распределение ресурсов.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)