Miles: новый корпоративный фреймворк для RL-обучения ИИ

21.11.2025

~ 2 мин

288

Простой

Новости

Введение

Разработчики из исследовательской группы LMSYS представили Miles — новый ИИ-фреймворк для обучения с подкреплением, ориентированный на самые требовательные экспериментальные и корпоративные ИИ-нагрузки. Miles является следующей ступенью в эволюции slime — легкой и гибкой системы RL, которая уже зарекомендовала себя в качестве основы многих современных ИИ-систем, включая GLM-4.6. Теперь возможности slime перерастают в полноценную платформу корпоративного уровня, обеспечивающую стабильность, гибкость и масштабируемость.

Подробнее о Miles

Фреймворк Miles сохранил все ключевые преимущества slime, включая легкость, модульность и открытый исходный код для исследовательских модификаций. При этом, в Miles делается акцент на возможности использования нового, современного оборудования, поддержке масштабного моделирования методом Монте-Карло и стабильности при реальном развертывании в продакшене. Обновленная структура фреймворка обеспечивает согласованность между обучением и инференсом, поддерживает детерминированность результатов, а также добавляет новые функции, необходимые для крупных производственных конвейеров RL. Применение Flash Attention 3, DeepGEMM, invariant batched kernels и torch.compile позволяет достичь высокой эффективности в обучении и логическом выводе, синхронизируя поведение моделей в разных режимах.

Прирост эффективности генерации токенов в секунду при использовании фреймворка Miles. Источник: LMSYS.

Существенные улучшения коснулись оптимизации памяти. Добавление резервов, механизмов частичной выгрузки и обработки ошибок OOM делает обучение устойчивым даже в условиях интенсивного использования системных ресурсов. Одновременно была устранена чрезмерная нагрузка на память в FSDP и оптимизировано поведение NCCL, что повышает надежность системы. Отдельного внимания заслуживает обновленное спекулятивное декодирование. Теперь базовая модель обучается в режиме реального времени, что сокращает задержку принятия решений и ускоряет обучение на поздних стадиях более чем на 25% по сравнению с использовавшимся ранее замороженным MTP. Дополнительно обеспечена поддержка механизмов упаковки последовательностей, корректного маскирования слоев и синхронизации весов, что делает процесс более стабильным и точным. Дополнительно разработчики усовершенствовали инструменты отладки, расширили профилировщики и добавили автономные варианты развертывания подсистем, что позволяет исследователям быстрее адаптировать Miles под собственные задачи.

Выводы

Miles стал логическим продолжением slime, превратив и так эффективный фреймворк в улучшенную, полноценную платформу для корпоративного обучения с подкреплением. Благодаря улучшенной архитектуре, поддержке современного аппаратного обеспечения, устойчивости к нагрузкам и богатому набору инструментов для разработки больших языковых моделей, Miles готов к использованию не только исследователями и ИИ-энтузиастами, но и крупными командами, которым необходима стабильность и масштабируемость для вывода ИИ в продакшен. Разработчики LMSYS продолжают активно развивать новый фреймворк, планируя внедрение мультимодальных возможностей, поддержку новых ИИ-ускорителей, расширенные механизмы декодирования и оптимизированное распределение ресурсов.

Автор:

Serverflow