Компания Inclusion AI объявила о полноценном выпуске LLaDA 2.0 — нового поколения дискретных диффузионных языковых моделей (dLLM), впервые масштабированных до уровня 100 млрд параметров. Проект нацелен на демонстрацию того, что диффузионные подходы применимы не только в теории, но и в традиционных LLM, обеспечивая высокую производительность и заметный выигрыш по скорости вывода по сравнению с классическими авторегрессионными моделями.
Подробнее о LLaDA 2.0
LLaDA 2.0 доступна в двух конфигурациях: LLaDA 2.0 Mini (16B) и LLaDA 2.0 Flash (100B MoE). Обе версии распространяются с полностью открытыми весами и кодом, опубликованными на Hugging Face и ModelScope. Разработчики позиционируют модель как самую крупную dLLM на сегодняшний день и ключевое доказательство масштабируемости диффузионных языковых моделей.
Ключевым техническим преимуществом LLaDA 2.0 является скорость логического вывода. За счет параллельного декодирования, реализованного в связке с SGLang, модель достигает до 535 токенов в секунду, что примерно в 2,1 раза быстрее, чем сопоставимые AR-модели аналогичного класса. Такой прирост достигается без упрощения архитектуры и сопровождается конкурентоспособными результатами в задачах программирования, математики и агентного моделирования.
Пайплайн ИИ-модели LLaDA 2.0. Источник: .
Основой обучения LLaDA 2.0 стала стратегия WSD (Warm-up – Stabilize – Decay), предназначенная для устранения фундаментального разрыва между авторегрессионным обучением и диффузионным подходом. На этапе разогрева размер блоков постепенно увеличивается, обеспечивая плавный переход от AR-подобного режима к полной диффузии по всей последовательности. Стадия стабилизации использует крупномасштабное обучение с маскированной диффузией для закрепления представлений. Финальный этап снижения уменьшает размер блоков (вплоть до 32 токенов), что оптимизирует использование KV-кэша и повышает эффективность инференса.
После базового обучения команда Inclusion AI переработала стандартный стек пост-тренинга. В рамках supervised fine-tuning применялась дополнительная маскировка, обеспечивающая 100-процентное использование токенов, а коэффициент маскирования использовался как механизм стабилизации сходимости. Этап DPO был полностью завершен, после чего внедрено Confidence-Aware Training — дополнительная функция потерь, повышающая точность предсказаний и позволяющая более агрессивно использовать параллельное декодирование при пороге уверенности 0,95. Для дообучения и адаптации моделей используется собственный фреймворк dFactory.
С точки зрения развертывания LLaDA 2.0 ориентирована на промышленное использование. Модель совместима с dInfer и SGLang, поддерживает повторное использование KV-кэша и параллелизм на уровне блоков, что снижает задержки и стоимость инференса. В дальнейших планах разработчиков — исследование механизмов так называемой “System 2 reasoning”, где итеративная доработка внутри диффузионной архитектуры используется для решения задач со сложной логикой и многошаговыми рассуждениями.
LLaDA 2.0 является знаковым шагом для диффузионных языковых моделей: масштаб в 100 млрд параметров, полностью открытая публикация и более чем двукратный выигрыш по скорости вывода по сравнению с AR-подходами показывают, что dLLM способны конкурировать на уровне флагманских LLM. Если заявленные преимущества в коде, математике и агентных сценариях подтвердятся в независимых тестах, LLaDA 2.0 может стать отправной точкой для нового направления высокопроизводительных и экономичных языковых моделей.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.