Inclusion AI LLaDA 2.0 — новая диффузионная LLM со 100 млрд параметров

14.12.2025

~ 2 мин

216

Простой

Новости

Введение

Компания Inclusion AI объявила о полноценном выпуске LLaDA 2.0 — нового поколения дискретных диффузионных языковых моделей (dLLM), впервые масштабированных до уровня 100 млрд параметров. Проект нацелен на демонстрацию того, что диффузионные подходы применимы не только в теории, но и в традиционных LLM, обеспечивая высокую производительность и заметный выигрыш по скорости вывода по сравнению с классическими авторегрессионными моделями.

Подробнее о LLaDA 2.0

LLaDA 2.0 доступна в двух конфигурациях: LLaDA 2.0 Mini (16B) и LLaDA 2.0 Flash (100B MoE). Обе версии распространяются с полностью открытыми весами и кодом, опубликованными на Hugging Face и ModelScope. Разработчики позиционируют модель как самую крупную dLLM на сегодняшний день и ключевое доказательство масштабируемости диффузионных языковых моделей.

Ключевым техническим преимуществом LLaDA 2.0 является скорость логического вывода. За счет параллельного декодирования, реализованного в связке с SGLang, модель достигает до 535 токенов в секунду, что примерно в 2,1 раза быстрее, чем сопоставимые AR-модели аналогичного класса. Такой прирост достигается без упрощения архитектуры и сопровождается конкурентоспособными результатами в задачах программирования, математики и агентного моделирования.

Пайплайн ИИ-модели LLaDA 2.0. Источник: Hugging Face.

Основой обучения LLaDA 2.0 стала стратегия WSD (Warm-up – Stabilize – Decay), предназначенная для устранения фундаментального разрыва между авторегрессионным обучением и диффузионным подходом. На этапе разогрева размер блоков постепенно увеличивается, обеспечивая плавный переход от AR-подобного режима к полной диффузии по всей последовательности. Стадия стабилизации использует крупномасштабное обучение с маскированной диффузией для закрепления представлений. Финальный этап снижения уменьшает размер блоков (вплоть до 32 токенов), что оптимизирует использование KV-кэша и повышает эффективность инференса.

После базового обучения команда Inclusion AI переработала стандартный стек пост-тренинга. В рамках supervised fine-tuning применялась дополнительная маскировка, обеспечивающая 100-процентное использование токенов, а коэффициент маскирования использовался как механизм стабилизации сходимости. Этап DPO был полностью завершен, после чего внедрено Confidence-Aware Training — дополнительная функция потерь, повышающая точность предсказаний и позволяющая более агрессивно использовать параллельное декодирование при пороге уверенности 0,95. Для дообучения и адаптации моделей используется собственный фреймворк dFactory.

С точки зрения развертывания LLaDA 2.0 ориентирована на промышленное использование. Модель совместима с dInfer и SGLang, поддерживает повторное использование KV-кэша и параллелизм на уровне блоков, что снижает задержки и стоимость инференса. В дальнейших планах разработчиков — исследование механизмов так называемой “System 2 reasoning”, где итеративная доработка внутри диффузионной архитектуры используется для решения задач со сложной логикой и многошаговыми рассуждениями.

Производительности ИИ-моделей LLaDA 2.0. Источник: GitHub.

Вывод

LLaDA 2.0 является знаковым шагом для диффузионных языковых моделей: масштаб в 100 млрд параметров, полностью открытая публикация и более чем двукратный выигрыш по скорости вывода по сравнению с AR-подходами показывают, что dLLM способны конкурировать на уровне флагманских LLM. Если заявленные преимущества в коде, математике и агентных сценариях подтвердятся в независимых тестах, LLaDA 2.0 может стать отправной точкой для нового направления высокопроизводительных и экономичных языковых моделей.

Автор:

Serverflow