Top.Mail.Ru
Inclusion AI LLaDA 2.0 — новая диффузионная LLM со 100 млрд параметров | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Из-за нестабильности цен RAM фактическая стоимость может отличаться. Цена подтверждается после оформления заказа, работаем над обновлением цен!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Inclusion AI LLaDA 2.0 — новая диффузионная LLM со 100 млрд параметров

~ 2 мин
24
Простой
Новости
Inclusion AI LLaDA 2.0 — новая диффузионная LLM со 100 млрд параметров

Введение

Компания Inclusion AI объявила о полноценном выпуске LLaDA 2.0 — нового поколения дискретных диффузионных языковых моделей (dLLM), впервые масштабированных до уровня 100 млрд параметров. Проект нацелен на демонстрацию того, что диффузионные подходы применимы не только в теории, но и в традиционных LLM, обеспечивая высокую производительность и заметный выигрыш по скорости вывода по сравнению с классическими авторегрессионными моделями.

Подробнее о LLaDA 2.0

LLaDA 2.0 доступна в двух конфигурациях: LLaDA 2.0 Mini (16B) и LLaDA 2.0 Flash (100B MoE). Обе версии распространяются с полностью открытыми весами и кодом, опубликованными на Hugging Face и ModelScope. Разработчики позиционируют модель как самую крупную dLLM на сегодняшний день и ключевое доказательство масштабируемости диффузионных языковых моделей.

Ключевым техническим преимуществом LLaDA 2.0 является скорость логического вывода. За счет параллельного декодирования, реализованного в связке с SGLang, модель достигает до 535 токенов в секунду, что примерно в 2,1 раза быстрее, чем сопоставимые AR-модели аналогичного класса. Такой прирост достигается без упрощения архитектуры и сопровождается конкурентоспособными результатами в задачах программирования, математики и агентного моделирования.

Пайплайн LLaDA 2.0
Пайплайн ИИ-модели LLaDA 2.0. Источник: Hugging Face.

Основой обучения LLaDA 2.0 стала стратегия WSD (Warm-up – Stabilize – Decay), предназначенная для устранения фундаментального разрыва между авторегрессионным обучением и диффузионным подходом. На этапе разогрева размер блоков постепенно увеличивается, обеспечивая плавный переход от AR-подобного режима к полной диффузии по всей последовательности. Стадия стабилизации использует крупномасштабное обучение с маскированной диффузией для закрепления представлений. Финальный этап снижения уменьшает размер блоков (вплоть до 32 токенов), что оптимизирует использование KV-кэша и повышает эффективность инференса.

После базового обучения команда Inclusion AI переработала стандартный стек пост-тренинга. В рамках supervised fine-tuning применялась дополнительная маскировка, обеспечивающая 100-процентное использование токенов, а коэффициент маскирования использовался как механизм стабилизации сходимости. Этап DPO был полностью завершен, после чего внедрено Confidence-Aware Training — дополнительная функция потерь, повышающая точность предсказаний и позволяющая более агрессивно использовать параллельное декодирование при пороге уверенности 0,95. Для дообучения и адаптации моделей используется собственный фреймворк dFactory.

С точки зрения развертывания LLaDA 2.0 ориентирована на промышленное использование. Модель совместима с dInfer и SGLang, поддерживает повторное использование KV-кэша и параллелизм на уровне блоков, что снижает задержки и стоимость инференса. В дальнейших планах разработчиков — исследование механизмов так называемой “System 2 reasoning”, где итеративная доработка внутри диффузионной архитектуры используется для решения задач со сложной логикой и многошаговыми рассуждениями.

Производительность LLaDA 2.0
Производительности ИИ-моделей LLaDA 2.0. Источник: GitHub.

Вывод

LLaDA 2.0 является знаковым шагом для диффузионных языковых моделей: масштаб в 100 млрд параметров, полностью открытая публикация и более чем двукратный выигрыш по скорости вывода по сравнению с AR-подходами показывают, что dLLM способны конкурировать на уровне флагманских LLM. Если заявленные преимущества в коде, математике и агентных сценариях подтвердятся в независимых тестах, LLaDA 2.0 может стать отправной точкой для нового направления высокопроизводительных и экономичных языковых моделей.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)