Top.Mail.Ru
LLaDA2.0-mini-preview: релиз открытой диффузионной LLM | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

LLaDA2.0-mini-preview: релиз открытой диффузионной LLM

~ 2 мин
111
Простой
Новости
LLaDA2.0-mini-preview: релиз открытой диффузионной LLM

Введение

Компания inclusionAI представила LLaDA2.0-mini-preview — языковую модель диффузии с архитектурой 16BA1B Mixture-of-Experts (MoE). Это обновленная версия серии LLaDA, оптимизированная для полноценного практического использования и точно настроенная на выполнение пользовательских инструкций.

Подробнее о LLaDA2.0-mini-preview

Модель LLaDA2.0-mini-preview является усовершенствованной версией первой версии LLaDA. Новая нейросеть обучена с нуля на двадцати триллионах параметров и базируется на архитектуре Mixture-of-Experts — при общем количестве параметров 16 миллиардов во время вывода активируются только 1,4 миллиардов, что значительно снижает вычислительные затраты, при этом модель превосходит по производительности аналоги с открытым исходным кодом аналогичного масштаба. LLaDA2.0-mini-preview демонстрирует отличные результаты в области генерации кода и решении сложных задач, показывая развитые способности к логическому мышлению. Она также поддерживает выполнение агентных операций, работу с инструментами и использование контекстов повышенной сложности, что делает ее пригодной для практических сценариев использования, требующих продвинутой автономности. Команда разработчиков отмечает, что в будущем планируется выпуск специализированной платформы для логического вывода и развитие направления диффузионных языковых моделей (dLLM), открывающих новые горизонты в области искусственного интеллекта. Модель содержит 20 слоев и 16 голов внимания, поддерживает длину контекста в 4096 токенов и использует поворотное позиционное встраивание RoPE. Размер словарного запаса нейросети составляет 157,184 токена.

Модель LLaDA2.0-mini-preview генерирует текст диффузионным подходом
Процесс генерации текста моделью LLaDA2.0-mini-preview. Источник: Hugging Face.

Средний показатель производительности модели LLaDA2.0-mini-preview составляет 66.89, что превышает 59.72 у версии LLaDA-MoE-7B-A1B-Instructions и приближается к уровню 68.98 у Ling-mini-2.0. Результаты в других бенчмарках: MMLU — 72.49, MMLU-PRO — 49.22, CMMLU — 67.53, C-Оценка — 66.54. В задачах рассуждения модель показала: squad2.0 — 85.61, down — 79.49, korbench — 37.26. В кодировании зафиксированы показатели: CruxEval-О — 61.88, mbpp — 77.75, MultiPL-E — 62.43, humaneval — 80.49, Bigcodebench — 30.44. В математике результаты составили GSM8K — 89.01 и math — 73.50. В области агентных задач показатели следующие: BFCL_Live — 74.11 и IFEval-strict -prompt — 62.50. Эти данные демонстрируют реальное превосходство модели LLaDA2.0-mini-preview над предыдущими версиями серии и ее высокую практическую эффективность при решении бизнес-задач.

Команда inclusionAI сообщила, что серия LLaDA 2.0 будет доработана с использованием принципов обучения с подкреплением, что позволит достичь нового уровня эффективности рассуждений и повысить способности модели к решению сложных задач. В ближайшее время планируется расширение серии диффузионных моделей с акцентом на развитие инструментов для разработчиков и исследователей, заинтересованных в практическом применении диффузионных LLM.

Модель LLaDA2.0-mini-preview доступна в открытом доступе на Hugging Face под названием inclusionAI/LLaDA2.0-mini-preview. Также доступна модификация inclusionAI/LLaDA2.0-flash-preview, аналогично настроенная для практических сценариев.

Выводы

LLaDA2.0-mini-preview является одним из первых представителей класса диффузионных языковых моделей, внося значительный вклад в развитие open-source сообщества и ИИ-индустрию в целом. LLaDA2.0-mini-preview сочетает высочайшую эффективность вычислений, полную прозрачность и точное следование инструкциям, сохраняя при этом возможность локального развертывания. Благодаря оптимизации под реальные задачи и ориентации на гибкость применения LLaDA2.0-mini-preview становится мощным инструментом для разработчиков, исследователей и инженеров, работающих с современными системами искусственного интеллекта.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)