Компания inclusionAI представила LLaDA2.0-mini-preview — языковую модель диффузии с архитектурой 16BA1B Mixture-of-Experts (MoE). Это обновленная версия серии LLaDA, оптимизированная для полноценного практического использования и точно настроенная на выполнение пользовательских инструкций.
Подробнее о LLaDA2.0-mini-preview
Модель LLaDA2.0-mini-preview является усовершенствованной версией первой версии LLaDA. Новая нейросеть обучена с нуля на двадцати триллионах параметров и базируется на архитектуре Mixture-of-Experts — при общем количестве параметров 16 миллиардов во время вывода активируются только 1,4 миллиардов, что значительно снижает вычислительные затраты, при этом модель превосходит по производительности аналоги с открытым исходным кодом аналогичного масштаба. LLaDA2.0-mini-preview демонстрирует отличные результаты в области генерации кода и решении сложных задач, показывая развитые способности к логическому мышлению. Она также поддерживает выполнение агентных операций, работу с инструментами и использование контекстов повышенной сложности, что делает ее пригодной для практических сценариев использования, требующих продвинутой автономности. Команда разработчиков отмечает, что в будущем планируется выпуск специализированной платформы для логического вывода и развитие направления диффузионных языковых моделей (dLLM), открывающих новые горизонты в области искусственного интеллекта. Модель содержит 20 слоев и 16 голов внимания, поддерживает длину контекста в 4096 токенов и использует поворотное позиционное встраивание RoPE. Размер словарного запаса нейросети составляет 157,184 токена.
Процесс генерации текста моделью LLaDA2.0-mini-preview. Источник: .
Средний показатель производительности модели LLaDA2.0-mini-preview составляет 66.89, что превышает 59.72 у версии LLaDA-MoE-7B-A1B-Instructions и приближается к уровню 68.98 у Ling-mini-2.0. Результаты в других бенчмарках: MMLU — 72.49, MMLU-PRO — 49.22, CMMLU — 67.53, C-Оценка — 66.54. В задачах рассуждения модель показала: squad2.0 — 85.61, down — 79.49, korbench — 37.26. В кодировании зафиксированы показатели: CruxEval-О — 61.88, mbpp — 77.75, MultiPL-E — 62.43, humaneval — 80.49, Bigcodebench — 30.44. В математике результаты составили GSM8K — 89.01 и math — 73.50. В области агентных задач показатели следующие: BFCL_Live — 74.11 и IFEval-strict -prompt — 62.50. Эти данные демонстрируют реальное превосходство модели LLaDA2.0-mini-preview над предыдущими версиями серии и ее высокую практическую эффективность при решении бизнес-задач.
Команда inclusionAI сообщила, что серия LLaDA 2.0 будет доработана с использованием принципов обучения с подкреплением, что позволит достичь нового уровня эффективности рассуждений и повысить способности модели к решению сложных задач. В ближайшее время планируется расширение серии диффузионных моделей с акцентом на развитие инструментов для разработчиков и исследователей, заинтересованных в практическом применении диффузионных LLM.
Модель LLaDA2.0-mini-preview доступна в открытом доступе на Hugging Face под названием inclusionAI/LLaDA2.0-mini-preview. Также доступна модификация inclusionAI/LLaDA2.0-flash-preview, аналогично настроенная для практических сценариев.
Выводы
LLaDA2.0-mini-preview является одним из первых представителей класса диффузионных языковых моделей, внося значительный вклад в развитие open-source сообщества и ИИ-индустрию в целом. LLaDA2.0-mini-preview сочетает высочайшую эффективность вычислений, полную прозрачность и точное следование инструкциям, сохраняя при этом возможность локального развертывания. Благодаря оптимизации под реальные задачи и ориентации на гибкость применения LLaDA2.0-mini-preview становится мощным инструментом для разработчиков, исследователей и инженеров, работающих с современными системами искусственного интеллекта.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.