Сбер представил GigaChat-3.1-Ultra и GigaChat-3.1-Lightning: новейшие отечественные MoE-модели с лицензией MIT

26.03.2026

~ 2 мин

118

Простой

Новости

Введение

ИИ-специалисты Сбербанка представили крупное обновление семейства больших языковых моделей GigaChat, выпустив две новые MoE-модели — GigaChat-3.1-Ultra с 702 миллиардами параметров и GigaChat-3.1-Lightning с 10 миллиардами параметров. Обе модели поддерживают функцию рассуждения, имеют контекстное окно до 256 тысяч токенов, доступны под лицензией MIT и предназначены для создания ИИ-ассистентов, мощных чат-ботов, ИИ-приложений и других задач корпоративных клиентов и ИИ-энтузиастов.

Подробнее о релизе GigaChat 3.1

Главное нововведение моделей GigaChat-3.1 — переход от плотной, тяжелой dense-архитектуры на MoE-архитектуру, благодаря чему при инференсе активируется лишь часть параметров нейросети, что снижает требования к локальному развертыванию. Кроме того, разработчики внедрили в архитектуру GigaChat-3.1 технологию MLA вместо стандартного механизма внимания, что позволяет сжимать KV-кэш в латентное представление, снижая потребление памяти и повышая производительность инференса на длинных контекстах. Еще одно ключевое улучшение — модели GigaChat-3.1 стали намного меньше галлюцинировать и уходить в циклы бесконечного размышления/генерации. Вместо посттренировочной квантизации (PTQ), которая сохраняла качество на бенчмарках, но ухудшает производительность в реальных задачах, этап DPO полностью переведен в режим вычислений FP8, что кратно увеличило эффективность, сократив потребление VRAM вдвое. В связке с использованием технологии MTP эта оптимизация обеспечила прирост скорости инференса до 38% по сравнению с BF16-версией.

Также разработчики ускорили этап SFT-оптимизации в три раза за счет умной упаковки длинных последовательностей, динамического батчинга и отказа от длинных (1000 токенов) системных промптов в пользу коротких (300 токенов). При контекстном окне в 256 тысяч токенов прирост скорости инференса увеличивается в 10 раз. Помимо этого, в моделях GigaChat-3.1 обавлена персонализация: модель способна запоминать факты о пользователе и использовать их в диалоге благодаря долгосрочной памяти.

ИИ-производительность GigaChat-3.1-Ultra в ключевых ИИ-бенчмарках. Источник: Hugging Face.

Флагманская рассуждающая модель GigaChat-3.1-Ultra, имея 702 миллиардов общих и 36 миллиардов активных параметров обходит Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и логических операциях. В то же время, компактная GigaChat-3.1-Lightning с 10 миллиардами общих 1,8 млрд активных параметров обеспечивает ИИ-производительность на уровне GPT-4o, что делает ее одной из лучших моделей х в своем размере, а по скорости и эффективности опережает многих конкурентов.

ИИ-производительность GigaChat-3.1-Lightning в сравнении с тяжелыми ИИ-моделями. Источник: Hugging Face.

Выводы

Релиз GigaChat 3.1 — это еще один большой скачок для отечественной ИИ-индустрии, который выводит передовые языковые модели Сбер на один уровень с флагманскими моделями зарубежных конкурентов. Перевод DPO в нативный FP8 в паре с MTP дал двукратное сокращение памяти и ускорение до 38%, что позволит использовать модели GigaChat 3.1 даже для самых требовательных ИИ-приложений корпоративных пользователей, а наличие как полноразмерной GigaChat-3.1-Ultra, так и легкой GigaChat-3.1-Lightning расширят спектр применения этих топовых нейросетей и делает их доступными для всех пользователей.

Автор:

Serverflow