Z.ai выпустила GLM-5.1 в open-source: модель способна автономно работать до 8 часов

08.04.2026

~ 2 мин

Простой

Новости

Введение

Компания Z.ai официально выпустила в открытый доступ GLM-5.1 — свою новую флагманскую модель, нацеленную на длительную автономную работу в роли ИИ-агента. Утверждается, что GLM-5.1 достигает 94,6% производительности Claude Opus 4.6 в задачах программирования, при этом китайская LLM может выполнять сложные агентские задачи в автономном режиме более 8 часов.

Подробнее о GLM-5.1

GLM-5.1 базируется на архитектуре Mixture-of-Experts с общим количеством параметров 744 миллиарда и 40-44 миллиардов активных параметров, что позволяет сохранять высокую скорость работы и умеренные требования к вычислительным ресурсам. Модель использует 256 экспертов, из которых для каждого токена задействуются 8 наиболее релевантных. Размер контекстного окна составляет 204 800 токенов, что позволяет модели обрабатывать очень большие объемы текста за один запрос. Максимальный объем генерируемого ответа — 131 072 токена. Хотя базовая архитектура унаследована от GLM-5, в новой GLM-5.1 реализован ряд важных улучшений. Ключевым нововведением стало внедрение механизма Sparse Attention (DSA), который заменяет традиционное "плотное" внимание на более эффективное разреженное. Это позволяет существенно снизить вычислительные затраты при обработке длинных последовательностей. Дополнительно оптимизирован фреймворк асинхронного обучения с подкреплением Slime, благодаря чему модель лучше справляется с многошаговыми задачами и самостоятельно исправляет ошибки при генерации ответов.Важной вехой стало то, что GLM-5.1, как и ее предшественница GLM-5, была полностью обучена на 100 000 чипах Huawei Ascend 910B без использования ускорителей NVIDIA. Модель распространяется в формате BF16, общий размер весов составляет около 1,5 ТБ — они доступны на Hugging Face и GitHub под лицензией MIT.

По сравнению с GLM-5, новая модель совершила значительный скачок в ключевых бенчмарках. В тестах на программирование (Coding Evaluation) результат вырос с 35,4 до 45,3 балла — прирост составил 28%, что позволило вплотную приблизиться к показателю Claude Opus 4.6 (47,9 балла). На бенчмарке SWE-bench Verified модель достигла результата 77,8% решенных задач, что является одним из лучших показателей среди открытых моделей. Несмотря на впечатляющие результаты, GLM-5.1 делает ставку на размышления, а не на чистую скорость. В тестах пропускной способности BridgeBench модель показала результат 44,3 токена в секунду, что делает ее одной из самых медленных среди передовых моделей — примерно вдвое медленнее GPT-5.4 и почти в шесть раз медленнее Grok 4.20. Для локального запуска GLM-5.1 поддерживаются основные фреймворки с открытым исходным кодом, включая SGLang (v0.5.10+), vLLM (v0.19.0+), xLLM (v0.8.0+), Transformers и KTransformers (от v0.5.3).

ИИ-производительность модели GLM-5.1 в задачах кодинга в сравнении с другими флагманскими ИИ-моделями. Источник: Z.ai.

Выводы

GLM-5.1 представляет собой значительный шаг вперед в создании ИИ-моделей, способных продуктивно работать над сложными задачами в течение длительного времени. Ключевое отличие модели заключается в ее способности избегать "плато производительности", когда первоначальный прогресс быстро сменяется стагнацией. Вместо этого GLM-5.1 демонстрирует так называемый "ступенчатый" паттерн оптимизации: периоды постепенных улучшений в рамках одной стратегии чередуются с резкими скачками эффективности после смены архитектурного подхода. Эта особенность позволяет модели успешно справляться с задачами, требующими сотен итераций и тысяч вызовов инструментов, будь то оптимизация работы векторной базы данных, ускорение вычислений для нейросетей или даже создание с нуля полноценного веб-приложения.

Автор:

Serverflow