Top.Mail.Ru
Z-ai представила GLM-4.7-Flash: компактная модель для тяжелых LLM-задач | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Z-ai представила GLM-4.7-Flash: компактная модель для тяжелых LLM-задач

~ 2 мин
839
Простой
Новости
Z-ai представила GLM-4.7-Flash: компактная модель для тяжелых LLM-задач

Введение

Z.ai выпустила в открытый доступ на Hugging Face модель GLM-4.7-Flash — облегченную версию GLM-4.7 на 30 миллиардов общих и 3 миллиарда активных параметров, что снижает вычислительные требования к локальному развертыванию. При этом модель ориентирована тяжелые LLM задачи, напрямую заявляя о конкуренции с более крупными моделями.

Подробнее о GLM-4.7-Flash

Нейросеть GLM-4.7-Flash от Z-ai в бенчмарке SWE-bench Verified достигает 59,2%, тогда как другая китайская модель Qwen3-30B-A3B-Thinking от Alibaba показывает производительность лишь 22%, а GPT-OSS-20b обеспечивает 34%. В задачах использования инструментов на τ²-Bench разрыв сохраняется: 79,5% у GLM-4.7-Flash против 49% у конкурента от Alibaba и 47,7% у конкурента от OpenAI. Аналогичная картина наблюдается и в BrowseComp, где модель Z.ai показывает 42,8% против 22,9% и 28,3%, подтверждая более устойчивые навыки в задачах агентской навигации и анализа.

В математике GLM-4.7-Flash также демонстрирует выдающиеся результаты: 91,6% на AIME 2025 выводят ее практически в один ряд с GPT-OSS-20B с результатом в 91.7%, несмотря на заметно меньшую активную часть параметров. Пользователи, уже успевшие протестировать GLM-4.7-Flash на локальном железе, сообщают о скорости более 80 токенов в секунду на M3 Ultra при 4-битной квантизации и 40-50 токенов в секунду на ноутбучных чипах M5. Модель уже интегрирована в MLX, vLLM и SGLang, а также доступна через API: бесплатно с одним параллельным запросом, $0,60 за 1 млн входных токенов и $2,20 за 1 млн выходных токенов при платном вызове модели. Есть также кэширование входа по $0,11 за 1 млн токенов.

Производительность GLM-4.7-Flash
Производительность ИИ-модели GLM-4.7-Flash. Источник: Hugging Face.

Выводы

GLM-4.7-Flash — это не просто еще одна облегченная версия более мощной модели, а демонстрация смещения акцента в сторону эффективности и архитектурной оптимизации. Модель уверенно обходит решения того же класса и приближается к более крупным системам, оставаясь при этом пригодной для запуска на обычном потребительском железе. Для Z.ai этот релиз стал показательной вехой после январского IPO в Гонконге и подтверждением того, что компания продолжает системно развивать открытые модели, способные конкурировать с ведущими западными разработками.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)