Релиз GLM-4.6V и GLM-4.6V-Flash — open-source модели для всех

08.12.2025

~ 2 мин

1137

Простой

Новости

Введение

Китайские разработчики Z-ai представили модель GLM-4.6V и ее оптимизированную версию GLM-4.6V-Flash, продолжив развитие семейств нейросетей GLM-4.1V-Thinking и GLM-4.5V. Новое поколение моделей делает внушительный шаг к созданию универсальный мультимодальных агентов, впервые объединяя визуальное восприятие и вызов функций в единую архитектуру.

Подробнее о GLM-4.6V и GLM-4.6V-Flash

В релиз вошли две версии LLM. GLM-4.6V на 106 миллиардов параметров рассчитана на облачные и кластерные системы, предлагает контекстное окно до 128 000 токенов и рекордное качество мультимодальных возможностей среди моделей своего класса. GLM-4.6V-Flash на 9 миллиардов параметров создана как легкая и быстрая модель с низкой задержкой, предназначенная для локального развертывания на периферийных системах, приложениях и для создания ИИ-ассистентов. Среди ключевых нововведений нового ИИ-семейства — мультимодальный вызов функций: инструменты, работающие с изображениями, документами и скриншотами, можно использовать напрямую, без промежуточного преобразования данных в текст. Модель не только интерпретирует визуальные данные, но и возвращает визуальные ответы, интегрируя их в цепочку рассуждений и действий.

Модель GLM-4.6V также научилась генерировать сложный смешанный текстово-визуальный контент, комбинируя документы, пользовательские данные и изображения, отдавая при необходимости запросы внешним инструментам для поиска и анализа. Модель уверенно работает с длинными документами, воспринимая многостраничные PDF как набор изображений и точно интерпретируя макеты, диаграммы, таблицы и графики. Отдельное направление — фронтенд-репликации: система способна восстановить UI со скриншота, создавая точные HTML/CSS-шаблоны и внося изменения через обычные текстовые инструкции.

Производительность GLM-4.6V и GLM-4.6V-Flash

Производительность моделей GLM-4.6V и GLM-4.6V-Flash. Источник: Hugging Face.

В новом релизе исправлены ошибки предыдущих нейросетей GLM-4.1V, в частности, цикличные рассуждения и проблемы форматирования текста, замеченные пользователями после версии GLM-4.1V. Тем не менее команда отмечает, что остаются и нерешенные проблемы: контроль качества ответов в текстовых сценариях, избыточные размышления, повторы ответов и точность восприятия деталей в изображениях с людьми.

Выводы

Релиз GLM-4.6V и GLM-4.6V-Flash подтвердил, что компания Z-ai настроена на создание более легких ИИ-моделей, которые можно локально развертывать даже на слабых пользовательских системах. Кроме того, этот выпуск приближает экосистему GLM к созданию универсальных мультимодальных агентов, способных не только видеть и понимать, но и выполнять действия, опираясь на единый технологический стек без внешних настроек.

Автор:

Serverflow