Китайские разработчики Z-ai представили модель GLM-4.6V и ее оптимизированную версию GLM-4.6V-Flash, продолжив развитие семейств нейросетей GLM-4.1V-Thinking и GLM-4.5V. Новое поколение моделей делает внушительный шаг к созданию универсальный мультимодальных агентов, впервые объединяя визуальное восприятие и вызов функций в единую архитектуру.
Подробнее о GLM-4.6V и GLM-4.6V-Flash
В релиз вошли две версии LLM. GLM-4.6V на 106 миллиардов параметров рассчитана на облачные и кластерные системы, предлагает контекстное окно до 128 000 токенов и рекордное качество мультимодальных возможностей среди моделей своего класса. GLM-4.6V-Flash на 9 миллиардов параметров создана как легкая и быстрая модель с низкой задержкой, предназначенная для локального развертывания на периферийных системах, приложениях и для создания ИИ-ассистентов. Среди ключевых нововведений нового ИИ-семейства — мультимодальный вызов функций: инструменты, работающие с изображениями, документами и скриншотами, можно использовать напрямую, без промежуточного преобразования данных в текст. Модель не только интерпретирует визуальные данные, но и возвращает визуальные ответы, интегрируя их в цепочку рассуждений и действий.
Модель GLM-4.6V также научилась генерировать сложный смешанный текстово-визуальный контент, комбинируя документы, пользовательские данные и изображения, отдавая при необходимости запросы внешним инструментам для поиска и анализа. Модель уверенно работает с длинными документами, воспринимая многостраничные PDF как набор изображений и точно интерпретируя макеты, диаграммы, таблицы и графики. Отдельное направление — фронтенд-репликации: система способна восстановить UI со скриншота, создавая точные HTML/CSS-шаблоны и внося изменения через обычные текстовые инструкции.
Производительность моделей GLM-4.6V и GLM-4.6V-Flash. Источник: .
В новом релизе исправлены ошибки предыдущих нейросетей GLM-4.1V, в частности, цикличные рассуждения и проблемы форматирования текста, замеченные пользователями после версии GLM-4.1V. Тем не менее команда отмечает, что остаются и нерешенные проблемы: контроль качества ответов в текстовых сценариях, избыточные размышления, повторы ответов и точность восприятия деталей в изображениях с людьми.
Выводы
Релиз GLM-4.6V и GLM-4.6V-Flash подтвердил, что компания Z-ai настроена на создание более легких ИИ-моделей, которые можно локально развертывать даже на слабых пользовательских системах. Кроме того, этот выпуск приближает экосистему GLM к созданию универсальных мультимодальных агентов, способных не только видеть и понимать, но и выполнять действия, опираясь на единый технологический стек без внешних настроек.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.