Компания Baidu представила усовершенствованную мультимодальную ИИ-модель ERNIE-4.5-VL-28B-A3B-Thinking. Новая версия демонстрирует высокую производительность и расширенные способности в области визуально-языкового мышления, более глубокое понимание изображений и текста, а также повышенную эффективность обучения с подкреплением.
Подробнее о ERNIE-4.5-VL-28B-A3B
Модель имеет 48 миллиардов параметров (3 миллиарда активных за счет MoE), построена на базе архитектуры ERNIE-4.5 и прошла расширенное обучение с использованием больших массивов данных. Этот процесс значительно улучшил способность системы к семантическому соответствию между изображениями и текстом, открывая новые возможности для детального анализа визуальных и языковых данных. Особое внимание уделено обучению с подкреплением — в процесс были интегрированы подходы GSPO и IcePop, обеспечивающие стабильность и эффективность во время основного этапа обучения модели. Также реализована динамическая выборка сложности, что позволяет нейросети адаптироваться к различным уровням задач. Инновационная функция «Мышление с помощью изображений» в сочетании с инструментами масштабирования и поиска изображений расширяет возможности модели при работе с редкими визуальными данными и мельчайшими деталями. Модель демонстрирует сопоставимую производительность с другими флагманскими моделями VL, такими как GPT-5 high и Gemini-2.5 Pro. Веса модели уже лежат в открытом доступе на Hugging Face.
Сравнение производительности ERNIE-4.5-VL-28B-A3B-Thinking с GPT-5 high и Gemini-2.5 Pro. Источник: .
Выводы
ERNIE-4.5-VL-28B-A3B-Thinking задает новый стандарт для мультимодальных моделей, объединяя визуальное и языковое мышление в единой ИИ-архитектуре. Эти достижения открывают путь к созданию интеллектуальных агентов нового поколения, способных глубже понимать и анализировать сложные визуальные и текстовые данные в целях создания промышленных, исследовательских и образовательных приложений.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.