Top.Mail.Ru
ERNIE-4.5-VL-28B-A3B-Thinking — новый этап развития мультимодального ИИ | Новости Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Из-за нестабильности цен RAM фактическая стоимость может отличаться. Цена подтверждается после оформления заказа, работаем над обновлением цен!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

ERNIE-4.5-VL-28B-A3B-Thinking: новый этап развития мультимодального ИИ

~ 2 мин
233
Простой
Новости
ERNIE-4.5-VL-28B-A3B-Thinking: новый этап развития мультимодального ИИ

Введение

Компания Baidu представила усовершенствованную мультимодальную ИИ-модель ERNIE-4.5-VL-28B-A3B-Thinking. Новая версия демонстрирует высокую производительность и расширенные способности в области визуально-языкового мышления, более глубокое понимание изображений и текста, а также повышенную эффективность обучения с подкреплением.

Подробнее о ERNIE-4.5-VL-28B-A3B

Модель имеет 48 миллиардов параметров (3 миллиарда активных за счет MoE), построена на базе архитектуры ERNIE-4.5 и прошла расширенное обучение с использованием больших массивов данных. Этот процесс значительно улучшил способность системы к семантическому соответствию между изображениями и текстом, открывая новые возможности для детального анализа визуальных и языковых данных. Особое внимание уделено обучению с подкреплением — в процесс были интегрированы подходы GSPO и IcePop, обеспечивающие стабильность и эффективность во время основного этапа обучения модели. Также реализована динамическая выборка сложности, что позволяет нейросети адаптироваться к различным уровням задач. Инновационная функция «Мышление с помощью изображений» в сочетании с инструментами масштабирования и поиска изображений расширяет возможности модели при работе с редкими визуальными данными и мельчайшими деталями. Модель демонстрирует сопоставимую производительность с другими флагманскими моделями VL, такими как GPT-5 high и Gemini-2.5 Pro. Веса модели уже лежат в открытом доступе на Hugging Face.

Производительность ERNIE-4.5-VL-28B-A3B-Thinking
Сравнение производительности ERNIE-4.5-VL-28B-A3B-Thinking с GPT-5 high и Gemini-2.5 Pro. Источник: Hugging Face.

Выводы

ERNIE-4.5-VL-28B-A3B-Thinking задает новый стандарт для мультимодальных моделей, объединяя визуальное и языковое мышление в единой ИИ-архитектуре. Эти достижения открывают путь к созданию интеллектуальных агентов нового поколения, способных глубже понимать и анализировать сложные визуальные и текстовые данные в целях создания промышленных, исследовательских и образовательных приложений.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)