Baidu Qianfan-VL: семейство LLM для мультимодальных приложений

23.09.2025

~ 2 мин

356

Простой

Новости

Введение

Компания Baidu представила мультимодальную модель Qianfan-VL с полностью открытым исходным кодом. Несмотря на то, что нейросеть специализируется на задачах визуального восприятия, поддержка мультимодальности делают Qianfan-VL универсальным инструментом для решения широкого списка задач.

Подробнее о Qianfan-VL

Серия нейросетей Qianfan-VL включает три масштабируемые конфигурации — модели с 3B, 8B и 70B параметров, каждая из которых представляет собой глубоко оптимизированное решение для корпоративных мультимодальных приложений. Модели демонстрируют не только превосходные возможности в выполнении базовых операций, но и специализированные улучшения для требовательных промышленных сценариев, таких как распознавание текста и обучение чат-ботов, что обеспечивает повышенную производительность в реальных условиях эксплуатации.

Особенностью разработки стало использование собственного ИИ-процессора компании Baidu на всех этапах вычислений — Kunlun Core P800. Этот специализированный чип обеспечивает оптимальный уровень вычислительной мощности для обработки больших объемов данных и реализации сложных алгоритмов, поддерживая высочайший параллелизм с задействованием до 5000 вычислительных операций на одну задачу. Подобная интеграция позволяет оптимизировать вычислительную эффективность и вывести производительность на новый уровень.

Модель Qianfan-VL имеет три отличительных преимущества:

Разнообразие размеров моделей позволяет подобрать оптимальное решение для различных сценариев использования.
Модели на 8B и 70B параметров поддерживают активацию цепочек мышления через специальные токены, охватывая сложные сценарии работы с диаграммами, визуальным мышлением и математическими задачами.
Расширенные возможности распознавания текста и понимания документов обеспечивают высокоточные ответы для корпоративных приложений.

В ходе тестирования производительности модели серии Qianfan-VL продемонстрировали значительные преимущества в ключевых бенчмарках. От визуального понимания до специализированных вопросов производительность моделей возрастает с увеличением количества параметров. В профессиональных тестах, таких как ScienceQA, модель показывает выдающуюся точность, а в мультимодальных задачах типа RefCOCO демонстрирует превосходство в распознавании объектов и установлении связей. В области оптического распознавания символов и понимания документов модель также зарекомендовала себя с лучшей стороны — она точно распознает рукописный ввод, математические формулы и естественный текст, выполняет структурированное извлечение информации из различных документов. Одновременно модель обладает продвинутыми возможностями анализа сложных макетов, автоматически идентифицируя элементы и точно интерпретируя таблицы и диаграммы.

Показатели производительности семейства моделей Qianfan-VL. Источник: Hugging Face.

Модели на 8B и 70B параметров отличаются развитыми аналитическими способностями. Благодаря интеграции большого объема визуальных и текстовых данных в процессе дообучения, модель значительно улучшила показатели в задачах, требующих комплексного мышления. В сценариях логического вывода она способна извлекать ключевую информацию из сложных диаграмм для анализа данных, прогнозирования тенденций и статистических расчетов. Помимо основных сценариев использования, Qianfan-VL демонстрирует эффективность в таких сценариях, как анализ графиков и распознавание видео. Модели уже доступны для скачивания на Hugging Face, GitHub и ModelScope.

Выводы

Несмотря на то, что модели Baidu пользуются не такой большой популярностью, как нейросети Alibaba и DeepSeek, китайская корпорация продолжает совершенствовать свой стек ИИ-технологий и выпускать все более и более эффективные LLM. Qianfan-VL — это еще один шаг на пути доминации Китая на рынке, и Baidu со своими передовыми решениями имеет все шансы занять одну из лидирующих позиций на этом поприще.

Автор:

Serverflow