Top.Mail.Ru
Baidu Qianfan-VL: семейство LLM для мультимодальных приложений | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Baidu Qianfan-VL: семейство LLM для мультимодальных приложений

~ 2 мин
150
Простой
Новости
Baidu Qianfan-VL: семейство LLM для мультимодальных приложений

Введение

Компания Baidu представила мультимодальную модель Qianfan-VL с полностью открытым исходным кодом. Несмотря на то, что нейросеть специализируется на задачах визуального восприятия, поддержка мультимодальности делают Qianfan-VL универсальным инструментом для решения широкого списка задач. 

Подробнее о Qianfan-VL

Серия нейросетей Qianfan-VL включает три масштабируемые конфигурации — модели с 3B, 8B и 70B параметров, каждая из которых представляет собой глубоко оптимизированное решение для корпоративных мультимодальных приложений. Модели демонстрируют не только превосходные возможности в выполнении базовых операций, но и специализированные улучшения для требовательных промышленных сценариев, таких как распознавание текста и обучение чат-ботов, что обеспечивает повышенную производительность в реальных условиях эксплуатации.

Особенностью разработки стало использование собственного ИИ-процессора компании Baidu на всех этапах вычислений — Kunlun Core P800. Этот специализированный чип обеспечивает оптимальный уровень вычислительной мощности для обработки больших объемов данных и реализации сложных алгоритмов, поддерживая высочайший параллелизм с задействованием до 5000 вычислительных операций на одну задачу. Подобная интеграция позволяет оптимизировать вычислительную эффективность и вывести производительность на новый уровень.

Модель Qianfan-VL имеет три отличительных преимущества:
  • Разнообразие размеров моделей позволяет подобрать оптимальное решение для различных сценариев использования. 
  • Модели на 8B и 70B параметров поддерживают активацию цепочек мышления через специальные токены, охватывая сложные сценарии работы с диаграммами, визуальным мышлением и математическими задачами. 
  • Расширенные возможности распознавания текста и понимания документов обеспечивают высокоточные ответы для корпоративных приложений.
В ходе тестирования производительности модели серии Qianfan-VL продемонстрировали значительные преимущества в ключевых бенчмарках. От визуального понимания до специализированных вопросов производительность моделей возрастает с увеличением количества параметров. В профессиональных тестах, таких как ScienceQA, модель показывает выдающуюся точность, а в мультимодальных задачах типа RefCOCO демонстрирует превосходство в распознавании объектов и установлении связей. В области оптического распознавания символов и понимания документов модель также зарекомендовала себя с лучшей стороны — она точно распознает рукописный ввод, математические формулы и естественный текст, выполняет структурированное извлечение информации из различных документов. Одновременно модель обладает продвинутыми возможностями анализа сложных макетов, автоматически идентифицируя элементы и точно интерпретируя таблицы и диаграммы.

Производительность моделей Qianfan-VL
Показатели производительности семейства моделей Qianfan-VL. Источник: Hugging Face.

Модели на 8B и 70B параметров отличаются развитыми аналитическими способностями. Благодаря интеграции большого объема визуальных и текстовых данных в процессе дообучения, модель значительно улучшила показатели в задачах, требующих комплексного мышления. В сценариях логического вывода она способна извлекать ключевую информацию из сложных диаграмм для анализа данных, прогнозирования тенденций и статистических расчетов. Помимо основных сценариев использования, Qianfan-VL демонстрирует эффективность в таких сценариях, как анализ графиков и распознавание видео. Модели уже доступны для скачивания на Hugging Face, GitHub и ModelScope.

Выводы

Несмотря на то, что модели Baidu пользуются не такой большой популярностью, как нейросети Alibaba и DeepSeek, китайская корпорация продолжает совершенствовать свой стек ИИ-технологий и выпускать все более и более эффективные LLM. Qianfan-VL — это еще один шаг на пути доминации Китая на рынке, и Baidu со своими передовыми решениями имеет все шансы занять одну из лидирующих позиций на этом поприще.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)