Компания Baidu представила мультимодальную модель Qianfan-VL с полностью открытым исходным кодом. Несмотря на то, что нейросеть специализируется на задачах визуального восприятия, поддержка мультимодальности делают Qianfan-VL универсальным инструментом для решения широкого списка задач.
Подробнее о Qianfan-VL
Серия нейросетей Qianfan-VL включает три масштабируемые конфигурации — модели с 3B, 8B и 70B параметров, каждая из которых представляет собой глубоко оптимизированное решение для корпоративных мультимодальных приложений. Модели демонстрируют не только превосходные возможности в выполнении базовых операций, но и специализированные улучшения для требовательных промышленных сценариев, таких как распознавание текста и обучение чат-ботов, что обеспечивает повышенную производительность в реальных условиях эксплуатации.
Особенностью разработки стало использование собственного ИИ-процессора компании Baidu на всех этапах вычислений — Kunlun Core P800. Этот специализированный чип обеспечивает оптимальный уровень вычислительной мощности для обработки больших объемов данных и реализации сложных алгоритмов, поддерживая высочайший параллелизм с задействованием до 5000 вычислительных операций на одну задачу. Подобная интеграция позволяет оптимизировать вычислительную эффективность и вывести производительность на новый уровень.
Модель Qianfan-VL имеет три отличительных преимущества:
Разнообразие размеров моделей позволяет подобрать оптимальное решение для различных сценариев использования.
Модели на 8B и 70B параметров поддерживают активацию цепочек мышления через специальные токены, охватывая сложные сценарии работы с диаграммами, визуальным мышлением и математическими задачами.
Расширенные возможности распознавания текста и понимания документов обеспечивают высокоточные ответы для корпоративных приложений.
В ходе тестирования производительности модели серии Qianfan-VL продемонстрировали значительные преимущества в ключевых бенчмарках. От визуального понимания до специализированных вопросов производительность моделей возрастает с увеличением количества параметров. В профессиональных тестах, таких как ScienceQA, модель показывает выдающуюся точность, а в мультимодальных задачах типа RefCOCO демонстрирует превосходство в распознавании объектов и установлении связей. В области оптического распознавания символов и понимания документов модель также зарекомендовала себя с лучшей стороны — она точно распознает рукописный ввод, математические формулы и естественный текст, выполняет структурированное извлечение информации из различных документов. Одновременно модель обладает продвинутыми возможностями анализа сложных макетов, автоматически идентифицируя элементы и точно интерпретируя таблицы и диаграммы.
Показатели производительности семейства моделей Qianfan-VL. Источник: .
Модели на 8B и 70B параметров отличаются развитыми аналитическими способностями. Благодаря интеграции большого объема визуальных и текстовых данных в процессе дообучения, модель значительно улучшила показатели в задачах, требующих комплексного мышления. В сценариях логического вывода она способна извлекать ключевую информацию из сложных диаграмм для анализа данных, прогнозирования тенденций и статистических расчетов. Помимо основных сценариев использования, Qianfan-VL демонстрирует эффективность в таких сценариях, как анализ графиков и распознавание видео. Модели уже доступны для скачивания на Hugging Face, GitHub и ModelScope.
Выводы
Несмотря на то, что модели Baidu пользуются не такой большой популярностью, как нейросети Alibaba и DeepSeek, китайская корпорация продолжает совершенствовать свой стек ИИ-технологий и выпускать все более и более эффективные LLM. Qianfan-VL — это еще один шаг на пути доминации Китая на рынке, и Baidu со своими передовыми решениями имеет все шансы занять одну из лидирующих позиций на этом поприще.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.