Top.Mail.Ru
PaddleOCR-VL-1.5: обновленная OCR-модель от Baidu | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

PaddleOCR-VL-1.5: обновленная OCR-модель от Baidu

~ 2 мин
94
Простой
Новости
PaddleOCR-VL-1.5: обновленная OCR-модель от Baidu

Введение

Компания Baidu в один день с релизом DeepSeek-OCR2 представила PaddleOCR-VL-1.5 — свою обновленную VLM-модель для анализа документов, которая выводит open-source OCR на новый уровень. При размере всего 0,9 миллиардов параметров модель достигает точности 94,5% на OmniDocBench v1.5 и демонстрирует лучшую устойчивость к реальным физическим искажениям документов, что делает ее одним из самых сильных компактных VLM-решений в своем классе.

Подробнее о PaddleOCR-VL-1.5

PaddleOCR-VL-1.5 стала эволюционным развитием предыдущей версии PaddleOCR-VL и заметно усилила ключевые сценарии документного анализа. Существенный прирост качества достигнут в распознавании таблиц, формул и сложного текстового контента, включая документы с нестандартной версткой. Для проверки устойчивости к реальным условиям разработчики предложили новый бенчмарк Real5-OmniDocBench, который моделирует типичные физические искажения — сканы низкого качества, перекосы, деформации бумаги, фотографирование экранов и сложное освещение. На этом наборе PaddleOCR-VL-1.5 показала наивысшую производительность среди сопоставимых моделей.

Ключевой архитектурной особенностью стало расширение поддержки локализации объектов неправильной формы. Модель уверенно работает с полигональными областями, что критично для деформированных документов с перекосом текста, где классические прямоугольные bounding box теряют точность. Помимо стандартного OCR, PaddleOCR-VL-1.5 поддерживает задачи детекции и распознавания текстовых строк, а также распознавание печатей и тюленей, демонстрируя результаты на уровне лучших OCR-нейросетей в специализированных задачах.

В модели также улучшено распознавание редких символов, многоязычных таблиц, подчеркиваний и чекбоксов. Языковой охват расширен за счет поддержки тибетской письменности Китая и бенгальского языка, что усиливает позиции модели в многоязычных корпоративных и архивных задачах. Для работы с длинными документами PaddleOCR-VL-1.5 получила механизм автоматического объединения таблиц между страницами и корректное распознавание заголовков межстраничных абзацев, снижая фрагментацию контента при анализе многостраничных файлов.

Производительность PaddleOCR-VL-1.5
Производительность ИИ-модели PaddleOCR-VL-1.5. Источник: Hugging Face.

Выводы

PaddleOCR-VL-1.5 закрепляет за собой статус одного из самых мощных и компактных open-source решений для интеллектуального анализа документов. Сочетание рекордной точности, устойчивости к реальным физическим искажениям и расширенной поддержки сложных сценариев делает модель практичным инструментом для промышленного OCR, юридических архивов, финансовых документов и многоязычных систем документооборота.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)