PaddleOCR-VL-1.5: обновленная OCR-модель от Baidu

30.01.2026

~ 2 мин

648

Простой

Новости

Введение

Компания Baidu в один день с релизом DeepSeek-OCR2 представила PaddleOCR-VL-1.5 — свою обновленную VLM-модель для анализа документов, которая выводит open-source OCR на новый уровень. При размере всего 0,9 миллиардов параметров модель достигает точности 94,5% на OmniDocBench v1.5 и демонстрирует лучшую устойчивость к реальным физическим искажениям документов, что делает ее одним из самых сильных компактных VLM-решений в своем классе.

Подробнее о PaddleOCR-VL-1.5

PaddleOCR-VL-1.5 стала эволюционным развитием предыдущей версии PaddleOCR-VL и заметно усилила ключевые сценарии документного анализа. Существенный прирост качества достигнут в распознавании таблиц, формул и сложного текстового контента, включая документы с нестандартной версткой. Для проверки устойчивости к реальным условиям разработчики предложили новый бенчмарк Real5-OmniDocBench, который моделирует типичные физические искажения — сканы низкого качества, перекосы, деформации бумаги, фотографирование экранов и сложное освещение. На этом наборе PaddleOCR-VL-1.5 показала наивысшую производительность среди сопоставимых моделей.

Ключевой архитектурной особенностью стало расширение поддержки локализации объектов неправильной формы. Модель уверенно работает с полигональными областями, что критично для деформированных документов с перекосом текста, где классические прямоугольные bounding box теряют точность. Помимо стандартного OCR, PaddleOCR-VL-1.5 поддерживает задачи детекции и распознавания текстовых строк, а также распознавание печатей и тюленей, демонстрируя результаты на уровне лучших OCR-нейросетей в специализированных задачах.

В модели также улучшено распознавание редких символов, многоязычных таблиц, подчеркиваний и чекбоксов. Языковой охват расширен за счет поддержки тибетской письменности Китая и бенгальского языка, что усиливает позиции модели в многоязычных корпоративных и архивных задачах. Для работы с длинными документами PaddleOCR-VL-1.5 получила механизм автоматического объединения таблиц между страницами и корректное распознавание заголовков межстраничных абзацев, снижая фрагментацию контента при анализе многостраничных файлов.

Производительность ИИ-модели PaddleOCR-VL-1.5. Источник: Hugging Face.

Выводы

PaddleOCR-VL-1.5 закрепляет за собой статус одного из самых мощных и компактных open-source решений для интеллектуального анализа документов. Сочетание рекордной точности, устойчивости к реальным физическим искажениям и расширенной поддержки сложных сценариев делает модель практичным инструментом для промышленного OCR, юридических архивов, финансовых документов и многоязычных систем документооборота.

Автор:

Serverflow