Компания Baidu в один день с релизом DeepSeek-OCR2 представила PaddleOCR-VL-1.5 — свою обновленную VLM-модель для анализа документов, которая выводит open-source OCR на новый уровень. При размере всего 0,9 миллиардов параметров модель достигает точности 94,5% на OmniDocBench v1.5 и демонстрирует лучшую устойчивость к реальным физическим искажениям документов, что делает ее одним из самых сильных компактных VLM-решений в своем классе.
Подробнее о PaddleOCR-VL-1.5
PaddleOCR-VL-1.5 стала эволюционным развитием предыдущей версии PaddleOCR-VL и заметно усилила ключевые сценарии документного анализа. Существенный прирост качества достигнут в распознавании таблиц, формул и сложного текстового контента, включая документы с нестандартной версткой. Для проверки устойчивости к реальным условиям разработчики предложили новый бенчмарк Real5-OmniDocBench, который моделирует типичные физические искажения — сканы низкого качества, перекосы, деформации бумаги, фотографирование экранов и сложное освещение. На этом наборе PaddleOCR-VL-1.5 показала наивысшую производительность среди сопоставимых моделей.
Ключевой архитектурной особенностью стало расширение поддержки локализации объектов неправильной формы. Модель уверенно работает с полигональными областями, что критично для деформированных документов с перекосом текста, где классические прямоугольные bounding box теряют точность. Помимо стандартного OCR, PaddleOCR-VL-1.5 поддерживает задачи детекции и распознавания текстовых строк, а также распознавание печатей и тюленей, демонстрируя результаты на уровне лучших OCR-нейросетей в специализированных задачах.
В модели также улучшено распознавание редких символов, многоязычных таблиц, подчеркиваний и чекбоксов. Языковой охват расширен за счет поддержки тибетской письменности Китая и бенгальского языка, что усиливает позиции модели в многоязычных корпоративных и архивных задачах. Для работы с длинными документами PaddleOCR-VL-1.5 получила механизм автоматического объединения таблиц между страницами и корректное распознавание заголовков межстраничных абзацев, снижая фрагментацию контента при анализе многостраничных файлов.
PaddleOCR-VL-1.5 закрепляет за собой статус одного из самых мощных и компактных open-source решений для интеллектуального анализа документов. Сочетание рекордной точности, устойчивости к реальным физическим искажениям и расширенной поддержки сложных сценариев делает модель практичным инструментом для промышленного OCR, юридических архивов, финансовых документов и многоязычных систем документооборота.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.