Top.Mail.Ru
Вышла PaddleOCR-VL-1.6 — новая лучшая OCR-модель с точностью 96.33% | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Вышла PaddleOCR-VL-1.6 — новая лучшая OCR-модель с точностью 96.33%

~ 2 мин
49
Простой
Новости
Вышла PaddleOCR-VL-1.6 — новая лучшая OCR-модель с точностью 96.33%

Введение

Команда PaddlePaddle представила PaddleOCR-VL-1.6 — обновленную компактную OCR-модель с поддержкой русского языка, которая продолжает развитие предыдущей версии PaddleOCR-VL 1.5 и привносит значительно больший уровень производительности анализа текстов. Основной упор сделан на точечное усиление слабых сторон предшественницы: в новинку встроен механизм региональной оптимизации данных, позволяющий прицельно улучшать те области, где модель раньше ошибалась, а также внедрена прогрессивная схема пост-обучения на тщательно отфильтрованных примерах с подкреплением. Результат — сразу три установленных рекорда на ключевых бенчмарках и полная архитектурная совместимость с предшественницей, сводящая миграцию к простой замене файла модели.

Подробнее о PaddleOCR-VL-1.6

Ключевая инновация PaddleOCR-VL-1.6 — так называемая система регионально-осведомленной оптимизации данных, которая анализирует, в каких именно типах контента (таблицы, редкие символы, формулы) предшественница выдавала наибольшее количество ошибок, и целенаправленно дополняет обучающую выборку в этих проблемных зонах. Дополнительно применяется прогрессивное пост-обучение: после базового fine-tuning модель проходит через несколько этапов дообучения на все более сложных и тонко отобранных данных, а на финальной стадии задействуется обучение с подкреплением для повышения надежности ключевых метрик.

PaddleOCR-VL-1.6 обновляет рекорд точности
PaddleOCR-VL-1.6 обновляет рекорд точности распознавания текста среди ИИ-моделей. Источник: Hugging Face.

В результате этих оптимизаций, в бенчмарке OmniDocBench модель PaddleOCR-VL-1.6 достигла точности 96,33%, что является новым абсолютным рекордом среди всех открытых и закрытых OCR-нейросетей. Одновременно с этим обновлены рекорды на бенчмарке OmniDocBench v1.5 и на наборе тестов Real5-OmniDocBench. Впечатляющий прирост показан в распознавании таблиц, работе с историческими документами, редкими иероглифами, и рукописными текстами, а также в с извлечении печатей, штампов, выделении текста и анализе диаграмм.

Результаты тестирования PaddleOCR-VL-1.6
Результаты тестирования PaddleOCR-VL-1.6. Источник: Hugging Face.

Архитектурно PaddleOCR-VL-1.6 полностью повторяет предыдущую нейронку PaddleOCR-VL-1.5 — для миграции на обновленную модель, ни одной строчки кода интеграции менять не нужно. Пользователи PaddleOCR-VL-1.5 могут перейти на новую версию простой заменой весов, без каких-либо затрат на адаптацию. Более того, модель уже доступна для быстрого развертывания через библиотеку transformers.

Выводы

PaddleOCR-VL-1.6 демонстрирует, что грамотная работа с данными и хирургически точное дообучение проблемных зон могут дать больший прирост, чем наращивание архитектурной сложности. Прибавка в 0,8% (с 95,52% до 96,33% на v1.6 OmniDocBench), на первый взгляд скромная, на деле означает сокращение количества реальных ошибок в практических задачах на десятки процентов, что критически важно для автоматизации корпоративного документооборота. Полная совместимость с предыдущей версией делает обновление безболезненным для бизнеса, а очередной SOTA укрепляет позиции PaddleOCR как одной из ведущих open-source платформ для интеллектуальной обработки документов.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)