Top.Mail.Ru
PaddleOCR-VL-0.9B — компактная VL-модель вырывается в топ-1 на Hugging Face | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

PaddleOCR-VL-0.9B — компактная VL-модель вырывается в топ-1 на Hugging Face

~ 2 мин
221
Простой
Новости
PaddleOCR-VL-0.9B — компактная VL-модель вырывается в топ-1 на Hugging Face

Введение

Компания Baidu представила PaddleOCR-VL-0.9B — сверхкомпактную модель объемом 900 миллионов параметров для анализа документов. PaddleOCR-VL-0.9B объединяет визуальный кодировщик NaViT с динамическим разрешением и языковую модель ERNIE-4.5-0.3B. Такое сочетание обеспечивает высокую точность распознавания элементов документов при минимальных вычислительных затратах 

Подробнее о PaddleOCR-VL-0.9B

Визуальный кодировщик NaViT, входящий в архитектуру PaddleOCR-VL-0.9B, в динамическом разрешении обеспечивает высокое качество обработки изображений, а интеграция с языковой моделью ERNIE-4.5-0.3B позволяет точно интерпретировать текстовые элементы и структурированные данные. 

Благодаря этой архитектуре модель демонстрирует высокую производительность как при анализе документов на уровне страниц, так и при распознавании отдельных элементов, значительно превосходя ведущие Vision-Language модели и мультимодальные ИИ с кратно большим объемом параметров, например, GPT-4o, Qwen2.5-VL-72b и Gemini2.5-Pro. Тестирование на бенчмарке OmniDocBench v1.5 подтвердило лидерство PaddleOCR-VL-0.9B по точности распознавания текста, таблиц, формул и порядка чтения элементов документа, что делает ее оптимальным выбором для работы с широким спектром типов контента, включая рукописные и исторические документы.

Результаты тестирования PaddleOCR-VL-0.9B
Результаты сравнения PaddleOCR-VL-0.9B с другими ИИ-моделями. Источник: HuggingFace.

Одним из ключевых преимуществ PaddleOCR-VL-0.9B является поддержка 109 языков (китайский, английский, русский, японский, латинский, корейский), включая языки с различными системами письма и структурами. Это делает модель универсальным решением для глобальной обработки документов, позволяя использовать ее в корпоративных, академических и исследовательских сценариях. Высокая эффективность декодирования и возможность инференса на слабом железе делают PaddleOCR-VL подходящей моделью для внедрения в широкий спектр ИИ-приложений, где важны скорость, точность и экономия вычислительных мощностей. PaddleOCR-VL уже стала лидером рейтинга Hugging Face Trending, заняв первую позицию всего через 20 часов после релиза.

Архитектура PaddleOCR-VL-0.9B
Архитектура модели PaddleOCR-VL-0.9B. Источник: HuggingFace.

Выводы

Быстрый выход PaddleOCR-VL-0.9B в топы рейтинга Hugging Face Trending обуславливается сочетанием сверхкомпактности и производительности, что обеспечивает быстрое и точное распознавание документов на множестве распространенных языков. Модель Baidu можно задействовать в огромном количестве практических сценариев использования, а благодаря открытому исходному коду, уже доступному на Hugging Face и ModelScope, воспользоваться передовыми возможностями PaddleOCR-VL-0.9B может любой желающий.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)