PaddleOCR-VL-0.9B — компактная VL-модель вырывается в топ-1 на Hugging Face

18.10.2025

~ 2 мин

888

Простой

Новости

Введение

Компания Baidu представила PaddleOCR-VL-0.9B — сверхкомпактную модель объемом 900 миллионов параметров для анализа документов. PaddleOCR-VL-0.9B объединяет визуальный кодировщик NaViT с динамическим разрешением и языковую модель ERNIE-4.5-0.3B. Такое сочетание обеспечивает высокую точность распознавания элементов документов при минимальных вычислительных затратах

Подробнее о PaddleOCR-VL-0.9B

Визуальный кодировщик NaViT, входящий в архитектуру PaddleOCR-VL-0.9B, в динамическом разрешении обеспечивает высокое качество обработки изображений, а интеграция с языковой моделью ERNIE-4.5-0.3B позволяет точно интерпретировать текстовые элементы и структурированные данные.

Благодаря этой архитектуре модель демонстрирует высокую производительность как при анализе документов на уровне страниц, так и при распознавании отдельных элементов, значительно превосходя ведущие Vision-Language модели и мультимодальные ИИ с кратно большим объемом параметров, например, GPT-4o, Qwen2.5-VL-72b и Gemini2.5-Pro. Тестирование на бенчмарке OmniDocBench v1.5 подтвердило лидерство PaddleOCR-VL-0.9B по точности распознавания текста, таблиц, формул и порядка чтения элементов документа, что делает ее оптимальным выбором для работы с широким спектром типов контента, включая рукописные и исторические документы.

Результаты тестирования PaddleOCR-VL-0.9B

Результаты сравнения PaddleOCR-VL-0.9B с другими ИИ-моделями. Источник: HuggingFace.

Одним из ключевых преимуществ PaddleOCR-VL-0.9B является поддержка 109 языков (китайский, английский, русский, японский, латинский, корейский), включая языки с различными системами письма и структурами. Это делает модель универсальным решением для глобальной обработки документов, позволяя использовать ее в корпоративных, академических и исследовательских сценариях. Высокая эффективность декодирования и возможность инференса на слабом железе делают PaddleOCR-VL подходящей моделью для внедрения в широкий спектр ИИ-приложений, где важны скорость, точность и экономия вычислительных мощностей. PaddleOCR-VL уже стала лидером рейтинга Hugging Face Trending, заняв первую позицию всего через 20 часов после релиза.

Архитектура модели PaddleOCR-VL-0.9B. Источник: HuggingFace.

Выводы

Быстрый выход PaddleOCR-VL-0.9B в топы рейтинга Hugging Face Trending обуславливается сочетанием сверхкомпактности и производительности, что обеспечивает быстрое и точное распознавание документов на множестве распространенных языков. Модель Baidu можно задействовать в огромном количестве практических сценариев использования, а благодаря открытому исходному коду, уже доступному на Hugging Face и ModelScope, воспользоваться передовыми возможностями PaddleOCR-VL-0.9B может любой желающий.

Автор:

Serverflow