Компания Baidu представила PaddleOCR-VL-0.9B — сверхкомпактную модель объемом 900 миллионов параметров для анализа документов. PaddleOCR-VL-0.9B объединяет визуальный кодировщик NaViT с динамическим разрешением и языковую модель ERNIE-4.5-0.3B. Такое сочетание обеспечивает высокую точность распознавания элементов документов при минимальных вычислительных затратах
Подробнее о PaddleOCR-VL-0.9B
Визуальный кодировщик NaViT, входящий в архитектуру PaddleOCR-VL-0.9B, в динамическом разрешении обеспечивает высокое качество обработки изображений, а интеграция с языковой моделью ERNIE-4.5-0.3B позволяет точно интерпретировать текстовые элементы и структурированные данные.
Благодаря этой архитектуре модель демонстрирует высокую производительность как при анализе документов на уровне страниц, так и при распознавании отдельных элементов, значительно превосходя ведущие Vision-Language модели и мультимодальные ИИ с кратно большим объемом параметров, например, GPT-4o, Qwen2.5-VL-72b и Gemini2.5-Pro. Тестирование на бенчмарке OmniDocBench v1.5 подтвердило лидерство PaddleOCR-VL-0.9B по точности распознавания текста, таблиц, формул и порядка чтения элементов документа, что делает ее оптимальным выбором для работы с широким спектром типов контента, включая рукописные и исторические документы.
Результаты сравнения PaddleOCR-VL-0.9B с другими ИИ-моделями. Источник: .
Одним из ключевых преимуществ PaddleOCR-VL-0.9B является поддержка 109 языков (китайский, английский, русский, японский, латинский, корейский), включая языки с различными системами письма и структурами. Это делает модель универсальным решением для глобальной обработки документов, позволяя использовать ее в корпоративных, академических и исследовательских сценариях. Высокая эффективность декодирования и возможность инференса на слабом железе делают PaddleOCR-VL подходящей моделью для внедрения в широкий спектр ИИ-приложений, где важны скорость, точность и экономия вычислительных мощностей. PaddleOCR-VL уже стала лидером рейтинга Hugging Face Trending, заняв первую позицию всего через 20 часов после релиза.
Архитектура модели PaddleOCR-VL-0.9B. Источник: .
Выводы
Быстрый выход PaddleOCR-VL-0.9B в топы рейтинга Hugging Face Trending обуславливается сочетанием сверхкомпактности и производительности, что обеспечивает быстрое и точное распознавание документов на множестве распространенных языков. Модель Baidu можно задействовать в огромном количестве практических сценариев использования, а благодаря открытому исходному коду, уже доступному на Hugging Face и ModelScope, воспользоваться передовыми возможностями PaddleOCR-VL-0.9B может любой желающий.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.