Команда AllenAI (AI2) представила olmOCR 2 — новую модель распознавания документов, которая достигает рекордной точности в 82,4 балла, правда, пока только во внутреннем бенчмарке olmOCR-Bench.
Подробнее о olmOCR 2
Построенная на базе Qwen2.5-VL-7B, модель olmOCR 2 демонстрирует заметное превосходство над предыдущей версией olmOCR и решениями конкурентов, например, Marker (76,1), MinerU (75,2), DeepSeek-OCR (75,7) и PaddleOCR-VL (80). Модель обучена на наборе данных olmOCR-mix-1025, включающем 270 тысяч страниц — от научных статей и юридических текстов до исторических сканов и рукописей. Также нейросеть может генерировать ответ в форматах Markdown, HTML и LaTeX без постобработки.
Сравнение результатов тестов модели olmOCR 2 и решений конкурентов. Источник: .
Ключевое нововведение olmOCR 2 заключается в применении обучения с подкреплением, где в роли награды выступает проверяемая корректность вывода. Система Group Relative Policy Optimization (GRPO) использует модульные тесты, которые проверяют сохранение структуры таблиц, точность математических символов и порядок чтения. Этот подход позволяет обучать модель на основе формальных критериев оценки, а не только на статистических метриках. Для этого AI2 создал синтетический набор olmOCR-synthmix-1025 из 2186 PDF-документов и более 30 тысяч тестируемых примеров, что позволило снизить стоимость инференса до 12 центов за страницу.
olmOCR 2 показывает устойчивые улучшения в тех областях, где традиционные OCR-системы обычно теряют точность: при обработке математических формул, сложных таблиц и многоколоночных макетов. Так, модель корректно интерпретировала дату в письме Авраама Линкольна от 10 января 1864 года, где прежние версии ошибались из-за неразборчивого почерка.
Модель olmOCR 2 распознает почерк Авраама Линкольна. Источник: .
Выводы
Результаты тестов, веса модели и код обучения опубликованы на платформе Hugging Face, а также нейросеть доступна через API на DeepInfra и Parasail. olmOCR 2 делает шаг к воспроизводимому, детерминированному и проверяемому OCR, где каждая расшифровка документа может быть объективно верифицирована. Этот подход сближает распознавание текста с инженерными стандартами надежности и открывает путь к интеграции OCR в корпоративные, научные и архивные системы, где важна не только точность, но и проверяемость результатов.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.