Top.Mail.Ru
AllenAI выпустила olmOCR 2: новый конкурент топовых OCR-нейросетей | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

AllenAI выпустила olmOCR 2: новый конкурент топовых OCR-нейросетей

~ 2 мин
153
Простой
Новости
AllenAI выпустила olmOCR 2: новый конкурент топовых OCR-нейросетей

Введение

Команда AllenAI (AI2) представила olmOCR 2 — новую модель распознавания документов, которая достигает рекордной точности в 82,4 балла, правда, пока только во внутреннем бенчмарке olmOCR-Bench. 

Подробнее о olmOCR 2

Построенная на базе Qwen2.5-VL-7B, модель olmOCR 2 демонстрирует заметное превосходство над предыдущей версией olmOCR и решениями конкурентов, например, Marker (76,1), MinerU (75,2), DeepSeek-OCR (75,7) и PaddleOCR-VL (80). Модель обучена на наборе данных olmOCR-mix-1025, включающем 270 тысяч страниц — от научных статей и юридических текстов до исторических сканов и рукописей. Также нейросеть может генерировать ответ в форматах Markdown, HTML и LaTeX без постобработки.

Результаты тестов модели olmOCR 2
Сравнение результатов тестов модели olmOCR 2 и решений конкурентов. Источник: Allenai.

Ключевое нововведение olmOCR 2 заключается в применении обучения с подкреплением, где в роли награды выступает проверяемая корректность вывода. Система Group Relative Policy Optimization (GRPO) использует модульные тесты, которые проверяют сохранение структуры таблиц, точность математических символов и порядок чтения. Этот подход позволяет обучать модель на основе формальных критериев оценки, а не только на статистических метриках. Для этого AI2 создал синтетический набор olmOCR-synthmix-1025 из 2186 PDF-документов и более 30 тысяч тестируемых примеров, что позволило снизить стоимость инференса до 12 центов за страницу.

olmOCR 2 показывает устойчивые улучшения в тех областях, где традиционные OCR-системы обычно теряют точность: при обработке математических формул, сложных таблиц и многоколоночных макетов. Так, модель корректно интерпретировала дату в письме Авраама Линкольна от 10 января 1864 года, где прежние версии ошибались из-за неразборчивого почерка.

Модель olmOCR 2 распознала почерк Линкольна
Модель olmOCR 2 распознает почерк Авраама Линкольна. Источник: Allenai.

Выводы

Результаты тестов, веса модели и код обучения опубликованы на платформе Hugging Face, а также нейросеть доступна через API на DeepInfra и Parasail. olmOCR 2 делает шаг к воспроизводимому, детерминированному и проверяемому OCR, где каждая расшифровка документа может быть объективно верифицирована. Этот подход сближает распознавание текста с инженерными стандартами надежности и открывает путь к интеграции OCR в корпоративные, научные и архивные системы, где важна не только точность, но и проверяемость результатов.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)