Компания LightOn представила LightOnOCR-2-1B — флагманскую модель распознавания текста нового поколения. Это сквозная OCR-система с компактным размером в 1 млрд параметров, дообученная с использованием RLVR-подхода, ориентированного на максимальную точность. Модель предназначена для прямого преобразования PDF-документов, сканов и изображений в чистый, структурированный текст без сложных и нестабильных конвейеров.
Подробнее о LightOnOCR-2-1B
LightOnOCR-2-1B является развитием второй версии LightOnOCR-2 и обучена на существенно расширенном и более качественном корпусе данных. Особый упор сделан на французский язык, научные статьи arXiv и реальные сканы документов, что позволило улучшить устойчивость к шуму и сложным макетам. В модели переработана обработка LaTeX и математических выражений, а также нормализация текста, благодаря чему выходные данные ближе к естественному виду, удобного для прочтения человеком.
По результатам тестрирования OlmOCR-Bench модель демонстрирует лучшую совокупную производительность среди открытых OCR-решений, оставаясь при этом примерно в девять раз компактнее и заметно быстрее большинства открытых конкурентов. LightOnOCR-2-1B способна обрабатывать около 5,7 страниц в секунду при локальном инференсе на одном ускорителе NVIDIA H100, что эквивалентно почти полумиллиону страниц в сутки. При этом заявленная стоимость вычислений составляет менее одного цента за тысячу страниц, что делает модель интересной не только с точки зрения улучшения качества распознавания текста, но и в области экономики средств для бизнеса.
Архитектура модели полностью сквозная и дифференцируемая, без внешних этапов детекции и распознавания, которые часто становятся источником ошибок. LightOnOCR-2-1B корректно работает с таблицами, формами, квитанциями, многостолбцовыми макетами и математической нотацией. В релиз вошла как базовая модель LightOnOCR-2-1B для тонкой настройки, так и ряд модифицированных версий для решения конкретных типов задач, вроде LightOnOCR-2-1B-bbox с функцией распознавания изображений и LightOnOCR-2-1B-ocr-soup для лучшей согласованности в сложных типах документов, а также компромиссные варианты с объединенным функционалом.
LightOnOCR-2-1B от стартапа LightOn благодаря сочетанию высокой точности, скорости, предсказуемой стоимости обработки страниц и, что самое главное, широкой доступности за счет небольшого количества параметров, фактически задает новые стандарты в сегменте искусственного интеллекта для мультимодального распознавания текста. Публикация весов на Hugging Face делает LightOnOCR-2-1B сильным кандидатом на роль базового OCR-решения для разработчиков и компаний, работающих с большими объемами документов.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.