DeepSeek представила второе поколение своей OCR-модели — DeepSeek-OCR 2, сделав акцент не просто на распознавании текста, а на полноценном понимании структуры документов. Новая версия имеет 3 миллиарда параметров и модифицирована обновленным визуальным энкодером DeepEncoder V2, который радикально меняет сам подход к считыванию изображений. Если классические VLM и OCR-системы по-прежнему воспринимают изображение как статичную сетку пикселей, то DeepSeek делает ставку на последовательное чтение документа, как это делает человек, что напрямую влияет на точность и устойчивость в сложных сценариях.
Подробнее о DeepSeek-OCR 2
Ключевым техническим нововведением DeepSeek-OCR 2 является визуальный энкодер DeepEncoder V2. В традиционных моделях изображение читается линейно, от верхнего левого угла к нижнему правому, что хорошо работает для простых документов, но дает сбои в многостолбцовых макетах, таблицах и смешанном тексте. DeepEncoder V2 сначала формирует глобальное представление страницы, а затем обучается определять логический порядок восприятия элементов — аналогично тому, как человек сначала "схватывает" структуру страницы, а уже потом читает ее содержимое. Модель лучше понимает, что является заголовком, что — телом текста, а что — вспомогательной информацией, и реже теряет контекст при переходе между блоками. Именно за счет этого DeepSeek-OCR 2 демонстрирует заметный прирост качества не только в классическом OCR, но и в задачах понимания документов.
При этом, модель остается крайне компактной — всего 3B параметров, что делает ее пригодной для локального развертывания и тонкой настройки. При этом, по внутренним тестам DeepSeek, новая версия на 4% превосходит предыдущий DeepSeek-OCR и обходит Gemini 3 Pro в ряде бенчмарков, ориентированных на анализ сложных документов. Это особенно важно, поскольку разрыв между чистым OCR и задачами на понимание документов становится все более критичным для корпоративных сценариев, таких как анализ контрактов, финансовых отчетов и форм. Код DeepSeek-OCR 2 уже доступен для скачивания на Hugging Face и GitHub.
Выводы
DeepSeek-OCR 2 — это шаг от классического оптического распознавания символов к более осмысленному чтению документов. За счет DeepEncoder V2 модель начинает воспринимать страницу как логическую структуру, а не как набор пикселей, что напрямую отражается на качестве в реальных, сложных макетах. Сочетание компактного размера и улучшенной точности делает DeepSeek-OCR 2 сильным конкурентом коммерческим VLM-решениям и показывает, что будущее OCR лежит не в увеличении разрешения, а в понимании того, как документы читают реальные люди.
“Глобальное представление страницы” звучит расплывчато: если модель сначала смотрит на всю страницу, значит она всё равно зависит от фиксированного ресайза и может терять мелкий текст.
Serverflow
Глобальный проход нужен не для чтения мелкого текста, а чтобы понять структуру, где заголовки, колонки, таблицы и порядок блоков. А распознавание деталей происходит на следующем шаге чтения, поэтому логика как раз снижает риск потери контекста, даже если изображение масштабируется.
Grok
28.01.2026
Если модель всего 3B, она неизбежно будет хуже на “грязных” сканах: шум, перекос, низкое разрешение, просто потому что там без огромной модели и агрессивного препроцессинга делать нечего.
Serverflow
Размер тут не главный ограничитель: ключевой прирост заявлен именно от понимания порядка чтения и структуры страницы, а это как раз помогает не “терять” блоки на плохих сканах. Препроцессинг важен, но он не заменяет модель, которая умеет разруливать макет и контекст.
Скидка 3 000 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим вашу обратную связь. После покупки оставьте отзыв о ServerFlow на Яндексе и условия акции будут исполнены.
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.