Top.Mail.Ru
DeepSeek-OCR — неожиданный релиз мощной модели для распознавания текста | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

DeepSeek-OCR — неожиданный релиз мощной модели для распознавания текста

~ 2 мин
327
Простой
Новости
DeepSeek-OCR — неожиданный релиз мощной модели для распознавания текста

Введение

Компания DeepSeek анонсировала новую модель оптического распознавания символов — DeepSeek-OCR (Contexts Optical Compression), предназначенную для извлечения текста из документов с последующим сжатием данных.

Подробнее о DeepSeek-OCR

Модель построена на архитектуре Mixture of Experts (MoE). Объем модели составляет 6,68 ГБ, что соответствует примерно 3,6 миллиардам параметров, при этом она поддерживает вычислительную точность BF16, что обеспечивает баланс между производительностью и эффективностью.

DeepSeek-OCR поддерживает четыре основных режима работы, различающихся по разрешению и числу визуальных токенов:
  • Tiny: 512×512 (64 токена);
  • Small: 640×640 (100 токенов);
  • Base: 1024×1024 (256 токенов);
  • Large: 1280×1280 (400 токенов).
Кроме того, предусмотрен специальный режим Gundam с динамическим расширением n×640×640 + 1×1024×1024, который позволяет гибко масштабировать качество анализа в зависимости от сложности документа.

По данным компании, новая OCR-модель способна обрабатывать до 33 миллионов страниц в день при использовании кластера из 20 узлов по 8 GPU NVIDIA A100 (40 ГБ). Для открытой и компактной OCR-системы такие показатели считаются крайне высокими, что делает DeepSeek-OCR одним из самых производительных решений в своем классе открытых LLM. Веса модели уже лежат на GitHub и Hugging Face.

Выводы

Вполне возможно, что компания DeepSeek готовит к релизу новое поколение VL-нейросетей на фоне резкого взлета популярность больших языковых моделей для распознавания текста от Alibaba, IMB и других компаний. Также не исключено, что DeepSeek-OCR станет частью не просто семейства, а флагманской мультимодальной нейросети, вроде DeepSeek R2 или DeepSeek V4.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)