Компания IBM выпустила новую, мультимодальную ИИ-модель для анализа документов и их перевода в текстовый формат — Granite Docling 258M. Новая LLM сохраняет ключевые функциональные возможности своего предшественника в лице Docling и обеспечивает простую интеграцию с системой DoclingDocuments, гарантируя полную совместимость с существующей инфраструктурой.
Подробнее о Granite Docling 258M
Архитектура Granite Docling 258M базируется на фреймворке Idefics3 с тремя ключевыми модификациями: традиционный энкодер изображений заменен на усовершенствованный siglip2-base-patch16-512, внедрен изуально-языковой коннектор с проектором пиксельного перемешивания (аналогично idefics3), а базовая языковая модель заменена на Granite 165M LLM. Благодаря этому, ИИ-модель демонстрирует улучшенное распознавание математических уравнений с повышенной точностью определения и форматирования формул. Платформа предлагает гибкие режимы логического вывода с выбором между полностраничной обработкой и анализом выделенных областей (bbox). Кроме того, в модели значительно улучшена стабильность работы, в результате чего исключены бесконечные циклы генерации, а также реализована функция проверки элементов документа с возможностью анализа структуры и последовательности элементов. Помимо библиотеки Docling, нейросеть Granite Docling 258M также поддерживает инференс через движки для моделей трансформеров, вроде vLLM, ONNX или mlx-vlm. Также возможна работа через API-интеграцию docling-core.
Датасет модели состоит из общедоступных наборов данных и внутренних синтетических данных, включая SynthCodeNet (фрагменты кода на 50+ языках программирования), SynthFormulaNet (математические выражения с LaTeX-разметкой), SynthChartNet (изображения диаграмм с табличными выводами) и DoclingMatix (реальные страницы документов из различных областей). Обучение Granite Docling 258M выполнялось на мощностях суперкомпьютерного кластера IBM Blue Vela с графическими процессорами NVIDIA H100, обеспечивающем масштабируемую и эффективную среду для тренировки моделей на тысячах GPU.
Наглядный пример анализа документа с помощью ИИ-модели Granite Docling 258M. Источник: .
Выводы
На данный момент Granite Docling 258M уже успела занять третье место в топе самых трендовых ИИ-моделей на Hugging Face. Это свидетельствует о высочайшей эффективности ИИ-продукта от IBM и дает надежную опору для дальнейшего развития направления искусственного интеллекта одной из самых известных IT-компаний в мире.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.