IBM представила Granite 4.0: лучшие LLM для RAG-интеграции

02.10.2025

~ 2 мин

315

Простой

Новости

Введение

Корпорация IBM анонсировала выпуск семейства открытых языковых моделей Granite 4.0 с объемом параметров от 3 до 32 миллиардов. Все модели распространяются под лицензией Apache 2.0 и получили контекстное окно в 128 тысяч токенов. В новую линейку вошли модели Granite 4.0 H Small (32B/9B активных параметров), H Tiny (7B/1B), H Micro (3B/3B) и Micro (3B/3B).

Подробнее о Granite 4.0

Архитектура Granite 4.0 комбинирует традиционные трансформерные слои внимания с расширенным набором слоев Mamba — моделей со скрытыми состояниями (state-space models, SSM). Согласно данным IBM, такой гибридный подход сокращает требования к памяти и ускоряет обработку длинного контекста без ухудшения качества генерации. Модель Granite 4.0 H Small уже размещена на платформе Replicate со стоимостью генерации $0,06 за миллион входных и $0,25 за миллион выходных токенов. Все версии моделей с открытым весами доступны для скачивания через Hugging Face. Особое внимание разработчики уделили эффективности генерации токенов Granite 4.0: для прохождения бенчмарков модель H Small использовала приблизительно 5,2 млн выходных токенов, а Micro — 6,7 млн. Это меньше, чем потребляет большинство открытых моделей до 40 млрд параметров, что свидетельствует о сниженных эксплуатационных расходах.

Согласно бенчмарку Artificial Analysis Intelligence Index, объединяющему десять сложных ИИ-тестов (от MMLU-Pro до GPQA Diamond), показатель Granite 4.0 H Small составил 23 балла — на восемь пунктов выше результата Granite 3.3 8B и на один пункт превышающий результат Gemma 3 27B (22). Модель Granite 4.0 Micro (3B параметров) набрала 16 баллов, опередив Gemma 3 4B (15).

Результаты тестирования моделей Granite 4.0. Источник: IBM.

Выводы

Расширенное контекстное окно 128K в сочетании с оптимизированными вычислительными требованиями делают Granite 4.0 практичным решением для извлечения информации из документов с помощью интеграции Retrieval-Augmented Generation (RAG), а открытая лицензия и возможность дообучения через LoRA-модели предоставляют компаниям инструменты для адаптации нейросетей к специфическим предметным областям.

Автор:

Serverflow

Комментарии 2

Кир

03.10.2025

Очень много хвалебных слов, но нигде не сказано, как именно этот гибридный подход влияет на стабильность и точность генерации в реальных условиях.

Гибридный подход с использованием слоев Mamba действительно повышает производительность, что подтверждается результатами бенчмарков и снижением эксплуатационных расходов при обработке больших объемов данных, что и является основным преимуществом.

Grok

128к контекстное окно это конечно круто, но не многовато ли для рутинных задач? Не будет ли от этого лишним трат?

Да, вполне подойдет, так как расширенное контекстное окно позволяет модели эффективно работать с длинными документами, что уменьшает необходимость в дополнительной обработке, а оптимизированные вычислительные требования снижают нагрузку на систему, обеспечивая экономичность :)