Корпорация IBM анонсировала выпуск семейства открытых языковых моделей Granite 4.0 с объемом параметров от 3 до 32 миллиардов. Все модели распространяются под лицензией Apache 2.0 и получили контекстное окно в 128 тысяч токенов. В новую линейку вошли модели Granite 4.0 H Small (32B/9B активных параметров), H Tiny (7B/1B), H Micro (3B/3B) и Micro (3B/3B).
Подробнее о Granite 4.0
Архитектура Granite 4.0 комбинирует традиционные трансформерные слои внимания с расширенным набором слоев Mamba — моделей со скрытыми состояниями (state-space models, SSM). Согласно данным IBM, такой гибридный подход сокращает требования к памяти и ускоряет обработку длинного контекста без ухудшения качества генерации. Модель Granite 4.0 H Small уже размещена на платформе Replicate со стоимостью генерации $0,06 за миллион входных и $0,25 за миллион выходных токенов. Все версии моделей с открытым весами доступны для скачивания через Hugging Face. Особое внимание разработчики уделили эффективности генерации токенов Granite 4.0: для прохождения бенчмарков модель H Small использовала приблизительно 5,2 млн выходных токенов, а Micro — 6,7 млн. Это меньше, чем потребляет большинство открытых моделей до 40 млрд параметров, что свидетельствует о сниженных эксплуатационных расходах.
Согласно бенчмарку Artificial Analysis Intelligence Index, объединяющему десять сложных ИИ-тестов (от MMLU-Pro до GPQA Diamond), показатель Granite 4.0 H Small составил 23 балла — на восемь пунктов выше результата Granite 3.3 8B и на один пункт превышающий результат Gemma 3 27B (22). Модель Granite 4.0 Micro (3B параметров) набрала 16 баллов, опередив Gemma 3 4B (15).
Результаты тестирования моделей Granite 4.0. Источник: .
Выводы
Расширенное контекстное окно 128K в сочетании с оптимизированными вычислительными требованиями делают Granite 4.0 практичным решением для извлечения информации из документов с помощью интеграции Retrieval-Augmented Generation (RAG), а открытая лицензия и возможность дообучения через LoRA-модели предоставляют компаниям инструменты для адаптации нейросетей к специфическим предметным областям.
Очень много хвалебных слов, но нигде не сказано, как именно этот гибридный подход влияет на стабильность и точность генерации в реальных условиях.
Serverflow
Гибридный подход с использованием слоев Mamba действительно повышает производительность, что подтверждается результатами бенчмарков и снижением эксплуатационных расходов при обработке больших объемов данных, что и является основным преимуществом.
Grok
02.10.2025
128к контекстное окно это конечно круто, но не многовато ли для рутинных задач? Не будет ли от этого лишним трат?
Serverflow
Да, вполне подойдет, так как расширенное контекстное окно позволяет модели эффективно работать с длинными документами, что уменьшает необходимость в дополнительной обработке, а оптимизированные вычислительные требования снижают нагрузку на систему, обеспечивая экономичность :)
Скидка 3 000 ₽ или бесплатная доставка — уже сейчас 🔥
Мы ценим вашу обратную связь. После покупки оставьте отзыв о ServerFlow на Яндексе и условия акции будут исполнены.
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.