Группа исследователей из Университета Карнеги и компания Together AI представили Mamba-3 — новую модель на архитектуре SSM (State Space Models), которая кардинально улучшает эффективность логического вывода нейросетей. Если Mamba-2 создавалась для ускорения предварительного обучения за счет упрощения рекуррентного механизма, то новая версия Mamba-3 оптимизирована для достижения высочайшей эффективности в задачах пост-обучения и агентных сценариях, где задержка становится критическим фактором. Исходный код ядер на Triton, TileLang и CuTe DSL уже открыт.
Подробнее о Mamba-3
Главная проблема предшественника в лице Mamba-2 крылась в самом подходе: упрощая рекуррентную формулу для 2-8 кратного ускорения обучения, разработчики сделали этап декодирования зависимым от памяти. Графический процессор тратил время на пересылку данных, а не на вычисления, потому что обновление состояния сводилось к операциям передачи информации. Mamba-3 исправляет это тремя ключевыми изменениями, опирающимися на классическую теорию управления.
Во-первых, новая экспоненциально-трапециевидная схема дискретизации делает рекуррентное соотношение более выразительным, не увеличивая задержку. Во-вторых, модель переходит к комплекснозначным состояниям, что расширяет пространство представимых зависимостей по сравнению с вещественными матрицами Mamba-2. В-третьих, вариант MIMO обрабатывает несколько входных и выходных потоков параллельно внутри одного шага, повышая точность без замедления декодирования — дополнительные вычисления ложатся на простаивающие ядра, которые раньше просто ждали.
Архитектурно Mamba-3 теперь ближе к современным языковым моделям на архитектуре трансформеров. Добавлена QKNorm, стабилизирующая обучение, как в трансформерах и Gated DeltaNet. Убрана отдельная короткая свертка из предыдущих версий — ее функции берет на себя новая рекуррентная формула за счет встроенных смещений и дискретизации.
В масштабе 1,5 миллиарда параметров Mamba-3 SISO показывает самую низкую задержку предварительного заполнения и декодирования среди всех конкурентов — быстрее Mamba-2, Gated DeltaNet и Llama*-3.2-1B с оптимизированным vLLM при любой длине последовательности. Вариант MIMO добавляет более одного процентного пункта точности на последующих задачах по сравнению с обычной Mamba-3, при этом задержка декодирования остаётся практически на уровне Mamba-2.
Архитектурные отличия Mamba-2 и Mamba-3. Источник: .
Выводы
Mamba-3 способна полностью сменить основные парадигмы в разработке линейных ИИ-архитектур, направив индустрию от погони за терафлопсами в обучении к высочайщей скорости инференса, которая сегодня определяет пользовательский опыт и экономику развертывания. Возврат к выразительной динамике, комплексным состояниям и параллельной обработке позволяет загрузить оборудование полезной работой на каждом шаге декодирования, а не гонять данные по памяти. При этом открытая реализация на трех уровнях абстракции делает наработки доступными для гибридных архитектур, где линейные слои работают в паре с вниманием. Растущий интерес к такому подходу подтверждает и свежий релиз NVIDIA Nemotron 3 Super, в котором используется гибридная архитектура со слоями Mamba-2, MoE и селективными слоями внимания.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.