Mamba-3: релиз новой ИИ-модели на уникальной архитектуре SMM

18.03.2026

Простой

Новости

Введение

Группа исследователей из Университета Карнеги и компания Together AI представили Mamba-3 — новую модель на архитектуре SSM (State Space Models), которая кардинально улучшает эффективность логического вывода нейросетей. Если Mamba-2 создавалась для ускорения предварительного обучения за счет упрощения рекуррентного механизма, то новая версия Mamba-3 оптимизирована для достижения высочайшей эффективности в задачах пост-обучения и агентных сценариях, где задержка становится критическим фактором. Исходный код ядер на Triton, TileLang и CuTe DSL уже открыт.

Подробнее о Mamba-3

Главная проблема предшественника в лице Mamba-2 крылась в самом подходе: упрощая рекуррентную формулу для 2-8 кратного ускорения обучения, разработчики сделали этап декодирования зависимым от памяти. Графический процессор тратил время на пересылку данных, а не на вычисления, потому что обновление состояния сводилось к операциям передачи информации. Mamba-3 исправляет это тремя ключевыми изменениями, опирающимися на классическую теорию управления.

Во-первых, новая экспоненциально-трапециевидная схема дискретизации делает рекуррентное соотношение более выразительным, не увеличивая задержку. Во-вторых, модель переходит к комплекснозначным состояниям, что расширяет пространство представимых зависимостей по сравнению с вещественными матрицами Mamba-2. В-третьих, вариант MIMO обрабатывает несколько входных и выходных потоков параллельно внутри одного шага, повышая точность без замедления декодирования — дополнительные вычисления ложатся на простаивающие ядра, которые раньше просто ждали.

Архитектурно Mamba-3 теперь ближе к современным языковым моделям на архитектуре трансформеров. Добавлена QKNorm, стабилизирующая обучение, как в трансформерах и Gated DeltaNet. Убрана отдельная короткая свертка из предыдущих версий — ее функции берет на себя новая рекуррентная формула за счет встроенных смещений и дискретизации.

В масштабе 1,5 миллиарда параметров Mamba-3 SISO показывает самую низкую задержку предварительного заполнения и декодирования среди всех конкурентов — быстрее Mamba-2, Gated DeltaNet и Llama*-3.2-1B с оптимизированным vLLM при любой длине последовательности. Вариант MIMO добавляет более одного процентного пункта точности на последующих задачах по сравнению с обычной Mamba-3, при этом задержка декодирования остаётся практически на уровне Mamba-2.

Архитектурные отличия Mamba-2 и Mamba-3. Источник: Together AI.

Выводы

Mamba-3 способна полностью сменить основные парадигмы в разработке линейных ИИ-архитектур, направив индустрию от погони за терафлопсами в обучении к высочайщей скорости инференса, которая сегодня определяет пользовательский опыт и экономику развертывания. Возврат к выразительной динамике, комплексным состояниям и параллельной обработке позволяет загрузить оборудование полезной работой на каждом шаге декодирования, а не гонять данные по памяти. При этом открытая реализация на трех уровнях абстракции делает наработки доступными для гибридных архитектур, где линейные слои работают в паре с вниманием. Растущий интерес к такому подходу подтверждает и свежий релиз NVIDIA Nemotron 3 Super, в котором используется гибридная архитектура со слоями Mamba-2, MoE и селективными слоями внимания.

Автор:

Serverflow