Top.Mail.Ru
State Space Models и Mamba: новое поколение архитектур после трансформеров | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

State Space Models и Mamba: новое поколение архитектур после трансформеров

~ 10 мин
165
Средний
Статьи
State Space Models и Mamba: новое поколение архитектур после трансформеров

Введение

Мы уже рассказывали вам, что сейчас на рынке искусственного интеллекта балом правит архитектура ИИ-трансформеров, которая подарила миру GPT, Gemini, Llama*, DeepSeek, Qwen и другие топовые нейросети. Многие аналитики предписывают, что следующим эволюционным шагом развития ИИ-архитектур должно стать появление так называемых диффузионных LLM, которые сочетают преимущества трансформеров и диффузионных нейросетей. Однако эволюция может пойти по совершенно другому пути, так как исследователи уже представили новую, революционную архитектуру искусственного интеллекта State Space Models (SSM) и построенную на ее базе ИИ-модель Mamba, которая меняет правила игры на ИИ-поприще. В этой статье специалисты компании ServerFlow расскажут вам, почему на смену трансформерам могут прийти SSM-модели, в чем уникальность системы State Space Models и есть ли другие, еще более андеграундные архитектуры, которые могут проявить себя в лучшем свете в ближайшем будущем.

Почему трансформеры достигли предела: проблема длинного контекста

“Все, что вам нужно — это внимание”. Эта фраза стала настоящим девизом архитектуры трансформеров, ведь именно механизм внимания открыл индустрии дорогу от забывчивых рекуррентных нейросетей к мощным языковым моделям, которые могут запоминать миллионы токенов контекста. Однако за такую мощность трансформерам приходится платить возможностями масштабирования. Из-за того, что механизм внимания сравнивает каждый токен входной последовательности со всеми другими токенами, чтобы определить контекст запроса, вычислительная сложность начинает расти квадратично при увеличении длины входной последовательности — другими словами, 2-кратное увеличение контекста требует 4-кратных вычислительных затрат. По-началу эта проблема была не критична, так как все были очарованы высочайшей производительностью трансформеров, работая с контекстом в несколько тысяч токенов.

Однако когда шумиха на фоне их появления поутихла, а контекстные окна дошли до нескольких миллионов токенов, всем стало очевидно — надо что-то делать. Современные ИИ-задачи требуют анализа целых книг, объемных кодовых баз или многочасовых видеозаписей, но механизм внимания знает себе цену, поэтому для обработки таких объемных данных ему нужны сотни гигабайт VRAM, что делает процесс непомерно дорогим и энергозатратным. Именно этот кризис масштабируемости заставил исследователей искать принципиально новые, более эффективные подходы к построению нейросетей, способные обеспечить работу с длинным контекстом без экспоненциального роста издержек.

Что такое State Space Model (SSM): новый взгляд на память нейросети

Сама концепция State Space Model (модель пространства состояний) появилась, как ни странно, в начале 1960 годов, когда ученые предложили новый подход в области управления и обработки различных сигналов. Уже в наше время, в 2021 году, ученые Альберт Гу и Каран Гоэл из Стэнфордского университета предложили использовать подход State Space Model в секторе искусственного интеллекта (статья Efficiently Modeling Long Sequences with Structured State Spaces"). Они же представили первую SSM-нейросеть, дав ей название S4, которая стала отцом для всех последующих нейросетей на базе State Space Model.

skhema-raboty-ssm-modeli
Полная схема работы SSM-модели. Источник: Habr.

State Space Models (SSM) предлагает радикально иной взгляд на обработку последовательностей, беря за основу принцип описания сложных динамических систем через их внутреннее состояние, которое эволюционирует со временем под влиянием входных данных. Математически SSM описывается системой линейных дифференциальных уравнений, которые определяют, как текущее “состояние” модели изменяется под воздействием нового входного сигнала и как это состояние преобразуется в выходные данные. Другими словами, если трансформер пытается одновременно удержать в фокусе внимания всю книгу, то SSM — это опытный читатель, который последовательно поглощает текст, постоянно обновляя и уточняя свое внутреннее, сжатое видение прочитанного.

Визуализация уравнения состояния в SSM
Визуализация уравнения состояния в SSM-моделях. Источник: Habr.

Этот подход кардинально отличается от трансформеров, где каждый элемент последовательности должен напрямую взаимодействовать с каждым другим, создавая контекст. SSM работает рекуррентно, почти как RNN, но в отличие от последних, использует строгую математическую модель для управления состоянием, что решает проблему затухания градиентов и позволяет эффективно захватывать долгосрочные зависимости.

Визуализация уравнения выхода в SSM
Визуализация уравнения выхода в SSM-моделях. Источник: Habr.

Mamba: первая успешная реализация State Space для LLM

В теории все звучало элегантно, но State Space Models долгое время не могла найти полноценного практического использования LLM — модели S4, S4D и S5 разрабатывались теми же учеными, которые и предложили SSM-подход для нейросетей, а сторонние LLM-разработчики не находились из-за вычислительной сложности этой архитектуры. То есть, первые SSM-нейросети не могли устранить главный минус трансформеров в лице квадратичного роста вычислительной сложности, поэтому State Space Model была никому не нужна. Прорывом стала архитектура и одноименная нейросеть Mamba, представленная в 2023 году. Она не просто перенесла SSM в глубокое обучение, но и ввела ключевое усовершенствование — селективность.

В отличие от предыдущих SSM-моделей, где параметры, управляющие эволюцией состояния, были статичны, Mamba делает их зависимыми от входных данных. Проще говоря, модель сама решает, какую информацию сохранить в состоянии надолго, а какую — проигнорировать или быстро забыть. Это напоминает работу человеческого внимания: мы фиксируем важные факты из разговора, отфильттровывая шум пустой болтовни.

Благодаря этой и другим оптимизациям, Mamba демонстрирует линейное, а не квадратичное увеличение сложности вычислений от роста длины последовательности. Это позволяет Mamba обрабатывать контексты в сотни тысяч токенов с гораздо меньшими затратами памяти и энергии, чем трансформеры аналогичного размера. Уже сегодня модель Mamba 2 активно применяется в задачах, требующих сложного логического вывода с функцией рассуждения, а ее интеграция в открытые экосистемы PyTorch и Hugging Face делает модель на передовой архитектуре доступной для широкого круга разработчиков.

Схема работы дискретной SSM
Схема работы дискретной SSM-архитектуры. Источник: Habr.

State Space Attention: когда внимание и состояния объединяются

Когда у вас появляется новая вещь, вы ведь не выбрасываете старую, если она все еще в хорошем состоянии, верно? С ИИ-архитектурами работает тот же принцип — зачем избавляться от старичков-трансформеров, тем более, если им все еще нет равных в предобучении и обработке небольшого контекста? Именно поэтому эволюция не пошла по пути полного замещения и появилось такое направление, как State Space Attention — яркий пример гибридизации двух подходов в создании архитектур нейросетей. Как нетрудно догадаться, State Space Attention — это попытка получить лучшее из двух миров: способность трансформеров к гибкому, глобальному взаимодействию с контекстом и вычислительную эффективность SSM. В таких гибридах SSM-блоки берут на себя тяжелую работу по моделированию долгосрочных зависимостей в длинных последовательностях, в то время как стандартный механизм внимания может фокусироваться на критически важных локальных контекстах. Модели вроде Mamba 2, BiGS, TransXSSM и Samba являются практическими реализациями этого подхода, доказывая его состоятельность для задач, требующих анализа чрезвычайно длинных данных, таких как геномные последовательности или исходный код крупных проектов. Вполне возможно, что именно архитектура State Space Attention отделится от основной ветки развития искусственного интеллекта и станет главным конкурентом подхода диффузионных языковых моделей, который сейчас активно набирает обороты и метит на престол моделей-трансформеров.

Другие пост-трансформерные архитектуры: RWKV, Hyena, RetNet

Хотя Mamba 2 находится в авангарде пост-трансформерного движения, она не одинока в поисках более эффективной альтернативной ИИ-архитектуры. Вот какие системы идут нога в ногу с подходом State Space Attention и могут взбудоражить умы ИИ-сообщества уже в ближайшем будущем:
  • RWKV (Receptance Weighted Key Value) сочетает в себе высочайшую обучаемость трансформеров и эффективность RNN-нейросетей в инференсе, используя аналог механизма внимания, но без квадратичной сложности вычислений.
  • Hyena использует сверточные подходы, конволюционные фильтры в частотной области (FFT) и длинные импульсные отклики для достижения почти линейной масштабируемости, конкурируя с трансформерами в качестве и превосходя их в скорости на длинных контекстах.
  • RetNet (Retentive Network) предлагает альтернативный механизм “удержания” (retention), который также эффективно работает и масштабируется с линейной сложностью, благодаря чему он служит прямой заменой механизма внимания в decoder-only архитектурах.
Все эти модели объединены общей целью: преодолеть фундаментальное ограничение трансформеров, сохранив при этом их способность к эффективному предварительному обучению.

Выводы

Очевидно, что будущее архитектур ИИ лежит не в поиске единственной «идеальной» модели, а в создании гибридных систем, совмещающих принципиально разные подходы в одном флаконе. Мы уже видим первые примеры Transformer + SSM архитектур, где сила внимания для локального контекста объединяется с эффективностью SSM для глобальных, длинных последовательностей. Следующим логичным шагом становится интеграция этих подходов с диффузионными моделями, которые сами являются мощным генеративным инструментом благодаря уникальному принципу денойзинга. State Space Models, и в частности Mamba, с высокой вероятностью станут тем же для 2030-х годов, чем были трансформеры для 2020-х — базовым строительным блоком, вокруг которого будут формироваться новые поколения искусственного интеллекта. Они открывают путь к созданию моделей, способных не просто отвечать на вопросы, но и поддерживать длительный, осмысленный диалог, анализировать гигантские корпуса знаний и решать задачи, требующие истинного понимания долгосрочных связей.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)