Архитектуры искусственного интеллекта в 2025: от трансформеров до диффузионных LLM

22.10.2025

~ 15 мин

3800

Средний

Статьи

Введение

Мы живем в эпоху кардинальных изменений в IT-индустрии, и мы даже этого не осознаем до конца. Всего за 3 года с момента выхода революционной модели GPT-3.5 от OpenAI рынок искусственного интеллекта развился от слабого зачатка до самой дорогой индустрии в мире, эволюция которой не просто продолжается, а летит вперед на скорости света, и главный двигатель этого ИИ-прогресса — архитектуры машинного обучения. Именно поэтому от понимания основных принципов работы архитектур моделей искусственного интеллекта зависит не только успешное внедрение нейросетей в бизнес-процессы или повседневные пользовательские задачи, но и наше будущее в целом. В этой статье специалисты компании ServerFlow расскажут вам, как происходила эволюция архитектур ИИ-моделей, какие архитектуры сейчас популярны и куда движется весь этот мейнстрим.

Зачем понимать архитектуры нейросетей?

Если посмотреть на то, как быстро развивается индустрия open-source моделей, которые нужно устанавливать и настраивать вручную, то становится очевидно, что скоро всем придется изучать, как работают нейросети изнутри, чтобы пользоваться всеми благами локального и бесплатного искусственного интеллекта. Да, есть проприетарные облачные модели от OpenAI, Google или Anthropic, но за них, к сожалению, нужно платить, поэтому для масштабного использования в продакшене они не подходят. Другое дело локальные модели, которые мало того, что доступны всем желающим (если есть подходящее оборудование), так их еще и можно настраивать, улучшая их характеристики и добавляя новые функции.

Будет проще объяснить на примере аренды и покупки автомобиля. Можно арендовать машину и управлять ей по мере необходимости и не имея права залезать под капот к двигателю. А можно купить собственную машину, отвалив один раз кучу денег, но зато вы сможете делать с ней все, что захотите. С нейросетями все точно так же. Облачными моделями можно пользоваться по подписке или плате за токены, но никто не даст вам их исходный код, поэтому свободно модифицировать их не получится. Локальные модели можно взять бесплатно из открытых библиотек, но за мощное оборудование для локального развертывания придется отдать немалую сумму, зато вы получите полный доступ к “двигателю”, благодаря чему нейросеть можно дообучать, квантировать, внедрять в нее различные RAG-системы и делать другой “тюнинг”. И именно для того, чтобы тюнинговать вашу нейросеть, важно понимать принципы работы ИИ-архитектур.

Различия архитектуры RNN-моделей и архитектуры моделей-трансформеров. Источник: Shchegrikovich.substack.

Эволюция архитектур: от перцептрона до трансформеров

Путь к современным был тернист LLM, но эта история не про конкуренцию, а про преодоление ограничений общими усилиями. Все началось с простого перцептрона который являлся математическим представлением биологического нейрона и был описан еще в 1958 году. Затем в 1986 году появились многослойные перцептроны (MLP) — именно благодаря MLP, одиночные перцептроны научились объединяться в полноценные нейронные сети. Следующим этапом стали сверточные нейросети (CNN), совершившие революцию в компьютерном зрении благодаря умению выделять паттерны (например, контуры объектов). Для работы со сложными последовательностями, как текст или речь, создали рекуррентные нейросети (RNN) и их усовершенствованные версии LSTM/GRU, которые могли помнить предыдущие данные.

Схема работы персептрона и многослойного персептрона. Источник: Avtokoreec22.

Однако у RNN был критический недостаток — они плохо справлялись с длинными зависимостями. Решили проблему в 2017 года, когда компания Google предложила уникальную концепцию механизма внимания (Self-Attention) и архитектуру ИИ-трансформеров в научной статье “Attention Is All You Need”. Это стало настоящим прорывом, который помог вывести индустрию из стагнации и оставить механизм рекуррентных связей в прошлом. Механизм внимания позволил ИИ-моделям смотреть на весь “контекст” запроса в целом, гибко определяя, каким словам во входной фразе нужно уделить больше “внимания” при генерации ответа, при этом “предугадывая” следующую последовательность.

В 2018 году на базе архитектуры-трансформера появились первые полноценные большие языковые модели — GPT-1 от OpenAI и BERT от Google. Именно они дали старт эпохе LLM, а позднее появилась нейросеть GPT-3,5, которая стала первым ИИ-проектом, который привлек массы людей и показал миру потенциал генеративного интеллекта.

Эволюция искусственного интеллекта от RNN-моделей до современных ИИ-трансформеров. Источник: Slides.

Трансформеры — архитектура, изменившая все

Как мы выяснили, трансформеры стали фундаментом современных ИИ благодаря механизму внимания. Если устаревшая RNN обрабатывала предложение слово за словом, то трансформер анализирует все слова одновременно, определяя связи между ними, даже если они стоят в разных концах абзаца. Это подобно тому, как человек, читая какой-либо текст, сразу понимает, чем закончится предложение.

Но на этом преимущества трансформеров не заканчиваются — эта архитектура еще и и отлично масштабируется в размере и, соответственно, эффективности, благодаря чему в скором времени после выхода праотцов GPT-1 и BERT начала появляться целая россыпь семейств ИИ-моделей: LLaMA*, Claude, Mistral, ERNIE, Gemini и т.д. Каждая новая нейросеть предлагала пользователям все большее и большее количество параметров, за счет чего росла производительность и вычислительные затраты. Чтобы сделать ИИ более экономными создали разновидность архитектуры-трансформеров под названием MoE (Mixture-of-Experts), где разные части модели активируются в зависимости от запроса пользователя. Эффективность трансформеров в современности повышают такие методы, как FlashAttention/PagedAttention для ускорения расчетов, LoRA/QLoRA для быстрой адаптации моделей под конкретные задачи и Fine-Tuning для масштабной настройки LLM.

Схема работы модели-трансформера и ее компонентов. Источник: Github.

Диффузионные модели — новая волна генеративного ИИ

Когда все наигрались с языковыми моделями, которые могли генерировать только семантические данные, все начали задумываться — а почему бы нам не начать генерировать через ИИ графический контент? Идея была здравая, поэтому в 2020 году появилась первая диффузионная ИИ-модель DDPM (Denoising Diffusion Probabilistic Models) от команды энтузиастов. Как же она работала? По принципу денойзинга — предварительного зашумления данных с их последующей очисткой шума, из которого постепенно формируется картинка или даже видео. Эту идею взяли на подхват и уже в 2021 году вышли первые массовые диффузионнки в лице Stable Diffusion и DALL-E, которые стали настоящим мейнстримом, а уже на их базе создали всем известные Veo 3, Midjourney, DALL·E 3, Flux 1.1, Grok Image v0.9, Qwen‑Image и Wan 2.2, которые в ответе за эпидемию брейнрот-контента в наших соцсетях.

Теперь парадигма диффузионных моделей постепенно переходит и в текст. Диффузионные LLM, такие как анонсированные Gemini Diffusion и Mercury, вместо последовательного предсказания следующего семантического токена генерируют текст параллельно, за несколько итераций “очистки”. Методы вроде Latent Refinement Decoding (LRD) позволяют сначала создать смысловой черновик в скрытом пространстве, а затем отточить его до грамматически правильного текста. И такой подход дает ощутимые преимущества — скорость до 1000+ токенов/с вместо 200-300 токенов/с у традиционных трансформеров, а также способность к самокоррекции ответа на лету.

Схема работы архитектуры диффузионных моделей

Архитектура диффузионной ИИ-модели. Источник: Habr.

Мультимодальные архитектуры — объединение текста, изображения и звука

В какой-то момент всем надоело, что для генерации текста нужно пользоваться трансформерами, а для генерации картинок нужны диффузионки, поэтому границы решили стереть. Так появились массовые мультимодальные LLM (Vision-Language Models) в 2023 году. Конечно, до этого ИИ тоже могли работать с изображениями (с 2019 года, спасибо VisualBERT), но используя устаревшие принципы CNN, чтобы распознавать содержание картинки. Мультимодальные LLM — это совершенно другая, целостная архитектура, где кросс-модальное внимание позволяет нейросети искать прямые связи между фрагментами изображения, словами в запросе и даже тоном голоса.

Яркие представители современных мультимодальных архитектур: нашумевшие китайские Qwen3-Omni и Qwen3-VL, не менее популярная Gemini 2.5-Pro и, конечно же GPT-4, которая сделала VL-модели популярными. Общение с этими ИИ стало по-настоящему естественным благодаря сквозной обработке почти всех модальностей — осталось добавить только осязание и вкус, но это дело времени, нужно придумать адекватную реализацию. Мультимодальность превращается из прикольной фичи в новую архитектурную парадигму и незаменимый компонент нейросетей, благодаря которым нейросети будут воспринимать мир целостно, как человек.

Схема работы архитектуры мультимодальных моделей

Схема работы мультимодальной архитектуры искусственного интеллекта. Источник: Ultralytics.

Альтернативы трансформерам: State-Space, Mamba, RWKV

Несмотря на свое абсолютное господство, трансформеры все же не идеальны. Их вычислительная сложность растет квадратично с увеличением длины последовательности (контекста) что делает анализ очень длинных книг, кодовых баз и сложных документов крайне неэкономичным. А пока диффузионные LLM еще не вышли и не продемонстрировали свой потенциал на практике, исследователи со всего мира участвуют в гонке по поиску еще одной достойной альтернативы трансформерам, отбросив механизм внимания:

State-Space Models (S4/S5): используют принципы из теории управления для моделирования длинных последовательностей с почти линейной сложностью. Модель как бы делает заметки, чтобы не забыть, о чем шла речь ранее.
Mamba: делает следующий шаг, вводя селективный механизм, который позволяет модели динамически выбирать, какую информацию из контекста учитывать, а какую отбросить.
RWKV: удачный гибрид, сочетающий эффективность RNN на инференсе с эффективностью трансформеров. Это как откат к незыблемой классике, чтобы доработать ее с помощью современных технологий.

Эти архитектуры — инженерный ответ на запрос индустрии на более быстрые, экономичные модели, не теряющие эффективность, что особенно полезно для развертывания на edge-устройствах. Выглядит интересно, не правда ли? Об этих перспективных архитектурах искусственного интеллекта мы расскажем более подробно в отдельной статье.

Упрощенная схема работы архитектуры State-Space Models. Источник: Habr.

Архитектуры взаимодействия: RAG, LangGraph, Agentic RAG, MCP

Современные ИИ-модели редко работают в одиночку. Пользователи делают сложные ИИ-системы из нескольких компонентов, эффективность которых определяют архитектуры взаимодействия:

RAG (Retrieval-Augmented Generation): ставший уже мейнстримом подход, который соединяет LLM с внешними базами знаний. Модель не полагается только на свою память, а использует актуальную информацию перед генерацией ответа, повышая точность и сводя к минимуму галлюцинации.
Graph RAG и Agentic RAG: надстройки, которые превращают цепочку RAG в сложного агента с улучшенной памятью, планированием и возможностью ветвления логики, способного выполнять многошаговые задачи.
Model Context Protocol (MCP): стандартизированный протокол для безопасного подключения моделей к внешним инструментам, данным и API, который становится основой для построения топовых агентских экосистем.

Эти технологии не заменяют архитектуры нейросетей, а являются следующим уровнем абстракции, превращая одиночную модель в мощную интеллектуальную систему, доказывая, что один в поле не воин, особенно для решения сложнейших современных бизнес-задач.

Выводы

Не стоит полагать, что одна технология внезапно заменит другую — эволюция ИИ-архитектур идет по пути гибридизации. На наших глазах рождаются диффузионные LLM, набирают силу архитектуры дифференциальных (Neural ODE) и энергетических (Energy-Based Models) нейросетей, а так же в подполье остается бесчисленное множество других подходов, которые так или иначе базируются на принципах работы современных ИИ-моделей. И все это сводится к тому, что новые ИИ будут объединять рассуждение, восприятие и память в единую систему, способную решать любые задачи. Помните, что искусственный интеллект это, в первую очередь, интеллект, а главное свойство интеллекта — способность адаптироваться к любым условиям, и именно этого свойства пытаются добиться ведущие разработчики, чтобы следующее поколение LLM не просто предсказывало слова, а строило внутренние модели мира, планировало и рассуждало, как настоящий человеческий мозг.

Автор:

Serverflow