Мощь современных моделей искусственного интеллекта впечатляет. Их способность понимать и генерировать человеческий язык лежит в основе множества прорывных приложений. Однако за кажущейся легкостью ответа ИИ скрывается ресурсоемкий процесс «размышлений» – пошаговой генерации токенов. Каждый токен (элемент текста) – это результат сложнейших вычислений внутри нейронной сети, требующий неимоверного количества времени и энергии. Фактически, для генерации одного токена модели с сотнями миллиардов параметров (как современные LLM) необходимо выполнить триллионы операций умножения-сложения (FLOPs) по всей глубине сети. Да и сам вывод токенов носит последовательный характер. Каждый следующий токен зависит от всех предыдущих, что создает принципиальное «узкое горлышко» и не позволяет ускорить генерацию текста простым добавлением чипов. Эта неэффективность генерации токенов ограничивает скорость взаимодействия с ИИ, повышает стоимость его эксплуатации и затрудняет масштабирование. Поиск путей кардинального ускорения и оптимизации подвёл компанию Nvidia к созданию поистине прорывной технологии – Transformer Engine.
Что такое Transformer Engine?
Transformer Engine (TE) — это не просто библиотека или алгоритм, а уникальная разработка NVIDIA, объединяющая софтовую и аппаратную часть графического ускорителя для кардинального ускорения обучения и инференса (вывода) моделей искусственного интеллекта, построенных на архитектуре Transformer. К таким моделям относятся все современные Large Language Models (LLMs) типа GPT, Llama, Mistral, Claude и многие другие.
Простое объяснение: современные нейросети требуют огромных ресурсов. Обычно они работают с числами в 16-битном (FP16) или 32-битном (FP32) формате — это как грузовик, который едет медленно и потребляет много бензина.
Transformer Engine же использует 8-битные числа (FP8) — это "супербензин". Он в 2 раза компактнее FP16 и в 4 раза – FP32. Модель обрабатывает данные быстрее, тратит меньше памяти и энергии.
FP16 и FP32 в сравнении, FP16 вдвое компактнее FP32. Источник: .
Скорость важнее точности
Сердцевиной революции TE является интеллектуальное использование пониженной точности вычислений, прежде всего форматов FP8 и FP4. Несмотря на их значительное отставание от FP32 и FP16 в плане точности, эти форматы кратно превосходят их в скорости и компактности, что критически важно для инференса.
FP8: 8-битные числа с плавающей запятой
Растущая сложность моделей ИИ, требующая всё больше памяти GPU, привела к появлению в 2022 году формата FP8 — 8-битных чисел с плавающей запятой, оптимизированных для машинного обучения. Этот формат представлен двумя конфигурациями: E4M3 (4 бита под порядок, 3 под мантиссу) и E5M2 (5 бит под порядок, 2 под мантиссу).
Умножение матриц в FP8 выполнится в 2 раза быстрее, чем в FP16, но результат может отличаться на 5-10%. Для инференса ChatGPT это допустимо, для расчета траектории ракеты — нет. К тому же FP8 в четыре раза компактнее FP32 и вдвое компактнее FP16, что позволяет занять меньше памяти и совершить больше вычислений.
4-битные числа с плавающей запятой — это формат с минимально возможной размерностью в стандарте IEEE: 1 бит знака, 2 бита порядка, 1 бит мантиссы. Его главная особенность — крайне малое количество представимых значений: все возможные числа FP4 исчерпываются набором всего из 16 элементов.
FP4 на схеме: 1 бит знака (голубым), 2 бита порядка (зелёным), 1 бит мантиссы (красным). Источник: .
Несмотря на то, что FP4 не имеет аналогов по скорости и компактности, в Transformer Engine он применяется только как вспомогательный инструмент из-за значительной потери точности и крайней нестабильности.
В итоге Transformer Engine обеспечивает ускорение инференса в 5 раз, а обучение моделей происходит в 2 раза быстрее.
Архитектуры в которых имеется Transformer Engine
Давайте познакомимся с архитектурами GPU, в которых применялся Transformer Engine. На текущий момент (2025 год) известно о трёх поколениях:
Hooper - первый носитель технологии
Архитектура Hopper, представленная в 2022 году, стала первой, где реализован Transformer Engine.
Ключевые особенности:
Динамическое переключение между форматами FP8 (E4M3 для точности, E5M2 для диапазона) в зависимости от слоя нейросети.
Ускорение обучения трансформеров до 6 раз по сравнению с FP16 (например, для модели Megatron 530B).
Поддержка тензорных ядер 4-го поколения, оптимизированных для матричных операций в FP8.
Представленный Nvidia в 2022 году графический процессор H100. Источник: .
Ada Lovelace - Второй шаг
Следующим шагом NVIDIA стала работа над архитектурой Ada. В этом поколении TE был добавлен в потребительские GPU серии RTX 40xx (например, RTX 4090).
Нововведения коснулись:
Ускорения инференса LLM (например, ChatGPT) вдвое (ускорение до 30x в генеративных задачах (текст в изображение), но не для чистого LLM) против предыдущего поколения A100.
Экономия памяти: FP8 сокращает требования к VRAM в 2 раза, позволяя запускать модели на GPU с 24 ГБ памяти.
Архитектура Ada Lovelace, представленная в 2022 году. Источник: .
Blackwell как пик технологии
На сегодняшний день последняя итерация технологии представлена в архитектуре Blackwell, анонсированной в 2024–2025 гг. Она продолжает оптимизацию FP8 для трансформеров.
Ключевые инновации:
Улучшенная динамическая обработка данных для тренировки моделей с триллионами параметров.
Интеграция с NVLink Switch для масштабирования в кластерах ИИ. Это ускоряет инференс триллионных моделей в 30 раз.
Два кристалла на базе TSMC 4NP с 208 миллиардами транзисторов соединены скоростным интерфейсом NV-HBI (10 ТБ/с), работая как единый GPU. Это позволяет преодолеть физические ограничения размера кристалла и увеличить производительность в 2.5 раза против Hopper.
Nvidia приводит сравнение одного чипа на архитектуре Ada Lovelace против двухчиповой системы на архитектуре Blackwell соединенных интерфейсом NV-HBI. Источник: .
Конец эпохи Токенного Голода
До появления Transformer Engine генерация токенов напоминала движение в тунеле с узким горлышком: каждый токен прогнозировался строго друг за другом, создавая "очередь" вычислений. А нейросетевые модели использовавшие FP32 и FP16 требовали десятки гигабайт VRAM, ограничивая инференс мощными серверами.
Transformer Engine стал антитезисом этой эпохи, превратив генерацию токенов из последовательного мучительства в параллельный симфонический поток.
Давайте попробуем понять работу TE через простой пример. Вообразите себе очередь из людей и один единственный турникет. Люди проходят друг за другом, создавая длинную очередь. Это то, как токены генерировались раньше. Transformer Engine же, по сути ставит дополнительные турникеты: теперь очередь не толпится у одного, а равномерно проходит через другие, свободные турникеты не толпясь и не задерживая друг друга. Это параллелизм, то, что привносит Transformer Engine.
Также TE уменьшает объем данных. FP8 теперь как новый язык токенов: Transformer Engine заменяет 16-битные токены на 8-битные, уменьшая объём данных в 2 раза. Например, предложение из 1000 токенов теперь занимает не 2 КБ, а 1 КБ. К тому же алгоритмы TE автоматически выбирают между форматами E4M3 (для точности весов) и E5M2 (для широкодиапазонных градиентов), предотвращая "распад" смысла токенов.
Разрушение Временной Оси: Параллелизм вместо Очереди
Одновременная генерация: Благодаря оптимизации под тензорные ядра Hopper/Blackwell, Transformer Engine обрабатывает до 512 токенов параллельно за один такт. Для сравнения: классические трансформеры на RTX 4090 обрабатывали лишь 128 токенов.
KV-кэширование: Transformer Engine кэширует ключи (Key) и значения (Value) токенов, исключая повторные вычисления. Это сокращает задержку генерации на 40% для диалоговых систем.
Почему это революция?
Почему это не проходная технология от Nvidia, а настоящая революция? Давайте разберёмся:
Токены летят, а не ползут
Ускорение в 5-30x – не сухая цифра. Это исчезновение пауз в диалоге с ИИ, когда ответ рождается на вдохе, а не после мучительного ожидания.
Гиганты помещаются в карман
Многомиллиардные модели (как Llama), некогда требовавшие серверные кластеры, теперь способны существовать в компактных ноутбуках.
TE сжимает их вычислительную мощь, без ущерба функциональности, в аккуратные тонкие девайсы.
Экономия энергии
Сокращение энергопотребления на 50% – это невероятная экономия. В гигантских масштабах вычислений крайне важно, когда каждый ватт тратится не на "разогрев процессоров", а на рождение идей.
Финал старой эпохи:
Transformer Engine не просто оптимизирует вычисления. Он стирает границу между человеком и машиной, делая общение с ИИ таким же естественным, как дыхание. Токены перестали быть "вычислительной проблемой" – теперь это чистая мысль, льющаяся без усилий. И в этом потоке тонет наше прежнее представление о пределах возможного.
Ответ “красных”
Аналог NVIDIA Transformer Engine у AMD — это XDNA AI Engine, аппаратно-программная технология, унаследованная от Xilinx и реализованная в MI300/X/A.
У неё также имеется поддержка FP4/FP6/FP8 и она также активно используется для ускорения инференса LLM/трансформеров, давая аналогичные NVIDIA преимущества в памяти и производительности.
Основная особенность – использование ROCm. Его развитие напрямую влияет на доступность, удобство и эффективность работы с низкой точностью и AI Engine.
Маркетинг NVIDIA сильнее и напористей, но технические возможности флагманских AMD MI300 на базе XDNA + ROCm конкурентоспособны с NVIDIA H100 + Transformer Engine. А постоянные обновления ROCm позволяют AMD сокращать разрыв в удобстве и автоматизации.
На данный момент: AMD предлагает мощную альтернативу, особенно привлекательную по соотношению цена/производительность и в сценариях, где важна открытость стека (ROCm). Технически они действительно не отстают в поддержке ключевых низкоточных форматов для ускорения трансформеров.
Цена Мощи
К сожалению, Transformer Engine несёт и минусы, главный из них–аппаратная зависимость: Transformer Engine работает только на GPU NVIDIA (Hopper/Blackwell), создавая монополизацию экосистемы.
Пока Nvidia ставит рекорды продаж, AMD и Intel вынуждены довольствоваться скромной долей рынка. Источник: .
Несмотря на программные оптимизации в ROCm и аппаратные преимущества новых моделей Instinct, AMD серьёзно уступает Nvidia в продажах. На первый квартал 2025 года у Nvidia 92% рынка, у AMD 8%, а у Intel и вовсе меньше одного процента.
Вывод
Благодаря напористому маркетингу, прорывной архитектуре Blackwell и Transformer Engine, Nvidia крепко держит рынок, занимая господствующую позицию. И, несмотря на достойную альтернативу от красной компании, зелёные продолжают доминировать на рынке профессиональных графических ускорителей. Но надежда на перелом ситуации остаётся, и у AMD есть все инструменты на руках, чтобы изменить привычный расклад на рынке и обернуть ход событий в свою пользу.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.