LPU-чипы Groq — что в них особенного и зачем они нужны Nvidia

14.06.2026

~ 20 мин

424

Средний

Статьи

Введение

В декабре 2025 года вся IT-индустрия пестрила одними и теми же заголовками — компания Nvidia приобрела стартап Groq. До этого момента о Groq тоже слышали, но лишь единицы, ведь в 2024 году компания засветилась в первых независимых бенчмарках со скоростями инференса под 300 токенов в секунду на Llama* 2 70B. Казалось бы, это огромная скорость даже для современных ускорителей, но произошел так называемый “эффект Cerebras” — результаты настолько ошеломительные, что в них просто никто не поверил. Никто, кроме одного человека —- Дженсена Хуанга. Именно он смог разглядеть огромный потенциал и возможности передовых LPU (Language Processing Unit), которые идеально вписались в аппаратный стек Nvidia. Теперь о Groq и их LPU заговорили все, но никто даже не задумывается о том, что именно так зацепило Хуанга, откуда взялась компания и как она жила до сделки, что же такого уникального в технологии LPU и куда она будет развиваться в составе GPU-экосистемы Nvidia. Обо всем этом специалисты компании SererFlow расскажут вам в этой статье.

История компании Groq

Похоже, что середина 2010-х была очень богата на ИИ-стартапы, ведь в 2016 году, всего через год после появления Cerebras, свет увидела и компания Groq. У истоков компании стояли два человека Джонатан Росс и Дуглас Уайтман, и они, уже по традиции, имели очень весомый технический бэкграунд — именно эти люди с 2013 по 2015 год стояли за разработкой самых первых тензорных ИИ-ускорителей Google TPUv1. Закончив с TPU, зная все сильные и слабые стороны своей разработки, Росс и Уайтман почесали репу и вдруг поняли — мы можем сделать лучше, и основали свой собственный стартап Groq. И такой нейминг был выбран не с пустого места — название отсылает к термину “grokk” из романа Роберта Хайнлайна “Чужак в чужой стране”, который означает “понять что-то настолько глубоко, что это становится частью тебя”.

Сооснователь стартапа Groq Джонатан Росс. Источник: Groq.

Джонатан Росс и Дуглас Уайтман поняли ИИ-индустрию действительно глубоко, поскольку они начали разработку чипа не с создания вычислительной архитектуры, подсистемы памяти и подобных аспектов, а с оптимизации под софт. Такой подход — редкость в кремниевом бизнесе, где обычно сначала делают кристалл, а потом мучительно портируют под него фреймворки. Эта стратегия сделала дальнейшие продукты Groq максимально гибкими, способными без проблем запускать популярные нейронки и легко интегрироваться в существующую вычислительную инфраструктуру без костылей. Обратите внимание: именно запускать, а не обучать. Да-да, не удивляйтесь — решения Groq ориентированы только на инференс искусственного интеллекта, и стартап изначально не предполагал возможность обучения нейронок на своих чипах.

В 2019 году Дуглас Уайтман ушел с позиции CEO Groq, и компанию возглавил Джонатан Росс, начав подготовку к первому раунду финансирования. Год спустя вышли первые LPU-чипы компании (тогда они называлось TSP — Tensor Streaming Processor) — они базировались на 14-нм техпроцессе, имели 220 МБ SRAM с пропускной способностью до 80 ТБ/с и обеспечивали производительность 250 TFLOPS в FP16. В 2021 году Groq вышла на раунд финансирования, привнеся первые $300 млн инвестиций при оценке в $1 млрд. В этом же году к команде присоединился Ян ЛеКун из Meta* в роли технического консультанта, а также бывший глава полупроводникового бизнеса Intel Стюарт Панн вышел на позицию главного операционного директора. Через 4 года у Groq состоялся второй раунд финансирования, завершившийся с дополнительными $750 млн инвестиций при оценке $6,9 млрд, и через несколько месяцев Хуанг сделал Россу предложение, от которого невозможно отказаться — $20 млрд наличными.

Плата ИИ-ускорителя на базе LPU-процессора первого поколения. Источник: Groq.

Как Groq стала частью империи Nvidia

К концу 2025 года Nvidia столкнулась с парадоксом: ее GPU безусловно доминировали в тренировке моделей, но рынок все быстрее смещался в сторону инференса. По экспертным оценкам, на инференс к тому моменту приходилось уже 90-95% корпоративных ИИ-нагрузок: компании не тренируют модели с нуля, а пользуются API и предобученными LLM, не тратясь на собственные ИИ-кластеры для тренировки нейронок. При этом архитектура GPU, оптимизированная под параллельные вычисления обучения, на инференсе несет колоссальные накладные расходы — динамический планировщик, кэш-когерентность, буферы переупорядочивания. Groq c ее детерминированной архитектурой и SRAM вместо HBM закрывала именно эту дыру — ультранизколатентный инференс. Сделка была структурирована умно: неэксклюзивная лицензия на технологии LPU, переход ключевых инженеров (включая основателя и CEO Джонатана Росса) в Nvidia, интеграция GroqCloud в экосистему DGX Cloud. Важный нюанс: формально эта сделка не является поглощением. Groq сохранила независимость, а облачный сервис GroqCloud продолжил работу под руководством нового CEO Саймона Эдвардса. Такая схема позволила Nvidia получить и технологию, и людей, но без необходимости проводить жаркие баталии с антимонопольной службой и нагружать юристов тоннами документации.

Процессоры Groq 3 LPU будут работать в паре с Nvidia Rubin GPU в ИИ-стойках NVL72/144. Источник: Nvidia.

Особенности LPU Groq

Переходим к самому интересному — что же такого уникального в этих LPU-чипах, что за них заплатили аж $20 млрд. Давайте разбирать архитектуру по косточкам.

Компоновка ядер

Первое и, пожалуй, самое необычное решение — Groq полностью отказалась от традиционной архитектуры “каждое ядро — отдельный микрокомпьютер”. Вместо этого она “разрезала” процессор на функциональные модули: отдельно контроллер инструкций, отдельно память, отдельно векторные вычисления, отдельно матричные умножители, отдельно сетевая коммутация. Все блоки одного типа выстроены в вертикальный “слайс”, а данные передаются горизонтально, последовательно проходя через каждый тип обработки — как детали на заводском конвейере.

Такой подход дает 2 внушительных преимущества:

Экономия площади. Все блоки одного типа выполняют одинаковые инструкции, поэтому вся “техническая” логика декодирования и управления вынесена в отдельный общий модуль ICU, занимающий менее 3% площади кристалла, а оставшиеся 97% площади забиты полезными блоками для инференса ИИ.
Предсказуемость задержек. Никаких очередей, бутылочных горлышек и конфликтов за ресурсы — данные текут по заранее просчитанному компилятором маршруту, и время их прибытия в каждую точку известно с точностью до такта.

Сравнение “блочной” архитектуры традиционного GPU и модульной архитектуры LPU. Источник: Versalence.

Статический планировщик

Вторая важная архитектурная особенность LPU — статический планировщик. В GPU динамический планировщик постоянно решает, что выполнять в следующем цикле — переупорядочивает инструкции, гадает на ветвлениях, жонглирует кэшами. Для обучения моделей это нормально: пропускная способность важнее стабильности задержек. Но для инференса в реальном времени такая непредсказуемость — приговор высокой производительности.

LPU Groq использует статическое планирование. Компилятор заранее вычисляет весь граф исполнения, включая межчиповые обмены, вплоть до отдельных тактов. Никаких кэш-когерентностей, буферов переупорядочивания, спекулятивного исполнения. Вы получаете гарантированную, строго определенную задержку, которую GPU в принципе не могут дать.

SRAM вместо HBM

Третья и, наверное, самая узнаваемая особенность LPU — использование SRAM-памяти вместо HBM-памяти. Пока все гнались за гигабайтами высокоскоростной, но очень дорогой HBM, Groq сделала неожиданное решение: интегрировала сотни мегабайт сверхбыстрой SRAM-памяти, которая обычно используется в CPU в роли кэша, но в LPU она выступает в качестве основной памяти. По емкости LPU со SRAM значительно уступают GPU с HBM: например, в наиболее современном чипе Groq 3 LPU на 4-нм техпроцессе емкость SRAM-памяти достигает всего 500 МБ, тогда как у Nvidia Rubin будет аж 288 ГБ HBM4 — разница почти в 600 раз.

Но суть не в емкости, а скорости, ведь память Groq 3 LPU имеет пропускную способность в ошеломительные 150 ТБ/с, тогда как скорость памяти Rubin не превышает 22 ТБ/с — разница в 7 раз в пользу SRAM. И вот тут кроется ключевая идея Groq: инференс, особенно фаза декодирования, упирается именно в пропускную способность памяти, а не в объем. Когда модель весит 140 ГБ, 500 МБ на чип звучит смешно — но 256 таких чипов в одной стойке LPX дают уже 128 ГБ SRAM с суммарной пропускной способностью 40 ПБ/с. Доступ к SRAM примерно в 20 раз быстрее, чем к HBM, и вычислительные блоки могут тянуть веса на полной скорости без пауз на ожидание данных. Именно это и позволяет LPU генерировать токены со скоростью, недостижимой для GPU.

Программная экосистема Groq

Железо без софта — просто дорогой кирпич, поэтому в свое время Groq успела разработать полноценный программный стэк, позволяющий использовать LPU для выполнения ИИ-задач.

Groq Compiler — сердце ПО-стэка под LPU. На кристалле нет динамического планировщика, поэтому компилятор заранее, на этапе сборки, просчитывает весь граф исполнения вплоть до отдельных тактов. Он берет модель из PyTorch, TensorFlow или ONNX и натягивает ее на статический планировщик, где каждый слой и каждая операция привязана к конкретному функциональному блоку и такту, обеспечивая минимальные задержки, но плата за это — компиляция не происходит мгновенно.
GroqFlow — открытый инструментарий, который автоматизирует весь пайплайн: от загрузки модели до выполнения на чипе. По сути, это обертка над компилятором, которая сама выполняет квантизацию, распределение слоев и межчиповый обмен данным.
GroqWare — более широкий набор фирменных утилит для отладки, профилирования и мониторинга производительности LPU. Если GroqFlow помогает запустить модель, то GroqWare — понять, что внутри нее происходит.
TruePoint — программно-аппаратная технология, позволяющая хранить веса и активации в пониженной точности (FP8/FP4), а все матричные умножения выполнять в полной точности (FP32). Это дает 2-4-кратный прирост производительности по сравнению с BF16 без видимой деградации точности вычислений.
RealScale Interconnect — программно-аппаратный интерконнект для межчипового обмена данными. Groq использует особый протокол, который компенсирует естественный дрейф тактовых генераторов так, что сотни чипов выглядят для компилятора как одно логическое ядро. Это позволяет компилятору предсказывать время прибытия данных с любого чипа и открывает дорогу к высокому параллелизму без больших задержек.

Конечно же, после сделки с Nvidia весь этот ПО-зверинец оказался не к месту, так как у Хуанга есть мощная экосистема CUDA, в которой есть инструменты буквально для любых ИИ-операций, однако не исключено, что в будущем собственный аппаратный стэк вновь пригодится Groq для тех или иных задач.

Схема работы компилятора Groq LPU. Источник: Versalence.

Сравнение с конкурентами и производительность Groq LPU

Свою первую порцию известности компания Groq получила в 2024 году, когда ИИ-чипы LPU продемонстрировали скорость генерации до 300 токенов/с при инференсе Llama* 2 70b — в 10 раз больше, чем у Nvidia H100 при запуске той же модели. С тех пор цифры только росли. На Mixtral 8x7B LPU достигал 480 токенов в секунду, а на Llama* 2 7B — до 750 токенов в секунду. Включение спекулятивного декодирования на Llama* 3.3 70B, по словам Groq, позволило разогнаться до 1665 токенов в секунду — и все это на первом поколении 14-нм чипов, без каких-либо аппаратных изменений, чисто софтовыми оптимизациями.

Но поскольку Groq LPU специализируется именно на инференсе, то уместнее сравнивать его с пушками из той же артиллерии, которых за последние несколько лет наплодилось более чем достаточно:

Cerebras — огромные ИИ-чипы WSE-3 тоже используют SRAM память, но за счет своих размеров на них умещается не 500 МБ, а 44 ГБ сверхбыстрой SRAM с пропускной способностью в 21 ПБ/с. Вдобавок, весь чип сделан на одной целиковой кремниевой пластине, что позволило кратно поднять скорость передачи данных между ядрами и свести задержки к минимуму. Совокупность этих факторов сделали из WSE-3 настоящего бога инференса, обеспечивающего скорость в 3000 токенов/с при запуске GPT-OSS 120b, тогда как Groq 3 LPU выдает лишь 500 токенов/с.
SambaNova — вместо того, чтобы делать один гигантский чип, как Cerebras, или массив маленьких детерминированных конвейеров, как Groq, они строят чип с иерархической памятью (SRAM, HBM, DDR) и динамически перестраиваемыми вычислительными конвейерами под архитектуру модели. Это позволяет достичь скорости инференса GPT-OSS 120b свыше 700 токенов/с, пока Groq 3 LPU дает все те же 500 токенов/с.

То есть Groq 3 LPU откровенно отстает от своих конкурентов, обеспечивая меньшую скорость генерации токенов в инференсе LLM. Но, как всегда, дьявол кроется в деталях: Groq берет свое на сценариях с ультранизкой задержкой и минимальным батч-сайзом, где важнее не пиковая скорость, а стабильность и предсказуемость каждого отдельного запроса.

Сравнение скорости генерации токенов на чипах Groq LPU и Cerebras CS-3. Источник: Cerebras.

Ограничения Groq LPU

Как бы ни был хорош LPU, идеального железа не существует. У LPU-чипов есть ряд фундаментальных ограничений, которые могут препятствовать массовому распространению этого типа ИИ-ускорителей.

Маленькая емкость. Как мы уже говорили, LPU-чипы имеют не более 500 МБ SRAM, чтобы обеспечить сверхнизкие задержки. Однако из-за такой малой емкости, выполнять инференс на LPU-чипах приходится только в масштабах стойки, поскольку ни одна современная ИИ-модель просто не поместится в память процессора. При этом, значительно нарастить объем SRAM не выйдет — вырастут задержки и стоимость производства, в результате чего весь смысл LPU-сойдет на нет.
Высокая стоимость развертывания. Этот недостаток напрямую вытекает из емкости LPU — чтобы запускать даже небольшие нейронки на чипах Groq, нужны сотни чипов, уже не говоря о более крупных моделях воде DeepSeek 671B. Даже с учетом того, что Groq выигрывает по цене за токен на инференсе ($0,05-$0,10 за миллион токенов против $0,25 у B200), первоначальные капитальные затраты на построение LPU-кластера кусаются.
Охлаждение. 256 чипов LPU в одной стойке LPX дают суммарный TDP под 25–30 кВт, а значит, требуется жидкостное охлаждение. При этом Nvidia заявляет, что их LPU-системы могут работать и на воздухе, но для серьезных развертываний это маловероятно.
Несовместимость с ИИ. Из-за использования статичного планировщика, разработчики не могут просто взять PyTorch-модель и запустить ее на LPU. Компилятор должен разложить ее в статический граф, а это возможно не на всех ИИ-архитектурах из коробки. Трансформеры — да, летают. А вот со state space моделями (Mamba), рекуррентными нейросетями или экзотическими кастомными архитектурами придется повозиться руками. Кроме того, изначально Groq LPU не поддерживали vLLM, TensorRT-LLM, paged attention, continuous batching и другие популярные ИИ-инструменты, но с приходом Nvidia архитектуру чипов оптимизировали под NIM, NeMo и другие проприетарные среды Хуанга.

LPU и LPX в экосистеме Rubin/Feynman

Сделка с Groq была не просто покупкой технологии — это была закладка фундамента под новую архитектурную эпоху Nvidia. Если раньше Nvidia ассоциировалась исключительно с GPU, то с приходом LPU ставки радикально изменились. Ранее представленный Rubin CPX для префилла выпал из дорожной карты, а его место заняли свежие LPU-чипы, став седьмым ключевым компонентом новой экосистемы компании, наравне с CPU Vera, GPU Rubin, NVLink 6, ConnectX-9, BlueField-4 и Spectrum-X. LPU в этой системе — не замена GPU, а специализированный сопроцессор, заточенный исключительно под фазу декодирования, то есть генерации токенов. Rubin GPU берут на себя вычислительно емкую фазу префилла, а LPU забирает самую чувствительную к задержкам часть — послойную генерацию выходных токенов, где узким местом является пропускная способность памяти.

Схема работы Groq LPU + Nvidia Vera Rubin на фазе декодирования ИИ-моделей. Источник: Nvidia.

Отдельно LPU-чипы поставляться не будут — только в рамках стоек LPX, которые вмещают до 256 чипов Groq 3 LPU, объединенных с фирменного интерконнекта RealScale C2C от Groq со скоростью в 640 ТБ/с. Стойка LPX будет обеспечивать до 128 ГБ SRAM и 40 ПБ/с пропускной способности памяти, а также дополнительно оснащается 12 ТБ оперативной памяти DDR5 для выполнения задач, где емкости SRAM будет недостаточно.

ИИ-процессор Nvidia Groq 3 LPU. Источник: ServeTheHome.

Более того, стойки LPX смогут напрямую и без костылей взаимодействовать с Nvidia Rubin в рамках одного ИИ-кластера благодаря особому режиму работы Attention-FFN Disaggregation, или AFD. При использовании AFD, Rubin GPU продолжат обслуживать attention-слои нейронки, а LPU в это же время будут обрабатывать FFN-слои и экспертные смеси MoE. И то, и другое будет происходить на каждом токене, и оркестрацией этого непрерывного челночного движения данных между GPU и LPU займется диспетчер NVIDIA Dynamo. В конфигурации Rubin + LPX с таким “раздельным” инференсом система сможет демонстрировать в 35 раз более высокую пропускную способность на мегаватт для моделей с триллионом параметров по сравнению с ванильными GPU-решениями.

Вычислительная нода Groq LPX и ее компоненты. Источник: Nvidia.

Но интеграция LPU в экосистему Nvidia не остановится на поколении Rubin. Согласно дорожной карте, продемонстрированной на GTC 2026, в 2027 году выйдет новое поколение Groq 4 LPU, которое будет работать в паре с GPU-ускорителями Feynman. Подробной информации о Groq 4 LPU, очевидно, пока нет, но есть предположения, что чип перейдет на 2-нм техпроцесс, нарастит до 1 ГБ SRAM и закономерно увеличит пропускную способность до 300 ТБ/с. В долгосрочной перспективе NVIDIA, вероятно, интегрирует LPU-подобные тензорные ядра с собственной SRAM непосредственно в кристалл GPU, стирая грань между этими устройствами и создавая универсальный ускоритель, одинаково эффективный и для обучения, и для инференса. Так что LPU — это не финальная точка, а скорее первый шаг к полной архитектурной конвергенции внутри экосистемы NVIDIA.

Выводы

Groq LPU — это не просто очередной ИИ-чип от очередного ИИ-стартапа, а наглядная демонстрация того, как рынок железа для нейросетей вступает в эпоху, где инференс важнее обучения. Groq успела распознать эту тенденцию одной из первых, однако главная акула индустрии ИИ не стала ждать, когда ее долю займут перспективные выскочки, и пошла на опережение, внедрив LPU в собственную экосистему. Очевидно, что LPU не заменит GPU — это сопроцессор для инференса, такой же специализированный инструмент, как тензорные ядра в свое время стали специализированным инструментом для матричных вычислений внутри GPU. Однако не исключено, что в обозримом будущем зеленая компания совершит немыслимый для индустрии шаг — объединит решения для обучения и решения для инференса в единый, универсальный ИИ-чип, и тогда уже ни у кого не будет шансов выстоять перед Nvidia.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow