Cerebras WSE: огромные царь-чипы или огромный ИИ-скам?

14.05.2026

~ 2 мин

Средний

Статьи

Введение

Всего несколько лет назад самыми крупными и, по сути, единственными игроками на рынке ИИ-ускорителей были Nvidia и догоняющая AMD, плюс россыпь корпоративных компаний по типу IBM, у которых тоже были свои разработки, но их сфера интересов касалась государственных тендеров, а не частных заказчиков. Но сейчас все поменялось — практически у каждой второй крупной облачной компании есть собственный ASIC-ускоритель: у AWS есть Trainium, у Google есть TPU а сотни ИИ-стартапов разрабатывают собственные чипы разной степени оригинальности и инновационности, чтобы пошатнуть позиции лидеров рынка. Ко второму типу относится американский стартап Cerebras, но это точно не проходной проект — за последнее время Cerebras нарастили такой авторитет, что им удалось запустить контракты с OpenAI и начать подготовку к выходу на IPO. Что же отличает Cerebras от других проектов? Их огромные “царь-чипы” размером с целиковую кремниевую подложку 300x300 мм. В этой статье специалисты компании ServerFlow расскажут вам, кто такие Cerebras, в чем уникальность их ИИ-ускорителей, как им удалось сделать то, чего не смогла даже Nvidia и действительно ли они говорят правду, или это крупнейшая и самая правдоподобная ИИ-афера в индустрии.

Как появилась Cerebras

Если вы считаете, что Cerebras — одна из сотен мелких компаний, по типу Tachyum с чипами Prodigy, существующими только на бумаге, то вы сильно ошибаетесь. В отличие от таких стартапов, Cerebras была основана в далеком 2015 году, еще до того, как Nvidia представила свой первый ИИ-ускоритель P100. Другими словами, Cerebras вполне заслуживает звания одного из главных пионеров индустрии современного аппаратного обеспечения для искусственного интеллекта. У истоков компании тоже стояли далеко не ноунеймы — Cerebras была основана Эндрю Фельдманом, Гэри Лаутербахом, Майклом Джеймсом, Шоном Ли и Жан-Филиппом Фрикером, все пятеро ранее работали вместе в компании SeaMicro, основанной в 2007 году и купленной AMD в 2012 году за $334 миллиона.

Основатели компании Cerebras. Источник: Cerebras.

Команда SeaMicro создавали очень примечательное железо, а именно энергоэффективные микросерверы с высокой плотностью размещения компонентов, например, серверы SM10000, объединяющие до 512 процессоров Intel Atom Z530 в корпусе 10U. Такое огромное количество чипов удавалось объединить в одной системе благодаря передовой разработке SeaMicro — высокоскоростной сети Freedom Fabric (в будущем она легла в основу AMD Infinity Fabric) на базе ASIC-чипов, объединяющей сотни микропроцессоров в единую топологию (3D torus) с пропускной способностью до 1,28 Тбит/с. Опыт работы с плотной упаковкой вычислительных ресурсов и решением проблем межсоединений в компании SeaMicro лег в основу будущей философии Cerebras — пока все компании будут резать кремниевую пластину на сотни мелких ИИ-чипов, Cerebras будут использовать пластину целиком, делая огромные “царь-чипы”.

Плата Freedom Fabric для серверов SeaMicro SM10000

Объединительная плата Freedom Fabric для передовых серверов SeaMicro SM10000. Источник: Ebay.

Особенности ИИ-чипов Cerebras: как устроен Wafer-Scale Engine

Хотя в сообществе процессоры Cerebras прославились под именем “царь-чипы”, в реальности их ИИ-процессоры называются Wafer-Scale Engine (WSE). Чипы WSE представляют собой не отдельный кристалл, вырезанный из кремниевой пластины, а практически всю кремниевую подложку целиком. У многих может возникнуть мысль: ну не просто же так Nvidia, AMD, Google и десятки других компаний режут большие подложки на мелкие чипы? Наверное, в этом есть какой-то смысл? Конечно, в этом есть смысл, но он не заключается в том, что так процессоры работают эффективнее, а в том, что делать чипы по-другому было невозможно. Когда изготавливается большая кремниевая подложка, некоторые участки ее логики всегда печатаются с браком из-за экстремальной сложности технологического процесса. При высокотемпературной обработке (окислении, диффузии) на кремнии возникают структурные дефекты, которые влияют на электропроводность и работоспособность системы. Если бы компании использовали бы подложку целиком, то она всегда получалась бы полностью бракованной, и весь ИИ-чип шел бы на свалку. Именно поэтому другие компании просто убирают бракованные элементы, оставляя только удачные части подложки, делая из них процы.

Сравнение размеров чипа WSE-3 Cerebras и большого GPU-чипа. Источник: Cerebras.

Но Cerebras пошла принципиально другим путем — вместо того, чтобы адаптироваться к проблеме, компания решила раз и навсегда ее устранить с помощью одной технологической инновации. Инженеры Cerebras уменьшили размер каждого вычислительного ядра до 0,05 мм² (примерно 1% от размера ядра Nvidia H100), добавили резервные ядра, которые могут заменять дефектные, и спроектировали внутричиповую коммуникационную ткань, способную маршрутизировать данные в обход неисправных участков.

Архитектура ИИ-ускорителей Cerebras Wafer-Scale Engine (WSE). Источник: Cerebras.

Такой подход полностью сводит на нет влияние бракованных участков чипа, а также уменьшило их общее количество, что сделало производство WSE фактически безотходным и выгодным. Более того, архитектура, где все компоненты чипа находятся на одной подложке (память, вычисления и межсоединения) устраняет узкие места пропускной способности, которые преследуют традиционные GPU-решения с их внешней памятью HBM и межчиповыми соединениями NVLink, чем и обуславливается огромная скорость генерации токенов царь-процессоров WSE.

Кремниевая пластина для производства ИИ-чипов

Целиковая кремниевая пластина без брака — основа аппаратного стека WSE.

Поколения WSE Cerebras

Несмотря на то, что Cerebras существует уже более 10 лет, за эти годы компания успела выпустить всего лишь три WSE, пока Nvidia успела наплодить аж 10 поколений GPU за тот же отрезок времени. Связано это с тем, что компании долго не хватало финансирования — никто не верил, что кучка инженеров из поглощенной AMD организации смогут сделать хоть что-то годное. Тем более, на бумаге проект Cerebras казался не просто амбициозным, а слишком амбициозным — пока все режут пластины на мелкие чипы, они решили использовать всю подложку? Ишь что удумали?! Добавим к этому то, что в 2015 году никто и не думал, что скоро произойдет ИИ-бум, поэтому инвесторы предпочитали вкладывать деньги в мета-вселенные, криптовалюты и другие секторы. С горем-пополам, Cerebras все же удалось наладить производство, и свет увидели следующие прорывные решения:

WSE-1

Представленный в августе 2019 года на конференции Hot Chips, Wafer-Scale Engine первого поколения стал сенсацией, доказав, что производство чипа размером с целую 300-мм кремниевую пластину не только технически возможно, но коммерчески оправдано. Выполненный по 16-нм техпроцессу TSMC, этот гигант площадью 46 225 мм² содержал 1,2 триллиона транзисторов и 400 000 вычислительных ядер Sparse Linear Algebra (SLA) — специализированных блоков, оптимизированных под операции с разреженными тензорами. Чип оснащался 18 ГБ встроенной статической памяти SRAM с пропускной способностью 9 ПБ/с, что на порядки превосходило возможности любого GPU того времени. Внутренняя коммуникационная сеть Swarm, организованная в виде двумерной mesh-сетки, обеспечивала обмен данными между ядрами с суммарной пропускной способностью 100 Пбит/с и задержками на уровне наносекунд, полностью устраняя бутылочное горлышко межчиповых соединений.

WSE-1 стал основой для первой коммерческой системы Cerebras CS-1, которая при энергопотреблении около 20 кВт (с учетом охлаждения и вспомогательной электроники) демонстрировала производительность, эквивалентную сотням GPU, но в корпусе всего одного сервера. Несмотря на скепсис части индустрии, именно WSE-1 доказал жизнеспособность концепции Wafer-Scale Engine и заложил фундамент для всего последующего развития Cerebras.

Cerebras WSE-1. Источник: Cerebras.

WSE-2

В апреле 2021 года Cerebras представила второе поколение своего процессора, которое сохранило ту же физическую площадь в 46 225 мм², но благодаря переходу на значительно более совершенный 7-нм техпроцесс TSMC вместило 2,6 триллиона транзисторов и 850 000 вычислительных ядер. Это более чем вдвое превышало показатели предшественника при неизменных габаритах, что стало возможным благодаря крайнему увеличению плотности размещения транзисторов. Объем встроенной SRAM-памяти вырос до 40 ГБ, а ее пропускная способность достигла феноменальных 20 ПБ/с — этого достаточно, чтобы за одну секунду передать объем данных, эквивалентный содержимому 5 000 фильмов в качестве 4K. Внутренняя коммуникационная сеть также получила пропускную способность до 220 Пбит/с, что обеспечило еще более эффективное взаимодействие между ядрами при параллельной обработке огромных моделей.

WSE-2 лег в основу системы CS-2, которая стала первым продуктом Cerebras, доступным широкому кругу заказчиков через облачную платформу, и именно на базе CS-2 были построены первые суперкомпьютеры серии Condor Galaxy, включая Condor Galaxy 1 производительностью 4 EFLOPS. Побежали искать Condor Galaxy 1 в TOP500? Не спешите, ведь его там нет! Вы скажете: “Как же так?” Раз этот суперкомпьютер мощнее даже El Capitan с его 1,7 EFLOPS, то его однозначно должны добавить в главный рейтинг HPC-кластеров. Если его там нет, то Cerebras — скам!” А вот и нет! Рейтинг TOP500 размещает только самые мощные системы, которые поддерживают режим вычислений двойной точности FP64 LINKPAD, а чипы WSE, как мы помним, оптимизированы для работы с разреженными тензорами, то есть они предназначены только для ИИ-вычислений. Так что ни Condor Galaxy 1, ни любая другая HPC-система на базе WSE в TOP500 не попадет.

Cerebras WSE-2. Источник: Cerebras.

WSE-3

В марте 2024 года Cerebras анонсировала третье, самое актуальное поколение своего флагманского ИИ-процессора, которое стало кульминацией многолетних инженерных усилий и на сегодняшний день представляет собой самый мощный одиночный чип в истории человечества. Произведенный по 5-нм техпроцессу TSMC, WSE-3 сохранил прежнюю площадь 46 225 мм², но вмещает уже 4 триллиона транзисторов — это абсолютный мировой рекорд, кратно превышающий показатель ближайшего конкурента (Nvidia B200 содержит 208 миллиардов транзисторов). Количество вычислительных ядер достигло 900 000, и все они оптимизированы исключительно для задач искусственного интеллекта, включая операции с низкой точностью (FP8, FP16), разреженные вычисления и специфические паттерны доступа к памяти, характерные для трансформерных архитектур. Объем встроенной SRAM увеличен до 44 ГБ, а пропускная способность памяти поднята до 21 ПБ/с в секунду — это более чем в 7 000 раз превышает пропускную способность памяти HBM3e у Nvidia H100. Пиковая производительность WSE-3 в формате FP16 достигает 125 PFLOPS, что примерно соответствует 3,5 серверам Nvidia DGX B200, но при вдвое меньшем энергопотреблении и в едином корпусе системы CS-3.

Именно на WSE-3 базируются все современные достижения Cerebras в области высокоскоростного инференса, включая рекордные показатели на моделях Llama* 3.1 405B и Llama* 4 Maverick 400B, а также многомиллиардные контракты с OpenAI и AWS. По сравнению с WSE-2 новое поколение предлагает более чем двукратный прирост по числу ядер и объему памяти, а по сравнению с WSE-1 — более чем четырехкратное увеличение транзисторов и почти пятикратное увеличение пропускной способности памяти, что наглядно демонстрирует, как быстро развивается технология процессоров Cerebras на большой пластине.

Cerebras WSE-3. Источник: Cerebras.

Аппаратная экосистема Cerebras

Актуальные ИИ-чипы WSE-3 не существуют как отдельный компонент, который можно купить и установить в обычный сервер — он поставляется исключительно в составе готовой вычислительной системы Cerebras CS-3. CS-3 представляет собой 16U-сервер, который содержит один WSE-3, подключенный к внешней памяти MemoryX на базе DRAM DDR5 и NAND-памяти с общим объемом от 12 ТБ до 1,2 ПБ, что позволяет работать с моделями до 24 триллионов параметров на одном ИИ-чипе без необходимости в сложном распределенном инференсе. Но возникает резонный вопрос: как Cerebras будут сохранять высокие скорости вывода при передаче данных из относительно медленной DRAM памяти в высокоскоростную память SRAM, которой еще и всего 44 ГБ? Это же должно сильно урезать пропускную способность? Компания, к сожалению, не дает ответа на этот вопрос, что вызывает дополнительный скепсис у критиков Cerebras.

ИИ-стойка Cerebras CS-3 на базе чипов WSE-3. Источник: Cerebras.

Так как один сервер CS-3 имеет энергопотребление в 23 кВт, система требует жидкостное охлаждение, а также мощную подсистему питания и интерконнекты для связи между чипами и стойками.

Крупные корпоративные клиенты Cerebras и исследовательские организации могут приобрести физические системы CS-3 для развертывания в собственных дата-центрах. Цены на CS-3 не раскрываются, но по некоторым данным, она достигает $2-3 миллионов (тот же DGX B200 обойдется всего в $500 000). Для компаний, не готовых к капитальным затратам на собственный кластер, существует облачная платформа Cerebras Cloud, доступная напрямую через API или через платформы AWS, Vercel и Openreuters. Цены в API такие:

ZAI GLM 4.7	~1000 tokens/s	$2.25/M tokens	$2.75/M tokens
GPT OSS 120B	~3000 tokens/s	$0.35/M tokens	$0.75/M tokens
Llama 3.1 8B	~2200 tokens/s	$0.10/M tokens	$0.10/M tokens
Qwen 3 235B Instruct	~1400 tokens/s	$0.60/M tokens	$1.20/M tokens

Как вы можете видеть, Cerebras обещают обеспечить огромную скорость генерации токенов на вывод ИИ-моделей через их API. Например, на OpenRouter скорость инференса GLM 4.7 на мощностях Cerebras достигает 382 токенов в секунду, тогда как в API Google Vertex скорость достигает лишь 97 токенов в секунду. То за такую огромную скорость Cerebras просит больше всего денег, что неудивительно при таких скоростях, однако только при оплате выходных токенов (примерно $2,12/миллион токенов), тогда как за входные токены цены вполне сопоставимы конкурентам ($0,12/миллион токенов), что может намекать на определенные архитектурные ограничения стоек CS-3. Кроме того, для инференса используются далеко не самые современные ИИ-модели: только GLM 4.7, GPT OSS 120B, Llama 3.1 8B и Qwen 3 235B Instruct, что обуславливается спецификой ИИ-чипов — каждую модель нужно долго настраивать для запуска на WSE-3.

Перспективы развития Cerebras

2026 год стал для Cerebras годом выхода на публичные рынки, и финансовая траектория компании впечатляет даже на фоне перегретого ИИ-сектора. 17 апреля 2026 года компания подала заявку на свое первое IPO, и оценка составляет около $35 миллиардов (Intel, например, имеет капитализацию $339 миллиардов). С доходом у компании тоже все отлично — выручка выросла с $246 миллионов в 2022 году до $5,1 миллиарда в 2025 году, при этом 2025 год стал первым прибыльным для Cerebras: чистая прибыль составила $2,38 миллиарда против убытка в 4,85 миллиарда годом ранее.

Ключевой драйвер этого роста Cerebras — контракты с технологическими гигантами: соглашение с OpenAI на сумму более $20 миллиардов предусматривает развертывание 750 мегаватт вычислительных мощностей Cerebras для инференса ИИ-моделей OpenAI, что делает эту сделку крупнейшим развертыванием высокоскоростного ИИ-инференса в мире. Дополнительно OpenAI предоставила Cerebras кредит в 1 миллиард долларов в обмен на право получения до 10% акций компании. Кроме того, в марте 2026 года к числу партнеров Cerebras добавилась AWS, предложившая гибридную схему: в задачах инференса собственные чипы Amazon Trainium обрабатывают префилл, а Cerebras CS-3 берет на себя декодирование, что позволяет достичь скорости в 25 раз выше, чем у GPU Nvidia в сопоставимых конфигурациях.

Несмотря на впечатляющие цифры, перед Cerebras стоят серьезные вызовы, которые могут определить, станет ли компания “второй Nvidia” или останется нишевым игроком:

Первый и самый очевидный риск — концентрация выручки: хотя новые контракты с OpenAI и AWS частично решают проблему, зависимость от нескольких мегаклиентов сохраняется. Если OpenAI, которая активно инвестирует в диверсификацию своих аппаратных поставщиков, в какой-то момент решит переключиться на другие решения или собственные чипы, бизнес Cerebras окажется под серьезной угрозой.
Второй вызов — технологический предел масштабирования: Wafer-Scale Engine уже использует целую 300-мм пластину, и дальше увеличивать размер чипа физически невозможно, поэтому дальнейший рост производительности может идти только за счет увеличения числа систем в кластере, что возвращает нас к тем же проблемам межсоединений, от которых Cerebras изначально пыталась уйти.
Третий вызов — конкуренция: рынок AI-ускорителей становится все более насыщенным, и помимо Nvidia, которая продолжает доминировать с 70% долей рынка, здесь активно действуют Google TPU, Amazon Trainium, а также десятки стартапов вроде, каждый со своим уникальным подходом.

Выводы

Cerebras — это не афера, а подлинная инженерная революция, которая нашла свою нишу и доказала ее коммерческую состоятельность. Компания решила проблему, которую десятилетиями считали нерешаемой — создала работоспособный и экономически выгодным чип размером с целую кремниевую пластину, — и продемонстрировала, что в специфических задачах инференса сверхбольших языковых моделей ее архитектура действительно на порядки превосходит традиционные GPU-решения. Контракты с OpenAI на сумму свыше 100 миллиардов долларов и с AWS на гибридные развертывания подтверждают, что крупнейшие игроки индустрии видят в технологии Cerebras реальную ценность, а не маркетинговую иллюзию. Но важно понимать, что Cerebras — это не убийца Nvidia, и не универсальная замена GPU для всех типов AI-нагрузок, а узкоспециализированный инструмент, блестяще справляющийся с узким классом задач, но имеющий ограниченную гибкость и требующий значительных капитальных затрат.

Автор:

Serverflow