Google официально анонсировала два новых TPU-чипа восьмого поколения — TPU 8t, ориентированный на обучение больших моделей искусственного интеллекта, и TPU 8i, спроектированный специально для агентного инференса. Это первые TPU с момента запуска разработки собственных чипов компании в мае 2016 года, в которых Google вновь разделяет архитектуру на два направления после нескольких поколений универсальных TPU вроде Trillium и Ironwood. Новинки появятся в инфраструктуре Google Cloud Platform до конца года как в виде отдельных инстансов, так и в составе платформы AI Hypercomputer.
Подробнее о TPU 8t и TPU 8i
TPU 8t — это передовой тензорный ускоритель для обучения моделей искусственного интеллекта, обеспечивающий ИИ-производительность в 12 PFLOPS в режиме FP4 — для сравнения, ИИ-ускорители Nvidia B200 обеспечивают эффективность в 20 PFLOPS в том же режиме, а Google TPU 7 Ironwood мог предложить только 4,6 PFLOPS в режиме FP8. Амин Вахдат, главный инженер Google по ИИ и инфраструктуре, заявляет о сокращении времени обучения с месяцев до недель и улучшении соотношения цены и производительности в 2,8 раза по сравнению с Ironwood. TPU 8t также оснащен 216 ГБ памяти HBM3E с пропускной способностью 6,5 ТБ/с, тогда как Nvidia B200 имеет лишь 192 ГБ HBM3E, но с пропускной способностью в 8 ТБ/с. Дополнительно TPU 8t имеет 128 МБ встроенной памяти SRAM (та же, что используется в кэш памяти CPU). Архитектура TPU 8t включает векторные, матричные и специализированные SparseCore-ядра для обработки разряженных данных. Для вертикального масштабирования используется межчиповый интерконнект ICI пропускной способностью 19,2 Тбит/с в каждую сторону и 400 Гбит/с для горизонтального масштабирования. TPU 8t будут объединяться в гетерогенные кластеры, вмещающие до 9600 чипов и обеспечивая до 121 EFLOPS ИИ-производительности при общем объеме HBM-памяти в 2 ПБ. В TPU 8t реализована технология TPUDirect RDMA, которая позволяет передавать данные между HBM и сетевым адаптером напрямую не задействуя центральный процессор и ОЗУ, а также поддерживается TPUDirect Storage, связывающий память TPU с СХД. При использовании файловой системы 10T Lustre, которая выдает скорости до 10 ТБ/с, инфраструктура позволяет передавать петабайты данных к TPU кратно быстрее, чем это было реализовано в TPU v7.
Архитектура тензорного ускорителя для обучения искусственного интеллекта TPU 8t. Источник: .
TPU 8i — новейший тензорный ускоритель для задач инференса агентных моделей искусственного интеллекта, обеспечивающий на 80% лучшую эффективность на ватт и способный обслуживать в 2 раза больше юзеров, чем Ironwood при тех же затратах ресурсов. TPU 8i имеет 288 ГБ HBM3-памяти со скоростью в 8,6 ТБ/с, а также 384 МБ SRAM-памяти, достигая ИИ-производительности в 10 PFLOPS в режиме FP4 — ИИ-ускоритель для инференса Nvidia RTX PRO 6000 Blackwell Server Edition дает лишь 4 PFLOPS производительности в том же режиме и имеет 96 ГБ GDDR7 c пропускной способностью 1,59 ТБ/с. Огромный объем SRAM позволяет удерживать значительную часть KV-кэша непосредственно на кристалле, резко сокращая задержки при декодировании длинных контекстов и уменьшая простои тензорных ядер. В отличие от TPU 8t, где используется технология SparseCore, в TPU 8i применяется новых механизм ускорения коллективных операций CAE, который разгружает коммуникации между ядрами и снижает накладные расходы на уровне кристалла. Кластер TPU 8i масштабируется до 1152 чипов с суммарной производительностью 11,6 EFLOPS и 331,8 ТБ HBM-памяти. Для межчипового соединения вместо 3D torus в кластерах TPU 8t используется топология Boardfly, оптимизированная для обработки трафик MoE-моделей, требующих минимального числа сетевых переходов.
Оба чипа объединяются сетевой инфраструктурой Virgo Network, построенной на плоской двухуровневой неблокирующей топологии. Пропускная способность в пределах ЦОД выросла 4-кратно в сравнении с предыдущим поколением TPU. Virgo позволяет объединить до 134 тысяч чипов в рамках одного ЦОД, предлагая неблокируемую скорость до 47 ПБ/с и более 1,6 YFLOPS совокупной производительности с почти линейным масштабированием. Новые тензорные процессоры работают в системе под управлением нового Arm-процессора Google Axion и используют системы жидкостного охлаждения. Google также внедрила интегрированное управление питанием, регулирующее потребление в реальном времени, что даёт до двукратного прироста производительности на ватт по сравнению с Ironwood.
Выводы
Разделение линейки TPU восьмого поколения на решения для обучения и инференса отражает фундаментальный сдвиг в потребностях ИИ-инфраструктуры. TPU 8t с его рекордной масштабируемостью и прямым доступом к хранилищам нацелен на обучение моделей следующего поколения, чьи размеры и требования к памяти продолжают расти экспоненциально. TPU 8i, напротив, оптимизирован под принципиально новый класс нагрузок — агентные системы, генерирующие множество параллельных запросов с длинными контекстами и требующие минимальных задержек. Выход чипов на рынок до конца 2026 года покажет, насколько TPU 8t и TPU 8i продемонстрируют себя в реальных нагрузках.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.